ES原生查询操作总结

ES的查询有query、URL两种方式,一种是通过REST请求URI发送检索参数,另一种是通过REST请求体发送检索参数。

1、URL方式

1.1、语法

1
curl [ -s][ -g][ -X<REST Verb>][ -H 'Content-Type: application/json'] '<Node>:<Port>/<Index>[/Type][/ID]/_search?pretty&q=<search string>'

  -s 不输出查询的时间那些东西
  -g 做转义用  
  :REST风格的语法谓词,GET/POST/PUT
  :节点ip,默认使用localhost
  :节点端口号,默认80,ES默认使用9200
  :索引名,支持通配符,power_json*
  :索引类型,由于一个index只有一个type,可不输入
  :操作对象的ID号,可不输入
  q :前面加&,后跟查询语句

1.2、常用参数

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
q :查询字符串
sort :排序执行。 fieldName:asc/fieldName:desc。fieldName可以是文档中的实际字段,也可以是特殊_score名称,表示基于分数的排序。可以有几个sort参数 。
from :从命中的索引开始返回。默认为0。
size :表示要返回的命中数。默认值为10。
_source_include :查询包含某些source字段的文档。
_source_exclude :查询不包含某些source字段的文档。
timeout :搜索超时,将搜索请求限制在指定的时间值内执行,默认为无超时。
default_field :默认为index.query.default_field,即未指定字段前缀时返回所有字段,索引设置为*
default_operator :默认查询运算符,未指定时默认为OR。
analyzer :用于分析查询字符串的分析器名称。
_source :设置为false禁用_source字段检索。
analyze_wildcard :是否应分析通配符和前缀查询,默认为false
status:active :where the status field contains active ——(status相当于fieldname,active相当于值——>TESTID:39232032303039,由于=被用在了前面“q=”,所以这里用“:”代替了“=”)
title:(quick OR brown) ——where the title field contains quick or brown. If you omit the OR operator the default operator will be used
author:"John Smith"——where the author field contains the exact phrase "john smith"
_exists_:title——where the field title has any non-null value
date:[2012-01-01 TO 2012-12-31]——All days in 2012
count:[10 TO *]——Numbers from 10 upwards
count:>=10——Numbers from 10 upwards

1.3、示例

** 基本操作 **

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
#创建索引
PUT /mydemo_01
{
"settings" : {
"index" : {
"number_of_shards" : 3,
"number_of_replicas" : 2
}
}
}
#索引的分片数为3,备份数为2

GET /mydemo_01

#创建文档 /索引/类型/ID 如果没有id会自动生成id
PUT /mydemo_01/user/3
{
"name":"hu",
"idcard":"2430",
"age":24
}

GET /mydemo_01/user/1

{
"took": 1, #耗时
"timed_out": false,#是否超时
"_shards": {
"total": 3, #查询了多少分片
"successful": 3,
"skipped": 0,
"failed": 0
},
"hits": {#命中结果
"total": 1,#命中数
"max_score": 0.2876821,#最高得分
"hits": [
{
"_index": "mydemo_01",
"_type": "_doc",
"_id": "3",
"_score": 0.2876821,
"_source": {
"name": "hu",
"idcard": "2430",
"age": 24
}
}
]
}
}

#删除文档
DELETE /mydemo_01/user/2?pretty

#删除索引
DELETE /mydemo_01

#查数据
GET /mydemo_01/_search

GET /mydemo_01?pretty

** 查看节点情况 **

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
#查看node状态
GET /_cat/nodes?v

#查看集群健康状况  s=sort排序
GET /_cat/health?v
#查看索引,并以索引名字排序
GET /_cat/indices?v&s=index

#只看mydemo_01索引,并以索引名字排序
GET /_cat/indices/mydemo_01*?v&s=index

#查询索引的具体记录信息 #pretty表示返回漂亮打印的JSON结果
GET /mydemo_01*?pretty

GET /_cat/indices?v&s=index' //查看索引,并以索引名字排序(s=sort)

#查看所有索引
http://localhost:9200/_cat/indices?v

#disk.percent显示占用的硬盘空间
GET /_cat/allocation?v&s=node
  • Green - everything is good (cluster is fully functional),即最佳状态
  • Yellow - all data is available but some replicas are not yet allocated (cluster is fully functional),即数据和集群可用,但是集群的备份有的是坏的
  • Red - some data is not available for whatever reason (cluster is partially functional),即数据和集群都不可用

结果解释:

1
2
3
4
heap.percent:堆内存,1/2最大内存-1和31之间取较小的值,高的话就是ES集群负担比较重,解决:关闭一些索引(阈值差不多可以定在80左右)后会释放一部分heap.percent,但不会释放disk.percent
ram.percent:一直挺高,物理内存的使用情况,Lucene会将闲置的内存都占用做cache,如果有应用使用内存时,cache会被释放出来
cpu:一般不会很高,5以下吧,如果有很多query的话会高,如果一直高释放不掉可能查询语句有问题
node.role:【mdi】master data i查询接口(可否在节点上查询)

** 数据查询 **

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
GET /mydemo_01*/_search?pretty&q=_exists_:name #查指定字段是否存在
GET /mydemo_01*/_search?pretty&q=name:hu&size=3 #查指定字段值显示3个
#如果在浏览器中可以直接http://127.0.0.1:9200/mydemo_01*/_search?pretty&q=name:hu&size=3

GET /mydemo_01*/_search?pretty&q=name:hu&from=2&size=3 #从第3个开始只显示3个
GET /mydemo_01*/_search?pretty&sort=id:desc # 排序desc降序,默认为升序
GET /mydemo_01*/_search?pretty&analyze_wildcard&q=idcard:12 #模糊查询
GET /mydemo_01*/_search?pretty&q=age:<22 #比较大小
GET /mydemo_01*/_search?pretty&q=age[10 TO 30] #范围
GET /mydemo_01*/_search?pretty&_source=false #是否显示
GET /mydemo_01*/_search?pretty&_source_includes=name,idcard #查询包含的字段
GET /mydemo_01*/_search?pretty&q=(name:hu AND idcard:243) #组合查询

#查询多个索引(index),多个类型(type)
GET /mydemo_01,demo/_search?q=name:hu

#还可以指定类型参数,例如
GET /mydemo_01/user,fdf/_search?q=name:hu
#由于类型在未来的版本中将被移除,所以这种用法也不那么重要了。

#或者要在全部的索引中查询
GET /_all/_search?q=name:hu

或者

#多索引(搜索存在于所有索引或一些特定索引中的文档)
GET /_search?q=name:huangxiaoming

#多类型(搜索所有类型或某种指定类型的索引中搜索所有文档)
GET /mydemo_01/_search?q=age:100


#关闭和打开索引

POST /mydemo_01/_close
POST /mydemo_01/_open

#删除符合条件的记录

POST /mydemo_01*/_delete_by_query?pretty&q=name:zhangsanfeng

#查询多个Id
GET /mydemo_01/user/_mget
{
"ids":[1,3,2,4]
}

#为了保持_version与外部版本控制的数值一致,使用version_type=external检查数据当前的version值是否小于请求中的version值
#查询指定版本数据

PUT /mydemo_01/user/3?version=2
{
"name":"huv2",
"idcard":"2430",
"age":24
}

GET /mydemo_01/user/3?version=2

** 批量操作 **
Elasticsearch还可以使用_bulk API批量执行上述任何操作

1
2
3
4
5
6
7
8
9
10
11
12
13
#同时更新两个文档
POST /mydemo_01/user/_bulk?pretty
{"index":{"_id":"1"}}
{"name": "xiaoming1" }
{"index":{"_id":"3"}}
{"name": "xiaoming2" }

GET /mydemo_01/_search
#更新第一个文档(ID为1),删除第二个文档(ID为2)
POST /mydemo_01/user/_bulk?pretty
{"update":{"_id":"1"}}
{"doc": { "name": "chas" } }
{"delete":{"_id":"2"}}

2、结构化查询(DSL)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
GET /mydemo_01/user/_search
#精确查询
#Term查询不会对字段进行分词查询,会采用精确匹配。
GET /mydemo_01/user/_search
{
"query": {
"term": {
"name": "宋小明"
}
}
}
#term是代表完全匹配,即不进行分词器分析,文档中必须包含整个搜索的词汇

#模糊查询
#Match会根据该字段的分词器,进行分词查询。
GET /mydemo_01/user/_search
{
"from": 0,
"size": 2,
"query": {
"match": {
"name": "明"
}
}
}

#filter过滤查询
GET /mydemo_01/user/_search
{
"query": {
"bool": {
"must": [
{
"match_all": {

}
}
],
"filter": {
"range": {
"age": {
"gt": 10,
"lte": 20
}
}
}
}
},
"from": 0,
"size": 10,
"_source": [
"name",
"age"
]
}