当前位置: 首页 > article >正文

Elasticsearch搜索引擎 3(DSL)

Elasticsearch提供了基于JSON的DSL(Domain Specific Language)语句来定义查询条件,其JavaAPI就是在组织DSL条件。

1.DSL查询

  • 叶子查询(Leaf query clauses):在特定的字段里查询特定值,属于简单查询。

  • 复合查询(Compound query clauses):以逻辑方式组合多个叶子查询或者更改叶子查询的行为方式。

 测试:无条件查询match_all

#DSL查询
GET /items/_search
{
  "query":{
    "match_all": {}
  }
}

我们的数量不止10000,但是查询出来的value只有10000,并且数据只显示10条?

Elasticsearch默认超过10000条只显示10000,并且设置了默认分页的查询页数

 

2.叶子查询

叶子查询类型有很多,可以在官网查看全部

Query DSL | Elasticsearch Guide [7.12] | Elastic

  • 全文检索查询(Full Text Queries):利用分词器对用户输入搜索条件先分词,得到词条,然后再利用倒排索引搜索词条。例如:

    • match:单字段

    • multi_match:多字段

  • 精确查询(Term-level queries):不对用户输入搜索条件分词,根据字段内容精确值匹配。但只能查找keyword、数值、日期、boolean类型的字段。例如:

    • ids

    • term:精准匹配

    • range:范围匹配

全文检索查询

1.match

  "query":{
    "match": {
      "字段名": "搜索条件"
    }
  }

#叶子查询match
GET /items/_search
{
  "query":{
    "match": {
      "name": "牛奶"
    }
  }
}

 存在一个_score关联度打分,返回结果时按照分值降序排列

 

 2.multi_match

    "multi_match": {
      "query": "搜索条件",
      "fields": ["字段1","字段2"]
    }

字段1和字段2是“或”关系,只需要满足一个即可

#叶子查询multi_match
GET /items/_search
{
  "query":{
    "multi_match": {
      "query": "宾格瑞",
      "fields": ["name","brand"]
    }
  }
}

 

精准匹配 

不做分词,只根据输入字段匹配

1.term 

    "term": {
      "字段名": {
        "value": "查询条件"
      }
    }

#精确查询term
GET /items/_search
{
  "query":{
    "term": {
      "brand": {
        "value": "宾格瑞"
      }
    }
  }
}

2.range 

    "range": {
      "price": {
        "gte/gt": 1000,
        "lte/lt": 2000
      }
    }

查询price 1000-2000

#范围查询查询range
GET /items/_search
{
  "query":{
    "range": {
      "price": {
        "gte": 1000,
        "lte": 2000
      }
    }
  }
}

 3.复合查询

复合查询=多个叶子查询

1.算分函数查询

在使用全文检索查询match中返回结果有_score关联度打分,按照分值降序排列,但是日常浏览器搜索中,搜索出来的前几条往往是广告,说明_score关联度打分可控。

function score 查询中包含四部分内容:

  • 原始查询条件:query部分,基于这个条件搜索文档,并且基于原始算法打分,原始算分。

  • 过滤条件:filter部分,符合该条件的文档才会重新算分。

  • 算分函数:符合filter条件的文档要根据这个函数做运算,得到的函数算分,有四种函数

    • weight:函数结果是常量

    • field_value_factor:以文档中的某个字段值作为函数结果

    • random_score:以随机数作为函数结果

    • script_score:自定义算分函数算法

  • 运算模式:算分函数的结果、原始查询的相关性算分,两者之间的运算方式,包括:

    • multiply:相乘

    • replace:用function score替换query score

    • 其它,例如:sum、avg、max、min

GET /hotel/_search
{
  "query": {
    "function_score": {
      "query": {  .... }, // 原始查询,可以是任意条件
      "functions": [ // 算分函数
        {
          "filter": { // 条件过滤
            "term": {
              "字段": "过滤条件"
            }
          },
          "weight": 10 // 算分权重为2
        }
      ],
      "boost_mode": "multipy" // 加权模式,求乘积
    }
  }
}

 2.bool查询

利用逻辑运算来组合一个或多个查询子句的组合,bool查询支持的逻辑运算有:

  • must:必须匹配每个子查询,类似“与”

  • should:选择性匹配子查询,类似“或”

  • must_not:必须不匹配,不参与算分,类似“非”

  • filter:必须匹配,不参与算分

与搜索关键字无关的查询尽量采用must_not或filter逻辑运算,避免参与相关性算分。 

GET /items/_search
{
  "query": {
    "bool": {
      "must": [
        {"match": {"name": "手机"}}
      ],
      "should": [
        {"term": {"brand": { "value": "华为" }}},
        {"term": {"brand": { "value": "小米" }}}
      ],
      "must_not": [
        {"range": {"price": {"gte": 2500}}}
      ],
      "filter": [
        {"range": {"price": {"lte": 1000}}}
      ]
    }
  }
}

 4.排序

GET /indexName/_search
{
  "query": {
    "match_all": {}
  },
  "sort": [
    {
      "排序字段": {
        "order": "排序方式asc和desc"
      }
    }
  ]
}

5.分页

1.基础分页

elasticsearch中通过修改fromsize参数来控制要返回的分页结果:

  • from:从第几个文档开始

  • size:总共查询几个文档

GET /items/_search
{
  "query": {
    "match_all": {}
  },
  "from": 0, // 分页开始的位置,默认为0
  "size": 10,  // 每页文档数量,默认10
  "sort": [
    {
      "price": {
        "order": "desc"
      }
    }
  ]
}

 2.深度分页

在面对数据量比较大时,ELasticsearch会采取分片存储,将数据分成n份,分配到不同的节点上。利于数据的扩展和存储,但是也会存在问题。

我要查找990-1000的数据,从单体结构上,只需要排序然后找前1000名,就可以获得990-1000的数据,但是采取分片存储后,分片1的990-1000是全部数据的990-1000吗,大概率不是。此时,需要找到所有的分片前1000,然后整合到一起,再排序,这样就可以找到总数据的990-1000

那如果我要找9990-10000,是不是就要找到每个分片的前10000名数据在整合排序查找。

查询分页深度较大时,汇总数据过多,对内存和CPU会产生非常大的压力,因此elasticsearch会禁止from+ size 超过10000的请求。

解决深度分页方案:

  • search after:分页时需要排序,原理是从上一次的排序值开始,查询下一页数据。官方推荐使用的方式。

  • scroll:原理将排序后的文档id形成快照,保存下来,基于快照做分页。官方已经不推荐使用。

6.高亮 

在浏览器搜索Elasticsearch,发现所有的Elasticsearch、Elastic样式异于其他内容。

对搜索内容进行分词,对分词字段打上高亮标签<em></em>或<strong></strong>

实现:

GET /{索引库名}/_search
{
  "query": {
    "match": {
      "搜索字段": "搜索关键字"
    }
  },
  "highlight": {
    "fields": {
      "高亮字段名称": {
        "pre_tags": "<em>",
        "post_tags": "</em>"
      }
    }
  }
}

http://www.kler.cn/a/590545.html

相关文章:

  • 数学建模:模型求解方法
  • Windows Qt动态监测系统分辨率及缩放比变化
  • 大动作!百度发布文心大模型4.5、文心大模型X1
  • Shp文件转坐标并导出到Excel和JSON(arcMap + excel)
  • Linux-数据结构-线性表-单链表
  • 基于深度学习的风格迁移实战:从神经风格迁移到CycleGAN
  • 管家婆实用贴-如何设置打印机共享
  • 【Go语言圣经3.1】
  • Python中的Collections库
  • pyqt 上传文件或者文件夹打包压缩文件并添加密码并将密码和目标文件信息保存在json文件
  • 【从零开始学习计算机科学】数据库系统(十一)云数据库、NoSQL 与 NewSQL
  • 面向机器人领域 | AKM Delta-Sigma数字输出无磁芯电流传感器
  • vue/H5的日历组件可简单定制
  • [网络][tcp协议]:tcp报头
  • UI设计公司:数据大屏设计提升用户体验的方法
  • 【软考-架构】5.2、传输介质-通信方式-IP地址-子网划分
  • OpenGL ES 入门指南:从基础到实战
  • golang-struct结构体
  • C# 使用Markdown2Pdf把md文件转换为pdf文件
  • centos 安装pip时报错 Cannot find a valid baseurl for repo: centos-sclo-rh/x86_64