当前位置: 首页 > article >正文

【elasticsearch】elasticsearch基本知识

这里写目录标题

  • 认识和安装
  • 倒排索引
    • 那么为什么一个叫做正向索引,一个叫做倒排索引呢?
    • 那么两者方式的优缺点是什么呢?
  • 什么是文档和词条?
  • 什么是正向索引?
  • 什么是倒排索引?
  • IK分词器
  • 基础概念
    • 文档和字段
    • 索引和映射
    • mysql与elasticsearch

认识和安装

认识和安装elasticsearch

倒排索引

传统数据库(如MySQL)采用正向索引,例如给下表(tb_goods)中的id创建索引:
在这里插入图片描述
elasticsearch采用倒排索引:

  • 文档(document):每条数据就是一个文档
  • 词条(term):文档按照语义分成的词语

创建倒排索引是对正向索引的一种特殊处理和应用,流程如下:

  • 将每一个文档的数据利用分词算法根据语义拆分,得到一个个词条
  • 创建表,每行数据包括词条、词条所在文档id、位置等信息
  • 因为词条唯一性,可以给词条创建正向索引
    此时形成的这张以词条为索引的表,就是倒排索引表,两者对比如下:
    正向索引:
id(索引)titleprice
1小米手机3499
2华为手机4999
3华为小米充电器49
4小米手环49

倒排索引:

词条(索引)文档id
小米1,3,4
手机1,2
华为2,3
充电器3
手环4

倒排索引的搜索流程如下(以搜索"华为手机"为例),如图:
在这里插入图片描述
流程描述:
1)用户输入条件"华为手机"进行搜索。
2)对用户输入条件分词,得到词条:华为、手机。
3)拿着词条在倒排索引中查找(由于词条有索引,查询效率很高),即可得到包含词条的文档id:1、2、3。
4)拿着文档id到正向索引中查找具体文档即可(由于id也有索引,查询效率也很高)。
虽然要先查询倒排索引,再查询倒排索引,但是无论是词条、还是文档id都建立了索引,查询速度非常快!无需全表扫描。

那么为什么一个叫做正向索引,一个叫做倒排索引呢?

  • 正向索引是最传统的,根据id索引的方式。但根据词条查询时,必须先逐条获取每个文档,然后判断文档中是否包含所需要的词条,是根据文档找词条的过程。
  • 而倒排索引则相反,是先找到用户要搜索的词条,根据词条得到保护词条的文档的id,然后根据id获取文档。是根据词条找文档的过程。

那么两者方式的优缺点是什么呢?

正向索引:

  • 优点:
    • 可以给多个字段创建索引
    • 根据索引字段搜索、排序速度非常快
  • 缺点:
    • 根据非索引字段,或者索引字段中的部分词条查找时,只能全表扫描。

倒排索引:

  • 优点:
    • 根据词条搜索、模糊搜索时,速度非常快
  • 缺点:
    • 只能给词条创建索引,而不是字段
    • 无法根据字段做排序

什么是文档和词条?

每一条数据就是一个文档
对文档中的内容分词,得到的词语就是词条

什么是正向索引?

基于文档id创建索引。根据id查询快,但是查询词条时必须先找到文档,而后判断是否包含词条

什么是倒排索引?

对文档内容分词,对词条创建索引,并记录词条所在文档的id。查询时先根据词条查询到文档id,而后根据文档id查询文档

IK分词器

见 IK分词器
认识和安装elasticsearch

基础概念

elasticsearch中有很多独有的概念,与mysql中略有差别,但也有相似之处。

文档和字段

elasticsearch是面向文档(Document)存储的,可以是数据库中的一条商品数据,一个订单信息。文档数据会被序列化为json格式后存储在elasticsearch中:
在这里插入图片描述
因此,原本数据库中的一行数据就是ES中的一个JSON文档;而数据库中每行数据都包含很多列,这些列就转换为JSON文档中的字段(Field)。

索引和映射

随着业务发展,需要在es中存储的文档也会越来越多,比如有商品的文档、用户的文档、订单文档等等
在这里插入图片描述
所有文档都散乱存放显然非常混乱,也不方便管理。
因此,我们要将类型相同的文档集中在一起管理,称为索引(Index)。例如:
商品索引

{
    "id": 1,
    "title": "小米手机",
    "price": 3499
}

{
    "id": 2,
    "title": "华为手机",
    "price": 4999
}

{
    "id": 3,
    "title": "三星手机",
    "price": 3999
}

用户索引

{
    "id": 101,
    "name": "张三",
    "age": 21
}

{
    "id": 102,
    "name": "李四",
    "age": 24
}

{
    "id": 103,
    "name": "麻子",
    "age": 18
}

订单索引

{
    "id": 10,
    "userId": 101,
    "goodsId": 1,
    "totalFee": 294
}

{
    "id": 11,
    "userId": 102,
    "goodsId": 2,
    "totalFee": 328
}

  • 所有用户文档,就可以组织在一起,称为用户的索引;
  • 所有商品的文档,可以组织在一起,称为商品的索引;
  • 所有订单的文档,可以组织在一起,称为订单的索引;
    因此,我们可以把索引当做是数据库中的表。
    数据库的表会有约束信息,用来定义表的结构、字段的名称、类型等信息。因此,索引库中就有映射(mapping),是索引中文档的字段约束信息,类似表的结构约束。

mysql与elasticsearch

MySQLElasticsearch说明
TableIndex索引(index),就是文档的集合,类似数据库的表(table)
RowDocument文档(Document),就是一条条的数据,类似数据库中的行(Row),文档都是JSON格式
ColumnField字段(Field),就是JSON文档中的字段,类似数据库中的列(Column)
SchemaMappingMapping(映射)是索引中文档的约束,例如字段类型约束。类似数据库的表结构(Schema)
SQLDSLDSL是elasticsearch提供的JSON风格的请求语句,用来操作elasticsearch,实现CRUD

那是不是说,学习了elasticsearch就不再需要mysql了呢?
并不是如此,两者各自有自己的擅长之处:

  • Mysql:擅长事务类型操作,可以确保数据的安全和一致性
  • Elasticsearch:擅长海量数据的搜索、分析、计算

因此在企业中,往往是两者结合使用:

  • 对安全性要求较高的写操作,使用mysql实现
  • 对查询性能要求较高的搜索需求,使用elasticsearch实现
  • 两者再基于某种方式,实现数据的同步,保证一致性

http://www.kler.cn/a/514026.html

相关文章:

  • 快手SDK接入错误处理经验总结(WebGL方案)
  • vscode导入模块不显示类型注解
  • 【附源码】108个Python实战项目,练完能力飙升
  • JS宏进阶:正则表达式的使用
  • Linux:进程(三)
  • [Qt]事件-鼠标事件、键盘事件、定时器事件、窗口改变事件、事件分发器与事件过滤器
  • Vue3+Elementplus物流订单信息跟踪管理
  • 【环境搭建】conda及pip配置清华镜像源
  • delete the Node
  • Ubuntu 24.04 LTS 通过 docker 安装 nextcloud 搭建个人网盘
  • 3D 模型格式转换之 STP 转 STL 深度解析
  • Springboot应用开发配置类整理
  • 如何配置安全的香港邮件服务器?
  • Solana 套利机器人原理
  • VScode 开发 Springboot 程序
  • xml中根据传入值动态设置查询表的表名
  • SELF-RAG: 通过自我反思学习检索、生成和批判——图文并茂总结
  • Unity环境搭建
  • 2024嵌入式系统的未来发展与技术洞察分享
  • C语言程序设计十大排序—插入排序
  • 深度学习笔记——循环神经网络RNN
  • 详解Redis的Hash类型及相关命令
  • Linux 安装gitlab
  • Windows图形界面(GUI)-QT-C/C++ - Qt QGroupBox详解教程
  • JJJ:arm64架构下的asid相关
  • ubuntu24.04安装mysql 5.7.44版本