当前位置: 首页 > article >正文

ElasticSearch数据类型和分词器

一、数据类型

1、Text (文本数据类型)

2、Keyword(关键字数据类型)

3、Alias(别名类型)

4、Arrays (集合类型)

5、Boolean(布尔类型)

6、日期类型

7、Numeric (数值数据类型)

8、IP (数据类型)

9、Range (范围数据类型)

10、Binary (二进制类型)

11、Object (对象数据类型)

12、Dense vector (密集矢量数据类型)

13、Flattened (扁平化数据类型)

14、Geo-point (地理位置数据类型)

15、Join (链接数据类型)

16、Nested (嵌套数据类型)

17、Token count (令牌计数数据类型)

二、索引

1、正排索引和倒排索引的区别

正排索引:是文档(ID)到关键词的映射(从文档找关键词)

倒排索引:是关键词到文档(ID)的映射(从关键词到文档)

三、分词

1、分词:是将文本字符串拆分成独立的词汇和术语的过程。

四、分词器

1、Character Filters(字符过滤器):对原始文本进行预处理,对文本修改或者删除等。比如删除html标签、特定词替换等。

2、Tokenizer (分词器):对字符过滤器处理过的文本切分成一个个词条,形成词条流。切分规则可以是空格、标点符号等。

3、Token Filters(词汇过滤器):对切分后的词条进一步处理,大小写替换、启用停用词(没有意义的词)。词汇过滤器处理文本以适应索引和查询需求非常重要。

五、常见分词器

1、Standard Analyzer(分词依据:空格、标点符号)(特点:小写化处理,过滤符号)

2、Whitespace Analyzer (分词依据:空格)(特点:不进行小写处理、保留所有字符)

3、Keyword Analyzer (分词依据:无)(特点:将这个输入作为一个词条)

4、Simple Analyzer(分词依据:非字母(符号、数字))(特点:小写化处理、过滤符号、支持中文拼音分词)

5、Stop Analyzer (分词依据:空格)(特点:小写化处理,过滤停用词)

6、IK Analyzer(分词依据:词典)(特点:中文分词)

7、Edge Ngram Analyzer(分词依据:n-gram)(特点:按指定步长进行分词)

8、Pattern Analyzer (分词依据:正则匹配字符)(特点:灵活)

9、Custom Analyzer (分词依据:自定义)(特点:灵活)


http://www.kler.cn/news/307511.html

相关文章:

  • 通过防火墙分段增强网络安全
  • 基于SpringBoot的影城管理系统
  • 【Motion Forecasting】【摘要阅读】BANet: Motion Forecasting with Boundary Aware Network
  • Python中的单例模式:从入门到精通
  • 通信协议:WebSocket 和 SSE(Server-Sent Events)如何选择?一文让您了解!
  • 医院管理|基于java的医院管理系统小程序(源码+数据库+文档)
  • 【四】k8s部署 TDengine集群
  • 如何用 Scrapy 爬取网站数据并在 Easysearch 中进行存储检索分析
  • 一个简约的uniapp登录界面,基于uniapp+vue3+uview-plus
  • 华为地图服务 - 如何开启和展示“我的位置”? -- HarmonyOS自学10
  • Docker 无法拉取雷池 WAF 的解决方法
  • vue2基础系列教程之todo的实现及面试高频问题
  • 切线空间:unity中shader切线空间,切线矩阵,TBN矩阵 ,法线贴图深度剖析
  • LSS如何做Voxel Pooling
  • springBoot整合easyexcel实现导入、导出功能
  • 刷题DAY38
  • python 使用seleniumwire获取响应数据以及请求参数
  • 力扣100题——贪心算法
  • 【HarmonyOS NEXT】实现网络图片保存到手机相册
  • node.js+Koa框架+MySQL实现注册登录
  • Golang | Leetcode Golang题解之第412题Fizz Buzz
  • [创业之路-147] :国际标准化产品的研发与非标自动化产品研发的比较?
  • Linux进阶 修改文件权限
  • 2024年9月HarmonyOS鸿蒙应用开发者高级认证全新题库(覆盖99%考题)
  • 微软Copilot将集成到新加坡的法律科技平台中
  • electron-updater实现electron全量版本更新
  • 营收同比大增215%,联想x86服务器夯实市场前三
  • Docker和K8S
  • SOCKS5代理验证参数详解:如何确保代理的可靠性
  • LabVIEW中AVI帧转图像数据