当前位置：首页 > article >正文

深入理解ElasticSearch分词器：详解各种分词器的原理与应用

article 2024/12/24 11:35:28

什么是分词器
ElasticSearch中的分词器种类
标准分词器（Standard Analyzer）
简单分词器（Simple Analyzer）
空格分词器（Whitespace Analyzer）
语言分词器（Language Analyzers）
拼音分词器（Pinyin Analyzer）
中文分词器（IK分词器）
自定义分词器
如何选择合适的分词器
总结

什么是分词器

在搜索引擎中，分词器的作用是将一段文本分解为若干个词语或词组，称为“词项”（token），并去除掉不必要的标点、空格等符号，从而将文本处理为更适合检索的结构化数据。在ElasticSearch中，分词器（Analyzer）通常由以下三部分组成：

字符过滤器（Character Filter）：首先对文本进行预处理，如移除HTML标签、替换特定字符等。
分词器（Tokenizer）：将预处理后的文本分解为一个个词项（token）。
词项过滤器（Token Filter）：对词项进一步处理，如转换大小写、移除停用词、词干还原等。

ElasticSearch提供了多种内置分词器，适用于不同的语言和应用场景。此外，ElasticSearch支持自定义分词器，以满足特定需求。

ElasticSearch中的分词器种类

ElasticSearch提供了多种分词器，每种分词器的分词逻辑和适用场景不同。常见的分词器包括：

标准分词器（Standard Analyzer）
简单分词器（Simple Analyzer）
空格分词器（Whitespace Analyzer）
语言分词器（Language Analyzers）
拼音分词器（Pinyin Analyzer）
中文分词器（IK分词器）
自定义分词器

在以下章节中，我们将详细介绍每种分词器的特点、使用方法及应用场景。

标准分词器（Standard Analyzer）

标准分词器是ElasticSearch的默认分词器，基于Lucene的标准分析器。该分词器适用于大多数西方语言，如英文、法文等。标准分词器的处理流程如下：

字符过滤：处理文本中的HTML标签、特殊字符等。
分词：将文本分解为一个个单词，以空格、标点等作为分隔符。
词项过滤：移除停用词（如“the”、“is”等），并将词项转换为小写。

示例

假设我们有以下文本：

The quick brown fox jumps over the lazy dog.

使用标准分词器后的结果为：

[the, quick, brown, fox, jumps, over, the, lazy, dog]

可以看到，标准分词器移除了标点符号，并将所有单词转换为小写。标准分词器适用于大多数英文文档的索引和搜索。

简单分词器（Simple Analyzer）

简单分词器是一种较为基础的分词器，其分词过程较为简单，主要基于非字母字符（如空格、标点符号等）进行分词。与标准分词器不同，简单分词器不会过滤停用词。

特点

基于非字母字符进行分词。
所有词项转换为小写。
不进行停用词过滤。

示例

给定文本：

The quick brown fox jumps over the lazy dog.

使用简单分词器后的结果为：

[the, quick, brown, fox, jumps, over, the, lazy, dog]

简单分词器适用于不需要复杂分词逻辑的应用场景。

空格分词器（Whitespace Analyzer）

空格分词器仅基于空格进行分词，不会移除停用词或进行大小写转换。因此，空格分词器适用于那些已经规范化的文本数据，如标签、代码片段等。

特点

基于空格进行分词。
不进行大小写转换和停用词过滤。

示例

给定文本：

The quick brown fox jumps over the lazy dog.

使用空格分词器后的结果为：

[The, quick, brown, fox, jumps, over, the, lazy, dog]

空格分词器适用于一些不希望分词器对文本做过多处理的场景。

语言分词器（Language Analyzers）

语言分词器是ElasticSearch针对不同语言定制的分词器。这些分词器考虑了各语言的特性，能够更准确地分解文本。ElasticSearch提供了多种语言分词器，包括英文、法文、德文、西班牙文等。

特点

根据特定语言的特点进行分词。
支持语言的停用词过滤和词干还原。

示例

假设我们使用英文分词器（English Analyzer）处理以下文本：

running jumps

使用英文分词器后的结果为：

[run, jump]

可以看到，英文分词器进行了词干还原，将“running”还原为“run”。语言分词器适用于多语言文档的处理，可以根据文本语言选择对应的分词器。

拼音分词器（Pinyin Analyzer）

拼音分词器是一种专为中文拼音搜索而设计的分词器。它可以将汉字转化为拼音，从而支持拼音搜索。这在需要通过拼音进行检索的场景中非常有用，如拼音输入法联想、拼音查询等。

特点

将汉字转换为拼音。
支持全拼、首字母等多种拼音模式。

示例

假设我们有以下中文文本：

北京

使用拼音分词器后的结果可能为：

[bei, jing, bj]

拼音分词器适用于那些需要支持拼音搜索的中文应用，如用户在不记得准确汉字拼写时可以通过拼音检索相关信息。

中文分词器（IK分词器）

IK分词器是ElasticSearch中常用的中文分词插件之一。中文的分词复杂度较高，因为中文没有明确的分隔符，通常需要借助词典进行分词。IK分词器提供了细粒度分词和智能分词两种模式：

细粒度分词：将句子尽可能细地分解为每一个词项。
智能分词：基于词典的分词算法，选择最合理的分词结果。

特点

支持细粒度和智能分词模式。
可通过自定义词典扩展词汇。

示例

给定中文文本：

我是中国人

使用IK分词器（智能分词模式）后的结果为：

[我, 是, 中国人]

IK分词器适用于中文全文搜索，可以提供较为准确的分词结果，适合中文文本的索引和搜索。

自定义分词器

ElasticSearch支持用户自定义分词器，以满足特殊的分词需求。自定义分词器允许用户组合字符过滤器、分词器和词项过滤器，构建一个定制化的分词方案。

示例：创建一个自定义分词器

PUT /my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "custom_analyzer": {
          "type": "custom",
          "tokenizer": "whitespace",
          "filter": ["lowercase", "stop"]
        }
      }
    }
  }
}

以上配置定义了一个基于空格分词的小写化、并去除停

用词的自定义分词器。

如何选择合适的分词器

选择分词器时，需要考虑文本的语言、应用场景、搜索需求等因素。以下是几种常见的选择思路：

英文或西方语言文档：标准分词器或对应语言的分词器。
中文文档：IK分词器、HanLP分词器等中文分词插件。
拼音搜索：拼音分词器。
代码、标签等特殊文本：空格分词器。
特殊需求：自定义分词器。

总结

ElasticSearch中的分词器为文本处理提供了丰富的选择。了解和选择合适的分词器，能够提升ElasticSearch的搜索准确性和性能。在实际应用中，根据具体需求选用分词器，或结合多种分词技术，能够实现更优的搜索效果。

查看全文

http://www.kler.cn/a/395124.html

Java爬虫获取1688 item_search_img接口详细解析

Mac上详细配置java开发环境和软件(更新中)

mapStateToProps

Element@2.15.14-tree checkStrictly 状态实现父项联动子项，实现节点自定义编辑、新增、删除功能

基于Spring Boot的房屋租赁管理系统

第二十四天循环神经网络（RNN）LSTM与GRU

鸿蒙学习生态应用开发能力全景图-开发者支持平台（5）

Spring——原理：IoC

FileLink跨网文件安全摆渡系统——企业数据流转的安全桥梁

软件工程笔记二—— 软件生存期模型

服务器上安装Orcale数据库以及PL SQL工具（中文）

/// ts中的三斜线指令 | 前端

OpenJudge_ 简单英文题_04:0/1 Knapsack

高级java每日一道面试题-2024年11月04日-Redis篇-Redis如何做内存优化?

Ubuntu 20.04 配置开发环境(持续更新)

MySQL中字段类型和Java对象中的数据类型对应关系

【3D Slicer】的小白入门使用指南三

31.校园志愿者管理系统(基于springboot和vue的Java项目)

【网络安全 | 身份授权】一文讲清OAuth

3. JVM 发展历程

24.11.10 css

初遇Python-----python/anaconda/PyCharm安装应用问题

算法训练（leetcode）二刷第二十六天 | *452. 用最少数量的箭引爆气球、435. 无重叠区间、*763. 划分字母区间

Spring Boot与工程认证：计算机课程管理的新策略

深入理解SQL中的INNER JOIN操作

Android 实现柱形图