当前位置: 首页 > article >正文

ElasticSearch安装分词器与整合SpringBoot

ElasticSearch安装分词器与整合SpringBoot在这里插入图片描述

如果还没安装的点击安装ElasticSearch查看怎么安装

分词器

1.分词器

在Elasticsearch中,分词器(Tokenizer)是分析器(Analyzer)的一部分,它的主要职责是将文本输入(如字符串)分割成一系列的词元(tokens)。这些词元是搜索和索引的基础单元。

分词器的作用
  • 分割文本:将输入文本按照特定的规则分割成独立的词元。
  • 记录位置信息:为每个词元记录其在原始文本中的位置信息,如起始和结束字符偏移量。
  • 记录词元顺序:确定词元的顺序,这对于短语查询和词近邻查询非常重要。
内置分词器
  • Whitespace Tokenizer:按空白字符分割文本。
  • Standard Tokenizer:基于Unicode字符属性进行分词,类似于Java的String.split方法。
  • Punctuation Tokenizer:按标点符号分割文本。
  • Keyword Tokenizer:不进行分词,将整个输入文本作为一个词元。
  • Pattern Tokenizer:使用正则表达式进行分词。

2.ik分词器

在这里插入图片描述

  • 点击下载:注意你是什么版本的下什么版本,如:我的elasticsearch是7.6.2就下7.6.2
  • 解压后找到你的/usr/share/elasticsearch/plugins挂载的目录下,例如:
#当初我挂载的是/docker/elasticsearch/plugins
-v /docker/elasticsearch/plugins:/usr/share/elasticsearch/plugins
  • 把解压后得到的ik目录放入plugins,只要ik目录,别是ik/ik/
  • 重启

3.测试分词器

  • 使用默认
POST _analyze
{ 
	"text": "我是中国人"
}
  • 使用分词器
POST _analyze
{ 
	"analyzer": "ik_smart", 
	"text": "我是中国人"
}
  • 另外一个分词器ik_max_word
POST _analyze
{ 
	"analyzer": "ik_max_word", 
	"text": "我是中国人"
}

观察结果,就可以看出使用分词器之后的区别了

整合SpringBoot

Elasticsearch-Rest-Client

3.Maven导入
<dependency>
	<groupId>org.elasticsearch.client</groupId>
	<artifactId>elasticsearch-rest-high-level-client</artifactId>
	<version>7.6.2</version>
</dependency>
2.配置
@Bean
RestHighLevelClient client() {
RestClientBuilder builder = RestClient.builder(new HttpHost("<你的虚拟机ip>", 9200, "http"));
return new RestHighLevelClient(builder);
}
3.测试
@Test
void test1() throws IOException {
	IndexRequest request = new IndexRequest("test").id("20").source("name","中国","id",20L);
	try {
		IndexResponse response = client.index(request, RequestOptions.DEFAULT);
		System.out.println(request.toString());
		IndexResponse response2 = client.index(request, RequestOptions.DEFAULT);
	} catch (ElasticsearchException e) {
		if (e.status() == RestStatus.CONFLICT) {
		}
	}
}

http://www.kler.cn/news/326161.html

相关文章:

  • 【制作自解压程序】使用7Z制作自解压程序
  • OceanBase技术解析:自适应分布式下压技术
  • 【软件整理资料】软件项目配套资料,项目计划书(word)
  • IDEA使用技巧和插件推荐
  • 爬虫及数据可视化——运用Hadoop和MongoDB数据进行分析
  • js中的深拷贝与浅拷贝 手写深拷贝代码
  • 深入剖析 Android Lifecycle:构建高效稳定的应用
  • 如何设计能吸引下载的截图以及注意事项
  • SpringBoot助力墙绘艺术市场创新
  • golang学习笔记16-数组
  • java 解析excel (本地资源)
  • Android常用C++特性之std::find_if
  • CF1619D.New Year‘s Problem
  • 解决 TypeError: Expected state_dict to be dict-like, , got <class ‘*‘>.
  • Acwing 最小生成树
  • 每日OJ题_牛客_NC40链表相加(二)_链表+高精度加法_C++_Java
  • 《黑神话:悟空》天命人速通法宝 | 北通鲲鹏20智控游戏手柄评测
  • linux打开桌面软件(wps)、获取已打开的文件名(wps)
  • Ini文件读写配置工具类 - C#小函数类推荐
  • 汽车免拆诊断案例 | 2016 款宾利GT车仪表盘上的多个故障灯点亮
  • 使用TensorFlow实现一个简单的神经网络:从入门到精通
  • 动手学深度学习(李沐)PyTorch 第 3 章 线性神经网络
  • TiDB 性能测试的几个优化点
  • Leetcode热题100-438 找出字符串中所有字母异位数
  • R语言非参数回归预测摩托车事故、收入数据:局部回归、核回归、LOESS可视化...
  • 408算法题leetcode--第19天
  • java通过webhook给飞书发送群消息
  • PTA L1-080 乘法口诀数列
  • C语言线程编程深度解析
  • Elasticsearch UNASSIGNED 怎么修复