当前位置：首页 > article >正文

面试之SolrElasticsearch

article 2025/2/2 15:21:17

优点：

1.Elasticsearch是分布式的。不需要其他组件，分发是实时的，被叫做”Push replication”。

2.Elasticsearch 完全支持 Apache Lucene 的接近实时的搜索。

3.处理多租户（multitenancy）不需要特殊配置，而Solr则需要更多的高级设置。

4.Elasticsearch 采用 Gateway 的概念，使得完备份更加简单。

5.各节点组成对等的网络结构，某些节点出现故障时会自动分配其他节点代替其进行工作。

缺点：

1.只有一名开发者（当前Elasticsearch GitHub组织已经不只如此，已经有了相当活跃的维护者）

2.还不够自动（不适合当前新的Index Warmup API）

Solr的优缺点：

优点

1.Solr有一个更大、更成熟的用户、开发和贡献者社区。

2.支持添加多种格式的索引，如：HTML、PDF、微软 Office 系列软件格式以及 JSON、XML、CSV 等纯文本格式。

3.Solr比较成熟、稳定。

4.不考虑建索引的同时进行搜索，速度更快。

缺点

1.建立索引时，搜索效率下降，实时索引搜索效率不高。

Elasticsearch 与 Solr 的比较：

1.二者安装都很简单；

2.Solr 利用 Zookeeper 进行分布式管理，而 Elasticsearch 自身带有分布式协调管理功能;

3.Solr 支持更多格式的数据，而 Elasticsearch 仅支持json文件格式；

4.Solr 官方提供的功能更多，而 Elasticsearch 本身更注重于核心功能，高级功能多有第三方插件提供；

5.Solr 在传统的搜索应用中表现好于 Elasticsearch，但在处理实时搜索应用时效率明显低于 Elasticsearch。

6.Solr 是传统搜索应用的有力解决方案，但 Elasticsearch 更适用于新兴的实时搜索应用。

solr如何实现搜索的？

倒排索引，先抽取文档中词，并建立词与文档id的映射关系，然后查询的时候会根据词去查询文档id，并查询出文档

Solr过滤器

Solr的过滤器对接收到的标记流（TokenStream ）做额外的处理过滤查询，在查询时设置

Solr原理

Solr是基于Lucene开发的全文检索服务器，而Lucene就是一套实现了全文检索的api，其本质就是一个全文检索的过程。全文检索就是把原始文档根据一定的规则拆分成若干个关键词，然后根据关键词创建索引，当查询时先查询索引找到对应的关键词，并根据关键词找到对应的文档，也就是查询结果，最终把查询结果展示给用户的过程

Solr基于什么

基于lucene搜索库的一个搜索引擎框架，lucene是一个开放源码的全文检索引擎工具包

solr怎么设置搜索结果排名靠前

设置文档中域的boost值，值越高相关性越高，排名就靠前

IK分词器原理

本质上是词典分词，在内存中初始化一个词典，然后在分词过程中逐个读取字符，和字典中的字符相匹配，把文档中的所有词语拆分出来的过程

solr的索引查询为什么比数据库要快

Solr使用的是Lucene API实现的全文检索。全文检索本质上是查询的索引。而数据库中并不是所有的字段都建立的索引，更何况如果使用like查询时很大的可能是不使用索引，所以使用solr查询时要比查数据库快

solr索引库个别数据索引丢失怎么办

首先Solr是不会丢失个别数据的。如果索引库中缺少数据，那就向索引库中添加

Lucene索引优化

直接使用Lucene实现全文检索已经是过时的方案，推荐使用solr。Solr已经提供了完整的全文检索解决方案

多张表的数据导入solr(解决id冲突)

在schema.xml中添加uuid，然后solrconfig那边修改update的部分，改为使用uuid生成

solr如何分词，新增词和禁用词如何解决

schema.xml文件中配置一个IK分词器，然后域指定分词器为IK

新增词添加到词典配置文件中ext.dic，禁用词添加到禁用词典配置文件中stopword.dic，然后在schema.xml文件中配置禁用词典：

solr多条件组合查询

创建多个查询对象，指定他们的组合关系，Occur.MUST（必须满足and），Occur.SHOULD（应该满足or），Occur.MUST_NOT（必须不满足not）

elasticsearch 了解多少，说说你们公司 es 的集群架构，索引数据大小，分片有多少，以及一些调优手段。elasticsearch 的倒排索引是什么。

**ElasticSearch（简称ES）**是一个分布式、Restful的搜索及分析服务器，设计用于分布式计算；能够达到实时搜索，稳定，可靠，快速。和Apache Solr一样，它也是基于Lucence的索引服务器，而ElasticSearch对比Solr的优点在于：

轻量级：安装启动方便，下载文件之后一条命令就可以启动。

Schema free：可以向服务器提交任意结构的JSON对象，Solr中使用schema.xml指定了索引结构。

多索引文件支持：使用不同的index参数就能创建另一个索引文件，Solr中需要另行配置。

分布式：Solr Cloud的配置比较复杂

倒排索引是实现“单词-文档矩阵”的一种具体存储形式，通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成：“单词词典”和“倒排文件”。

elasticsearch 索引数据多了怎么办，如何调优，部署。

使用bulk API

初次索引的时候，把 replica 设置为 0

增大 threadpool.index.queue_size

增大 indices.memory.index_buffer_size

增大 index.translog.flush_threshold_ops

增大 index.translog.sync_interval

增大 index.engine.robin.refresh_interval

什么是ElasticSearch？

Elasticsearch是一个基于Lucene的搜索引擎。它提供了具有HTTP Web界面和无架构JSON文档的分布式，多租户能力的全文搜索引擎。Elasticsearch是用Java开发的，根据Apache许可条款作为开源发布。

可以在那些文档上执行哪些基本操作？

可以在文档中进行以下操作：

http://www.kler.cn/a/528619.html

相关文章：

Ollama部署指南

[LeetCode]day10 707.设计链表

pytorch实现循环神经网络

【回溯】目标和字母大小全排列

Office / WPS 公式、Mathtype 公式输入花体字、空心字

【LLM】Ollama框架入门指北

DRM系列五：注册DRM设备--drm_dev_register

C++11新特性之lambda表达式

类和对象（中）---默认函数

Linux命令入门

Python 模块导入问题终极解决指南

土地覆盖产品批量下载（GLC_FCS30 、Esri_GLC10、 ESA_GLC10 、FROM_GLC10）

深度学习 DAY3：NLP发展史

网络工程师（11）软件生命周期与开发模型

vscode命令面板输入 CMake:build不执行提示输入

Mono里运行C#脚本39—mono_jit_runtime_invoke函数

mac 手工安装OpenSSL 3.4.0

Linux02——Linux的基本命令

水瓶加水时的重心变化，MATLAB计算与可视化

Day24 洛谷普及2004（内涵前缀和与差分算法）

【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人

MySQL 如何深度分页问题

论文阅读(十)：用可分解图模型模拟连锁不平衡

第25节课：前端缓存策略—提升网页性能与用户体验

早期车主告诉后来者，很后悔买电车，一辈子都被车企拿捏了

kamailio-ACC_JSON模块详解