【Elasticsearch】搜索时分片路由
Elasticsearch 的Search Shard Routing(搜索分片路由)是一个核心机制,用于在分布式环境中高效地分发和执行搜索请求,确保查询能够快速、准确地返回结果,同时充分利用集群资源并保持系统的高可用性。以下是结合上述内容对 Elasticsearch 搜索分片路由的详细阐述:
---
1.搜索分片路由的基本概念
Elasticsearch 是一个分布式搜索引擎,数据被分割成多个分片(Shards),并分布在不同的节点(Nodes)上。每个索引(Index)由一个或多个主分片(Primary Shards)组成,每个主分片可以有零个或多个副本分片(Replica Shards)。副本分片的作用是提供数据冗余,以防止硬件故障,并分担搜索负载,从而提高搜索容量。
搜索分片路由的核心任务是决定如何将搜索请求分发到这些分片上。它需要考虑以下关键因素:
• 性能:如何快速响应搜索请求,减少延迟。
• 资源利用:如何合理分配集群资源,避免过载。
• 高可用性:如何在部分节点或分片不可用时,仍然能够完成搜索任务。
---
2.默认的搜索分片路由策略:自适应副本选择(Adaptive Replica Selection)
Elasticsearch 默认采用自适应副本选择策略来路由搜索请求。这种策略的目标是通过动态选择合适的分片和节点,优化搜索性能并降低延迟。自适应副本选择会根据以下因素进行决策:
(1)响应时间
• 协调节点(Coordinating Node)与候选节点之间之前请求的响应时间。响应时间越短,节点的优先级越高。
(2)搜索执行时间
• 候选节点执行上一次搜索所花费的时间。如果某个节点在处理搜索任务时表现良好,它将更有可能被选中。
(3)线程池队列大小
• 候选节点的`search`线程池队列大小。如果队列已满,说明该节点负载较高,可能会被跳过。
通过这些动态指标,自适应副本选择能够智能地选择当前负载较低、响应较快的节点来处理搜索请求。
---
3.自定义搜索分片路由
虽然自适应副本选择能够很好地平衡性能和资源利用,但在某些场景下,用户可能需要对搜索请求的路由进行更细粒度的控制。Elasticsearch 提供了`preference`查询参数,允许用户指定搜索请求的路由策略:
(1)本地优先(`_local`)
将搜索请求限制在本地节点的分片上。如果本地节点没有目标索引的分片副本,Elasticsearch 会回退到其他合适的节点。这种方式可以减少网络开销,提高搜索性能。
```http
GET /my-index-000001/_search?preference=_local
{
"query": {
"match": {
"user.id": "kimchy"
}
}
}
```
(2)自定义字符串
用户可以指定一个自定义的`preference`字符串,例如用户名或会话 ID。如果集群状态和分片选择没有变化,相同的`preference`字符串会将搜索请求路由到相同的分片。这种方式可以利用分片的缓存机制,为频繁执行的搜索提供更快的响应。
```http
GET /my-index-000001/_search?preference=my-custom-shard-string
{
"query": {
"match": {
"user.id": "kimchy"
}
}
}
```
(3)基于文档路由值
在索引文档时,可以指定一个路由值(Routing Value),将文档存储到特定的分片中。在搜索时,使用相同的路由值可以确保搜索请求被发送到存储目标文档的分片上。这种方式特别适用于需要精确控制文档存储和检索的场景。
```http
GET /my-index-000001/_search?routing=my-routing-value
{
"query": {
"match": {
"user.id": "kimchy"
}
}
}
```
---
4.搜索并发性和并行性控制
在大规模集群中,搜索请求可能涉及多个分片。为了防止集群过载,Elasticsearch 提供了以下机制来控制搜索的并发性和并行性:
(1)`max_concurrent_shard_requests`参数
该参数用于限制每个节点上可以并发处理的分片数量,防止单个搜索请求过载集群。默认值为`5`,可以根据集群的资源和负载情况进行调整。
```http
GET /my-index-000001/_search?max_concurrent_shard_requests=3
{
"query": {
"match": {
"user.id": "kimchy"
}
}
}
```
(2)`action.search.shard_count.limit`集群设置
该设置用于限制搜索请求可以命中的最大分片数量。如果请求超过此限制,Elasticsearch 会拒绝该请求,从而避免对集群造成过大压力。此设置可以通过集群设置 API 动态调整。
---
5.搜索分片路由的高可用性设计
Elasticsearch 的搜索分片路由机制不仅考虑了性能和资源利用,还设计了高可用性机制:
• 副本分片的冗余:副本分片的存在确保了即使某个节点或分片不可用,搜索请求仍然可以通过其他副本分片完成。
• 动态重路由:如果某个节点拒绝了搜索请求(例如负载过高),Elasticsearch 会自动将请求重新路由到其他合适的节点。
• 分片重新分配:在集群状态发生变化时(例如节点故障或分片迁移),Elasticsearch 会动态调整分片路由,确保搜索请求始终能够找到目标分片。
---
6.总结
Elasticsearch 的搜索分片路由机制是其高效、灵活且高可用的分布式搜索能力的核心。它通过以下方式实现了这些目标:
• 默认策略:自适应副本选择通过动态评估节点性能和负载,优化搜索请求的路由。
• 自定义控制:通过`preference`参数,用户可以根据具体需求对搜索路由进行细粒度控制。
• 资源保护:通过限制并发分片数量和设置分片数量上限,防止集群过载。
• 高可用性:通过副本分片的冗余和动态重路由机制,确保搜索请求的高可用性。
这种灵活且高效的路由机制使得 Elasticsearch 能够在大规模分布式环境中快速响应搜索请求,同时保持系统的稳定性和可靠性。