当前位置: 首页 > article >正文

【elasticsearch】reindex 断点续传

在进行大规模 reindex 时,由于数据量庞大或者网络/硬件故障,可能会发生中断。为了确保数据的完整性并支持中断后的续传,Elasticsearch 提供了一些方法来实现 断点续传。尽管 reindex 操作本身没有直接的“断点续传”选项,但可以通过一些技巧和配置来模拟这一过程。


POST _reindex
{
  "source": {
    "remote": {
      "host": "http://远程ip:9200"
    },
    "index": "source_index"
  },
  "dest": {
    "index": "destination_index",
    "version_type": "external" # 只插入新文档,避免覆盖已存在文档
  },
  "conflicts": "proceed" # 冲突跳过
}

其他方法:

reindex 操作本质上是对一个索引的内容进行批量处理。为了支持断点续传,可以将 scrollbulk 操作结合使用,手动管理数据批次。这样,如果 reindex 中途中断,可以从最后处理的文档继续。

虽然 Elasticsearch 的 reindex 命令本身没有直接的断点续传功能,但结合以下方法可以有效实现:

  1. 使用 scrollbulk 配合:通过手动分页和批量插入模拟断点续传。
  2. 使用 slices 分片功能:将任务拆分成多个切片,支持并行和容错。
  3. 保存和恢复进度:定期保存当前进度(如 _scroll_id 或最后处理的文档ID),从中断点继续操作。
  4. 外部任务调度:结合任务调度系统管理任务进度,自动恢复中断点。

这些方法可以帮助你在进行大规模数据迁移时,减少操作中断造成的影响。


http://www.kler.cn/a/520715.html

相关文章:

  • windows系统如何检查是否开启了mongodb服务
  • idea对jar包内容进行反编译
  • 1.23 补题 寒假训练营
  • 51单片机入门_02_C语言基础0102
  • Node.js下载安装及环境配置
  • 沃尔玛 礼品卡绑定 分析
  • dm8在Linux环境安装精简步骤说明(2024年12月更新版dm8)
  • 【2024年华为OD机试】 (A卷,100分)- 模拟商场优惠打折(JavaScriptJava PythonC/C++)
  • 使用scikit-learn中的KNN包实现对鸢尾花数据集的预测
  • 被占用的电脑文件推沟里
  • 从零开始学 HTML:构建网页的基本框架与技巧
  • 【C++】类和对象(五)
  • RBAC 权限控制 - 前端
  • GESP2024年3月认证C++六级( 第三部分编程题(2)好斗的牛)
  • python基础语法(3) -------- 学习笔记分享
  • 99.17 金融难点通俗解释:归母净利润
  • Day42:列表的组合
  • 图像加解密
  • Linux内核组成
  • 品牌RWA化构建指南:资产数字化与价值共创
  • 【云原生】【适用小白】SpringCloud Alibaba开源Nacos切换到MSE Nacos
  • Helm Chart 实现 Kubernetes 应用多环境部署实战
  • 【黑龙江乡镇界】面图层arcgis数据shp格式乡镇名称和编码wgs84无偏移内容测评
  • SpringCloud系列教程:微服务的未来(十七)监听Nacos配置变更、更新路由、实现动态路由
  • 十年筑梦,再创鲸彩!庆祝和鲸科技十周年
  • 论文阅读(二):理解概率图模型的两个要点:关于推理和学习的知识