当前位置: 首页 > article >正文

rdf-file:分布式环境下的文件处理

一:数据量大了以后,单机解析或者生成文件的效率就很低,需要通过集群处理

  • 机构过来的文件:我们先对文件进行分片,在利用集群集群处理分片文件。
  • 给机构文件:分库分表数据,每个分表生成一个分片文件,最终合成一个完整文件。

二:分布式下文件处理需要分布式的文件存储

  • 目前组件内部实现了NAS/OSS分布式的文件存储操作实现

文件大了单机处理就很慢, 数据库解决单机瓶颈方式是分库分表, 文件也一样需要将文件拆分,利用集群机器并发处理。

  • 导入类文件一般会先对文件按大小切分,生成分片任务。
  • 导出类文件一般会根据分库分表位,生成分片任务。
    在这里插入图片描述

文件切分是指按大小将数据内容分片, 这里分片到行不会在行中间断开。

分布式环境一般处理流程

  1. 创建文件分片工具 FileSplitter splitter = FileFactory.createSplitter(config.getStorageConfig());
  2. 创建文件分片: (这里并没有真正对文件进行物理拆分)
    FileSlice headSlice = splitter.getHeadSlice(config);
    List slices = splitter.getBodySlices(config, 256);
    FileSlice tailSlice = splitter.getTailSlice(config);
  3. 将所有分片落成分片任务, 然后向集群分发分片任务
  4. 集群中机器拿到分片任务,根据分片数据范围处理数据

http://www.kler.cn/a/146460.html

相关文章:

  • Mongodb相关内容
  • ThreeJs能力演示——图层导入导出
  • 森林网络部署,工业4G路由器实现林区组网远程监控
  • DAMA CDGA 备考笔记(二)
  • 11-1.Android 项目结构 - androidTest 包与 test 包(单元测试与仪器化测试)
  • 低代码独特架构带来的编译难点及多线程解决方案
  • 131.类型题-计算数学序列的和,请编写函数fun,其功能是S=……【满分解题代码+详细分析】(数学序列的和类型题-C/C++JavaPython实现)
  • 小程序wx:if和hidden的区别?
  • 卸载软件最最最彻底的工具——Uninstall Tool
  • PgSQL技术内幕-Analyze做的那些事-pg_stat_all_tables
  • LLaMA 2:开源的预训练和微调语言模型推理引擎 | 开源日报 No.86
  • 【虚拟机】在VM中安装 CentOS 7
  • 如何使用内网穿透将Tomcat网页发布到公共互联网上【内网穿透】
  • 首批!创邻科技入选《图数据库金融应用场景优秀案例》
  • python之yaml技术(可用于写接口自动化的测试用例文件)
  • 01、copilot+pycharm
  • 【Linux】vim-多模式的文本编辑器
  • 综合运用DML、DDL、DCL、TCL语句与事务管理
  • 成都优优聚美团代运营——让您脱颖而出!
  • C语言编译过程再解析
  • YOLO的网络结构组成
  • 数据库系统原理与实践 笔记 #10
  • Jupyter Notebook本地部署并实现公网远程访问内网Jupyter服务器【内网穿透】
  • 【Spring】Spring是什么?
  • websocket,WebSocket与Socket的区别,HTTP与WebSocket区别,WebSocket特点
  • 如何使用Java支付宝沙箱环境并公网调用sdk创建支付单服