当前位置：首页 > article >正文

rdf-file：分布式环境下的文件处理

article 2025/2/24 7:54:32

一：数据量大了以后，单机解析或者生成文件的效率就很低，需要通过集群处理

机构过来的文件：我们先对文件进行分片，在利用集群集群处理分片文件。
给机构文件：分库分表数据，每个分表生成一个分片文件，最终合成一个完整文件。

二：分布式下文件处理需要分布式的文件存储

目前组件内部实现了NAS/OSS分布式的文件存储操作实现

文件大了单机处理就很慢，数据库解决单机瓶颈方式是分库分表，文件也一样需要将文件拆分，利用集群机器并发处理。

导入类文件一般会先对文件按大小切分，生成分片任务。
导出类文件一般会根据分库分表位，生成分片任务。

文件切分是指按大小将数据内容分片，这里分片到行不会在行中间断开。

分布式环境一般处理流程

创建文件分片工具 FileSplitter splitter = FileFactory.createSplitter(config.getStorageConfig());
创建文件分片：（这里并没有真正对文件进行物理拆分）
FileSlice headSlice = splitter.getHeadSlice(config);
List slices = splitter.getBodySlices(config, 256);
FileSlice tailSlice = splitter.getTailSlice(config);
将所有分片落成分片任务，然后向集群分发分片任务
集群中机器拿到分片任务，根据分片数据范围处理数据

http://www.kler.cn/a/146460.html

相关文章：

131.类型题-计算数学序列的和,请编写函数fun，其功能是S=……【满分解题代码+详细分析】（数学序列的和类型题-C/C++JavaPython实现）

小程序wx:if和hidden的区别？

卸载软件最最最彻底的工具——Uninstall Tool

PgSQL技术内幕-Analyze做的那些事-pg_stat_all_tables

LLaMA 2：开源的预训练和微调语言模型推理引擎 | 开源日报 No.86

【虚拟机】在VM中安装 CentOS 7

如何使用内网穿透将Tomcat网页发布到公共互联网上【内网穿透】

首批！创邻科技入选《图数据库金融应用场景优秀案例》

python之yaml技术（可用于写接口自动化的测试用例文件）

01、copilot+pycharm

【Linux】vim-多模式的文本编辑器

综合运用DML、DDL、DCL、TCL语句与事务管理

成都优优聚美团代运营——让您脱颖而出！

C语言编译过程再解析

YOLO的网络结构组成

数据库系统原理与实践笔记 #10

Jupyter Notebook本地部署并实现公网远程访问内网Jupyter服务器【内网穿透】

【Spring】Spring是什么？

websocket,WebSocket与Socket的区别,HTTP与WebSocket区别,WebSocket特点

如何使用Java支付宝沙箱环境并公网调用sdk创建支付单服