当前位置：首页 > article >正文

大模型数据采集和预处理：把所有数据格式，word、excel、ppt、jpg、pdf、表格等转为数据

article 2025/2/28 15:27:37

大模型数据采集和预处理：把所有数据格式，word、excel、ppt、jpg、pdf、表格等转为数据

文本/图片/表格，分别提取处理
工具选择
不同格式文件，使用不同工具处理
1. 确认目标
2. 分析过程(目标-手段分析法)
3. 实现步骤
4. 代码封装
效果展示
金手指

训练 OCR，提升识别准确率

数据采集和预处理：文档格式统一化、图表数据结构化、文本化处理。

文本/图片/表格，分别提取处理

在这里插入图片描述
核心做法

将 Word / PPT / PDF 等不同类型的文档，统一转成 HTML 或者 Markdown 格式。
基于统一后的格式，从文档中分离出 文本内容、图片（含图表截图）、表格。
对拆分出来的图片和表格做进一步的 OCR / 表格解析等处理，将其转换为文本（或结构化数据），最后与原有的文本合并或建立关联。

优点

保留文档内容结构：因为先转为 HTML 或 Markdown，可以较好地保留文档的层级结构、段落、样式等。
灵活处理：可以针对文字、图片、表格分别采取适合的处理方式。例如：
- 文本直接拿来做 NLP 预处理；
- 图片和图表用专门的 OCR 或结构化表格提取工具。
精细度较高：文字和图表一分为二，可以更精细地进行后续处理，便于标注、检索或微调（Finetune / RAG）。

缺点

开发成本相对较高：要编写或调用各种解析、转换脚本（doc -> html，pdf -> html 等），还要对拆出来的图片、表格做分别提取。
依赖工具链：对于 PPT 等复杂文档，直接转 HTML/Markdown 可能并非一帆风顺，需依赖商业或开源工具，可能会遇到兼容性问题。
图片+表格的后处理：对图表进行 OCR 或表格解析，需要依赖额外的处理模块，处理效果也取决于 OCR / 表格解析工具的准确率。

适用场景

需要保留文档原有的层级结构、目录、章节等信息，并对文本和图表进行精细化处理的场景。
数据源多样（Word、PPT、PDF、扫描件），且对最终提取精度要求较高。
团队可以投入一些时间精力，编写、整合比较完整的抽取工具链。

工具选择

链接：https://lightpdf.cn/api-pricing

如果数量不大，一个月会员 30 块就够了。

如果很大，就需要 API，89 块可以识别 500 张图。

识别效果，还可以，有格式保留：

在这里插入图片描述
识别后：

一、最常用的快捷键:
F5刷新	DELETE射除	TAB改变焦点
CTRL.C复制	CTRL+X剪切	CTRL+V粘贴
CTRL"全选	CTRL+Z撤精	CTRL+S 碗
ALT+F4关闭	CTRL+Y恢复	ALT+TAB 切换
CTRL+F5强制刷新	CTRL+W关闭	CTRL+F杳找
SHIFT+DELETE永久剧除	CTRL+ALT+DEL任务管理	SHIFT+TAB反向切换
CTRL♦空格中英文*!入切换	CTRL+Shrtt输入法切换	CTRL+ESC开始菜单
CTRL.ALT.ZQQ快速提取 消息	CTRL+ALT+AQQ破图工具	CTRL+ENTERQQ 发消息
【窗口】+D显示桌面	【限口】+R打开“运行	r窗口】+L解暮候定
[«11] *E打开“我的电脑”	【窗口】+F搜索文件或文件 夹	[«□] “AB项H切换
cmd…（MD命令提示符

也可以自己部署 Github 的开源项目：

https://github.com/Unstructured-IO/unstructured

我发现这个 Unstructured 开源项目，准确率比付费 OCR 还要高。

Unstructured-IO:

更像是一个文档处理的全功能工具箱:
- 可以处理多种格式文档(PDF、Word、Excel、HTML等)
- 内部集成了多种处理能力(包括但不限于OCR)
- 提供统一的API接口
主要优势是:
- 部署简单(Docker一键部署)
- API调用方便
- 处理格式全面
适用场景:
- 企业内部搭建统一的文档处理服务
- 需要处理多种格式混合的场景
- 对部署和维护要求不高的场景

不同格式文件，使用不同工具处理

1. 确认目标

主要目标：如何将不同格式的企业文档(Word/Excel/PPT等)高效转换为适用于RAG或模型微调的结构化数据集？

2. 分析过程(目标-手段分析法)

如何处理多种格式文档？
- 问题：如何统一处理不同格式的文件？
- 解决手段：使用智能分类系统，自动识别文件类型并选择相应处理流程
- 具体实现：

# 文件处理配置参数
parsing_output = my_lib.add_files(
    temp_dir,                   # 临时目录路径，存放待处理的文件
    chunk_size=400,             # 文本块的目标大小(tokens)，用于分割长文本
    max_chunk_size=600,         # 文本块的最大大小限制，防止块过大
    smart_chunking=1,           # 启用智能分块，会在自然断句处分割文本
    get_tables=True,            # 是否提取文档中的表格
    get_images=True             # 是否提取文档中的图片
)

对提取的内容（包括文本、表格、图像）及其元数据进行整合，生成一个结构化的 JSON 格式。这个 JSON 文件包含了诸如文本内容、文档源、创建日期、修改日期等信息。

该 JSON 格式可以存储丰富的文档信息，便于后续的检索和生成任务。

如何处理文档中的不同类型内容？
- 问题：如何提取和处理文本、表格、图片等不同内容？
- 解决手段：
  - 文本：智能分块(400-600 tokens)
  - 表格：转换为CSV格式
  - 图片：使用OCR技术提取文本
- 具体实现：

文档格式分类：

文本（如 Word）：直接提取文本内容。
表格（如 Excel）：提取表格数据并存储为 CSV 格式。
图像（如 PPT）：使用 OCR（光学字符识别）提取图像中的文本。

文档的处理方式根据内容类型分类，文本部分直接提取，表格部分转换为 CSV 格式，图像部分使用 OCR 技术提取文本。

对文本进行智能化分块，以便适应模型的输入限制。例如，将每个块限制为 400-600 个 tokens。


# 表格处理
extracted_tables = Query(lib).export_all_tables(output_fp=lib.output_path)
     
# OCR处理
lib.run_ocr_on_images(add_to_library=True, chunk_size=400, min_size=10)

OCR 用于从图片中提取文本。在处理图像时，会设置一些参数，例如：最小尺寸、实时进度显示等，以确保 OCR 过程的高效性和精度。

如何保证数据的结构化和关联性？
- 问题：如何将不同来源的内容整合为统一格式？
- 解决手段：使用JSON格式存储，包含完整元数据
- 具体实现：

# JSON输出数据结构
{
    "block_ID": 0,                    // 文本块唯一ID  
    "doc_ID": 1,                      // 文档ID
    "content_type": "text",           // 内容类型
    "file_type": "docx",             // 文件类型
    "text_search": "实际文本内容...",  // 文本内容
    "external_files": "",            // 关联文件
    "header_text": "",               // 标题文本
    "modified_date": "",             // 修改日期
    "created_date": ""               // 创建日期
}

如何准备训练数据集？
- 问题：如何将处理后的数据转换为训练集？
- 解决手段：自动分割训练/测试/验证集
- 具体实现：

ds = Datasets(
   library=lib,                   # 输入的文档库实例，包含所有处理后的文档数据
   testing_split=0.10,            # 测试集占比10%，用于评估模型性能
   validation_split=0.10,         # 验证集占比10%，用于模型调优，防止过拟合
   ds_id_mode="random_number"     # 使用随机数作为数据集样本ID的生成方式
)