当前位置：首页 > article >正文

从数据提取到管理：TextIn平台的全面解析与产品体验

article 2024/11/25 0:35:20

一、引言

在现代信息时代，文档解析和管理已经成为企业和开发者不可或缺的工具。TextIn是合合信息旗下的一款智能文档处理平台，为开发者和企业提供高效、精准的文档解析工具，帮助用户轻松应对各种复杂的文档处理需求。本文将深入探讨TextIn的主要功能、产品亮点及其广泛的应用场景，带领大家全面体验这款文档处理“百宝箱”。

二、TextIn智能文档处理概述

TextIn平台覆盖文档解析的多个环节，支持批量处理多种文档类型，并适配多语言环境。其核心工具包括：

核心工具	描述
TextIn ParseX	提供复杂文档的可视化解析能力，适合多种格式的文档展示和编辑。
acge-embedding 向量化模型	提升长文本信息抽取的精度，适合大规模信息检索和内容审核。
markdown_tester 文档解析测评工具	帮助开发者定量评估解析效果，降低工具选择和调试成本。

三、可视化文档解析前端TextIn ParseX

TextIn ParseX是TextIn推出的一款通用文档解析工具，支持多种文档格式的高效解析和可视化展示。它不仅可以将PDF、JPG等格式的文档转换为Markdown格式，还可以解析表格、公式等复杂文档元素，确保阅读顺序的准确性，支持多语言识别，并且提供缩放、旋转、编辑等丰富的交互功能。

TextIn ParseX的技术特点包括：

高效的解析速度：100页文档可在2秒内完成解析，适合需要快速处理大量文档的企业需求。
精确的元素识别：支持表格、公式、图片等文档元素的精确识别与还原，特别适用于年报、业务报告等复杂文档的处理。
灵活的可视化功能：用户可以通过目录树、预览图像、标注跳转等方式便捷地查看和编辑解析结果。

在线使用：【免费使用入口】

以下面的票据识别为例子，发票内容被准确识别，而且内容没有错误。

在这里插入图片描述

也可以使用通用文档解析，在获取结果后一键输出。

在这里插入图片描述
输出为markdown的结果如图：

同时，我们可以通过结合coze，调用textIn的api，使用coze完成图片信息提取，做成问答式的AI文本小助手，实际测试下来，流程比较简单，识别准确率也很高。
在这里插入图片描述

四、向量化acge-embedding模型

acge是一个通用的文本编码模型，是一个可变长度的向量化模型，使用了Matryoshka Representation Learning，专为提升长文档检索的精度和速度而设计。它通过将文本数据转换为数值向量，为搜索、聚类、推荐等任务提供坚实基础。acge-embedding模型通过高效的俄罗斯套娃表征学习（MRL）框架，支持多任务混合训练，帮助企业灵活地配置性能和资源，以应对不同应用场景的需求。

acge-embedding模型开源地址：https://huggingface.co/aspire/acge_text_embedding

技术架构上，acge_text_embedding采用了俄罗斯套娃表示学习（Matryoshka Representation Learning，MRL）编码不同粒度的信息，并让一个编码能够适应不同计算资源的下游任务。原理如下面GIF图所示：
在这里插入图片描述

acge-embedding的核心亮点：

高精度和高效率：凭借创新的MRL框架，acge模型在文本分类和情感分析等任务中表现优异，支持灵活的嵌入维度，适应多种业务需求。
支持多任务混合训练：模型通过对比学习技术，实现了数据的多场景混合训练，提升了泛化能力和检索效率。

五、文档解析测评工具markdown_tester

文档解析工具种类繁多，但缺乏统一的评估标准。TextIn开发的markdown_tester提供了定量评估机制，帮助用户客观地测评各类文档解析工具的性能。用户可以通过上传样本，查看段落、标题、表格等元素的识别效果，并通过直观的雷达图展示对比结果。

文档解析测评工具markdown _ tester开源地址：https://github.com/intsig-textin/markdown_tester

在这里插入图片描述
该测评脚本用于评价markdown文档相似性，从段落、标题、表格和公式四个维度进行评价：

指标	说明
段落识别率	段落匹配的个数（段落编辑距离小于0.2） / 预测出的总段落数
段落召回率	段落匹配的个数（段落编辑距离小于0.2）/ 总的段落数
段落f1	2 * (段落识别率 * 段落召回率) / (段落识别率 + 段落召回率)
标题识别率	标题匹配的个数（标题编辑距离小于0.2） / 预测出的总标题数
标题召回率	标题匹配的个数（标题编辑距离小于0.2）/ 总的标题数
标题f1	2 * (标题识别率 * 标题召回率) / (标题识别率 + 标题召回率)
标题树状编辑距离	所有标题树编辑距离分数之和（pred，包含文字）/ 总标题数量（gt）
表格文本全对率	文本全对的表格个数（pred）/ 总表格个数（gt）
表格树状编辑距离	所有表格树编辑距离分数之和（pred，包含文字）/ 总表格数量（gt）
表格结构树状编辑距离	所有表格树编辑距离分数之和（pred，不包含文字）/ 总表格数量（gt）
公式识别率	公式匹配的个数（公式编辑距离小于0.2） / 预测出的总公式数
公式召回率	公式匹配的个数（公式编辑距离小于0.2）/ 总的公式数
公式f1	2 * ( 公式识别率 * 公式召回率) / (公式识别率 + 公式召回率)
阅读顺序指标	计算预测值和真值中，所有匹配段落的编辑距离

使用方法

运行install.sh，安装软件包：

./install.sh

待测评样本按照下述方式放置：

dataset/
├── pred/
│   ├── gpt-4o/
│   ├── vendor_A/
│   ├── vendor_B/
│   ├── ...
├── gt/

运行命令：

python run_test.py --pred_path path_to_pred_md  --gt_path path_to_gt_md

其中：
path_to_pred_md：预测值文件所在文件夹。
path_to_gt_md：真值文件所在文件夹。

运行效果

结果表格：
在这里插入图片描述

结果雷达图：
在这里插入图片描述

markdown_tester工具的优势：

全面性：涵盖了文档解析的多个重要维度，提供细致的评测指标。
可视化结果：通过雷达图等形式直观展示各工具的解析效果，帮助用户快速筛选最合适的文档处理工具。

六、TextIn文档解析应用场景

TextIn平台的应用场景非常广泛，涵盖了从知识库构建到大规模语料处理等多个领域，助力企业实现更高效的信息管理和业务支持。

应用场景	描述
知识库构建	通过ParseX和acge模型配合，TextIn帮助开发者快速将企业内部文档自动解析，提升知识库构建的效率和准确性。
智能文档抽取	支持合同、招投标文件等结构化信息抽取需求，TextIn提供精准的数据解析与复用，适用于企业合同管理、财务报销等场景。
大模型预训练语料处理	TextIn能够批量、高效解析多种版式文档，支持大模型语料的精准提取，提升预训练数据的质量。
多语言文档翻译	TextIn支持多语言文档解析与翻译，帮助企业轻松实现跨语言业务扩展，同时保持原有文档格式。

七、总结

TextIn平台凭借其强大的文档解析和管理能力，为开发者和企业带来了显著的效率提升。TextIn ParseX、acge-embedding模型和markdown_tester工具的组合，构成了一个功能全面、灵活高效的文档处理“百宝箱”。TextIn在处理多种文档格式、语言环境、以及知识库建设和文档翻译等方面为用户提供了高效、便捷的解决方案。通过TextIn，企业能够轻松实现复杂文档解析和大规模信息管理，进而在业务支持和信息管理方面获得显著提升。

最后，小智诚挚地邀请大家一起体验TextIn产品为我们带来的便利之处！点击【免费体验】，即可在线使用，感受TextIn为我们带来的文档解析新体验！

查看全文

http://www.kler.cn/a/407887.html