当前位置: 首页 > article >正文

从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】

文章目录

  • 一、引言
  • 二、智能文档处理“百宝箱”概述
  • 三、可视化文档解析前端TextIn ParseX
    • 3.1 TextIn ParseX简介
    • 3.2 技术特点
    • 3.3 TextIn ParseX 功能
  • 四、向量化acge-embedding模型
    • 4.1 向量化模型 acge-embedding 技术亮点总结
    • 4.2 Embedding嵌入/向量化
    • 4.3 向量化模型效果评测标准 MTEB&C-MTEB
    • 4.4 acge_text_embedding 高精度、高效率
    • 4.5俄罗斯套娃Matryoshka Representation Learning技术
  • 五、文档解析测评工具markdown _ tester
    • 5.1 markdown _ tester简介
    • 5.2 测评指标与功能
    • 5.3 使用方法与操作流程
    • 5.4 工具优势与特点
  • 六、TextIn 文档解析
    • 6.1 概述
    • 6.2 版面分析算法框架
  • 七、应用场景
    • 7.1 百宝箱应用场景一:知识库(RAG)
    • 7.2 百宝箱应用场景二:智能文档抽取(OpenKIE)
    • 7.3 百宝箱应用场景三:大模型预训练语料与数据治理快速入库
    • 7.4 百宝箱应用场景四::文档翻译(Document Translate)
  • 八、总结
  • 附录

一、引言

在现代信息时代,文档解析已经成为许多企业和开发者的核心需求。合合信息在今年的 CSDN 1024 程序员节上分享的“智能文档处理百宝箱”,为开发者提供了一整套高效、精准的文档处理工具,助力各行各业的开发者从容应对不同文档解析场景。本文将深入探讨“百宝箱”的主要功能、应用场景以及其背后的核心技术。

image-20241029003939196

合合信息智能文档处理“百宝箱”主要解决了以下几个核心问题:

  1. 复杂文档解析与展示问题:在面对结构复杂、版式多样的文档时,传统解析工具往往效果有限。百宝箱中的 TextIn ParseX 提供了强大的可视化文档解析能力,支持多种格式的文档展示,帮助开发者直观地查看和校对解析结果。

  2. 大模型问答的幻觉问题:在大模型问答系统中,由于长文本信息的复杂性,模型容易出现“幻觉”,即生成错误或不相关的答案。acge 向量化模型通过精确的信息嵌入和高效的相似度计算,大幅提升了文档块的召回和检索准确性,有效减轻了幻觉问题。

  3. 文档解析效果评估问题:目前市面上的文档解析工具种类繁多,但缺乏统一的效果评估标准。百宝箱的 markdown_tester 工具能够定量评估解析结果的准确性,帮助开发者快速筛选和验证工具的解析效果,降低选择和调试成本。

  4. 知识库搭建的效率与准确性问题:对于知识库的构建,数据准确性和可控性至关重要。百宝箱能够精确解析和提取文档内容,确保知识库的数据准确性,并且能处理大量多类型文档(如技术文档、政策文件),加快了知识库的搭建效率。

  5. 多语言和跨国业务的文档翻译问题:百宝箱有效助力外语文档解析,支持多语言环境,同时保持文档的原有格式。这对于跨国企业在内容分发和业务扩展中,提供了便捷、准确的多语言支持。

通过解决这些问题,合合信息的智能文档处理“百宝箱”助力开发者和企业在文档处理领域提高效率、降低成本,实现更高质量的业务支持和信息管理。

image-20241029013734153

二、智能文档处理“百宝箱”概述

智能文档处理“百宝箱”由合合信息开发,覆盖文档解析的多环节,能够支持批量、高效解析多种文档类型,并适配多语言环境。其核心工具包括:

  1. 可视化文档解析前端 TextIn ParseX:为复杂文档提供高效的可视化解析功能;
  2. 向量化模型 acge-embedding:优化长文档信息抽取的精度,支持大规模信息检索和内容审核;
  3. 文档解析测评工具 markdown_tester:提供定量的测评机制,使开发者能便捷、准确地评估文档解析效果。

三、可视化文档解析前端TextIn ParseX

在当今信息化高速发展的时代,文档解析技术已成为数据处理不可或缺的一部分。在众多文档解析工具中,TextIn ParseX凭借其强大的功能和高效的表现,在众多用户中赢得了良好的口碑。本节将详细介绍TextIn ParseX的技术特点、应用场景以及使用指南,帮助大家更好地理解和应用这一工具。

3.1 TextIn ParseX简介

TextIn ParseX是TextIn推出的一款通用文档解析工具,它支持将PDF文档、JPG、IMG图像等多种文件格式快速转换为Markdown格式,并能解析各类表格和公式。该工具不仅支持简体中文、繁体中文、英文等50多种语言,还能处理各种复杂格式的文档,如有线表格、无线表格、密集表格等。TextIn ParseX的表格识别效果好,能准确还原各种表格结构,包括合并单元格的识别与还原。同时,它还能理解和还原文档的结构和元素排列,确保阅读顺序的准确性,支持多栏布局的论文、年报、业务报告等内容。

TextIn ParseX开源地址:https://github.com/intsig-textin/parsex-frontend

image-20241029012737728

TextIn ParseX 其主要功能包括:

  • 支持多种文档格式(如 PDF)及其解析内容的缩放和旋转。
  • 提供文档解析元素的详细展示,支持查看表格、公式、图像等结构化数据。
  • 支持文档解析后的目录树还原,便于快速定位和查看解析内容。

3.2 技术特点

  1. 高效解析速度:TextIn ParseX的解析速度非常快,能够将100页文档解析速度提升至最快2秒以内。这意味着在数据更新频繁的情况下,如每年财报、年报季,TextIn ParseX能够迅速处理大量文档,支持大数据企业完成及时的数据读取和上线。
  2. 准确度高:TextIn ParseX在文档解析过程中,能够准确识别文档中的各类元素,包括表格、公式、图片等,并还原其位置和结构。对于复杂格式的文档,如跨页表格、合并单元格等,TextIn ParseX也能准确解析,确保数据的准确性。
  3. 良好的兼容性:TextIn ParseX支持多种文件格式和语言,能够处理各类图片与扫描文档,包括手机照片、截屏等内容。同时,它还支持多种扫描内容的处理,包括不同分辨率、不同格式的文档,降低了解析失败率。
  4. 丰富的可视化功能:TextIn ParseX提供了前端可视化组件,能够直观展示文档解析的结果,并支持对解析结果进行编辑修正,获得更高精度的解析结果。同时,它还支持将解析结果导出为Markdown文件,方便用户进行后续处理。

3.3 TextIn ParseX 功能

项目是基于ES6和React框架开发的,旨在利用TextIn ParseX的文档解析能力,对各类文档进行快速、准确的解析,并通过前端组件将解析结果进行可视化展示。这不仅可以提高审核校对的工作效率,还能为效果测评提供有力的支持。

1.TextIn ParseX前端组件为文档解析结果审核与效果测评提供了丰富的可视化和交互功能,极大地提高了工作效率和准确性,如下图。

image-20241029010437954

2.预览渲染主流图片格式和pdf文件,提供缩放和旋转功能。

预览渲染主流图片格式和PDF文件,并提供缩放和旋转功能,是现代文档处理和查看工具中不可或缺的功能。这些功能不仅提升了用户体验,还使得文档处理更加灵活和高效。在实际应用中,这些功能广泛应用于文档查看器、在线学习平台、图像处理软件等领域。

image-20241029010544129

3.MarkDown结果渲染,支持各级标题、文本、表格渲染。

这是一个值得关注的亮点。该功能支持各级标题、文本以及表格的渲染,为用户提供了极大的便利。例如,在文档编辑和排版方面,用户可以利用该功能将解析后的文档内容转换为markdown格式,然后进行进一步的编辑和排版操作。在知识分享和笔记记录方面,用户可以将学习资料或笔记内容转换为markdown格式,并添加适当的标题和表格来组织和展示信息。

13

4.各类解析元素提取展示,支持查看表格、公式、图片,和原始 JSON 结果

TextIn ParseX在解析文档时,能够准确地识别并提取出文档中的各类元素,包括表格、公式、图片等。这些元素在解析后会被清晰地展示出来,方便用户查看和编辑。

image-20241029010753992

TextIn ParseX的各类解析元素提取展示功能在实际应用中具有广泛的应用场景。例如,在学术研究领域,学者可以利用该功能从文献中提取出关键的数据和图表;在商业分析领域,分析师可以利用该功能从报告中提取出重要的数据和趋势;在文档编辑和排版方面,编辑人员可以利用该功能快速提取文档中的元素并进行排版处理。

5.解析元素文档位置溯源

TextIn ParseX的解析元素文档位置溯源功能是一个极具创新性和实用性的特点。该功能允许用户在解析文档时,对各个元素进行原文画框标注,并能够实现画框与解析结果之间的双向跳转。TextIn ParseX在解析文档时,能够准确地识别并提取出文档中的各类元素,如表格、公式、图片等。对于这些元素,TextIn ParseX不仅提供了详细的解析结果,还能够在原文中进行画框标注,明确指示出这些元素在文档中的具体位置。

16

原文画框标注各元素位置,可点击画框跳转解析结果,也可点击结果跳转原文画框

TextIn ParseX的解析元素文档位置溯源功能在实际应用中具有广泛的应用场景。例如,在学术研究领域,学者可以利用该功能对论文中的关键数据和图表进行标注和跳转,以便更好地理解和分析论文内容;在商业分析领域,分析师可以利用该功能对报告中的关键数据和趋势进行标注和跳转,以便更深入地挖掘和分析数据;在文档编辑和排版方面,编辑人员可以利用该功能对文档中的各个元素进行快速定位和编辑,提高工作效率。

6.各级目录树还原展示支持点击跳转相应章节

TextIn ParseX在解析文档时,能够智能地识别并提取出文档中的各级目录。这些目录项会被组织成一个清晰的目录树结构,并在界面上以树状图的形式展示出来。用户可以通过浏览目录树,快速了解文档的整体结构和各个章节的内容。

在目录树展示的基础上,TextIn ParseX还提供了点击跳转功能。用户只需点击目录树中的任意目录项,系统就会自动跳转到该目录项对应的文档章节内容。这一功能极大地提高了用户在阅读长文档时的效率和便捷性,使用户能够快速定位到感兴趣的内容。

16

TextIn ParseX能够实现各级目录树还原展示功能,主要得益于其先进的文档解析技术和智能算法。这些技术和算法能够准确地识别文档中的目录项和章节内容,并将其组织成清晰的目录树结构。同时,TextIn ParseX还支持多种文档格式和排版方式,能够应对不同类型的文档解析需求。

7.接口调用选项参数配置,支持配置不同参数组合

这一功能允许用户根据不同的解析需求和文档特点,灵活配置不同的参数组合,从而实现对文档的精准解析和高效处理。

TextIn ParseX提供了丰富的接口调用选项,用户可以根据实际需求,对这些选项进行参数配置。这些参数包括但不限于文档的输入方式、解析精度、输出格式等。通过合理配置这些参数,用户可以实现对文档的定制化解析。

17

18

接口调用选项参数配置功能在实际应用中具有广泛的应用场景。例如,在学术研究领域,学者可以利用这一功能对论文进行精细化解析,提取出论文中的关键数据和图表;在商业分析领域,分析师可以利用这一功能对报告进行定制化解析,快速定位并提取出报告中的关键信息和趋势;在文档编辑和排版方面,编辑人员可以利用这一功能对文档进行快速处理和优化,提高工作效率。

四、向量化acge-embedding模型

acge-embedding模型是合合信息公司研发的一款文本向量化模型,它在业界权威的中文语义向量评测基准C-MTEB中取得了优异的成绩。该模型通过将文本数据转换为数值向量,为后续的文本处理任务如搜索、聚类、推荐等提供了坚实的基础。

acge-embedding 向量化模型利用文本向量化技术,将文本数据转化为高维向量,从而大幅提升长文档检索的精度和速度。该模型具有以下特点:

  • 高精度和低计算资源消耗:与其他开源模型相比,acge 模型不仅体积小,还能支持更高的检索精度。
  • 支持多任务混合训练:acge 通过对比学习技术,将数据进行多场景混合训练,提升模型的泛化能力与数据处理效率。
  • 支持可变嵌入维度:针对不同场景的需求,acge 模型支持调整向量维度,确保性能与资源的灵活配置。

向量化acge-embedding模型开源地址:https://huggingface.co/aspire/acge_text_embedding

image-20241029012717058

在C-MTEB评测中,acge-embedding模型展现出了卓越的性能。与目前C-MTEB榜单上排名前五的开源模型相比,该模型在体积和性能上均表现出色。其输入文本长度达到1024,满足了绝大部分场景的需求。同时,支持可变输出维度,进一步增强了模型的实用性和灵活性。

4.1 向量化模型 acge-embedding 技术亮点总结

  1. 俄罗斯套娃表征学习(MRL)框架
    • acge_text_embedding模型采用了创新的MRL框架,该框架类似于俄罗斯套娃结构,产生的嵌入向量也是一个嵌套结构。
    • 每个较小的向量都是较大向量的一部分,并且可以独立用于不同的任务。这种结构使得模型能够学习不同粒度的信息,同时保持准确性和丰富性。
  2. 策略学习和持续学习训练方式
    • 模型引入了策略学习和持续学习训练方式,以针对不同任务进行有针对性的学习。
    • 策略学习显著提升了检索、聚类、排序等任务上的性能;而持续学习则克服了神经网络存在的灾难性遗忘问题,使模型在迭代训练过程中保持整体性能。
  3. 高效性和灵活性
    • 通过一次训练,acge_text_embedding模型能够获取不同维度的表征,实现了从粗到细的层次化表示。
    • 这为推理和部署提供了极大的灵活性,且无需额外成本。同时,模型支持可变输出维度,使得企业可以根据具体场景合理分配资源,实现高效的资源利用。

4.2 Embedding嵌入/向量化

Embedding,即嵌入/向量化,是一种在机器学习和自然语言处理(NLP)中广泛应用的技术。

image-20241029011737324

优势

  • 降维:Embedding技术可以将高维数据映射到低维空间,减少了模型的复杂度。
  • 捕捉语义信息:在NLP中,Embedding技术能够捕捉到单词或短语之间的语义关系,使得语义上相似的单词在向量空间中位置相近。
  • 适应性:Embedding是通过数据驱动的方式学习的,能够自动适应数据的特性,而无需人工设计特征。
  • 泛化能力:由于Embedding能够捕捉到数据的一些内在规律,因此对于未见过的数据,Embedding仍然能够给出合理的表示。

应用

  • NLP任务:如文本分类、情感分析、机器翻译等。Embedding技术为这些任务提供了有效的特征表示,提高了模型的性能。
  • 推荐系统:Embedding技术为推荐系统提供了用户和物品的向量表示,通过捕捉潜在关系提升推荐准确性。
  • 图像处理:如图像分类、检索等任务。图像嵌入技术简化了图像处理过程,保留了关键信息,并提高了模型的性能和效率。

向量:有方向的一连串的数值(取值范围[-1,1])列表,列表越长(维度越多),表达能力越强,精准度越高,但是计算复杂度也越高,容易过拟合

image-20241029011906634

4.3 向量化模型效果评测标准 MTEB&C-MTEB

MTEB(Massive Text Embedding Benchmark)和C-MTEB是评估文本向量化模型效果的重要基准。MTEB是一个大规模的文本嵌入基准测试,旨在全面评估文本嵌入方法的性能。它涵盖了多种语言、任务和数据集,为文本向量化模型提供了一个全面的竞技台。C-MTEB是专门针对中文文本向量的评测基准,它基于MTEB的框架,但针对中文文本进行了优化和调整。

image-20241029012009649

C-MTEB使用与MTEB相似的评估指标来衡量模型的性能。这些指标包括准确性、F1分数、平均精度(Average Precision)、平均互信息检索(Mean Average Precision, MAP)、归一化折损累计增益(Normalized Discounted Cumulative Gain, nDCG)等。这些指标有助于全面评估模型在不同任务上的表现。

覆盖8类任务,58个数据集:文本分类,聚类,成对分类,重排序,检索,语义文本相似性,摘要、判别

4.4 acge_text_embedding 高精度、高效率

Massive Text Embedding Benchmark (MTEB) 中文榜单(C-MTEB)第一名的成绩 (20240311-20240514)

26

1.高精度

acge_text_embedding模型的高精度主要得益于其创新的俄罗斯套娃表征学习(Matryoshka Representation Learning,简称MRL)框架。这一框架能够学习不同粒度的信息,允许一个嵌入向量在保持准确性和丰富性的同时,适应不同计算资源的需求。

  1. 语义捕捉能力:该模型能够准确捕捉文本的语义信息,提供高质量的向量表示。这使得模型在文本分类、情感分析、命名实体识别等NLP任务中表现出色。
  2. 嵌套结构优势:MRL框架产生的嵌入向量是一个嵌套结构,每个较小的向量都是较大向量的一部分,并且可以独立用于不同的任务。这种结构使得模型能够更细致地捕捉文本中的语义细节,从而提高精度。
  3. 多任务适应性:通过一次训练,acge_text_embedding模型能够获取不同维度的表征,实现从粗到细的层次化表示。这为用户提供了极大的灵活性,可以根据实际需求输入维度参数,来得到指定维度的向量,进一步提高了模型的精度。

2.高效率

除了高精度外,acge_text_embedding模型还具备高效率的特点。这主要体现在以下几个方面:

  1. 快速处理能力:该模型能够快速准确地对文本进行向量化,提高NLP任务的效率。这使得模型在处理大规模文本数据时能够保持高效的性能。
  2. 资源占用少:与多亿参数的大型模型相比,acge_text_embedding模型体积较小,占用资源少。这使得模型在各种场景下都能灵活应用,包括资源受限的环境。
  3. 训练与推理优化:通过策略学习和持续学习训练方式,acge_text_embedding模型克服了神经网络存在的灾难性遗忘问题,使模型训练迭代能够达到相对优秀的收敛空间。同时,模型支持可变输出维度,进一步提高了推理和部署的效率。

acge_text_embedding模型相比其他开源模型体积更小、资源占用低,支持最长 1024 字的输入文本以适应大多数应用场景,并能根据需求设置嵌入维度,实现资源优化。其特色在于利用对比学习技术优化语义表示,通过数据挖掘和多任务混合训练增强泛化能力。模型采用 MRL 训练方法,提升了处理速度并降低了存储要求,同时具备持续学习能力,有效应对引入新数据时的遗忘问题。

4.5俄罗斯套娃Matryoshka Representation Learning技术

俄罗斯套娃Matryoshka Representation Learning(MRL)技术是一种创新的向量表征学习方法,其灵感来源于俄罗斯传统的套娃玩具,这种玩具可以嵌套不同大小的娃娃,类似地,MRL技术可以灵活地变化Embedding的大小。

俄罗斯套娃Matryoshka Representation Learning技术,让文本嵌入模型在推理时具备可变Embedding大小的能力,可以根据企业场景采用不同的计算和存储消耗。

27

MRL技术的核心在于训练高维向量中的嵌套低维向量,实现在不同维度上的良好性能和插值效果。它允许用户选择较小的维度而不影响表示质量,从而在减小维度的同时保持向量表示能力。具体来说,MRL通过显式优化O(log(d))个低维向量(这些向量以嵌套的方式存在于高维向量中)来学习不同容量的表征。

技术特点:

  1. 嵌套结构:MRL生成的嵌入向量具有嵌套结构,每个较小的向量都是较大向量的一部分,并且可以独立用于不同的任务。这种结构使得模型能够更细致地捕捉数据中的信息,同时提供不同粒度的表示。
  2. 灵活性:MRL技术允许用户根据需要选择不同维度的向量表示,从而适应不同的应用场景和资源限制。这种灵活性使得MRL在各种NLP任务中都能表现出色。
  3. 高效性:由于MRL技术能够生成高质量的低维向量表示,因此它可以在保持准确性的同时减少计算资源和存储需求。这使得MRL在处理大规模数据集时具有显著的优势。
  4. 插值效果:MRL训练好的向量除了在训练时的指定维度表现很好外,在其他维度上效果也很好,具有插值效果。这意味着即使在使用比最大维度小的任意维度时,也能保持较好的性能。

28

俄罗斯套娃Matryoshka Representation Learning技术是一种具有创新性和实用性的向量表征学习方法。它通过嵌套结构和灵活性等特点为各种NLP任务提供了高质量的向量表示,并在多个领域都展现出了巨大的潜力。未来,随着技术的不断发展和完善,MRL技术有望在更多领域发挥重要作用并为人工智能的发展贡献力量。

五、文档解析测评工具markdown _ tester

markdown_tester是合合信息旗下的TextIn团队开发并推出的文档解析测评工具。

5.1 markdown _ tester简介

TextIn团队在与用户的交流中发现,用户的需求非常多样化,包括年报、财报、论文、政策文件、企业内部文件、教科书、试卷和公式等。尽管所有解析产品的目标都是成为“全能选手”,但在当前阶段,各产品能力的差异仍然存在。因此,TextIn团队开发并推出了markdown_tester工具,旨在帮助需要解析PDF的用户直观地筛选出最适合自己场景的产品,节省用户选择和测试的时间。通过雷达图和数据图表,开发者可以在表格、段落、标题、公式等多项指标下对工具效果进行对比,使得文档解析产品的效果更透明、可靠。

文档解析测评工具markdown _ tester开源地址:https://github.com/intsig-textin/markdown_tester

image-20241029013123457

5.2 测评指标与功能

该测评脚本用于评价markdown文档相似性,从段落、标题、表格和公式四个维度进行评价:

指标说明
段落识别率段落匹配的个数(段落编辑距离小于0.2) / 预测出的总段落数
段落召回率段落匹配的个数(段落编辑距离小于0.2)/ 总的段落数
段落f12 * (段落识别率 * 段落召回率) / (段落识别率 + 段落召回率)
标题识别率标题匹配的个数(标题编辑距离小于0.2) / 预测出的总标题数
标题召回率标题匹配的个数(标题编辑距离小于0.2)/ 总的标题数
标题f12 * (标题识别率 * 标题召回率) / (标题识别率 + 标题召回率)
标题树状编辑距离所有标题树编辑距离分数之和(pred,包含文字)/ 总标题数量(gt)
表格文本全对率文本全对的表格个数(pred)/ 总表格个数(gt)
表格树状编辑距离所有表格树编辑距离分数之和(pred,包含文字)/ 总表格数量(gt)
表格结构树状编辑距离所有表格树编辑距离分数之和(pred,不包含文字)/ 总表格数量(gt)
公式识别率公式匹配的个数(公式编辑距离小于0.2) / 预测出的总公式数
公式召回率公式匹配的个数(公式编辑距离小于0.2)/ 总的公式数
公式f12 * ( 公式识别率 * 公式召回率) / (公式识别率 + 公式召回率)
阅读顺序指标计算预测值和真值中,所有匹配段落的编辑距离

5.3 使用方法与操作流程

markdown_tester工具的使用方法非常便捷,支持上传任意样本进行测评。以下是具体的操作流程:

  1. 安装软件包:运行安装命令来安装必要的软件包。
  2. 样本文件组织:将待测评样本按照指定的结构放置,包括预测值文件夹和真值文件夹。
  3. 运行测评命令:使用指定的命令进行测评,并指定预测值文件所在文件夹和真值文件所在文件夹的路径。
  4. 查看输出结果:输出结果包括表格数据结果和直观的雷达图,用户可以根据输出结果来评估各解析产品的性能。

image-20241029013533907

image-20241029013522101

5.4 工具优势与特点

  1. 全面性:该工具涵盖了文档解析的多个重要维度,能够全面展示各解析产品的性能。
  2. 客观性:通过定量测评来评估各解析产品的性能,避免了主观判断的干扰。
  3. 便捷性:支持上传任意样本进行测评,用户无需进行复杂的设置和操作。
  4. 可视化:输出结果以直观的雷达图形式展示,便于用户理解和比较各解析产品的性能。

综上所述,markdown_tester工具是一个功能强大、全面客观的文档解析测评工具,能够帮助用户快速、高效地评估各款解析产品在业务场景下的能力。

六、TextIn 文档解析

6.1 概述

TextIn文档解析技术专注于从非结构化或半结构化文本中自动提取关键信息。该技术利用先进的算法和模型,能够准确识别文档中的关键元素(如日期、金额、姓名等),并将其结构化呈现,极大地提高了信息处理的效率和准确性。TextIn还支持多种文件格式(如PDF、Word、Excel等),确保了广泛的适用性。

image-20241029014131387

6.2 版面分析算法框架

版面分析算法框架分为物理版面分析和逻辑版面分析两个主要模块。物理版面分析侧重于视觉特征,识别文档中的各个元素,将相关性高的文字聚合到一个区域,这一过程主要关注文档的视觉布局和结构。逻辑版面分析则侧重于语义特征,聚焦于文档结构,其主要任务是通过语义建模将不同的文字块形成层次结构,例如通过树状结构展示文档的语义层次关系。

36

文档图像预处理算法包括区域提取、干扰去除、形变矫正、图像恢复和图像增强等模块。区域提取可以识别并提取出文档中具有文字信息的区域,确保后续处理聚焦在有用的部分。形变矫正通过分析形变文档的偏移场,将其矫正为正常的图像,并利用附近的像素点填充缺失部分,确保图像的完整性。图像恢复和图像增强则进一步优化图像质量,使得文字信息更加清晰和易于识别。

38

随着人工智能技术的不断发展,TextIn文档解析技术也在不断创新和完善。未来,TextIn将更加注重技术的实用性和用户体验,不断提升文档解析的精度和效率,为企业和个人提供更加便捷、智能的文档处理服务。

综上所述,TextIn文档解析技术是一款高效、准确、广泛适用的智能文档处理产品,能够满足不同场景下的文档解析需求,为企业和个人带来前所未有的便利和智能体验。

七、应用场景

7.1 百宝箱应用场景一:知识库(RAG)

RAG的工作原理主要分为两个阶段:检索阶段和生成阶段。在检索阶段,模型通过检索系统从知识库中找到与输入相关的文档或段落;在生成阶段,生成模型利用检索到的信息作为上下文,生成最终的答案或文本。

39

传统方式:

传统方法通常基于字符长度,忽视了文本的逻辑结构。导致处理效率低下,且输出效果不佳。

image-20241029113656148

ParseX Chunking:

通过内容逻辑来分块,而不是简单的字符长度。 生成分块摘要,识别并提取文档中的文本、图像和表格等元素。

image-20241029113709529

“百宝箱”在企业知识库构建中的应用极具代表性。通过 TextIn ParseX 和 acge 模型的配合,开发者可以快速将企业内部的文档进行自动解析和分块,提升知识库的准确性与覆盖度。特别是在处理复杂的工程设计方案、技术规格书等文件时,该工具能确保数据的完整性和高效性。

7.2 百宝箱应用场景二:智能文档抽取(OpenKIE)

“百宝箱”在智能文档抽取(OpenKIE)方面的应用场景,主要体现在高效、准确地处理和分析文档数据,助力技术人员实现个性化、高效率的文档类应用开发工作。

44

  1. 解析界面可视化:通过可视化的解析界面,技术人员可以直观地看到文档的解析效果,包括提取的各类解析元素、定位解析元素在文档中的位置,以及还原展示的各级目录树等。
  2. 关键信息提取:借助“百宝箱”中的关键信息提取工具,技术人员可以轻松地从文档中提取出所需的关键信息,如实体、关系、事件等,为后续的文档分析和应用开发提供有力的支持。
  3. 解析效果测评:“百宝箱”还配备了文档解析测评工具,通过雷达图等直观的可视化表现,帮助技术人员对各种解析工具进行定量测评,从而选择出最佳的工具,提升文档处理的效率和准确性。

针对合同、招投标文件等结构化信息抽取需求,“百宝箱”支持批量提取文本和表格信息,实现对文档中的各类数据的精准解析与复用。例如,开发者可以使用 TextIn ParseX 对表格、图片等信息进行可视化审核,确保解析内容的准确性和一致性,如下所示。

43

文本字段:[“采购方”]

表格字段:[“服务明细名称”,”费用”,”备注”]

提取结果如下:

{“采购方”: ['测试加工服务采购合同', '合同编号:', '上海市大数据中心(以下简称“采购方”)与  上海合合信息科技股份有限公司(以下简称“供应商”)根据《中华人民共和国民法典》及相关法律法规规定,在平等协商、互惠互利的基础上,就以下条款达成一致,签订本合同。', '9.采购方的权利义务', '9.1 采购方有权要求供应商按照本合同的规定提供相关服务,对没有达到本合同约定的服务质量或标准的服务事项,采购方有权要求供应商在约定的时间内加急提供服务,直至符合要求为止。',  ...], ... }
{
    "采购方": "上海市大数据中心",
    "表格": [
        {
            "服务明细名称": "政务服务事项知识库和政策领域知识库安全测试",
            "费用": "140,000",
            "备注": "深度学习算法的通用文字识别软件"
        },
        {
            "服务明细名称": "民生领域无人干预的示范应用安全测试",
            "费用": "80,000",
            "备注": "深度学习算法的通用文字识别软件"
        },
        {
            "服务明细名称": "总计(含税)",
            "费用": "220,000",
            "备注": "单位:元"
        }
    ]
}

7.3 百宝箱应用场景三:大模型预训练语料与数据治理快速入库

大模型预训练语料与数据治理快速入库,主要体现了其在处理大规模数据、提高数据质量和加速数据入库方面的强大能力。

45

大模型预训练语料处理

  1. 高效解析
    • “百宝箱”支持批量、高效、准确地解析多种版式的文档材料,这为大模型预训练语料的处理提供了坚实的基础。
    • 通过其强大的文档解析能力,可以快速从大量文档中提取出有用的信息,作为大模型预训练的语料。
  2. 多样化语料支持
    • “百宝箱”能够处理多种类型的文档,包括但不限于文本、图片、表格等,这为大模型提供了丰富多样的语料来源。
    • 多样化的语料有助于提升大模型的泛化能力和适应性。
  3. 精准提取
    • 借助“百宝箱”中的关键信息提取工具,可以精准地从文档中提取出与预训练相关的关键信息,如实体、关系、事件等。
    • 精准提取有助于提高语料的质量和纯度,从而提升大模型的训练效果。

数据治理快速入库

  1. 数据清洗
    • 在数据治理过程中,“百宝箱”可以帮助识别并去除重复、无效或错误的数据,确保入库数据的准确性和一致性。
    • 通过数据清洗,可以减少数据冗余和噪声,提高数据质量。
  2. 数据格式转换
    • “百宝箱”支持多种数据格式的转换,如将不同格式的文档转换为统一的数据格式,方便后续的数据处理和分析。
    • 数据格式转换有助于简化数据治理流程,提高数据处理的效率。
  3. 快速入库
    • 借助“百宝箱”的数据入库功能,可以将清洗和转换后的数据快速导入到数据库中,实现数据的快速入库。
    • 快速入库有助于缩短数据治理周期,提高数据应用的时效性。

image-20241029114813453

“百宝箱”在大模型预训练语料与数据治理快速入库方面展现出了强大的能力和优势,为企业提供了高效、准确、灵活的数据处理解决方案。

7.4 百宝箱应用场景四::文档翻译(Document Translate)

“百宝箱”在文档翻译(Document Translate)方面的应用场景十分广泛,其强大的功能和高效的性能使其成为众多行业进行文档翻译的首选工具。

image-20241029114403579

1.多语种支持

“百宝箱”支持多种语言的翻译,包括但不限于中文、英文、日文、韩文、法文、德文等,能够满足不同行业和地区对文档翻译的需求。无论是生物医药、金融、外贸等行业,还是政府机构、教育机构等领域,都可以借助“百宝箱”实现多语种文档的快速翻译。

image-20241029120823692

2.格式保留与精准提取

在文档翻译过程中,“百宝箱”能够保留文档的原有格式,包括字体、字号、段落、图片等,确保翻译后的文档与原文档在格式上保持一致。同时,“百宝箱”还能实现批量、精确区分并提取多语种信息,确保翻译的准确性。这一功能在处理复杂文档时尤为重要,如工程制造业中的产品设计方案、技术规格书等,以及生物医药行业中的研究报告、专利文献等。

53

3.审校修正功能

“百宝箱”的前端组件提供了审校修正功能,用户可以直接在界面上对解析结果进行优化,提高翻译质量。这一功能对于需要高度准确性的文档翻译尤为重要,如法律文件、合同协议等。通过审校修正功能,用户可以及时发现并纠正翻译中的错误,确保翻译结果的准确性和可靠性。

4.高效与便捷

“百宝箱”的文档翻译功能高效便捷,用户只需上传需要翻译的文档,选择目标语言,即可快速获得翻译结果。同时,“百宝箱”还支持多种格式的文档上传和下载,如Word、PDF、Excel等,方便用户在不同设备上进行操作。此外,“百宝箱”还支持在线编辑和导出功能,用户可以在翻译结果上进行进一步的编辑和修改,然后导出为本地文件,满足不同的使用需求。

“百宝箱”在文档翻译方面的应用场景广泛且多样,其强大的功能和高效的性能使其成为众多行业进行文档翻译的首选工具。无论是多语种支持、格式保留与精准提取、审校修正功能还是高效与便捷性等方面,“百宝箱”都展现出了卓越的性能和广泛的应用前景。

八、总结

合合信息的智能文档处理“百宝箱”凭借其强大的文档解析技术,全面解决了文档解析中的诸多核心问题,为开发者和企业带来了极大便利。通过可视化解析工具 TextIn ParseX、向量化模型 acge-embedding,以及 markdown_tester 测试工具等,百宝箱有效提升了复杂文档解析的效率和精确度。在处理多种文档格式、语言环境、以及知识库建设和文档翻译等方面,百宝箱为用户提供了高效、灵活的解决方案。结合多样化的功能组件和直观的可视化界面,百宝箱助力各行各业从容应对多样化的文档处理需求,实现了大规模信息管理与高效文档处理的有机结合,为企业的业务支持和信息管理带来了显著提升。

附录

TextIn ParseX开源地址:https://github.com/intsig-textin/parsex-frontend

向量化acge-embedding模型开源地址:https://huggingface.co/aspire/acge_text_embedding

文档解析测评工具markdown _ tester开源地址:https://github.com/intsig-textin/markdown_tester

TextIn 文档解析体验地址:https://www.textin.com/

如需了解更多文档处理权益,欢迎点击下方链接,加入交流社群,随时获得最新资讯及福利。

https://www.textin.com/activity?tag=znwd-bbx&btn=tj&code=mkt-csdn241024&from=csdn-prtg


http://www.kler.cn/a/414875.html

相关文章:

  • ubuntu22开机自动登陆和开机自动运行google浏览器自动打开网页
  • android 项目多电脑共用github及github项目迁移
  • DICOM医学影像应用篇——伪彩色映射 在DICOM医学影像中的应用详解
  • (长期更新)《零基础入门 ArcGIS(ArcMap) 》实验二----网络分析(超超超详细!!!)
  • c++趣味编程玩转物联网:基于树莓派Pico控制有源蜂鸣器
  • SpringAI:Java 开发的智能新利器
  • PHP后台微信医院预约挂号小程序设计与实现(论文+作品)
  • visionpro官方示例分析(一) 模板匹配工具 缺陷检测工具
  • 如何在 Ubuntu 上部署一个属于自己的 Plex 媒体服务器
  • Jest 测试异步函数
  • Spring Cloud Stream实现数据流处理
  • 2024年第十三届”认证杯“数学中国数学建模国际赛(小美赛)
  • Redis - ⭐数据缓存 Cache
  • 知识库助手的构建之路:ChatGLM3-6B和LangChain的深度应用
  • Java 编程的经典反例及其事故分析
  • 可视化建模与UML《状态图实验报告》
  • 对智能电视直播App的恶意监控
  • Layui表格的分页下拉框新增“全部”选项
  • Ardupilot开源无人机之Geek SDK讨论
  • Android NDK开发 JNI 基础
  • Pump Science平台深度剖析:兴起、优势、影响与未来
  • heapq模块常用方法
  • Qt常用控件之显示类控件
  • go语言去除字符串末尾的特定字符
  • Java项目实战II基于SPringBoot的玩具销售商城管理系统(开发文档+数据库+源码)
  • Ajax入门程序