smell---Paddle-DI
跨模态文档智能大模型–Ernie-Layout
目标:提取文档中无结构或半结构化的知识
github项目地址
Paddle NLP
ERNIE-Layout基于Transformer Encode架构,并提出以下trick:
1、OCR工具提取信息
借助OCR工具提取图片中的文字及文字对应的坐标信息(bounding box)。例如:paddleOCR等.
2、复杂布局position_ids
ERNIE-Layout借鉴了 DeBERTa 的解耦注意力,依靠Layout-Parser来设计 position_ids。LayoutParser是借助于目标检测模型来提取重要的内容patch,从而避免了两列内容按行扫描的混乱结果。
参考文献
Layout-Parser:
论文
代码
文档智能之ERNIE-Layout 1
文档智能之ERNIE-Layout 2
写在RAGFlow开源2万星标之际
通用信息抽取 UIE
Paddle
参考1:
Paddlenlp与Paddlepaddle
参考2:
ERNIE预训练模型下载
参考3:
PaddleNLP 安装和配置指南
参考4:
paddlenlp教程文档