当前位置: 首页 > article >正文

智能化文档开发(DI)

  • 这个文档涉及到多模态(文本、发票、订单、语音)
    对于普通的文本,我们希望对某些实体的某些属性挖空生成文档模版,并根据预设字段填空最后生成正式文件
  • 对于发票、订单,我们想提取它的字段信息,写入DB
  • 对于一些审批、建议语音条,我们想要把它识别为文字并提取关键字,最为后续流程的依据

DI = 文本理解 + 文本生成 + 文本纠错 + 前端外壳

💡 最后所有模型都训好之后,和后端逻辑一起封装到api中调用

🌟 KIT VS UIE

在这里插入图片描述

任务流成果展示

🎈 挖空任务

💦 1、基于正则表达式挖空

在这里插入图片描述

💦 2、基于实体属性字段挖空

首先需要使用doccano对文档做字段标注,导出标注好的数据集转换为UIX可用的训练格式,在UIE上进行微调训练得出模型A,在调用挖空后端代码时,需要加载微调好的预训练模型做指导,这样我们就可以基于A的偏好来对任意文件中的类似实体字段进行挖空

  • 文本标注
  • 训练模型
  • 导入挖空后端逻辑
  • Bug(模型文件缺inference.pdmodel文件)

最后生成的文本是否流程、地道,还需要接入评判模型来干预
Bert主要用于理解文本,后续生成文本预计使用qwen、llama或gpt

🎈 发票、合同文字提取

这里应该得在我们的采购领域、招标领域等再训练一个文字识别模型来提升检测识别精度(现在有根据一些公开数据集(发票)的预训练模型,如果在我们的数据集上正确率达标就不需要训练)

🎈 语音任务

🙏 致谢

PaddleNLP UIE–小样本快速提升性能(含doccona标注)

PaddleNLP信息抽取,uie微调打造自己专属的信息抽取模型

如何使用文本标注工具——doccano?

PP-Structure文档分析

PP-OCR 文本检测识别


http://www.kler.cn/a/501723.html

相关文章:

  • C#调用OpenCvSharp实现图像的开运算和闭运算
  • ASP.NET Core 中使用 Cookie 身份验证
  • Centos9 + Docker 安装 MySQL8.4.0 + 定时备份数据库到本地
  • OpenCV基于均值漂移算法(pyrMeanShiftFiltering)的水彩画特效
  • STM32 FreeRTOS的任务创建和删除
  • frp内网穿透
  • el-table 合并单元格
  • Redis解决热key问题
  • sql server cdc漏扫数据
  • C# 虚方法和抽象方法的区别,重写和重载的区别,参数修饰符(ref、out、in、params)--09
  • C语言程序环境和预处理详解
  • 基于element UI el-dropdown打造表格操作列的“更多⌵”上下文关联菜单
  • Transmon
  • linux网络 | http结尾、理解长连接短链接与cookie
  • 在 WSL 中使用 Jupyter Notebook 的 TensorBoard 启动问题与解决方法
  • GIN模型详解及代码复现
  • 【初体验】【学习】Web Component
  • 晶晨S905L3A/S905L3AB-ADB-ROOT-指示灯-安卓9-当贝桌4.0精简线刷固件包
  • 模拟ic入门——设计一个带隙基准Bandgap(二)性能参数和电路仿真
  • 为AI聊天工具添加一个知识系统 之30 概念整体运营平台:中间架构层的broker service的API模型
  • 0050.ssm+小程序高校订餐系统+论文
  • 计算机网络相关习题整理
  • 前端开发:form中的标签
  • PyCharm 的安装与使用(Window)
  • esp32 mqtt连接阿里云细节配置
  • 服务器的数据上传到阿里云的对象存储(OSS)数据桶