当前位置: 首页 > article >正文

NLP-UIE(Universal Information Extraction)

介绍:一种模型同时完成4种NLP任务。
原理:将几种NLP任务的输入和输出进行统一,联合训练。
任务:Entity提取、Relation关系、Event事件、Sentiment情感分类。
输入统一:通过prompt的方式去控制需要抽取的信息,(在信息加入任务类型,一同作为模型的输入,样本输入是[CLS]+prompt+[SEP]+text+[SEP])
输出统一:使用SEL(Structed extraction Language)模板来统一输出。

  • SpotName:实体类型
  • AssoName:关系
  • InfoSpan:value。

好处:

  • 多个任务共享表征,可以提升效果。
  • 减少模型维护。
  • 可以达到zero-shot的效果。
  • 能实现多标签的提取。

如何接一个位置对应多个标签问题?

介绍:新增了一个线性层用于全局 Span 判断。例如已经得到[O,B-school,I-school,I-school,I-school,I-school,I-school],然后可以使用不同位置组合使用进行MLP映射到新的label,例如位置4和5虽然都是I-school,但是经过MLP后可能是B-type]

实现:把位置4和位置5的向量concat后再MLP就得到span打分后的真实标签。

其他:

  • 标记法:「BIO 标记法」、「BIOES 标记法」
  • 传统的NLP无法解决一字多标签的问题。
  • 源码:这是一个抽取式模型,而非论文中所述的生成式,是以ERNIE编码器,接双指针解码,这个结构不是两年前香侬AI提出的MRC模型吗,区别是在这个“UIE”中似乎只有start和end,少了交叉的部分,但是思想还是双指针的思想。

参考资料

http://www.360doc.com/content/22/1014/14/7673502_1051688308.shtml


http://www.kler.cn/a/454079.html

相关文章:

  • Linux 更改Jenkins使用其他账户启动
  • 音视频采集推流时间戳记录方案
  • 解读:45页PPT ————2024 集团数据资产管理平台解决方案
  • go并发模型的详细介绍
  • HDFS与HBase有什么关系?
  • RAGFlow 基于深度文档理解构建的开源 RAG引擎 vm.max_map_count配置
  • vscode搭建C/C++环境
  • 利用OnnxRuntime进行torch模型部署(C++版)——以分类网络为例
  • python通过正则匹配SQL
  • 【每日学点鸿蒙知识】线程创建、构造函数中创建变量仍报错、List上下拖拽,调用JS代码、无法选择本地csr文件问题
  • 修改vue-element-admin,如何连接我们的后端
  • JavaScript 中的对象方法
  • 人工智能与云计算的结合:如何释放数据的无限潜力?
  • Mono里运行C#脚本4—mono_mutex_t 锁的实现
  • VSCode/Visual Studio Code实现点击方法名跳转到具体方法的
  • C# .Net Web 路由相关配置
  • Android学习19 -- NDK4--共享内存(TODO)
  • 机器学习常用评估Metric(ACC、AUC、ROC)
  • 自動提取API爬蟲代理怎麼實現?
  • Docker环境下数据库持久化与多实例扩展实践指南