当前位置: 首页 > article >正文

《论文阅读》Unified Named Entity Recognition as Word-Word Relation Classification

总结

  • 将NER视作是word-word间的 Relation Classification。 这个word-word 间的工作就很像是TPlinker那个工作,那篇工作是使用token间的 link。
  • 推荐指数:★★★☆☆
  • 值得学习的点:
    (1)用关系抽取的方法做NER抽取
    (2)用空洞卷积解决词间交互问题
    (3)CLN(conditional LayerNorma)的使用

1. 动机

统一三类任务(flat、overlapped、nested NER)的处理
span-based 的方法 只关注边界识别。
sequence-to-sequence 的模型有暴露偏差的影响

2. 想法

  • 建模实体词间的简单邻接关系(用NNW,THW-*)
  • multi-granularity 2D convolutions for better refining the grid representations. (提出一个多粒度的二维卷积用于更好的refine grid 的表示)

3. 模型

3.1 方法介绍

下面先介绍本文的方法思想。
在这里插入图片描述
作者对统一的NER任务进行了介绍:
在这里插入图片描述
就是将三种NER统一成一个 token pairs 的关系抽取任务。(相当于将这个NER的任务转换成了关系抽取的任务。)这里的关系预定义了三种:None, Next-Neighboring-Word, Tail-Head-Word-*。那么就详细介绍一下这三种关系代表啥意思:

  • None: 这两个token之间没有关系;
  • Next-Neighboring-Word(NNW):说明这一对token pair 属于的是同一个entity mention. gird 中行的下标的紧跟着的一个词就是列下标中的那个词,例如坐标(i,j) 代表i这个词的后来者就是j这个词。
  • Tail-Head-Word-*(THW): grid 中的行所在的那个词是这个entity mention的tail,列所在的那个词是head。 * 代表的是实体类型的意思。

3.2 模型架构

上面讲了本文的主要方法思想,下面就看下本文的提出的模型的架构:

在这里插入图片描述
该模型主要分成三部分:

  • 第一部分:BERT+LSTM 的编码器,用于编码文本
  • 第二部分:卷积层,用于构建、改善 word-pair grid的表示,用于后面的word-word 的关系分类。
    从之前的工作中,可以看出CNN是非常适合做2D convolution的。

看下这个CLN是啥,
word-pair 的 grid是一个3维的矩阵。对于word pair ( x i , x j ) (x_i,x_j) (xi,xj) 的表示 V i j V_{ij} Vij 可以被认为是x_i 的表示 h_i 和 x_j 的表示的拼接。根据CLN这个方法来计算 V i j V_{ij} Vij
在这里插入图片描述
这个CLN 有啥用?为啥要用这个?

受BERT的三个输入embedding 启发,作者这里使用了是三个word embedding。其中 V 表示词向量, E d E^d Ed表示相对位置信息(每对words), E t E^t Et表示region information 用于区分出是上三角、下三角区域。然后交由一个MLP做映射处理。

接着 Multi-Granularity Dilated Convolution
受TextCNN启发,使用多个2维空洞卷积。用于捕捉不同距离间的词交互。

  • 第三部分:一个co-predictor layer,(包含一个biaffine classifier 和一个multi-layer perceptron) 用于推理出所有的word pair 间的关系

4.实验

略~

关键参数

问题

  • the kernel bottleneck of unified NER 是啥?
  • Current best-performing method

http://www.kler.cn/a/7964.html

相关文章:

  • TCP粘/拆包----自定义消息协议
  • 三层交换机的原理详解
  • 基于JavaWeb的汽车维修保养智能预约系统
  • 19704 团建
  • 【网络安全实验室】脚本关实战详情
  • [python SQLAlchemy数据库操作入门]-16.CTE:简化你的复杂查询
  • 论文阅读_MAE
  • 快速分析一个行业,这个工具必不可少
  • Nuxt3中的常用seo标签
  • HuggingGPT:一个ChatGPT控制所有AI模型,自动帮人完成AI任务
  • Python 02 数据类型(04元组)
  • CoppeliaSim安装教程(以前叫V-REP)
  • 【李宏毅】深度学习——HW4-Speaker Identification
  • 优思学院|《精益思想》让企业快速应对市场变化的利器
  • 贵金属技术分析的止损保护
  • 算法题回顾:双指针链表系列集锦
  • 从零开始实现一个C++高性能服务器框架----日志模块
  • Vue3走马灯(Carousel)
  • 3-ELK+Kafka+Filebeat 海量级日志收集 TB PB级别
  • 模板匹配及应用
  • SpringMvc中拦截器
  • 中国版ChatGPT即将来袭-国内版ChatGPT入口
  • Leetcode字符串的排列
  • Unity Animation -- 改进动画效果
  • Leetcode.559 N 叉树的最大深度
  • Debezium报错处理系列之五十七:Can‘t compare binlog filenames with different base names