当前位置: 首页 > article >正文

关系分类(RC)模型和关系抽取(RE)模型的区别

目标不同

关系分类模型:对给定的实体对在给定句子中预测其关系类型。两阶段(RC)

关系抽取模型:从句子中识别出所有潜在实体对,并为其预测关系类型。一阶段(NER+RE)


训练/预测阶段输入输出数据不同

关系分类模型:

训练阶段

训练:
输入:句子 + 实体对
  | 句子:苹果公司总部位于加州库比蒂诺
  | 实体对:(苹果公司, 加州库比蒂诺)
  | 标注真实关系标签:位于
输出:
    模型预测关系:位于

预测阶段

预测:
输入:句子 + 实体对
  | 句子:苹果公司总部位于加州库比蒂诺
  | 实体对:(苹果公司, 加州库比蒂诺)
输出:
    模型预测关系:位于

关系抽取模型:

训练阶段

输入:
  句子:乔布斯是苹果公司的创始人
  标注真实集合:
    实体集合:{乔布斯: 人物, 苹果公司: 组织}
    关系集合:{(乔布斯, 创立, 苹果公司)}

输出:
  模型生成:
    实体集合:{乔布斯: 人物, 苹果公司: 组织}
    关系集合:{(乔布斯, 创立, 苹果公司)}

预测阶段

输入:
  句子:乔布斯是苹果公司的创始人

输出:
  预测的实体集合:{乔布斯: 人物, 苹果公司: 组织}
  预测的关系集合:{(乔布斯, 创立, 苹果公司)}

🤔 关系分类模型和关系抽取模型在训练时使用的数据集有何不同?

关系分类模型和关系抽取模型在训练时使用的数据集是不同的,因为它们的任务目标和方法逻辑不同。以下是两者在数据集格式和内容上的主要区别:


1. 关系分类模型的数据集

目标:从给定的句子和实体对中预测其关系类型。

数据集格式

每条数据是一个三元组,包括句子、实体对和关系标签。

  • 内容

    1. 句子:单个句子,包含明确的上下文。
    2. 实体对:两个实体,通常以 (实体1, 实体2) 的形式表示。
    3. 关系标签:从一个固定的关系集合中选择一个标签。
  • 示例

    数据:
    - 句子:乔布斯是苹果公司的创始人。
    - 实体对:(乔布斯, 苹果公司)
    - 关系标签:创立
    
特点
  • 数据中的实体对是已知的,无需模型检测。
  • 每个句子只针对特定的实体对预测关系。
  • 需要提供明确的关系标签集合。

2. 关系抽取模型的数据集

目标:从一个句子中同时识别所有的实体和它们之间的关系。

数据集格式

每条数据是一个整体标注,包括句子、实体集合和关系集合。

  • 内容

    1. 句子:一个包含多个实体及其潜在关系的句子。
    2. 实体集合:多个实体及其类别,通常以 {实体: 类别} 的形式表示。
    3. 关系集合:所有可能的实体对及其关系,通常以 {(实体1, 关系, 实体2)} 的形式表示。
  • 示例

    数据:
    - 句子:乔布斯是苹果公司的创始人。
    - 实体集合:{乔布斯: 人物, 苹果公司: 组织}
    - 关系集合:{(乔布斯, 创立, 苹果公司)}
    
特点
  • 不提前提供实体对,需要模型自己识别所有实体及其类别。
  • 多对多关系:每个句子可能包含多个实体和多个关系。
  • 输出的关系标签是针对完整关系集合的预测。

3. 数据集的差异总结

维度关系分类模型关系抽取模型
句子必须提供必须提供
实体已标注的特定实体对模型需识别所有实体
关系单一关系标签关系集合
标注粒度针对单对实体针对整句话
多样性每个数据实例仅对应一个实体对和一个关系每个数据实例可能包含多个实体和关系

4. 应用场景的影响

  • 关系分类模型适用于场景:
    • 输入的实体对已明确,模型只需专注于关系预测。
    • 数据集中实体对已事先标注好。
    • 任务目标明确,单关系分类足够。
  • 关系抽取模型适用于场景:
    • 输入中实体对不明确,需要从文本中检测所有可能的实体。
    • 输入句子可能包含多个实体对和关系,需要整体预测。

关系分类和关系抽取的数据集

模型分数SOTA排名

各个数据集的各个模型最新排名-SOTA:Relation Extraction | Papers With Code

关系分类模型的数据集:

  1. SemEval-2010 Task-8:这个数据集主要用于关系分类,它包含了多个预定义的关系类别,模型需要识别实体对之间的关系。9 种有向关系 + 1 种无关系,总共 10 种关系
  2. ACE 2005:这个数据集也用于关系分类,它包含了实体和它们之间的关系,需要模型识别实体对之间的关系类型。7种关系类型

关系抽取模型的数据集:

  1. DocRED:这是一个用于文档级别的关系抽取的数据集,它包含了多个句子,每个句子中可能包含多个实体和关系,需要模型识别实体及其关系。96 种关系类型
  2. TACRED:这个数据集用于关系抽取,它包含了句子和实体对,以及它们之间的关系,需要模型识别实体的边界和关系。41 种关系
  3. CoNLL04:这个数据集主要用于命名实体识别,但它也包含了关系抽取的任务,需要模型识别实体和它们之间的关系。
  4. Adverse Drug Events (ADE) Corpus:这个数据集用于药物不良反应事件的抽取,需要模型识别实体(如药物和不良反应)及其关系。
  5. WebNLG:这个数据集用于生成任务,但它也包含了关系抽取的元素,需要模型识别实体和它们之间的关系。
  6. ChemProt:这个数据集用于化学蛋白质交互作用的抽取,需要模型识别实体(如化学物质和蛋白质)及其关系。
  7. NYT11-HRL:这个数据集用于从纽约时报文章中抽取人物和组织的关系,需要模型识别实体及其关系。53种关系类型
  8. ACE 2004:这个数据集用于实体识别和关系抽取,需要模型识别实体的边界和它们之间的关系。

总结

大致分类如上,注意某些数据集可能同时包含关系分类和关系抽取的任务。

  • 关系分类模型:关系类型通常较少(10~50 种),适合精确分类。
  • 关系抽取模型:关系类型通常更多(50~100+),适合开放环境的关系挖掘。如领域数据集


http://www.kler.cn/a/465619.html

相关文章:

  • 麒麟服务器安装kafka--亲测
  • 网络安全之高防IP的实时监控精准防护
  • 《学校一卡通管理系统》数据库MySQL的设计与实现
  • 使用qiankun搭建微前端应用及踩坑
  • Trimble天宝X9三维扫描仪为建筑外墙检测提供了全新的解决方案【沪敖3D】
  • 【CVPR 2024】【遥感目标检测】Poly Kernel Inception Network for Remote Sensing Detection
  • ros2 py文件间函数调用
  • 【vLLM 学习】欢迎来到 vLLM!
  • 使用C#构建一个论文总结AI Agent
  • ImageNet 2.0?自动驾驶数据集迎来自动标注新时代
  • 知识库召回列表模式揭秘:实现智能信息检索新突破
  • 牛客网刷题 ——C语言初阶——JZ15 二进制中1的个数
  • 服务器数据恢复—服务器硬盘亮黄灯的数据恢复案例
  • 在CE自动汇编里调用lua函数
  • 关于大一上的总结
  • Java实现UDP与TCP应用程序
  • python+PyMuPDF库:(三)pdf文件的选择性合并、其他格式文件转pdf
  • React Class 组件与函数组件全方位对比
  • 网关的主要类型和它们的特点
  • [网络安全] DVWA之 Open HTTP Redirect 攻击姿势及解题详析合集
  • AI机器人与政务服务机器人的服务局限问题分析
  • vue2、element的el-select 选项框的宽度设置、文本过长问题
  • 企业微信——智能表格学习
  • 实战项目模块之1------单个按键短按切换不同工作模式
  • 《HarmonyOS第一课》焕新升级,赋能开发者快速掌握鸿蒙应用开发
  • 【前端系列】Pinia状态管理库