当前位置: 首页 > article >正文

NLP任务一些常用的数据集集锦

1. 文本分类

数据集: AG News

  • 下载链接: AG News Dataset
  • 格式: 每个样本包含新闻文本及其对应的类别标签。
  • 1. AG News

    背景:
    AG News是一个用于文本分类的广泛使用数据集,主要用于新闻分类任务。该数据集由四个类别组成:世界、体育、商业和科技。

    内容

    • 类别: World, Sports, Business, Science/Technology
    • 样本数量: 120,000条新闻。
  • {
        "title": "China's economy grows at 6.9% in Q4",
        "description": "China's economy grew by 6.9% in the last quarter...",
        "label": "World"
    }
    

2. 命名实体识别(NER)

数据集: CoNLL 2003 NER

  • 下载链接: CoNLL 2003 Dataset
  • 格式: 每个单词及其对应的实体标签,便于处理NER任务。
  • 背景:
    CoNLL 2003是一个标准的数据集,用于命名实体识别任务,包含对新闻文章中人名、地点和组织的标注。

    内容:

  • 标签: B-PER (人名), B-LOC (地点), B-ORG (组织), O (其他)
  • 样本数量: 包含数千个标注句子。
  • EU B-ORG
    rejects O
    German B-MISC
    calls O
    for O
    more O
    action O
    .
    

3. 问答(QA)

数据集: SQuAD Mini

  • 下载链接: SQuAD Dataset
  • 说明: SQuAD Mini是一个小规模的子集,适合快速实验。
  • 格式: 包含问题、上下文和答案。
  • 背景:
    SQuAD是一个用于问答系统的热门数据集,包含大量的问答对,旨在促进自然语言处理中的问答研究。

    内容:

  • 问题: 针对给定上下文生成的问题。
  • 上下文: 提供问题答案的文本片段。
  • 答案: 在上下文中定位的答案。
  • {
        "question": "What is the capital of France?",
        "context": "Paris is the capital of France.",
        "answer": "Paris"
    }
    

4. 文本生成

数据集: Shakespeare Dataset

  • 下载链接: Shakespeare Text
  • 格式: 纯文本文件,包含莎士比亚的作品,适合文本生成任务。
  • 背景:
    Shakespeare文本数据集包含莎士比亚的作品,常用于文本生成任务,尤其是生成与莎士比亚风格相似的文本。

  • 内容:

    • 纯文本格式,包含多个故事、剧本等。
    • Once upon a time, there was a princess who lived in a castle. 
      She loved to explore the nearby forest.
      

5. 文本蕴涵(NLI)

数据集: SNLI Mini

  • 下载链接: SNLI Dataset
  • 说明: SNLI有一个小型子集,适合快速测试。
  • 格式: 包含前提、假设和对应标签。
  • 背景:
    SNLI是一个用于文本蕴涵任务的标准数据集,旨在研究句子之间的关系,如蕴涵、对立或中立。

  • 内容:

    • 关系类型: Entailment, Contradiction, Neutral
    • 样本数量: 包含超过57,000个句子对。
    • {
          "premise": "A man is playing a guitar.",
          "hypothesis": "A man is making music.",
          "label": "entailment"
      }
      

6. 机器翻译

数据集: Multi30k

  • 下载链接: Multi30k Dataset
  • 格式: 图像描述的文本和翻译文本。
  • 背景:
    Multi30k是一个用于机器翻译的多语言数据集,提供图像的描述文本,并翻译为多种语言。

  • 内容:

    • 图像描述和其对应的翻译文本。
    • English: "A person is riding a horse."
      German: "Eine Person reitet ein Pferd."
      

7. 对话系统

数据集: Persona-Chat

  • 下载链接: Persona-Chat Dataset
  • 格式: 包含对话的逐句内容。
  • 背景:
    Persona-Chat数据集是为了训练对话系统而设计的,包含了基于特定个性生成的对话。

  • 内容:

    • 每个对话由多轮交互组成,包含用户输入和系统响应。
    • {
          "dialogue": [
              "Hi! How are you?",
              "I'm good, thank you! And you?"
          ],
          "persona": [
              "I love traveling.",
              "I'm a vegetarian."
          ]
      }
      

8. 情感分析

数据集: Sentiment140 Mini

  • 下载链接: Sentiment140 Dataset
  • 说明: 可以下载较小的子集用于情感分析。
  • 格式: 包含推文ID、情感标签和文本内容。
  • 背景:
    Sentiment140是一个用于情感分析的Twitter数据集,包含从推特中提取的文本和情感标签。

  • 内容:

    • 情感标签: 0 (负面), 4 (正面)
    • 样本数量: 包含160万条推文。
    • "tweet_id","sentiment","text"
      "1234567890","0","I love this product!"
      "1234567891","4","This is the worst experience ever."
      


http://www.kler.cn/news/329061.html

相关文章:

  • 解决 Adobe 盗版弹窗
  • 【Linux 从基础到进阶】HBase数据库安装与配置
  • 【DAY20240926】06从入门到精通:掌握 Git 分支操作的实用指南
  • 修复OpenSSH远程代码执行漏洞:版本升级到9.9p1
  • springboot启动流程
  • vue基于Spring Boot框架的高校实验室预约管理系统
  • 论文阅读:多模态医学图像融合方法的研究进展
  • golang rpc
  • TCP\IP标准与OSI标准
  • JS进阶 1——作用域、解构、箭头函数
  • 滚雪球学MySQL[3.2讲]:MySQL聚合函数与分组详解:COUNT、SUM、AVG、MAX、MIN及GROUP BY与HAVING
  • Qt 每日面试题 -5
  • 手机实时提取SIM卡打电话的信令声音-新的篇章(二、USB音频线初步探索)
  • XML与JSON的用法与区别
  • IP数据云—IP定位可以精准到什么程度?
  • 深度学习:(八)深层神经网络参数与流程
  • Win10系统插入带有麦克风的耳机_麦克风不起作用_解决方法_亲测成功---Windows运维工作笔记054
  • 面试题1-fail-safe机制与fail-fast 机制
  • 以太网开发基础-MAC和PHY
  • js设计模式(26)
  • GeoShp:shapefile转geojson支持nodejs和浏览器
  • 消息队列(MQ)深度探索:架构精髓、卓越优势与广泛应用
  • UE5 项目缓存文件删除、版本控制说明(工程目录结构)
  • 解决DHCP服务异常导致设备无法获取IP地址的方法
  • Thinkphp/Laravel基于vue的少数民族民歌网络图书馆管理系统
  • STM32低功耗实验学习日记
  • GO语言环境搭建和字符说明
  • 【Linux系统编程】第二十六弹---彻底掌握文件I/O:C/C++文件接口与Linux系统调用实践
  • 中国身份证号码校验
  • python和r语言的区别是什么