ACE 2005,LDC2006T06数据集获取
ACE 2005数据集是评估七种实体类型:设施(FAC),地缘政治实体(GPE),位置(LOC),组织(ORG),人员(PER),车辆(VEH)和武器(WEA).
评估数据由Linguistic Data Consortium (LDC)发布.
- ACE 2005 Multilingual Training Corpus - Linguistic Data Consortium
目前暂未发现任何一个训练集 (Train) /开发集 (dev) /测试集 (test) 的标准划分规范,较为常见的方式是8:1:1随机划分 (Ju et. al. 2018).
Train + test set | 数量 (字符) | 主题(Genre) |
---|---|---|
ACE 2005 | 325,834 | 新闻, 广播新闻, 博客 |
不过这种数据集是收费的,大概需要4000$左右, 这里我提供一个下载地址,可以不用翻墙获得:ACE2005 LDC2006T06 dataset