当前位置: 首页 > article >正文

【数据集】ACM数据集

ACM(Association for Computing Machinery)数据集是计算机科学领域常用于研究学术论文、作者关系、引文网络、推荐系统、图神经网络(GNN)等任务的数据集之一。该数据集通常包含学术论文、作者、研究领域以及它们之间的关系,并在许多机器学习、数据挖掘和社交网络分析任务中广泛使用。


1. ACM数据集的版本和来源

ACM数据集的版本较多,不同版本的数据来源和内容可能有所不同,常见的版本包括:

  • ACM Citation Network Dataset:由Microsoft Academic Graph(MAG)或DBLP提取的ACM引用网络数据,包含论文及其引用关系。
  • ACM Author-Paper Dataset:用于学术社交网络分析,包含作者、论文及其关系信息。
  • ACM数据集(ACM-DBLP):用于异质图神经网络(Heterogeneous Graph Neural Networks, HGNN)研究,包括论文、作者和研究领域。

2. 数据结构

不同的ACM数据集包含不同的信息,以下是常见的数据组织形式:

(1) 节点类型

ACM数据集通常包含以下几类节点:

  • Paper(论文):包括论文ID、标题、摘要、发表年份、会议等信息。
  • Author(作者):包括作者ID、姓名、单位等信息。
  • Conference/Venue(会议或期刊):论文发表的会议或期刊信息。
  • Field(研究领域):论文所属的计算机科学研究方向。

(2) 边类型(关系)

  • (Author, writes, Paper):作者撰写论文的关系。
  • (Paper, cites, Paper):论文引用其他论文的关系。
  • (Paper, published_in, Conference):论文发表在会议上的关系。
  • (Paper, belongs_to, Field):论文所属的研究领域。

(3) 典型数据格式

ACM数据集通常以CSV、JSON、Graph(图数据格式,如Neo4j、DGL、PyG)存储。常见的数据示例如下:

论文表 (Papers.csv)
PaperIDTitleYearConference
P001"Deep Learning for NLP"2018NeurIPS
P002"Graph Neural Networks"2019ICML
P003"A Survey on Recommender Sys"2017WWW
作者表 (Authors.csv)
AuthorIDNameAffiliation
A001John SmithMIT
A002Alice BrownStanford
A003Bob JohnsonHarvard
论文-作者关系 (Paper_Author.csv)
PaperIDAuthorID
P001A001
P002A002
P002A003
论文引用关系 (Paper_Citation.csv)
CitingPaperIDCitedPaperID
P002P001
P003P001

3. ACM数据集的用途

ACM数据集常用于以下研究领域:

(1) 论文推荐系统

  • 基于协同过滤的推荐:使用论文-作者-领域关系构建推荐模型。
  • 基于图神经网络(GNN)的论文推荐:利用异构图神经网络(Heterogeneous GNN)建模论文、作者和领域之间的关系。

(2) 学术社交网络分析

  • 研究作者合作关系,分析学术合作模式。
  • 识别学术领域的关键作者、影响力最大论文等。

(3) 计算机科学研究趋势分析

  • 通过论文发表年份和研究领域分析不同方向的发展趋势。
  • 利用文本挖掘技术提取研究热点。

(4) 引文网络分析

  • 分析论文的影响力和被引次数,研究学术传播模式。
  • 计算论文PageRank值,发现高影响力论文。

(5) 机器学习与深度学习实验

  • 异构图表示学习:Heterogeneous Graph Embedding (如metapath2vec)。
  • 图神经网络:Graph Neural Networks (如 GCN, GAT, HAN) 在学术网络中的应用。

4. 相关研究与数据集下载

ACM数据集的不同版本可以从以下渠道获取:

  • Microsoft Academic Graph (MAG):Microsoft Academic Graph - Microsoft Research
  • DBLP (计算机科学论文库):dblp: computer science bibliography
  • OGB (Open Graph Benchmark):Open Graph Benchmark | A collection of benchmark datasets, data-loaders and evaluators for graph machine learning in PyTorch.
  • Graph Learning Benchmarks (GLB):https://graphlearning.io/

5. 代码示例

使用Python和NetworkX分析ACM引文网络的示例:

import pandas as pd
import networkx as nx
import matplotlib.pyplot as plt

# 读取数据
papers = pd.read_csv("Papers.csv")  # 论文数据
authors = pd.read_csv("Authors.csv")  # 作者数据
citations = pd.read_csv("Paper_Citation.csv")  # 论文引用关系

# 创建有向图
G = nx.DiGraph()

# 添加论文节点
for _, row in papers.iterrows():
    G.add_node(row["PaperID"], label="Paper", title=row["Title"])

# 添加引用关系
for _, row in citations.iterrows():
    G.add_edge(row["CitingPaperID"], row["CitedPaperID"], relation="cites")

# 绘制引文网络
plt.figure(figsize=(10, 8))
nx.draw_networkx(G, with_labels=True, node_size=500, font_size=8)
plt.show()

该代码读取ACM数据集的论文和引文关系,并用 NetworkX 绘制引文网络。


数据集特点

  1. 异构性(Heterogeneity):ACM 数据集包含 论文-作者-会议-研究领域 之间的复杂关系,适用于 异构图分析
  2. 高质量学术数据:数据来源于 ACM、DBLP、Microsoft Academic Graph (MAG) 等权威数据库,适用于学术网络分析和推荐系统研究。
  3. 大规模 & 小规模数据版本
    • 大规模 ACM-MAG 数据集 适用于大规模引文网络分析(论文数百万级)。
    • 小规模 ACM-DBLP 数据集 适用于 Heterogeneous Graph Neural Networks (HGNN) 研究(论文数万级)。
  4. 适用于机器学习 & 深度学习
    • 可用于 论文推荐系统学术影响力分析知识图谱构建
    • 可用于 图神经网络(GNN)训练,如 GCN、GAT、HAN 等。


常用子集

下载地址:ACM Dataset | Papers With Code

ACM数据集包含了发表在KDD、SIGMOD、SIGCOMM、MobiCOMM和VLDB等顶级会议上的论文,并根据研究领域分为三大类:数据库(Database)、无线通信(Wireless Communication)和数据挖掘(Data Mining)。该数据集构建了一个异质图(heterogeneous graph),其中包含以下实体和关系:

  • 论文(Paper):3025篇论文,每篇论文的特征通过关键词的词袋模型(bag-of-words)表示。

  • 作者(Author):5835位作者,与论文之间存在撰写关系。

  • 主题(Subject):56个主题,与论文之间存在分类关系。

数据集的核心特点:

  1. 异质图结构

    • 图中包含多种类型的节点(论文、作者、主题)和边(论文-作者、论文-主题)。

    • 这种异质图结构适合用于图神经网络(GNN)等图数据分析任务。

  2. 论文特征

    • 每篇论文的特征通过关键词的词袋模型表示,即用一组关键词的向量来描述论文内容。

    • 这种表示方法适用于文本挖掘、分类和推荐等任务。

  3. 类别划分

    • 论文被划分为三大类:数据库、无线通信和数据挖掘。

    • 这种分类信息可用于监督学习任务,如论文分类或领域预测。

应用场景:

  • 论文分类:基于论文的关键词特征和异质图结构,对论文进行领域分类。

  • 作者推荐:通过分析作者与论文的关系,推荐潜在的合作者。

  • 主题挖掘:从论文与主题的关系中挖掘热门研究领域或趋势。

  • 图神经网络研究:作为异质图的典型数据集,用于验证图神经网络算法的性能。

数据集的挑战:

  • 异质图复杂性:由于包含多种类型的节点和边,图的构建和分析较为复杂。

  • 特征稀疏性:词袋模型表示的关键词特征可能较为稀疏,需要特征工程或嵌入表示来优化。

  • 类别不平衡:三大类论文的数量可能不均衡,需注意分类任务中的数据平衡问题。


ACM数据集是学术论文推荐、学术网络分析和图机器学习研究的重要数据集,广泛用于学术社交网络分析、推荐系统、文本挖掘、知识图谱等领域。它不仅提供了学术论文的详细信息,还通过引文、作者和研究领域的关系构建了一个复杂的学术网络,适用于多种机器学习和数据挖掘任务。


http://www.kler.cn/a/567502.html

相关文章:

  • 《动手学习深度学习》的笔记
  • 自学微信小程序的第八天
  • nuxt常用组件库html-validator应用解析
  • P1135 奇怪的电梯(深度优先搜索优化)
  • 多维模型数据库(OLAP)和列式数据库的区别
  • 【Qt QML】QML鼠标事件(MouseArea)
  • 【JAVA SE基础】抽象类和接口
  • 贪心算法 求解思路
  • 4-1.jvm的类加载
  • 485 多路信号采集,校验干扰问题
  • 机器学习预备知识
  • 基于springboot+vue的拼夕夕商城
  • GPT-4.5实际性能评测:实际探索
  • Java并发编程之可见性、原子性和有序性
  • C语言-7.函数
  • 6-1JVM的执行引擎处理
  • CF 109A.Lucky Sum of Digits(Java实现)
  • ffmpeg-static 依赖详解
  • 芯麦GC1277与0CH477驱动芯片对比分析:电脑散热风扇应用的性能优势与替代方案
  • 在线抽奖系统——管理员注册