当前位置：首页 > article >正文

【数据集】ACM数据集

article 2025/3/7 8:24:24

ACM（Association for Computing Machinery）数据集是计算机科学领域常用于研究学术论文、作者关系、引文网络、推荐系统、图神经网络（GNN）等任务的数据集之一。该数据集通常包含学术论文、作者、研究领域以及它们之间的关系，并在许多机器学习、数据挖掘和社交网络分析任务中广泛使用。

1. ACM数据集的版本和来源

ACM数据集的版本较多，不同版本的数据来源和内容可能有所不同，常见的版本包括：

ACM Citation Network Dataset：由Microsoft Academic Graph（MAG）或DBLP提取的ACM引用网络数据，包含论文及其引用关系。
ACM Author-Paper Dataset：用于学术社交网络分析，包含作者、论文及其关系信息。
ACM数据集（ACM-DBLP）：用于异质图神经网络（Heterogeneous Graph Neural Networks, HGNN）研究，包括论文、作者和研究领域。

2. 数据结构

不同的ACM数据集包含不同的信息，以下是常见的数据组织形式：

(1) 节点类型

ACM数据集通常包含以下几类节点：

Paper（论文）：包括论文ID、标题、摘要、发表年份、会议等信息。
Author（作者）：包括作者ID、姓名、单位等信息。
Conference/Venue（会议或期刊）：论文发表的会议或期刊信息。
Field（研究领域）：论文所属的计算机科学研究方向。

(2) 边类型（关系）

(Author, writes, Paper)：作者撰写论文的关系。
(Paper, cites, Paper)：论文引用其他论文的关系。
(Paper, published_in, Conference)：论文发表在会议上的关系。
(Paper, belongs_to, Field)：论文所属的研究领域。

(3) 典型数据格式

ACM数据集通常以CSV、JSON、Graph（图数据格式，如Neo4j、DGL、PyG）存储。常见的数据示例如下：

论文表 (Papers.csv)

PaperID	Title	Year	Conference
P001	"Deep Learning for NLP"	2018	NeurIPS
P002	"Graph Neural Networks"	2019	ICML
P003	"A Survey on Recommender Sys"	2017	WWW

作者表 (Authors.csv)

AuthorID	Name	Affiliation
A001	John Smith	MIT
A002	Alice Brown	Stanford
A003	Bob Johnson	Harvard

论文-作者关系 (Paper_Author.csv)

PaperID	AuthorID
P001	A001
P002	A002
P002	A003

论文引用关系 (Paper_Citation.csv)

CitingPaperID	CitedPaperID
P002	P001
P003	P001

3. ACM数据集的用途

ACM数据集常用于以下研究领域：

(1) 论文推荐系统

基于协同过滤的推荐：使用论文-作者-领域关系构建推荐模型。
基于图神经网络（GNN）的论文推荐：利用异构图神经网络（Heterogeneous GNN）建模论文、作者和领域之间的关系。

(2) 学术社交网络分析

研究作者合作关系，分析学术合作模式。
识别学术领域的关键作者、影响力最大论文等。

(3) 计算机科学研究趋势分析

通过论文发表年份和研究领域分析不同方向的发展趋势。
利用文本挖掘技术提取研究热点。

(4) 引文网络分析

分析论文的影响力和被引次数，研究学术传播模式。
计算论文PageRank值，发现高影响力论文。

(5) 机器学习与深度学习实验

异构图表示学习：Heterogeneous Graph Embedding (如metapath2vec)。
图神经网络：Graph Neural Networks (如 GCN, GAT, HAN) 在学术网络中的应用。

4. 相关研究与数据集下载

ACM数据集的不同版本可以从以下渠道获取：

Microsoft Academic Graph (MAG)：Microsoft Academic Graph - Microsoft Research
DBLP (计算机科学论文库)：dblp: computer science bibliography
OGB (Open Graph Benchmark)：Open Graph Benchmark | A collection of benchmark datasets, data-loaders and evaluators for graph machine learning in PyTorch.
Graph Learning Benchmarks (GLB)：https://graphlearning.io/

5. 代码示例

使用Python和NetworkX分析ACM引文网络的示例：

import pandas as pd
import networkx as nx
import matplotlib.pyplot as plt

# 读取数据
papers = pd.read_csv("Papers.csv")  # 论文数据
authors = pd.read_csv("Authors.csv")  # 作者数据
citations = pd.read_csv("Paper_Citation.csv")  # 论文引用关系

# 创建有向图
G = nx.DiGraph()

# 添加论文节点
for _, row in papers.iterrows():
    G.add_node(row["PaperID"], label="Paper", title=row["Title"])

# 添加引用关系
for _, row in citations.iterrows():
    G.add_edge(row["CitingPaperID"], row["CitedPaperID"], relation="cites")

# 绘制引文网络
plt.figure(figsize=(10, 8))
nx.draw_networkx(G, with_labels=True, node_size=500, font_size=8)
plt.show()

该代码读取ACM数据集的论文和引文关系，并用 NetworkX 绘制引文网络。

数据集特点

异构性（Heterogeneity）：ACM 数据集包含 论文-作者-会议-研究领域 之间的复杂关系，适用于 异构图分析。
高质量学术数据：数据来源于 ACM、DBLP、Microsoft Academic Graph (MAG) 等权威数据库，适用于学术网络分析和推荐系统研究。
大规模 & 小规模数据版本：
- 大规模 ACM-MAG 数据集 适用于大规模引文网络分析（论文数百万级）。
- 小规模 ACM-DBLP 数据集 适用于 Heterogeneous Graph Neural Networks (HGNN) 研究（论文数万级）。
适用于机器学习 & 深度学习：
- 可用于 论文推荐系统、学术影响力分析、知识图谱构建。
- 可用于 图神经网络（GNN）训练，如 GCN、GAT、HAN 等。

常用子集

下载地址：ACM Dataset | Papers With Code

ACM数据集包含了发表在KDD、SIGMOD、SIGCOMM、MobiCOMM和VLDB等顶级会议上的论文，并根据研究领域分为三大类：数据库（Database）、无线通信（Wireless Communication）和数据挖掘（Data Mining）。该数据集构建了一个异质图（heterogeneous graph），其中包含以下实体和关系：

论文（Paper）：3025篇论文，每篇论文的特征通过关键词的词袋模型（bag-of-words）表示。
作者（Author）：5835位作者，与论文之间存在撰写关系。
主题（Subject）：56个主题，与论文之间存在分类关系。

数据集的核心特点：

异质图结构：
- 图中包含多种类型的节点（论文、作者、主题）和边（论文-作者、论文-主题）。
- 这种异质图结构适合用于图神经网络（GNN）等图数据分析任务。
论文特征：
- 每篇论文的特征通过关键词的词袋模型表示，即用一组关键词的向量来描述论文内容。
- 这种表示方法适用于文本挖掘、分类和推荐等任务。
类别划分：
- 论文被划分为三大类：数据库、无线通信和数据挖掘。
- 这种分类信息可用于监督学习任务，如论文分类或领域预测。

应用场景：

论文分类：基于论文的关键词特征和异质图结构，对论文进行领域分类。
作者推荐：通过分析作者与论文的关系，推荐潜在的合作者。
主题挖掘：从论文与主题的关系中挖掘热门研究领域或趋势。
图神经网络研究：作为异质图的典型数据集，用于验证图神经网络算法的性能。

数据集的挑战：

异质图复杂性：由于包含多种类型的节点和边，图的构建和分析较为复杂。
特征稀疏性：词袋模型表示的关键词特征可能较为稀疏，需要特征工程或嵌入表示来优化。
类别不平衡：三大类论文的数量可能不均衡，需注意分类任务中的数据平衡问题。

ACM数据集是学术论文推荐、学术网络分析和图机器学习研究的重要数据集，广泛用于学术社交网络分析、推荐系统、文本挖掘、知识图谱等领域。它不仅提供了学术论文的详细信息，还通过引文、作者和研究领域的关系构建了一个复杂的学术网络，适用于多种机器学习和数据挖掘任务。

查看全文

http://www.kler.cn/a/567502.html

《动手学习深度学习》的笔记

自学微信小程序的第八天

nuxt常用组件库html-validator应用解析

P1135 奇怪的电梯（深度优先搜索优化）

多维模型数据库（OLAP）和列式数据库的区别

【Qt QML】QML鼠标事件(MouseArea)

【JAVA SE基础】抽象类和接口

贪心算法求解思路

4-1.jvm的类加载

485 多路信号采集，校验干扰问题

机器学习预备知识

基于springboot+vue的拼夕夕商城

GPT-4.5实际性能评测：实际探索

Java并发编程之可见性、原子性和有序性

C语言-7.函数

6-1JVM的执行引擎处理

CF 109A.Lucky Sum of Digits(Java实现)

ffmpeg-static 依赖详解

芯麦GC1277与0CH477驱动芯片对比分析：电脑散热风扇应用的性能优势与替代方案

在线抽奖系统——管理员注册