论文阅读 - Labeled Datasets for Research on Information Operations
https://arxiv.org/pdf/2411.10609
目录
Introduction
Related Work
Characterizing IOs and Their Tactics
Detecting Inauthentic Coordinated Behaviors
Collecting IO Control Datasets
IO Datasets
Control Datasets
Control Data Collection
Data Curation
Descriptive and Coverage Statistics
Discussion
背景
社交媒体平台已成为政治活动和讨论的中心,使这些活动的参与民主化。然而,社交媒体平台也成为操纵活动的孵化器,如信息操纵(IO)。
现状
一些社交媒体平台发布了与来自不同国家的此类国际组织有关的数据集。然而,缺乏全面的对照数据来开发 IO 检测方法。
这篇论文的工作:
为了弥补这一差距,作者提出了关于 26 个活动的新标签数据集,其中既包含经社交媒体平台验证的 IO 帖子,也包含在同一时间段内讨论类似主题的 3.03 万个账户发布的超过 1300 万条帖子(对照数据)。
贡献:
这些数据集将有助于研究不同运动和国家的协调账户所采用的叙事、网络互动和参与策略。通过将这些协调账户与有机账户进行比较,研究人员可以开发 IO 检测算法并为其设定基准。
Introduction
背景介绍
社交媒体平台最初被视为信息民主化的工具,但现在也演变成了传播阴谋论和可疑信息的渠道(拉泽等人,2018;沃索菲、罗伊和阿拉尔,2018)。不真实账户(Shao 等人,2018 年;Yang 和 Menczer,2024 年)、政治傀儡(Woolley 和 Howard,2018a)以及国家支持的运营商(Badawy 等人,2019 年)的扩散加剧了社交媒体在误导性叙述和宣传方面的脆弱性。欺骗性的、精心策划的活动,称为信息行动(IO),被定义为为了战略目标而操纵或破坏目标受众内的公共辩论的协调努力(Facebook 2021)。
IO行动的特点:
参与 IO 的账户采用各种策略,从人为放大推广内容到有针对性地攻击特定账户社区。IO 可能是一种复杂、精密的行为,其特点包括以下几个方面:
1. 领域: 不同行动的主要关注点可能大相径庭,但在大多数情况下都是政治性的。
2. 目标(Goals):IO 可以涵盖广泛的目标,例如推进有关政治的叙述、放大支持或反政府的内容以及传播宣传和/或虚假信息。
3. 目标(Targets):受操纵的受众。这些活动的规模可能有所不同,从小团体到整个国家和地缘政治区域。
4. 战术:为实现信息作战组织的战略目标而采用的方法。这些策略的范围可以从简单的行为(例如,垃圾邮件)到涉及协调、混淆或冒充政治人物的复杂行为。
5. 平台:与 IO 相关的活动可以扩展到多个在线平台。
6. 用户:IO 中涉及的账户范围可能从小到大,人工操作或自动操作,并且可能涉及虚假或泄露的个人资料。
IO存在于各类社交媒体平台:
2012 年,在韩国的一个社交媒体平台上发现了首批记录在案的 IO(Keller 等人,2020 年)。
从那时起,全球各地都有关于 IO 的报道,IO 已成为一种全球性威胁(Bradshaw 和 Howard,2017 年;Woolley 和 Howard,2018 年 b;斯坦福互联网观察站,2021 年)。
一个众所周知的案例是俄罗斯互联网研究机构(IRA)对 2016 年美国总统大选的干扰(参议院情报特设委员会,2019 年)。
由于 IOs 的潜在不利影响,Twitter(现为 X)、Facebook 和 Reddit 等主要社交媒体平台开始发布关于在其平台上发现的 IOs 的报告和数据。
数据集的重要性:
对 IO 的研究主要利用 Twitter 数据来表征 IO 账户,揭示其策略,并提出检测方法 Nwala、Flammini 和 Menczer(2023);卢切里等人。 (2024);西玛等人。 (2024);赛义德等人。 (2024)。这项研究需要对照数据,其中包括基线或负面类别的活动,即参与与 IO 活动类似的对话的合法帐户。出于至少两个原因,多个信息战活动的对照数据集的可用性至关重要。
首先,现有数据集是过时的、私有的或与特定活动绑定的,这阻碍了可跨起源、背景和复杂程度各不相同的 IO 的检测模型的开发(Badawy 等,2019 年;Cima 等,2024 年)
其次,在 Twitter API 关闭之后研究人员收集与 IO 相关的新数据成本过高。尽管如此,针对多个 IO 运动的对照数据集仍未得到充分开发。
为了弥补这一不足,作者在此推出了新的数据集,其中包括 IO 数据和相关对照数据,涵盖了参与不同国家 26 个不同的、经过验证的 IO 活动的在线讨论的合法账户。数据集经过匿名处理,以保护用户隐私。这些数据集内容全面、易于访问、语境丰富,为研究人员分析和描述各种语境下的 IO,以及开发检测和打击 IO 的新方法提供了宝贵的资源。
The datasets are available at https://doi.org/10.5281/zenodo.14141549.
Related Work
Characterizing IOs and Their Tactics
以往的研究探讨了IO账户的活动,如国家支持的针对#BlackLivesMat-ter运动的巨魔(Stewart、Arif和Starbird,2018年)和2016年美国大选(Badawy等,2019年),以及他们在不同运动中的活动差异(Zannettou等,2019年b)。
一些研究表明,IO 账户如何利用不真实或自动化账户来提高其知名度并人为放大信息(Linvill 和 Warren,2020 年;Elmas,2023 年),同时又能抵御大规模关闭(Merhi、Rajtmajer 和 Lee,2023 年)。
研究人员报告了 IO 账户使用的不同策略,例如曳引(Zannettou 等人,2019a)、通过政治漫画灌水(Fecher 等人,2022 年)、劫持标签(Ong 和 Caba˜nes,2018 年)、删除内容以避免被发现(Torres-Lugo 等人,2022 年)、虚假信息和宣传。2022 年)、虚假信息和宣传(Woolley 和 Howard 2018b)、政治备忘录(Rowett 2018 年;Zannettou 等 2020 年;Ng、Moffitt 和 Carley 2022 年)以及广告或付费数字影响者(Ong 和 Caba˜nes 2018 年)。
Detecting Inauthentic Coordinated Behaviors
目前已开发出多种无监督和有监督的机器学习模型,用于识别与国际组织有关的信息和协调账户。
检测协调性的无监督方法包括多视角模块化聚类(Uyheng、Cruickshank 和 Carley,2022 年)、基于叙事和账户特征的贝叶斯方法(Smith、Ehrett 和 Warren,2024 年),以及分析共享活动相似性的基于网络的模型(Pacheco 等,2021 年;Luceri 等,2024 年;Cima 等,2024 年)。
一些监督学习方法会对帖子进行分类,以确定某条信息是否属于 IO 的一部分。这些方法利用语言特征来训练现成的机器学习算法(Addawood 等人,2019 年;Im 等人,2020 年)或大型语言模型(Luceri、Boniardi 和 Ferrara,2024 年)。
其他分类器则试图根据账户行为来区分IO账户和有机账户。针对这一任务的方法包括强化学习(Luceri、Giordano 和 Ferrara,2020 年)、账户行为序列(Nwala、Flammini 和 Menczer,2023 年;Ezzeddine 等,2023 年)和霍克斯建模(Kong 等,2023 年)。协调账户检测还利用了内容(Alizadeh 等人,2020 年)和生成模型(Sharma 等人,2021 年)。最近的机器学习模式利用从跨活动数据(如第三方应用程序和转贴模式)中提取的特征来检测以前未见过的活动账户(Saeed 等人,2024 年)。
Collecting IO Control Datasets
打击信息行动需要获取有关非真实协调活动的数据。此类数据的早期例子出现在 2016 年之后,当时美国国会调查了俄罗斯对美国大选的干预。调查发现了与IRA有关联的恶意巨魔和机器人,它们传播有偏见的信息,促使社交媒体平台处理协调的虚假活动。众议院情报委员会公布了IRA购买的 3,517 个 Facebook 编辑的 PDF 文件。 Meta 还分享了博客文章和威胁报告,向用户通报其打击虚假信息的努力。Reddit 识别出 944 个可能与 IRA 相关的可疑账户以及一份透明度报告。
尽管这些数据集能很好地描述协调行为,但却无法帮助区分协调账户和普通账户。研究人员收集了 Twitter 发布的特定活动的控制数据集,从而可以对这些群体进行更细致的比较。
例如,Badawy 等人(2019)根据与 2016 年美国总统大选相关的标签和关键词列表收集了推文。
Alizadeh 等人(2020)通过将随机账户 ID 与至少关注了五位美国政治家的账户结合起来,为多个 IO 竞选活动策划了控制数据。
Vargas、Emami和Traynor(2020)为2018-2019年的IO活动收集了四个对照组:政治群体(美国国会和英国议会议员)、非政治群体(学术和安全研究人员)、基于流行标签的群体,以及通过在关注者网络中随机漫步选出的流行账户。
Smith、Ehrett 和 Warren(2024 年)通过查询同期内与每场竞选活动相关的特定关键词,为四场竞选活动建立了控制数据集。
Cima 等人(2024 年)编制了两个 IO 运动的控制数据集。他们选取了每个活动中协调账户使用的热门标签,并收集了活动最后 4 个月中至少包含一个这些标签的所有推文。
同样,Guo 和 Vosoughi(2022 年)引入了来自 14 个国家的 28 个 IO 运动的控制数据集,时间跨度为 2015-2018 年。作者将包含协调账户每月使用的热门标签的推文纳入其中,并从互联网档案馆提供的 1%实时推文样本中收集推文。
作者提出的数据集:
虽然现有的控制数据集很有价值,作者在整理本文所介绍的对照数据集时,旨在解决一些重要的局限性:
首先,这些数据集通常包括对照账户发布的与 IO 账户主题相似的帖子,但却不包括这些对照账户发布的与主题无关的帖子。相比之下,作者的数据集包含了对照账户讨论类似主题的帖子及其时间线中的其他帖子,提供了一组与 IO 账户帖子更具可比性的帖子。
其次,以前的工作大多只提供少数 IO 运动和国家的对照数据集,而作者的数据集包括多个国家 26 个运动的数据,涉及由多个国家支持的行动。
第三,现有的一些数据集只收集了一小部分公开帖子。而作者的数据集覆盖了 100% 的对照数据。
最后,以前的大多数数据集只提供 ID,需要使用平台 API 进行 “再水化”,而研究人员目前无法访问这些 API。
作者提供的是符合平台隐私政策的匿名数据,无需再水化。
IO Datasets
作者为一些国际组织数据集策划了对照数据集。从一个包含国家赞助的国际组织数据的公共档案开始,这些数据由一个社交媒体平台在其透明度网站上提供。这些活动跨越了数年和数个国家。
在删除 IO 运动后,该平台重新发布了相应的数据集。重点关注平台归属于 16 个国家行为者的 26 个活动。每个活动都由一个国家行为者(如俄罗斯或卡特琳娜)和一个数字来识别,以区分来自同一国家行为者的活动。
一个活动包含与该活动相关的 IO 账户的时间轴记录--无论这些时间轴中的每篇帖子是否属于该活动的一部分。例如,一个被劫持的账户可能被重新利用,成为活动的一部分。对于每个活动,都从多个文件中收集了这些记录,并以 README 文件和博文的形式咨询了平台的文档,同时交叉比对了 IO 账户的数量。
根据平台文档,发现有四组活动可以合并:
1. Venezuela 1 and Venezuela 2
2. China 1 and China 2
3. Russia 1 and Russia 4
4. Iran 2, Iran 3, and Iran 4
不过,有意避免合并这些数据集,而是让研究人员在必要或有利于其调查的情况下进行合并。
Control Datasets
对于特定的 IO 活动而言,什么是好的对照数据集值得商榷。IO 行动者的主要策略之一是协调努力,以获得有机账户的参与、互动和信任,这些账户既可以是目标,也可以是推动其议程的不合作者(Starbird,2019 年)。
然而,并非每个有机账户都会受到 IO 影响。有些人可以讨论类似的话题,但不会认可 IO 信息。因此,一个合适的对照组应包括那些同时参与相同话题讨论,但不属于 IO 的账户。捕捉此类话题的一种方法是提取 IO 中使用的标签。
Control Data Collection
图 1 展示了数据收集和整理流程。
首先收集特定 IO 活动中 IO 账户使用的所有标签,以识别讨论类似话题的对照账户。请注意,这种方法是针对每个活动分别进行的,例如,中国 1 和中国 2 的控制数据集是独立收集的。
随后,利用平台的应用程序接口(API),将这些标签作为查询条件,以识别与 IO 帐户在相同日期发布并使用相同标签的帐户。
最后,提取了最多 100 条与 IO 账户在相同日期发布的信息,重新构建了对照账户的每日时间线。例如,如果一个 IO 账户在 2019 年 9 月 10 日发布了#election 标签,作者就会通过识别在同一天也使用该标签的账户来创建相应的对照账户列表。
然后,从 API 中提取了他们在该特定日期的时间线。收集了 26 个 IO 活动中每个活动的对照数据。之所以选择这些活动,部分原因在于 API 和计算方面的限制。
Data Curation
从应用程序接口的 IO 数据中删除了对照数据中没有相应字段的列。同样,也从对照数据中删除了 IO 数据中没有对应列的字段。最后,对齐了字段名称,以确保 IO 数据和对照数据的一致性。
合并后的数据集包含以下字段:
帖子 ID、帖子文本、应用程序名称、帖子语言、回复帖子 ID、回复账户 ID、帖子时间、账户 ID、账户资料描述、粉丝数、关注数、账户创建日期、是否转帖、转帖账户 ID、转帖帖子 ID、标签、url、提及次数、是否控制。在 is control 一栏中,IO 活动的记录标记为 “假”,而控制记录标记为 “真”。
匿名处理:
在公开数据集之前,必须尊重用户的隐私。因此,通过单向散列算法对所有个人身份信息(PII)进行了匿名处理。其中包括账户 ID、帖子 ID、URL 和用户名。后两项信息即使出现在帖子文本和个人资料描述中,也会进行散列处理。位置信息会被删除。确保了持续的匿名化,因此 IO 和控制帖子中提到的账户可以通过散列 ID 进行链接,同时还能保护隐私。
每个数据集被分割成每个文件 50,000 个帖子。这样,所有活动上共有 703 个文件。运动,其中最大的运动(古巴)包括 124 份档案。
Descriptive and Coverage Statistics
表 1 提供了数据集的定量概览。持续时间最长的数据集跨越 12 年(中国 2),而持续时间最短的数据集不到一年(西班牙和伊朗 5)。需要注意的是,数据集中的第一个帖子并不一定代表活动的开始,因为 IO 账户可能在参与活动之前就已经存在并发布了帖子。
不同活动的账户和帖子数量差异很大,转帖和回复数量也是如此。这表明不同活动的参与程度不同。作者还发现,对照账户的数量总是超过 IO 账户的数量,而每个 IO 账户的活跃度往往更高。但请注意,这很可能是由于收集对照数据的方式不同造成的,即收集的是单个天数而不是完整的时间线。
图 2 报告了对照数据在账户、标签和时间方面对 IO 活动的覆盖情况。
账户覆盖率是指被 IO 账户提及、回复或转发的账户中,被对照账户提及、回复或转发的账户所占的比例。账户覆盖率从 3%(伊朗 3)到 58%(加泰罗尼亚)不等,中位数为 17%。
IO 标签覆盖率的中位数为 31%,范围从 3%(伊朗 3)到 73%(委内瑞拉 2)不等。
最后,IO 数据的日期覆盖率中位数为 44%,范围从 15% (埃及阿联酋)到 84%(厄瓜多尔)不等。
(数据覆盖范围。左图:可在对照数据集中找到的被 IO 账户提及/回复/转发的账户百分比。中间: 对照账户也使用的 IO 标签百分比。右图 IO 账户发布的信息被对照账户覆盖的天数百分比。虚线表示中值。)
Discussion
研究人员可以利用本报告中介绍的数据集,从不同方面描述非真实共同活动的特征。这包括分析不同活动和国家的 IO 账户在叙述、行为模式、网络结构和时间活动方面的差异。研究人员还可以调查不同运动所采用的策略,例如 IO 账户如何与其目标互动。此外,数据集还提供了对 IO 运动的系统对照数据,有助于研究人员设计和评估检测 IO 运动的方法。
收集对照数据的方式存在一些限制。选择条件对照集合关于共同共享 IO 主题标签的帐户意味着对照样本的质量取决于 IO 主题标签作为 IO 内容的质量代理,但情况并非总是如此。例如,一些 IO 帐户可能采用了不涉及使用任何主题标签的策略。在这种情况下,数据集可能缺乏这些账户的准确对照对应物。
即使活动积极使用标签,有些标签也可能非常流行和通用。使用这些标签来选择对照账户可能会导致对更活跃账户的抽样偏差。由于包含了流行标签,对照数据中可能会有非 IO 协调的活动,这些活动会被不准确地标记在数据集中。例如,假设一个 IO 账户使用了 #crypto 标签。对照数据可能包括由垃圾邮件发送者管理的推送加密货币操纵活动的账户。虽然这些账户参与了协调的非真实活动,但它们不会在数据集中被标记为 IO,因此,如果检测算法正确识别了这些账户,评估就会错误地将它们标记为假阳性错误。
虽然 IO 帐户的整个用户时间线都存在,但对照帐户的时间线是以 100 个帖子为单位进行裁剪的,并且不包括在符合纳入标准的日期之后发生的帖子。这导致单个对照账户的活跃天数与单个 IO 账户的活跃天数严重不符。虽然对照账户的帖子合理地集体覆盖了 IO 的活跃日期(图 2),但单个对照账户的时间线往往覆盖相对较短的时间段,而 IO 账户的时间线可能跨越数年。希望减少这种偏差影响的研究人员可以有选择性地选择时间活动相匹配的 IO 和控制账户。
除了时间偏差,对 IO 和对照标签使用的覆盖也不对称。对照账户可能会涵盖 IO 账户中不存在的话题,因为不包含与 IO 标签使用不匹配的对照内容。所有这些差异都可能影响旨在区分 IO 和控制账户的检测算法或描述性研究。
最后,虽然 IO 可以在多个社交网络平台上传播(Wilson 和 Starbird,2021 年),但数据集只集中在一个平台上。考虑活动如何在多个在线社交网络上展开是未来研究的一个有价值的方向。