论文阅读_角色扮演综述从人格化到个性化
中文标题:From Persona to Personalization: A Survey on Role-Playing Language Agents
中文名称:从人格化到个性化:关于角色扮演语言代理的综述
链接: http://arxiv.org/pdf/2404.18231v2
作者: Jiangjie Chen, Xintao Wang, Rui Xu, Siyu Yuan, Yikai Zhang, Wei Shi, Jian Xie, Shuang Li, Ruihan Yang, Tinghui Zhu, Aili Chen, Nianqi Li, Lida Chen, Caiyu Hu, Siye Wu, Scott Ren, Ziquan Fu, Yanghua Xiao
机构: 复旦大学, 上海大学, 武汉大学, 加州大学圣塔芭芭拉分校, System 公司
日期:2024-04-28
引文数量:25
摘要
-
目标:本文通过全面调查角色扮演语言代理(RPLA)的研究和应用,建立明确的分类体系,以推动该领域的未来发展。
-
方法:我们首先概述当前的 RPLA 方法,详细介绍各种角色类型,涵盖数据来源、代理构建和评估。随后,讨论 RPLA 的基本风险、现有局限性和未来前景,并简要回顾其在人工智能应用中的实践。
-
结论:RPLA 结合大语言模型的先进能力,实现逼真的角色扮演,推动了情感伴侣、交互式游戏、个性化助手和数字克隆等 AI 应用的发展。
读后感
本文综述了角色扮演语言代理(RPLA)的实现,回顾了现有文献,并建立了相关方法的分类体系。同时,简要探讨了与 RAG 结合的实现方法,该方法是角色实现的重要手段之一。
1 引言
图 1:RPLA 角色类型概述。在本调查中,将角色划分为三类:1) 人口统计角色,2) 特定角色,3) 个性化角色。图中展示了每类角色的定义、数据来源、示例、应用场景及相关程序。
角色扮演语言代理(RPLA)日益成为现实:
-
人口角色:聚焦于具有共同特征的人群,如职业、种族群体及性格类型。这类角色充分利用了大型语言模型(LLMs)的特性进行角色扮演。
-
特定角色:代表成熟且广为人知的个人,包括名人、历史人物和虚构人物。此类角色扮演考验模型对角色相关材料的理解,以及对模型参数或给定上下文中知识的运用。
-
个性化角色:依据个性化用户数据构建,并不断更新的数字档案。这类角色强调个体的独特体验、需求和偏好,常用于数字克隆或个人助理等应用。RPLA 强调其动态特性和学习机制,通常注重与现实世界活动的互动。
2 引言
2.1 大型语言模型的路线图
最近的研究表明,关于大型语言模型(LLMs)的讨论日益增多。最初,LaMDA 开启了关于意识可能在语言模型中出现的讨论。现在,越来越多的研究集中在 LLMs 上,包括自我意识、价值观、情绪感知、心理状态和个性等方面。
2.2 LLM 驱动的语言 Agent
语言代理受到认知科学中人类记忆研究的启发,经历从感知到短期记忆再到长期记忆的发展过程。讨论的重点包括以下模块:
-
规划模块
-
工具使用模块
-
存储机制
存储机制用于存储代理的配置文件和环境信息,以协助未来的操作执行。这些信息通常包括基本资料(如年龄、性别、职业)、心理特征(性格体现)及社交关系。
3 RPLA 概述
3.1 RPLA 定义
-
人口统计角色:这些角色代表不同人口细分的综合特征和行为,包括职业、性别、种族和性格类型。在 RPLA 的框架中,这些角色作为虚构的原型,由大型语言模型(LLMs)生成。通过简单提示(如“您是一名数学家”),可以有效推进 RPLA 的开发。
-
成熟角色:这些角色涵盖现实世界中的公众人物和虚构角色,每个都有明确的属性和叙事。角色的 RPLA 是基于传记、小说和电影等多种来源的数据构建的。
-
个性化角色:这些角色基于特定个人的行为和偏好数据,如个人资料、对话,以及一系列动作和行为。这些数据不断变化,因此 RPLA 需要动态适应这些变化。个性化 RPLA 提供定制化服务,满足用户在各种基于 AI 的应用程序中的需求,通常作为个性化助手、伴侣或代理出现。
3.2 RPLA 结构
构建 RPLA 通常采用两种方法:参数训练与非参数提示。参数训练涵盖了预训练、监督微调(SFT)和强化学习(RL)。而非参数提示则通过提供关于角色的数据和指令来实现。RPLA 的提示主要依赖于角色数据,包括描述和示例。
制作角色数据的方法多种多样,包括:
-
在线资源收集
-
自动提取
-
对话合成
-
人工注释
同时,还可以为特定个体制作角色档案。
(从对话中提取角色档案)
3.3 RPLA 评估
将标准分为两大类:RPLA 方法的角色扮演能力评估和特定角色的角色保真度评估
目前的评估方法主要有三个方面:1)有地面实况的自动评估,2)没有地面实况的自动评估,3)多项选择题,4)基于人工的评估。
4 人口统计角色
4.1 定义
人口统计学描绘出具有共同特征的群体的典型特征,如职业角色(如数学家)、兴趣爱好(如棒球爱好者)和性格类型(如 MBTI 中的 ENFJ 型)。RPLA 中的这些特征融合了群体语言风格、专业知识和行为细微差别,体现了人口原型。
4.2 人口统计学分析
获取固有的人口统计数据,如通过大五人格测试等心理评估工具,可以探索 RPLAs 的人口特征。
4.3 人口统计学的应用
改进多代理系统中的任务解决:ChatDev 和 MetaGPT 是专为多代理对话平台中的自动化软件开发而设计的框架,值得关注。
模拟多智能体系统中的集体社会行为:在多智能体环境中,增加智能体的多样性和数量,以及促进它们的交互,可以引发意想不到的社交行为。
RPLA 在理解和模拟类似人类行为方面展现出日益增强的多功能性和深度。
5 特定角色
5.1 定义
角色主要是众所周知的既定人物,包括名人、历史人物和虚构角色(如 Monkey D. Luffy 和 Hermione Granger),有时还涵盖由个人创作的原创角色。
早期研究探讨了语言模型对角色的理解,涉及如何将角色特征的描述与其角色(即角色预测)和个性(即性格理解)相联系:角色预测主要关注从文本中识别角色。目前的研究已转向应用和推广大型语言模型(LLMs),以忠实再现角色的语言风格、知识、个性甚至决策过程。
5.2 角色 RPLA 的数据
角色数据对于构建角色 RPLA(角色预设语言代理)至关重要。表示这些已知角色的知识的数据大致可分为两类:
-
描述性数据:这些数据直接描述角色的个性特征,指导 RPLA 的行为,包括身份、关系和其他预设属性。这些属性作为知识背景,期望在需要时能被准确回忆,如名字和隶属关系。此外,一些描述还塑造 RPLA 的行为,如个性特征。
-
示范性数据:这些数据代表角色的行为,反映其语言、认知和行为模式。虽然 RPLA 不需要完全复制示范数据中的输出,但应展现出这些行为模式,并能够在新情境中应用,产生一致的回应。
常见的方法包括:
-
经验提取:从原始剧本中提取角色的对话或其他场景。
-
对话合成:使用先进的 LLMs 构建并增强角色 RPLA 的数据集。
-
人工标注:邀请人类扮演角色并参与对话,以收集角色扮演对话。
在 RPLA 与用户互动的过程中,会持续生成对话等交互数据,补充和完善原始角色数据。这些数据进一步塑造了 RPLA 对用户个性化偏好的角色,使得标准角色 RPLA 可以根据个人用户进行个性化调整。
5.3 角色 RPLA 的构建
构建方法主要分为两类:参数训练和非参数提示。
非参数提示利用高级 LLMs 的上下文中的角色数据,这种方法简单有效,因此被近年来的 RPLA 广泛采用。但由于角色数据量大,且在 RPLA 与用户的互动过程中数据持续增加,使得 LLMs 的负担加重。因此,越来越多的 RPLA 框架引入了长期记忆模块来管理这些大量的数据。这些模块将大部分角色知识和互动数据存储在数据库中,并在需要时检索相关信息。
5.4 角色 RPLA 的评估
与角色无关的功能
此工作线旨在评估基础模型角色扮演能力,无论扮演何种角色。评估分为三个层次:
-
角色扮演参与度:LLM 应积极参与角色扮演,避免角色外对话,保持个性稳定一致。
-
高质量对话:评估对话的完整性、信息量和流畅性,确保符合道德标准,避免在恶毒角色中展现有害内容。
-
拟人化能力:RPLA 应具备接近人类水平的认知、情感和社交智力,包括对话吸引力、心智理论、同理心、情商和目标导向的社交技能。这些能力对其作为人类情感伴侣至关重要。
角色保真
-
语言风格:RPLA 应以模仿角色的语言风格为基础进行交流。
-
知识:RPLA 应该在角色预期的知识范围内进行模拟,避免展示角色不具备的能力(例如,LLM 能编代码,但在角色扮演苏格拉底时不应表现出这种能力)。
-
性格与思维过程:RPLA 应该捕捉角色的内心世界,通过他们在具体情境中的想法及潜在个性体现。
方法
为了在上述维度上评估 RPLA,现有方法可以分为四类:
-
基于真实数据的自动评估
-
无真实数据的自动评估
-
多项选择题
-
人工评估
6 个性化角色
6.1 定义
个性化的 RPLA 技术旨在适应并反映个人用户的偏好和行为,类似于数字克隆或个人助理的概念。其应用可分为三个层次:
-
对话:早期研究主要集中在通过学习和整合用户角色实现个性化对话。
-
推荐:基于 LLMs 的对话推荐系统被视为下一代推荐工具,帮助用户通过多轮对话达成推荐目标。
-
任务解决:个性化 RPLA 在解决复杂任务,如编码、旅行规划和研究调查方面日益出众,并常与各种外部软件协作。
该过程包含两个关键步骤:角色数据收集以获取个性化角色所需数据,以及角色建模以利用这些数据创建个人角色模型。
6.2 个性化角色的数据收集
个性化 RPLA 的个性化角色通常由三种不同类型的数据表示,包括个人资料、交互和领域知识,具体取决于特定的应用程序。
-
个人资料:用户档案是结构化展现个性化角色信息的工具,由用户创建并可随时更新。其基本信息通常包括姓名、性别和种族,以及身份、爱好和经历的自然语言描述。
-
交互:交互数据记录了个性化角色的动态变化。这些数据在应用过程中生成,隐含描绘角色的对话、偏好和行为。
-
领域知识:将领域特定知识融入通用语言模型,有助于更精准理解领域内的用户档案和交互,通过丰富的背景知识,更全面地把握用户角色。
6.3 个性化角色建模
方法可简化为两种类型:
-
离线学习:参数微调已成为离线学习的主流方法,通常基于 SFT 和 RLHF。
-
在线学习:从嘈杂的交互数据中准确识别和学习稀疏的角色特定特征存在挑战。真实用户的角色可能会随时间变化,为了有效建模和更新,非参数方法的效果取决于内存管理和检索机制。
6.4 LLMs 和个性化角色的评估
为了实现有效的个性化,AI 模型应聚焦于两个关键方面:角色的理解和应用。个性化 RPLA 的评估可在以下三个应用层面进行:
-
对话:重点评估模型在特定角色扮演和用户交流风格再现方面的能力。
-
推荐:评估 LLMs 理解用户偏好并利用交互历史进行未来推荐的能力。
-
任务解决:包括评估模型的心智理论、工具使用、任务自动化能力,以及安全处理个人数据、与外部信息交互、有效执行个人助理角色的能力。