新智元报道
编辑:LRST 好困
【新智元导读】数字生命一直是人类几十年来的追求,反映了我们对技术与人类体验交汇的深层探索。近期,复旦大学发表了一篇综述论文,首次系统梳理了角色扮演AI(Role-Playing Language Agents,RPLAs)的研究现状,现已被机器学习顶级期刊TMLR接收。
角色扮演AI系统体现了数字生命的理念,通过交互形式将不同角色带入现实。这些系统模拟指定角色的能力,长期以来一直存在于人类想象中,体现了我们创造和与具有智能的人工生命互动的渴望。
近期,得益于GPT-4、LLaMA等大语言模型(LLMs)的突破性进展,基于文本的角色扮演AI(Role-Playing Language Agents,RPLAs)正在从科幻走进现实。
研究表明,当前的LLMs已经能够产生令人信服的拟人效果,并可以被视为不同信念和人格的叠加态。通过对齐训练,它们能够遵循角色扮演指令,复制角色的知识储备,模仿语言和行为模式,甚至重现深层的性格特征。
来自复旦大学等机构的研究人员发表了一篇综述,提出了RPLAs的三层人格分类框架,按照个性化程度的递进,将RPLAs的人格类型分为群体人格、角色人格和个性化人格。
论文链接:https://arxiv.org/abs/2404.18231
群体人格关注具有共同特征的人群,如职业、种族、性格类型等,内置于LLMs中,角色扮演主要利用LLMs中的统计特征,通过简单提示词即可激活。
角色人格则代表广为人知的具体个体,特别是现有文献中的角色,包括名人、历史人物和虚构角色,这类人格考验模型理解和运用已有角色数据的能力。
个性化人格是基于个性化用户数据构建并持续更新的数字档案,强调个人独特的经历、需求和偏好,主要用于数字分身或个人助理等应用。
值得注意的是,这三类人格并非相互独立,而是可以在RPLAs中共存。
比如说,一个扮演苏格拉底担任个人哲学导师的RPLA就同时包含了古希腊哲学家的群体人格、苏格拉底的角色人格,以及通过与用户互动发展的个性化人格。
这种多层次的人格整合,使得RPLAs能够在保持角色本真性的同时,提供更加个性化的互动体验。
在技术实现层面,研究团队深入分析了RPLAs的构建方法。RPLAs通过人格数据来模拟复杂的人格,这些数据包括描述、画像、对话、历史行为记录以及书籍原文等文本材料。目前主要有两类构建方法:参数化训练和非参数化提示。
参数化训练主要包括预训练、监督微调和强化学习三个阶段。
首先,模型在包含文学作品和百科全书等大规模原始文本上进行预训练,这使其获得了大量社会群体和角色人格的基础知识。
随后,模型在角色扮演数据集上进行监督微调,增强其角色扮演能力和特定角色知识。
此外,强化学习方法可以进一步优化RPLAs在多个方面的表现,包括:与普通用户的对齐(如提高吸引力或减少有害内容)、改进社交推理能力(如在游戏或目标导向对话中的表现),以及与个别用户的对齐。
非参数化提示则在上下文中提供人格数据和角色扮演指令。人格数据主要包括描述(Descriptions)和展示(Demonstrations)两部分:描述部分主要包含姓名、背景、经历、性格、语气等基本信息;示范部分则展示代表性的对话、行为、互动和偏好等。
获取这些人格数据的方法包括:在线资源收集(如从维基百科等获取知名角色信息)、自动提取(用LLM从书籍等材料中提取对话)、对话合成(用更强的LLM创建和扩展角色扮演对话数据集)以及人工标注(由标注者或角色粉丝创作高质量的角色扮演对话)。
此外,现代RPLAs还越来越多地集成记忆模块,以从大量角色特征数据或过往互动中检索信息加入到上下文中。
在评估体系方面,研究团队将评估标准分为两大类:角色扮演能力评估(Role-Playing Capability)和人格还原度评估(Persona Fidelity)。
角色扮演能力评估针对RPLA的基础模型和构建框架,不考虑具体角色,主要关注拟人能力、吸引力和实用性等方面,具体包括对话能力、投入度、人格一致性、情感理解、心智理论和问题解决能力等维度。
人格还原度评估则聚焦于特定人格的RPLA是否很好地复制了目标人格的特点,包括知识、语言习惯、性格、信念和决策方式等方面。
模型评估
目前评估方法主要有四类:基于标准答案的自动评估、无标准答案的自动评估、多选题评估和人工评估。
在这些评估方法中,人工评估成本高昂,费时费力;自动评估往往基于LLM-as-a-judge,即使用LLM对RPLA的表现进行评判,这类评估方法受制于LLM的角色知识不足和多种评估偏见问题,评估效果并不理想;多选题评估的数据集构造则较为困难,同时与RPLA的真实应用场景存在差异。因此,对RPLA的精准评估仍是一个开放性问题。
在这篇综述中,研究团队对RPLAs领域的现有文献进行了系统性梳理,建立了相关方法论的分类体系。同时,作者们还全面整理了当前可用的评估基准数据集,包括其数据类型、规模、来源和评估指标等关键信息,为未来的研究工作提供了重要参考。
尽管RPLAs已展现出令人振奋的发展前景,但仍面临诸多挑战。
如何构建更全面的角色数据集、如何实现更精准的评估方法、如何平衡真实性与安全性,以及如何处理持续交互中的角色演变,都是亟待解决的问题。
随着技术的进步,培育人类与智能体协同共存的社会生态将成为重要方向。这不仅将改变人机交互的方式,更将推动数字生命这一人类长期追求的实现。
作者介绍
该综述项目由复旦大学王鑫涛发起,陈江捷、王鑫涛、徐锐策划并联合课题组同学共同完成。
王鑫涛,复旦计算机系博士生,重度二次元爱好者,业余cosplayer,致力于用AI研究创造更cool的二次元应用。他的研究兴趣主要集中在大语言模型、Agent、AI角色扮演等领域。
参考资料:
https://neph0s.github.io/
https://arxiv.org/abs/2404.18231
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.