网易首页 > 网易号 > 正文 申请入驻

GPT-4理解武林外传中的含蓄表述,达人类水平

0
分享至

大数据文摘受权转载自夕小瑶科技说

作者 | 谢年年

在人际交谈中,特别是在使用中文这样博大精深的语言时,人们往往不会直接回答问题,而是采用含蓄、隐晦或间接的表达方式。

人类根据以往的经验或是对说话者的了解可以对一些言外之意做出准确的判断,比如我们小时候经历过无数次的对话情景:

“妈妈,我的书放哪啦?”

“在我手上,来拿嘛!”

又或是:

“妈妈,今天我想吃红烧肉可以吗?”

“你看我像不像红烧肉。”

面对妈妈给出的看似回答了又什么都没有说的回应,我们能迅速get到妈妈不想搭理我们的心情。那LLMs在面对类似的会话隐喻(conversational implicature)时能理解到说话人真正的含义吗?

上交最近从经典情景喜剧《武林外传》中提取出首个针对会话隐喻的中文多轮对话数据集,挑选出200个精心设计的符合会话隐喻的问题,并对八个LLMs进行了多项选择题任务和隐喻解释两项任务的测试。结果显示会话隐喻这一任务对LLMs来说仍然充满挑战。

论文标题:
Do Large Language Models Understand Conversational Implicature – A case study with a Chinese sitcom

论文链接:
https://arxiv.org/pdf/2404.19509

数据集构造

本文选取了在中国广受欢迎的情景喜剧《武林外传》作为数据源。该剧不仅包含了大量富有深意的对话,而且对话文笔优美,均基于自然发生的场景,质量上乘,十分适合用于评估语言模型在理解和推断中文对话深层含义方面的能力。

数据集构造原则

合作原则(The Cooperative Principle)是语言学中的一个重要理论,是由牛津大学的美国语言哲学家Grice于1967年的“逻辑与会话”的演讲中提出的。合作原则包括四个范畴,每个范畴又包括一条准则和一些次准则,即:

  1. 质的准则(Quality)
    a)不要说自知是虚假的话(Do not say what you believe is false);
    b)不要说缺乏足够证据的话(Do not say that for which you lack adequate evidence);

  2. 量的准则(Quantity)
    a)所说的话应该满足交际所需的信息量(Make your contribution as informative as is required);
    b)所说的话不应超出交际所需的信息量(Do not make your contribution more informative than is required);

  3. 关系准则:说话要相关 (Be relevant)
    例如:当被问到“约翰在办公室吗?”时,山姆回答:“今天是周六,你知道的”。这违反了关系准则,因为回答与问题不直接相关,从而产生了隐含含义:“约翰周末从不工作,所以他不在办公室”。

  4. 方式准则:说话要清楚、明了 (Be perspicuous)
    a)避免晦涩 [Avoid obscurity];
    b)避免歧义 [Avoid ambiguity];
    c)简练[Be brief (avoid unnecessary prolixity)];
    d)井井有条 [Be orderly]。

然而,人们在实际言语交际中,并非总是遵守“合作原则”,出于需要,人们会故意违反合作原则。Grice把这种通过表面上故意违反“合作原则”而产生的言外之意称为“conversational implicature(会话隐喻)”。这解释了听话人是如何透过说话人话语的表面含义而理解其言外之意的,由此来表达另外一种意思,幽默也就时常在这时产生。

本文正是通过以上这些原则来挑选出对话制作针对会话隐喻的多轮对话中文数据集。

隐喻的识别与分类

三位作者从《武林外传》脚本中通过判断是否违反了会话原则而挑选出包含会话隐喻的对话,为了进行更细致的分类,使用子准则作为标准,评估目标句子是否满足每个要求。如果一句话违反了子准则,就认为它违反了该准则。对话可能根据违反的子准则属于多个类别。一个示例数据条目,包括对话、四种解释和类别,如下图所示:

接下来构建对话的四种解释:

  1. 语用解释(the pragmatic interpretation),也就是正确答案;

  2. 字面解释(the literal interpretation);

  3. 两个与上下文相关的干扰项(distractors)

基于以上解释构建了选择题,聘请塞纳名语言学博士作答,并讨论错误答案和推理过程。这个验证过程确保提供的语用理解与常识直觉紧密一致,并能从有限的上下文中推断出来。对话开头补充了必要的信息,如人物关系、性格、社会背景和多模态信息。

人类评分

为了与人类表现进行比较, 邀请了10位母语者随机回答了数据集中抽取的32个问题,平均准确率为93.1%。问卷中各类问题(即对话中违反格赖斯准则的情况)的数量相同。

最终的SwordsmanImp语料库包含200个经过精心挑选的问题,按照合作原则分为四类,如下表所示。每个条目包含多轮对话和四个目标句子的解释作为选择项。

实验一:LLM做多选题
实验设置

在这个实验中,模型将看到对话及手动创建的四种解释。任务是针对包含言外之意的语句选择正确的解释。

作者测试了八种模型。包括开源与闭源模型,使用零样本提示来模拟人类日常遇到这些暗含言外之意的真实场景。

对于开源模型,遵循LLM评估的既定做法,即计算“ A”、“B”、“C”、“D”这四个Token在生成后得到的logits,选择具有最高logit值的一个 作为模型预测;对于闭源模型,让它生成答案,然后人工检查生成的文本以确定选择了哪个解释。

实验结果

实验结果如下表所示,GPT-4的准确率高达94%,其表现与人类相当,显示出强大的能力。紧随其后的是CausalLM (14B),其准确率为78.5%,也表现出不俗的性能。

然而其他模型面临了较大困难,它们的准确率普遍在20%到60%之间。特别值得注意的是Textdavinci-002的准确率甚至未能达到随机水平(25%),这表明测试模型在理解隐含意义方面仍有很大的提升空间。

下表详细展示了不同模型在违反不同会话准则中的表现:

总体来看,模型们在不同准则上的表现各有千秋,没有一个模型在所有准则上都展现出一致的强项或弱点。人类的回答也显示了这种多样性。

在开源模型中,CausalLM (14B)的准确率接近人类水平,在所有开源模型中表现最佳,显示出其强大的对话理解能力。

而GPT-4在所有模型中的表现最为突出,其准确率在所有类别问题中都超过了90%,再次证明了其在NLP领域的领先地位。

下图展示了模型在解释选择上的分布情况。红色代表模型选择了正确的答案,即语用解释;黄色代表选择了字面含义;而绿色则代表选择了两个干扰项。

可以看到两个13B模型在选择干扰项上的频率较高,这可能暗示它们较易受到上下文中非相关信息的干扰。

另外,随着GPT模型的不断演进,它们逐渐能够更好地区分字面含义与隐含含义。特别是GPT-4,在解释选择中,对字面理解的比例显著降低,这进一步验证了模型在理解复杂语言现象方面的进步。

实验二:评估LLM生成解释的质量

作者设计了开放性问题,要求模型生成对言外之意的解释,然后由中文母语者根据生成解释的合理性(reasonability)、逻辑性(logic)和流畅性(fluency)进行人工评估。结果如下表所示:

GPT-4在所有三个维度上的得分均位居榜首,且其得分的方差最小,显示出稳定且卓越的性能。GPT-3.5-Turbo的评分虽然也较高,但标准差较大,这反映出其性能存在一定的不稳定性。其他三个模型的评分则相对接近,统计检验显示它们之间没有显著差异。

然而,值得注意的是CausalLM(14B)的得分低于GPT-3.5-Turbo,这与在实验1中的观察结果并不一致。这一发现揭示了模型在特定任务(如从四个选项中选择答案)上的优秀表现,并不一定能保证它们在其他任务(如提供连贯的隐含意义解释)中同样出色。这进一步说明了模型在处理不同任务时可能存在的性能差异。

下图呈现了一个模型生成的典型对话示例。

通过分析湘玉的话语中的隐含意义,我们可以理解到她实际上是在传达石头不宜再饮酒的警示,同时她的言辞中还透露出对石头的讽刺和不满情绪。

在示例中,GPT-4虽然给出了与参考解释相近的简洁说明,但它却错误地理解了讽刺的语气,将其解读为对石头酒量的质疑。

CausalLM(14B)虽然在总体上提供了正确的解释,但答案的质量受到了流畅度不佳的影响,出现了英文单词和无意义的字符序列“NST”。值得注意的是,“forgot his place.”这一表达实际上蕴含了正确的含义,可以将其视为语言代码的切换,而非无意义的输出。

Openbuddy-Llama2(13B)的回应则显得冗长且内容与问题不相关。

分析:LLM理解中文隐喻的能力到底如何?

实验一的结果表明,GPT-4在本文设定的基准测试中展现出了与人类相媲美的表现,而其他模型至少落后了15分,其中包括GPT-3.5-turbo。

这表明,虽然理论上最先进的LLMs有能力学习并理解中文隐喻,但对于大多数LLMs来说,这仍然是一项具有挑战性的任务。

实验二的结果揭示:一个在多项选择题中表现出色的模型(如CausalLM-14B),在自由文本生成任务中,即当需要自行解释言外之意时,可能会失败。这一发现让我们认识到,仅仅依赖多项选择题并不足以全面评估语言模型的语言能力。未来可以设计更复杂方法,以更好地量化模型对会话隐喻的自由形式的解释。

结论

本文构建了SwordsmanImp,这是首个用于评估LLMs对会话隐喻理解的细粒度中文数据,并进行了多项选择和自由生成解释两项任务评估LLMs对中文会话隐喻的理解能力。GPT-4在所有的对比模型中仍然是最能打的,甚至在多选题回答上达到了人类水平。

租售GPU算力

租:4090/A800/H800/H100

售:现货H100/H800

特别适合企业级应用

扫码了解详情☝

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
A股:紧急提醒2.5亿股民!从6月2日起,A股或将重启C浪调整大行情?

A股:紧急提醒2.5亿股民!从6月2日起,A股或将重启C浪调整大行情?

趋势清风侠
2026-06-01 18:26:58
智能手表退烧:五年老用户为什么摘下了腕上屏幕

智能手表退烧:五年老用户为什么摘下了腕上屏幕

Ping值焦虑
2026-05-18 02:03:48
伊朗:要求满足前不会举行任何谈判,计划彻底封锁霍尔木兹海峡并启动曼德海峡“战线”

伊朗:要求满足前不会举行任何谈判,计划彻底封锁霍尔木兹海峡并启动曼德海峡“战线”

澎湃新闻
2026-06-01 23:02:08
章泽天现身欧冠决赛现场,无袖小香风穿搭太吸睛,低调戴百万名表

章泽天现身欧冠决赛现场,无袖小香风穿搭太吸睛,低调戴百万名表

林轻吟
2026-06-01 17:12:26
没完没了了,荷兰刚走,加拿大又来挑衅,真当中国是泥捏的?

没完没了了,荷兰刚走,加拿大又来挑衅,真当中国是泥捏的?

离离言几许
2026-06-01 22:53:11
暴雨,大暴雨!新一轮大范围强降水即将来袭

暴雨,大暴雨!新一轮大范围强降水即将来袭

大象新闻
2026-06-01 17:43:03
644也去代孕了

644也去代孕了

毒舌扒姨太
2026-06-01 22:38:08
从过气名帅到巴黎封神,恩里克手握三座欧冠,凭什么比肩瓜帅齐祖

从过气名帅到巴黎封神,恩里克手握三座欧冠,凭什么比肩瓜帅齐祖

刘哥谈体育
2026-06-01 13:35:36
多所高校撤销外语学院

多所高校撤销外语学院

第一财经资讯
2026-05-30 17:38:20
泽连斯基想不到,先等来的不是俄军打基辅,而是中方突然划下红线

泽连斯基想不到,先等来的不是俄军打基辅,而是中方突然划下红线

潮鹿逐梦
2026-06-01 22:43:50
益阳橡胶塑料机械集团有限公司原党委书记、董事长、总经理姚宏建被查

益阳橡胶塑料机械集团有限公司原党委书记、董事长、总经理姚宏建被查

益阳广电
2026-06-01 16:43:40
一步顺步步顺!波波维奇最伟大的操作,属于马刺的新时代真正到来

一步顺步步顺!波波维奇最伟大的操作,属于马刺的新时代真正到来

毒舌NBA
2026-06-01 11:00:51
搞笑图片第1231期:透明厨房,新鲜现烤,绝对放心

搞笑图片第1231期:透明厨房,新鲜现烤,绝对放心

今天的快乐
2026-05-31 21:36:15
徐志胜带女友见父母!女方小眼睛低鼻梁有夫妻相,高学历是富二代

徐志胜带女友见父母!女方小眼睛低鼻梁有夫妻相,高学历是富二代

小彭美识
2026-06-01 14:18:13
这个发达的小国家,快被中国人“买”下了!中国移民占比高达九成

这个发达的小国家,快被中国人“买”下了!中国移民占比高达九成

潇湘烟雨水
2026-05-26 06:09:18
因妈妈姓氏太过特殊,全家一致同意“随母姓”,网友:换做是我,也随母姓

因妈妈姓氏太过特殊,全家一致同意“随母姓”,网友:换做是我,也随母姓

品读时刻
2026-05-24 09:01:06
欧盟玩“产能把戏”难逃中方反制

欧盟玩“产能把戏”难逃中方反制

风铃草语
2026-06-01 06:13:39
“当世最佳,且正向史诗级教头迈进”:全球媒体赞巴黎主帅恩里克

“当世最佳,且正向史诗级教头迈进”:全球媒体赞巴黎主帅恩里克

星耀国际足坛
2026-05-31 14:44:53
全体致敬!37岁窦骁高调官宣喜讯,豪门赘婿已经彻底成过去式

全体致敬!37岁窦骁高调官宣喜讯,豪门赘婿已经彻底成过去式

科学发掘
2026-06-01 13:41:57
美术刀割伤手细节曝光:刀露出1厘米,当事人索赔金额或许很高

美术刀割伤手细节曝光:刀露出1厘米,当事人索赔金额或许很高

映射生活的身影
2026-06-01 23:49:10
2026-06-02 00:44:49
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6865文章数 94547关注度
往期回顾 全部

科技要闻

黄仁勋演讲实录|40年来PC首次重设计!

头条要闻

河南13人死亡车祸背后:有司机开不动了让乘客代开车

头条要闻

河南13人死亡车祸背后:有司机开不动了让乘客代开车

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

奇瑞集团5月销量24.8万辆 同比增长20.5% 出口18.2万辆再创新高

态度原创

家居
游戏
健康
时尚
房产

家居要闻

自信舒展 高背座椅

又一款经典RPG神作启动重制!不止高清 期待拉满

干细胞临床研究向患者收费?别踩坑

夏天裤子不用多买,阔腿裤一整个夏天都能穿,日常出行好打理

房产要闻

100亿!1371亩!海口城市更新,再爆超级项目!

无障碍浏览 进入关怀版