网易首页 > 网易号 > 正文 申请入驻

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

0
分享至

研究结果表明,Gemini 综合性能难敌 ChatGPT 。

作者丨王 悦

编辑丨陈彩娴

最近谷歌发布的 Gemini 格外引人注目,其号称是第一个在各种任务中可与 OpenAI 的 ChatGPT 相媲美的大模型。

报道显示,Gemini 的“Ultra”版本在各种任务上都优于 GPT-4,而 Gemini 的“Pro”版本则与 GPT-3.5 不相上下。

针对两个当红炸子鸡的较量,美国卡内基梅隆大学近日展开了一项研究,深入探讨了谷歌 Gemini 的语言理解和生成能力,并将其与 OpenAI 的 GPT 系列作了对比,得到了有趣的结论——谷歌 Gemini 的综合性能与 ChatGPT 仍有较大差距。

论文地址:https://arxiv.org/pdf/2312.11444.pdf

1

Gemini 仅媲美 GPT-3.5 Turbo

CMU 的这项研究主要探讨了两个问题:

其一,对 OpenAI GPT 和 Google Gemini 模型的能力进行了第三方客观比较,并提供了可重现的代码和完全透明的结果;

其二,对结果进行了更深入的研究,找出两类模型中某一类模型分别拥有的优势领域。

研究团队对测试各种语言能力的 10 个数据集进行了分析,包括推理、回答基于知识的问题、解决数学问题、语言间翻译、生成代码以及充当指令遵循代理。

在所有的基准测试任务基础上,CMU 团队分析发现:

  • Gemini Pro 模型在模型大小和类别上与 GPT 3.5 Turbo 相当,其准确度一般与 GPT 3.5 Turbo 相当,但略逊于 GPT 3.5 Turbo,比 GPT 4 差很多。

  • Gemini Pro 的平均性能略低于 GPT 3.5 Turbo,尤其是在多选题的回答顺序偏差、多位数数学推理、过早终止智能体任务以及因激进的内容过滤而导致回答失败等方面存在问题。

  • 在特别长和复杂的推理任务中,Gemini 的表现优于 GPT 3.5 Turbo,包括生成非英语语言以及处理更长、更复杂的推理链。而在不对回答进行过滤的任务中,Gemini 也善于使用多种语言。

图为基准测试的主要结果(最佳模型以粗体显示,次佳模型以下划线显示。Mixtral 只对部分任务进行了评估。)

2

大模型关键能力分析

在大模型的几项关键能力上,团队的具体研究结果如下:

知识图谱问答能力:

在大模型的问答能力层面,从上图中可以看出每个模型在部分代表性任务上的表现,与 GPT 3.5 相比,Gemini Pro 在大多数任务上表现不佳,思维链提示降低了各子任务之间的差异。

团队又深入研究 Gemini Pro 性能低于/优于 GPT 的任务3.5 的差距,得出结论:

1)Gemini Pro 在 human_sexuality(社会科学)、formal_logic(人文科学)、elementary_mathematics(STEM)和 professional_medicine(专业领域)方面落后于 GPT 3.5。

2)在 Gemini Pro 优于 GPT 3.5 Turbo 的两项任务中,Gemini Pro 只取得了微弱的优势。

推理能力

在推理能力层面, Gemini Pro 的整体准确率略低于 GPT 3.5 Turbo,远低于 GPT 4 Turbo,但Gemini Pro 在更长、更复杂的问题上表现不佳,而 GPT 模型对此则更为稳健。

文中亦给出了 GPT 3.5 Turbo 性能超过 Gemini Pro 最多的任务:

数学能力

从数学推理的总体结果可以看出,在包含多种语言模式的 GSM8K、SVAMP 和 ASDIV 任务中,Gemini Pro 的准确率略低于 GPT 3.5 Turbo,远低于 GPT 4 Turbo。

在 MAWPS 任务中,所有模型的准确率都超过了 90%,但 Gemini Pro 仍略逊于 GPT 模型。

代码生成能力

代码能力生成方面,在英语任务中,Gemini Pro 在较长的输入和输出方面表现较强。分析结果可以发现,在大多数使用库的情况下,如 mock、pandas、numpy 和 datetime,Gemini Pro 的性能比 GPT 3.5 差。

不过,在 matplotlib 的情况下,它的性能要优于 GPT 3.5 和 GPT 4,这表明 Gemini 在通过代码执行绘图可视化时具有更强的能力。

机器翻译能力

在翻译能力上,Gemini Pro 有 8 种语言的性能优于 GPT 3.5 Turbo 和 GPT 4 Turbo。相比之下,Gemini Pro 在 20 种语言中的 8 种语言上的表现优于 GPT 3.5 Turbo 和 GPT 4 Turbo,并在 4 种语言上取得了最佳表现。不过,Gemini Pro 在大约 10 种语言对中表现出强烈的阻塞响应趋势。

本文作者:s1060788086,长期关注 AIGC 落地应用、大模型和数字人领域,欢迎添加微信交流。

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“沪九条”落地首月,生活在楼市的波澜中

“沪九条”落地首月,生活在楼市的波澜中

上观新闻
2024-07-03 08:04:10
台湾极品校花!顶级容颜!傲人身姿!

台湾极品校花!顶级容颜!傲人身姿!

记录平远
2024-07-04 01:00:56
“21岁老将”穆西亚拉:亚马尔太离谱 我16岁还无力和一线队合练

“21岁老将”穆西亚拉:亚马尔太离谱 我16岁还无力和一线队合练

直播吧
2024-07-04 02:46:11
官方:原定于8月8日在北京举办的法国超级杯已推迟至其他日期

官方:原定于8月8日在北京举办的法国超级杯已推迟至其他日期

懂球帝
2024-07-04 00:06:11
给惊艳到了!这哪像52岁的人啊,简直就是18岁嘛!

给惊艳到了!这哪像52岁的人啊,简直就是18岁嘛!

小米虫侃人物
2024-07-01 21:09:54
谈崩了,欧盟决定继续加税,不到24小时中方发起两连击

谈崩了,欧盟决定继续加税,不到24小时中方发起两连击

谈芯说科技
2024-07-03 18:54:46
“夹包哥”原本是一起可以避免的悲剧,如果他没有做出这一动作

“夹包哥”原本是一起可以避免的悲剧,如果他没有做出这一动作

喜欢农家生活的阿律
2024-07-03 23:38:55
父母最大的愚蠢,就是缺席孩子成长的3个时刻,耗尽了彼此的福分

父母最大的愚蠢,就是缺席孩子成长的3个时刻,耗尽了彼此的福分

知和大叔
2024-06-29 23:42:20
2018年四川女学霸高考分仅47分,爷爷含泪跪求复查考卷,结果如何

2018年四川女学霸高考分仅47分,爷爷含泪跪求复查考卷,结果如何

清澈之玹
2024-06-26 20:29:18
“小偷”入室被丈夫当场捅死,妻子一看惊慌失措:竟是自己的情夫

“小偷”入室被丈夫当场捅死,妻子一看惊慌失措:竟是自己的情夫

Enigma龙探长
2024-07-03 18:34:14
广东男子送外卖,妻子花一千多买裙子被骂,网友:这事我不同情她

广东男子送外卖,妻子花一千多买裙子被骂,网友:这事我不同情她

梅子的小情绪
2024-07-03 14:56:53
京剧国家二级女演员被丈夫举报长期出轨,超大尺度聊天记录曝光!

京剧国家二级女演员被丈夫举报长期出轨,超大尺度聊天记录曝光!

兵叔评说
2024-06-19 14:19:48
伟大,超132万奖金,中国名将2-0创造历史:闪耀温网,首次进32强

伟大,超132万奖金,中国名将2-0创造历史:闪耀温网,首次进32强

草根体育
2024-07-04 05:54:43
有种“整容”叫出国归来,宋雨琦王一博差距大,范丞丞:你敢认?

有种“整容”叫出国归来,宋雨琦王一博差距大,范丞丞:你敢认?

老寓杂谈
2024-07-03 07:25:02
没有北京户口能在北京退休吗?社保缴费不足15年,怎么办?

没有北京户口能在北京退休吗?社保缴费不足15年,怎么办?

据说说娱乐
2024-07-04 00:15:31
三大消息:中国传出好消息!中美已达成合作;历史性时刻到了?

三大消息:中国传出好消息!中美已达成合作;历史性时刻到了?

嘿哥哥科技
2024-07-02 18:36:18
厦门楼市全军覆没,厦门岛内某小区房价从948万跌至683万

厦门楼市全军覆没,厦门岛内某小区房价从948万跌至683万

有事问彭叔
2024-07-03 15:24:09
世界上最不能接受中国崛起的国家,不是美国,但比美国还着急!

世界上最不能接受中国崛起的国家,不是美国,但比美国还着急!

星辰故事屋
2024-07-03 18:39:50
终于能歇歇了!接下来欧洲杯+美洲杯将暂停,2天后才会有比赛

终于能歇歇了!接下来欧洲杯+美洲杯将暂停,2天后才会有比赛

直播吧
2024-07-03 11:18:19
到底该不该停止研发内燃机?

到底该不该停止研发内燃机?

汽车公社
2024-07-01 08:29:55
2024-07-04 08:34:44
AI科技评论
AI科技评论
点评学术,服务AI
6534文章数 20582关注度
往期回顾 全部

科技要闻

三折卖“问界”撇清关系,华为这买卖值吗

头条要闻

媒体:美国智库用"柯南式推理"构陷中国刺探美情报

头条要闻

媒体:美国智库用"柯南式推理"构陷中国刺探美情报

体育要闻

欧洲杯最伟大的一次扑救,诞生了

娱乐要闻

刘亦菲唐嫣深夜晒照,美女贴贴好养眼

财经要闻

理想裁员闹笑话,蔚来裁员闹风波?

汽车要闻

巴黎4S店价格对比 同款车型中国售价打对折

态度原创

旅游
家居
手机
数码
房产

旅游要闻

游客走进来 瓷、橙运出去 昌九高铁建设为江西发展注入新动力

家居要闻

温柔简约 浅色基调与明亮空间的协奏

手机要闻

早报:红魔9S PRO AI手机正式发布 外媒分析iPhone 16

数码要闻

手工打造全球唯一RTX 4090 SUPER!3090Ti的身子、性能飙升40%

房产要闻

海南楼市第二轮新政潮开启!这次救市的药,来得更猛!

无障碍浏览 进入关怀版