网易首页 > 网易号 > 正文 申请入驻

外媒评测GPT-4:较上一代脱胎换骨,但依然有缺陷存在误导性

0
分享至

GPT-4 AI能力精华版 澎湃新闻编辑 李垚瑞(10:23)

当地时间3月14日,OpenAI推出了“深度学习的最新里程碑”GPT-4。据介绍,这是一款大型多模态模型,与ChatGPT所用的模型GPT-3.5相比,它的文本处理量扩大至2.5万个单词,还增加了图片处理功能。

在一直被外界诟病的准确性方面,GPT-4也有所改进。据OpenAI的介绍,在公司内部的对抗性真实性评估中,GPT-4的得分比GPT-3.5高40%,相应的“不允许内容请求的倾向”降低了 82%,根据政策响应敏感请求(如医疗建议和自我伤害)的频率提高了29%。

OpenAI将GPT-4称为“里程碑”式的模型,它是否如宣传的那般智能?与此前的GPT系列模型相比,它到底在哪些方面有所改进?

准确性更高、专业性更强

根据《纽约时报》3月14日发布的GPT-4测评报道,与ChatGPT相比,这款模型的准确性更高、专业性更强。

一位AI研究员分别询问ChatGPT和GPT-4“艾伦人工智能研究所前CEO Oren Etzioni以及企业家Eli Etzioni是什么关系”,GPT-4准确回答出他们是父子关系,而ChatGPT错误地将他们说成兄弟。

不过,在解释了上述两名人士的身份时,GPT-4和ChatGPT都犯了一些错误——这两个机器人均将Oren解释为艾伦人工智能研究所的CEO,但事实上,Oren已经于2022年宣布卸任CEO一职。

但考虑到ChatGPT的数据库仅更新至2021年,而GPT-4的训练数据也只追踪到2021年9月,这一错误显得情有可原。

来源:《纽约时报》

专业性方面,北卡罗来纳大学教堂山分校(University of North Carolina at Chapel Hill)的医学副教授兼心脏病学家Anil Gehi通过询问医学领域的专业问题,发现GPT-4具有一定的专业知识。

Gehi向GPT-4描述了一名患者的病史以及其入院后经历的并发症,并在对话中使用了较为专业的医学术语。当他询问GPT-4应该如何治疗病人时,它给了完美的答案,Gehi评价称“这正是我们对待病人的方式”。他还补充道,在尝试其他场景时,GPT-4给出了同样令人印象深刻的答案。

这似乎也对应了OpenAI所说的,与GPT-3.5相比,GPT-4在响应医疗建议和自我伤害等敏感请求方面,频率提高了29%。

不过,Gehi认为GPT-4并不会每次都能回答专业知识,因此仍然需要专业人士对其内容进行判断并执行相应的医疗程序。

能够处理复杂图片、更具幽默感

与此前发布的GPT系列模型相比,GPT-4最大的突破之一是能够处理图像内容。《纽约时报》的测试显示,它能够识别较为复杂的图片信息,并对其进行解读。

向GPT-4发送塞满食物的冰箱的图片,并询问图中食材能够做几顿饭,它给出了两种菜谱的具体制作方法——食物的搭配相当丰富,还考虑到了口感和风味。

它的回答为,“根据冰箱里可见的物品,有以下食谱:1)酸奶冻糕:将酸奶、草莓和蓝莓分层放在碗或罐子里,顶部撒上蜂蜜或坚果以增加口感和风味。2)胡萝卜和鹰嘴豆泥卷:将鹰嘴豆泥涂在玉米饼或卷上,上面放上切碎的胡萝卜和任何其他想要的蔬菜。”

来源:《纽约时报》

值得注意的是,OpenAI目前尚未对外开放图片识别分析,因为担心这项功能会被滥用。

此外,《纽约时报》还发现,GPT-4的幽默感有所提高。

当被要求提供“关于歌手麦当娜的新鲜笑话”时,GPT-4回答“麦当娜为什么要学习几何?因为她想学会如何摆出各个角度的姿势!”在回答的最后,它还“俏皮”地附上了三角尺、跳舞和麦克风的表情符号。相比而言,GPT3.5的回答就显得平平无奇,并不那么好笑了。

业内人士称警惕AI存在的潜在风险

自OpenAI去年发布其图像生成技术Dall-E 2以来,科技公司一直在炒作生成式AI(人工智能)的可能性;去年11月发布的ChatGPT更像一颗火种,迅速点燃各界对AI的热情。

不过,自发布以来,ChatGPT及其竞争对手的准确性一直为外界诟病,微软和谷歌在展示其聊天机器人相关新技术时,均出现过大大小小的失误。因此,OpenAI花费了6个月的时间,利用对抗性测试程序和ChatGPT的经验教训,迭代调整GPT-4。

OpenAI总裁兼联合创始人Greg Brockman说道,“GPT-4比GPT 3.5犯的错误更少,不过要达到最佳效果仍需辅以人工检查。……它并不完美,但你也不完美,它是让你达到新高度的工具。”Brockman还表示,OpenAI计划把这些通用知识技能推广到各个不同的领域。

虽然OpenAI一直在声称努力改进GPT系列并取得了进展,但该公司也坦然承认,GPT-4还存在一定缺陷。

“它有时会犯简单的推理错误……或者过于轻信用户的错误陈述。有时它会像人类一样在难题上失败,例如在它生成的代码中可能会引入安全漏洞。”OpenAI表示。

目前对于生成式AI,不少业内人士仍然充满担忧。科技媒体CNET表示,大型语言模型的回复有时令人印象深刻,似乎它们真的可以理解大量的问题,并且能够用听起来有点生硬的语言进行交流。不过,从根本上说,大型语言模型以及AI并不能真的了解某样东西,它们只是以精确的统计方式将单词串在一起。

对此,不少研究人员发出警告,希望用户警惕大型语言模型带来的“随机鹦鹉(stochastic parrots)”风险。“随机鹦鹉”指用随机概率信息将语言形式的序列随意拼接在一起的实体,但不涉及任何含义,是对机器学习和人工智能模型在实际应用中可能出现的误导性表现的一种戏谑称呼。

《华尔街日报》援引人工智能分析师的话称,生成式AI仍然存在潜在问题,虽然ChatGPT和其他文本生成器在面对高质量提问时,能给出准确回复,但在其他主题方面可能会给出带有种族主义和性别歧视的答案。

专门研究国际商务和信息安全的加州大学伯克利分校教授Steven Weber 表示,现在判断这项技术还为时过早,因为它尚未在现实​​世界中得到广泛测试。

目前OpenAI没有公开GPT-4的参数数量及运行成本,不过《纽约时报》指出,由于OpenAI新的聊天机器人接受了更多数据训练,其成本将会增加。OpenAI首席技术官Mira Murati称,如果服务器过载,公司可能会限制用户使用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
记者:森林狼唐斯交易奠定赛季惊喜基调 如今两队均打入分区决赛

记者:森林狼唐斯交易奠定赛季惊喜基调 如今两队均打入分区决赛

直播吧
2025-05-17 12:18:04
省政府党组成员、州委书记随机暗访,发现个别干部不假离岗、在岗不在状态

省政府党组成员、州委书记随机暗访,发现个别干部不假离岗、在岗不在状态

政知新媒体
2025-05-17 11:00:06
美媒:美国新奥尔良十名囚犯凿墙越狱,警方怀疑存在“外部协助”

美媒:美国新奥尔良十名囚犯凿墙越狱,警方怀疑存在“外部协助”

环球网资讯
2025-05-17 11:57:55
宁波象山县政府大院“门面寒碜”引关注,工作人员回应:能满足正常办公,院内还有省级保护文物“淳熙井”

宁波象山县政府大院“门面寒碜”引关注,工作人员回应:能满足正常办公,院内还有省级保护文物“淳熙井”

鲁中晨报
2025-05-16 09:55:06
因钱吵上热搜!男子将盆扣妻子脸上,质问俩孩子1天100不够吃吗?

因钱吵上热搜!男子将盆扣妻子脸上,质问俩孩子1天100不够吃吗?

涵豆说娱
2025-05-16 18:17:07
唐斯轰21+12仍无缘今日最佳!对不起,你碰到创纪录的布伦森了

唐斯轰21+12仍无缘今日最佳!对不起,你碰到创纪录的布伦森了

世界体育圈
2025-05-17 12:09:39
专家:俄罗斯已无能力发动大规模攻势!

专家:俄罗斯已无能力发动大规模攻势!

柴刀夫司机
2025-05-15 19:57:39
230万买一对耳环,1.8亿买个别墅,短短8年,网友惊叹:商业奇才

230万买一对耳环,1.8亿买个别墅,短短8年,网友惊叹:商业奇才

晓风说
2025-05-16 23:12:17
俄乌直接谈判,持续不到两小时:具体谈了什么?

俄乌直接谈判,持续不到两小时:具体谈了什么?

时代周报
2025-05-17 08:44:14
难怪印度不想打了,全球军队研究印巴空战后,发现最震撼的细节!

难怪印度不想打了,全球军队研究印巴空战后,发现最震撼的细节!

行走的知识库
2025-05-16 19:21:51
牛马队!领先41分尼克斯全主力,绿军投降锡伯杜不换人,解说无语

牛马队!领先41分尼克斯全主力,绿军投降锡伯杜不换人,解说无语

嘴炮体坛
2025-05-17 11:10:37
最新消息!今日必看10条要闻!2025.5.17新闻摘要!

最新消息!今日必看10条要闻!2025.5.17新闻摘要!

生活魔术专家
2025-05-17 07:59:50
为什么病鸡肉全家人都吃了,只有马彬1人去世?死亡原因曝光

为什么病鸡肉全家人都吃了,只有马彬1人去世?死亡原因曝光

春序娱乐
2025-05-17 08:27:42
大重组的明争暗斗

大重组的明争暗斗

后视镜里de未来
2025-05-16 09:25:36
奥运冠军陈梦正式成立工作室,并发布首条动态

奥运冠军陈梦正式成立工作室,并发布首条动态

懂球帝
2025-05-16 15:57:14
小米汽车副总裁称退订会造成小米崩塌,超200万粉丝博主硬刚

小米汽车副总裁称退订会造成小米崩塌,超200万粉丝博主硬刚

金融界
2025-05-16 16:58:32
38分惨败,卫冕冠军出局!尼克斯4人得分20+,东决对阵正式出炉

38分惨败,卫冕冠军出局!尼克斯4人得分20+,东决对阵正式出炉

老梁体育漫谈
2025-05-17 10:40:11
这梗过不去了!巴萨夺冠游行众球员高举沙滩球,疑似嘲讽维尼修斯

这梗过不去了!巴萨夺冠游行众球员高举沙滩球,疑似嘲讽维尼修斯

雷速体育
2025-05-17 08:04:07
山东28岁小伙马彬去世!原本这月8号结婚 死前吃了爷爷炖的瘟鸡肉

山东28岁小伙马彬去世!原本这月8号结婚 死前吃了爷爷炖的瘟鸡肉

鋭娱之乐
2025-05-16 20:15:17
上海地铁一老人强迫小伙让座,结果被小伙上了一课,评论区亮了!

上海地铁一老人强迫小伙让座,结果被小伙上了一课,评论区亮了!

妙知
2025-05-16 18:47:30
2025-05-17 12:27:00
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
796765文章数 5072064关注度
往期回顾 全部

科技要闻

OpenAI最强写代码AI智能体来了:Codex上线

头条要闻

美方"中国芯片黑名单"计划被披露 媒体:如冷水浇头

体育要闻

三年过去了,布伦森的打脸还没停

娱乐要闻

俞灏明王晓晨订婚:废墟里开出的玫瑰

财经要闻

关键时刻,央妈出手了

汽车要闻

小米汽车回应前保险杠变形 免费取送车和修复

态度原创

艺术
旅游
亲子
公开课
军事航空

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

亲子要闻

年轻人最爱的「毛绒绒」品牌,迪士尼只能排第二|2025毛绒玩具报告

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

持续近2小时 俄乌在土耳其谈成了什么