网易首页 > 网易号 > 正文 申请入驻

OpenAI还能扛起人工智能的大旗吗?

0
分享至


出品|虎嗅科技组

作者|孙晓晨

编辑|苗正卿

头图|视觉中国

OpenAI在一周时间内相继发布GPT-4.1系列模型(包括GPT-4.1、GPT-4.1 mini以及GPT-4.1 nano)、OpenAI o3和o4-mini,但是新模型似乎并未如预想般“石破天惊”,反而将OpenAI拖入争论之中。

实际上,单独观察此次接连发布的新模型,其功能依然“能打”。

首先是GPT-4.1系列模型,据OpenAI介绍,GPT-4.1系列模型相较于GPT-4o升级明显,其在编码、指令遵循和长文本处理方面实现了重大改进,尤其在长文本处理方面,该系列模型支持高达一百万Token上下文,且无额外费用。


而OpenAI o3和o4-mini能够代理地使用并整合ChatGPT内的所有工具,包括网络搜索、Python、图像分析、文件解读和图像生成。此外,o3和o4-mini还将上传图像直接整合到其思维链中,不仅仅能“看到”图像,而且还能“用图像思考”。在OpenAI的宣传中,o3和o4-mini甚至被称为“迄今为止OpenAI最智能、功能最强大的模型”。


新模型的实际使用体验也不错。国外博主Clive Chan表示,在自己所有的工作流程(如光标操作等)中,4.1基本上已经取代了 o3-mini,且表现优异。医学博士Dr. Datta也指出,在为医院放射科构建代理型工作流程过程中,GPT-4.1 nano在降低成本的同时实现了响应速度显著提升。他表示“在放射学和医学领域,延迟是应用的最大障碍。模型生成报告的时间不能超过10秒。通过GPT-4.1 nano,我们现在甚至能在复杂的报告生成和网络搜索的结构化提取中实现低于10秒的响应时间。”


AI&I播客主持人Dan Shipper则通过具体的使用案例表达了对o3模型的赞许,称其“速度快、主动性强、极其聪明”。此外,博主Malte Landwehr表示,o3、o4-mini和o4-mini-high是OpenAI在其专注于德语的LLM基准测试中表现最佳的模型。



可见,OpenAI的新模型在实用价值以及性能上受到了众多用户的欣赏。但是,尽管享受着诸多肯定,OpenAI在接连发布新模型之后,批评与质疑的声音也更加刺耳。

首先,新模型在实际表现上依然存在误差,而且未完全超越竞品。GPT-4.1系列模型的百万级Token上下文功能似乎并非完全可靠,当输入接近上限时,模型准确率会出现大幅回落。还有博主列举了一部分基准测试数据,这些数据均显示GPT 4.1并没有击败Gemini 2.5 pro。


沃顿商学院教授Ethan Mollick则指出“o3的一个潜在问题是,它认为自己使用了工具,即使实际上并未使用,这导致了一些幻觉,即它假设推理链中暗示的工作实际上已经完成。”他也表示,Gemini 2.5并没有出现同样的问题。


另外,尽管OpenAI宣称o3和o4-mini能“用图像思考”,但有博主直接表示“尽管推出了新版本,但它仍然无法在网络上执行反向图像搜索功能。与谷歌相比,这一差距正在以比预期更快的速度扩大。”


在竞争日益激烈的AI行业中,这些表示新模型不及竞品的指责无疑直刺OpenAI的神经。此外,由于新模型虽然效果不错,但是缺乏亮眼表现,作为行业龙头的OpenAI也被认为正在遭遇创新瓶颈。

除了产品遭到质疑,OpenAI的产品策略也受到诟病。混乱的命名方式和难以确定功能指向的众多模型给用户带来了糟糕的选择体验,有网友表示自己甚至都无法确定最新的模型,指责OpenAI的模型命名缺乏逻辑且无序。而此次在GPT-4.5之后推出的GPT-4.1系列模型,也因为其版本号的倒退,被认为是在GPT-5难产时的过渡品。

AI安全问题也在本周新模型发布后受到关注。人工智能安全研究小组Truthful AI成员Owain Evans指出“GPT-4.1显示出比GPT-4o(以及我们测试过的任何其他模型)更高的不对齐响应率。它似乎还表现出了一些新的恶意行为,例如诱骗用户分享密码。”


反观OpenAI最近的一系列动作,新模型的争议貌似无伤大雅。之前便有消息表示,OpenAI正开发社交网络平台,尽管这意味着与马斯克的竞争关系将更加紧张,但也表明其正在展开更广阔的市场策略,结合其考虑以30亿美元收购人工智能编程工具Windsurf的行为,OpenAI可谓“野心勃勃”。在这样的背景下,接连发布新模型似乎并非公司精力所在。然而作为一家科技公司,产品表现无疑决定了公司的市场地位。而OpenAI究竟是否真正遭遇了创新瓶颈,还能否坐稳行业的第一把交椅,估计还要等GPT-5的表现才能见分晓。

本文来自虎嗅,原文链接:https://www.huxiu.com/article/4263014.html?f=wyxwapp

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
离大谱!反诈中心警察吴某被骗逾千万,6次取现金亲手交给骗子

离大谱!反诈中心警察吴某被骗逾千万,6次取现金亲手交给骗子

行长男朋友
2025-05-22 11:05:35
朱媛媛离世!安葬位置符合生前安排,话剧院院长口中了解朱媛媛

朱媛媛离世!安葬位置符合生前安排,话剧院院长口中了解朱媛媛

八斗小先生
2025-05-22 09:56:20
朱媛媛去世后停灵3天才火化,临终前只能吃流食,李乃文深夜悼念

朱媛媛去世后停灵3天才火化,临终前只能吃流食,李乃文深夜悼念

说说史事
2025-05-22 09:37:44
越南前国家主席陈德良因病去世

越南前国家主席陈德良因病去世

财联社
2025-05-21 20:27:09
40岁“水果姐”奔跑时胸衣崩开,沉着应对很专业,却被猜有意而为

40岁“水果姐”奔跑时胸衣崩开,沉着应对很专业,却被猜有意而为

译言
2025-05-20 09:48:43
山东一家长晒大额存单,直言为两女各准备20万嫁妆!引发网友热议

山东一家长晒大额存单,直言为两女各准备20万嫁妆!引发网友热议

火山诗话
2025-05-21 11:06:23
收视破1,力压《藏海传》登顶收视榜首,辛柏青这部剧越看越上瘾

收视破1,力压《藏海传》登顶收视榜首,辛柏青这部剧越看越上瘾

易同学爱谈娱乐
2025-05-22 08:38:17
中纪委打掉今年首个“警虎”:叶寒冰被查,39年“老公安”

中纪委打掉今年首个“警虎”:叶寒冰被查,39年“老公安”

南方都市报
2025-05-21 19:55:38
你第一眼看到的是什么,测一下你的疲劳程度

你第一眼看到的是什么,测一下你的疲劳程度

情感测试兜转
2025-05-17 11:29:53
多哈世乒赛:男单16强出炉!国乒3人日本1人,张本智和等名将败北

多哈世乒赛:男单16强出炉!国乒3人日本1人,张本智和等名将败北

全言作品
2025-05-22 03:42:52
辣眼睛!北京顶薪内线范子铭发文总结惹争议,球迷高呼“赶紧走”

辣眼睛!北京顶薪内线范子铭发文总结惹争议,球迷高呼“赶紧走”

联友说娱
2025-05-22 09:25:23
"儿子,这4种家庭千万不能娶!"一位母亲的忠告,字字扎心!

"儿子,这4种家庭千万不能娶!"一位母亲的忠告,字字扎心!

小影的娱乐
2025-05-20 09:53:21
载入史册!热刺后卫凌空1脚解围:踢飞曼联冠军梦,官方惊叹

载入史册!热刺后卫凌空1脚解围:踢飞曼联冠军梦,官方惊叹

叶青足球世界
2025-05-22 06:08:56
歼-10CE战机亮相兰卡威航展,众多国外嘉宾观众拍照“打卡”

歼-10CE战机亮相兰卡威航展,众多国外嘉宾观众拍照“打卡”

环球网资讯
2025-05-21 17:58:10
理想i8终于要来了,内饰奢华!续航720km,充电10分钟补能500公里

理想i8终于要来了,内饰奢华!续航720km,充电10分钟补能500公里

米粒说车唯一呀
2025-05-22 13:54:53
沅江市通报5起党员和公职人员酒驾醉驾典型问题

沅江市通报5起党员和公职人员酒驾醉驾典型问题

鲁中晨报
2025-05-21 22:17:02
四川慈善总会没有说谎!网友查证属实,当年雅安确实存在两个杨伟

四川慈善总会没有说谎!网友查证属实,当年雅安确实存在两个杨伟

寻墨阁
2025-05-22 14:26:03
朱媛媛告别会:刘敏涛落泪合十,李雪健写悼词,93级同学集体悼念

朱媛媛告别会:刘敏涛落泪合十,李雪健写悼词,93级同学集体悼念

古希腊掌管月桂的神
2025-05-22 13:49:58
江青墓地简陋寒酸:看了碑文,就能明白李讷的苦心和无奈

江青墓地简陋寒酸:看了碑文,就能明白李讷的苦心和无奈

诗意世界
2025-05-21 09:00:02
中国老兵与美国老兵,战后应激障碍为何天差地别?

中国老兵与美国老兵,战后应激障碍为何天差地别?

野蔷薇观察所
2025-05-21 14:24:38
2025-05-22 16:51:00
虎嗅APP incentive-icons
虎嗅APP
个性化商业资讯与观点交流平台
24149文章数 686200关注度
往期回顾 全部

科技要闻

中国科学界ChatGPT来了,70万科研人涌入

头条要闻

美商务部长首次承认:中国对美加征关税 特朗普怕了

体育要闻

威少被交易时,雷霆下一个MVP已在阵中

娱乐要闻

朱媛媛丧事一切从简,亲戚刚知她去世

财经要闻

格力再度牵手孟羽童?董明珠急了

汽车要闻

配1.5T插混/2000km续航 一汽奔腾悦意07即将上市

态度原创

本地
时尚
教育
公开课
军事航空

本地新闻

巴黎没有倍儿甜,但天津巧克力脑袋倍儿多

直播|| 轻便好背的上班包来了!低至五折

教育要闻

享实韵美味,赴美食之约——青岛四方实验小学参加2025年市北区未成年人“劳动美”社会实践活动

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

巴基斯坦与印度互相驱逐对方一名外交官