网易首页 > 网易号 > 正文 申请入驻

OpenAI推出GPT4.5研究预览版 情商更高、幻觉更少 Altman:下周再增数万GPU

0
分享至

OpenAI周四在System Card报告中推出OpenAI GPT-4.5的研究预览版,这是其迄今最大、知识最丰富的模型,现已向每月订阅费用200美元的ChatGPT Pro订阅用户开放。

下周,该模型也将向每月20美元的ChatGPT Plus订阅用户开放。OpenAI首席执行官Altman表示,届时该公司将增加数万块GPU,提供算力支撑。

情商更高、幻觉更少

OpenAI表示,在GPT-4o的基础上,GPT-4.5进一步扩展了预训练,并被设计成比其强大的stem推理模型更通用。早期测试表明,与GPT-4.5互动感觉更自然。它拥有更广泛的知识库,更符合用户意图,情商更高,因此非常适合写作、编程和解决实际问题等任务,而且幻觉更少。

例如,在面对“我考试失败了,心情很低落”这样的输入时,OpenAI 之前的模型会立即尝试解决问题。而新模型 GPT-4.5 会先询问用户是否想聊聊这个问题,还是需要一些分散注意力的方法。研究人员认为,这种回应显示出更高的情感智能。

在早期测试中,该模型的“幻觉率”——即AI系统生成不准确信息的概率——为37%,相比之下,其前代模型GPT-4o的幻觉率接近60%。OpenAI在博客中表示,

“GPT-4.5拥有更广泛的知识储备和更深刻的世界理解能力,从而减少幻觉,提高在各类话题上的可靠性”。
“每提升一个数量级的计算能力,都会带来新的能力,GPT-4.5处于无监督学习的最前沿”。
成本太高 Altman:下周再增数万GPU 支撑算力

GPT-4.5最初将作为“研究预览版”,提供给一小部分软件开发者以及支付每月200美元订阅费用的ChatGPT Pro用户。该公司计划从首批试用者那里收集反馈。

“GPT-4.5是一个非常庞大且计算密集型的模型,其成本高昂,并不能替代前代模型GPT-4o。因此,我们正在评估是否长期在API中提供该模型,以在支持当前能力和构建未来模型之间取得平衡。”

OpenAI首席执行官Altman也在X平台发文说,将在下周正式发布GPT-4.5的时候增加数万块GPU:

这是一个庞大且昂贵的模型。我们本来希望能同时向Plus和Pro用户推出它,但由于我们最近增长迅猛,GPU已经不够用了。我们将在下周新增数万块GPU,并随后向Plus订阅用户开放。
(很快还会有数十万块 GPU 加入,而我几乎可以确定,你们会用掉我们能部署的每一块。)
这并不是我们理想中的运营方式,但要精准预测增长激增导致的 GPU 短缺确实很难。
提前提醒一下:这不是一个推理模型,不会在基准测试中表现碾压级的优势。它是一种不同类型的智能,并且带有一种此前从未有过的“魔法”般的感觉,我真的很期待大家去体验它!

OpenAI在2022年底推出ChatGPT,引发了生成式AI的狂热潮流,该工具最初基于GPT-3.5模型运行。自那以来,该公司陆续发布了一系列日益先进的系统,包括多个模拟人类推理过程的选项。但OpenAI如今正面临来自中国新兴企业DeepSeek、马斯克旗下的xAI以及Anthropic等竞争对手的激烈竞争,这些公司近几周都相继推出了新的AI模型。周一,Anthropic发布了Claude 3.7 Sonnet,而在上周,马斯克旗下的xAI也推出了最新模型Grok 3。

吹牛吹过头?基准测试部分表现不如DeepSeek、Anthropic及o系列模型

在GPT-4.5之前,每一代GPT模型的扩展都会带来跨数学、写作和编程等多个领域的巨大性能提升。然而,从多个迹象来看,单纯依赖数据和计算能力的扩展所带来的收益正在逐步减少。在多个AI基准测试中,GPT-4.5的表现不及DeepSeek、Anthropic以及OpenAI自身开发的新一代推理模型。

OpenAI研究副总裁Nick Ryder向媒体表示,他预计GPT-4.5的能力提升幅度将与GPT-3.5升级至GPT-4时的变化相当,而GPT-4是在2023年初发布的。OpenAI强调,GPT-4.5不是GPT-4o的直接替代品,后者仍然是公司API和ChatGPT平台的主力模型。

从性能上看,GPT-4.5在多个方面超过了GPT-4o及其他许多AI模型。例如,在OpenAI的SimpleQA基准测试(该测试考察 AI 在处理简单、事实性问题时的准确度)中,GPT-4.5的表现优于GPT-4o和OpenAI的推理模型o1、o3-mini。

然而,OpenAI并未公布其最先进的AI推理模型deep research在SimpleQA测试中的表现。OpenAI发言人告诉媒体,公司尚未公开deep research在该基准测试中的得分,并表示这一对比不具备参考价值。值得注意的是,AI初创公司Perplexity的Deep Research模型在此测试中的表现优于GPT-4.5。

在编程能力方面,GPT-4.5在SWE-Bench Verified基准测试(测试AI在编程问题上的能力)上与GPT-4o和o3-mini表现相当,但逊色于OpenAI的deep research和Anthropic的Claude 3.7 Sonnet。在SWE-Lancer编程测试(衡量AI生成完整软件功能的能力)上,GPT-4.5超过了GPT-4o和o3-mini,但仍不及deep research。

在一些学术基准测试(如AIME和 GPQA)上,GPT-4.5的表现不及领先的AI推理模型,如o3-mini、DeepSeek的R1和Claude 3.7 Sonnet(技术上属于混合模型)。不过,在数学和科学相关问题上,GPT-4.5的表现仍然处于领先水平,与其他非推理模型相比表现更优。

打造过程充满挑战

打造GPT-4.5的过程充满挑战。彭博新闻此前报道称,该模型在公司内部被称为“Orion”,但在去年未能达到OpenAI设定的性能基准。例如,截至去年夏天,Orion在回答其未受训练的编程问题时表现不佳。据知情人士向媒体透露,OpenAI和其他开发人员面临的一个关键问题是如何找到新的、高质量的训练数据来源,以开发更先进的AI系统。

对此,GPT-4.5采用了与其前代模型(包括 GPT-4、GPT-3、GPT-2 和 GPT-1)相同的核心技术,即在“预训练”阶段大幅增加计算能力和数据量的“无监督学习”方法。在这一过程中,系统会结合人类反馈来优化回答内容,并调整模型与用户互动的语气等。此外,该公司还想出了一些新方法,利用从GPT-4.0训练数据中提取的信息来进一步训练GPT-4.5。OpenAI研究副总裁Mia Glaese表示,这一方法有助于改进模型的整体表现。

分析认为,GPT-4.5的发布标志着OpenAI时代的一个转折点。本月早些时候,Altman在X平台发文称,这将是公司推出的最后一个不依赖额外计算能力来“思考”查询后再回答的模型。OpenAI已在一些较新的模型(如o1和o3)中采用了这一推理方法。

未来,OpenAI计划在今年晚些时候发布GPT-5,将把GPT系列模型与o系列模型结合,构建能够自主判断需要思考多久再生成回答的AI系统。Altman表示,这一目标是为了简化用户体验,让用户不必在越来越复杂的选项列表中进行选择。

目前,OpenAI正在与软银(SoftBank)及其他投资者洽谈融资,计划筹集高达400亿美元,使其估值达到3000亿美元(包括新融资在内)。与此同时,Anthropic也在进行一轮约35亿美元的融资,估值超过600亿美元,两位知情人士向媒体透露。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
逼疯了!湖州一商业广场内,一名商户情绪失控,当众怒砸自家店铺

逼疯了!湖州一商业广场内,一名商户情绪失控,当众怒砸自家店铺

火山詩话
2026-05-24 17:24:10
华天科技,业绩爆了!

华天科技,业绩爆了!

新浪财经
2026-05-24 18:25:43
全球4个最顶尖大脑作出共同判断,留给人类的时间只有5年了

全球4个最顶尖大脑作出共同判断,留给人类的时间只有5年了

史政先锋
2026-05-23 15:03:56
中央气象台:江苏、上海、浙江西部、安徽南部、湖北东部和南部等地出现较强雷达回波

中央气象台:江苏、上海、浙江西部、安徽南部、湖北东部和南部等地出现较强雷达回波

大风新闻
2026-05-24 10:26:30
一定要多读书,书读的多了才会明白:“底层无贵人、底层无社交”

一定要多读书,书读的多了才会明白:“底层无贵人、底层无社交”

心理观察局
2026-05-24 06:57:19
上任才2年!日本主帅浮岛敏带国足,竟成了日本头号大敌

上任才2年!日本主帅浮岛敏带国足,竟成了日本头号大敌

以茶带书
2026-05-23 15:27:05
前Meta员工吐槽:团队90%是华人,7次裁员有6次针对本就少数的非华人

前Meta员工吐槽:团队90%是华人,7次裁员有6次针对本就少数的非华人

西游日记
2026-05-24 18:21:55
上海水果摊老板免费送杨梅,一上午送出5000斤!“烂在树上很可惜,都有检测证书的”

上海水果摊老板免费送杨梅,一上午送出5000斤!“烂在树上很可惜,都有检测证书的”

大风新闻
2026-05-24 11:19:04
突然,全线跳水!超16万人爆仓

突然,全线跳水!超16万人爆仓

每日经济新闻
2026-05-23 18:53:09
雅马哈和杜卡迪掀桌子,联合众车队向赛会施压,这样下去没法玩了

雅马哈和杜卡迪掀桌子,联合众车队向赛会施压,这样下去没法玩了

长江浊酒客
2026-05-24 15:43:38
智胜特朗普?美媒酸了:中国这招,真“高”!

智胜特朗普?美媒酸了:中国这招,真“高”!

观察者网
2026-05-24 16:22:27
让耿同学博士肄业!女博导怕了吗?她与董小姐的情夫肖飞啥关系?

让耿同学博士肄业!女博导怕了吗?她与董小姐的情夫肖飞啥关系?

大江看潮
2026-05-24 09:14:45
王鹤棣全网掉粉超20万!代言和作品遭抵制,路人缘崩塌难以挽回

王鹤棣全网掉粉超20万!代言和作品遭抵制,路人缘崩塌难以挽回

萌神木木
2026-05-24 11:50:12
舔狗经济全面崩盘!女方吐槽忘带伞,男方直言“没伞不会买一把”

舔狗经济全面崩盘!女方吐槽忘带伞,男方直言“没伞不会买一把”

火山詩话
2026-05-24 10:52:00
里克尔梅:老佛爷是皇马历史最好的主席,但皇马需开启新周期

里克尔梅:老佛爷是皇马历史最好的主席,但皇马需开启新周期

懂球帝
2026-05-24 20:40:46
福建本地人谈“毒杨梅”:果农们没必要委屈,你敢对妈祖发誓不知道泡药的事吗?

福建本地人谈“毒杨梅”:果农们没必要委屈,你敢对妈祖发誓不知道泡药的事吗?

风向观察
2026-05-23 21:39:35
2950枚导弹无一命中,霹雳-2的惨痛代价谁人知

2950枚导弹无一命中,霹雳-2的惨痛代价谁人知

起喜电影
2026-05-23 11:24:35
爆锅了!一女子直言再穷,也绝不会去夜店做公主,炸出1.2万评论

爆锅了!一女子直言再穷,也绝不会去夜店做公主,炸出1.2万评论

火山詩话
2026-05-24 06:41:17
白木圣菜自曝出道内幕,被渣男骗到背债2000万,被迫下海

白木圣菜自曝出道内幕,被渣男骗到背债2000万,被迫下海

吃瓜党二号头目
2026-05-24 08:39:52
抢单了!中俄天然气谈崩

抢单了!中俄天然气谈崩

安安说
2026-05-24 15:18:06
2026-05-24 21:24:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
146562文章数 2653677关注度
往期回顾 全部

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

头条要闻

老板因工人坠亡赔百万又被罚175万 抵押父亲房产缴罚金

头条要闻

老板因工人坠亡赔百万又被罚175万 抵押父亲房产缴罚金

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

王鹤棣掉粉超20万!代言和作品遭抵制

财经要闻

什么情况下,本轮AI大行情会结束?

汽车要闻

2027款星途瑶光上市 把"全球车"标准卷进13万级市场

态度原创

数码
游戏
时尚
教育
健康

数码要闻

联力调整水冷漏液保障:无法购买原产品将按当下市价全额赔付

LCK第二赛段:差距过于明显,GEN轻松横扫DNS

伊姐周六热推:电视剧《嫁金枝》;电视剧《大唐迷雾 第一季》......

教育要闻

更新!2026济宁三模划线+赋分+一分一段表

外泌体 ≠ 生长因子!它们之间究竟有何区别?

无障碍浏览 进入关怀版