网易首页 > 网易号 > 正文 申请入驻

杀疯了!6年来最强模型GPT-4.5登场:更贵、更高情商、更少幻觉|钛媒体AGI

0
分享至

(图片来源:钛媒体AGI编辑林志佳拍摄)

今晨4点,GPT-4.5突然上线。

2月27日消息,钛媒体AGI获悉,美国OpenAI公司今天推出GPT-4.5模型(代号Orion),这是该公司有史以来算力和数据规模最大、最佳的 AI 基座模型,本周将面向每月200美元的ChatGPT Pro用户开放,下周向ChatGPT Plus开放。

GPT-4.5从一开始就不是一个推理模型。OpenAI表示,GPT-4.5在扩展预训练和后训练方面向前迈出了一步,通过扩展无监督学习,GPT-4.5提高了识别模式、建立联系和产生创造性见解的能力,而无需推理,此外,GPT-4.5计算效率比 GPT-4 提升了 10 倍以上,而价格层面,GPT-4.5 API每100万token输入75美元,输出价格为150美元,这比GPT-4o的2.5美元暴涨30倍,更是竞争对手 Claude 3.7 Sonnet 的25 倍。

尽管OpenAI CEO奥尔特曼(Sam Altman)没现身在发布会现场,但他发推文表示,“GPT‑4.5 让他第一次感觉像在与一个有思想的人在交谈,可以从模型那里得到真正好的建议。不过坏消息是,这是一个庞大而昂贵的模型,真的很想同时推出Plus 和 pro 版本,但是我们GPU计算卡已经不够了。下周我们将添加数万张GPU卡。”

“(我)在医院照顾我的孩子。团队已经成功了!”奥尔特曼称。

6年来最强模型发布:更贵、更高情商、更少幻觉

据悉,从GPT-1到即将发布的GPT-4.5,经历了6年之久。

2018年,6月OpenAI发布GPT-1,这是OpenAI第一个基于Transformer架构大规模预训练的语言模型;2019年,OpenAI发布GPT-2,模型规模扩大10倍,拥有 1.5 亿个参数,在生成文本方面展现出强大能力,但因潜在滥用风险,OpenAI以内测形式使用。

2020年,5月OpenAI推出GPT-3,拥有1750亿个参数,在自然语言处理任务上表现惊人,能完成生成文本、回答问题、翻译等多种任务,而到了2022年,GPT-3.5发布,OpenAI利用人工标注数据和强化学习提升了模型性能,同年11月30日,基于GPT-3.5的 AI 聊天机器人产品ChatGPT发布,风靡全球。

2023年3月14日,OpenAI发布GPT-4,语言理解能力更强大,能处理图像内容,对月订阅费20美元的Plus用户开放使用,随后11月,OpenAI在首届开发者大会上宣布GPT-4升级为GPT-4 Turbo。

到了2024年,5月OpenAI推出可免费使用的多模态模型GPT-4o,7月18日推出GPT-4o mini;9月12日,OpenAI正式对外发布o1模型的预览版,同时发布了o1-mini。此外,12月5日,OpenAI发布正式版OpenAI o1模型,随后还公布o3-mini系列,性能和性价比都超越o1模型。

然而,在开源AI模型DeepSeek V3/R1,以及马斯克的竞购动作影响下,今年2月13日,一切都变了,OpenAI终于不再“挤牙膏”,整个产品线全面加速,最快今年发布GPT-5模型。

奥尔特曼在推文中承认,OpenAI已经意识到自家的模型和产品供应已经变得非常复杂,需要简化产品供应。“我们和您一样讨厌模型选择,并希望回到魔法般的统一智能。我们的首要目标是通过创建可以使用我们所有工具、知道何时需要长时间思考、并且通常可用于非常广泛的任务的系统来统一 o 系列模型和 GPT 系列模型。”奥尔特曼表示。

奥尔特曼表示,OpenAI将很快(几周/月内)发布代号为“Orion”(猎户座)的 GPT-4.5,也是最后一个非思维链模型,并且会整合GPT和o系列,即将(数月内)推出具备多项新功能的GPT-5。

奥尔特曼强调,此前公布的推理模型o3将不会以独立模型形式发布。最重要的是,免费版ChatGPT能在标准智能设置下无限制地使用GPT-5基础班进行对话,不过会有防止滥用,而Plus/Pro付费用户将以更高的智能水平使用GPT-5。显然,GPT-5也将成为该公司第一个世界模型。

如今,OpenAI首先发布GPT-4.5——这是该公司6年来规模最大、价格最贵、更高情商、更少幻觉的模型。

OpenAI表示,GPT-4.5在预训练和后训练的扩展上取得进展,通过扩展无监督学习提升了模式识别等能力。

能力提升方面,早期测试显示,GPT-4.5交互更自然,它知识基础更广,能更好理解用户意图,“情商”更高,可减少幻觉,在写作、编程和解决实际问题等任务中表现出色。SimpleQA(评估模型的事实性回答能力)数据集测试中,GPT-4.5准确率达62.5%,高于GPT-4o、o3 mini系列等;幻觉率低至37.1%,远远优于GPT-4o等。

同时,GPT-4.5拥有无监督学习扩展,通过扩展计算、数据及架构和优化创新,提升了世界模型的准确性和直觉,拥有更广泛知识和对世界更深入理解,并且用小模型数据训练大模型,提升了GPT-4.5的可控性、对细微差别的理解及自然对话能力,而且训练采用新的监督技术,结合传统方法,在部署前进行安全测试,相关评估结果将发布在系统当中。

在与人类测试者的对比评估中,GPT-4.5在创意智能、专业查询和日常查询方面相比4o有更高胜率,表现出更强的审美直觉和创造力,在日常查询当中能够达到57%,专业查询达63.2%。此外,虽然GPT-4.5没有深度思考,但未来推理将成模型核心能力,所以GPT-4.5采用预训练和推理两种扩展方法相互补充。

使用方式层面,ChatGPT Pro用户即日起可在模型选择器中选用,下周起向Plus和Team用户推出,再下周面向Enterprise和Edu用户,该版本支持搜索获取最新信息、文件和图像上传及使用画布处理写作和代码,但暂不支持语音、视频和屏幕共享等多模态功能;而API层面,在Chat Completions API、Assistants API和Batch API中向所有付费开发者预览,支持函数调用等关键功能及图像输入视觉功能,适用于写作辅助等应用场景。但因模型大且计算密集,成本较高,官方正评估是否长期在API中提供。

Box AI CEO Aaron Levie表示,其将于今天晚些时候在 Box AI Studio 中向客户推出GPT-4.5版本。通过早期测试看,与 GPT-4o 相比,GPT-4.5 正确提取的字段准确率提高了 19 个百分点,凸显了其处理细微合同数据的能力有所提高,看到 GPT-4.5 在处理复杂企业数据方面取得了强劲成果,这将在企业中解锁更多用例。

Cognition 联合创始人兼 CEO Scott Wu 分享了使用 GPT-4.5 的体验,表示非常棒。在他们的智能体编码基准测试中,GPT-4.5 相较于 o1 和 4o 实现大幅改进。同时发现一个有趣的数据点:虽然 GPT-4.5 和 Claude 3.7 Sonnet 在整体基准测试中得分相似,但他们发现 GPT-4.5 在涉及架构和跨系统交互的任务上峰值更大,而 Claude 3.7 Sonnet 在原始编码和代码编辑上峰值更大。

OpenAI表示,GPT-4.5处于无监督学习前沿,还无法完全替代GPT-4o。

OpenAI将与kimi、DeepSeek同时“撞车”

事实上,2022年11月30日之前,OpenAI的网站流量几乎为零。但随后的两个月里,OpenAI受到了超过1亿访问者的冲击,所有人争相体验ChatGPT,自那以后,所有人的生活都不一样了,尤其是公司CEO奥尔特曼,成为了一名 AI 技术“布道师”和行业指引者。

如今,OpenAI估值超过1570亿美元(约合人民币1.1万亿元)

近期奥尔特曼公开表示,OpenAI正考虑基于使用量进行定价。至于何时能够实现AGI,他称当一个AI系统能够完成一个非常熟练的人在重要工作中所能做的事情时,就可以称之为AGI。

有趣的是,今天凌晨,月之暗面kimi再一次“撞车”,悄悄公布最新Kimi-K1.6-IOI-high模型,其在LiveCodeBench基准测试榜单上排名第一,超越了GPT和Claude系列模型。

同时,DeepSeek开源周持续引发关注,包括已发布专为英伟达Hopper GPU打造的MLA解码内核FlashMLA、EP通信库DeepEP、FP8 GEMM(通用矩阵乘法)计算库DeepGEMM等。预计今天上午9点左右,DeepSeek还会在X平台上发布全新开源技术。

据公开信息,2024年全年,OpenAI销售收入大约37亿美元,同比增长1700%以上,而预计到2025年,OpenAI年化收入将增长至116亿美元,其中,75%收入来自用户ChatGPT Plus服务订阅。内部预估,2029全年OpenAI营收将达到1000亿美元,相当于目前雀巢的年销售额。

(本文首发于钛媒体App,作者|林志佳)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
明星卸妆后,曾黎邋遢憔悴,田曦薇像无眉大侠,黄晓明撞脸大衣哥

明星卸妆后,曾黎邋遢憔悴,田曦薇像无眉大侠,黄晓明撞脸大衣哥

流云随风去远方
2026-05-13 08:12:48
5月16日俄乌:俄罗斯不得不修改计划了

5月16日俄乌:俄罗斯不得不修改计划了

山河路口
2026-05-16 18:39:14
2026年最旺的3个生肖:不是短暂的运气,是一整年的顺遂

2026年最旺的3个生肖:不是短暂的运气,是一整年的顺遂

毅谈生肖
2026-05-17 10:51:14
海归回国创业,4年亏损17亿,股价却14天翻10倍

海归回国创业,4年亏损17亿,股价却14天翻10倍

中国新闻周刊
2026-05-17 13:05:19
黄仁勋北京街头喝豆汁硬吞下去,转身送粉丝红包!网友:2万不卖

黄仁勋北京街头喝豆汁硬吞下去,转身送粉丝红包!网友:2万不卖

眼界纵横
2026-05-16 19:28:32
摆拍盲道被撞的盲人女网红被拘!账号被封过往更多视频被扒为流量毫无底线

摆拍盲道被撞的盲人女网红被拘!账号被封过往更多视频被扒为流量毫无底线

不二表姐
2026-05-16 22:11:33
访华已经结束,特朗普回到白宫,用6句话谈中国之行,措辞不寻常

访华已经结束,特朗普回到白宫,用6句话谈中国之行,措辞不寻常

少女百褶脸
2026-05-17 04:33:07
金刻羽给特朗普献计:现有政策全部反过来,就能锁住中国发展

金刻羽给特朗普献计:现有政策全部反过来,就能锁住中国发展

福建平子
2026-03-21 09:14:00
阿司匹林立大功!研究发现:老人吃阿司匹林,或能缓解 5 种症状

阿司匹林立大功!研究发现:老人吃阿司匹林,或能缓解 5 种症状

路医生健康科普
2026-05-01 11:50:03
调查发现:老年人若经常吃香蕉,用不了多久,身体或迎来3大改变

调查发现:老年人若经常吃香蕉,用不了多久,身体或迎来3大改变

芹姐说生活
2026-05-15 15:06:08
NBA历史薪资榜正式出炉!詹姆斯断层第一,前十全是超巨!

NBA历史薪资榜正式出炉!詹姆斯断层第一,前十全是超巨!

茅塞盾开本尊
2026-05-16 13:27:54
双星与群星构建天平,骑士与活塞均需打出完美一战

双星与群星构建天平,骑士与活塞均需打出完美一战

体坛周报
2026-05-17 16:31:22
各国大佬在北京“溜号”后,居然去了这些地方!他们比我们还懂玩

各国大佬在北京“溜号”后,居然去了这些地方!他们比我们还懂玩

黑哥讲现代史
2026-05-17 10:41:12
中美王牌对王牌,没有任何筹码的欧盟,才发现自己被特朗普骗了

中美王牌对王牌,没有任何筹码的欧盟,才发现自己被特朗普骗了

呼呼历史论
2026-05-17 16:17:12
2026年着急卖房的人,多半三个月后要拍大腿!看懂高层定调再决定

2026年着急卖房的人,多半三个月后要拍大腿!看懂高层定调再决定

芳姐侃社会
2026-04-29 18:59:13
新华社:农村娶媳妇要60~100万,不吃不喝干26年,男网友集体破防

新华社:农村娶媳妇要60~100万,不吃不喝干26年,男网友集体破防

谭谈社会
2026-05-16 09:02:27
互利共赢!中方购波音飞机后,C919适航证前景如何?

互利共赢!中方购波音飞机后,C919适航证前景如何?

枫尘余往逝
2026-05-16 08:02:25
简直自取其辱!中国军人与特朗普转机同框火爆外网,美军也来学

简直自取其辱!中国军人与特朗普转机同框火爆外网,美军也来学

胖福的小木屋
2026-05-16 23:55:24
为什么WTO很少被提起了?中国入世谈判花了15年,如今几乎被架空

为什么WTO很少被提起了?中国入世谈判花了15年,如今几乎被架空

古史青云啊
2026-04-07 14:52:09
亚足联确认!U17国足VS澳大利亚队时间敲定,浮嶋敏冲击决赛+冠军

亚足联确认!U17国足VS澳大利亚队时间敲定,浮嶋敏冲击决赛+冠军

何老师呀
2026-05-17 06:40:32
2026-05-17 17:36:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
133689文章数 862162关注度
往期回顾 全部

科技要闻

三大运营商即将免月租?多方回应

头条要闻

3楼租户长期有噪音2楼夫妻买震楼器反击 结果1楼报警

头条要闻

3楼租户长期有噪音2楼夫妻买震楼器反击 结果1楼报警

体育要闻

生死战只拿3分的核心,还有留的必要吗?

娱乐要闻

《主角》刘浩存上线,死别猝不及防

财经要闻

OpenAI和苹果的“联盟”即将破裂

汽车要闻

大五座SUV卷王!乐道L80上市 租电15.68万元起

态度原创

本地
房产
艺术
手机
军事航空

本地新闻

用苏绣的方式,打开江西婺源

房产要闻

老黄埔热销之下,珠江春,为何去化仅3成?

艺术要闻

新地标!中国牙雕艺术馆,意向东方建筑设计新作

手机要闻

W19排名出炉,苹果还是第五,华为还是第一

军事要闻

黎以停火再延长 空袭却未停止

无障碍浏览 进入关怀版