网易首页 > 网易号 > 正文 申请入驻

讯飞星火X1数学碾压o1封神,首个全国产算力推理王者诞生!多指标国内TOP 1

0
分享至


新智元报道

编辑:编辑部 HYZ

【新智元导读】唯一一个在全国产算力上训练的深度推理模型来了!今天,讯飞星火深度推理大模型X1发布,发布会上现场摇数学题开做,答案全部正确。强强pk全国产胜,中文数学能力远超国内外「o1」级推理模型?

就在刚刚,国内第一个全国产算力的深度推理模型,重磅上线了!

科大讯飞的正式下场,再次搅动了本就已经十分激烈的推理模型战局。


现在,进入「讯飞星火」网页端和App端,搜索「深度推理模型X1」智能体,即可体验

此前,随着OpenAI的o1模型的发布,国内的o1级推理模型也如雨后春笋一般冒出。

细数一下,现在已经有了DeepSeek-r1、Skywork-o1、QwQ、Kimi-k1、GLM-Zero等多个模型。

那么,推理模型之战,谁才是最强?

全国产算力平台唯一深度推理模型

作为当前业界全国产算力平台上唯一的深度推理模型,X1的成绩着实亮眼。

《通用认知智能大模型测评体系》指导构建测试集CogNKLab-MathEval-2.0显示,X1的中文全学段数学及奥赛能力已经超越了OpenAI o1,实现国内最好。

而且模型只用更少的算力,就实现了业内一流效果,多项指标国内第一。


讯飞星火X1在小初高(含竞赛)、大学(含竞赛)、AIME、MATH 500等多项「考试」中,成绩十分亮眼。

所谓深度推理模型,当然就是更擅长做数学题这类复杂任务,而且有全面的思考推理过程。

X1的数学题,究竟做得怎么样?

科大讯飞也是猛,直接现场摇题给X1做,摇到哪道是哪道!

一上来,就是道2024高考数学题的大题。



X1的思考过程显示,它通过确认正弦值、解方程求角、应用正弦定理等步骤,将过程拆解出许多小任务,从而一步步解出答案。


对照参考答案可见,讯飞星火X1给出的答案完全正确。


接下来现场考验X1的,是一道2024年AIME数学竞赛题。

可以看出,这道题涉及多变量对数求解,难度不小。


X1在思考过程中,把对数转换成了指数。注意,解题过程考验的不仅仅是X1的数学能力,还涉及到了英文理解能力。


最终,X1给出了答案「33」,再次回答正确。

最后,试一试X1能不能做对国内的高中数学奥数题。



解题过程中,X1尝试理解等比数列的性质,试图理解各项和与各项平方和的关系,还重新反思了无穷级数和平方和。


可以看出,星火深度推理模型X1具有以下三大特点——

  1. 化繁为简,通过长思维链进行分步骤解析;

  2. 会自我探索和反思验证;

  3. 会根据「优质reward」来进行强化训练。

因此,像数学这种有明确答案和结果的问题,就天然适配X1模型。

其实,之所以如此迅速做出X1推理模型,也是因为科大讯飞在此领域早有积累。

比如基于自我评价迭代的评语模型技术,已经用于高考作文评分。数学答题领域的多路径和反思迭代强化学习,已用于数学教师助手。

因此,o1-preview发布一个月内,讯飞团队就迅速跑通了关键算法。

实测来了

接下来,就是讯飞星火X1和OpenAI o1推理模型真刀实枪见真章的环节。

第一道题,我们就要开始上难度了。


点击进去就能看到模型的详细思考过程,每一步都很清晰。


接下来,是高中生常见知识点中,最容易出错的题。

这一道,是高考数学中常见的集合问题。

X1用时35秒,顺利给出了正确答案。


看起来,这个结果没什么好惊讶的,因为这道题并不难,对吧?

然而,真正的实战过程中,不少推理大模型连如此简单的问题都折戟了!


接下来,再上升难度,上传一道美国数学竞赛AIME的一道题目,看看X1表现又如何?


X1用时2分,通过四步证明,最终得出了正确答案f(2024^2, 2024)。


再来看它的推理思维过程,也是非常缜密。


而最强o1,却在这道题上答错了。


为什么现在都在卷推理模型?

为什么最近国内的大模型厂商,都在狂卷推理模型?

这自然是因为,推理模型在AI技术商业化落地中起到的关键作用已经不言而喻。

这一商机,国外的科技公司早已率先嗅到。

随着OpenAI扣动扳机发布o1和o3,谷歌发布Gemini 2.0 Flash Thinking,DeepSeek-V3在海内外掀起巨大风暴,推理AI之战已经打响。

从应用端看,在聊天机器人、语音助手等商业化落地场景,推理模型的性能直接关乎到产品的用户体验。

在搜索引擎、社交平台等大规模部署场景中,推理成本是一个核心问题;更高效的推理模型,能显著降低成本。

在手机、IoT设备这类资源有限的硬件中,模型运行时更是需要在计算、内存和能耗之间实现平衡;此时,轻量化的推理模型就是最好的选择。

而从技术端看,OpenAI再度验证了Scaling Law并没有撞墙,只是从预训练阶段转向了推理阶段,也就是常说的测试时计算。

但问题在于,针对这一阶段的Scaling,对算力的消耗十分巨大。

因此,在中美竞争态势愈发严峻的当下,通过全国产算力拿下这块「兵家必争之地」,具有着比以往更加重大的意义。

全国产算力,勇闯无人区

讯飞星火深度推理模型X1,是昇腾算力体系下,首个原生的深度推理模型。

技术团队揭秘,在利用国产算力训练模型的过程中,遭遇了数据构建、框架调优、模型验证等诸多难题,让团队额外多花费了不少时间。

在这个过程中,没有任何成功的案例可借鉴,只能一点点啃下难题,好在最终成功攻关。

最终,算法不仅在国产算力上成功适配,而且用更少的算力,实现了业界一流的水平,推出了可以和国际领先模型扳手腕的X1。

回望过去,从一开始,星火大模型就坚定地走全国产的路线。

在和华为合作的过程中,双方始终坚持「勇闯无人区」,持续拔高全国产算力和大模型的上限,为世界提供第二种选择。


讯飞星火X1已「上岗」,多场景无缝衔接

与其他类「o1」模型不同的是,讯飞星火X1一经发布就已经实现了实战应用。

2022年12月,讯飞正式启动了「1+N」战略,就是要将底座大模型,赋能到教育、医疗、人机交互、办公等多个行业中。

如今,星火大模型早已在不同场景遍地开花。所以,这次星火X1也会率先落到实际场景中。

教育,是最典型的一个场景。

去年的1024开发者节大会上,讯飞联合中国教科院首次发布了基于「问题链」的高中数学智能教室助手。

当时,就已联合许多教师、教研员,打造了上万个优秀案例。


现在,讯飞星火X1已经在北京八中数学教研组、北京101中学数学教研组,以及合肥七中数学教研组等进行了部署。

来自北京、上海、合肥多地的一线教师在上手体验之后,一致给出了好评。

他们都认为,讯飞星火X1在解决创新数学题目时,可以做到一题多解,教学知识关联,还能拓展学生们的高阶思维。

来自北京八中的教师表示,「X1推理过程和思路更加清晰,如果遇到数学创新题,X1的思路会带来很大帮助」。


不光老师觉得好用,X1对学生来说,也是一个好帮手。

讯飞AI学习机曾首创了AI 1对1个性化精准学,帮助学生减负增效,因材施教。

因此,讯飞AI学习深受孩子和家长们的喜爱,用户净推荐值NPS稳坐第一,持续领跑行业。

在医疗这个专业性超强的领域,X1也交出了一份不错的成绩单。

基于知识反思和CoT,再结合医疗循证推理技术,X1在专科辅助诊断和复杂病例内涵质控方面的准确率,已经达到了90%!

作为医疗大模型领域「第一股」,讯飞医疗还将在2025年上半年推出X1升级版医疗大模型。

这次升级的目标非常明确,要在诊断推理和质控能力上,继续领跑业界,更大范围为医生们提供更专业的辅助。

1+N落地,前景无限

不可否认的是,在应用落地上,讯飞一直都是行业领导者。

成立26年,这家公司已经在认知智能领域拓展了丰富的to B/C的应用场景。

to B方面,有教育行业因材施教和个性化学习、医疗行业的人工智能辅诊、智慧城市便民便企服务、面向企事业单位的智能办公等。

to C方面,又有AI学习机、翻译机、录音笔、智能办公本等全系硬件产品布局。

2024年,被誉为大模型落地元年,讯飞也以实际行动证明了自己的实力。

截至24年12月,讯飞已成为央国企大模型的首选合作伙伴,与200+行业头部企业共同打造行业大模型,覆盖了300+应用场景,为行业树立了风向标。

第三方数据显示,讯飞在2024年大模型招投标中,独占鳌头。以91个中标项目和84780.8万元中标金额,成为当之无愧的「标王」。

这一成绩不仅仅体现在数量上,更体现在广度上,覆盖了通信、金融、能源等多个领域。

提到汽车领域,讯飞更是「霸主」级存在。中国汽车出海十强企业中,有8家都选了讯飞的技术。

而且,长城、广汽等七大企业的量产车都开始用上了星火大模型,可以说是全面开启了「汽车+大模型」的新时代。

在工业领域,讯飞羚羊工业互联网平台也是一匹黑马,连续三年入选工信部「双跨」平台,还获得了诸多荣誉。

在金融领域,讯飞也毫不示弱,星火大模型已成为交通银行、中国人保等多家金融机构的「数字底座」。

此外,讯飞还为企业提供了贴心的数智化升级方式,包括全套私有化部署方案,或者通过星火智能体平台、星火飞码iFlyCode等工具快速开发应用。

不难看出,科大讯飞已经打通了多个应用场景,一旦有了新模型的出世,就能顺利无缝铺开,并能得到很好的应用。

也就意味着,未来,讯飞星火X1的应用范围还将进一步扩大。

底座大模型再升级,中国AI队实力担当

或许你会问,国内的类「o1」推理模型已有不少,为什么讯飞星火X1依旧能够傲视群雄?

作为中国AI国家队,讯飞依托其自身技术的深厚积累,以及其专业的研发团队实力,由此在X1模型上实现了突破性进展。

回顾其发展历程,从最初的智能语音起步,到如今认知智能全面布局,这家公司始终坚持走在技术创新的前沿。

2023年5月,星火大模型首次亮相,经过多次迭代升级,已经在文本生成、语言理解、知识问答等七大核心能力上,取得了显著的成果。

随后在24年的1024大会上发布的讯飞星火4.0 Turbo更是在9项国际主流测试中,综合能力均拿下第一。

就在今天,讯飞星火4.0 Turbo底座能力全面升级,金融、油气、能源、电力、钢铁、 航司等领域综合能力的绝对提升全部超过10%,成为「最懂行业」的大模型。


面对算力资源短缺的迫切需求,讯飞还携手华为,在2023年10月发布了具有里程碑意义的「飞行一号」——国内首个全国产算力平台。

去年10月,「飞星二号」正式启动,万卡级算力集群继续深化布局,真正做到了从算力到模型全链条自主可控。


这一平台实现了对万亿参数大模型常态化训练支持,标志着中国在大模型底层技术上实现了关键突破。

这一次,基于国产算力平台首个深度推理模型X1的发布,不仅展现了中国AI队的创新实力,更为大模型的实战应用树立了新标杆。

站在新的起点上,科大讯飞继续勇攀高峰。

参考资料:

https://xinghuo.xfyun.cn

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

Runway Gen-4震撼上线,逼真场景暴击电影圈!好莱坞导演集体失业?

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
瞒不住了!俄乌前线铁证曝光,乌军吹嘘战绩原形毕露

瞒不住了!俄乌前线铁证曝光,乌军吹嘘战绩原形毕露

墨下
2025-03-31 21:04:47
明起气温逐渐回升!清明假期前,广东局地仍有10℃以下低温

明起气温逐渐回升!清明假期前,广东局地仍有10℃以下低温

新快报新闻
2025-03-31 23:41:08
事情闹大了!中国突然收到“求救”信号,帮不帮?中方开始行动

事情闹大了!中国突然收到“求救”信号,帮不帮?中方开始行动

傲骨真心
2025-04-01 10:33:52
特朗普罕见怒怼普京,克里姆林宫冷笑回应:你急啥?我们不慌

特朗普罕见怒怼普京,克里姆林宫冷笑回应:你急啥?我们不慌

阿离家居
2025-04-01 12:57:05
杰森-威廉姆斯:乔丹打高尔夫球时告诉我 詹姆斯能在任何时代打球

杰森-威廉姆斯:乔丹打高尔夫球时告诉我 詹姆斯能在任何时代打球

直播吧
2025-04-01 07:13:03
莱万赛后与巴尔德交流:金靴奖啊,我当时在空位怎么不传

莱万赛后与巴尔德交流:金靴奖啊,我当时在空位怎么不传

懂球帝
2025-04-01 05:58:06
无预兆无代号,东部战区突然出手,山东舰冲出迷雾吓了台军一跳

无预兆无代号,东部战区突然出手,山东舰冲出迷雾吓了台军一跳

张学峰看空天
2025-04-01 13:52:04
台军在厦门对岸实弹军演,一排坦克对海射击,这多好的靶子

台军在厦门对岸实弹军演,一排坦克对海射击,这多好的靶子

战争史
2025-03-30 19:33:17
帮助“台独”,不许两岸统一?中方逮到了大鱼,这次被彻底激怒了

帮助“台独”,不许两岸统一?中方逮到了大鱼,这次被彻底激怒了

蓝泾看一看
2025-03-31 09:26:57
意外发现了"饿两顿定律",体重从137到99斤,你也能做到

意外发现了"饿两顿定律",体重从137到99斤,你也能做到

渺沧海一粟
2025-03-31 10:33:08
“母乳交易”乱象:成人1500元竟能躺在怀里喝,暗访画面不堪入目

“母乳交易”乱象:成人1500元竟能躺在怀里喝,暗访画面不堪入目

游古史
2025-01-03 13:43:05
扶不上墙,巴基斯坦往西方陷阱跳,中国拦不住,难怪另扶新对象

扶不上墙,巴基斯坦往西方陷阱跳,中国拦不住,难怪另扶新对象

文昌每日谈
2025-03-31 17:12:19
网传韩国男团多位中国粉丝失联!网友:太可怕了,出门注意安全啊

网传韩国男团多位中国粉丝失联!网友:太可怕了,出门注意安全啊

火山诗话
2025-04-01 05:42:51
官宣!48岁马布里与北京大妞恋爱,女方身材傲人,原来早有迹象了

官宣!48岁马布里与北京大妞恋爱,女方身材傲人,原来早有迹象了

姩姩有娱呀
2025-03-20 01:11:36
张家界回应爆火韩剧:很正常,我们有专门针对韩国市场的营销宣传

张家界回应爆火韩剧:很正常,我们有专门针对韩国市场的营销宣传

鲁中晨报
2025-03-31 09:20:06
24岁走红,36岁离婚,再嫁冠军约丁克,今冠军却娶她人生了胖儿子

24岁走红,36岁离婚,再嫁冠军约丁克,今冠军却娶她人生了胖儿子

娱人细品
2025-04-01 13:57:38
朋友圈最新潜规则:你请的客、送的礼,别人根本不在乎

朋友圈最新潜规则:你请的客、送的礼,别人根本不在乎

布衣粗食68
2025-03-31 14:14:40
李嘉诚玩声东击西?港口交易叫停转头上市伦敦,规模达190亿美元

李嘉诚玩声东击西?港口交易叫停转头上市伦敦,规模达190亿美元

阿裤趣闻君
2025-04-01 09:27:46
天生坏种?被判10年的李天一出狱后,最恶心的一幕还是出现了

天生坏种?被判10年的李天一出狱后,最恶心的一幕还是出现了

小啾咪侃侃史
2024-09-07 15:30:03
围岛集结!东部战区多军种齐上阵:没代号、没结束时间,贴近实战

围岛集结!东部战区多军种齐上阵:没代号、没结束时间,贴近实战

阿绐聊社会
2025-04-01 13:21:09
2025-04-01 14:36:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
12444文章数 65991关注度
往期回顾 全部

科技要闻

小米公布SU7高速上碰撞爆燃事件细节

头条要闻

小米SU7高速上发生爆燃致3人身亡 小米回应

体育要闻

31岁的陈盈骏,带着“使命感”打篮球

娱乐要闻

张国荣去世22年,骨灰却仍无着落

财经要闻

人去楼空!机器人独角兽深陷停摆危机

汽车要闻

红旗天工06预售18.48万起 司南智驾全系落地

态度原创

家居
教育
亲子
旅游
公开课

家居要闻

模糊边界 扩大实用空间

教育要闻

孩子说不喜欢一切,咋办?

亲子要闻

孤岛不孤,让星星的孩子不再孤单

旅游要闻

油菜花开 这些赏花方式请查收

公开课

李玫瑾:为什么性格比能力更重要?