网易首页 > 网易号 > 正文 申请入驻

大乱斗!百度、阿里、腾讯和字节的AI,哪家更强?

0
分享至

今年DeepSeek的横空出世之后,整个AI圈可谓是直接变天了。

先是OpenAI打自己脸,表示闭源策略是“站在了历史的错误一边”。

随后百度这边也付出了实际行动。

这就很有节目效果。

DeepSeek一开源,天突然就亮了,风突然就停了。

当然啦,DeepSeek除了带起了大模型开源的趋势。

最近我还发现,它还把很多家大厂的「推理模型」给“逼”出来了。

比如腾讯,前阵子就发布了自研的深度思考模型。

再到这两天,豆包紧随其后,开启了自研深度思考模型的灰度测试。

很可惜的是,机哥没被灰度上。

而阿里最新推出的——

QwQ-Max-Preview推理模型

目前倒是完全免费可用,而且也支持深度思考联网搜索两大功能。

至于百度的「深度搜索」功能,虽说也基于自研的文心大模型4.0 Turbo。

但我发现它只提供一张免费权益卡。

也罢…

用来做个对比评测够用了。

至此,百度、阿里、腾讯和字节跳动都有了自研的、且支持深度思考的推理模型。

此情此景,不来个赛博斗蛐蛐都说不过去了。

谁家推理模型更好用?

咱们就一块看看,几家推理模型的实际能力如何。

先来看很经典的大模型翻车问题——

9.11和9.9谁大

这问题对于人类来说,没啥难度可言。

但很多大模型,往往会把小数点后的9和11用来比较,识别出11比9大,就得出9.11>9.9的结论。

属于是聪明了,但只聪明了一半。

但说实话啊,现在各家的深度推理模型,基本就不会犯这样的错误了。

因为推理模型本身就有很强的逻辑推理、自我反思能力。

比如这是阿里QwQ-Max-Preview推理模型,所给出的答案。

他的思考过程就很有意思,知道这个问题经常会有大模型翻车,也知道要着重看小数点部分。

最终给出的答案也很准确。

同样的问题,我也扔给了腾讯元宝的混元T1推理模型。

实际体验下来,混元T1推理模型的思考过程很快。

用时14秒,也有展示思维链,给出的答案准确。

而论起思考的时长和深度,DeepSeek无疑是最详细的。

答案没啥毛病。

最后是百度文心一言的深度搜索。

有一说一,虽然它也提供了深度思考的过程。

但机哥总觉得,它这个思考过程太过繁杂,我看完都差点把自己绕进去了。

大伙可以点开大图,感受一下。

相较起来,阿里和混元的深度思考过程,确实简洁明了不少。

比如它们都考虑到十分位和版本号等差异。

最后根据正确的数学数值对比,给出正确答案。

当然从这轮测试能看出,“数字比较”对于推理模型已经没啥难度了。

那咱们再重点关注下,各家推理模型的联网搜索和整合能力。

我的问题是:

“帮我详细汇总今年要发布的影像超大杯手机的配置、定位和特色”。

咱们先看看,阿里QwQ-Max-Preview模型的回答。

老样子,它依旧给出了详细、直观且逻辑清晰的思考过程。

最后给出的答案,机哥自个儿是挺满意的。

像是小米15 Ultra、vivo X200 Ultra、OPPO Find X8 Ultra和华为华为Pura 80 Ultra等超大杯的定位和核心出装,都汇总得很到位。

腾讯元宝这边,得益于优质的公众号文章信源。

给出的回答甚至更胜一筹,对各家超大杯的配置、定位和特色,盘点得更加齐全。

咳咳,它甚至把机哥写的文章当作信源之一了。

而文心一言这边。

说实话其他国产超大杯的配置,给出的信息都问题不大。

但唯独这三星S25 Ultra吧。

我寻思这机子不都发布了么,怎么还写着“发布时间未明确提及”。

最后是大家比较关心的,DeepSeek的表现。

只能说,还是熟悉的味道,一到下午就服务器繁忙。

总的来说,在联网搜索这一块,阿里的QwQ-Max-Preview和腾讯的混元T1表现都挺不错。

平时懒得在传统搜索引擎做主动筛选的机友。

其实可以找它们,来帮忙搜索和总结联网信息。

文心一言的深度搜索,我体验下来是能用的,但偶尔会掉下链子。

再看看它们的文案创作能力。

我测试下来,感觉阿里的推理模型,效果最接近DeepSeek。

机哥让它用孙笑川吧吧友的语气,锐评我自己。

它通过联网搜索,结合深度思考过程,摸清了好机友的文风和调性,锐评起来也是毫不留情。

什么“科技界的三和大神”。

什么“教人下个App都要配8张表情包”。

破防了家人们。

而腾讯元宝和文心一言的攻击性,倒也不是说不够强。

但机哥总感觉遣词造句差点味道。

喷得不够丝滑,不够阴阳怪气。

(腾讯元宝)

(文心一言)

这一轮测试的结果,倒是符合机哥预期。

因为阿里的Qwen2.5-Max,在刚发布的时候,它在多个基准测试中的性能,表现都比DeepSeek-V3更强。

非要比个孰优孰劣的话。

Qwen2.5-Max更擅长数学和编程,DeepSeek-V3更擅长文案创作、解析和总结。

比如我让Qwen2.5-Max画一个贪吃蛇游戏。

它半分钟不到就给我整出来了。

更多开源模型正在路上

当然更让人兴奋的是。

阿里官方表示,后续会把QwQ-Max、Qwen2.5-Max这俩旗舰模型进行开源。

其中就包括,更适合端侧运行的小尺寸模型。

这就让我很好奇,iPhone吃上阿里大模型后,「苹果牌AI」会有怎样的表现。

不得不说,自从DeepSeek搞起了一轮“开源轰炸”后。

整个AI圈都或主动、或被动地加入到这股浪潮。

答案呈现更直观、更严谨、更聪明的推理模型,成为了大厂们的必争之地,目前腾讯、阿里、字节跳动和百度都出手了。

估计后续还会有更多厂商进来玩。

而开源模型的不断涌现,肯定也更有利于,把大模型普及到各行各业,乃至各个App。

想象一下。

打开美团,大模型自动帮你推荐合胃口的外卖。

阅读微信文章,微信提供大模型一键总结摘要的功能。

去电商App买个手机,大模型还能帮你汇总手机的配置和优缺点。

啧,想想就觉得很爽。

图片来自网络

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
殷世航爆料童锦程收入,两个项目月入500万,现在存款至少1亿

殷世航爆料童锦程收入,两个项目月入500万,现在存款至少1亿

新游戏大妹子
2026-05-28 11:09:05
炼出来一堆废铁:1958年全民大炼钢铁,究竟炼掉了什么?

炼出来一堆废铁:1958年全民大炼钢铁,究竟炼掉了什么?

浪子说
2026-05-28 00:05:03
武契奇访华画上句号,登机回国前,终于讲出实话,中塞在美国谈妥

武契奇访华画上句号,登机回国前,终于讲出实话,中塞在美国谈妥

影孖看世界
2026-05-28 23:54:29
杭州女子征婚:不要彩礼,能提供5分钟夫妻生活,每月给男人3000

杭州女子征婚:不要彩礼,能提供5分钟夫妻生活,每月给男人3000

谭谈社会
2026-05-28 18:34:27
中方4问强势回击:你要挑战中美元首会晤共识?

中方4问强势回击:你要挑战中美元首会晤共识?

看看新闻Knews
2026-05-28 18:44:18
绝命抢断+读秒三分绝杀!古德温31+11又成上海之王 布朗空砍50分

绝命抢断+读秒三分绝杀!古德温31+11又成上海之王 布朗空砍50分

颜小白的篮球梦
2026-05-28 21:39:44
荷兰军官:我们进入南海,遇到了解放军,他们没说这里是他们领土

荷兰军官:我们进入南海,遇到了解放军,他们没说这里是他们领土

阿龙聊军事
2026-05-28 15:58:13
重磅!伊朗发射弹道导弹,美军:已拦截,伊方无端侵略!伊朗最高领袖发声:美以试图制造分裂、瓦解伊朗

重磅!伊朗发射弹道导弹,美军:已拦截,伊方无端侵略!伊朗最高领袖发声:美以试图制造分裂、瓦解伊朗

每日经济新闻
2026-05-28 21:33:14
荷兰军官侃侃而谈:中国早就发现我们进入南海,看了一眼就走了!

荷兰军官侃侃而谈:中国早就发现我们进入南海,看了一眼就走了!

阿龙聊军事
2026-05-28 16:05:55
余承东吹爆问界M9,称其“地球最强”,评论区一点面子都不给!

余承东吹爆问界M9,称其“地球最强”,评论区一点面子都不给!

谭谈社会
2026-05-28 16:21:33
邵佳一遭质疑!国足名单最大争议:联赛垫底队3人入选,第二却0人

邵佳一遭质疑!国足名单最大争议:联赛垫底队3人入选,第二却0人

侃球熊弟
2026-05-28 18:44:34
耿同学公开最新4篇疑造假论文,涉及多位院士候选人、杰青、长江学者!不再“举报”

耿同学公开最新4篇疑造假论文,涉及多位院士候选人、杰青、长江学者!不再“举报”

高分子科学前沿
2026-05-28 21:18:01
57岁大妈做饭爱加蚝油,2年后去医院体检,医生疑惑平时咋吃的?

57岁大妈做饭爱加蚝油,2年后去医院体检,医生疑惑平时咋吃的?

芹姐说生活
2026-05-27 22:40:29
曝央行要求大型国有银行5月加大放贷力度,但若不解决消费,是治标不治本

曝央行要求大型国有银行5月加大放贷力度,但若不解决消费,是治标不治本

爆角追踪
2026-05-28 17:07:33
奥达,确认遇袭身亡

奥达,确认遇袭身亡

第一财经资讯
2026-05-27 20:03:35
涉嫌严重违纪违法,李志刚被查

涉嫌严重违纪违法,李志刚被查

中国基金报
2026-05-28 21:35:33
全网封杀已注定?林志玲风波升级,国台办回应,以后难在大陆捞金

全网封杀已注定?林志玲风波升级,国台办回应,以后难在大陆捞金

君笙的拂兮
2026-05-27 23:59:18
141名中国乘客飞美国,飞机降落时突然坠毁,起飞前一名美国官员悄悄改签了航班

141名中国乘客飞美国,飞机降落时突然坠毁,起飞前一名美国官员悄悄改签了航班

明德阅读
2026-05-27 19:39:40
卢比奥怒呛拉夫罗夫,特朗普团队对俄罗斯渐趋强硬

卢比奥怒呛拉夫罗夫,特朗普团队对俄罗斯渐趋强硬

高博新视野
2026-05-28 19:49:07
“8个孩子,没一个拿得出手!”农村父亲晒7儿1女,遭到网友群嘲

“8个孩子,没一个拿得出手!”农村父亲晒7儿1女,遭到网友群嘲

妍妍教育日记
2026-05-28 20:32:42
2026-05-29 05:15:00
锋潮评测 incentive-icons
锋潮评测
你身边的科技数码达人
3028文章数 92769关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

男子疑遭家暴跳楼身亡 母亲:儿媳说"你不配活在世上"

头条要闻

男子疑遭家暴跳楼身亡 母亲:儿媳说"你不配活在世上"

体育要闻

唐斯经历的一切,此刻的他与尼克斯

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

小米仍需一次创业

汽车要闻

从智驾兜底到自研4nm芯片,再到迪迪虾,比亚迪智能化战略凭什么封神?

态度原创

艺术
旅游
教育
数码
公开课

艺术要闻

2026陕西省青年美术作品展 入选油画

旅游要闻

游客在九寨沟被索要"照镜费" 景区:店家随口说的

教育要闻

中考数学:很多同学表示无解题,思维太局限

数码要闻

宏碁推出Predator Atlas 8掌机:8" FHD+ 120Hz 500nits触屏

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版