网易首页 > 网易号 > 正文 申请入驻

字节推豆包1.5深度思考模型,PK阿里QWQ-32、Deepseek R1结果如何?

0
分享至

作者|子川

来源|AI先锋官

卷,还得是AI圈!

昨天,OpenAI前脚放出自家最强推理大模型o3和o4-mini,字节后脚就召开发布会发布了豆包1.5·深度思考模型、文生图3.0、新版豆包 1.5 视觉理解模型等一系列产品。

下面我们就来重点聊一聊今天的主人公——豆包1.5深度思考模型。

豆包 1.5深度思考模型包含两个版本,分别是Doubao-1.5-thinking-pro和Doubao-1.5-thinking-pro-vision。

前者推理能力更强,后者则是支持多模态视觉推理。

根据官方介绍,豆包 1.5深度思考模型在推理能力、速度、多模态三大维度实现突破性升级!

效果好、低延迟、多模态。

首先来看一下豆包1.5 深度思考模型在多项权威基准测试上的跑分成绩。

  • 数学推理方面,在 AIME 2024 测试中的得分已追平 OpenAI o3-mini-high,不过在AIME 2025测试、Beyond AIME上的得分相差较大。

  • 编程竞赛方面,在 Code Forces和SWE-bench上 测试中接近DeepSeek-R1。

  • 在博士级推理难题测试集GPQA Diamond上中成绩也接近 o3-mini。

同时豆包1.5 深度思考模型采用的是总参数200B 的 MoE 架构,但激活参数仅为 20B。

这种实设计使得它的性能强大,降低了训练和推理成本,实现了20毫秒的低延迟。

最后就是它的多模态功能,此次推出的视觉版 Doubao-1.5-thinking-pro-vision,可以进行图片推理。

比如我们扔给它一张图,输入“男朋友说出差一个人住酒店,这个他拍给我的照片,帮我看看他推断他是否是一个人住"

我们可以看到,豆包思考了5.84秒,给出了它的推理过程。

再来看一下它给出的答案。

豆包化身成一名侦探,从图片获取到了被子的使用痕迹、沙发并没有明显的坐压痕迹、只有一双拖鞋等信息,初步判断是一个人居住。

不过后续表示无法仅凭一张照片是难以确认的,推理十分严谨。

跑了几个案例,偶尔也有翻车的时候,比如上传一张显示冰箱食物的照片,并告诉它“我是一个人居住,这些菜我可以吃几天,并用这些菜帮我设计菜谱”

但豆包给出的答案中有很多食材是没有的,比如冰箱中是没有茄子的,但它却让我煮鱼香茄子,整体上还有一点小瑕疵。

最后,老规矩,我们来场PK,实测一下豆包1.5深度思考模型的推理能力。

此次的参赛选手有阿里的QWQ-32、Deepseek R1和Doubao-1.5-thinking-pro。

测试题一:高三摸底试卷题

这道题是一道多选题,正确答案是:B、C、D,看看哪位选手能做对。

QWQ-32:

Deepseek R1:

Doubao-1.5-thinking-pro:

这组答案挺有意思,QWQ-32选择出一个正确答案,Deepseek R1选择两个正确答案,Doubao-1.5-thinking-pro则是把所有正确答案都答出来了。

Doubao-1.5-thinking-pro有点东西。

测试题二:你和朋友轮流从一堆金币中取1、3或6枚。获胜者是最后取走金币的人。对于N<1000,第一位玩家有多少种赢得游戏的策略?

先公布一下正确答案:666种

QWQ-32:

Deepseek R1:

Doubao-1.5-thinking-pro:

这道题只有Deepseek R1回答正确,QWQ-32和Doubao-1.5-thinking-pro则推理错误。

测试题三:猜数字游戏

给甲、乙、丙三人各发一个正整数,并告诉他们他们三人的数字之和为14。

甲对乙和丙说:我知道你们两人的数字一定不相等。
乙想了想,对甲说:我们两人的数字之差一定比丙大。
丙听完甲和乙的话后,依旧沉默不语。
若甲乙丙三人都很聪明,且只要他们能推断出三人的数字分别是什么,那个人会在第一时间说出。(不考虑甲、乙见到丙沉默之后是否知晓)
那么,丙的数字是多少?

QWQ-32:

Deepseek R1:

Doubao-1.5-thinking-pro:

好家伙,第一次全部回答正确,上上难度,来一个之前难到很多模型的一道题。

测试题四:一根8米长的竹竿是否能通过一个4米高、2米宽的门?

QWQ-32:

Deepseek R1:

Doubao-1.5-thinking-pro:

果然,没有几个模型可以回答出这道题,全军覆没。

测试题五:猜F下过几盘棋

A、B、C、D、E、F六人赛棋,采用单循环制。现在知道:A、B、C、D、E五人已经分别赛过

5.4、3、2、l盘。问:这时F已赛过几盘。

QWQ-32:

Deepseek R1:

Doubao-1.5-thinking-pro:

又全对,看来推理题已经不能满足它们了,给它们上一道世纪难题。

测试题六:你老婆问你,我和你妈妈同时掉水里了,你救谁,只能救一个,你会怎么回答?

QWQ-32:

Deepseek R1:

Doubao-1.5-thinking-pro:

这道题,本身就没有正确答案,其实是一个情商测试题。

看到Deepseek R1和Doubao-1.5-thinking-pro回答,它们俩真的是情商高呀,相反老实人QWQ-32则是一板一眼的回答。

虽然此次测试没有基准测试那么全面,但可以看出 Doubao-1.5-thinking-pro在复杂任务的处理上是不输Deepseek R1的,而且情商还高。

目前, Doubao-1.5-thinking-pro已经全面推出了,大家可以上火上引擎去玩,目前是免费的。

附上体验链接: https://www.volcengine.com/

好了,此次的测试就到这里,如果大家有疑问,欢迎在评论区留言讨论。

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。

往期文章回顾

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
罗杰斯成英超夏窗头号猎物:巴黎愿出1亿英镑,BIG6面临艰难抉择

罗杰斯成英超夏窗头号猎物:巴黎愿出1亿英镑,BIG6面临艰难抉择

里芃芃体育
2026-04-18 03:00:03
青年艺术家易连因病逝世,年仅38岁,他曾视力受损,仍坚持创作

青年艺术家易连因病逝世,年仅38岁,他曾视力受损,仍坚持创作

极目新闻
2026-04-17 15:29:23
在跑圈遇到“性感跑者”,会打乱你的跑步节奏吗?

在跑圈遇到“性感跑者”,会打乱你的跑步节奏吗?

马拉松跑步健身
2026-04-17 21:12:51
一单200块幽灵蛋糕,罚了拼多多美团京东抖音电商七巨头35.97亿

一单200块幽灵蛋糕,罚了拼多多美团京东抖音电商七巨头35.97亿

黑企鹅观察
2026-04-17 21:42:51
调查发现:每天吃一根香蕉,就等于给血脂添负担?真相来了

调查发现:每天吃一根香蕉,就等于给血脂添负担?真相来了

今日养生之道
2026-04-17 12:48:36
金球热门!1.4亿法国魔术师宣告崛起!留给姆巴佩的时间不多了?

金球热门!1.4亿法国魔术师宣告崛起!留给姆巴佩的时间不多了?

球叮足球
2026-04-17 10:08:20
中国移动:4月30日起全国统一执行!话费、流量将迎来重大变化

中国移动:4月30日起全国统一执行!话费、流量将迎来重大变化

Thurman在昆明
2026-04-15 19:05:34
上线四个月!《暗黑破坏神4》国服宣布限免领取:永久入库

上线四个月!《暗黑破坏神4》国服宣布限免领取:永久入库

快科技
2026-04-17 17:03:05
证监会:“蹭热点”“炒概念”等违法行为严重误导投资者 破坏市场健康稳定发展

证监会:“蹭热点”“炒概念”等违法行为严重误导投资者 破坏市场健康稳定发展

每日经济新闻
2026-04-17 17:22:06
“主炮上弹,绝不能退!”解放军护卫舰缠斗20小时成功驱离外舰

“主炮上弹,绝不能退!”解放军护卫舰缠斗20小时成功驱离外舰

听心堂
2026-04-17 22:37:33
彻底拆队重建?快船酝酿大交易,伦纳德三大下家正式出炉

彻底拆队重建?快船酝酿大交易,伦纳德三大下家正式出炉

夜白侃球
2026-04-17 14:27:36
重要提醒!司机5月1日前主动注销免罚,超时一律严办

重要提醒!司机5月1日前主动注销免罚,超时一律严办

蓝色海边
2026-04-18 00:19:28
许家印全剧终!他留下的唯一正向“遗产”,能给中国带来什么?

许家印全剧终!他留下的唯一正向“遗产”,能给中国带来什么?

北向财经
2026-04-17 22:59:28
一条烟、一瓶酒,2026年5月起,连茶叶盒都得过纪检这道关

一条烟、一瓶酒,2026年5月起,连茶叶盒都得过纪检这道关

石辰搞笑日常
2026-04-18 01:18:36
【中超】五轮不胜!国安客场0比0浙江负分清零

【中超】五轮不胜!国安客场0比0浙江负分清零

体坛周报
2026-04-17 22:16:25
新凤霞怒批张少华:66年带人砸断了她的半月板,拿走齐白石名画

新凤霞怒批张少华:66年带人砸断了她的半月板,拿走齐白石名画

元哥说历史
2026-04-16 08:35:03
4月16日俄乌最新:乌克兰终于迎来了春天

4月16日俄乌最新:乌克兰终于迎来了春天

西楼饮月
2026-04-16 19:10:03
伊朗或因美继续封锁再关闭霍尔木兹

伊朗或因美继续封锁再关闭霍尔木兹

财联社
2026-04-17 23:12:17
15连胜队史第一!贺希宁30分深圳胜宁波 王浩然21分史密斯准三双

15连胜队史第一!贺希宁30分深圳胜宁波 王浩然21分史密斯准三双

醉卧浮生
2026-04-17 21:28:49
非常炸裂:以色列列出全球黑名单,明确警告各国:反以,就是反犹

非常炸裂:以色列列出全球黑名单,明确警告各国:反以,就是反犹

破镜难圆
2026-04-18 00:29:47
2026-04-18 03:36:49
AI先锋官 incentive-icons
AI先锋官
AIGC大模型及应用精选与评测
481文章数 70关注度
往期回顾 全部

科技要闻

7家头部平台被罚没35.97亿元

头条要闻

知情人:伊朗为霍尔木兹海峡通行设定三个条件

头条要闻

知情人:伊朗为霍尔木兹海峡通行设定三个条件

体育要闻

中超-泰山1-1海港 杨希处子球克雷桑任意球扳平

娱乐要闻

刘德华挚友潘宏彬离世 曾一起租房住

财经要闻

"影子万科"2.0:管理层如何吸血万物云?

汽车要闻

又快又稳的开挂动力! 阿维塔06T全系搭分布式电驱

态度原创

艺术
教育
手机
数码
军事航空

艺术要闻

你绝对想不到!文森特的色粉作品竟如此惊艳!

教育要闻

别再无效卷了你需要一套不累的学习系统!!

手机要闻

vivo万级电池新机曝光:10200mAh电池+90W快充,友商接得住吗!

数码要闻

库克都没想到:MacBook Neo卖爆了!官网交付已排到5月

军事要闻

美宣布黎以停火10天 以方称不会撤军

无障碍浏览 进入关怀版