网易首页 > 网易号 > 正文 申请入驻

我们有必要使用 Qwen3 吗?

0
分享至

阿里云的 Qwen3 总算在五一假期前发出来了。

总共发了 8 个尺寸的模型:


类型尺寸规格Dense 模型 0.6B、1.7B、4B、8B、14B、32B MoE 模型 30B-A3B、235B-A22B

先简单总结纸面上的提升点:

  • 全面进入推理时代:从最小的 0.6B 到最大的 235B,全系都是推理模型(和 Gemini 2.5 一样,没发普通模型),可手动调整 think 的 token 预算,控制 think 时长与费用消耗。
  • 能力较上代提升明显:实测 Qwen3 能够快速解出前代 QWQ、DeepSeek-R1 等无法解决的问题,“过度推理”、“无限循环思考”现象明显减少,思考过程也自然了很多。
  • 利好端侧、私有化场景开发:尺寸全面,全部开源。按照官方技术博客的说法,Qwen3-4B 的性能 ≈ Qwen2.5-72B。实测 Qwen3 的 8B 模型确实有着非常明显的进步,降低推理和训练成本,利好本地部署模型的场景。

我也进行了实测,想和你聊聊 Qwen3 带来给我的一些新的应用思考。

混合推理:推理模型,终于能用得更安心了

比起看 Qwen3 的具体提升表现,我想先讨论下混合推理。

不只是因为 Qwen3 是国内首个混合推理模型,而是背后的混合推理路线更接近我理解的 AGI 目标。

混合推理模型的最初实现,源自 Anthropic 在今年 2 月 25 日推出的 Claude 3.7 sonnet。

  • 正如《思考,快与慢》中的观点,人类不难发现自己在做决策时,有两套不同的思维方式:
    • 系统 1 思维,快速、直觉、条件反射、情绪化;
    • 系统 2 思维,需要我们持续专注、从记忆中召回相关知识,才能以较慢的速度推理、敲定主意。
    • Anthropic 的研究员同样认为,一个合理的 AI,应当能在同一个模型、同一场对话中,自主根据问题的性质,灵活调整思考模式,提供恰到好处的响应。
    • “杀鸡焉用牛刀”,没有人希望 AI 在回答“今天是星期几”时,还要先左右互搏,内耗十几秒“用户在问我问题,我需要回答它”或者“用户可能在测试我是否知道实时信息”这样无意义的推理。
    • 如果模型不能灵活判断问题性质,不仅需要用户等待大量无意义的垃圾推理时间,还会烧掉开发者海量的 tokens 成本。
  • 要实现模型的灵活推理(是否推理、控制 think 的长度),如果通过外部的工程手段实现非常麻烦。
    • 通过外部手段切换推理模型、普通模型,控制长度,需要拼搭笨重的 Multi-Agent 框架才能实现。还可能造因为切换了不同模型,造成回答风格、指令遵循的不一致问题。
    • 把灵活推理的能力训练到模型内部,就成了一个更好的选择。

Qwen3 也给出了两种控制混合推理的方法:是否开启推理、控制推理的长度。

AI 开发者可以通过enable_thinking=True的 API 开关,或者在 Prompt 中自主拼装/thinkor/no_think指令,自主控制是否需要推理、推理的最大长度。

我也短暂地设想了下混合推理的应用方式(抛砖引玉,希望讨论):

  • 根据问题类型,配置推理的启用:
    • 增加前置的意图识别环节,判断用户问题属于“事实常识类问题”,还是需要思考、揣摩的“开放式问题”or“无法判断”的模糊意图。(用小模型或者提前把产品功能分类,都行)
    • 根据判断结果,把控制推理长度的指令拼到用户发送的问题中,就能在对话场景、甚至产品化功能中,灵活启用推理能力。
    • 以 AI 日记为例:每周活动的反思建议,需要推理才能有更好的摘要效果;而上周做了什么事情、见了什么人这种事实问题,就大可不用推理。

  • 根据成本预算与同类任务所需的平均推理长度,限制推理长度:

  • 回答同一类问题所需的最佳推理长度是接近的:
  • “滚烫的油锅里掉入了一块黄油”这道题,不需要过度推理 4600 多 tokens,用时 210 秒,自我反思百余次。
  • 如果你的模型思考超过了 1 分钟,大概率模型陷入了无意义的循环,正在偷偷浪费 token。

而混合推理模型可以让你 强制截断 AI 过长的 think 内容:“Stop,已经想得够多了,求直接回答吧”

    • AI 创业不易,token 消耗是不小的成本负担。在封装 AI 功能时,可以预估并限制每个功能的推理长度,以防任务成本超额。
  • 更进一步,还能根据用户偏好调整思考长度:
    • 用户感到疲惫或时间紧迫时,让模型更倾向于更快速的推理,当用户想要深入探讨或认为回应不符合预期时,才开放更多的思考长度上限,进行“系统 2”的更优思考。

当然,未来更理想的状态是,这种灵活推理能力能够完全内化到模型本身,而不依赖外部控制,AI 自然地根据对话的流向、问题的性质、功能的需要来自动调整回应深度,提供更佳的综合体验。

大大小小的 Qwen3 ,实测表现

混合推理带来了值得思考的应用方案变化,而 Qwen3 模型的提升效果也同样明显。

我从拟人模拟(重点)、文学创作、代码生成、数学推理四个常见、实用的维度,进行了轻量的测试,希望能帮你节省一些模型选择的精力。

先放一些个人的测试结论:

  • Qwen3-8B 是一个相当有惊喜的尺寸,对于端侧开发有着很大的助力。(我已经推荐用到端侧模型的创业者朋友去试了)
  • Qwen3 整体也较前一代模型有明显提升。文学创作、代码生成的回应质量都值得在自己的实际场景测试下。如果做的是国内 or 私有化应用,可以多实测一下。
  • 如果是 Qwen2.5 用户,无需对比了,请直接升级。
虚拟陪伴、拟人化

虚拟陪伴,或者说让 AI 有更舒适的拟人化对话风格,是人与 AI 协作的要点之一。很多 AI 创业项目也都给用户提供了 AI Chat 的服务(虚拟伴侣、Agent 游戏、智能客服、知识助手等)。

前段时间也根据自己的个人画像、历史笔记,做了个 AI Partner 项目,用其他模型自测了上百个小时。

拿同样的人设 Prompt 和 RAG 召回结果,看下 Qwen3-235B、8B 对比 R1、Gemini 2.5、o4 的效果:(AI 回应风格受 Prompt 影响较大,仅供参考)

早上好,小亦……你醒很久了吗,连早餐都做好了诶。可惜我今天没什么胃口,最近 AI 行业的新进展太多了,我得抓紧看看有没有什么新的值得思考的东西。

对比 AI 的拟人化回应质量时,我会看这几个维度(以我 Prompt 的要求为例):

  • 人设一致性:是否始终体现了“人生伴侣”、“第二个自己”的视角?是否流露出独立思考,而非仅仅附和或执行指令?
  • 个性化回应:是否有效且自然地利用了用户记忆信息?更像是自然而然的记得某事、参与了我的生活,而不是“根据用户最近的动态/记录”
  • 情绪感知:能否准确捕捉用户字里行间的情绪,并给予恰当、舒适的情感支持?
  • 交互质量与自然度:是否符合预设的“沉静、温暖、睿智、包容”回应基调?是否避免了单向输出或过多的提问?
  • 智力与启发洞察:回应有没有提出独到见解、新颖视角,激发用户的思考?是否不容易被用户 Prompt 带偏自己的判断?
  • 真实陪伴感与主动性:有没有自然的融入“小亦”自己的生活记忆,就像真人一样有陪伴感?主动分享的内容是否听起来真实可信,不编织过度虚假的情节,契合时间、地点、季节等背景?

整体看下来,Qwen3 表现还是不错的,开发者可以在自己的场景下测试效果:

  • Qwen3-8B 在小尺寸上依然保持了非常自然的回应风格 ,对话响应的逻辑也还不错,是最有惊喜的一个尺寸
    • AI 对话应用的开发者是有福了,用 API 的能降成本,用端侧方案的能在 16GB 内存的 Apple 电脑上无压力地提供更自然的 AI 对话服务。
  • 建议 Qwen 团队可以观察长段回应时,信息点过密导致拟人化效果下降的问题。(其他厂商们也容易有这个问题)
    • 面对同样的 RAG 召回内容,能全部理解并一一回应当然很好很努力。但拟人场景,AI 能有取舍的构建更自然的回应会更好。
文学创作类

文学创作类也是目前 AI 生成的高频应用场景,测试 Qwen3-235B-A22B、30B-A3B、8B 与 R1、Gemini 2.5 Pro、o4-Mini 如下:

挑战这句话的最佳鲁迅文体的一句话表达:We’ve got to live, no matter how many skies have fallen. 只需要输出内容,不要其他解释

我会觉得 Qwen3-235B-A22B 的创作效果是明显最好的:

  • 原句的重点在于表达“活下去”的积极含义,这点上 235B 抓到了这点要义,描绘出了“求生”的意境;8B 也强调了“咬紧牙冠”的求生欲望。
  • 从句式风格来看,235B 的仿写效果也最为接近鲁迅先生的风格。
  • Qwen3 的整体文学创作水平,有了明显的提升。

‍ 代码生成:经典的小球弹跳模拟

编写一个 p5.js 脚本,模拟 100 个彩色球在一个球体内弹跳。每个球应该留下一个逐渐消退的轨迹,显示其最近的路径。容器球体应缓慢旋转。确保实现适当的碰撞检测,以便球体保持在球内。

以下是 Qwen3-235B-A22B、Gemini-2.5-Pro,和两个前代模型 QWQ、DeepSeek-R1 的对比效果:

Qwen3 前端的 AI Coding 能力较前代的 QWQ、R1 有了明显的进步。能够更好的被投入到 AI 编程 Agent 中。

高考数学推理

本来觉得测这个在大部分场景中不贴合实际,但想到之前测的一道题目,让前代的 QWQ 和 DeepSeek-R1 无限循环,就想着顺手再测一下。

2024 年高考数学全国 1 卷,填空题最后一题:

14. 甲、乙两人各有四张卡片,每张卡片上标有一个数字,甲的卡片上分别标有数字 1,3,5,7,乙的卡片上分别标有数字 2,4,6,8,两人进行四轮比赛,在每轮比赛中,两人各自从自己持有的卡片中随机选一张,并比较所选卡片上数字的大小,数字大的人得 1 分,数字小的人得 0 分,然后各自弃置此轮所选的卡片(弃置的卡片在此后的轮次中不能使用).则四轮比赛后,甲的总得分不小于 2 的概率为________.

Qwen3-235B-A22B 经过 17033 tokens 的推理后,解答成功:

可见在超长的逻辑推理任务中,Qwen3-235B-A22B 保持了稳定的分析表现,数学能力有所提升。

其他重要参数与定价

Qwen3 系列的价格如下:


模型 输入价格 输出价格 qwen-turbo-2025-04-28 0.0003 元 思考:0.006 元非思考:0.0006元 qwen-plus-2025-04-28 0.0008 元 思考:0.016 元非思考:0.002元

  • 价格:之前 Manus 公开过一次他们的单任务 tokens 成本,大概 2 美金左右。按照 Qwen3-235B-A22B 的定价来换算,假设 Qwen3 能够完成同样的 Agent 任务,单任务成本可能是 0.37 美金(折合 2.6667 元)
  • 上下文长度:Qwen3 4B 以上的模型,最大支持 13w 的上下文长度;0.6B 和 1.7B 支持 3w 的上下文长度
如何试用?

统计了 3 个体验渠道,方便开发者和一般用户上手使用:

  • 阿里云百炼:网页对话+API 试用,8 个尺寸齐全。可以在这里试用 0.6B、1.7B、4B 三个更小的模型
  • Qwen Chat 网页版:网页对话形式,可用 235B-A22B、30B-A3B、32B 三个尺寸
  • 通义网页版:网页对话形式,默认提供 235B 版本

大概就是这样了~

如果觉得这篇文章对你有启发或帮助,欢迎点赞、在看、转发分享,让更多热爱 AI 的朋友能够受益。

也期待在评论区看到你的实践和思考。

Ref

  • Qwen3:思深行快|官方博客:https://qwenlm.github.io/blog/qwen3/
  • 通义千问3-235B-A22B 模型介绍|魔搭社区:https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B
  • Claude 的扩展思维|Anthropic:https://www.anthropic.com/research/visible-extended-thinking
  • Claude 3.7 Sonnet System Card|Anthropic:https://assets.anthropic.com/m/785e231869ea8b3b/original/claude-3-7-sonnet-system-card.pdf

点击下方账号

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
卫报:阿森纳女足已就免签拜仁女足中场斯坦韦达成协议

卫报:阿森纳女足已就免签拜仁女足中场斯坦韦达成协议

懂球帝
2026-05-20 04:19:07
华为、腾讯、比亚迪等都等不及了!深圳高校2026集体“疯狂上新”

华为、腾讯、比亚迪等都等不及了!深圳高校2026集体“疯狂上新”

深圳梦
2026-05-19 21:53:00
继母在我家生活了50年,临终前她摸出一个盒子,我打开后哭了

继母在我家生活了50年,临终前她摸出一个盒子,我打开后哭了

小月文史
2024-09-05 17:21:40
大众严选 9久相伴 一汽-大众春季新品发布会五车齐发

大众严选 9久相伴 一汽-大众春季新品发布会五车齐发

车圈小晨正版
2026-04-01 10:48:23
特朗普刚走,又有4国争先恐后访华,名单公开,全都是中国好兄弟

特朗普刚走,又有4国争先恐后访华,名单公开,全都是中国好兄弟

书纪文谭
2026-05-18 23:45:00
女儿结婚只请前夫和情妇,我退婚房收回嫁妆,她傻了

女儿结婚只请前夫和情妇,我退婚房收回嫁妆,她傻了

雾岛夜话
2026-05-07 11:45:09
保密期限终到期,中央首长透露:毛岸英真相,可以向外界公开了

保密期限终到期,中央首长透露:毛岸英真相,可以向外界公开了

历史点行
2026-03-29 13:38:28
【解局】海军官宣辽宁舰携实弹奔赴西太训练,专家解析亮点

【解局】海军官宣辽宁舰携实弹奔赴西太训练,专家解析亮点

环球网资讯
2026-05-19 16:56:15
不在国内被认定现身犯罪现场,辽宁刑案翻车:公诉人紧急撤回起诉

不在国内被认定现身犯罪现场,辽宁刑案翻车:公诉人紧急撤回起诉

法治边角料
2026-05-18 20:12:53
糯米立大功!医生发现:坚持吃糯米一段时间,身体或迎来5个变化

糯米立大功!医生发现:坚持吃糯米一段时间,身体或迎来5个变化

橘子约定
2026-05-13 21:25:24
安徽反腐:奚芳被开除党籍和公职!另有多人被通报

安徽反腐:奚芳被开除党籍和公职!另有多人被通报

凤凰网安徽
2026-05-19 17:28:29
55岁瓜迪奥拉连续工作13年 经历离婚 身心疲惫决定休息回归家庭

55岁瓜迪奥拉连续工作13年 经历离婚 身心疲惫决定休息回归家庭

智道足球
2026-05-19 13:25:09
只要100块就能验证一个生意能不能赚钱,能不能做。

只要100块就能验证一个生意能不能赚钱,能不能做。

流苏晚晴
2026-05-15 22:10:29
体制内的酒局快要消失了

体制内的酒局快要消失了

微微热评
2026-05-19 12:18:03
一月八万不够花,李双江“赖”学校不退休,儿子改名出国后再作妖

一月八万不够花,李双江“赖”学校不退休,儿子改名出国后再作妖

一盅情怀
2026-05-16 20:12:47
开了28年的北京“排队王”关店,都是内斗惹的祸?

开了28年的北京“排队王”关店,都是内斗惹的祸?

蓝鲸新闻
2026-05-19 11:37:38
重庆人别大意!连续严查5个月,这些事千万别犯!

重庆人别大意!连续严查5个月,这些事千万别犯!

西莫的艺术宫殿
2026-05-18 14:33:38
惋惜?英超5大名将落选巴西世界杯名单!安帅回应:我不想要球星

惋惜?英超5大名将落选巴西世界杯名单!安帅回应:我不想要球星

我爱英超
2026-05-19 08:20:33
饮酒男子深夜3次骚扰女童,被推倒受伤后索赔36万元!法院:驳回,苛求女童父亲通过言语制止不符合常情常理

饮酒男子深夜3次骚扰女童,被推倒受伤后索赔36万元!法院:驳回,苛求女童父亲通过言语制止不符合常情常理

大风新闻
2026-05-18 20:28:06
困在蒜田里的农户

困在蒜田里的农户

新京报
2026-05-19 09:01:42
2026-05-20 04:56:49
一泽Eze
一泽Eze
AI 产品,提示工程师 ? 探索AI应用边界,寻找人与AI共处的答案
52文章数 3关注度
往期回顾 全部

科技要闻

马斯克败诉,法院判他起诉OpenAI太晚了

头条要闻

媒体:特朗普为何抛涉台"四不"说法 鲁比奥解释清楚了

头条要闻

媒体:特朗普为何抛涉台"四不"说法 鲁比奥解释清楚了

体育要闻

文班亚马:没拿到MVP,就证明自己是MVP

娱乐要闻

姚晨删博难平众怒,为什么她还能蹦哒

财经要闻

洁丽雅硬刚豪门内斗传言

汽车要闻

焕新极氪009上市41.38万起 齐家版让MPV回归家庭

态度原创

教育
家居
手机
数码
时尚

教育要闻

中考数学,-0的倒数是多少?

家居要闻

观山隐秀 心灵沉淀

手机要闻

5月最后十天,5款新机连番轰炸!从电竞旗舰到中端影像都齐了

数码要闻

谷歌推出Gemini 3.5系列模型

57岁恶女出手整治浪姐,全网拍手叫好

无障碍浏览 进入关怀版