DeepSeek-V3深夜惊爆上新！代码数学飙升剑指GPT-5，一台Mac可跑|编程|mac|云计算费用|deepseek

DeepSeek-V3深夜惊爆上新！代码数学飙升剑指GPT-5，一台Mac可跑

2025-03-25 09:02:55　来源: 新智元

北京举报

分享至

新智元报道

编辑：编辑部

【新智元导读】685B的DeepSeek-V3新版本，就在昨夜悄悄上线了。参数量685B的V3，代码数学推理再次显著提升，甚至代码追平Claude 3.7，网友们实测后大呼强到离谱！有人预测说，按照此前的节奏，DeepSeek-R2大概率几周内就将上线。

昨晚，DeepSeek-V3悄然升级！

新模型版本为DeepSeek-V3-0324，参数量为6850亿，相较上个版本参数增幅不大（6710亿）。

从发布时间和技术特点来看，DeepSeek-V3-0324，很可能是DeepSeek-R2的基础架构。

所以按照DeepSeek一贯的产品发布节奏（先推出基础模型，几周后再发布专门的推理增强版）来看，DeepSeek-R2很可能在几周后就将上线！

升级后的V3在代码、数学推理能力上，得到显著提升。尤其是代码领域，不少网友直呼「眼前一亮」。

相较于上一版，从一个球在超立方体弹跳的Python脚本，即可看出V3代码性能的改善。

甚至，它还能解锁Claude 3.7 Sonnet很多玩法，代码可以与之正面较量。

值得一提的是，DeepSeek V3另一大亮点在于采用MIT开源协议，上个版本还是自定义许可证。

这不仅可以自由修改、分发模型，还支持模型蒸馏、商业化应用。

模型文件总计641GB，主要以model-00035-of-000163.safetensors形式存在

685B虽大，但也能在消费级设备上跑起来。

这不，苹果机器学习工程师Awni Hannun就基于MLX框架和4-bit量化，在512GB M3 Ultra实现了超过20 token/s的运行速度。

这种量化方式直接将模型的磁盘占用空间减少到352GB。

有M3 Ultra的童鞋们，可以按照下面的方式使用llm-mlx跑起来：

llm mlx download-model mlx-community/DeepSeek-V3-0324-4bit
llm chat -m mlx-community/DeepSeek-V3-0324-4bit

若是本地跑不了的朋友，除了官网之外，还可以在OpenRouter上体验。

体验地址：openrouter.ai/chat?models=deepseek/deepseek-chat-v3-0324:free

相比起某些会在发布前数月就开始大肆宣传造势的O和A开头的AI公司，DeepSeek这种低调办大事的风格可谓是天壤之别。

没有白皮书，没有博客文章，只有一个空白的README文件和模型权重本身——上线即可直接可以下载使用。

新版V3代码能力飙升，追平Claude 3.7

遗憾的是，DeepSeek尚未公布新版模型的系统卡，暂时无法窥探更多技术细节。

官方小助手的更新提示

不过，这并未阻挡全网对新模型的热情，已有机构、网友纷纷对V3展开通用能力、代码、数学等多维度的测评。

根据网友Xeophon的自测，DeepSeek-V3-0324所有指标性能暴涨，击败了Claude 3.5 Sonnet，成为目前最强的非推理模型。

就代码能力来看，DeepSeek-V3-0324同样能够与Claude 3.5 Sonnet一决高下。

另外，在Aider的多语言基准测试中，DeepSeek-V3-0324拿下55%成绩，较前代版本显著提升，成为仅次于Sonnet 3.7的非推理类模型第二名。

其表现已可媲美R1和o3-mini等具备推理能力的模型。

网友「karminski-牙医」还带来了全网最速的代码实测，新模型直接干翻了DeepSeek R1，与Claude 3.7相匹敌。

在 KCORES大模型竞技场中，Claude-3.7-Sonnet-Thinking无疑是LLM当之无愧的王者，DeepSeek-V3-0324以328.3分拿下第三名，仅次于Claude 3.5 Sonnet。

他还展开了四项评测，20个小球碰撞测试，上个版本结果挤成一团，DeepSeek-V3-0324在物理模拟上表现更好。

在mandelbrot-set-meet-libai测试中，DeepSeek-V3-0324没有过多变化，较初版仅仅低了2分，完成度提升很高。

还有火星任务测试中，DeepSeek-V3-0324星球渲染正确，所有模型中位列第三。

九大行星测试，DeepSeek-V3-0324真正绘制出了太阳系的完整图。

此外，DeepSeek-V3-0324在Misguided Attention基准上，跃居非推理类模型榜首，甚至超越了Claude Sonnet 3.7（非推理模型）。

令人惊讶的是，它现在能解决一些此前只有推理模型才能处理的提示，比如「4升水壶问题」。

V3-0324似乎学会了识别推理循环，并跳出循环——这种能力甚至是许多专业推理模型都不具备的。

颜色越深代表特定提示的正确响应次数越多

接下来，看看DeepSeek-V3-0324在多项实测中的具体表现如何。

网友实测，一个提示即出网页

网友「Deepanshu Sharma」表示，更新后的DeepSeek-V3-0324简直「强的过分了」。

他用这个新模型一气呵成创建了一个新网站，编写了800多行代码，一次都没有出错！

「看到这些厉害的开源模型不断给大公司施加压力，迫使他们以低成本构建更好的模型，真是太棒了！」Deepanshu写道。

网友「Risphere」体验完新的DeepSeek-V3-0324后表示，其在编码方面已经与Claude 3.7 Sonnet处于同一水平上了。

要知道，Claude模型一直以来都是公认的代码能力最强的模型。

不仅如此，Risphere甚至认为DeepSeek-V3-0324在前端开发方面超越了o1-pro和GPT-4.5！

要知道，o1-pro可是需要付费200美元每月的ChatGPT Pro会员才可以体验的模型。

Petri Kuittinen体验完DeepSeek-V3-0324后认为，「Anthropic和OpenAI遇上麻烦了！」。

他使用了一段非常简短的提示词就制作出了一个精美的响应式网页，提示词如下：

Create a great-looking responsive front page for AI company. Include everything in one HTML5 file.

为AI公司创建一个看起来很棒的响应式首页。将所有内容包含在一个HTML5文件中。

Petri认为，DeepSeek-V3-0324是在前端编程上也优于DeepSeek-R1。

他完成的这个网站共有958行代码，包括所有图像，而且也适合手机上观看。

左右滑动查看

不只是编程问题，数学竞赛也难不倒它。

数学博士、奥赛金牌得主Jasper用AIME 2025中的题目测试了一下DeepSeek-V3-0324，它顺利解决了。

Jasper表示，他现在对开源AI模型最终获胜更有信心了！

编码智能体Cline的速度很快，第一时间更新了DeepSeek-V3-0324。

他们还给出了使用的理由，DeepSeek-V3-0324在编码任务上性能与Claude 3.7 Sonnet不相上下，价格却低了53倍。

不止如此，Cline还表示，DeepSeek-V3-0324较之前的版本增加了60%的专家（从160增加到256），使用了FP8精度训练将计算效率翻倍，不仅使前端编码能力增强，数学与逻辑能力也有所提升。

DeepSeek注定改变全球AI格局

这次DeepSeek-V3的突然上线，节奏也与过去他们在圣诞节期间发布V3、几周后推出R1的模式完全吻合。

本来，业界就一直传闻R2将在4月亮相，V3的上线基本吹响了R2的前奏。

先进开源推理模型的影响，已经不必多说了。如果它们能免费提供，那原本只有财力雄厚的大型机构才能获得的高级AI系统，会变得人人可用。

而如果DeepSeek-R2能延续R1的发展路线，但它很可能会直接单挑OpenAI捂着的大炸弹GPT-5。这就让OpenAI靠封闭生态和雄厚资金支持带来的垄断，被彻底打破。

当OpenAI和Anthropic还在为模型设置付费访问限制时，DeepSeek已经实现了封闭模型无法达到的爆发式创新。

而中美AI差异，已经日渐缩小，全球AI格局已被重塑。几个月前，大部分分析师估计，中国在AI能力上落后美国1-2年，今天这一差距已经缩小至3-6个月，甚至呈现中国领先的趋势。

而开源的方式，甚至还解决了中国公司的特殊挑战（受限于英伟达先进芯片），因为更注重在算力有限的情况下达到有竞争力的性能，现在这已成为中国企业的潜在优势。

就像Android系统一样，凭着广泛的普及性和数千开发者的集体创新，DeepSeek很可能最终超越封闭系统。

谁将通过AI拥有对世界最大的影响力？让我们拭目以待。

参考资料： HNYZ

https://venturebeat.com/ai/deepseek-v3-now-runs-at-20-tokens-per-second-on-mac-studio-and-thats-a-nightmare-for-openai/

https://x.com/TheXeophon/status/1904225899957936314

https://x.com/cline/status/1904275590678786545

https://x.com/karminski3/status/1904212084306653648

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

汽车要闻

手机 / 数码

房产 / 家居

DeepSeek-V3深夜惊爆上新！代码数学飙升剑指GPT-5，一台Mac可跑

台积电3纳米下半年涨价15% 明年或再涨10%

广西10名零工掉江遇难：15人挤1辆皮卡 有1家3人身亡

广西10名零工掉江遇难：15人挤1辆皮卡 有1家3人身亡

这群老阿姨，是最硬核的马刺球迷

曝大嫂冒充七七同学，林俊杰删掉合照

一线调查丨燃油车“甩卖”也难卖

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

丑到离谱的牛马鞋，新中产抢疯了

这次苦等5年！树莓派6最早也要到2028年才发布

@所有家长，这些地方全是孩子溺水高发地，很多就在我们身边！

蚂蚁新总部封顶了！大圆环到底有啥魔力

以军称已打死哈马斯新任军事领导人

广西10名零工掉江遇难：15人挤1辆皮卡有1家3人身亡

广西10名零工掉江遇难：15人挤1辆皮卡有1家3人身亡