网易首页 > 网易号 > 正文 申请入驻

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

0
分享至

还没等到官宣,Deepseek-v3竟意外曝光了?!



据Reddit网友爆料,v3已在API和网页上发布,一些榜单跑分也新鲜出炉。



在Aider多语言编程测试排行榜中,Deepseek-v3一举超越Claude 3.5 Sonnet,排在第1位的o1之后。

(相比Deepseek-v2.5,完成率从17.8%大幅上涨至48.4%。)



且在LiveBench测评中,它是当前最强开源LLM,并在非推理模型中仅次于gemini-exp-1206,排在第二。



目前Hugging Face上已经有了Deepseek-v3(Base)的开源权重,只不过还没上传模型介绍卡片。



综合网上多方爆料来看,Deepseek-v3相比前代v2、v2.5有了极大提升——

与v2、v2.5配置对比

首先,Deepseek-v3基本配置如下:

  • 采用685B参数的MoE架构;
  • 包含256个专家,使用sigmoid函数作为路由方式,每次选取前8个专家 (Top-k=8);
  • 支持64K上下文,默认支持4K,最长支持8K上下文;
  • 约60个tokens/s;

BTW,在Aider测评中击败Claude 3.5 Sonnet的还是Instruct版本(该版本目前未发布)。



为了进一步了解Deepseek-v3的升级程度,机器学习爱好者Vaibhav (VB) Srivastav(以下简称瓦哥)还深入研究了配置文件,并总结出v3与v2、v2.5的关键区别

v2(今年5月6日官宣开源)比较的结果,经AI整理成表格如下:



可以看出,v3几乎是v2的放大版,在每一项参数上均有较大提升。

而且瓦哥重点指出了模型结构的三个关键变化

第一,在MOE结构中,v3使用了sigmoid作为门控函数,取代了v2中的softmax函数。这允许模型在更大的专家集合上进行选择,而不像softmax函数倾向于将输入分配给少数几个专家。

第二,v3引入了一个新的Top-k选择方法noaux_tc,它不需要辅助损失。

简单理解,MoE模型通常需要一个辅助损失来帮助训练,主要用于更好地学习如何选择Top-k个最相关的专家来处理每个输入样本。

而新方法能在不依赖辅助损失的情况下,直接通过主要任务的损失函数来有效地选择Top-k个专家。这有助于简化训练过程并提高训练效率。

对了,为便于理解,瓦哥用DeepSeek逐步解释了这一方法。

这是一种基于群体的专家选择算法,通过将专家划分为不同的小组,并在每个小组内部选择最优秀的k名专家。



第三,v3增加了一个新参数e_score_correction_bias,用于调整专家评分,从而在专家选择或模型训练过程中获得更好的性能。



此外,v3与v2.5(本月10日官宣开源)的比较也出炉了,后者主要支持联网搜索功能,相比v2全面提升了各项能力。



同样经AI整理成表格如下:



具体而言,v3在配置上超越了v2.5,包括更多的专家数量、更大的中间层尺寸,以及每个token的专家数量。

看完上述结果,瓦哥连连表示,明年有机会一定要见见中国的开源团队。(doge)



网友实测Deepseek-v3

关于v3的实际表现,另一独立开发者Simon Willison(Web开发框架Django的创始人之一)也在第一时间上手测试了。

比如先来个自报家门。

我是DeepSeek-V3,基于OpenAI的GPT-4架构……





再考考图像生成能力,生成一张鹈鹕骑自行车的SVG图。



最终图形be like:



对了,在另一网友的测试中,Deepseek-v3也回答自己来自OpenAI??



该网友推测,这可能是因为在训练时使用了OpenAI模型的回复。



不过不管怎样,还未正式官宣的Deepseek-v3已在LiveBench坐上最强开源LLM宝座,在一些网友心中,这比只搞期货的OpenAI遥遥领先。(手动狗头)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不到24小时,口碑大崩!观众怒问:“为什么要安排摸胸做春梦?”

不到24小时,口碑大崩!观众怒问:“为什么要安排摸胸做春梦?”

阿凫爱吐槽
2024-12-28 14:52:56
正式逮捕!迄今为止中国体坛最大官职,刘国梁蔡振华深受其害

正式逮捕!迄今为止中国体坛最大官职,刘国梁蔡振华深受其害

禾寒叙
2024-12-28 14:45:02
普通人活到几岁算是长寿?医生:别太贪心,活到这个岁数就很幸福

普通人活到几岁算是长寿?医生:别太贪心,活到这个岁数就很幸福

逍遥史记
2024-12-28 16:21:09
郭富城台湾演唱会发生意外,工作人员上台急救,经纪人回应了

郭富城台湾演唱会发生意外,工作人员上台急救,经纪人回应了

壹周娱
2024-12-28 00:02:16
自导自演!博主“影子不会说谎”等35人被抓,曾称“发现民宿针孔摄像头后被围堵”

自导自演!博主“影子不会说谎”等35人被抓,曾称“发现民宿针孔摄像头后被围堵”

新京报
2024-12-28 08:12:33
案件:上海一女教授在家养病长达8年,物业报警后,真相令人唏嘘

案件:上海一女教授在家养病长达8年,物业报警后,真相令人唏嘘

荔枝人物记
2024-12-28 15:26:59
宋江戴宗李逵一顿饭——牛肉,羊肉,鲜鱼,却代表了三个阶层

宋江戴宗李逵一顿饭——牛肉,羊肉,鲜鱼,却代表了三个阶层

河山历史
2024-12-27 19:45:06
老婆坐月子岳母送200个鸡蛋,我妈拿100个给我姐,差点毁了我的家

老婆坐月子岳母送200个鸡蛋,我妈拿100个给我姐,差点毁了我的家

秋雅聊爱情
2024-12-27 14:39:14
社会大哥的绰号有多反差?

社会大哥的绰号有多反差?

不相及研究所
2024-12-27 22:15:16
判若两人!东契奇的体重变化简直太离谱,就跟换了个人一样!

判若两人!东契奇的体重变化简直太离谱,就跟换了个人一样!

田先生篮球
2024-12-27 21:14:23
尚斌,破格提拔升正厅

尚斌,破格提拔升正厅

鲁中晨报
2024-12-28 10:05:03
发车!广州地铁十一号线正式开通运营

发车!广州地铁十一号线正式开通运营

FM96.2广州新闻电台
2024-12-28 14:29:22
六代机竞争还没开始就结束了,第二岛链游戏也结束了

六代机竞争还没开始就结束了,第二岛链游戏也结束了

社会人物专业解读
2024-12-28 14:15:16
我国首台,成功点火!

我国首台,成功点火!

鲁中晨报
2024-12-27 22:51:04
美国首批1亿立方米液化气成功运抵乌克兰

美国首批1亿立方米液化气成功运抵乌克兰

清滨酒客
2024-12-28 01:52:42
赵露思病因曝光!疑患神经系统病,无法站立行走,父亲紧急回应

赵露思病因曝光!疑患神经系统病,无法站立行走,父亲紧急回应

花小萌和你聊情感
2024-12-28 11:36:12
A股:不用再猜了!下周周一,大盘将迎来欢天喜地的跳空大阳线!

A股:不用再猜了!下周周一,大盘将迎来欢天喜地的跳空大阳线!

一丛深色花儿
2024-12-28 11:35:02
12月27日乒坛劲爆消息,中日韩5大名将发声,宣布10大决定、目标

12月27日乒坛劲爆消息,中日韩5大名将发声,宣布10大决定、目标

知轩体育
2024-12-27 22:37:53
格凌兰如果同意出售,美国出多少钱合适,1946年已经给出具体金额

格凌兰如果同意出售,美国出多少钱合适,1946年已经给出具体金额

碳基生物关怀组织
2024-12-26 18:35:14
周末打虎!周家斌被查

周末打虎!周家斌被查

新京报政事儿
2024-12-28 10:10:28
2024-12-28 17:11:00
量子位 incentive-icons
量子位
追踪人工智能动态
9836文章数 175810关注度
往期回顾 全部

科技要闻

特朗普要求,暂停执行TikTok强制出售令

头条要闻

金价今年一年创40次新高 杭州有人一次性变现958万元

头条要闻

金价今年一年创40次新高 杭州有人一次性变现958万元

体育要闻

C罗:曼联问题不在于教练

娱乐要闻

突发!赵薇官宣离婚,与黄有龙已分开多年

财经要闻

谁是中国第一工业?谁在支撑就业?

汽车要闻

长安启源C798内饰官图发布 配备副驾零重力座椅

态度原创

时尚
教育
旅游
亲子
本地

“半身裙”才是冬天的百搭单品,这些搭配好高级,优雅大方还显瘦

教育要闻

私立高中三年花销真不少!一位家长列出费用清单,在网络吐槽

旅游要闻

刘亦菲打卡冰封黄玫瑰 哈尔滨文旅:玫瑰遇见玫瑰

亲子要闻

男子教三岁女儿骑自行车,这方法几分钟就学会了。

本地新闻

好吃潮州|尝一口,这里的美食有点“潮”

无障碍浏览 进入关怀版