网易首页 > 网易号 > 正文 申请入驻

跑分性能比肩GPT-4o?大模型价格“屠夫”DeepSeek发布最新开源模型

0
分享至

蓝鲸新闻6月18日讯(记者 朱俊熹)在火热的大模型竞赛中,比拼性能已不再是一件新鲜事。随着技术迭代的加速,几乎每隔一段时间就能看到又一代更新版的AI大模型,挂上“比肩GPT-4”的名号。

6月17日,AI公司深度求索(DeepSeek)正式上线开源模型DeepSeek-Coder-V2。据DeepSeek介绍,该模型在代码、数学的多个榜单上位居全球第二,介于最强闭源模型 GPT-4o和GPT-4-Turbo之间。

此外,DeepSeek-Coder-V2开源大模型还具有良好的通用性能,在中英通用能力上位列国内第一梯队。DeepSeek表示,该模型沿用了上一代DeepSeek-V2模型的创新架构,具有2360亿总参数,但处理每个token时只需激活210亿参数,不仅能够减少内存使用,也能提高计算效率。

DeepSeek最新的开源模型支持32K上下文,并延续了此前的定价,每百万tokens输入价格为1元、输出价格为2元。DeepSeek此前率先拉低大模型定价,随后字节跳动、阿里云、百度等行业巨头加入低价队列,引发国内大模型价格战。

为了彰显性能排名的权威性,各企业在发布大模型时通常会附上评测榜单,其中涵盖了不同的评测集。评测集就像是AI大模型的考卷,用来测试其在各类任务和场景下的表现,但考察的侧重点会有所不同。通过给大模型打分,可以直观地对比它们的性能高低。

具体而言,在评估大模型代码生成能力的HumanEval评测集上,DeepSeek新推出的开源模型得分为90.2,仅次于分数为91.0的GPT-4o。在数学算数领域,GSM8K是由OpenAI发布的大模型数学推理能力评测基准,DeepSeek-Coder-V2模型的该项得分为94.9,同样超过了众多开闭源模型。

但是在通用能力的评测上,以目前使用最多的MMLU评测集为例,DeepSeek-Coder-V2模型的得分为79.2,与GPT-4仍有一定差距,也不及其他几家开源模型。阿里云在6月初发布的开源模型Qwen2-72B获得82.3的分数,而Meta的Llama3-70B模型为80.2。

DeepSeek表示,虽然DeepSeek-Coder-V2较前一代模型的综合得分更高,但两个模型在实际应用中各有所长,“DeepSeek-V2是文科生,DeepSeek-Coder-V2是理科生,精通的技能点不同”。最新发布的大模型更擅长代码编程、数学计算和逻辑推理,而上一代模型则在文本创作、任务规划等方面表现更优。

当地时间6月14日,“AI卖铲人”英伟达宣布开源Nemotron-4 340B(3400亿参数)系列模型。据称该模型的表现超过了一众开源竞争对手,包括Llama3-70B、Qwen2-72B、法国创企Mistral AI的Mixtral-8x22B等,甚至能够与闭源模型GPT-4o相媲美。

图片来源:英伟达

Nemotron-4 340B系列包括了基础模型Base、指令对齐模型Instruct和奖励模型Reward。其中,Base模型在ARC-c、Winogrande等评估大语言模型常识推理能力的基准测试中获得了较高分数,表现确实优于其他开源模型。Reward模型则是在此基础上进一步优化得到的,能够通过反馈输出更符合人类预期的高质量结果,在专门用于评估奖励模型的基准测试RewardBench中获得92.0的最高分数,远超得分为84.7的GPT-4o。

英伟达称,这三类模型形成了一个管道,能够生成高质量的合成数据,用于大语言模型的训练中。在指令对齐模型Instruct的训练过程中,英伟达就使用了超过98%的合成数据。合成数据也被认为是解决大模型训练“数据荒”的有效手段之一。

至少目前来看,此轮AI浪潮的最大受益者仍然是英伟达。当地时间6月17日,英伟达市值曾一度赶超苹果,距排名第一的微软仅差100亿美元。截至收盘,英伟达市值达3.22万亿美元,为全球市值第三大公司。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
即将官宣!利物浦新帅基本确定是他!

即将官宣!利物浦新帅基本确定是他!

乌龙球OwnGoal
2026-06-02 17:28:45
又一日系车,回归了

又一日系车,回归了

放毒
2026-06-02 18:49:49
CBA总冠军鼎正式抵达杭州!

CBA总冠军鼎正式抵达杭州!

体育哲人
2026-06-01 22:26:36
她是王洪文亲信,曾任上海市委书记,1982年被判了17年

她是王洪文亲信,曾任上海市委书记,1982年被判了17年

鉴史录
2026-06-02 15:15:51
成人网红邦妮自曝恶心计划:6月办尿淋派对,粉丝可尿她发生关系

成人网红邦妮自曝恶心计划:6月办尿淋派对,粉丝可尿她发生关系

赴一场山海啊
2026-06-01 00:27:25
你曾经开过最烂的车是哪款车?网友:这个车0到100加速,少说30秒

你曾经开过最烂的车是哪款车?网友:这个车0到100加速,少说30秒

另子维爱读史
2026-05-28 08:01:14
他出车祸了?目前在接受治疗…

他出车祸了?目前在接受治疗…

奋斗在韩国
2026-06-01 14:09:43
震惊!一高考家长要物业驱夜鸟,网友:温度高,是否把太阳射下来

震惊!一高考家长要物业驱夜鸟,网友:温度高,是否把太阳射下来

火山詩话
2026-06-02 15:21:11
梁靖崑谈世乒赛逆转张本智和:我一直都没喊,他在这瞎忙活

梁靖崑谈世乒赛逆转张本智和:我一直都没喊,他在这瞎忙活

懂球帝
2026-06-02 17:17:07
赛豆汽车正式成立,首款车曝光!

赛豆汽车正式成立,首款车曝光!

电动内参
2026-06-01 23:51:46
马斯克变性“女儿”拍内衣广告!

马斯克变性“女儿”拍内衣广告!

喜欢历史的阿繁
2026-06-02 21:25:22
6月2日A股猛料:高层发表重要文章!一类股或成为6月行情领头羊!

6月2日A股猛料:高层发表重要文章!一类股或成为6月行情领头羊!

丁丁鲤史纪
2026-06-02 10:16:21
厂商们的刀法,终究还是对准了充电头。。。

厂商们的刀法,终究还是对准了充电头。。。

差评XPIN
2026-06-01 00:08:04
普京也无能为力:世界第二空军,为何拿不下乌克兰的天空

普京也无能为力:世界第二空军,为何拿不下乌克兰的天空

民间胡扯老哥
2026-06-01 06:07:10
3800亿龙头,涨停!“光还是那个光”

3800亿龙头,涨停!“光还是那个光”

新浪财经
2026-06-02 16:11:11
暴跌83%!娃哈哈的“情绪泡沫”终于破了

暴跌83%!娃哈哈的“情绪泡沫”终于破了

ZAKER新闻
2026-06-02 19:36:10
11-0开局险遭逆转!单局8-21惨败,梁王组合1-2世界第19遭一轮游

11-0开局险遭逆转!单局8-21惨败,梁王组合1-2世界第19遭一轮游

钉钉陌上花开
2026-06-02 18:24:42
德天空:菲利佩没欧足联教练证书,摩纳哥愿每场为他支付罚款

德天空:菲利佩没欧足联教练证书,摩纳哥愿每场为他支付罚款

懂球帝
2026-06-02 18:53:21
二辽篮前功勋主力联手轰37+9+6无可挑剔!上海8分惜败3大原因曝光

二辽篮前功勋主力联手轰37+9+6无可挑剔!上海8分惜败3大原因曝光

君马体育
2026-06-02 21:52:31
他汀药有7种,只有一种不影响血糖,早知道早收益!

他汀药有7种,只有一种不影响血糖,早知道早收益!

药师方健
2026-05-31 22:45:44
2026-06-02 22:19:00
蓝鲸新闻 incentive-icons
蓝鲸新闻
财经信息服务平台
133373文章数 193927关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

准新小区数百户业主自筹1750万改造外立面 系杭州首例

头条要闻

准新小区数百户业主自筹1750万改造外立面 系杭州首例

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

本地
旅游
时尚
手机
公开课

本地新闻

用剪纸的方式,打开江苏扬州

旅游要闻

稻城亚丁景区弯道占比超八成,游客建议“接驳车合理收费”……记者实探→

推广|| 入夏第一双鞋买得好成功!暴走1w步、搭遍小裙子

手机要闻

爆苹果iPhone Ultra敲定本月量产!定价破万,你真考虑好入手了?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版