网易首页 > 网易号 > 正文 申请入驻

DeepSeek 发展历程

0
分享至

一、DeepSeek 介绍

DeepSeek 是一家由中国知名量化私募巨头幻方量化创立的人工智能公司,致力于开发高效、高性能的生成式 AI 模型。自 2023 年 7 月成立以来,DeepSeek 在短短一年多的时间里取得了显著的进展,推出了多个引人注目的开源模型,包括 DeepSeek Coder、DeepSeek LLM、DeepSeek-V2、DeepSeek-V3 和 DeepSeek-R1。

二、DeepSeek 发展历程

2023 年 7 月:DeepSeek 成立,总部位于杭州。

2023 年 11 月 2 日:发布首个开源代码大模型 DeepSeek Coder,支持多种编程语言的代码生成、调试和数据分析任务。

2023 年 11 月 29 日:推出参数规模达 670 亿的通用大模型 DeepSeek LLM,包括 7B 和 67B 的 base 及 chat 版本。

2024 年 5 月 7 日:发布第二代开源混合专家(MoE)模型 DeepSeek-V2,总参数达 2360 亿,推理成本降至每百万 token 仅 1 元人民币。

2024 年 12 月 26 日:发布 DeepSeek-V3,总参数达 6710 亿,采用创新的 MoE 架构和 FP8 混合精度训练,训练成本仅为 557.6 万美元。

2025 年 1 月 20 日:发布新一代推理模型 DeepSeek-R1,性能与 OpenAI 的 o1 正式版持平,并开源。

2025 年 1 月 26 日:DeepSeek 登顶美区 App Store 免费榜第六,超越 Google Gemini 和 Microsoft Copilot 等产品。

三、DeepSeek 原理

DeepSeek 的模型设计和训练过程采用了多项创新技术,这些技术使其在性能和效率上取得了显著的突破。

混合专家架构(MoE):

DeepSeek-V3 采用了混合专家架构,总参数达 6710 亿,但每个输入只激活 370 亿参数。这种选择性激活的方式大大降低了计算成本,同时保持了高性能。

DeepSeek-V3 的 MoE 架构通过动态冗余策略,在推理和训练过程中保持最佳的负载平衡。

多头潜在注意力(MLA):

DeepSeek-V3 引入了多头潜在注意力机制,通过低秩联合压缩机制,将 Key-Value 矩阵压缩为低维潜在向量,显著减少内存占用。

无辅助损失负载均衡:

DeepSeek-V3 采用了无辅助损失负载均衡策略,最小化了因鼓励负载均衡而导致的性能下降。

多 Token 预测(MTP):

DeepSeek-V3 采用了多 Token 预测目标,证明其对模型性能有益,并可用于推理加速。

FP8 混合精度训练:

DeepSeek-V3 设计了 FP8 混合精度训练框架,首次验证了在极大规模模型上进行 FP8 训练的可行性和有效性。

知识蒸馏:

DeepSeek-R1 通过知识蒸馏,将长链推理(CoT)模型的推理能力蒸馏到标准 LLM 中,显著提升了推理性能。

四、DeepSeek 的产品性能对比

DeepSeek-V3:在聊天机器人竞技场(Chatbot Arena)上排名第七,在开源模型中排名第一,是全球前十中性价比最高的模型。

DeepSeek-R1:在 Chatbot Arena 综合榜单上排名第三,与 OpenAI 的 o1 并列。在高难度

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
年羹尧去世后,41岁岳钟琪随即下狱处决,雍正:他在,弘历不敢继位

年羹尧去世后,41岁岳钟琪随即下狱处决,雍正:他在,弘历不敢继位

老范谈史
2026-04-23 16:26:48
首次!日本导弹将对舰艇开火!中国:历史会以相似的逻辑重现!

首次!日本导弹将对舰艇开火!中国:历史会以相似的逻辑重现!

小莜读史
2026-04-23 17:15:02
西甲4连败+国王杯丢冠!马竞留力欧冠,对决阿森纳迎终极考验!

西甲4连败+国王杯丢冠!马竞留力欧冠,对决阿森纳迎终极考验!

田先生篮球
2026-04-23 13:34:16
史上最大!奔驰全新 GLC 登场,新一代 S 级同步亮相

史上最大!奔驰全新 GLC 登场,新一代 S 级同步亮相

爱范儿
2026-04-23 23:16:25
注意!5月1日起全面严查,这8种行为直接入刑,普通人千万别大意

注意!5月1日起全面严查,这8种行为直接入刑,普通人千万别大意

芳姐侃社会
2026-04-23 17:24:10
特朗普儿媳抖家族猛料:伊万卡爱提建议,公公喜欢半夜打电话

特朗普儿媳抖家族猛料:伊万卡爱提建议,公公喜欢半夜打电话

像梦一场a
2026-04-23 22:48:46
古力娜扎:真空上阵是放飞自我还是资本博弈?

古力娜扎:真空上阵是放飞自我还是资本博弈?

娱乐领航家
2026-04-02 21:00:03
比哲凯赖什还水?阿森纳砸了3.2亿,却养出一个“新卡尔斯特伦”

比哲凯赖什还水?阿森纳砸了3.2亿,却养出一个“新卡尔斯特伦”

澜归序
2026-04-24 03:48:51
失踪足足5天后,美军终于承认:价值16亿的最强无人机在中东没了

失踪足足5天后,美军终于承认:价值16亿的最强无人机在中东没了

起喜电影
2026-04-23 14:23:40
施压中方让步?日代表团强求访华,中国“4箭齐发”,抗议也无效

施压中方让步?日代表团强求访华,中国“4箭齐发”,抗议也无效

牛锅巴小钒
2026-04-23 18:16:56
成都警方通报“小区天降菜刀事件”:无人员受伤 现已抓获嫌疑人

成都警方通报“小区天降菜刀事件”:无人员受伤 现已抓获嫌疑人

封面新闻
2026-04-23 17:08:02
太意外了!萨姆纳被取消注册赛季报销,杜锋踩场亲自指导拉科融入

太意外了!萨姆纳被取消注册赛季报销,杜锋踩场亲自指导拉科融入

篮球资讯达人
2026-04-24 10:49:39
劳务派遣在央国企杀疯了!

劳务派遣在央国企杀疯了!

灯锦年
2026-04-21 17:56:52
痛心!湖北一派出所所长因公牺牲,年仅45岁

痛心!湖北一派出所所长因公牺牲,年仅45岁

极目新闻
2026-04-23 13:43:56
1959年黄克诚提议:炮击金门的炮弹太费钱,省点用,主席笑骂抠门

1959年黄克诚提议:炮击金门的炮弹太费钱,省点用,主席笑骂抠门

春秋砚
2026-04-24 10:55:11
粟裕包围胡琏主力,毛主席急电:快撤!这是陷阱!粟裕大赞高明

粟裕包围胡琏主力,毛主席急电:快撤!这是陷阱!粟裕大赞高明

史之铭
2026-04-24 11:56:23
广东女大学生被骗缅甸,对方威胁不给钱就轮奸,家人凑20万却无果

广东女大学生被骗缅甸,对方威胁不给钱就轮奸,家人凑20万却无果

娱乐团长
2026-04-24 10:14:00
王志文安排好后事仅4月,担心事发生,私生活被扒,王宝强拒和解

王志文安排好后事仅4月,担心事发生,私生活被扒,王宝强拒和解

白面书誏
2026-04-16 18:04:33
克林顿女儿3小时40分完赛波士顿马拉松,父母亲自到场颁奖!

克林顿女儿3小时40分完赛波士顿马拉松,父母亲自到场颁奖!

马拉松跑步健身
2026-04-23 22:06:33
为鼓励大学毕业生回炉读技校,北京推出全日制大学生技师班

为鼓励大学毕业生回炉读技校,北京推出全日制大学生技师班

映射生活的身影
2026-04-21 12:57:40
2026-04-24 14:04:49
经纬视界观 incentive-icons
经纬视界观
经济地理爱好者。
641文章数 21关注度
往期回顾 全部

科技要闻

刚刚,DeepSeek-V4 预览版发布 百万上下文

头条要闻

华谊兄弟被申请破产:曾坐拥百位明星 如今还不起千万

头条要闻

华谊兄弟被申请破产:曾坐拥百位明星 如今还不起千万

体育要闻

里程碑之战拖后腿,哈登18分8失误

娱乐要闻

王思聪被绿!恋爱期间女友被金主包养

财经要闻

19家企业要"铝代铜",格力偏不

汽车要闻

全景iDrive 续航近800km 新款宝马7系/i7亮相

态度原创

本地
房产
旅游
公开课
军事航空

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

房产要闻

三亚安居房,突然官宣!

旅游要闻

“经典IP+特色文化”擦亮文旅金字招牌 特色品牌旅游专列圈粉国内外游客

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美伊陷入互相封锁僵局

无障碍浏览 进入关怀版