网易首页 > 网易号 > 正文 申请入驻

幻方量化开源国内首个MoE大模型,全新架构、免费商用

0
分享至

幻方量化旗下组织深度求索发布了国内首个开源 MoE 大模型 —— DeepSeekMoE,全新架构,免费商用。

今年 4 月,幻方量化发布公告称,公司将集中资源和力量,全力投身到服务于全人类共同利益的人工智能技术之中,成立新的独立研究组织,探索 AGI 的本质。幻方将这个新组织命名为 “深度求索 (DeepSeek)”。

DeepSeekMoE 的模型、代码、论文均已同步发布。

  • 模型下载:https://huggingface.co/deepseek-ai

  • 微调代码:https://github.com/deepseek-ai/DeepSeek-MoE

  • 技术报告:https://github.com/deepseek-ai/DeepSeek-MoE/blob/main/DeepSeekMoE.pdf

据介绍,DeepSeekMoE 的多尺度(2B->16B->145B)模型效果均领先:

  • DeepSeekMoE-2B 可接近 MoE 模型的理论上限 2B Dense 模型性能(即相同 Attention/FFN 参数配比的 2B Dense 模型),仅用了 17.5% 计算量

  • DeepSeekMoE-16B 性能比肩 LLaMA2 7B 的同时,仅用了 40% 计算量,也是本次主力开源模型,40G 显存可单卡部署

  • DeepSeekMoE-145B 上的早期实验进一步证明该 MoE 架构明显领先于 Google 的 MoE 架构 GShard,仅用 28.5%(甚至 18.2%)计算量即可匹配 67B Dense 模型的性能



混合专家模型 (Mixed Expert Models,简称 MoEs) 是用于提高大语言模型效率和准确度的技术。这种方法的核心是将复杂任务划分为更小、更易管理的子任务,每个子任务由专门的小型模型或 “专家” 负责,然后根据输入数据的特性选择性地激活这些 “专家”。

MoE 核心组成:

  1. 专家 (Experts):训练有素的小型神经网络,擅长特定领域。每个专家通常专注于处理一种特定类型的数据或任务。专家的设计可以是多种形式,如完全连接的网络、卷积网络等。

  2. 门控机制 (Gating Mechanism):MoE 架构决策者,这是一个智能路由系统,负责决定哪些专家应该被激活来处理当前的输入数据。门控机制基于输入数据的特性,动态地将数据分配给不同的专家。

官方称 DeepSeekMoE 是自研的全新 MoE 框架,主要包含两大创新:

  • 细粒度专家划分:不同于传统 MoE 直接从与标准 FFN 大小相同的 N 个专家里选择激活 K 个专家(如 Mistral 7B8 采取 8 个专家选 2 专家),DeepSeekMoE 把 N 个专家粒度划分更细,在保证激活参数量不变的情况下,从 mN 个专家中选择激活 mK 个专家(如 DeepSeekMoE 16B 采取 64 个专家选 8 个专家),如此可以更加灵活地组合多个专家

  • 共享专家分离:DeepSeekMoE 把激活专家区分为共享专家(Shared Expert)和独立路由专家(Routed Expert),此举有利于将共享和通用的知识压缩进公共参数,减少独立路由专家参数之间的知识冗余


点此查看详情:https://mp.weixin.qq.com/s/T9-EGxYuHcGQgXArLXGbgg

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
破船立刻拖走!美菲万万没料到,中方这次动真格,“王牌”上阵

破船立刻拖走!美菲万万没料到,中方这次动真格,“王牌”上阵

笔墨V
2024-07-04 23:11:23
县级机构新变化:三大部门退出舞台,教育局是其中之一

县级机构新变化:三大部门退出舞台,教育局是其中之一

朗威谈星座
2024-06-26 07:05:19
欧洲杯半决赛可能停赛的球员:C罗、姆巴佩、贝林厄姆在列

欧洲杯半决赛可能停赛的球员:C罗、姆巴佩、贝林厄姆在列

懂球帝
2024-07-05 09:54:26
御姐风!太高级!要不起的感觉

御姐风!太高级!要不起的感觉

梧州生活宝
2024-05-22 23:14:03
一家三口长期吃"自制馄饨",全都确诊胰腺癌,妻子痛哭:是我错了

一家三口长期吃"自制馄饨",全都确诊胰腺癌,妻子痛哭:是我错了

阿纂历史
2024-06-26 18:49:49
“突然消失”的7种大家电,销售:跟不上时代,“白送”都没人要

“突然消失”的7种大家电,销售:跟不上时代,“白送”都没人要

装修秀
2024-07-04 14:55:32
王毅会见印度外长苏杰生:双方同意尽早就边界问题举行新一轮磋商

王毅会见印度外长苏杰生:双方同意尽早就边界问题举行新一轮磋商

新京报
2024-07-04 17:53:07
如果你70-82岁了,这12条达到8条,你就是万里挑一活得漂亮的老人

如果你70-82岁了,这12条达到8条,你就是万里挑一活得漂亮的老人

娱乐洞察点点
2024-07-04 08:51:21
勇士用1次轮就换到射手希尔德,湖媒爆料76人管湖人索要2首轮!

勇士用1次轮就换到射手希尔德,湖媒爆料76人管湖人索要2首轮!

篮球扫地僧
2024-07-05 08:38:33
开张!广东首个!像在超市买菜一样买房子

开张!广东首个!像在超市买菜一样买房子

证券时报e公司
2024-07-04 14:09:07
空置房数量确定了?专家急了,2024年起,建议做好2个准备

空置房数量确定了?专家急了,2024年起,建议做好2个准备

庞明说财经
2024-07-03 15:19:13
菲方要求中方归还冲突事件中缴获的武器,外交部:敦促菲方停止侵权挑衅

菲方要求中方归还冲突事件中缴获的武器,外交部:敦促菲方停止侵权挑衅

澎湃新闻
2024-07-04 15:44:26
税局出手了!多家企业收到税局预警提醒!会计竟这样应对,也太聪明了吧!

税局出手了!多家企业收到税局预警提醒!会计竟这样应对,也太聪明了吧!

时尚的弄潮
2024-07-05 08:11:29
温网冷门不断!7号种子退赛,大满贯3冠王完败,德约2-0,2连胜?

温网冷门不断!7号种子退赛,大满贯3冠王完败,德约2-0,2连胜?

刘姚尧的文字城堡
2024-07-04 22:30:56
中金员工跳楼后续:现场画面流出,知情人爆料,女子照被扒很漂亮

中金员工跳楼后续:现场画面流出,知情人爆料,女子照被扒很漂亮

快嘴嘚吧嘚
2024-07-04 09:31:01
没想到老年人的瓜这么多!网友的评论太炸裂,我小脑都萎缩了

没想到老年人的瓜这么多!网友的评论太炸裂,我小脑都萎缩了

夢婷
2024-01-05 12:09:08
噩耗接连降临:拜登身体迅速恶化,民主党采取紧急措施

噩耗接连降临:拜登身体迅速恶化,民主党采取紧急措施

不吃草de兔子
2024-07-03 20:05:05
事情越闹越大,俄高层爆离职潮,普京登机离国,要拉中国办2件事

事情越闹越大,俄高层爆离职潮,普京登机离国,要拉中国办2件事

说天说地说实事
2024-07-04 20:44:55
和塔利班称兄道弟的京京,还能挺多久?

和塔利班称兄道弟的京京,还能挺多久?

凡事一定有办法13119
2024-07-05 08:38:52
事实证明,“远走日本”的马云,已走上另一条人生大道

事实证明,“远走日本”的马云,已走上另一条人生大道

杨哥历史
2024-07-03 13:56:15
2024-07-05 10:52:49
开源中国
开源中国
每天为开发者推送最新技术资讯
6363文章数 34231关注度
往期回顾 全部

科技要闻

英伟达今年在华销售额预计将达120亿美元

头条要闻

牛弹琴:英国一夜变天新首相产生 对华关系或有新变化

头条要闻

牛弹琴:英国一夜变天新首相产生 对华关系或有新变化

体育要闻

我不用当体育老师了,我去踢欧洲杯了!

娱乐要闻

刘晓庆又被骂惨了,73岁还想演“妲己”

财经要闻

温州商人靠比音勒芬千元T恤年赚九亿

汽车要闻

银河E5 能否一战?

态度原创

数码
本地
游戏
健康
房产

数码要闻

14nm时代终于结束!10代酷睿全体退役 i9-12900KS也走了

本地新闻

云游中国 | 走进安塞,寻觅黄土高原文化记忆

梦幻西游新区东海龙宫玩哪个门派好?这个门派让你难以拒绝

人类为何至今无法攻克渐冻症?

房产要闻

只要6个月社保/个税!海南这个核心区域,限购大松绑!

无障碍浏览 进入关怀版