网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

腾讯开源Hunyuan-Large，3890亿参数，全球最大开源MoE模型

2024-11-05 15:46:14　来源: 猜想笔记

北京举报

0

分享至

腾讯今天开源了混元模型——Hunyuan-Large（Hunyuan-MoE-A52B），是目前业界开源的基于Transformer的最大MoE模型，共拥有3890亿个参数，520亿个活跃参数。

技术报告：https://arxiv.org/pdf/2411.02265

模型技术优势介绍

高质量合成数据：通过使用合成数据增强训练，Hunyuan-Large 可以学习更丰富的表示，处理长上下文输入，并更好地推广到看不见的数据。

KV 缓存压缩：利用分组查询注意（GQA）和跨层注意（CLA）策略显著减少 KV 缓存的内存使用量和计算开销，提高推理吞吐量。

专家特定的学习率缩放：为不同的专家设置不同的学习率，以确保每个子模型有效地从数据中学习并有助于整体性能。

长上下文处理能力：预训练模型支持高达256K的文本序列，Instruct模型支持高达128K，显著增强了处理长上下文任务的能力。
广泛的基准测试：在多种语言和任务上进行大量实验，验证Hunyuan-Large的实用有效性和安全性。

基准评估

与具有相似激活参数大小的 Dense 和 MoE 竞争对手相比， Hunyuan-Large 预训练模型取得了最佳整体性能。

对于 MMLU、MMLU-Pro 和 CMMLU 等聚合基准，Hunyuan-Large 始终取得最佳性能，证实了其在聚合任务上的综合能力。

Hunyuan-Large 在常识理解和推理以及经典 NLP 任务（例如 QA 和阅读理解任务，例如 CommonsenseQA、PIQA 和 TriviaQA）中也表现出色。

对于数学能力，Hunyuan-Large 在 GSM8K 和 MATH 数学数据集上的表现优于所有基线，并且在中文 CMATH 上也获得了最佳结果。Hunyuan-Large 在所有中文任务（例如 CMMLU、C-Eval）中取得了整体最佳性能。

与具有类似激活参数的 LLM 相比，Hunyuan-Large-Instruct在大多数类型的任务上都实现了持续改进，表明了后训练的有效性。

深入研究不同类别基准测试中的模型性能，instruct 模型在 MMLU 和 MATH 数据集上取得了最佳性能。

值得注意的是，在 MMLU 数据集上，模型表现出显着的改进，比 LLama3.1-405B 模型高出 2.6%。

这种增强不仅仅是微不足道的，而是表明 Hunyuan-Large-Instruct 在广泛的语言理解任务中具有出色的理解和推理能力。该模型在 MATH 数据集上的表现进一步凸显了其实力，它比 LLama3.1-405B 明显高出 3.6%。

值得注意的是，这种准确度的飞跃仅通过 520 亿个激活参数就实现了，凸显了模型的效率。

PS：腾讯还开源了一个3D生成大模型。

| |

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet实测来了

量子位 2024-12-31 13:27:37
9 跟贴 9
上交为参数微调打造统一框架，即便资源受限也能提升大模型能力

DeepTech深科技 2024-12-17 16:46:36
0 跟贴 0

手把手教你设计引物（图文并茂）

生物学霸 2024-12-18 18:31:55
1 跟贴 1

手把手教你绘制细胞（下）

生物学霸 2024-12-14 17:33:14
0 跟贴 0
ViT作者飞机上也要读的改进版Transformer论文，花2小时详细解读

量子位 2024-12-31 16:44:44
5 跟贴 5

长视频危局，谁将被挤下牌桌？

新熵 2025-01-02 20:51:20
1 跟贴 1

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

机器之心Pro 2024-11-06 16:33:15
1 跟贴 1
中国005航母模型曝光，将采用独特技术，性能赶超美国福特级

小伍看视界 2025-01-01 13:55:44
1 跟贴 1

南信大腾讯实验班毕业去向引热议：无人入腾讯，实际就业率仅7%？

趣笔谈 2025-01-02 20:28:49
0 跟贴 0
腾讯《荒野起源》发来新年日历机械玛卡生物超可爱！

游民星空 2025-01-01 19:03:29
5 跟贴 5
腾讯2025校园大使全球招募正式启动！

实习僧 2025-01-02 17:41:47
0 跟贴 0
序列“铁原阻击战”：扭转朝鲜战争态势的关键之战

木棉小历史 2025-01-02 09:20:33
0 跟贴 0
车主为了过年审，更改轮胎上的参数，网友：办法总比困难多

德阳头条 2025-01-02 14:45:13
5 跟贴 5
"网约护士"服务流行：1单收费二三百有人4年接3000单

金羊网 2025-01-02 07:06:43
11369 跟贴 11369
揭秘DeepSeek-V3“物美价廉”的背后：蒸馏技术存在天花板，依赖合成数据训练有风险

每日经济新闻 2024-12-31 21:25:05
395 跟贴 395
泽连斯基：切断向欧洲输送俄气是莫斯科最大失败之一

财联社 2025-01-02 08:58:05
7027 跟贴 7027
媒体：在六代机领域美国无疑"起了个大早赶了个晚集"

澎湃新闻 2025-01-02 10:03:49
9181 跟贴 9181
乌军到底损失多少人？最新数据来了，比公布的多了几十倍

社会人物专业解读 2025-01-01 20:48:48
0 跟贴 0
4o-mini只有8B，o1也才300B！微软论文意外曝光GPT核心机密

量子位 2025-01-02 11:01:12
11 跟贴 11
A股：今天，2025年第一个交易日，市场再度跳水意味着什么？

明心 2025-01-02 11:35:06
3245 跟贴 3245
牛弹琴：新的一年中日"老冤家"突然看对眼了

现代快报 2025-01-02 09:05:27
168 跟贴 168
春节机票价格暴跌！网友：赶紧安排！

环球网 2025-01-02 11:27:13
7775 跟贴 7775
网传昆山一家企业被迫解散！按工龄补偿，网友：看得我热泪盈眶

火山诗话 2025-01-02 14:39:42
854 跟贴 854
Anthropic总结智能体年度经验：最成功的≠最复杂的

机器之心Pro 2024-12-31 14:45:35
5 跟贴 5
第一个100%开源的MoE大模型，7B的参数，1B的推理成本

机器之心Pro 2024-09-05 10:30:36
0 跟贴 0
日本长崎燃放世界最大的烟花庆祝新年炸开后把夜空照亮

老梁说事 2025-01-02 00:03:22
4958 跟贴 4958
A股惨遭开门黑之后！“央妈”出手紧急出手“呵护”，第二轮互换便利操作落地，550亿元“杠杆”资金来了，明天A股稳了？

金融界 2025-01-02 18:19:41
194 跟贴 194
六代机不是首飞，是量产机型的首飞，机身涂的是战斗序列的灰色

全局观 2025-01-01 09:46:03
0 跟贴 0
卫星照片显示，福建舰已经弹射舰载机

三叔的装备空间 2025-01-02 18:19:30
11 跟贴 11
工人熏制失误致1000多斤香肠腊味被烧毁百万粉丝女老板：损失四五万没找工人赔

红星新闻 2025-01-02 15:52:17
682 跟贴 682
RAC1：巴萨确认明天将恢复1:1&西甲将同意，奥尔莫能完成注册

懂球帝 2025-01-02 20:04:39
16 跟贴 16
2024 大模型年度五问：等不来GPT 5怎么过？

钛媒体APP 2025-01-02 19:01:54
0 跟贴 0
男子开车被轮椅超车时速突破50码看懵司机

小火柴视频 2025-01-02 11:34:29
2045 跟贴 2045
经济数据新出炉，2025对年轻人意味着什么？

叶檀财经 2025-01-02 17:08:24
0 跟贴 0
由霍金的“黑洞无毛定理”，来定义宇宙当中的四种黑洞

心中的麦田 2025-01-02 20:42:59
0 跟贴 0
特朗普和马斯克即将开撕？《福布斯》2025年AI十大预测

智东西 2025-01-02 21:33:56
0 跟贴 0
李殿勋任湖北省副省长、代理省长

北京日报客户端 2025-01-02 18:01:09
7 跟贴 7
新型战舰曝光？朝鲜提出“最强硬”对美战略

上观新闻 2025-01-02 00:34:09
1647 跟贴 1647
揭秘！高考志愿填报，如何一击必中？“冲、稳、保”策略全解析！

小文纪实录 2025-01-01 07:59:23
0 跟贴 0
选定猎物后，它们会先制定好策略，以便在发动攻击后拦住猎物

逗笑怎么肥四 2024-12-30 20:56:57
0 跟贴 0

中方警告在先，美菲没听进去，解放军果断“应战”，海空兵力齐出

中方警告在先，美菲没听进去，解放军果断“应战”，海空兵力齐出

空天力量

2025-01-02 07:56:34

女子香港花近400万买15平米，晚上睡衣柜顶，客厅宽敞还有大阳台

女子香港花近400万买15平米，晚上睡衣柜顶，客厅宽敞还有大阳台

哄动一时啊

2024-12-27 19:30:03

乌克兰以创纪录的预算盈余进入新的一年

乌克兰以创纪录的预算盈余进入新的一年

桂系007

2025-01-02 00:03:49

铁饭碗被打碎！国务院强调：所有国企明年必须全面实施新退出机制

铁饭碗被打碎！国务院强调：所有国企明年必须全面实施新退出机制

吾爱纪实

2024-09-28 13:36:18

2024年世界十大驱逐舰排名：日本2艘，韩国第2，中国排名意外

2024年世界十大驱逐舰排名：日本2艘，韩国第2，中国排名意外

南南史

2025-01-02 17:43:27

上海这里将导入10万人！租金翻倍，一房难求？几十年没回家的本地人赶来“找机会”，创业者着急想摆摊

上海这里将导入10万人！租金翻倍，一房难求？几十年没回家的本地人赶来“找机会”，创业者着急想摆摊

上观新闻

2025-01-02 12:46:36

美工业大摸底，摸到中国锅炉里中国自己都不知道还有多少隐藏王炸

美工业大摸底，摸到中国锅炉里中国自己都不知道还有多少隐藏王炸

南南史

2025-01-02 17:37:02

真探｜深圳市公安局南山分局公众号被禁止关注？辟谣：“南山警察”公众号与南山分局无关

真探｜深圳市公安局南山分局公众号被禁止关注？辟谣：“南山警察”公众号与南山分局无关

红星新闻

2025-01-02 19:11:13

见证历史！最暖一年！成都接下来天气……

见证历史！最暖一年！成都接下来天气……

锦绣青羊

2025-01-02 14:44:20

殴打事件反转？赵露思与前老板冲突内幕被揭，两人都被对方整抑郁

殴打事件反转？赵露思与前老板冲突内幕被揭，两人都被对方整抑郁

八卦宝宝

2025-01-02 06:22:57

张仲麟：如果这个推断成立，韩国空难很可能指向一个可怕的结论

张仲麟：如果这个推断成立，韩国空难很可能指向一个可怕的结论

小果趣味体育

2025-01-02 04:20:57

前火箭冠军成员：联盟一直不喜欢休斯敦他们对白色细狗情有独钟

前火箭冠军成员：联盟一直不喜欢休斯敦他们对白色细狗情有独钟

直播吧

2025-01-02 09:07:11

天塌了！43跌到1块再一字跌停58万手封单，没走的股民全被一锅端

天塌了！43跌到1块再一字跌停58万手封单，没走的股民全被一锅端

八百者也

2025-01-02 12:23:09

网上有些混蛋总说自己是父母养大的，不是国家养大的

网上有些混蛋总说自己是父母养大的，不是国家养大的

铁山学者

2024-10-13 12:43:01

罗德里回击C罗：他知道如何选出获奖者！同一批记者曾为他投票

罗德里回击C罗：他知道如何选出获奖者！同一批记者曾为他投票

奥拜尔

2025-01-02 14:51:23

爆笑散步搞笑笑话，一朋友晚饭后散步，街边偶遇一女搭讪说！

爆笑散步搞笑笑话，一朋友晚饭后散步，街边偶遇一女搭讪说！

天天明星

2025-01-01 21:44:37

南航空姐一张不堪入目的“不雅照”曝光：女孩，你的底线在哪？

南航空姐一张不堪入目的“不雅照”曝光：女孩，你的底线在哪？

史行途

2025-01-02 15:54:33

用3至5年时间彻底解决！为兑现承诺，新疆党政“一把手”在这三地调研

用3至5年时间彻底解决！为兑现承诺，新疆党政“一把手”在这三地调研

政知新媒体

2025-01-02 21:43:52

故事：曹德旺败诉后怒怼审判长：别以为我不清楚你私下收了200万

故事：曹德旺败诉后怒怼审判长：别以为我不清楚你私下收了200万

兰姐说故事

2024-12-29 00:00:03

癌症的源头终于找到了，癌症最爱这9种食物，别再喂养癌细胞了！

癌症的源头终于找到了，癌症最爱这9种食物，别再喂养癌细胞了！

肿瘤科王红军

2024-10-01 09:38:31

公众号同名。

107文章数 2关注度

往期回顾全部

科技要闻

苹果新机频频促销在华已连续5季度下滑

头条要闻

韩国空难机长遇难前伸手细节被拍下

头条要闻

韩国空难机长遇难前伸手细节被拍下

体育要闻

迈克·布朗，背锅侠的自我修养

娱乐要闻

张颂文要凉？家暴、假慈善，人设崩塌

财经要闻

证监会:"1月15号前释放全部利空"是谣言

汽车要闻

10万元级无图智驾悦也PLUS全路况实测

态度原创

艺术

时尚

教育

本地

军事航空

艺术要闻

故宫珍藏的墨迹《十七帖》，比拓本更精良，这才是地道的魏晋写法

终于轮到蛇系赛道上桌了

教育要闻

鲁迅小学教育集团党委书记叶燕芬：以“甘为孺子牛”的精神引导教师争当“立人”先行者

本地新闻

云游中国｜冰雪“祁”缘照进现实，谁懂多震撼

军事要闻

美国汽车撞人事件嫌疑人曾是陆军IT专员

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版