网易首页 > 网易号 > 正文 申请入驻

腾讯开源Hunyuan-Large,3890亿参数,全球最大开源MoE模型

0
分享至


腾讯今天开源了混元模型——Hunyuan-Large(Hunyuan-MoE-A52B),是目前业界开源的基于Transformer的最大MoE模型,共拥有3890亿个参数,520亿个活跃参数。

技术报告:https://arxiv.org/pdf/2411.02265

模型技术优势介绍

  • 高质量合成数据:通过使用合成数据增强训练,Hunyuan-Large 可以学习更丰富的表示,处理长上下文输入,并更好地推广到看不见的数据。


  • KV 缓存压缩:利用分组查询注意(GQA)和跨层注意(CLA)策略显著减少 KV 缓存的内存使用量和计算开销,提高推理吞吐量。


  • 专家特定的学习率缩放:为不同的专家设置不同的学习率,以确保每个子模型有效地从数据中学习并有助于整体性能。


  • 长上下文处理能力:预训练模型支持高达256K的文本序列,Instruct模型支持高达128K,显著增强了处理长上下文任务的能力。

  • 广泛的基准测试:在多种语言和任务上进行大量实验,验证Hunyuan-Large的实用有效性和安全性。


基准评估

与具有相似激活参数大小的 Dense 和 MoE 竞争对手相比, Hunyuan-Large 预训练模型取得了最佳整体性能。

对于 MMLU、MMLU-Pro 和 CMMLU 等聚合基准,Hunyuan-Large 始终取得最佳性能,证实了其在聚合任务上的综合能力。

Hunyuan-Large 在常识理解和推理以及经典 NLP 任务(例如 QA 和阅读理解任务,例如 CommonsenseQA、PIQA 和 TriviaQA)中也表现出色。

对于数学能力,Hunyuan-Large 在 GSM8K 和 MATH 数学数据集上的表现优于所有基线,并且在中文 CMATH 上也获得了最佳结果。Hunyuan-Large 在所有中文任务(例如 CMMLU、C-Eval)中取得了整体最佳性能。

与具有类似激活参数的 LLM 相比,Hunyuan-Large-Instruct在大多数类型的任务上都实现了持续改进,表明了后训练的有效性。

深入研究不同类别基准测试中的模型性能,instruct 模型在 MMLU 和 MATH 数据集上取得了最佳性能。

值得注意的是,在 MMLU 数据集上,模型表现出显着的改进,比 LLama3.1-405B 模型高出 2.6%。

这种增强不仅仅是微不足道的,而是表明 Hunyuan-Large-Instruct 在广泛的语言理解任务中具有出色的理解和推理能力。该模型在 MATH 数据集上的表现进一步凸显了其实力,它比 LLama3.1-405B 明显高出 3.6%。


值得注意的是,这种准确度的飞跃仅通过 520 亿个激活参数就实现了,凸显了模型的效率。

PS:腾讯还开源了一个3D生成大模型。

| |

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方警告在先,美菲没听进去,解放军果断“应战”,海空兵力齐出

中方警告在先,美菲没听进去,解放军果断“应战”,海空兵力齐出

空天力量
2025-01-02 07:56:34
女子香港花近400万买15平米,晚上睡衣柜顶,客厅宽敞还有大阳台

女子香港花近400万买15平米,晚上睡衣柜顶,客厅宽敞还有大阳台

哄动一时啊
2024-12-27 19:30:03
乌克兰以创纪录的预算盈余进入新的一年

乌克兰以创纪录的预算盈余进入新的一年

桂系007
2025-01-02 00:03:49
铁饭碗被打碎!国务院强调:所有国企明年必须全面实施新退出机制

铁饭碗被打碎!国务院强调:所有国企明年必须全面实施新退出机制

吾爱纪实
2024-09-28 13:36:18
2024年世界十大驱逐舰排名:日本2艘,韩国第2,中国排名意外

2024年世界十大驱逐舰排名:日本2艘,韩国第2,中国排名意外

南南史
2025-01-02 17:43:27
上海这里将导入10万人!租金翻倍,一房难求?几十年没回家的本地人赶来“找机会”,创业者着急想摆摊

上海这里将导入10万人!租金翻倍,一房难求?几十年没回家的本地人赶来“找机会”,创业者着急想摆摊

上观新闻
2025-01-02 12:46:36
美工业大摸底,摸到中国锅炉里中国自己都不知道还有多少隐藏王炸

美工业大摸底,摸到中国锅炉里中国自己都不知道还有多少隐藏王炸

南南史
2025-01-02 17:37:02
真探|深圳市公安局南山分局公众号被禁止关注?辟谣:“南山警察”公众号与南山分局无关

真探|深圳市公安局南山分局公众号被禁止关注?辟谣:“南山警察”公众号与南山分局无关

红星新闻
2025-01-02 19:11:13
见证历史!最暖一年!成都接下来天气……

见证历史!最暖一年!成都接下来天气……

锦绣青羊
2025-01-02 14:44:20
殴打事件反转?赵露思与前老板冲突内幕被揭,两人都被对方整抑郁

殴打事件反转?赵露思与前老板冲突内幕被揭,两人都被对方整抑郁

八卦宝宝
2025-01-02 06:22:57
张仲麟:如果这个推断成立,韩国空难很可能指向一个可怕的结论

张仲麟:如果这个推断成立,韩国空难很可能指向一个可怕的结论

小果趣味体育
2025-01-02 04:20:57
前火箭冠军成员:联盟一直不喜欢休斯敦 他们对白色细狗情有独钟

前火箭冠军成员:联盟一直不喜欢休斯敦 他们对白色细狗情有独钟

直播吧
2025-01-02 09:07:11
天塌了!43跌到1块再一字跌停58万手封单,没走的股民全被一锅端

天塌了!43跌到1块再一字跌停58万手封单,没走的股民全被一锅端

八百者也
2025-01-02 12:23:09
网上有些混蛋总说自己是父母养大的,不是国家养大的

网上有些混蛋总说自己是父母养大的,不是国家养大的

铁山学者
2024-10-13 12:43:01
罗德里回击C罗:他知道如何选出获奖者!同一批记者曾为他投票

罗德里回击C罗:他知道如何选出获奖者!同一批记者曾为他投票

奥拜尔
2025-01-02 14:51:23
爆笑散步搞笑笑话,一朋友晚饭后散步,街边偶遇一女搭讪说!

爆笑散步搞笑笑话,一朋友晚饭后散步,街边偶遇一女搭讪说!

天天明星
2025-01-01 21:44:37
南航空姐一张不堪入目的“不雅照”曝光:女孩,你的底线在哪?

南航空姐一张不堪入目的“不雅照”曝光:女孩,你的底线在哪?

史行途
2025-01-02 15:54:33
用3至5年时间彻底解决!为兑现承诺,新疆党政“一把手”在这三地调研

用3至5年时间彻底解决!为兑现承诺,新疆党政“一把手”在这三地调研

政知新媒体
2025-01-02 21:43:52
故事:曹德旺败诉后怒怼审判长:别以为我不清楚你私下收了200万

故事:曹德旺败诉后怒怼审判长:别以为我不清楚你私下收了200万

兰姐说故事
2024-12-29 00:00:03
癌症的源头终于找到了,癌症最爱这9种食物,别再喂养癌细胞了!

癌症的源头终于找到了,癌症最爱这9种食物,别再喂养癌细胞了!

肿瘤科王红军
2024-10-01 09:38:31
2025-01-02 23:48:49
猜想笔记 incentive-icons
猜想笔记
公众号同名。
107文章数 2关注度
往期回顾 全部

科技要闻

苹果新机频频促销 在华已连续5季度下滑

头条要闻

韩国空难机长遇难前伸手细节被拍下

头条要闻

韩国空难机长遇难前伸手细节被拍下

体育要闻

迈克·布朗,背锅侠的自我修养

娱乐要闻

张颂文要凉?家暴、假慈善,人设崩塌

财经要闻

证监会:"1月15号前释放全部利空"是谣言

汽车要闻

10万元级无图智驾 悦也PLUS全路况实测

态度原创

艺术
时尚
教育
本地
军事航空

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

终于轮到蛇系赛道上桌了

教育要闻

鲁迅小学教育集团党委书记叶燕芬:以“甘为孺子牛”的精神引导教师争当“立人”先行者

本地新闻

云游中国|冰雪“祁”缘照进现实,谁懂多震撼

军事要闻

美国汽车撞人事件嫌疑人曾是陆军IT专员

无障碍浏览 进入关怀版