网易首页 > 网易号 > 正文 申请入驻

腾讯开源Hunyuan-Large,3890亿参数,全球最大开源MoE模型

0
分享至


腾讯今天开源了混元模型——Hunyuan-Large(Hunyuan-MoE-A52B),是目前业界开源的基于Transformer的最大MoE模型,共拥有3890亿个参数,520亿个活跃参数。

技术报告:https://arxiv.org/pdf/2411.02265

模型技术优势介绍

  • 高质量合成数据:通过使用合成数据增强训练,Hunyuan-Large 可以学习更丰富的表示,处理长上下文输入,并更好地推广到看不见的数据。


  • KV 缓存压缩:利用分组查询注意(GQA)和跨层注意(CLA)策略显著减少 KV 缓存的内存使用量和计算开销,提高推理吞吐量。


  • 专家特定的学习率缩放:为不同的专家设置不同的学习率,以确保每个子模型有效地从数据中学习并有助于整体性能。


  • 长上下文处理能力:预训练模型支持高达256K的文本序列,Instruct模型支持高达128K,显著增强了处理长上下文任务的能力。

  • 广泛的基准测试:在多种语言和任务上进行大量实验,验证Hunyuan-Large的实用有效性和安全性。


基准评估

与具有相似激活参数大小的 Dense 和 MoE 竞争对手相比, Hunyuan-Large 预训练模型取得了最佳整体性能。

对于 MMLU、MMLU-Pro 和 CMMLU 等聚合基准,Hunyuan-Large 始终取得最佳性能,证实了其在聚合任务上的综合能力。

Hunyuan-Large 在常识理解和推理以及经典 NLP 任务(例如 QA 和阅读理解任务,例如 CommonsenseQA、PIQA 和 TriviaQA)中也表现出色。

对于数学能力,Hunyuan-Large 在 GSM8K 和 MATH 数学数据集上的表现优于所有基线,并且在中文 CMATH 上也获得了最佳结果。Hunyuan-Large 在所有中文任务(例如 CMMLU、C-Eval)中取得了整体最佳性能。

与具有类似激活参数的 LLM 相比,Hunyuan-Large-Instruct在大多数类型的任务上都实现了持续改进,表明了后训练的有效性。

深入研究不同类别基准测试中的模型性能,instruct 模型在 MMLU 和 MATH 数据集上取得了最佳性能。

值得注意的是,在 MMLU 数据集上,模型表现出显着的改进,比 LLama3.1-405B 模型高出 2.6%。

这种增强不仅仅是微不足道的,而是表明 Hunyuan-Large-Instruct 在广泛的语言理解任务中具有出色的理解和推理能力。该模型在 MATH 数据集上的表现进一步凸显了其实力,它比 LLama3.1-405B 明显高出 3.6%。


值得注意的是,这种准确度的飞跃仅通过 520 亿个激活参数就实现了,凸显了模型的效率。

PS:腾讯还开源了一个3D生成大模型。

| |

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
洲际导弹的回应来了

洲际导弹的回应来了

那山星火
2024-11-22 07:51:45
印度冷知识:印度人发明了6项改变世界的发明,你知道几个?

印度冷知识:印度人发明了6项改变世界的发明,你知道几个?

七号说三国
2024-11-17 18:18:53
1972年,战场上美国士兵一把扯下越南女兵的裤子,撩起她的上衣…

1972年,战场上美国士兵一把扯下越南女兵的裤子,撩起她的上衣…

百态人间
2024-11-06 16:36:27
解放军抵达当晚,巴基斯坦全面出兵,宣战俾路支恐怖分子

解放军抵达当晚,巴基斯坦全面出兵,宣战俾路支恐怖分子

知鉴明史
2024-11-22 21:07:40
这次,“被扒光底裤”的王雷,彻底颠覆了大众对他的“固有认知”

这次,“被扒光底裤”的王雷,彻底颠覆了大众对他的“固有认知”

老鹈爱历史
2024-11-22 14:20:52
北京的雪要来了!下周雪后大风降温

北京的雪要来了!下周雪后大风降温

鲁中晨报
2024-11-23 15:12:04
反转!梅西将缺席巴萨庆典:拉波尔塔计划泡汤,3年5次吃瘪

反转!梅西将缺席巴萨庆典:拉波尔塔计划泡汤,3年5次吃瘪

叶青足球世界
2024-11-23 10:07:27
美国众议院将废除DEI法案,原因何在?

美国众议院将废除DEI法案,原因何在?

手工制作阿歼
2024-11-23 20:54:55
盘点林彪麾下十大猛将,排名不分先后,谁才是你心中最敬佩的人

盘点林彪麾下十大猛将,排名不分先后,谁才是你心中最敬佩的人

芳芳历史烩
2024-11-17 13:06:05
港媒:香港2024年度勋衔颁授典礼今日举行,共502人获颁授勋衔及嘉奖

港媒:香港2024年度勋衔颁授典礼今日举行,共502人获颁授勋衔及嘉奖

环球网资讯
2024-11-23 16:24:39
一高管花25万欧元,在希腊办理买房移民,半年后懵了

一高管花25万欧元,在希腊办理买房移民,半年后懵了

老黄有话
2024-09-24 08:00:03
这张照片捕捉了一个历史性的瞬间,带我们回到了20世纪60年代

这张照片捕捉了一个历史性的瞬间,带我们回到了20世纪60年代

洞鉴历史
2024-11-22 12:55:03
深圳社区食堂开始“内卷”,网友:也太幸福了吧

深圳社区食堂开始“内卷”,网友:也太幸福了吧

暖心的小屋
2024-11-23 22:47:20
行得正坐得端!王宝强工作室澄清一亿诈骗,多位艺人戳破背后真相

行得正坐得端!王宝强工作室澄清一亿诈骗,多位艺人戳破背后真相

探寻者
2024-11-22 15:32:26
审计出手!严查药械采购,涉大批医院、经销商

审计出手!严查药械采购,涉大批医院、经销商

医疗器械经销商联盟
2024-11-23 18:48:33
四川又一名酒倒下,曾经是全国销量冠军,如今却连名字都没法留住

四川又一名酒倒下,曾经是全国销量冠军,如今却连名字都没法留住

江湖一碗酒
2024-11-18 08:10:05
普京真可能动用核武?美国发出危险警报,美军航母紧急驶离!

普京真可能动用核武?美国发出危险警报,美军航母紧急驶离!

智凌纵横
2024-11-22 18:02:34
内娱最大的笑话,一个连“金鸡奖”都没拿过的演员,归来竟是评委

内娱最大的笑话,一个连“金鸡奖”都没拿过的演员,归来竟是评委

火之文
2024-11-21 14:32:03
第一次性生活有多痛?进不去怎么办

第一次性生活有多痛?进不去怎么办

喜马拉雅主播暮霭
2024-06-12 09:53:49
连续三轮获奖,朱利亚诺-西蒙尼当选马竞vs阿拉维斯全场最佳

连续三轮获奖,朱利亚诺-西蒙尼当选马竞vs阿拉维斯全场最佳

懂球帝
2024-11-24 01:43:16
2024-11-24 02:07:00
猜想笔记
猜想笔记
公众号同名。
92文章数 2关注度
往期回顾 全部

科技要闻

华为徐直军首谈鸿蒙生态是什么

头条要闻

拜登政府常务副国务卿放话:我们在努力"拆散"中俄

头条要闻

拜登政府常务副国务卿放话:我们在努力"拆散"中俄

体育要闻

那个"最惨背景帝" 41岁还是五大联赛主力

娱乐要闻

德云社人事大变动!烧饼担任副总

财经要闻

钟睒睒的“愤怒”,谁能消解?

汽车要闻

对话张纯伟:80万!捷途立了一个新Flag

态度原创

健康
本地
艺术
手机
房产

花18万治疗阿尔茨海默病,值不值?

本地新闻

云游中国 | 拒绝特种兵!北方也有“真江南”

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

手机要闻

华为Mate70系列再次被确认:散热革新、影像突破,鸿蒙也有好消息

房产要闻

丁村迎来大动作!首宗、百亩城更宅地挂出!楼面价2367元/㎡!

无障碍浏览 进入关怀版