网易首页 > 网易号 > 正文 申请入驻

腾讯开源Hunyuan-Large,3890亿参数,全球最大开源MoE模型

0
分享至

腾讯今天开源了混元模型——Hunyuan-Large(Hunyuan-MoE-A52B),是目前业界开源的基于Transformer的最大MoE模型,共拥有3890亿个参数,520亿个活跃参数。

技术报告:https://arxiv.org/pdf/2411.02265

模型技术优势介绍

  • 高质量合成数据:通过使用合成数据增强训练,Hunyuan-Large 可以学习更丰富的表示,处理长上下文输入,并更好地推广到看不见的数据。

  • KV 缓存压缩:利用分组查询注意(GQA)和跨层注意(CLA)策略显著减少 KV 缓存的内存使用量和计算开销,提高推理吞吐量。

  • 专家特定的学习率缩放:为不同的专家设置不同的学习率,以确保每个子模型有效地从数据中学习并有助于整体性能。

  • 长上下文处理能力:预训练模型支持高达256K的文本序列,Instruct模型支持高达128K,显著增强了处理长上下文任务的能力。

  • 广泛的基准测试:在多种语言和任务上进行大量实验,验证Hunyuan-Large的实用有效性和安全性。

基准评估

与具有相似激活参数大小的 Dense 和 MoE 竞争对手相比, Hunyuan-Large 预训练模型取得了最佳整体性能。

对于 MMLU、MMLU-Pro 和 CMMLU 等聚合基准,Hunyuan-Large 始终取得最佳性能,证实了其在聚合任务上的综合能力。

Hunyuan-Large 在常识理解和推理以及经典 NLP 任务(例如 QA 和阅读理解任务,例如 CommonsenseQA、PIQA 和 TriviaQA)中也表现出色。

对于数学能力,Hunyuan-Large 在 GSM8K 和 MATH 数学数据集上的表现优于所有基线,并且在中文 CMATH 上也获得了最佳结果。Hunyuan-Large 在所有中文任务(例如 CMMLU、C-Eval)中取得了整体最佳性能。

与具有类似激活参数的 LLM 相比,Hunyuan-Large-Instruct在大多数类型的任务上都实现了持续改进,表明了后训练的有效性。

深入研究不同类别基准测试中的模型性能,instruct 模型在 MMLU 和 MATH 数据集上取得了最佳性能。

值得注意的是,在 MMLU 数据集上,模型表现出显着的改进,比 LLama3.1-405B 模型高出 2.6%。

这种增强不仅仅是微不足道的,而是表明 Hunyuan-Large-Instruct 在广泛的语言理解任务中具有出色的理解和推理能力。该模型在 MATH 数据集上的表现进一步凸显了其实力,它比 LLama3.1-405B 明显高出 3.6%。

值得注意的是,这种准确度的飞跃仅通过 520 亿个激活参数就实现了,凸显了模型的效率。

PS:腾讯还开源了一个3D生成大模型。

| |

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
殷世航爆料童锦程收入,两个项目月入500万,现在存款至少1亿

殷世航爆料童锦程收入,两个项目月入500万,现在存款至少1亿

新游戏大妹子
2026-05-28 11:09:05
炼出来一堆废铁:1958年全民大炼钢铁,究竟炼掉了什么?

炼出来一堆废铁:1958年全民大炼钢铁,究竟炼掉了什么?

浪子说
2026-05-28 00:05:03
武契奇访华画上句号,登机回国前,终于讲出实话,中塞在美国谈妥

武契奇访华画上句号,登机回国前,终于讲出实话,中塞在美国谈妥

影孖看世界
2026-05-28 23:54:29
杭州女子征婚:不要彩礼,能提供5分钟夫妻生活,每月给男人3000

杭州女子征婚:不要彩礼,能提供5分钟夫妻生活,每月给男人3000

谭谈社会
2026-05-28 18:34:27
中方4问强势回击:你要挑战中美元首会晤共识?

中方4问强势回击:你要挑战中美元首会晤共识?

看看新闻Knews
2026-05-28 18:44:18
绝命抢断+读秒三分绝杀!古德温31+11又成上海之王 布朗空砍50分

绝命抢断+读秒三分绝杀!古德温31+11又成上海之王 布朗空砍50分

颜小白的篮球梦
2026-05-28 21:39:44
荷兰军官:我们进入南海,遇到了解放军,他们没说这里是他们领土

荷兰军官:我们进入南海,遇到了解放军,他们没说这里是他们领土

阿龙聊军事
2026-05-28 15:58:13
重磅!伊朗发射弹道导弹,美军:已拦截,伊方无端侵略!伊朗最高领袖发声:美以试图制造分裂、瓦解伊朗

重磅!伊朗发射弹道导弹,美军:已拦截,伊方无端侵略!伊朗最高领袖发声:美以试图制造分裂、瓦解伊朗

每日经济新闻
2026-05-28 21:33:14
荷兰军官侃侃而谈:中国早就发现我们进入南海,看了一眼就走了!

荷兰军官侃侃而谈:中国早就发现我们进入南海,看了一眼就走了!

阿龙聊军事
2026-05-28 16:05:55
余承东吹爆问界M9,称其“地球最强”,评论区一点面子都不给!

余承东吹爆问界M9,称其“地球最强”,评论区一点面子都不给!

谭谈社会
2026-05-28 16:21:33
邵佳一遭质疑!国足名单最大争议:联赛垫底队3人入选,第二却0人

邵佳一遭质疑!国足名单最大争议:联赛垫底队3人入选,第二却0人

侃球熊弟
2026-05-28 18:44:34
耿同学公开最新4篇疑造假论文,涉及多位院士候选人、杰青、长江学者!不再“举报”

耿同学公开最新4篇疑造假论文,涉及多位院士候选人、杰青、长江学者!不再“举报”

高分子科学前沿
2026-05-28 21:18:01
57岁大妈做饭爱加蚝油,2年后去医院体检,医生疑惑平时咋吃的?

57岁大妈做饭爱加蚝油,2年后去医院体检,医生疑惑平时咋吃的?

芹姐说生活
2026-05-27 22:40:29
曝央行要求大型国有银行5月加大放贷力度,但若不解决消费,是治标不治本

曝央行要求大型国有银行5月加大放贷力度,但若不解决消费,是治标不治本

爆角追踪
2026-05-28 17:07:33
奥达,确认遇袭身亡

奥达,确认遇袭身亡

第一财经资讯
2026-05-27 20:03:35
涉嫌严重违纪违法,李志刚被查

涉嫌严重违纪违法,李志刚被查

中国基金报
2026-05-28 21:35:33
全网封杀已注定?林志玲风波升级,国台办回应,以后难在大陆捞金

全网封杀已注定?林志玲风波升级,国台办回应,以后难在大陆捞金

君笙的拂兮
2026-05-27 23:59:18
141名中国乘客飞美国,飞机降落时突然坠毁,起飞前一名美国官员悄悄改签了航班

141名中国乘客飞美国,飞机降落时突然坠毁,起飞前一名美国官员悄悄改签了航班

明德阅读
2026-05-27 19:39:40
卢比奥怒呛拉夫罗夫,特朗普团队对俄罗斯渐趋强硬

卢比奥怒呛拉夫罗夫,特朗普团队对俄罗斯渐趋强硬

高博新视野
2026-05-28 19:49:07
“8个孩子,没一个拿得出手!”农村父亲晒7儿1女,遭到网友群嘲

“8个孩子,没一个拿得出手!”农村父亲晒7儿1女,遭到网友群嘲

妍妍教育日记
2026-05-28 20:32:42
2026-05-29 05:15:00
猜想笔记 incentive-icons
猜想笔记
公众号同名。
142文章数 4关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

男子疑遭家暴跳楼身亡 母亲:儿媳说"你不配活在世上"

头条要闻

男子疑遭家暴跳楼身亡 母亲:儿媳说"你不配活在世上"

体育要闻

唐斯经历的一切,此刻的他与尼克斯

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

小米仍需一次创业

汽车要闻

从智驾兜底到自研4nm芯片,再到迪迪虾,比亚迪智能化战略凭什么封神?

态度原创

时尚
手机
亲子
游戏
公开课

光脚、背“外卖盒”、羽毛头饰...早春秀谁赢了?

手机要闻

红米K100 Pro Max与荣耀Magic9标准版,均传出新消息!

亲子要闻

《灸童说:中医药成语故事》悬壶济世

《女神异闻录6》泄露主角太丑?金毛男主太路人!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版