腾讯混元康战辉：将开源大模型训练代码，但数据开源意义不大|算法

腾讯混元康战辉：将开源大模型训练代码，但数据开源意义不大

2024-11-09 13:34:20　来源: AI前线

北京举报

分享至

11 月 5 日，腾讯混元宣布最新的 MoE 模型“混元 Large“以及混元 3D 生成大模型“ Hunyuan3D-1.0”正式开源，支持企业及开发者精调、部署等不同场景的使用需求，且免费可商用。

其中，腾讯混元 Large 是目前开源领域参数规模最大、效果最好的 MoE 模型，而腾讯混元 3D 生成大模型则是业界首个同时支持文字、图像生成 3D 的开源大模型。目前，两个模型均已经在腾讯业务场景中落地应用，经过实践的检验，是面向实用场景的应用级大模型。

“现在开源真的一点不晚”

在腾讯机器学习平台总监、腾讯混元大语言模型算法负责人康战辉看来，去年大模型如火如荼，开源也是百花齐放，但如今来看，还是各归各位。“底层模型不是 C 端产品，不存在入口、流量，这个我们可以沉下心来长期深耕，所以现在开源真的一点不晚。”

腾讯混元这次开源的 Large 模型总参数量 389B，激活参数量 52B ，上下文长度高达 256K。根据公开测评结果，腾讯混元 Large 在 CMMLU、MMLU、CEval、MATH 等多学科综合评测集以及中英文 NLP 任务、代码和数学等 9 大维度全面领先，超过 Llama3.1、Mixtral 等一流的开源大模型。

腾讯混元 Large 在各类测试集上得分领先现有主流开源模型

官网地址：https://llm.hunyuan.tencent.com/

Github 地址：https://github.com/Tencent/Tencent-Hunyuan-Large

Hugging Face 地址：https://huggingface.co/tencent/Tencent-Hunyuan-Large

在模型结构和训练策略方面，腾讯混元 Large 全面探索了 MoE ScalingLaw，进行了 MoE 共享专家路由、回收路由等策略上的创新，并引入了专家特化的学习率适配训练策略，有效提升不同专家利用率和稳定性，带来模型效果的提升。

面对 SFT 通用领域繁多，数学、代码高质量指令数据获取困难等问题，腾讯混元 Large 模型分门别类提升数学、逻辑推理、代码等能力，另外在一阶段离线 DPO 的基础上引入了二阶段在线强化策略。

数据方面，腾讯混元 Large 构建了覆盖数十个类目，高质量、高多样性、大量级的中英文合成数据。针对长文领域测评数据集缺乏，方法不够客观等问题，腾讯混元 Large 还基于公开数据，构建了一套完整覆盖长文阅读理解、多文档摘要总结、长文逻辑推理等领域任务的数据集企鹅卷轴（PenguinScrolls），并将对外开放。

目前，腾讯混元开源了模型的参数权重，不涉及到数据和代码，未来会逐渐把训练代码开源。

康战辉表示，大模型开源数据本身意义没有那么大，因为大模型不是软件，大模型大量靠数据驱动，但是开源数据规模太大，本身很难被大家共建，这不是写一行代码就能共建起来的。“大模型的普遍训练都是几万亿 tokens 级别，业界很难把它维护起来做进一步的挖掘，所以对于大模型，大家作为一个获益者比较容易。”

这次，腾讯混元选择了先开源大规模参数的模型、后开源小参数模型。康战辉表示，腾讯大模型的研发路径就是从大到小，而开源更多是把业务应用核心的、同源同宗的东西拿出来，腾讯后续会开源一些小的模型出来。

康战辉介绍，腾讯做开源是长期战略，腾讯大模型做了一年多没有着急去开源，重要的原因就是开源的应该是自然而然的发展。

对于开源模型和闭源模型的选择，康战辉表示，一些较大企业的业务比较复杂，对于超级复杂的业务可能需要闭源大模型才能解决，比如腾讯旗舰模型混元 turbo，当然成本摊下来更大。而开源模型面对的则是不同的开发者，尤其是大量的中小企业，包括个人开发者。随着成本和受众的增加，开源的模型会相对小一些。”

“但是不管怎么选型，开源怎么样的模型，都是同宗同源的。”康战辉强调，“我们要考虑客户在哪里，才会有不同模型的选型。我们做了大量的探索，可以做到超大万亿级的，那我们做几千亿的、几百亿的、几十亿的不在话下。

与之前“先有具体的业务场景再考虑基础设施、算法模型选择”的运作方式不同，在大模型时代，混元团队是先定了一个长期 AGI 目标，预设它要具备什么能力，然后进行研发。比如它需要语言能力、视觉能力、听觉能力、行动能力等，又如还需要个人记忆检索、思考能力，还要有复杂的多阶段学习能力、长期任务能力等，这是一个难度大、周期长的研发过程，对标的就是人类的规划、探索等能力。

这种情况下，未来两年三年的时间是比较好规划的，但这个路线怎么走，各家可能并不一样。“腾讯走了 MoE 路线，这个我们走得很早。别人可能没有做，可能做了三个月发现坑太多。我们再卷高性价比、比架构，不如赶紧把目标做出来。”康战辉说道。

“3D 生成大模型是必要的”

此次，腾讯混元开源的 3D 生成大模型 Hunyuan3D-1.0 ，则解决了现有的 3D 生成模型在生成速度和泛化能力上存在不足的问题。

“从腾讯自身业务出发看，做 3D 生成是极其必要的，像动漫、游戏、影视等都离不开 3D 资产，所以我们肯定要做 3D 生成这件事情。那做了这件事情后，按照混元的定位，我们也要回馈社区，因此我们就选择了在当前阶段进行开源。”腾讯混元 3D 模型负责人郭春超说道，“3D 生成的商业价值其实很大，但是现在需要补齐的点很多，所以从社区的需求角度而言，也需要这样的 3D 模型。”

本次，Hunyuan3D-1.0 首批开源模型包含轻量版和标准版，轻量版 10s 即可生成高质量 3D 资产，目前已在技术社区公开发布，包含模型权重、推理代码、模型算法等完整模型，开发者、研究者等可以免费使用。

官网地址：https://3d.hunyuan.tencent.com/

Github 地址：https://github.com/Tencent/Hunyuan3D-1

Hugging Face 模型地址：https://huggingface.co/tencent/Hunyuan3D-1

当前，业界的 3D 模型多为闭源模型。同时主要面临着三个问题：可用数据量远比其他模态少、3D 表征形态没有统一范式，生成的质量也参差不齐。

“MOE 3D 生成大模型，我们在 2024 年已经初步完成了 1.0，生成效果保持在业界第一梯队。”郭春超表示。

Hunyuan3D-1.0 选择多视角扩散模型，并使用多视图重建模型。Hunyuan3D-1.0 首先选择时空自适应 CFG，针对不同去噪步数、不同视角设置不同的权重，来平衡可控性与多样性；其次用多视图重建大模型快速完成多视角到 3D 资产生成，其中将 triplane 分辨率采样到 256 来捕捉更多细节，并在固定视角生成图外，引入任意视角的输入图注入网络，从而较少多视角图像不可见区域、提高生成精准度。

郭春超介绍，3D 生成模型还属于赛程的前半段，更多相当于一年半以前的文生图的状态，现在还是处于距离应用爆发或者距离落地大规模推广的前期阶段，因此腾讯内部在做很多技术研发跟业务的联合攻坚阶段，预计到明年会有更多的 3D 产品业务落地。”

限制 3D 模型落地的因素主要有两个：一是基础模型，3D 模型生成的稳定性、多样性和质量决定；二是需要一整套管线工具，例如怎么让 3D 模型动起来、怎么更好地编辑、怎么把功能管线的 AI 能力做好来降低使用门槛等。

“1.0 3D 的开源不是一个结束，只是一个新的开始。”郭春超表示，团队接下来还会开源 2.0、3.0。

会议推荐

就在 12 月 13 日 -14 日，AICon 将汇聚 70+ 位 AI 及技术领域的专家，深入探讨大模型与推理、AI Agent、多模态、具身智能等前沿话题。此外，还有丰富的圆桌论坛、以及展区活动，满足你对大模型实践的好奇与想象。现在正值 8 折倒计时，名额有限，快扫码咨询了解详情，别错过这次绝佳的学习与交流机会！

今日荐文

你也「在看」吗？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.