网易首页 > 网易号 > 正文 申请入驻

腾讯混元康战辉:将开源大模型训练代码,但数据开源意义不大

0
分享至


11 月 5 日,腾讯混元宣布最新的 MoE 模型“混元 Large“以及混元 3D 生成大模型“ Hunyuan3D-1.0”正式开源,支持企业及开发者精调、部署等不同场景的使用需求,且免费可商用。

其中,腾讯混元 Large 是目前开源领域参数规模最大、效果最好的 MoE 模型,而腾讯混元 3D 生成大模型则是业界首个同时支持文字、图像生成 3D 的开源大模型。目前,两个模型均已经在腾讯业务场景中落地应用,经过实践的检验,是面向实用场景的应用级大模型。

“现在开源真的一点不晚”

在腾讯机器学习平台总监、腾讯混元大语言模型算法负责人康战辉看来,去年大模型如火如荼,开源也是百花齐放,但如今来看,还是各归各位。“底层模型不是 C 端产品,不存在入口、流量,这个我们可以沉下心来长期深耕,所以现在开源真的一点不晚。”

腾讯混元这次开源的 Large 模型总参数量 389B,激活参数量 52B ,上下文长度高达 256K。根据公开测评结果,腾讯混元 Large 在 CMMLU、MMLU、CEval、MATH 等多学科综合评测集以及中英文 NLP 任务、代码和数学等 9 大维度全面领先,超过 Llama3.1、Mixtral 等一流的开源大模型。


腾讯混元 Large 在各类测试集上得分领先现有主流开源模型

官网地址:https://llm.hunyuan.tencent.com/

Github 地址:https://github.com/Tencent/Tencent-Hunyuan-Large

Hugging Face 地址:https://huggingface.co/tencent/Tencent-Hunyuan-Large

在模型结构和训练策略方面,腾讯混元 Large 全面探索了 MoE ScalingLaw,进行了 MoE 共享专家路由、回收路由等策略上的创新,并引入了专家特化的学习率适配训练策略,有效提升不同专家利用率和稳定性,带来模型效果的提升。

面对 SFT 通用领域繁多,数学、代码高质量指令数据获取困难等问题,腾讯混元 Large 模型分门别类提升数学、逻辑推理、代码等能力,另外在一阶段离线 DPO 的基础上引入了二阶段在线强化策略。

数据方面,腾讯混元 Large 构建了覆盖数十个类目,高质量、高多样性、大量级的中英文合成数据。针对长文领域测评数据集缺乏,方法不够客观等问题,腾讯混元 Large 还基于公开数据,构建了一套完整覆盖长文阅读理解、多文档摘要总结、长文逻辑推理等领域任务的数据集企鹅卷轴(PenguinScrolls),并将对外开放。

目前,腾讯混元开源了模型的参数权重,不涉及到数据和代码,未来会逐渐把训练代码开源。

康战辉表示,大模型开源数据本身意义没有那么大,因为大模型不是软件,大模型大量靠数据驱动,但是开源数据规模太大,本身很难被大家共建,这不是写一行代码就能共建起来的。“大模型的普遍训练都是几万亿 tokens 级别,业界很难把它维护起来做进一步的挖掘,所以对于大模型,大家作为一个获益者比较容易。”

这次,腾讯混元选择了先开源大规模参数的模型、后开源小参数模型。康战辉表示,腾讯大模型的研发路径就是从大到小,而开源更多是把业务应用核心的、同源同宗的东西拿出来,腾讯后续会开源一些小的模型出来。

康战辉介绍,腾讯做开源是长期战略,腾讯大模型做了一年多没有着急去开源,重要的原因就是开源的应该是自然而然的发展。

对于开源模型和闭源模型的选择,康战辉表示,一些较大企业的业务比较复杂,对于超级复杂的业务可能需要闭源大模型才能解决,比如腾讯旗舰模型混元 turbo,当然成本摊下来更大。而开源模型面对的则是不同的开发者,尤其是大量的中小企业,包括个人开发者。随着成本和受众的增加,开源的模型会相对小一些。”

“但是不管怎么选型,开源怎么样的模型,都是同宗同源的。”康战辉强调,“我们要考虑客户在哪里,才会有不同模型的选型。我们做了大量的探索,可以做到超大万亿级的,那我们做几千亿的、几百亿的、几十亿的不在话下。

与之前“先有具体的业务场景再考虑基础设施、算法模型选择”的运作方式不同,在大模型时代,混元团队是先定了一个长期 AGI 目标,预设它要具备什么能力,然后进行研发。比如它需要语言能力、视觉能力、听觉能力、行动能力等,又如还需要个人记忆检索、思考能力,还要有复杂的多阶段学习能力、长期任务能力等,这是一个难度大、周期长的研发过程,对标的就是人类的规划、探索等能力。

这种情况下,未来两年三年的时间是比较好规划的,但这个路线怎么走,各家可能并不一样。“腾讯走了 MoE 路线,这个我们走得很早。别人可能没有做,可能做了三个月发现坑太多。我们再卷高性价比、比架构,不如赶紧把目标做出来。”康战辉说道。

“3D 生成大模型是必要的”

此次,腾讯混元开源的 3D 生成大模型 Hunyuan3D-1.0 ,则解决了现有的 3D 生成模型在生成速度和泛化能力上存在不足的问题。

“从腾讯自身业务出发看,做 3D 生成是极其必要的,像动漫、游戏、影视等都离不开 3D 资产,所以我们肯定要做 3D 生成这件事情。那做了这件事情后,按照混元的定位,我们也要回馈社区,因此我们就选择了在当前阶段进行开源。”腾讯混元 3D 模型负责人郭春超说道,“3D 生成的商业价值其实很大,但是现在需要补齐的点很多,所以从社区的需求角度而言,也需要这样的 3D 模型。”

本次,Hunyuan3D-1.0 首批开源模型包含轻量版和标准版,轻量版 10s 即可生成高质量 3D 资产,目前已在技术社区公开发布,包含模型权重、推理代码、模型算法等完整模型,开发者、研究者等可以免费使用。

官网地址:https://3d.hunyuan.tencent.com/

Github 地址:https://github.com/Tencent/Hunyuan3D-1

Hugging Face 模型地址:https://huggingface.co/tencent/Hunyuan3D-1

当前,业界的 3D 模型多为闭源模型。同时主要面临着三个问题:可用数据量远比其他模态少、3D 表征形态没有统一范式,生成的质量也参差不齐。

“MOE 3D 生成大模型,我们在 2024 年已经初步完成了 1.0,生成效果保持在业界第一梯队。”郭春超表示。

Hunyuan3D-1.0 选择多视角扩散模型,并使用多视图重建模型。Hunyuan3D-1.0 首先选择时空自适应 CFG,针对不同去噪步数、不同视角设置不同的权重,来平衡可控性与多样性;其次用多视图重建大模型快速完成多视角到 3D 资产生成,其中将 triplane 分辨率采样到 256 来捕捉更多细节,并在固定视角生成图外,引入任意视角的输入图注入网络,从而较少多视角图像不可见区域、提高生成精准度。

郭春超介绍,3D 生成模型还属于赛程的前半段,更多相当于一年半以前的文生图的状态,现在还是处于距离应用爆发或者距离落地大规模推广的前期阶段,因此腾讯内部在做很多技术研发跟业务的联合攻坚阶段,预计到明年会有更多的 3D 产品业务落地。”

限制 3D 模型落地的因素主要有两个:一是基础模型,3D 模型生成的稳定性、多样性和质量决定;二是需要一整套管线工具,例如怎么让 3D 模型动起来、怎么更好地编辑、怎么把功能管线的 AI 能力做好来降低使用门槛等。

“1.0 3D 的开源不是一个结束,只是一个新的开始。”郭春超表示,团队接下来还会开源 2.0、3.0。

会议推荐

就在 12 月 13 日 -14 日,AICon 将汇聚 70+ 位 AI 及技术领域的专家,深入探讨大模型与推理、AI Agent、多模态、具身智能等前沿话题。此外,还有丰富的圆桌论坛、以及展区活动,满足你对大模型实践的好奇与想象。现在正值 8 折倒计时,名额有限,快扫码咨询了解详情,别错过这次绝佳的学习与交流机会!

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《黑神话》主创金池长老毛衣走红 民间仿品已经开卖

《黑神话》主创金池长老毛衣走红 民间仿品已经开卖

游民星空
2024-11-22 18:12:16
郑大一附院明星院长阚全程,是一个好商人,不是一个好医生。

郑大一附院明星院长阚全程,是一个好商人,不是一个好医生。

今日养生之道
2024-11-23 07:30:08
一中职课堂曝光,无一人听课,全班姿势一致,家长:怎么忍心的

一中职课堂曝光,无一人听课,全班姿势一致,家长:怎么忍心的

教育琳
2024-11-19 18:29:01
三连胜!字母37+11+10,利拉德24+13,老里说得对,火箭确实很强

三连胜!字母37+11+10,利拉德24+13,老里说得对,火箭确实很强

巴叔GO聊体育
2024-11-23 13:34:20
山西网红“丐中丐”夫妻车上直播时双双遇难,直播间网友目睹过程,交警:被旁边货车坠落重物砸中

山西网红“丐中丐”夫妻车上直播时双双遇难,直播间网友目睹过程,交警:被旁边货车坠落重物砸中

极目新闻
2024-11-22 19:03:28
曝宝马远程车控APP到期需付费:1年298、不开直接锁四项功能

曝宝马远程车控APP到期需付费:1年298、不开直接锁四项功能

沙雕小琳琳
2024-11-22 10:32:27
西媒对比皇马100天数据:C罗10场10球1点球,姆巴佩16场8球3点球

西媒对比皇马100天数据:C罗10场10球1点球,姆巴佩16场8球3点球

直播吧
2024-11-22 15:40:12
马斯克一次灵魂拷问,问出北约本质,等收拾完俄罗斯就该中国了?

马斯克一次灵魂拷问,问出北约本质,等收拾完俄罗斯就该中国了?

现代小青青慕慕
2024-11-01 10:46:00
女子吐槽现在的物价是崩盘了吧?啥都贵,就工资不涨!

女子吐槽现在的物价是崩盘了吧?啥都贵,就工资不涨!

滑稽斑马呀
2024-11-18 19:49:11
央视发了一段简短的文字:歼-35A隐身能力目前排世界第一

央视发了一段简短的文字:歼-35A隐身能力目前排世界第一

张斌说
2024-11-22 17:32:56
注意!牛市迎来了关键转折点

注意!牛市迎来了关键转折点

道哥道金融
2024-11-20 21:01:29
一觉醒来,赖清德天塌了!台又一“友邦”弃暗投明,统一势在必行

一觉醒来,赖清德天塌了!台又一“友邦”弃暗投明,统一势在必行

莫闻初道
2024-11-22 14:39:52
羽联总决赛女单席位确定:王祉怡、韩悦入围,山口茜搭末班车

羽联总决赛女单席位确定:王祉怡、韩悦入围,山口茜搭末班车

懂球帝
2024-11-23 13:32:20
老师精选44—业界性感系女演员,还去夜店当了头牌—桐嶋莉乃

老师精选44—业界性感系女演员,还去夜店当了头牌—桐嶋莉乃

生活大关注
2024-11-23 00:37:33
昨天拿走4600,见我大方,没意见,今天直接十倍拿走我46000元!

昨天拿走4600,见我大方,没意见,今天直接十倍拿走我46000元!

人情皆文史
2024-11-22 16:03:00
太暖心!妻子给值班丈夫送饭菜,丈夫第一反应是给妻子搓手背取暖

太暖心!妻子给值班丈夫送饭菜,丈夫第一反应是给妻子搓手背取暖

老王侃趣闻
2024-11-22 14:23:11
被日本奶奶打扮惊艳了:大衣配围巾、羽绒服穿薄不穿厚,保暖洋气

被日本奶奶打扮惊艳了:大衣配围巾、羽绒服穿薄不穿厚,保暖洋气

白宸侃片
2024-11-21 21:21:45
金华女老师事件,照片里确实文静,让人很难想象她会和学生谈恋爱

金华女老师事件,照片里确实文静,让人很难想象她会和学生谈恋爱

人情皆文史
2024-10-31 00:07:22
陈道明:如果一个人熬到没有人联系你,没有饭局邀约,没有所谓的社交,那么恭喜你

陈道明:如果一个人熬到没有人联系你,没有饭局邀约,没有所谓的社交,那么恭喜你

我是娱有理
2024-11-03 06:32:03
外网评选年度最佳,网友为郑钦文和德约鸣不平,他们受到了轻视

外网评选年度最佳,网友为郑钦文和德约鸣不平,他们受到了轻视

网球之家
2024-11-22 12:42:02
2024-11-23 14:15:00
AI前线
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
487文章数 27关注度
往期回顾 全部

科技要闻

3478亿美元!马斯克身家大选后暴涨35%

头条要闻

CIA前分析师:拜登或想挑起一场战争 让特朗普无法就职

头条要闻

CIA前分析师:拜登或想挑起一场战争 让特朗普无法就职

体育要闻

比德十一年,效果拉满,过程危

娱乐要闻

疑似薛佳凝恋情曝光,两人当街亲吻

财经要闻

祝宝良:增量政策可使明年GDP增长5%左右

汽车要闻

对话张纯伟:80万!捷途立了一个新Flag

态度原创

手机
亲子
数码
艺术
房产

手机要闻

蔚来 NIO Phone 发布 SkyUI 2.3.0 版本升级

亲子要闻

At seven and a half months old, the baby was going...

数码要闻

消息称英伟达 RTX 5090 显卡 GPU 尺寸比 RTX 4090 的大 22%

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

房产要闻

丁村迎来大动作!首宗、百亩城更宅地挂出!楼面价2367元/㎡!

无障碍浏览 进入关怀版