网易首页 > 网易号 > 正文 申请入驻

腾讯混元康战辉:将开源大模型训练代码,但数据开源意义不大

0
分享至


11 月 5 日,腾讯混元宣布最新的 MoE 模型“混元 Large“以及混元 3D 生成大模型“ Hunyuan3D-1.0”正式开源,支持企业及开发者精调、部署等不同场景的使用需求,且免费可商用。

其中,腾讯混元 Large 是目前开源领域参数规模最大、效果最好的 MoE 模型,而腾讯混元 3D 生成大模型则是业界首个同时支持文字、图像生成 3D 的开源大模型。目前,两个模型均已经在腾讯业务场景中落地应用,经过实践的检验,是面向实用场景的应用级大模型。

“现在开源真的一点不晚”

在腾讯机器学习平台总监、腾讯混元大语言模型算法负责人康战辉看来,去年大模型如火如荼,开源也是百花齐放,但如今来看,还是各归各位。“底层模型不是 C 端产品,不存在入口、流量,这个我们可以沉下心来长期深耕,所以现在开源真的一点不晚。”

腾讯混元这次开源的 Large 模型总参数量 389B,激活参数量 52B ,上下文长度高达 256K。根据公开测评结果,腾讯混元 Large 在 CMMLU、MMLU、CEval、MATH 等多学科综合评测集以及中英文 NLP 任务、代码和数学等 9 大维度全面领先,超过 Llama3.1、Mixtral 等一流的开源大模型。


腾讯混元 Large 在各类测试集上得分领先现有主流开源模型

官网地址:https://llm.hunyuan.tencent.com/

Github 地址:https://github.com/Tencent/Tencent-Hunyuan-Large

Hugging Face 地址:https://huggingface.co/tencent/Tencent-Hunyuan-Large

在模型结构和训练策略方面,腾讯混元 Large 全面探索了 MoE ScalingLaw,进行了 MoE 共享专家路由、回收路由等策略上的创新,并引入了专家特化的学习率适配训练策略,有效提升不同专家利用率和稳定性,带来模型效果的提升。

面对 SFT 通用领域繁多,数学、代码高质量指令数据获取困难等问题,腾讯混元 Large 模型分门别类提升数学、逻辑推理、代码等能力,另外在一阶段离线 DPO 的基础上引入了二阶段在线强化策略。

数据方面,腾讯混元 Large 构建了覆盖数十个类目,高质量、高多样性、大量级的中英文合成数据。针对长文领域测评数据集缺乏,方法不够客观等问题,腾讯混元 Large 还基于公开数据,构建了一套完整覆盖长文阅读理解、多文档摘要总结、长文逻辑推理等领域任务的数据集企鹅卷轴(PenguinScrolls),并将对外开放。

目前,腾讯混元开源了模型的参数权重,不涉及到数据和代码,未来会逐渐把训练代码开源。

康战辉表示,大模型开源数据本身意义没有那么大,因为大模型不是软件,大模型大量靠数据驱动,但是开源数据规模太大,本身很难被大家共建,这不是写一行代码就能共建起来的。“大模型的普遍训练都是几万亿 tokens 级别,业界很难把它维护起来做进一步的挖掘,所以对于大模型,大家作为一个获益者比较容易。”

这次,腾讯混元选择了先开源大规模参数的模型、后开源小参数模型。康战辉表示,腾讯大模型的研发路径就是从大到小,而开源更多是把业务应用核心的、同源同宗的东西拿出来,腾讯后续会开源一些小的模型出来。

康战辉介绍,腾讯做开源是长期战略,腾讯大模型做了一年多没有着急去开源,重要的原因就是开源的应该是自然而然的发展。

对于开源模型和闭源模型的选择,康战辉表示,一些较大企业的业务比较复杂,对于超级复杂的业务可能需要闭源大模型才能解决,比如腾讯旗舰模型混元 turbo,当然成本摊下来更大。而开源模型面对的则是不同的开发者,尤其是大量的中小企业,包括个人开发者。随着成本和受众的增加,开源的模型会相对小一些。”

“但是不管怎么选型,开源怎么样的模型,都是同宗同源的。”康战辉强调,“我们要考虑客户在哪里,才会有不同模型的选型。我们做了大量的探索,可以做到超大万亿级的,那我们做几千亿的、几百亿的、几十亿的不在话下。

与之前“先有具体的业务场景再考虑基础设施、算法模型选择”的运作方式不同,在大模型时代,混元团队是先定了一个长期 AGI 目标,预设它要具备什么能力,然后进行研发。比如它需要语言能力、视觉能力、听觉能力、行动能力等,又如还需要个人记忆检索、思考能力,还要有复杂的多阶段学习能力、长期任务能力等,这是一个难度大、周期长的研发过程,对标的就是人类的规划、探索等能力。

这种情况下,未来两年三年的时间是比较好规划的,但这个路线怎么走,各家可能并不一样。“腾讯走了 MoE 路线,这个我们走得很早。别人可能没有做,可能做了三个月发现坑太多。我们再卷高性价比、比架构,不如赶紧把目标做出来。”康战辉说道。

“3D 生成大模型是必要的”

此次,腾讯混元开源的 3D 生成大模型 Hunyuan3D-1.0 ,则解决了现有的 3D 生成模型在生成速度和泛化能力上存在不足的问题。

“从腾讯自身业务出发看,做 3D 生成是极其必要的,像动漫、游戏、影视等都离不开 3D 资产,所以我们肯定要做 3D 生成这件事情。那做了这件事情后,按照混元的定位,我们也要回馈社区,因此我们就选择了在当前阶段进行开源。”腾讯混元 3D 模型负责人郭春超说道,“3D 生成的商业价值其实很大,但是现在需要补齐的点很多,所以从社区的需求角度而言,也需要这样的 3D 模型。”

本次,Hunyuan3D-1.0 首批开源模型包含轻量版和标准版,轻量版 10s 即可生成高质量 3D 资产,目前已在技术社区公开发布,包含模型权重、推理代码、模型算法等完整模型,开发者、研究者等可以免费使用。

官网地址:https://3d.hunyuan.tencent.com/

Github 地址:https://github.com/Tencent/Hunyuan3D-1

Hugging Face 模型地址:https://huggingface.co/tencent/Hunyuan3D-1

当前,业界的 3D 模型多为闭源模型。同时主要面临着三个问题:可用数据量远比其他模态少、3D 表征形态没有统一范式,生成的质量也参差不齐。

“MOE 3D 生成大模型,我们在 2024 年已经初步完成了 1.0,生成效果保持在业界第一梯队。”郭春超表示。

Hunyuan3D-1.0 选择多视角扩散模型,并使用多视图重建模型。Hunyuan3D-1.0 首先选择时空自适应 CFG,针对不同去噪步数、不同视角设置不同的权重,来平衡可控性与多样性;其次用多视图重建大模型快速完成多视角到 3D 资产生成,其中将 triplane 分辨率采样到 256 来捕捉更多细节,并在固定视角生成图外,引入任意视角的输入图注入网络,从而较少多视角图像不可见区域、提高生成精准度。

郭春超介绍,3D 生成模型还属于赛程的前半段,更多相当于一年半以前的文生图的状态,现在还是处于距离应用爆发或者距离落地大规模推广的前期阶段,因此腾讯内部在做很多技术研发跟业务的联合攻坚阶段,预计到明年会有更多的 3D 产品业务落地。”

限制 3D 模型落地的因素主要有两个:一是基础模型,3D 模型生成的稳定性、多样性和质量决定;二是需要一整套管线工具,例如怎么让 3D 模型动起来、怎么更好地编辑、怎么把功能管线的 AI 能力做好来降低使用门槛等。

“1.0 3D 的开源不是一个结束,只是一个新的开始。”郭春超表示,团队接下来还会开源 2.0、3.0。

会议推荐

就在 12 月 13 日 -14 日,AICon 将汇聚 70+ 位 AI 及技术领域的专家,深入探讨大模型与推理、AI Agent、多模态、具身智能等前沿话题。此外,还有丰富的圆桌论坛、以及展区活动,满足你对大模型实践的好奇与想象。现在正值 8 折倒计时,名额有限,快扫码咨询了解详情,别错过这次绝佳的学习与交流机会!

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
自由经济打得集体经济满地找牙!米莱再放“卫星”:通胀降至2.7%

自由经济打得集体经济满地找牙!米莱再放“卫星”:通胀降至2.7%

大风文字
2024-11-14 17:35:49
A股收评:创业板指跌3.4%,超4800股飘绿,ST板块逆势活跃

A股收评:创业板指跌3.4%,超4800股飘绿,ST板块逆势活跃

界面新闻
2024-11-14 15:03:33
雷军回应睡车间摆拍:确实是摆拍 为了逗大家开心

雷军回应睡车间摆拍:确实是摆拍 为了逗大家开心

手机中国
2024-11-14 17:20:10
取消节假日高速免费,改为每年5000km免费里程?交通部的答复来了

取消节假日高速免费,改为每年5000km免费里程?交通部的答复来了

猫小狸同学
2024-11-14 16:25:03
美国一旦取消中国永久贸易国地位,意味着美国最后的一张牌也用了

美国一旦取消中国永久贸易国地位,意味着美国最后的一张牌也用了

小企鹅侃世界
2024-11-14 15:54:09
这跟不穿有啥区别?巴黎之夜“敢露”女星:肯豆、郭采洁、谷爱凌

这跟不穿有啥区别?巴黎之夜“敢露”女星:肯豆、郭采洁、谷爱凌

打麻将的仔
2024-11-13 22:56:21
雪上加霜!江苏无锡京东物流园起火,员工:烧毁的手机损失十几亿

雪上加霜!江苏无锡京东物流园起火,员工:烧毁的手机损失十几亿

小人物看尽人间百态
2024-11-14 11:42:13
杨紫“带套试戏”后续:已取证,男方被曝承认,牵连多位女星

杨紫“带套试戏”后续:已取证,男方被曝承认,牵连多位女星

柚子新媒
2024-11-14 16:23:09
93分钟绝杀被吹!18强赛形势乱了:澳大利亚死里逃生,国足获助攻

93分钟绝杀被吹!18强赛形势乱了:澳大利亚死里逃生,国足获助攻

侃球熊弟
2024-11-14 19:12:28
《经济参考报》两名记者在安徽采访时被打,警方:会依法依规进行调查

《经济参考报》两名记者在安徽采访时被打,警方:会依法依规进行调查

极目新闻
2024-11-14 18:51:39
耗资20多亿的古城日均卖票不足20张!省委书记现场步行察看

耗资20多亿的古城日均卖票不足20张!省委书记现场步行察看

政知新媒体
2024-11-14 07:09:13
看珠海航展称“我们中国强”被台防务部门批评,台前海军舰长回应:这是事实

看珠海航展称“我们中国强”被台防务部门批评,台前海军舰长回应:这是事实

环球网资讯
2024-11-14 16:38:14
摩根消息引发暴跌,A股几天成交骤减万亿!

摩根消息引发暴跌,A股几天成交骤减万亿!

五星财经
2024-11-14 16:04:46
美国10月PPI同比上升2.4% 高于预期

美国10月PPI同比上升2.4% 高于预期

财联社
2024-11-14 21:33:07
太炸裂!两内地女子在澳门卖淫,一次收费135元,被抓画面曝光

太炸裂!两内地女子在澳门卖淫,一次收费135元,被抓画面曝光

180°视角
2024-11-14 14:33:52
大连4名驴友海边攀岩遇涨潮,目击者:女驴友2次落入海中身亡

大连4名驴友海边攀岩遇涨潮,目击者:女驴友2次落入海中身亡

极目新闻
2024-11-14 18:56:41
马斯克到华盛顿,皮靴配西裤昂首阔步,被特朗普调侃“没法摆脱”

马斯克到华盛顿,皮靴配西裤昂首阔步,被特朗普调侃“没法摆脱”

译言
2024-11-14 07:26:47
巴林主帅:我们非常尊重中国队,但今天别无选择只有取胜

巴林主帅:我们非常尊重中国队,但今天别无选择只有取胜

直播吧
2024-11-14 21:15:18
炸裂!昆明女孩被男友殴打满脸是血,店员帮报警,女孩称自己摔伤

炸裂!昆明女孩被男友殴打满脸是血,店员帮报警,女孩称自己摔伤

小淇言说
2024-11-14 16:43:36
0-7真的很伤!国足即使小赢了巴林仍将第4,净胜球仍大幅落后澳沙

0-7真的很伤!国足即使小赢了巴林仍将第4,净胜球仍大幅落后澳沙

直播吧
2024-11-14 19:28:24
2024-11-14 22:18:44
AI前线
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
469文章数 24关注度
往期回顾 全部

科技要闻

官宣!极氪领克合并,吉利走向大整合

头条要闻

专家:迎来第二任期 特朗普在外交上或有"干大事"冲动

头条要闻

专家:迎来第二任期 特朗普在外交上或有"干大事"冲动

体育要闻

本季英超最炸裂的瓜,由一名裁判制造

娱乐要闻

娜扎张云龙恋情曝光!甜蜜细节被扒

财经要闻

"机构举报游资"导致A股大跌?

汽车要闻

七块屏幕四座布局 仰望U7中式百万座舱

态度原创

家居
游戏
时尚
本地
健康

家居要闻

现代潮流空间 轻奢现代风并重

不得了!逆水寒玩家把boss压箱底衣服给扒了,美得让神仙都嫉妒

秋冬穿黑色,这4个技巧照着穿更时髦

本地新闻

重庆记忆|别再CityWalk了 来云端之眼CityClimb

花18万治疗阿尔茨海默病,值不值?

无障碍浏览 进入关怀版