腾讯，大动作|混元|编码器|大模型|知名企业

腾讯，大动作

2024-12-04 17:38:07　来源: 上观新闻

上海举报

分享至

12月3日下午，腾讯混元大模型正式上线视频生成能力，这是继文生文、文生图、3D生成之后，混元大模型又一进展。同时，腾讯宣布开源该视频生成大模型，参数量130亿。

开放申请测试

“用户只需要输入一段描述，即可生成视频。”腾讯混元相关负责人透露，目前生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。该模型已上线腾讯元宝APP，用户可在AI应用中的“AI视频”板块申请试用。企业客户通过腾讯云提供服务接入，目前API同步开放内测申请。

在现场演示环节，演示视频中出现的冲浪、跳舞等大幅度运动画面，运动镜头及人物未发生形变。

腾讯混元相关负责人介绍，腾讯混元生成视频大模型可实现超写实画质、生成高度符合提示词的视频画面，画面流畅不易变形。光影反射基本符合物理规律，在镜面或者照镜子场景中，可以做到镜面内外动作一致。同时，模型还可以实现在画面主角保持不变的情况下自动切镜头。

全面开源

据了解，腾讯混元生成视频大模型基于DiT架构，并在架构设计上进行多处升级。混元视频生成模型适配了新一代文本编码器提升语义遵循，其具备语义跟随能力，更好地应对多个主体描绘，实现更加细致的指令和画面呈现。同时，采用统一的全注意力机制，使得每帧视频的衔接更为流畅，并能实现主体一致的多视角镜头切换；通过先进的图像视频混合VAE（3D 变分编码器），让模型在细节表现有明显提升，特别是小人脸、高速镜头等场景。

目前，腾讯宣布开源该视频生成大模型已在 Hugging Face 平台及 Github 上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费使用和开发生态插件。基于腾讯混元的开源模型，开发者及企业无需从头训练，即可直接用于推理，并可基于腾讯混元系列打造专属应用及服务，能够节约大量人力及算力，加速行业创新步伐。

从年初以来，腾讯混元系列模型的开源速度不断加快。此前，腾讯混元已经开源了旗下文生文、文生图和3D生成大模型。至此，腾讯混元系列大模型已实现全面开源。

栏目主编：秦红文字编辑：卢晓川题图来源：上观题图图片编辑：雍凯

来源：作者：中国经济网

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

专题推荐

手机 / 数码

房产 / 家居

腾讯，大动作