【环球网科技报道 记者 李文瑶】5月14日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。
据了解,这是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解,参数量15亿。升级后的混元文生图大模型采用了与 sora 一致的DiT架构,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。
升级后的混元文生图模型采用了基于Transformer的扩散模型架构(简称DiT),具备更强的可扩展性,在参数量越多的情况下,性能越强,有利于提升视觉模型生成效果及效率。这也是此前爆红的文生视频产品Sora 背后的关键技术。
腾讯文生图负责人芦清林表示:“腾讯混元文生图的研发思路就是实用,坚持从实践中来,到实践中去。此次把最新一代模型完整开源出来,是希望与行业共享腾讯在文生图领域的实践经验和研究成果,共建中文文生图开源生态,加速大模型行业发展。”
目前,腾讯混元文生图模型参数量达 15 亿。评测数据显示,最新的腾讯混元文生图模型效果相比前代提升超过 20%,远超开源的Stable Diffusion模型,在目前已开源的文生图模型中,综合性能最佳,达到国际领先水平。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.