4月23日消息,AI顶会ICLR 2025大会上,阿里巴巴达摩院被收录的13篇论文中,聚焦于视觉生成模型底层框架DiT改进优化的一篇受到了关注。
DyDiT基于主流架构DiT进行优化,引入动态计算机制,可根据时间步和空间特征动态调整模型宽度和资源分配,显著提升推理效率并减少冗余计算。
实验数据显示,DyDiT在仅微调3%参数的情况下,将DiT-XL的FLOPs减少一半,生成速度提升1.73倍,ImageNet FID得分为2.27,与原始模型2.07接近。
该架构由达摩院湖畔实验室、新加坡国立大学与清华大学联合提出,支持用户按需求调节算力分配,兼顾推理效率与生成质量,具备灵活部署潜力。
据悉,DyDiT已适配开源文生图模型FLUX,升级版Dy-FLUX已在开源平台上线,未来计划推广至更多图像、视频生成任务。
ICLR是AI领域顶级会议之一,达摩院今年共有13篇论文入选,其中3篇获Spotlight,覆盖生成模型、NLP、医疗与生物智能等方向。(袁宁)
本文来自网易科技报道,更多资讯和深度内容,关注我们。