品玩6月17日讯,据 GitHub 页面显示,北京大学与快手AI团队合作推出了一款名为VideoTetris的新框架,可以生成细节复杂的视频。
VideoTetris框架首次定义了组合视频生成任务,包括两个子任务:1) 跟随复杂组合指令的视频生成;2) 跟随递进的组合式多物体指令的长视频生成。团队发现,几乎所有现有的开源模型和商用模型都未能生成正确的视频。例如,输入"左边一个可爱的棕色狗狗,右边一只打盹的猫在阳光下小憩",结果生成的视频往往融合了两个物体信息,显得怪异。
据悉,VideoTetris框架在复杂视频生成任务中超越了Pika、Gen-2等商用模型。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.