潞晨科技最新升级迭代产品Video Ocean 全新多功能视频生成平台全新发布,添加“角色生成视频”功能,用户能够轻松地根据文本、图片生成多样化的视频内容,还可以自定义角色并生成个性化视频,满足各种创意需求。
本次模型迭代,Video Ocean不仅在视频质感上做了颠覆性的提升,还涵盖三大突破性功能:
文生视频(Text-to-Video):根据文本描述生成视频
图生视频(Image-to-Video):根据图片内容生成视频
角色生视频(Character-to-Video):自定义角色并生成个性化视频
在高质量视频生成方面:
Video Ocean能够生成逼真的短视频内容,包括各种场景和角色,创造超现实画面,。
同时Video Ocean可以用于创造电影级视觉体验、重现经典场景或创造未来幻想。用户可以通过简单的指令来生成视频,如让照片中的人物做出特定动作或表情。
纵观国产大模型的发展重心由预训练转向后训练和推理,AI领域对资源效率、定制化、成本效益和实时性能的重视度逐步增强,尤其体现在以潞晨科技为首的视频生成细分领域。
由加州大学伯克利分校博士尤洋于2021年7月创立的潞晨科技,总部位于北京,并在新加坡设立了海外研发中心。专注于打造分布式AI开发和部署平台,致力于降低大模型的落地成本,提升训练、推理效率。
其核心产品是开源高效深度学习系统Colossal-AI,它集成了高性能计算和AI先进技术,通过异构内存管理系统、高效N维并行系统、低延时推理系统等技术,帮助用户最小化模型部署成本、最大化计算效率。Colossal-AI在GitHub上获得了极高的认可,已接近6万颗星。
2023年5月潞晨完成了数亿元的A轮融资,也是其成立18个月内完成的第三轮融资。2023年11月,潞晨推出大模型训推一体机,支持千亿参数大模型的设备,在集成高性能硬件的基础上,还集成了Colossal-AI加速框架,支持多种微调fine-tune方式。
2024年6月,潞晨科技发布了全球首个开源类Sora架构视频生成模型Open-Sora,该模型采用了流行的 Diffusion Transformer (DiT) 架构,支撑实现6秒生成720p高清视频,并详细解析了引入的掩码机制,用以实现对图像和视频的有条件处理。通过调整不同的掩码配置,该机制能够适应多样的生成任务,涵盖从图像生成视频、视频循环创作、视频内容扩展、视频自回归生产、视频片段连接、视频编辑处理,以及视频帧间插入等。
2024年9月,公司宣布完成数亿元A++轮融资(也是潞晨的第五轮融资),投资方包括北京市人工智能产业投资基金、Capstone Capital、领沨资本、石溪资本。
此轮融资后,公司宣布将专注于打造大模型时代的新DataBricks平台,以及世界一流的视频生成大模型。
当下,Video Ocean震撼发布,目前可免费注册进行体验,号称“人人皆导演”。
潞晨之所以如此一路高歌前行,其实在2017年初创始团队对外就有着明确的商业化目标。也源于团队对视频大模型的长期发展的看好,认为视频大模型相较于大型语言模型(LLM)更有可能遵循长期的scaling law,即规模法则。
如何理解视频大模型的优势在哪里?
首先,视频数据的真实性和复杂性为模型提供了丰富的学习材料。与LLM通常依赖的互联网文本数据相比,视频内容直接来源于客观世界,包含了更加全面和准确的信息。
视频数据反映了物理世界的规律性,如运动学和光学原理,是一致和可预测的,相比LLM处理的语言数据形成对比,后者往往包含更多的抽象概念和文化差异。
此外,视频大模型能够处理多模态信息,如视觉和听觉,这为AI的理解和互动提供了更丰富的上下文。这种多模态能力为AI的应用开辟了更广阔的领域,如娱乐、教育、监控和自动驾驶。尤其在当下对于大模型应用开放性更强的娱乐广告、影视、虚拟角色等行业应用潜力巨大。广告商、影视商可以根据消费者的个性化需求快速生成定制化的视频内容,够降低制作成本,利用视频大模型能够在影视制作、虚拟人生成中辅助场景生成、角色动作捕捉等任务,提高制作效率。
从长期投资回报的角度来看,借助视频大模型更好地模拟和预测物理世界行为的能力,在泛娱乐行业也许会带来更稳定和可预测的收益……
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.