(原标题:天图万境引领AI“视频声效大模型”革命,开启空间智能新篇章)
在全球科技竞争日益激烈的背景下,人工智能(AI)已成为引领未来科技革命的关键技术。尽管众多企业纷纷投入AI领域,但多数仍局限于“AI内容生成”的狭窄领域,鲜有突破性的创新。
然而,在今年的华为开发者大会2024(HDC 2024)上,天图万境与华为云现场联合发布了AI“视频声效大模型”解决方案。这一创新技术不仅打破了传统AI的局限,拓宽了技术探索的边界,更为AI产业注入了新的活力。6月22日,HDC 2024大会现场,众多科技爱好者与专家共同见证了这一历史性时刻。该解决方案标志着AI在“空间智能”领域的重大突破,预示着各行各业将迎来深刻的智能化变革。
图:“视频声效解决方案”联合发布现场
“视频声效大模型”解决方案,让AI拥有感知能力
在发布会上,天图万境创始人图拉古发表《视频声效大模型催生空间智能》为主题的演讲,详细介绍了“视频声效大模型”解决方案的技术原理以及空间智能未来的发展方向。
图:天图万境创始人 图拉古
图拉古介绍,“视频声效大模型”解决方案底层基于天图万境自主研发的AI感知视听技术。这一技术突破性地赋予了AI视觉和听觉能力,使其能够像人类一样通过视觉和听觉来感知和理解世界。通过深度学习和大数据分析,AI能够识别物体属性、感知空间变化,并据此做出机器决策和行动。这一创新不仅拓宽了AI的研发技术路径,更为应用场景提供了更加智能化、高效化的解决方案。
图拉古进一步解释说,每个专用AI模型都被视为人类的神经元。通过多个AI“神经元”的相互配合和大规模数据训练,计算机能够深度理解人类生活的三维世界和数字世界中的物理规律。这种“联级神经元”框架设计,使得计算机能够在减少硬件算力依赖的同时,学习人脑的功耗比,以更高效的方式处理复杂任务。
人类是通过看、听,识别物体属性,感知空间变化。例如,看到一只猫或一辆疾驰而过的赛车时,人类不仅能识别它们的形态,还能通过经验联想到它们的声音和运动状态。然而,对于计算机而言,它只能对画面中的像素点和音频波形数值进行解析,缺乏对内容世界的深刻理解和“经验联想”能力。
而天图万境的AI感知视听技术开启了AI认知的创新之旅。通过这项技术,AI首先通过听觉和视觉来探索世界,随后借助模拟大脑经验记忆的方式,进行预测和自我修正。每个专用的AI模型,就如同人类的神经元,它们通过相互协作,在大量数据的训练下,逐渐让计算机理解并解读这个世界。例如,AI可以通过图像分割技术“学习”识别物体,判断它是一只猫或一辆赛车。
这些专业的AI“神经元”各自拥有其专业领域的深厚积累,它们能够解析这个复杂的世界,并推理出未曾见过的信息。这样的组合不仅减少了对硬件算力的依赖,而且正逐步模拟人脑的功耗比。人脑以仅仅45瓦的峰值消耗,就能处理极其复杂的任务。这种“联级神经元”的框架设计,正在让计算机深入领悟我们生活的三维世界,以及数字世界中存在的物理规律。
强强联合,AI感知视听技术大有可为
“视频声效大模型”解决方案的发布,无疑为AI产业带来了新的发展机遇。
图拉古表示,“我和我的团队一直致力于创造更加理想的空间智能。我们要让 AI拥有类人的记忆推理能力,让它理解行为意图、物质属性、运动规律、和空间关系。我们希望机器能够为人做事,或者帮人做事,知道哪些是人类需要的,并理解不同场景下人类的差异化需求,通过“联级神经元”和多样数据的训练,让机器学会自我认知和决策,可以在数字世界中,像人类一样识别多样的世界环境,理解场景的复杂性。”
通过赋予AI视觉和听觉的感知能力,该技术将推动千行百业实现智能化升级。在矿山探测领域,无人探测车可以借助AI的感知能力分辨岩石、实时监测矿井环境,提高安全性和工作效率;在消防检测领域,AI可以快速识别火源位置、预测火势蔓延路径,为应急响应提供有力支持。此外,在影视制作、具身智能、家庭康养等领域,该技术也将发挥重要作用。
天图万境与华为云在HDC 2024上签署战略合作协议,此次合作更是为“视频声效大模型”解决方案的推广和应用提供了有力支持。双方共同看好AI感知视听技术拥有的巨大应用前景和市场空间,并且促进双方在人工智能与云计算领域的深度融合。
未来,天图万境将继续在AI感知视听技术方面发力,不断追求新的突破和创新。同时,天图万境也将积极探索AI在更多领域的应用场景,推动AI技术的普及和应用,为人类创造更加美好的生活。