小米技术官微今日(3 月 17 日)发文称,小米大模型团队在音频推理领域取得突破性进展。
受 DeepSeek-R1 启发,团队率先将强化学习算法应用于多模态音频理解任务,仅用一周时间便以 64.5% 的 SOTA 准确率登顶国际权威的 MMAU 音频理解评测榜首,现同步开源。
DeepSeek-R1 的 Group Relative Policy Optimization (GRPO) 方法,让模型仅通过"试错-奖励"机制就能使自主进化,涌现出类似人类的反思、多步验证等推理能力。
该团队尝试将 DeepSeek-R1 的 GRPO 算法迁移到 Qwen2-Audio-7B 模型上。
在仅使用 AVQA 的 3.8 万条训练样本的情况下,强化学习微调后的模型在 MMAU 评测集上实现了 64.5% 的准确率,这一成绩比目前榜单上第一名的商业闭源模型 GPT-4o有近 10 个百分点的优势。
尽管当前准确率已突破 64%,但距离人类专家 82% 的水平仍有差距。
有趣的是,官方提供的交互 demo 中,默认分析的便是雷总 2015 年“R U OK”的视频。
本文源自:IT之家
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.