小米大模型团队借强化学习在音频推理领域获突破并开源技术

AI快讯1年前 (2025)发布 niko

小米大模型团队音频推理取得突破小米技术官方微博透露，小米大模型团队在音频推理领域迈出重要一步。受DeepSeek-R1启发，团队创新性地把强化学习算法运用到多模态音频理解任务中。短短一周时间，便凭借64.5%的SOTA准确率，在国际权威的MMAU音频理解评测榜上拔得头筹，并同步开源相关技术。

MMAU评测集：音频推理能力的关键测试标准MMAU评测集作为测试音频推理能力的重要尺度，包含一万条语音、环境音和音乐样本，意在考察模型多技能表现。人类专家在此评测集上准确率为82.23%，当前榜单上，OpenAI的 GPT-4o以57.3%准确率领先，GoogleDeepMind的gemini2.0Flash准确率为55.6%。

技术突破：GRPO算法与Qwen2-AUdio-7B模型结合小米团队最初利用清华大学发布的AVQA数据集微调，获51.8%准确率。真正的突破是将DeepSeek-R1的GRPO算法应用于Qwen2-Audio-7B模型后，仅用AVQA的3.8万条训练样本，就实现了64.5%的准确率，成功超越现有商业模型。

实验发现：实时反馈机制的重要性研究团队发现，训练中强制模型输出推理过程，准确率降至61.1%。这表明强化学习的实时反馈机制，更有利于模型锁定高质量答案分布区域，而显式思维链输出可能不利于模型训练。尽管取得显著准确率，但与人类专家水平仍有差距。

开源举措：推动行业研究与交流小米大模型团队不仅展示了强化学习在音频推理领域的独特优势，还将训练代码、模型参数以及技术报告开源，为学术界和产业界进一步研究和交流提供便利。训练代码：https://github.com/xiaomi-rese ARCh/r1-aqa；模型参数：https://HuggingFace.co/mispeech/r1-aqa；技术报告：https://arxiv.org/abs/2503.11197；交互Demo：https://120.48.108.147:7860/

# AI快讯

文章版权归作者所有，未经允许请勿转载。