通义实验室开源R1-Omni模型助力多模态情感识别发展

3月11日，通义实验室团队有重大举措，将R1-Omni模型开源，这无疑给全模态模型发展注入新动力，带来全新突破。

R1-Omni模型借助强化学习与可验证奖励（RLVR）方法，着重增强多模态情感识别任务里的推理能力与泛化性能。其训练分两个重要阶段。

冷启动阶段，团队运用包含580条视频数据的组合数据集微调，数据源于Explainable Multimodal EmotionReasoning（EMER）数据集和HumanOmni数据集。此阶段目的明确，为模型奠定基础推理能力，让它在进入RLVR阶段前就拥有一定多模态情感识别能力，保障后续训练的平稳、高效与稳定。

RLVR阶段，模型借助强化学习与可验证奖励机制深度优化。策略模型和奖励函数在此阶段至关重要。策略模型负责处理由视频帧和音频流构成的多模态输入数据，生成带有详细推理过程的候选响应，呈现模型整合视觉和听觉信息以作出预测的过程。奖励函数受DeepSeekR1启发，分为精确率奖励和格式奖励两部分，共同构成最终奖励，既激励模型产生正确预测，又确保输出结构化且符合预设格式。

实验成果显著，R1-Omni在同分布测试集DFEW和MAFW上，相比原始基线模型平均提升超35%，在未加权平均召回率(UAR)上比有监督微调（SFT）模型提升高达10%以上。在不同分布测试集RAVDESS上，加权平均召回率(WAR)和UAR均提升超13%，泛化能力十分卓越。此外，R1-Omni凭借RLVR方法，展现出显著透明性优势，音频和视频信息在模型中的作用清晰可见，能明确展示各模态信息对特定情绪判断的关键作用，为理解模型决策过程和后续研究提供重要参考。

论文: https://arxiv.org/abs/2503.05379

Github: https://github.com/HumanMLLM/R1-Omni

模型: https://www.modelscope.cn/models/iic/R1-Omni-0.5B

# AI快讯

文章版权归作者所有，未经允许请勿转载。

通义实验室开源R1-Omni模型 助力多模态情感识别发展

通义实验室开源R1-Omni模型助力多模态情感识别发展