通义实验室开源R1-Omni模型 助力多模态情感识别发展

AI快讯3个月前发布 niko
37 0
AiPPT - 一键生成ppt

3月11日,通义实验室团队有重大举措,将R1-Omni模型开源,这无疑给全模态模型发展注入新动力,带来全新突破。

R1-Omni模型借助强化学习与可验证奖励(RLVR)方法,着重增强多模态情感识别任务里的推理能力与泛化性能。其训练分两个重要阶段。

冷启动阶段,团队运用包含580条视频数据的组合数据集微调,数据源于Explainable Multimodal EmotionReasoning(EMER)数据集和HumanOmni数据集。此阶段目的明确,为模型奠定基础推理能力,让它在进入RLVR阶段前就拥有一定多模态情感识别能力,保障后续训练的平稳、高效与稳定。

RLVR阶段,模型借助强化学习与可验证奖励机制深度优化。策略模型和奖励函数在此阶段至关重要。策略模型负责处理由视频帧和音频流构成的多模态输入数据,生成带有详细推理过程的候选响应,呈现模型整合视觉和听觉信息以作出预测的过程。奖励函数受DeepSeekR1启发,分为精确率奖励和格式奖励两部分,共同构成最终奖励,既激励模型产生正确预测,又确保输出结构化且符合预设格式。

实验成果显著,R1-Omni在同分布测试集DFEW和MAFW上,相比原始基线模型平均提升超35%,在未加权平均召回率(UAR)上比有监督微调(SFT)模型提升高达10%以上。在不同分布测试集RAVDESS上,加权平均召回率(WAR)和UAR均提升超13%,泛化能力十分卓越。此外,R1-Omni凭借RLVR方法,展现出显著透明性优势,音频和视频信息在模型中的作用清晰可见,能明确展示各模态信息对特定情绪判断的关键作用,为理解模型决策过程和后续研究提供重要参考。

论文: https://arxiv.org/abs/2503.05379

Github: https://github.com/HumanMLLM/R1-Omni

模型: https://www.modelscope.cn/models/iic/R1-Omni-0.5B

© 版权声明
Trea - 国内首个原生AI IDE