阿里通义开源R1-Omni模型：用RLVR提升多模态大语言模型能力

阿里通义实验室有新动作，其开源的R1-Omni模型，在多模态大语言模型领域引发关注。该模型首次将具有可验证奖励的强化学习（RLVR）应用其中，这一创新之举带来了显著效果。

研究人员运用RLVR对开源Omni模型HumanOmni-0.5B进行优化，使得R1-Omni在推理能力、情感识别准确性和泛化能力这三个关键维度性能大增。例如在情绪识别任务中，面对复杂的音视频信息，R1-Omni能给出模态信息与特定情绪的对应关系，展现出强大的透明性（推理能力）。

在性能提升方面，实验数据极具说服力。在同分布测试集（DFEW和MAFW）上，R1-Omni相较于原始基线模型平均提升超过35%，相较于SFT模型在UAR上的提升超10%；在不同分布测试集（RAVDESS）上，R1-Omni在WAR和UAR均提升超过13%。

模型训练过程分为两个阶段。冷启动阶段，使用组合数据集微调，让模型初步掌握多模态情感识别任务中的推理能力，为后续训练打基础。RLVR阶段则进一步优化模型，通过强化学习与可验证奖励机制，提升推理与泛化能力。

不过，R1-Omni并非完美无缺。其存在字幕识别不准、出现幻觉以及对音频线索（如语气和语调）利用率低等问题。但RLVR方法的出现，为多模态任务研究带来新方向，未来研究人员也将针对模型局限持续探索改进。

文章版权归作者所有，未经允许请勿转载。