阿里通义开源R1-Omni模型:用RLVR提升多模态大语言模型能力

AI快讯4小时前发布 niko
0 0
AiPPT - 一键生成ppt

阿里通义实验室有新动作,其开源的R1-Omni模型,在多模态大语言模型领域引发关注。该模型首次将具有可验证奖励的强化学习(RLVR)应用其中,这一创新之举带来了显著效果。

研究人员运用RLVR对开源Omni模型HumanOmni-0.5B进行优化,使得R1-Omni在推理能力、情感识别准确性和泛化能力这三个关键维度性能大增。例如在情绪识别任务中,面对复杂的音视频信息,R1-Omni能给出模态信息与特定情绪的对应关系,展现出强大的透明性(推理能力)。

在性能提升方面,实验数据极具说服力。在同分布测试集(DFEW和MAFW)上,R1-Omni相较于原始基线模型平均提升超过35%,相较于SFT模型在UAR上的提升超10%;在不同分布测试集(RAVDESS)上,R1-Omni在WAR和UAR均提升超过13%。

模型训练过程分为两个阶段。冷启动阶段,使用组合数据集微调,让模型初步掌握多模态情感识别任务中的推理能力,为后续训练打基础。RLVR阶段则进一步优化模型,通过强化学习与可验证奖励机制,提升推理与泛化能力。

不过,R1-Omni并非完美无缺。其存在字幕识别不准、出现幻觉以及对音频线索(如语气和语调)利用率低等问题。但RLVR方法的出现,为多模态任务研究带来新方向,未来研究人员也将针对模型局限持续探索改进。

© 版权声明
智谱清言 - 国产最强AI模型