昆仑万维发布Skywork R1V系列模型,开启多模态强推理新时代

AI快讯1个月前发布 niko
8 0
AiPPT - 一键生成ppt

3月18日,昆仑万维正式推出SkyworkR1V系列模型,在多模态推理领域迈出重要一步,实现了SOTA级别的视觉推理与强大通用推理能力,成为国内第一家开源多模态思维链推理模型的企业。

昆仑万维此次开源的R1V模型权重与技术报告,为行业研究与应用提供了有力支持。从基准测试结果看,R1V-38B在数学推理、代码生成等任务中表现优异,超越部分传统多模态模型与开源大模型,在权威数学推理基准测试中取得高分,展现人类专家级水准。

在视觉能力方面,R1V凭借创新的跨模态迁移技术与优化框架,实现强文本推理能力的多模态迁移,在视觉推理任务中成绩出色,达到与更大规模闭源模型媲美的水平,更成为全球首个在数学推理能力上接近OpenAIo1的开源多模态模型。

R1V视觉推理模型具备强大的跨模态推理能力,可同时处理文本与视觉信息,在复杂逻辑推理、数学问题、科学分析及医学影像诊断等场景中均有出色表现。通过实际测试,无论是不同学科题目还是视觉场景任务,R1V都能应对自如。

昆仑万维R1V模型成功的关键在于三大核心技术创新。其一,高效多模态推理能力迁移,利用轻量级Skywork-VL视觉投影器,实现文本推理能力向视觉任务的高效迁移。其二,多模态混合式训练,将迭代监督微调与DeepSeek-R1的核心RL算法群组相结合,分阶段提升跨模态任务表现。其三,自适应长度思维链蒸馏(AL-CoTD),引入自适应推理链长度控制机制,结合多阶段自蒸馏策略,提升数据生成与推理质量。

在训练过程中,R1V通过“三阶段方法”将文本端推理能力高效迁移至视觉任务。首先是视觉语言表征的初始对齐,其次是推理能力迁移,最后是视觉与文本模态精准对齐。这一高效训练策略使R1V在跨多学科的公开评测基准中取得突破性进展。

昆仑万维开源R1V模型,旨在推动全球学术研究与产业应用探索。目前,其Skywork团队正在进行全模态技术探索,构建全模态思考大模型,未来将公布相关评测成绩并开源该模型。

从DeepSeek-R1提出到如今多模态大模型的发展,AI领域发展加速。昆仑万维在多模态领域不断探索,建立AI产品矩阵,发布世界模型Matrix-Zero系列,彰显其开源初心,形成完整产业链,为AGI发展贡献力量。

© 版权声明
Trea - 国内首个原生AI IDE