SCoT与AtomThink:创新推理范式提升多模态大模型表现

AI快讯3个月前发布 niko
11 0
AiPPT - 一键生成ppt

自结构化推理链SCoT与全过程框架AtomThINK亮相。当下,结构化和非结构化CoT面临诸多挑战,现有方法存在推理行为单一、需人工设计模版、计算效率低等问题。在此背景下,来自中山大学、香港科技大学等机构的研究团队提出了两个假设,为解决这些问题,引入了自结构化思维链(SCoT)和全过程训推框架AtomThink。

SCoT的独特机制。SCoT即自结构化推理链,它将推理过程分解为最小语义单元——原子步骤,通过多轮预测方法动态生成推理链。模型每次仅预测一个原子步骤,并将其附加到历史推理步骤中作为下一轮推理输入。同时,为应对模型推理异常,还引入了基于规则的过滤机制和温度累积策略,增强了推理的多样性和流畅性。

AtomThink框架的关键模块。AtomThink框架包含数据引擎、原子步骤微调、策略引导的多轮推理、原子能力评估四个关键模块。数据引擎通过动态提示策略和短推理增强方法生成高质量多步推理路径,构建AMATH数据集;原子步骤微调采用步骤级掩码训练,让模型学习独立推理步骤;策略引导的多轮推理结合路径搜索和步骤搜索策略扩展推理空间;原子能力评估基于推理行为聚类和步骤利用率计算,评估模型在不同推理能力上的表现。

实验成果显著 。研究团队选取不同规模的LLaVA1.5 – 7B和LLaMA3.2 – Vision -11B作为基线模型进行实验。结果显示,在多个数据集上,AtomThink框架显著提升了基线模型的准确率,在MathVista、MathVerse和MathVision数据集上,Llama3.2- Vision -11B的准确率分别提高10.9%、10.2%和7.2%。与现有结构化CoT方法相比,AtomThink在准确率、数据利用效率和推理效率上优势明显,数据利用效率提升5倍,推理效率提升85.3%。

多样推理能力与自适应表现。SCoT能够动态生成更多样化的推理结构,涵盖图像描述、数据提取、逻辑推理、因果推理等多种能力。模型还能根据问题复杂度自动调整推理链长度,展现出自适应的深度探索能力。此外,通过原子能力评估发现模型存在推理误差累计现象,提示未来需关注推理初期的质量控制。

研究资源公开。相关论文可在https://arxiv.org/pdf/2503.06252查看,开源仓库为https://github.com/Quinn777/AtomThink。

© 版权声明
Trea - 国内首个原生AI IDE