Huginn模型带来语言模型新突破图宾根埃利斯研究所、马里兰大学和劳伦斯利弗莫尔国家实验室的研究团队,成功开发出新型语言模型Huginn。该模型采用递归架构,在提升推理能力方面成效显著。
独特的自主推理模式Huginn与传统模型差异明显,无需专门的“推理链”训练,可在神经网络的“潜在空间”内自主完成推理,然后输出结果,这种自主推理能力为其一大亮点。
大规模训练与独特方法 Huginn模型在Frontier超级计算机上,利用4096个AMDGPU展开大规模训练。其训练方法别具一格,采用可变计算迭代次数,系统随机决定重复计算模块的次数,以此让模型更好适应不同任务复杂度。
数学与编程测试中的突出表现测试数据显示,Huginn在数学和编程任务里表现优异。在GSM8k和MATH基准测试中,超越了参数规模和训练数据量数倍于自身的开源模型。研究人员发现,Huginn能根据任务复杂性调整计算深度,在“潜在空间”发展出推理链。
潜力与未来展望尽管Huginn的绝对性能还有提升空间,但作为概念验证模型,已展现出巨大潜力。未来,采用Huginn架构的大型模型有望替代传统推理模型。研究团队还计划探索强化学习等扩展方法,进一步挖掘模型潜能。
© 版权声明
文章版权归作者所有,未经允许请勿转载。