月之暗面披露k1.5模型研发思路,反思OpenAI o1技术启示

AI快讯4天前发布 niko
6 0
AiPPT - 一键生成ppt

月之暗面研究员Flood Sung近期发表了一篇万字长文,首度详细透露了k1.5模型的研发思路,同时针对OpenAI o1模型带来的技术启示展开深度反思。

按照Flood Sung的说法,Long-CoT(长链条思维)的重要性早在一年多前就被月之暗面联合创始人Tim周昕宇证实。通过利用小型模型训练多位数运算,并把细粒度运算过程转化成长链条思维数据进行SFT(有监督微调),能够取得显著成效。

QQ20250217-143705.png

不过,由于成本因素的限制,月之暗面此前将重点置于Long Context(长文本输入)的优化上。Flood Sung解释称,LongContext主要针对输入端进行处理,借助Prefill预填充和Mooncake技术,可较好地把控成本和速度。与之相比,Long-CoT侧重于输出端,需要更高的成本以及更长的处理时间。

OpenAI o1的发布使团队重新审视技术方向的优先级。“性能才是关键所在,”FloodSung表示,“随着技术的进步,成本和速度会不断优化,首要任务是先实现性能突破。”基于这一认知,月之暗面现已全面推进Long-CoT研究,致力于让模型具备更接近人类的自由思考能力。

此次技术解密文章的发布,意味着月之暗面已着手系统性地对标o1模型,并在相关领域开展实质性研究。

解密o1破解过程的万字长文: https://mp.weixin.qq.com/s/sJmT-tM3A-mglZ1d4OI80A

© 版权声明
智谱清言 - 国产最强AI模型