MiniMax-M1作为全球首个开源、大规模实现混合注意力的推理模型,在大模型技术浪潮中脱颖而出。在推理模型成为新趋势的当下,大模型公司MiniMax推出了自研的MiniMax-M1。
该模型在长上下文理解能力上极为出色,是全球前二的模型,且具备极高的训练和推理性价比。它延续MoE架构,总参数达4560亿,原生支持100万token的上下文长度输入和80ktoken的输出长度。在多个评测基准中,其表现超越众多开源模型,甚至超过部分闭源模型,仅小幅落后SOTA的gemini 2.5Pro。此外,在智能体工具使用维度上,MiniMax-M1 已是市面上能力最强的模型。
从架构和算法来看,MiniMax-M1实现了「双线创新」。在底层架构上,它是唯一用线性注意力机制「大改」传统Transformer架构以大规模实现混合注意力的MoE推理模型;在算法层面,提出了新的强化学习算法CISPO。采用混合注意力机制Lightning Attention代替传统SoftmaxAttention,虽在推理时有显著效率优势,但也面临新挑战。针对此,CISPO算法避免丢弃任何token,维持合理熵值,训练效率大幅提高,训练成本显著下降。
通过官方发布的几个demo,能看到MiniMax-M1的强大能力。它可以根据自然语言生成复杂迷宫游戏、搭建测试打字速度的网页、制作可拖拽的便签墙等,这些都指向通用agent中产品化feature的可能性,符合MiniMax以产品起势的路线。
MiniMax-M1的出现,背后是MiniMax从传统稠密模型与Transformer架构,转向MoE与线性注意力机制的探索。从投入大量资源研发国内首个MoE大模型abab6,到引入线性注意力机制的MiniMax-Text-01,再到基于此进行创新的MiniMax-M1,体现了其在模型层面的研发实力。MiniMax-M1是全球最先抵达80k上下文输出的推理模型,在多方面展现出优势。此次发布的M1拉开了MiniMaxWeek的序幕,未来将公布更多多模态模型的技术进展。