MiniMax-M1：全球首个开源混合注意力推理模型的技术突破与应用潜力

MiniMax-M1作为全球首个开源、大规模实现混合注意力的推理模型，在大模型技术浪潮中脱颖而出。在推理模型成为新趋势的当下，大模型公司MiniMax推出了自研的MiniMax-M1。

该模型在长上下文理解能力上极为出色，是全球前二的模型，且具备极高的训练和推理性价比。它延续MoE架构，总参数达4560亿，原生支持100万token的上下文长度输入和80ktoken的输出长度。在多个评测基准中，其表现超越众多开源模型，甚至超过部分闭源模型，仅小幅落后SOTA的gemini 2.5Pro。此外，在智能体工具使用维度上，MiniMax-M1 已是市面上能力最强的模型。

从架构和算法来看，MiniMax-M1实现了「双线创新」。在底层架构上，它是唯一用线性注意力机制「大改」传统Transformer架构以大规模实现混合注意力的MoE推理模型；在算法层面，提出了新的强化学习算法CISPO。采用混合注意力机制Lightning Attention代替传统SoftmaxAttention，虽在推理时有显著效率优势，但也面临新挑战。针对此，CISPO算法避免丢弃任何token，维持合理熵值，训练效率大幅提高，训练成本显著下降。

通过官方发布的几个demo，能看到MiniMax-M1的强大能力。它可以根据自然语言生成复杂迷宫游戏、搭建测试打字速度的网页、制作可拖拽的便签墙等，这些都指向通用agent中产品化feature的可能性，符合MiniMax以产品起势的路线。

MiniMax-M1的出现，背后是MiniMax从传统稠密模型与Transformer架构，转向MoE与线性注意力机制的探索。从投入大量资源研发国内首个MoE大模型abab6，到引入线性注意力机制的MiniMax-Text-01，再到基于此进行创新的MiniMax-M1，体现了其在模型层面的研发实力。MiniMax-M1是全球最先抵达80k上下文输出的推理模型，在多方面展现出优势。此次发布的M1拉开了MiniMaxWeek的序幕，未来将公布更多多模态模型的技术进展。

# AI快讯

文章版权归作者所有，未经允许请勿转载。