MiniMax Speech-02突破AI语音极限，Flow-VAE引领行业变革

AI快讯1年前 (2025)发布 niko

MiniMax的SPeech-02改写AI语音格局

MiniMax新推出的Speech-02在AI语音领域掀起波澜，它在Artificial Analysis Speech Arena和HuggingFace TTSArena两项全球权威语音基准测评中拔得头筹，并且是榜单前十名里唯一的国产玩家，此前这两个榜首长期被OpenAI、El EVEnLabs占据。

卓越性能与多元应用

Speech-02性能卓越，只需几秒语音参考，就能超逼真复刻声音。比如用专业播音腔读文章，能根据内容配上合适语气和情绪，中英混杂也轻松应对；还能复刻霉霉音色读论文。并且其定价仅为ElevenLabs的一半甚至四分之一。在实际应用中，前段时间大火的“AI阿祖”以及故宫AI向导，底层能力都来自MiniMax。

多样亮点与数据优势

Speech-02具有超拟人、个性化、多样性三大亮点。在超拟人方面，语音还原度极高；个性化上，提供丰富音色选择，支持32种语言，还能复刻任意音色，对声音参考样本要求不高，能自动剔除背景噪音；多样性上，支持多语言无缝切换。从数据维度看，在词错误率和说话者相似度两个维度表现出色，在多语言评估中也全面领先。

创新技术Flow-VAE与可学习说话者编码器

Speech-02强大的背后是技术创新。它采用基于自回归Transformer的架构，引入可学习说话者编码器，无需参考文本就能实现零样本语音克隆，支持跨语言语音生成，能提取更有用的特征。同时，引入基于Flow-VAE的流匹配模型，提升了生成语音的音质和说话人相似性。研究团队还探索了多种下游应用。

广泛行业落地与发展战略

MiniMax在AI语音行业落地领先，应用场景多元且跨行业、全球化。涉及教育、有声书、AI伴读、智能硬件、汽车智能座舱、3A游戏实时交互等领域。例如与高途合作的AI语言陪练系统，为极狐汽车提供即时问答服务，为跃然创新haivivi提供底层语音合成和文本模型能力等。MiniMax技术领先，在文本、语音、视频领域全模态布局且表现优异。在大模型应用落地阶段，构建“模型即产品”机制，值得行业关注。

# AI快讯

文章版权归作者所有，未经允许请勿转载。