MiniMax的SPeech-02改写AI语音格局
MiniMax新推出的Speech-02在AI语音领域掀起波澜,它在Artificial Analysis Speech Arena和HuggingFace TTSArena两项全球权威语音基准测评中拔得头筹,并且是榜单前十名里唯一的国产玩家,此前这两个榜首长期被OpenAI、ElEVEnLabs占据。
卓越性能与多元应用
Speech-02性能卓越,只需几秒语音参考,就能超逼真复刻声音。比如用专业播音腔读文章,能根据内容配上合适语气和情绪,中英混杂也轻松应对;还能复刻霉霉音色读论文。并且其定价仅为ElevenLabs的一半甚至四分之一。在实际应用中,前段时间大火的“AI阿祖”以及故宫AI向导,底层能力都来自MiniMax。
多样亮点与数据优势
Speech-02具有超拟人、个性化、多样性三大亮点。在超拟人方面,语音还原度极高;个性化上,提供丰富音色选择,支持32种语言,还能复刻任意音色,对声音参考样本要求不高,能自动剔除背景噪音;多样性上,支持多语言无缝切换。从数据维度看,在词错误率和说话者相似度两个维度表现出色,在多语言评估中也全面领先。
创新技术Flow-VAE与可学习说话者编码器
Speech-02强大的背后是技术创新。它采用基于自回归Transformer的架构,引入可学习说话者编码器,无需参考文本就能实现零样本语音克隆,支持跨语言语音生成,能提取更有用的特征。同时,引入基于Flow-VAE的流匹配模型,提升了生成语音的音质和说话人相似性。研究团队还探索了多种下游应用。
广泛行业落地与发展战略
MiniMax在AI语音行业落地领先,应用场景多元且跨行业、全球化。涉及教育、有声书、AI伴读、智能硬件、汽车智能座舱、3A游戏实时交互等领域。例如与高途合作的AI语言陪练系统,为极狐汽车提供即时问答服务,为跃然创新haivivi提供底层语音合成和文本模型能力等。MiniMax技术领先,在文本、语音、视频领域全模态布局且表现优异。在大模型应用落地阶段,构建“模型即产品”机制,值得行业关注。