ElevenLabs推Scribe v1语音转文本模型多语言高精度转录领先

AI快讯1年前 (2025)发布 niko

ElevenLabs 这家颇受关注的人工智能语音克隆与生成初创企业，于近日发布了其全新的语音转文本模型——Scribe v1。此模型宣称在多种语言的处理上达到了极高的准确性，用户可通过官网展开体验。

Scribe v1 在将口语精准转化为文本方面表现卓越，在 ElevenLabs的基准测试里，超越了谷歌的gemini2.0Flash、OpenAI的Whisper v3以及Deepgram Nova -3，实现了前所未有的低错误率。该模型支持99种语言的高精度转录，像塞尔维亚语、粤语和马拉雅拉姆语这些以往受忽视的语言也涵盖其中。

ElevenLabs 的首席研究员Flavio Schneider在社交平台X上称，Scribe v1是公司至今发布的“最具智慧的音频理解模型”。它不只是简单的转录工具，还具备理解音频内容的能力，能够检测非语言事件，比如笑声、音效、音乐以及背景噪音，并且在复杂环境下也能对长时间音频内容进行分析，实现准确的说话者区分，可在同一个音频文件中识别并隔离多达32位不同的说话者。

ElevenLabs 提醒用户，Scribe v1“最适配需要高精度转录的场景，并非实时转录”。不过该公司也有计划推出低延迟版本，以拓展其在实时应用领域的使用。

依据FLEURS和Common Voice的基准测试结果，Scribe v1在应对现实世界音频挑战时表现优异，特别是在意大利语（准确率98.7%）和英语（准确率96.7%）的单词错误率方面达到了极低水平。

Scribe v1 现已在 ElevenLabs官网和APi上线供用户使用，定价为每小时输入音频0.40美元，未来六周还能享受50%的折扣优惠。此外，针对实时应用的低延迟版本正在紧锣密鼓地开发中。

对于企业决策者来说，Scribe v1为高精度转录提供了可扩展的得力工具，适用于需要自动化文档、会议转录以及内容可及性的行业。该模型对多种语言的高精度处理能力，也会使跨国公司、媒体公司以及客户支持应用从中受益。

值得留意的是，Scribe v1的发布与竞争对手Hume的文本转语音模型Octave的发布在同一天。Octave是基于大型语言模型的文本转语音工具，用户能依据情感需求自定义AI生成的声音，主要用于内容创作，如有声书、播客和视频游戏配音等。尽管Scribev1 和Octave功能各异，但二者的发布彰显了AI驱动音频模型领域竞争的日益激烈。

# AI快讯

文章版权归作者所有，未经允许请勿转载。

ElevenLabs推Scribe v1语音转文本模型 多语言高精度转录领先

ElevenLabs推Scribe v1语音转文本模型多语言高精度转录领先