ElevenLabs推Scribe v1语音转文本模型 多语言高精度转录领先

AI快讯14分钟前发布 niko
0 0
豆包 - 字节AI智能助手

ElevenLabs 这家颇受关注的人工智能语音克隆与生成初创企业,于近日发布了其全新的语音转文本模型——Scribe v1。此模型宣称在多种语言的处理上达到了极高的准确性,用户可通过官网展开体验。

Scribe v1 在将口语精准转化为文本方面表现卓越,在 ElevenLabs的基准测试里,超越了谷歌的gemini2.0Flash、OpenAI的Whisper v3以及Deepgram Nova -3,实现了前所未有的低错误率。该模型支持99种语言的高精度转录,像塞尔维亚语、粤语和马拉雅拉姆语这些以往受忽视的语言也涵盖其中。

ElevenLabs 的首席研究员Flavio Schneider在社交平台X上称,Scribe v1是公司至今发布的“最具智慧的音频理解模型”。它不只是简单的转录工具,还具备理解音频内容的能力,能够检测非语言事件,比如笑声、音效、音乐以及背景噪音,并且在复杂环境下也能对长时间音频内容进行分析,实现准确的说话者区分,可在同一个音频文件中识别并隔离多达32位不同的说话者。

ElevenLabs 提醒用户,Scribe v1“最适配需要高精度转录的场景,并非实时转录”。不过该公司也有计划推出低延迟版本,以拓展其在实时应用领域的使用。

依据FLEURS和Common Voice的基准测试结果,Scribe v1在应对现实世界音频挑战时表现优异,特别是在意大利语(准确率98.7%)和英语(准确率96.7%)的单词错误率方面达到了极低水平。

Scribe v1 现已在 ElevenLabs官网和APi上线供用户使用,定价为每小时输入音频0.40美元,未来六周还能享受50%的折扣优惠。此外,针对实时应用的低延迟版本正在紧锣密鼓地开发中。

对于企业决策者来说,Scribe v1为高精度转录提供了可扩展的得力工具,适用于需要自动化文档、会议转录以及内容可及性的行业。该模型对多种语言的高精度处理能力,也会使跨国公司、媒体公司以及客户支持应用从中受益。

值得留意的是,Scribe v1的发布与竞争对手Hume的文本转语音模型Octave的发布在同一天。Octave是基于大型语言模型的文本转语音工具,用户能依据情感需求自定义AI生成的声音,主要用于内容创作,如有声书、播客和视频游戏配音等。尽管Scribev1 和Octave功能各异,但二者的发布彰显了AI驱动音频模型领域竞争的日益激烈。

© 版权声明
智谱清言 - 国产最强AI模型