Meta近期与联合国教科文组织携手,共同开启一项全新的语言技术伙伴计划。此计划的核心目标,在于广泛收集多种语言的语音录音以及文字记录,进而助力未来开放可用的人工智能发展。尤其值得关注的是,那些在数字环境里常被忽视的少数民族语言,成为了该计划重点聚焦的对象。
据Meta透露,这项计划积极寻求合作伙伴,期望他们能提供超10小时的语音录音及其转录内容、丰富书面文本以及翻译句子集合。通过与各方伙伴协同努力,Meta打算把这些语言融入自身的AI语音识别和翻译模型之中,最终成果将以开源形式对外发布。

截至目前,加拿大北部的努纳武特地区政府已确定成为合作伙伴,该地区部分居民所使用的因纽特语也被纳入计划范畴。Meta在其博客中表明:“我们的工作特别关注服务不足的语言,以此支持联合国教科文组织的相关工作。我们的终极目标,是打造出能够理解并回应复杂人类需求的智能系统,不论其语言或文化背景如何。”
为配合这一计划的推进,Meta还将发布一款开放源代码的机器翻译基准,其主要功能是评估语言翻译模型的性能。此基准由语言学家精心设计,支持七种语言,并且可以通过AI开发平台HuggingFace进行访问与贡献。
Meta将这两项举措视为慈善性质的行动,不过公司自身也将从语音识别和翻译模型的升级中获益。Meta不断拓展其AI助手MetaAI所支持的语言数量,同时还在测试如Instagram Reels中语音翻译等功能,为创作者提供语音配音和自动同步等便利。
尽管Meta在语言处理领域的努力可圈可点,但该公司在非英语内容处理方面曾饱受批评。有报告指出,Facebook在处理意大利语和西班牙语的COVID-19虚假信息时,近70%的内容未被标记,而英语内容的未标记比例仅为29%。此外,泄露文件显示,阿拉伯语内容常被误判为仇恨言论。Meta表示正在采取措施改进其翻译和内容审核技术,以应对这些问题。