首个真正意义上的多模态翻译系统 SeamlessM4T 开源

昨天,Meta AI团队发布了一项重要研究成果——首个真正意义上的多模态翻译系统SeamlessM4T。这无疑是跨语言无障碍交流迈出的一大步。

SeamlessM4T支持近100种语言进行语音或文本输入,可以翻译输出100种语言的文本和35种语言的语音。这是首个支持直接语音到语音翻译的系统。以往的翻译系统要么只能处理文本,要么需要先识别语音转化为文本,再翻译输出,中间环节增多了错误和延迟的风险。SeamlessM4T作为一个统一的多任务模型,可以同时处理语音识别、语音翻译、文本翻译等任务,翻译更准确流畅。

这主要得益于该团队在语音编码、文本编码、语音解码等多个方面的创新。SeamlessM4T的语音编码器通过学习大量多语种语音,能提取语音中的语义信息,无需额外语种识别。文本编码器基于NLLB模型,支持100种语言的编码。两个编码器协同工作,可处理不同语种的语音或文本输入。此外,该团队还开发了新的建模工具和语料库,进一步提升了模型性能。

可以说,SeamlessM4T实现了语音翻译的全面突破——语言覆盖广泛,翻译质量大幅提高,并支持灵活的多语种语音或文本输入与输出。这为跨语言群体的无障碍交流创造了更大可能。

如今,语言仍是一道重要的界限。据统计,全球约7000种语言中,谷歌翻译支持的语言还不到200种;而语音交互系统支持的语言更少。SeamlessM4T极大拓宽了语言覆盖面,为更多“少语种”用户提供了获得信息和表达自我的可能性。

当然,语音翻译领域还面临许多挑战,离完美系统还有一定差距。但SeamlessM4T的推出无疑是这个领域一个重要的进展。它为后续研究奠定了坚实基础,也向业界发出了进一步推动语音翻译发展的号召。让我们继续努力,推动语言科技为跨文化交流架起沟通的桥梁!