Meta 的开源语音 AI 项目 MMS 可识别 4000 多种口头语言-华西金属网

当前位置：聚焦 > 详情

Meta 的开源语音 AI 项目 MMS 可识别 4000 多种口头语言

2023-05-23 10:58:48 来源：站长之家

编程客栈() 5月23日消息:Meta 公司的人工智能研究团队今天宣布开源一个名为「Massively Multilingual Speech（大规模多语言语音）」的新项目，旨在解决创建准确可靠的语音识别模型的挑战。

图片来自Meta

(资料图)

能够识别人类语音并清晰回应的 AI 模型具有巨大的潜力，特别是对于完全依赖语音访问获取信息的人来说。然而，训练高质量的模型通常需要大量的数据，包括数千小时的音频和对话内容的转录。对于许多语言，特别是那些较为冷门的语言，这样的数据根本不存在。

Meta 的 MMS 项目通过将一种名为 wav2vec 2.0 的自监督学习算法与一个提供ECUHiuM了超过 1，100 种语言标记数据和近 4，000 种语言无标记数据的新数据集相结合，克服了数据不足的问题。

为了解决某些语言数据缺乏的问题，Meta 的研究人员利用《圣经》这本在很多语言中已经被翻译的书籍。其翻译通常被用于基于文本的语言翻译研究，并且许多语言而且，还有人们朗读这些文本的公开可用的音频录音。

「作为这个项目的一部分，我们创建了一个包含 1，100 多种语言新约圣经的数据集，平均每种语言提供了 32 小时的数据量，」Meta 的研究人员说道。

当然，32 小时的数据量不足以训练传统的有监督语音识别模型，这就是为什么使用 wav2vec 2.0 的原因。Wav2vec 2.0 是一种自监督学习算法，使机器能够在不依赖于标记训练数据的情况下学习。

借助这种算法，可以用更少的数据训练语音识别模型。MMS 项目在 1，40ECUHiuM0 多种语言中的约 500，000 小时的语音数据上训练了多个自监督模型，然后对生成的模型进行了js特定的语音任务微调，如多语言语音识别或语言识别。

Meta 表示，生成的模型在 FLEURS 等标准评估以及与其他语音识别模型的比较中表现良好。

「我们使用了一个包含 1B 参数的 wav2vec 2.0 模型在 1，100 多种语言上训练了多语言语音识别模型，」Meta 的研究人员解释道，「随着语言数量的增加，性能确实会下降，但幅度很小，：从 61 种语言增加到 1，107 种语言，字符错误率仅android增加约 0.4%，但语言覆盖范围增加了 17 倍以上。」

在与 OpenAI LP 的 Whisper 语音识别模型进行直接比较时，Meta 的研究人员发现，使用 MMS 数据训练的模型的单词错误率大约是其一半。「这表明我们的模型在与目前最佳的语音模型相比时表现非常出色，」研究人员表示。

Meta 表示，现在他们正在分享 MMS 数据集和用于改进和训练模型的工具，以便 AI 研究界的其他人能够在此基础上进行进一步的工作。MMS 项目的目标包括扩大其覆盖范围以支持更多的语言，并改善对方言的处理，这是现有语音技术所面临的主要挑战。

「我们的目标是让人们更容易以自己偏好的语言获取信息和使用设备，」研究人员说道，「我们还设想未来的情景是，一个单一模型能够解决所有语言的多种语音任务。虽然我们训练了独立的语音识别、语音合成和语言识别模型，但我们相信将来一个单一模型将能够完成所有这些任务，带来更好的整体性能。」

关键词：

叶嘉莹等三位学者获第六届世界中国学贡献奖

铝

铝价何时止跌？从成本端的角度来分析

造福人类的“幸福草”（开卷知新）