Facebook推出首个无需依赖英语的多语言机器翻译模型

Facebook推出首个无需依赖英语的多语言机器翻译模型
  • Facebook AI正在推出M2M-100,这是第一个多语言机器翻译(MMT)模型,可以在不依赖英语数据的情况下在任何100对语言之间进行翻译。在这里已经开源。
  • 例如,将中文翻译为法语时,大多数以英语为中心的多语言模型都将中文培训为英语,将英语培训为法语,因为英语培训数据最为广泛。该模型直接训练中文到法语的数据,以更好地保留含义。在评估机器翻译的广泛使用的BLEU指标上,它比以英语为中心的系统好10个百分点。
  • M2M-100总共接受了2200种语言指导的培训,比以前最好的以英语为中心的多语言模型要多10倍。部署M2M-100将为数十亿人(尤其是那些使用低资源语言的人)提高翻译质量。
  • 这个里程碑是Facebook AI在机器翻译领域多年基础工作的结晶。今天将分享有关如何为100种语言建立更多样化的MMT培训数据集和模型的详细信息。fb还将发布模型,培训和评估设置,以帮助其他研究人员重现并进一步推进多语言模型。 

通过机器翻译(MT)打破语言障碍使人们团结在一起,提供有关COVID-19的权威信息并保护他们免受有害内容侵害的最重要方法之一。今天,我们平均在Facebook动态消息每20天十亿翻译,得益于最近在发展低资源机器翻译最新进展进行评估翻译质量

典型的MT系统需要针对每种语言和每种任务构建单独的AI模型,但是这种方法无法在Facebook上有效扩展,因为Facebook上人们用数十种帖子发布超过160种语言的内容。先进的多语言系统可以一次处理多种语言,但是通过依赖英语数据来弥合源语言和目标语言之间的鸿沟,会降低准确性。所以需要一个多语言机器翻译(MMT)模型,该模型可以翻译任何语言,其中近三分之二使用英语以外的语言。获取更多前沿科技信息访问:https://byteclicks.com

在Facebook多年的MT研究中,fb宣布一个重要的里程碑:第一个单一的大型MMT模型,可以直接在任何方向上翻译100×100语言,而无需仅依赖以英语为中心的数据。单一多语言模型的表现与传统双语模型一样,并且比以英语为中心的多语言模型提高了10个BLEU点。  通过使用新颖的挖掘策略来创建翻译数据,fb构建了第一个真正的“多对多”数据集,其中包含针对100种语言的75亿个句子。fb使用了几种缩放技术来构建具有150亿个参数的通用模型,该模型可以捕获来自相关语言的信息,并反映出更加多样化的语言和形态脚本。fb在这里将这项工作开源。

挖掘成千上万种语言方向的数以百万计的句子

建立多对多MMT模型的最大障碍之一是针对不涉及英语的任意翻译方向管理大量高质量的句子对(也称为平行句子)。查找中文到英语和英语到法语的翻译比说法语到中文要容易得多。此外,训练所需的数据量与支持的语言数量成倍增长。例如,如果每个方向需要10M句子对,则需要为10种语言挖掘1B句子对,为100种语言挖掘100B句子对。

fb面临着一个雄心勃勃的挑战,要建立迄今为止最多样化的多对多MMT数据集:跨越100种语言的75亿个句子对。通过结合已经使用了多年的补充数据挖掘资源(包括ccAlignedccMatrixLASER),这是可能的。作为这项工作的一部分,fb创建了新的LASER 2.0和改进的fastText语言识别,从而提高了挖掘质量,并包括开源的训练和评估脚本。fb所有的数据挖掘资源都利用公开可用的数据,并且是开源的。

Facebook AI的新的多对多多语言模型是MT在突破性模型,数据挖掘资源和优​​化技术方面的多年开拓工作的结晶。该时间表重点介绍了一些值得关注的成就。此外,fb通过挖掘ccNET创建了庞大的训练数据集,该数据集建立在处理词表示形式的先驱工作fastText的基础上;fb用于CCMatrix的LASER库,可将句子嵌入多语言嵌入空间中;和CCAligned,这是fb根据URL匹配来对齐文档的方法。作为这项工作的一部分,fb创建了LASER 2.0,对以前的结果进行了改进。

即使使用LASER 2.0之类的先进基础技术,对于100种不同语言(或4,450种可能的语言对)中的任意一对挖掘大规模训练数据也需要大量计算。为了使这种类型的挖掘规模更易于管理,首先关注翻译请求最多的语言。

接下来,fb引入了一种新的过度挖掘策略,该策略根据语言分类,地理和文化相似性将语言分为14个语言组。生活在具有相同家庭语言的国家/地区的人们倾向于交流更多,并且会受益于高质量的翻译。例如,一组将包括在印度使用的语言,例如孟加拉语,北印度语,马拉地语,尼泊尔语,泰米尔语和乌尔都语。系统地挖掘了每个组中所有可能的语言对。

为了连接不同组的语言,确定了少数过度语言,通常是每个组的一到三种主要语言。在上面的示例中,印地语,孟加拉语和泰米尔语是印度-雅利安语言的过渡语言。然后为这些桥梁语言的所有可能组合挖掘了并行训练数据。使用这种技术,训练数据集最终获得了75亿条并行数据,对应2200个方向。由于挖掘的数据可用于训练给定语言对的两个方向(例如,en-> fr和fr-> en),因此挖掘策略可帮助有效地稀疏地进行挖掘,以最好地覆盖所有100×100(总共9,900个) )的方向。

为了补充低翻译质量的低资源语言的并行数据,fb使用了流行的反向翻译方法,这有助于fb在2018年2019年WMT国际机器翻译比赛中获得第一名。例如,如果我们的目标是训练汉语到法语的翻译模型,我们首先会训练法语到汉语的模型,然后将所有单语的法语数据翻译成合成的,反向翻译的中文。fb发现,这种方法在翻译成千上万亿时特别有效将单语句子组合成并行数据集。fb使用反翻译来补充已经挖掘的方向训练,将合成的反翻译数据添加到挖掘的并行数据中。而且,使用反向翻译为先前未受监管的路线创建数据。 

总体而言,与仅对挖掘数据进行训练相比,过渡策略和反向翻译数据的组合将100个反向翻译方向的性能平均提高了1.7个BLEU。通过提供更强大,高效,高质量的培训,fb为建立和扩展多对多模型奠定了坚实的基础。 

高速,高质量地将MMT模型扩展到150亿个参数

多语言翻译中的一个挑战是,单一模型必须以多种不同语言和多种脚本捕获信息。为了解决这个问题,fb看到了扩展模型容量并添加特定于语言的参数的明显好处。缩放模型大小对于高资源语言对特别有用,因为它们具有最多的数据来训练额外的模型容量。最终,当将模型大小密集地缩放到120亿个参数时,在所有语言方向上平均看到的平均BLEU改进为1.2 BLEU,此后,进一步密集缩放所带来的回报减少。密集缩放和特定于语言的稀疏参数(32亿个)的组合使其能够创建一个具有150亿个参数的更好模型。

Facebook推出首个无需依赖英语即可翻译100种语言的AI模型

Fb将模型与双语基准和以英语为中心的多语言模型进行比较。从具有24个编码器层和24个解码器层的12亿个参数基线开始,然后将以英语为中心的模型与M2M-100模型进行比较。接下来,如果将12B参数与12亿个参数进行比较,fb开发的模型将获得1.2 BLEU的改进点。

为了增加模型大小,fb增加了Transformer网络中的层数以及每层的宽度。fb发现大型模型可以快速收敛并以高数据效率进行训练。值得注意的是,这个多对多系统是第一个利用Fairscale的系统,Fairscale是专门设计用于支持管道和张量并行性的新PyTorch库。Fb建立了这种通用基础架构,以通过将模型并行化到Fairscale中来容纳不适用于单个GPU的大型模型。fb建立在之上 零优化层内模型的并行,和流水线模式并行培养大型模型。

但是仅仅将模型扩展到数十亿个参数是不够的。为了将来能够生产此模型,需要通过高速训练来尽可能有效地缩放模型。例如,许多现有工作使用多模型集成,其中训练了多个模型并将其应用于相同的源语句以产生翻译。为了降低训练多个模型所需的复杂性和计算量,fb探索了多源自组装技术,该技术可将源句子翻译成多种语言以提高翻译质量。此外,fb基于LayerDropDepth-Adaptive构建了研究工作,以共同训练具有公共干线和不同语言特定参数集的模型。这种方法对多对多模型非常有用,因为它提供了一种自然的方式来按语言对或语言族来拆分模型的各个部分。通过将模型容量的密集缩放与特定于语言的参数(总计3B)相结合,可以提供大型模型的优势以及学习不同语言的专门层的能力。

在通往一种多语言模型的道路上

多年来,人工智能研究人员一直在努力构建一个通用模型,该模型可以理解跨不同任务的所有语言。支持所有语言,方言和模式的单一模型将帮助我们更好地为更多的人服务,保持翻译最新,并为数十亿人创造新的体验。这项工作使fb更加接近了这一目标。 

作为这项工作的一部分,fb已经看到了预训练的语言模型,微调和自我监督技术方面的快速发展。这项集体研究可以进一步提高系统如何使用未标记的数据来理解低资源语言的文本。例如,XLM-R是fb强大的多语言模型,可以从一种语言中学习数据,然后以最先进的准确性以100种语言执行任务。mBART是针对多种语言针对BART任务预训练完整模型的首批方法之一。最近,fb的新的自我监督方法CRISS使用来自许多不同语言的未标记数据来挖掘跨语言的并行句子,并以迭代方式训练新的,更好的多语言模型。

fb将通过整合此类前沿研究,探索部署MT系统的方式以及创建将其投入生产所需的更加专业的计算架构,来继续改进模型。 

上一篇:

下一篇:


标签