无需依赖英语数据,种语言互译,脸书推出「

译者:AI研习社(季一帆)

双语原文链接:Is The Data Science Profession At Risk of Automation?

Facebook AI首次提出多语言机器翻译(MMT)模型——M2M -100,该模型可以在不依赖英语数据的情况下在任何100种语言间进行翻译。该项目已开源。

由于英语训练数据非常广泛,之前的中法翻译模型会分别训练中文与英语以及英语与法语的翻译模型,通过英语作为中间环节实现翻译。本文模型直接应用中文与法语的训练数据,以更好保留语义。计算BLEU指标,表明其高于以英语中转的系统约10个百分点。

M2M-100总共使用2200种语言进行训练,这比但之前最好的以英语为中心的多语言模型要多10倍。通过M2M-100模型,将有助于十亿人的翻译工作,对于低资源语言的翻译提升更加显著。

Facebook AI经多年在机器翻译方面的耕耘,如今终于实现该里程碑式的结果。接下来,我们将介绍具体的研究工作,包括为100种语言建立的翻译训练数据、模型的细节和训练。同时,我们还将开源该模型,并发布模型的训练和评估设置,以方便其他研究人员的复现,以此为基础进一步推动多语言模型的发展。

机器翻译(MT)能够打破语言障碍,将不同语种的人团结起来,为不同人群提供有关COVID的权威信息以帮助他们避免感染。得益于我们在低资源机器翻译及翻译质量评估的最新研究与进展,现在,我们每天能够在Facebook News Feed上提供近200亿次翻译。

典型的MT系统需要对不同语言和任务单独构建翻译模型,然而,这样的方式却并不适合Facebook,因为在Facebook上,有超过160种语言发布的数十亿条内容。现在的多语言系统虽然可以一次处理多种语言,但却是通过英语数据作为源语言和目标语言之间的中转,从而降低了准确性。因此,我们需要一个真正的多语言机器翻译(MMT)模型,该模型可以在任何语言之间直接进行翻译,这将为我们的社区提供更好的服务。

我们已经在Facebook对MT进行了多年的研究,现在终于可以自豪的宣布:我们首次构建了一个的大型MMT模型,该模型可以在100种不同语言之间直接进行翻译,而无需依赖英语作为中转语言。同时,我们的多语言模型的表现完全不弱于传统的双语模型,甚至要比以英语为中转的多语言模型提高了10个BLEU点。

通过新颖的挖掘策略,我们首次构建了一个真正的“多对多”翻译数据集,该数据集有75亿个句子,涵盖100种不同语言。最终,我们构建了一个具有150亿个参数的通用模型,该模型可以捕获相关语言的信息,并能够学习更加多样化的语言和形态特征。开源地址见此。

不同语言的亿万训练语句挖掘

建立多对多MMT模型的最大障碍之一是训练数据,即不同语言之间直接的高质量翻译数据,而不是以英语作为中间语言。然而现实情况是,比起法语和中文的直接翻译数据,中文和英文以及英语和法语的翻译数据更易获取。此外,训练所需的数据量与支持语言的数量成正比,例如,如果每种语言需要需要10M句子对,那么10种语言就是1B句子对,100种语言需要100B句子对。

构建包含100种语言的75亿句子对的多对多MMT数据集是艰巨的任务,由于我们多年来积累了不同的数据挖掘资源,包括ccAligned,ccMatrix和LASER,因此构建该数据集是可行的。为此,我们创建了新的LASER 2.0,改进了fastText语言识别,从而提高挖掘质量,相关的训练与评估脚本也会开源。当然,所有这些数据都是开源合法的。

Facebook AI提出的多对多的多语言模型是多年研究的结晶,MT模型、数据资源和优化技术等方面均是开创性的。本文会重点介绍一些主要成就。除此之外,我们通过挖掘ccNET创建了庞大的训练数据集,该数据集是基于fastText的(fastText是处理单词表示的重要方法);基于CCMatrix的LASER库可将句子嵌入多语言嵌入空间中;CCAligned则能够根据URL匹配来对齐文档。进一步,我们开发了改进版本LASER 2.0。

即使使用LASER 2.0等先进技术,挖掘100种不同语言/4450种可能语言对中的任意一类训练数据也需要大量的计算。由于数据规模巨大,为方便管理,我们首先关注翻译请求最多的语言。因此,我们综合数据规模和数据质量对挖掘目标进行优先排序,舍弃了对极冷门语言的数据挖掘,如冰岛语-尼泊尔语或僧伽罗语-爪哇语。

接下来,我们引入一种新的过渡挖掘策略,该策略根据地理和文化相似性将语言分为14个语言组。之所以这样做,是因为相同国家或地区中的人们会有更多的交流,这样的翻译数据质量更高。例如,将印度地区的语言分为一组,包括孟加拉语,北印度语,马拉地语,尼泊尔语,泰米尔语和乌尔都语。类似的,我们系统挖掘了不同组的全部语言对。

为了在不同组的语言之间建立联系,我们从每组中选择少量过渡语言,一般是一到三种主要语言。在上端的示例中,我们选择印地语,孟加拉语和泰米尔语作为印度雅-利安语言的过渡语言。然后,我们并行挖掘了过渡语言2200种组合的所有数据,最终得到包含75亿条数据的训练集。由于翻译数据是可以在两种语言之间相互进行训练的(如en-> fr和fr-> en),因此我们的挖掘策略采用高效的稀疏挖掘方式,通过一个模型就能实现100x100(共9,900个)种组合的数据挖掘工作。

在并行挖掘过程中,会得到一些低质量、低资源的翻译数据,基于此,我们采用反向翻译方法对这类数据进行扩充,该方法帮助我们在2018年和2019年的WMT国际机器翻译比赛中获得第一名。具体而言,如果我们的目标是训练汉语到法语的翻译模型,那么我们首先会训练法语到汉语的模型,然后将法语反译成汉语。我们发现,在数据规模较大时(如上亿语句)该方法非常有效。本研究中,我们使用反向翻译的合成数据对挖掘数据集进行扩充,同时,我们还使用反向翻译为那些未标注的语言对创建训练数据。

总体而言,相比仅依赖挖掘数据训练的模型,结合过渡策略和反向翻译的训练数据学习到的模型在100个反向翻译任务中BLEU平均提升约1.7。有了丰富、高质量的训练数据集,多对多翻译模型成为可能。

此外。我们还发现,对于没有训练数据的一个语言对,零样本(zero-shot)想过显著。例如,如果模型的训练数据只有法语-英语和德语-瑞典语,通过zero-shot我们可以在法语和瑞典语之间实现翻译。我们的M2M-100模型也表明,对于没有训练数据的语言对,融合zero-shot的多语言模型表现优于以英语作为过渡的多语言模型。

MMT模型-150亿参数,翻译快又准

多语言翻译中的一个挑战是,单一模型必须要能够从不同语言获取信息。为此,通常的方法是增大模型,添加面向特定语言类型的参数。同时,过量训练数据训练的模型包含一些无关参数,舍弃这类参数不仅会压缩模型,还避免了这些参数对翻译任务的干扰。最终,我们当将模型大小缩放到含120亿参数,发现在不同语言的翻译任务中BLEU平均提升约1.2,但随着参数的继续减少,模型性能开始下降。这样,通用多语言翻译模型含120参数,加上面向特定语言的32亿稀疏参数,最终的模型有150亿参数。

我们将该模型与双语基准模型和以英语作为过渡的多语言模型进行比较,如上图所示。第一行表示由24个编码器层和24个解码器层组成的包含12亿参数的基线模型,第二行是以英语为过渡的的多语言翻译模型。接下来,分别是包含12亿参数和120亿参数的M2M-100模型,可以看到,更多参数的模型BLEU提升1.2。

通过增加Transformer的层数以及每层的宽度,我们训练得到更大的模型,该模型依然训练高效、收敛快递。值得注意的是,该多对多翻译系统首次应用了Fairscale——一个是专用于pipeline和张量并行运算的新的PyTorch库。我们建立了通用架构,以通过Fairscale并行训练大型模型,避免了单GPU的限制。同时,我们应用ZeRO优化器,层内模型并行和pipeline模型并行来加快模型训练。

然而,120亿参数的多语言翻译模型是不够的,我们要训练更准确高效的模型。现在有许多研究工作使用多模型集成方法,即训练多个模型,并将其用于相同源语句进行翻译。为降低多个模型训练的复杂性和计算量,我们引入多源自组技术,该技术将源句子翻译成多种语言以提高翻译质量。参照LayerDrop和Depth-Adaptive,我们训练得到一个具有公共主干和不同语言特定参数集的模型。该方法能够按语言对或语言族将模型进行分块,非常适用多对多模型。最终,将压缩的多语言模型参数(12B)与特定语言参数(约3B)相结合,我们的模型不仅能像大型模型那样具有广泛扩展性,同时还能面向不同语言进行针对处理。

全力打破不同语言间的壁垒

多年来,人工智能研究人员一直在努力构建一个能够理解所有语言的通用模型。这样一个支持所有语言或方言的通用模型将为所有人提供更好的服务,令人满意的翻译将打破数十亿人的语言壁垒,让他们更加平等的了解这个世界。这项工作使我们更加接近了这一目标。

在长久的研究中,我们在预训练语言模型,微调和自我监督学习等方面发展迅速,研究成果振奋人心。这一系列的研究将进一步提高我们的系统使用未标记的数据来理解低资源语言文本的能力。例如,XLM-R是一个强大的多语言模型,它可以仅从一种语言数据中进行学习,然后扩展到100种语言。针对多语言BART任务,mBART是首次预训练全模型之一。最近,我们提出新的自我监督方法CRISS,通过许多不同语言的未标记数据来挖掘不同语言的并行句子,迭代训练更好的多语言模型。

GitHub

AI研习社是AI学术青年和AI开发者技术交流的在线社区。我们与高校、学术机构和产业界合作,通过提供学习、实战和求职服务,为AI学术青年和开发者的交流互助和职业发展打造一站式平台,致力成为中国最大的科技创新人才聚集地。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

THE END
0.白樂桑的漢語人生(中法建交60周年系列報道)教育上世紀70年代白樂桑在北京留學期間,到農村時留影。 白樂桑近照 回望歐洲漢語教學歷史,法國一直走在前沿,這離不開一代又一代的漢語教學學者、從業者等在該領域的辛勤耕耘。時值中法建交60周年,《湖北大學學報(哲學社會科學版)》副主編熊顯長對法國著名漢學家白樂桑就法國漢學與漢語教學學科建設進行了訪談,聽白樂桑講述jvzq<84gfw4qgxung0ipo7hp1DOH78s314636857355d3958/6635=;220nuou
1.「法语助手」法汉法语助手找到多个结果,请选择您需要查找的单词: civilcivil, e adj. 公民的, 国民的, 国内的, 民用的guerre civile 内战 droits civils 公民权利 非军人的, 文职的, 平民的vie civile civileadj. f 民事的:code~民法法典 droit~民法 tribunal~民事法庭 se constituer partie~e要求损害赔偿 adj. f 民用jvzq<84ep4h/h{ike0ipo8ikevy0h{4Ekxomu
2.汉语国际教育(法语地区)专业特色:本专业实施双语教学,培养出的学生具备扎实的汉语和法语基础,能在法语需求地区和行业从事翻译、教学、商务等复合型高级人才。特开设中国传统武术相关的课程,训练学生的武术基本功,锤炼学生勇往直前、敢于拼搏的武术精神。 培养目标:本专业注重双语教学,以“双语言”、“双文化”教学为特色,以法语为基础,培养具jvzquC41yy}30whyw0kew7hp1i{plrfq1ktgq8622:529;80jvs
3.新实用汉语课本(法语版)《新实用汉语课本》(法语版)是专为母语为法语的汉语初学者编写的零起点汉语教材,既适合学习者自学也可用于课堂教学。本书的编写目的是通过语言结构、语言功能与相关文化知识的学习和听说读写技能训练,逐步培养学习者运用汉语进行交际的能力。 本书为课本,共14课,围绕几个外国学生在中国的生活以及他们与中国朋友和教jvzq<84ujwlb0kqewr4dqv4RKplp1rsfgz528B8
4.「法语助手」法汉法语助手找到多个结果,请选择您需要查找的单词: consommateurconsommateur, trice n. 1. 消费者, 用户 2. 顾客 3. 完成者 — a. 消费的, 购买的 pays producteurs et c consommatricen. f. 1. 完成者 2. consommateur的阴性形式 法 语助 手 jvzq<84ep4h/h{ike0ipo8ikevy0h{4'42ipp|tooczfw{x
5.首届欧洲法语区本土汉语教师专项培训成功举办国际人民网巴黎12月8日电(记者刘玲玲)首届“欧洲法语区本土汉语教师专项培训”日前在线圆满落幕。此次培训由中外语言交流合作中心举办,包括法国本土及海外省留尼汪、比利时、瑞士法语区在内的法语区本土汉语教师积极报名,来自法语区主流大中小学和相关教育机构的120名学员参加了12月4至6日为期三天的在线培训。 jvzquC41yqxmf7ugqrrf0lto0et0IK4p3181494342>0e:524/92;>=:864ivvq
6.法语常用语(汉语译音)法语常用语(汉语译音)合集下载下载提示 文本预览 filtre àhuile非了特啊玉了n.m 机油滤芯filtre àgasoil非了特啊嘎Z哇了n.m 柴油滤芯planning de travail普拉宁的他哇也n.m 工作计划pneu普讷n.m 轮胎avertissement阿喂何地丝忙n.m 警告prime呸木n.f 奖金法文中文发音中文dossier d'agréement到斯哎啊jvzquC41o0972mteu0tfv8iqe1l98B8;368/j}rn
7.盘点中文里由法语音译而来的单词们一个人可以同时精通那么多事物,这在今天是难以想象的。 还记得帕斯卡的名言吗?L'homme est unroseaupensant,人是会思想的芦苇。 参考文献: 中法跨文化交流中的语言认同——汉语与法语之间的借词 扫码来参与赢限量版CC猫答题活动吧~萌萌哒(/≧▽≦)/jvzquC41ht4iwsncpi4dqv4pgy5q8;73695
8.汉语网络流行语的法语翻译以人民网法文版近三年年度流行语为例汉语网络流行语的法语翻译以人民网法文版近三年年度流行语为例.docx 关闭预览 想预览更多内容,点击免费在线预览全文 免费在线预览全文 Catalogue Résumé2 Introduction4 1.Mots à la mode du réseau4 1.1 Définition et caractéristiques5 1.1.1 LInnovation5 1.1.2 Lapplicabilicité6 1.1.3 Le humour8 1.2jvzquC41o0hpqt63:0ipo8mvon532;8123621?5573653:82276457xjvo
9.“疫”起行动,守“沪”家园——国际商务外语学院师生志愿服务法语和汉语国际教育教工联合党支部组织委员 陈之瑜 法语和汉语国际教育教工联合党支部组织委员陈之瑜自居家办公以来,除了认真开展线上教学和辅导外,积极投身社区的抗疫志愿者服务,协助社区街道专员做好本小区不同楼栋的“核酸筛查微信群”的通知通告和数据统计。看似简单,实则不易,每一项任务都需要用心、用力、更用脑地jvzquC41yy}/u~ndg0kew7hp1yy{87244516:61e3=75
10.中文翻译法语法语翻译中文法语翻译法语词典 1. ultérieur, e adj. 以后的,今后的,外面的 2. ultra a.inv. 超级的,极品的,极端的 3. Union Européenne 欧盟 4. unique adj. 唯一的,仅有的,独特的 5. unir v.t. 合并,团结,联合 6. unité n.f. 单位,团结,一致 7. univer n.m. 宇宙,全球,全世界,天地 8. universitaire adjjvzquC41o0iicƒnfkct/exr1htjje}4y1uusv;61
11.法语助手法汉汉法词典汉语水平考试是什么意思显示所有包含 汉语水平考试 的法语例句 用户正在搜索 zymohydrolyse, zymoïde, zymologie, zymologiste, zymolyse, zymomètre, Zymomonas, zymone, Zymonema, zymonématose, 相似单词 汉语的四声, 汉语教员, 汉语拼音, 汉语拼音方案, 汉语拼音字母, 汉语水平考试, 汉子, 汉字, 汉字部首, 汉字终端, jvzq<84ep24fwmne0pku1mnevu5gt8*G8'H2'A>'G:+BH.FF'G<&D9*D6'K6'K>'D5+F:.=2':9&GA*CH'?6
12.法语助手法汉汉法词典汉语水平考试是什么意思法语例句库 1.Cette année je vais préparer le HSK avec tous mes efforts. 今年我要一心一备汉语水平考试。 声明:以上例句、词性分类均互联网资源自动生成,部分未经过人工审核,内容亦不代本软件的观点;若发现问题,欢迎向我们指正。显示所有包含 汉语水平考试 的法语例句 用户正在搜索 désincarcération, désincajvzq<84vkpm/g~ike0tfv8ikevy0h{4'G8+C3.=;'G>&CO*CF'K7'K5'D6+F7.G;'D9&GA*:2'>4'N='CH+:7
13.法语的解释|法语的意思|汉典“法语”词语的解释法语:古代汉语名词 法语(古代汉语名词) 【词目】法语 【拼音】fǎyǔ 【词性】名词 【结构】偏正式合成词 法语,指合乎礼法的言语。《论语·子罕》:“法语之言,能无从乎!” 邢炳 疏:“以礼法正道之言告语之。”宋陈叔方《颍川语小》卷上:“洪文敏公聚经子诸史句,目曰法语、精语者。”清周亮工《〈金陵jvzquC41yy}/|mne0pku1qfpu1+F8.G5';;&GA*CH'GE