acebook开源

From: Venture Beat;编译:Shelly

不管是在翻译圈,还是在日常生活中,“机器翻译”已经成了越来越常见的字眼。那么,现如今的机器翻译已经发展到了什么水平?除了通用语种互译,机器翻译究竟能实现多少种语言的互译?它的上限在哪里?

一起来看看Facebook新推出的M2M-100 多语种机翻模型吧!本文将告诉你M2M-100 模型的优势、原理、现存的局限性,Facebook 科研人员为此所作的努力,以及有关该模型的客观的评价。

Facebook于10月19日开放了 M2M-100模型的源代码 (Github),并声称这是首个不以英语为中介就能实现100多对语言互译的算法。 M2M-100机器学习模型经过了2000多对语言翻译的训练,在机翻常用评估标准下,其翻译质量明显优于其他以英语为中介的模型。

多语种机翻的终极目标就是研发出一款可以任意翻译全世界 7000多种语言的模型。 多语种机翻可以实现相似语言的信息共享,在低资源语对、零数据翻译等领域具有显著优势。

另辟蹊径的训练数据集:

包含100种语言的75亿个句子

模型尺寸越大,要建立起相应的数据集也就越繁琐、越困难。因此,一些科研人员以英语数据集为中介,并依赖特定技术实现其他语种的互译。比如说,要实现100种语言互译,就需要包含1000亿个句对的数据集。

但是通过这种方法建立的模型存在局限性:由于无法体现人们的翻译使用习惯,它在非英语互译中的表现往往不尽如人意。

相比之下,Facebook的M2M-100模型另辟蹊径,它在 包含了100种语言的75亿个句子的数据集中进行训练。

为了构建该模型,在语言的选取上,Facebook的科研人员主要确定了三条标准:

M2M-100的基础是XLM-R模型。XLM-R模型是Facebook研发的一款多语种模型,它可以学习单语数据库,并能用100种语言完成任务。

拓展互译语种的创意:

与反向翻译

安吉拉·法恩(Angela Fan)是Facebook巴黎AI研究中心的一位数据科学家,他在博客里写道:“多年来,AI研究人员一直致力于研发出统一通用的模型,它能在不同的任务中理解所有语言,包括各种方言。这样的模型将能够为更多的人提供优质服务,保持翻译最新,并且为数十亿人带来全新体验。”

Facebook科研人员避免使用那些很少进行互译的语对,比如冰岛语与尼泊尔语、僧伽罗语与爪哇语,并且采取“桥梁挖掘” (bridge mining) 策略,基于分类、地理位置和文化相似性将世界语言分为14个语族。同一语族的国家中,人们的交流会更加频繁,对翻译的要求也更高。比如说,一个印度家庭可能会使用同族的多种语言,如孟加拉语、印度语、马拉地语、尼泊尔语、泰米尔语和乌尔都语。

为了联系不同语族的语言,Facebook科研人员找出每个语族里最重要的一到三种语言,将它们确定为 “桥梁语言”。 例如,印度语、孟加拉语和泰米尔语就被确定为印度-雅利安语族中的桥梁语言。然后,他们从这些桥梁语言的可能组合中挖掘训练数据,得到了前文提到的75 亿个句子。

对于低资源语种,Facebook采用 反向翻译的方法对数据集进行补充。 反向翻译方法是指在训练已有单语模型的基础上,将其翻译为另一语种的对称反向翻译数据库。在M2M-100模型的开发过程中,Facebook为已挖掘的语言添加了合成数据,为先前未出现过的语对创建了新数据。

M2M-100模型使用的开源框架是Fairscale,用于训练大型模型。训练过程中,该模型被分割为数百个源数据相同的显示卡,因此,每个显示卡训练的是一部分模型,而非一部分数据。

为了确保M2M-100模型的性能发挥不受影响,Facebook科研人员将其参数分为互不重叠的语族。这些策略的组合使M2M-100模型的性能提升了100倍,并使其能够提供更准确的语言翻译。

Facebook称,在参数值为154亿时,M2M-100模型的高资源语对翻译质量提升显著,毕竟高资源语言在模型训练上有着最多的资源。

正如安吉拉所写:“我们将模型规模与特定语言参数结合起来,也就是把大型模型的优势和学习特定语言的能力结合起来。”

局限与提升空间:

低资源语对与偏见观点的困境

M2M-100模型的翻译质量由 母语人士来进行评估,且不包括英语母语者 。这些评估人士对翻译成品的忠实度打分较高,但是也指出该模型在俚语翻译方面不尽如人意。此外,M2M-100模型还会出一些语法错误,包括逗号缺失,这些可能会导致读者误解原文。

Facebook科研人员在一篇论文中承认了该模型目前的不足:“要达到令人满意的翻译质量,M2M-100模型还有很大的提升空间。对于一些不常见的语种,包括非洲的科萨语、祖鲁语,欧洲的加泰罗尼亚语、布列塔尼语,亚洲的伊洛干诺语、宿雾语等等,这些语言在互联网上的语料都十分稀缺,导致训练数据数量和质量的不足。”

事实上,大量实例已经表明,语言模型会放大其训练所用数据库里的偏见观点,导致一些不良后果。麻省理工、英特尔以及加拿大高等研究院的AI研究人员发现很多现有翻译模型的译文里都包含着大量偏见。

艾伦AI研究所的科研人员指出,现有的机器学习技术都没办法避免这一缺陷,人们急需更好的训练模式和模型建构。除此之外,谷歌也发现其机器翻译模型会产生性别偏见(尽管他们声称这一问题已经解决了),特别是那些低资源语种,比如土耳其语、芬兰语、波斯语和匈牙利语等等。

针对这一问题,M2M-100模型是怎样应对的呢?安吉拉说道:“模型目前仍处于测试阶段,在这个研究阶段,我们想测试模型的局限性。对于那些错误、有害的译文,我们尝试过使用侮辱性语言过滤器,但是至少现在看来效果并不好……我们现在仍然处于试验阶段,这也是该模型还没有正式投入使用的原因。”

安吉拉还强调,在当前阶段,虽然研究团队还没有采取特别措施来应对性别歧视语言,但它在探究M2M-100模型的常见错误类型。她说:“我们不仅要关注机器翻译辅助评估工具 (BLEU) 打出的分数,更要听取母语者的评价。根据模型的当前表现,综合而言,M2M-100模型在大部分语种翻译中都表现优异,但是在部分低资源语种的翻译上仍有提升空间,比如沃洛夫语、马拉地语。”

THE END
0.我的2021年观影记☆《波斯语课》推荐理由:怀着希望与善,没有光也要创造光,没有语言也要创造语言,一为照亮自己,一为拯救他人。 波斯语课(2020) 8.1 2020 / 俄罗斯 德国 白俄罗斯 / 剧情 / 瓦迪姆·佩尔曼 / 纳威尔·佩雷兹·毕斯卡亚特 拉斯·艾丁格 我能造出一种语言么?而且自己能把它们记住,能把它们像是一种真正的文字真jvzquC41yy}/fxzdcp4dqv4pqvk0:;8322>768
1.MySQL8中文参考(四十三)mysql中文文档使用数据库的应用程序在每次连接时也应配置与服务器的连接。这可以通过连接后执行SET NAMES 'latin1'语句来完成。该语句可用于任何连接方法(mysql客户端、PHP 脚本等)。 在某些情况下,可能可以通过其他方式配置连接以使用所需的字符集。例如,要使用mysql连接,可以指定--default-character-set=latin1命令行选项,以实现jvzquC41dnuh0lxfp0tfv8|k|cxehxwegn5bt}neng5eg}fknu525B>;89<1
2.话不投机半句多想看的电影(53)-22(美国) / 默罕默德·阿米尔·纳吉 / 阿米尔·法拉赫·哈什米安 / 巴哈丽·西迪奇 / 纳菲丝·贾法-穆罕默迪 / 费雷什特·萨拉班迪 / Dariush Mokhtari / 克里斯托弗·马利基 / 少爷占 / 伊朗 / 马基德·马基迪 / 89分钟 / 小鞋子 / 剧情 / 儿童 / 家庭 / 马基德·马基迪 Majid Majidi / 波斯语jvzquC41oq|jg7iqwdgo0lto1rkpruj137682958;1}juqDuqtz>tjykpi,gkuygt?gmn/y{rgCnqng
3.季羡林日记范文利、卫之说实为Cina语源为“秦”之梵语音译之肇端。鲍梯(M.Pauthier)追根溯源,进一步申张利、卫之说,鲍氏认为“支那”称名源于梵语,梵语“支那”由中国古代秦国而来,秦国于公元前1000年时,已建国于陕西。英国贾儿斯赞成此说,谓古代印度、波斯及其他亚洲诸国所用之“Sin”、“chin”,皆因秦而成,今China末尾之jvzquC41yy}/i€~qq0ipo8mcqyko1:9657
4.公务员《言语理解》通关试题每日练(2025年11月06日事实说明每种语言的“唯我独尊”到最后均是___。波斯语差不多花了1000年才确立通用语的地位,但在短短的16年里就沦为了寻常语言。如果现在我们___英语至高无上的地位会永远持续下去,就是犯了“失忆症”与“典型的想象力缺乏症”。 填入划横线部分最恰当的一项是( )。 单项选择题 A、历经坎坷jvzq<84o0ujti€~0eqs0c{ykenk0j}rn19913B890jznn
5.胡桃裸体写真流出引发热议,网友疯狂转发,真相究竟如何,当事人尚未场下的伊朗驻华大使馆官员、波斯语学者们交口称赞。 在波斯著名诗人菲尔多西所著的民族英雄史诗《列王纪》中,“中国”是诗人笔下神秘遥远的东方国度,常被描述为珍宝之邦。《列王纪》中,总共提到400余次中国,两国交往渊源之深厚可见一斑。 在伊朗,还有一句家喻户晓的诗文:“亚当子孙皆兄弟,兄弟犹如手足亲。”这句jvzq<84o0yrvhzi0ep5uxj4794:`59920jzn
6.国产精品日本家电对比测评,选购指南,性价比分析与推荐因出演电影《波斯语课》、电视剧《巴比伦柏林》被中国观众熟知的演员拉斯·艾丁格表示,“我认为奥斯特玛雅的作品,包括对布莱希特剧作的诠释,都深受中国文化影响。中国观众每次看戏,都会表现出极大的兴趣与饱满的热情。” 同样未演先热的还有皮娜·鲍什舞蹈剧场的《交际场:回响1978》,凭借亚洲首演且仅此一站的稀缺性jvzq<84ycr4dzn|wq0io1tlh15962?d444=/j}r
7.公务员《言语理解》通关试题每日练(2025年11月04日波斯语差不多花了1000年才确立通用语的地位,但在短短的16年里就沦为了寻常语言。如果现在我们___英语至高无上的地位会永远持续下去,就是犯了“失忆症”与“典型的想象力缺乏症”。 填入划横线部分最恰当的一项是( )。单项选择题 A、历经坎坷 烟消云散 揣测B、跌宕起伏 不堪一击 臆想C、沧海桑田 明日黄花jvzq<84o0ujti€~0eqs0c{ykenk0j}rn198::>7;0jznn
8.公务员《言语理解》通关试题每日练(2025年11月06日波斯语差不多花了1000年才确立通用语的地位,但在短短的16年里就沦为了寻常语言。如果现在我们___一般认为,5万亩的林木就相当于一座100万立方米的水库。 这段话主要谈论的是( )。第三句过渡,把话题引向了古典诗歌的翻译,接下来作者举例着重介绍了将中国古典诗歌译成英新诗,并表明jvzq<84o0ujti€~0eqs0c{ykenk0j}rn19914;>50jznn
9.公务员《言语理解》通关试题每日练(2025年11月08日事实说明每种语言的“唯我独尊”到最后均是___。波斯语差不多花了1000年才确立通用语的地位,但在短短的16年里就沦为了寻常语言。如果现在我们___英语至高无上的地位会永远持续下去,就是犯了“失忆症”与“典型的想象力缺乏症”。填入划横线部分最恰当的一项是( )。 单项选择题 A、历经坎坷jvzq<84o0ujti€~0eqs0c{ykenk0j}rn19917B>60jznn
10.公务员《言语理解》通关试题每日练(2025年11月11日事实说明每种语言的“唯我独尊”到最后均是___。波斯语差不多花了1000年才确立通用语的地位,但在短短的16年里就沦为了寻常语言。如果现在我们___英语至高无上的地位会永远持续下去,就是犯了“失忆症”与“典型的想象力缺乏症”。填入划横线部分最恰当的一项是( )。 单项选择题 A、历经坎坷jvzq<84o0ujti€~0eqs0c{ykenk0j}rn1991;A>30jznn