号称打败谷歌翻译的eep究竟靠不靠谱

鉴于数据、计算力、算法等诸多门槛,自神经机器翻译(NMT)产品化以来,在很大程度上便是互联网巨头们的竞技场。

如今,又一个新的挑战者高调加入进来,直接把矛头指向堪称行业技术标杆的谷歌、微软以及 Facebook。

目前,DeepL 翻译已支持英德法西等 42 门欧洲语言,正在对汉、日、俄等语言进行训练,并计划在将来发布一款 API,让开发者能够将 DeepL 翻译整合入其应用中。

首先要说,这家公司的来历并不简单。

公司的前身是运营已近十年的在线外语词典 Linguee,DeepL 翻译也完全由 Linguee 团队打造。Linguee 在国内没什么存在感,至于在海外……有谷歌翻译专美于前,存在感也不是很高,但还是有一批认可它的用户。

Linguee 的英汉、汉英词典界面

不过,Linguee 的成败现在已经不重要,毕竟都换马甲了——Linguee 在今年正式更名 DeepL,以“Deep”提醒 VC 自己是一家正儿八经的深度学习公司。

真正重要的是 Linguee 的技术积累。Linguee 由前谷歌翻译研究员 Gereon Frahling 在 2007 年离职开发,2009 年正式上线。就雷锋网所知,Linguee 的核心优势是它的爬虫和机器学习系统,前者抓取互联网上的双语对照翻译,后者对这些翻译的质量进行评估。两者结合,使 Linguee 成为了当时“世界上首个翻译搜索引擎”。十年积累,Linguee 无论在数据和对算法的研究上都不可小觑。

去年在伦敦 Noah 上演讲的 Gereon Frahling

一年前,其研究团队着手欲实现一个新目标:利用在机器翻译领域的多年专业积累,打造一套业内最先进的 NMT 系统。这便是 8 月 29 日上线的 DeepL 翻译。

既然底子厚实,我们来看看这些积累给 DeepL 带来了哪些资源优势。

雷锋网要提醒,以下信息均是 DeepL 一家之言,尚无第三方背书,大家需自行判断其含金量。

数据

Linguee 的数据集有逾十亿组对照翻译语句,号称是世界上最大的人工翻译数据集。 Linguee 能随时搜索近似翻译结果。

计算力

DeepL 在冰岛搭建了一台超算,号称在全球 HPC 中性能排名第 23 位,浮点运算能力达到 5.1 petaFLOPS。因而能实现令 DeepL 十分自豪的计算速度:每秒处理百万量级的词语翻译。

算法

采用 CNN 而不是 NMT 产品通用的 RNN。DeepL 宣称其技术积累使得它能够克服 CNN 的主要短板,因而能实现比基于 RNN 的竞品算法更精确、自然的翻译结果。

DeepL 宣称其翻译系统的表现打败了谷歌翻译以及微软、Facebook 的 NMT 系统, 是基于两个指标:盲测反馈和 BLEU 分数。

盲测

DeepL 邀请了职业翻译者,对 DeepL 翻译、谷歌翻译、微软翻译以及 Facebook 的 NMT 系统进行了盲测,要求测试者选出所认为的最好的翻译结果。测试语言为三组,分别是英德、英法、英西互译,样本为 100 个句子。DeepL 并未公布每组参与测试的职业译者数量。测试结果如下:

如图所示,在每一门测试中,选择 DeepL 的测试者都最多。 DeepL 在英译德、英译法、英译西的优势尤其明显。其官方统计是:选择 DeepL 为最佳翻译结果的次数,与选择另外三家 NMT 服务的平均比例为 3:1 。

BLEU

BLEU 是业内评估机器翻译质量最常用的打分算法,其得分被认为与人类的评判结果具有较大相关性。

DeepL 宣布,其英译德、英译法的 BLEU 得分超过了所有已发表的 NMT 研究,包括谷歌 Transformer。结果如下:

如图,在英译法项目上,DeepL 的 BLEU 分数超过次优方案约 3.5%。

踏入江湖的第一日,DeepL 就自封“天下第一”。业内同行对此怎么看?

对此,雷锋网咨询了搜狗语音交互中心总监陈伟、商鹊网 CEO 邹剑宇,以及 Facebook 机器学习工程师王杨。需要说明的是,三位老师均表示:由于缺乏关于 DeepL 算法、数据库的第一手资料,也没有来自第三方的信息,无法对其翻译水平做出客观判断。商鹊网的 CEO 邹剑宇评论道:“从相关报道中,对算法的描述并不详细,没有论文披露细节,所以并不好理解。“

因此,以下仅为这四位看到 DeepL 宣传信息后的一些个人看法。

在 Facebook从事应用机器学习的工程师王杨,听到这件事的第一反应是怀疑——单是同时胜过谷歌翻译和Facebook NMT这一点,不拿出有足够说服力的证据就难以取信于人。谷歌的NMT 积累深厚,Facebook的NMT也在快速发展。一个新的产品想要如其所宣传的那样实现大幅超越,很难。

若 DeepL 确实在技术上实现了突破,那么不排除他们有全新的多语种(multilingual)模型。

至于 DeepL 的算法模型基于 CNN 而不是 RNN,王杨表示“这从侧面支持了 Facebook 的研究”。FAIR(Facebook AI Research)一直认为 CNN 在机器翻译上的潜力远远大过 RNN,尤其是计算速度,这也是 Facebook 在 NMT 领域的主要研究方向之一。

搜狗语音交互中心总监陈伟,他们机器翻译团队刚刚在 WMT 2017评测中获得中英、英中两个翻译方向的第一名,他认为数据对 DeepL 的贡献可能远大过其它因素。而 Linguee 的数据爬取和积累,是一项不小的优势。

“从 BLEU 对比看,提升的比较明显,感觉他们十亿量级的高质量数据对效果帮助比较大。实测大家都觉得好,这至少说明它数据的全面性还是够的。”

据一位德语专业的译员说,DeepL 德英互译的体验确实不错,这丝毫不意外——作为一家德国公司,顺理成章的,DeepL 重点关注的是德英、法英这些语种的翻译。这为 DeepL 在这几门语种的数据积累也提供了一定的聚焦和便利。

DeepL 公布的盲测、BLEU 评分,衡量的均是德、法、西这三门欧洲语言与英语之间的互译。

在算法方面,陈伟向雷锋网表示:

“没看到他们技术的详细介绍,只了解到使用了 CNN 而没有使用 RNN,但是我感觉架构变动不会太大,应该类似于 Facebook 的 convs2s。

他并不认可“CNN 是神经机器翻译未来”的说法:

在搜狗的实验对比中,“RNN-NMT、CNN-NMT 和谷歌的 Transformer 框架。三个技术我们都认真研究和优化过,目前 Transformer 框架已经在搜狗翻译系统上线,从机器评分和人工评测来看,都领先主要竞品,较RNN-NMT、CNN-NMT提升也比较明显。

业内也没有一致观点认为 CNN 是 NMT 的未来。我觉得技术方案无论是 CNN、RNN、Transformer 都没做到极致,目前主流技术框架到底是什么没有定论,算法细节的打磨和多种技术的融合会是未来发展趋势,另外数据量会是各家公司的技术壁垒。”

最后,陈伟总结,根据 DeepL 公布的报告,目前的评测存在三个地方导致难以评估其技术:

人工评测的测试数据量仅有 100 句,而一般人工评测或者 BLEU 评测会采用几千句的数量。

DeepL对比其他家并没有使用相同的训练数据集,因此性能无法很好评估。

更多的技术细节没有公布,很难把握具体的情况。

商鹊网 CEO 邹剑宇十分认同数据和计算资源对 NMT 产品的重要性:

“报道说其训练引擎是基于一台冰岛超级计算机,可以说深度学习真的很需要计算力。Linguee 本身是一个不错的语料库公司,数据积累有自己的特点,这应该是其引擎优秀表现的一个基础。

对于引擎的评测,Linguee引擎的盲测很好,BLEU 值超过其他引擎最优质 3 个百分点(行业通识是,2 个 BLEU 值的提高就可以称作‘显著’)。”

对于 BLEU 值究竟能在多大程度上客观反映翻译质量,邹剑宇强调,需要合理看待其参考价值,不可把它等同于普通人面对翻译结果的直观体验:

“翻译评测有三类对象:科研人员,译员和普通阅读用户,三者评测的目标和方法不一致。BLEU 是一个科研环境的评测参数,和人的阅读体验感受有很大的不同,不可以同类而论。”

他最后忍不住拿自家产品做对比,表示商鹊网的新引擎甚至达到了比谷歌翻译高出 6 个百分点的 BLEU 值。

THE END
0.机器翻译能达60个语种3000个方向,近日又夺全球五冠,这家牛企是谁?比赛的主要宗旨是评估机器翻译最新发展水平,传播通用测试数据集和公共训练数据,改进机器翻译评估评测方法。此次大赛共发布中文-英语、捷克语-英语、法语-德语、德语-英语、因纽特语-英语、泰米尔语-英语、日语-英语、普什图语-英语、波兰语-英语、俄语-英语、高棉语-英语等11个语言对、22个语言方向的机器翻译评测任务。jvzquC41pg}t0|npc0ipo7hp1e532;6/233198iqe/oj|wj|zv713?69:0yivvq
1.技术实践神经机器翻译不同于前面的越南语翻英语是基于已经处理好的语料,我们找的中英翻译用语料在训练和验证等使用前均需要先做预处理。根据GNMT作者在github上的推荐,我们直接修改repo上英德翻译预处理的文件 (wmt16_en_de.sh) 以实现相关的预处理如下: 数据集如果是sgm格式的先转换成raw text格式 jvzquC41yy}/lrvk|joykw3eqo5bt}nengy0ojhjkpkutjsunczjqw
2.docs/datasets.md·PaddlePaddle/PaddleNLPWMT14ENDE WMT14 EN-DE 经过BPE分词的英语-德语翻译数据集 paddlenlp.datasets.load_dataset('wmt14ende') 机器同传 数据集名称简介调用方法 BSTC 千言数据集:机器同传,包括transcription_translation和asr paddlenlp.datasets.load_dataset('bstc', 'asr') 文本生成 数据集名称简介调用方法 Poetry 中文诗歌古典文集jvzquC41ikzfg7hqo1vbfmqgrcjenn4RcfjmgWQR1drpd8igxgrpr8iqeu5ec}fugvy/om
3.如何从零开始开发神经机器翻译系统·MachineLearningMastery看一下,如果你想要更多的分步教程,在使用文本数据时充分利用深度学习方法。 如何在 Keras 中开发神经机器翻译系统BjörnGroß,保留一些权利。 教程概述 本教程分为 4 个部分;他们是: 德语到英语翻译数据集 准备文本数据 训练神经翻译模型 评估神经翻译模型 jvzquC41yy}/mjsenq{e0ls1crgdjnhp1or.ojxvgt.|q43;7818>
4.AttentionIsAllYouNeed翻译我们只进行了少量的实验来选择dropout,注意力(attention)和残差(residual)(第5.4节),在第22节开发数据集上的学习速率和束大小(beam size),所有其他参数从英语到德语的基础翻译模型保持不变。在推理过程中,我们将最大输出长度增加到输入长度+300。我们使用beam size 为21和 jvzquC41yy}/lrfpuj{/exr1r1j99o;29dgc5;
5.LANGUAGETRANSLATIONWITHTORCHTEXT三年一梦利用torchtext类来处理一个著名的数据集,包含了一些英文和德文句子。利用该数据处理sequence-to-sequence模型,通过注意力机制,可以将德语翻译成英语。基于this tutorialfrom PyTorch community memberBen Trevettand was created bySeth Weidmanwith Ben’s permission.在文末你会用torchtext类:jvzquC41yy}/ewgnqiy/exr1mkth/uuu1r524@7286=/j}rn
6.奇点临近,新研究使用数据多样性再次大幅提升神经网络翻译性能|一然后他们利用向后模型来翻译训练集的目标句子,获得了更多补充原始训练数据集的源句。他们还对向前的模型进行了类似的训练,以使用各种目标句子集来扩充训练数据集。之后,他们使用增强的数据再次训练了模型,并得到了最终的翻译模型。 这一新模型在WMT’14英语至德语的翻译任务中获得了有史以来最高的BLEU分数:30.7。它jvzquC41yy}/z~jskw4dqv487;=2997731747?58279
7.大语言模型常见任务及评测数据集汇总(一):70余个数据集!WMT’16 English-German:另一个广泛使用的英文-德语翻译数据集,包含了约40亿个词对。 WMT’17 English-Chinese:英文-中文翻译数据集,包含了约20亿个词对。 IWSLT:国际工作坊口语翻译评测(International Workshop on Spoken Language Translation)提供的数据集,包含多个语言对的翻译数据,其中包括英文-中文。 jvzquC41dnuh0lxfp0tfv8gpi€j|r4ctvodnn4fgvgjn|4359863:92
8.机器翻译方向数据集合集!机器翻译数据集本文将为您介绍经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。 1 QUAK 发布方: Upstage·高丽大学 发布时间: 2022 韩英合成机器翻译质量预测数据 (韩英神经机器翻译的一个合成质量估计数据集,QUAK) 是指韩语句子和英语机器翻译句子,并且每个句子的机器翻译结果的质量是OK/这是一个机器翻译质量预测模型jvzquC41dnuh0lxfp0tfv8P{|{e2;:>1ctzjeuj1fgzbkux136744=98:
9.102个模型40个数据集,这是你需要了解的机器翻译SOTA论文为了探索当前最佳的 NMT 模型,我们选了几个常见的数据集,并看看在 Transformer 之后,还有哪些激动人心的研究成果。我们发现不同的 NMT 模型都有其侧重的数据集,但最常用的还是 WMT 英法数据集或英德数据集。除此之外,我们也特意找了中英数据集,看看适合翻译中文的模型又是什么样的。 jvzquC41fg|fnxugt0gmk‚zp0eun1jwvkerf1A6:646
10.学习常见相关公开数据集汇总(图像处理相关数据集、自然语言处理相关有很多种方式可以使用这些数据集。比如:你可以使用它们来锻炼你的各种深度学习方法技巧;你可以使用它们来磨练你的技能,了解如何识别和构建每个问题,思考独特的使用案例和公布你的新发现! 数据集分为三类:图像处理相关数据集,自然语言处理相关数据集和语音处理相关数据集。如下: jvzquC41dnuh0lxfp0tfv8|gkzooa<>7:;:678ftvkimg8igvcomu864:79869:
11.多语言图像描述数据集——Multi30k:开启多模态翻译新纪元教育与评测:作为标准数据集,Multi30k可用于评估不同算法性能,同时也是教学过程中引入机器学习概念的优秀案例。 项目特点 多语言支持:涵盖英语、德语、法语和捷克语,促进了多语言间的相互翻译研究。 精细的数据处理:附带的预处理工具和子词模型降低了入门门槛,加快了研究进程。 jvzquC41dnuh0lxfp0tfv8lkvdrpih5228;0c{ykenk0fnyckny03<>779=97
12.【校级一流本科立项课程】“德语翻译实践(1)”课程——知行合一自2004年北航设立德语本科专业以来,《德语翻译实践(1)》就是面向德语专业三年级本科生开设的专业核心课程。该课程已进行了十余年的教学实践,积累了较丰富的课堂教学经验。课程内容主要以对德语经典文本的试译与讲评为主。 课程将翻译实践放在首位,重视实用性与学术性文本的翻译选材。通过高标准的翻译文本的选择,增强教jvzquC41pg}t0kzcc0kew7hp1ktgq86227568;=40jzn
13.有声翻译(英语德语互译版)相似应用下载相关专题 最新专题 德语翻译app合集 英汉互译翻译软件免费 中英互译翻译app 德语翻译app 翻译英汉互译软件有哪些 翻译英汉互译app 翻译英汉互译软件 英语有声读物app推荐 有声翻译下载 中文德语翻译app下载 英语德语app下载 英汉互译翻译app 翻译英汉互译软件下载 中英互译翻译软件推荐 中英互译翻译软jvzquC41o0}bpmtwlkg/exr1crvt1>>48384