使用transformer的完成机器翻译数据集mobcade的技术博客|德语翻译相关数据集_德语

摘要主要的序列转导模型是基于复杂的循环或卷积神经网络，包括编码器和解码器。性能最好的模型还通过一个注意机制连接编码器和解码器。我们提出了一种新的简单网络结构，即Transformer，它完全基于注意机制，完全不需要递归和卷积。对两个机器翻译任务的实验表明，这些模型在质量上更优，同时更具并行性，训练时间明显更少。我们的模型在WMT 2014英语翻译任务中实现了28.4 BLEU，比现有的最佳效果（包括合奏）提高了2倍以上。在WMT2014英语到法语翻译任务中，我们的模型在8个GPU上训练3.5天后建立了一个新的单一模型，即最先进的BLEU分数41.8，这只是文献中最佳模型训练成本的一小部分。结果表明，该Transformer可以很好地推广到其他任务中，并成功地应用于大样本和有限样本的英语用户分析。

循环神经网络，特别是长期短期记忆[13]和门控复发性[7]神经网络，已作为最先进的顺序建模和转导问题（如语言建模和机器翻译）方法而牢固地建立起来[35，2，5]。此后，许多工作继续扩大了循环神经网络和编码器-解码器体系结构的界限[38、24、15]。

注意力机制已经成为各种任务中引人注目的序列建模和转换模型的组成部分，允许在不考虑依赖项在输入或输出序列中的距离的情况下对依赖项进行建模[2，19]。然而，在除少数情况外的所有情况下[27]，这种注意力机制常与循环网络结合使用。

在这项工作中，我们提出了Transformer，一个避免了循环的模型架构，它完全依赖一个注意机制来绘制输入和输出之间的全局依赖性。Transformer 允许更大程度的并行化，可以在8个p100 gpu上经过短短12小时的训练后，在翻译质量上达到一个新的水平。

减少顺序计算的目的形成了扩展神经GPU〔16〕、ByteNet〔18〕和ConvS2S〔9〕的基础，所有这些都使用卷积神经网络作为基本构建块，并使用并行的方式来计算所有输入和输出位置的隐藏表示。在这些模型中，将来自两个任意输入或输出位置的信号联系起来所需的操作次数随着位置之间的距离增加而增加，这对于ConvS2S是线性的，对于ByteNet是对数。这使得学习远距离位置之间的依赖性变得更加困难[12]。在Transformer中，这被减少到一个恒定的操作次数，尽管平均注意力加权位置而导致了有效分辨率(resolution)的降低，这是我们在3.2节中描述的多头注意力(Multi-Head Attention)的效果。

自我注意（Self-attention），有时被称为内注意，是一种注意力机制，它将一个序列的不同位置联系起来，以计算序列的表示。在阅读理解、抽象总结、文本蕴涵和学习任务独立句子表达等多种任务中，人们成功地运用了 Self-attention[4]、[27]、[28]、[22]。

端到端的记忆网络是一种基于循环的注意力机制，而不是顺序一致的循环，并且在简单的语言问答和语言建模任务上表现良好[34]。

然而，据我们所知，Transformer是第一个完全依赖于 Self-Attention 来计算其输入和输出表示的转导模型，而不使用序列对齐的RNN或卷积。在下面的章节中，我们将描述Transformer，激发 Self-attention(motivate self-attention)，并讨论它相对于[17]，[18]和[9]等模型的优势。

Transformer遵循这一总体架构，使用堆叠的 Self-attention 和逐点(point-wise)、全连接的层用于编码器和解码器，分别如图1的左半部分和右半部分所示。

注意力函数可以描述为从一个查询(query)和一组键值对(key-value pairs)到一个输出的映射，其中，查询(query)、键(key)、值(value)和输出(output)都是向量。输出(output)是以值(value)的加权和进行计算的，其中分配给每个值(value)的权重是通过查询(query)的匹配函数(compatibility function)和相应的键(key)计算的。

Transformer 采用三种不同的方式使用Multi-Head Attention：

在这项工作中，我们将使用不同频率的正余弦函数：

我们对learned positional embeddings[9]进行了实验，发现两个版本产生了几乎相同的结果（见表3第(e)行）。我们选择正弦波模型是因为它可以让模型外推到比训练中遇到的序列长度更长的序列。

一个是每层的总计算复杂性。另一个是可以并行化的计算量，用所需的最小顺序操作数来衡量。

第三个是网络中远程依赖项之间的路径长度。学习长期依赖性是许多序列转导任务中的一个关键挑战。影响学习这种依赖性能力的一个关键因素是必须在网络中遍历的前向和后向信号的路径长度。输入序列和输出序列中任意位置组合之间的这些路径越短，学习长期依赖关系就越容易[12]。因此，我们还比较了由不同层类型组成的网络中任意两个输入和输出位置之间的最大路径长度。

作为附带的好处，自我关注可以产生更多可解释的模型。我们检查模型中的注意力分布，并在附录中展示和讨论示例。个体的注意力不仅能清楚地学习执行不同的任务，而且许多注意力表现出与句子的句法和语义结构相关的行为。

本节介绍了我们的模型的训练方式。

我们训练了标准的WMT 2014英语-德语数据集，包含约450万个句子对。语句使用字节对编码[3]进行编码，该编码具有大约37000个标记的共享源-目标词汇表。对于英语-法语，我们使用了更大的WMT 2014英语-法语数据集，该数据集包含3600万句句子，并将标记拆分为32000个词条词汇[38]。句子对按近似的序列长度分批在一起。每个训练批包含一组句子对，其中包含大约25000个源标记和25000个目标标记。

我们用8个Nvidia P100 GPU在一台机器上训练我们的模型。对于使用本文中描述的超参数的基本模型，每个训练步骤大约需要0.4秒。我们对基础模型进行了总计100000步或12小时的训练。对于我们的大型模型（如表3的底线所述），步进时间为1.0秒。大模型接受了300000步（3.5天）的训练。

我们在训练过程中使用三种类型的正则方案：

在WMT 2014英语到德语翻译任务中，表2中的大 transformer 模型比之前报告的最好的模型（包括Ensembles）强2.0 Bleu以上，建立了一个新的最先进的BLEU分数28.4。该模型的配置列在表3的底线中。训练时间为3.5天，平均成绩为100分。即使是我们的基础模型也超越了以前发布的所有模型和集成，而这也只是训练成本的一小部分。

表2总结了我们的结果，并将我们的翻译质量和训练成本与文献中的其他模型架构进行了比较。我们通过乘以训练时间、使用的GPU数量和每个GPU 5的持续单精度浮点容量来估计用于训练模型的浮点操作数。

为了评估Transformer不同组件的重要性，我们以不同的方式改变了我们的基础模型，测量了开发集《2013年新闻测试》中英译德翻译的性能变化。我们使用了前一节中描述的波束搜索，但没有检查点平均值。我们在表3中给出了这些结果。

在表3行（b）中，我们观察到减少注意键大小dk会损害模型质量。这表明，确定兼容性并不容易，比点积更复杂的兼容性函数可能是有益的。我们在（c）和（d）行中进一步观察到，正如预期的那样，较大的模型更好，而退出对于避免过度拟合非常有帮助。在第（e）行中，我们将正弦位置编码替换为学习的位置嵌入[9]，并观察到与基本模型几乎相同的结果。

为了评估Transformer是否可以推广到其他任务，我们进行了英语选区分析实验。这项任务提出了具体的挑战：输出受到强大的结构约束，并且明显长于输入。此外，RNN序列到序列模型无法在小数据状态下获得最先进的结果[37]。

我们在表4中的结果表明，尽管缺乏特定于任务的调整，我们的模型仍然运行得非常好，产生的结果比以前报告的所有模型都好，除了重复性神经网络语法[8]。

与RNN序列到序列模型[37]相比，Transformer优于Berkeley-Parser[29]，即使仅在仅针对40K句子的WSJ训练集进行训练时也是如此。

在这项工作中，我们提出了完全基于注意的第一序列转导模型Transformer，用多头自注意取代了编码器-解码器体系结构中最常用的循环层。

对于翻译任务，Transformer的训练速度明显快于基于循环层或卷积层的架构。在WMT 2014英语到德语和WMT 2014英语到法语的翻译任务中，我们实现了一种新的艺术状态。在前一项任务中，我们的最佳模型甚至超过了之前报道的所有合奏。

我们对基于注意力的模型的未来感到兴奋，并计划将其应用到其他任务中。我们计划将Transformer扩展到涉及输入和输出模式（文本除外）的问题，并调查本地、受限注意机制，以有效处理图像、音频和视频等大型输入和输出。我们的另一个研究目标是减少一代人的顺序。

参考文献 [1] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. Layer normalization. arXiv preprint arXiv:1607.06450, 2016. [2] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. CoRR, abs/1409.0473, 2014. [3] Denny Britz, Anna Goldie, Minh-Thang Luong, and Quoc V. Le. Massive exploration of neural machine translation architectures. CoRR, abs/1703.03906, 2017. [4] Jianpeng Cheng, Li Dong, and Mirella Lapata. Long short-term memory-networks for machine reading. arXiv preprint arXiv:1601.06733, 2016. [5] Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. Learning phrase representations using rnn encoder-decoder for statistical machine translation. CoRR, abs/1406.1078, 2014. [6] Francois Chollet. Xception: Deep learning with depthwise separable convolutions. arXiv preprint arXiv:1610.02357, 2016.10 [7] Junyoung Chung, Çaglar Gülçehre, Kyunghyun Cho, and Yoshua Bengio. Empirical evaluation of gated recurrent neural networks on sequence modeling. CoRR, abs/1412.3555, 2014. [8] Chris Dyer, Adhiguna Kuncoro, Miguel Ballesteros, and Noah A. Smith. Recurrent neural network grammars. In Proc. of NAACL, 2016. [9] Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, and Yann N. Dauphin. Convolu- tional sequence to sequence learning. arXiv preprint arXiv:1705.03122v2, 2017. [10] Alex Graves. Generating sequences with recurrent neural networks. arXiv preprint arXiv:1308.0850, 2013. [11] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for im- age recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 770–778, 2016. [12] Sepp Hochreiter, Yoshua Bengio, Paolo Frasconi, and Jürgen Schmidhuber. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies, 2001. [13] Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780, 1997. [14] Zhongqiang Huang and Mary Harper. Self-training PCFG grammars with latent annotations across languages. In Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, pages 832–841. ACL, August 2009. [15] Rafal Jozefowicz, Oriol Vinyals, Mike Schuster, Noam Shazeer, and Yonghui Wu. Exploring the limits of language modeling. arXiv preprint arXiv:1602.02410, 2016. [16] Łukasz Kaiser and Samy Bengio. Can active memory replace attention? In Advances in Neural Information Processing Systems, (NIPS), 2016. [17] Łukasz Kaiser and Ilya Sutskever. Neural GPUs learn algorithms. In International Conference on Learning Representations (ICLR), 2016. [18] Nal Kalchbrenner, Lasse Espeholt, Karen Simonyan, Aaron van den Oord, Alex Graves, and Ko- ray Kavukcuoglu. Neural machine translation in linear time. arXiv preprint arXiv:1610.10099v2, 2017. [19] Yoon Kim, Carl Denton, Luong Hoang, and Alexander M. Rush. Structured attention networks. In International Conference on Learning Representations, 2017. [20] Diederik Kingma and Jimmy Ba. Adam: A method for stochastic optimization. In ICLR, 2015. [21] Oleksii Kuchaiev and Boris Ginsburg. Factorization tricks for LSTM networks. arXiv preprint arXiv:1703.10722, 2017. [22] Zhouhan Lin, Minwei Feng, Cicero Nogueira dos Santos, Mo Yu, Bing Xiang, Bowen Zhou, and Yoshua Bengio. A structured self-attentive sentence embedding. arXiv preprint arXiv:1703.03130, 2017. [23] Minh-Thang Luong, Quoc V. Le, Ilya Sutskever, Oriol Vinyals, and Lukasz Kaiser. Multi-task sequence to sequence learning. arXiv preprint arXiv:1511.06114, 2015. [24] Minh-Thang Luong, Hieu Pham, and Christopher D Manning. Effective approaches to attention- based neural machine translation. arXiv preprint arXiv:1508.04025, 2015. [25] Mitchell P Marcus,Mary Ann Marcinkiewicz, and Beatrice Santorini. Building a large annotated corpus of english: The penn treebank. Computational linguistics, 19(2):313–330, 1993. [26] David McClosky, Eugene Charniak, and Mark Johnson. Effective self-training for parsing. In Proceedings of the Human Language Technology Conference of the NAACL, Main Conference, pages 152–159. ACL, June 2006.11 [27] Ankur Parikh, Oscar Täckström, Dipanjan Das, and Jakob Uszkoreit. A decomposable attention model. In Empirical Methods in Natural Language Processing, 2016. [28] Romain Paulus, Caiming Xiong, and Richard Socher. A deep reinforced model for abstractive summarization. arXiv preprint arXiv:1705.04304, 2017. [29] Slav Petrov, Leon Barrett, Romain Thibaux, and Dan Klein. Learning accurate, compact, and interpretable tree annotation. In Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, pages 433–440. ACL, July 2006. [30] Ofir Press and Lior Wolf. Using the output embedding to improve language models. arXiv preprint arXiv:1608.05859, 2016. [31] Rico Sennrich, Barry Haddow, and Alexandra Birch. Neural machine translation of rare words with subword units. arXiv preprint arXiv:1508.07909, 2015. [32] Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, and Jeff Dean. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer. arXiv preprint arXiv:1701.06538, 2017. [33] Nitish Srivastava, Geoffrey E Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdi- nov. Dropout: a simple way to prevent neural networks from overfitting. Journal of Machine Learning Research, 15(1):1929–1958, 2014. [34] Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston, and Rob Fergus. End-to-end memory networks. In C. Cortes, N. D. Lawrence, D. D. Lee, M. Sugiyama, and R. Garnett, editors, Advances in Neural Information Processing Systems 28, pages 2440–2448. Curran Associates, Inc., 2015. [35] Ilya Sutskever, Oriol Vinyals, and Quoc VV Le. Sequence to sequence learning with neural networks. In Advances in Neural Information Processing Systems, pages 3104–3112, 2014. [36] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, and Zbigniew Wojna. Rethinking the inception architecture for computer vision. CoRR, abs/1512.00567, 2015. [37] Vinyals & Kaiser, Koo, Petrov, Sutskever, and Hinton. Grammar as a foreign language. In Advances in Neural Information Processing Systems, 2015. [38] Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, et al. Google’s neural machine translation system: Bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144, 2016. [39] Jie Zhou, Ying Cao, Xuguang Wang, Peng Li, and Wei Xu. Deep recurrent models with fast-forward connections for neural machine translation. CoRR, abs/1606.04199, 2016. [40] Muhua Zhu, Yue Zhang, Wenliang Chen, Min Zhang, and Jingbo Zhu. Fast and accurate shift-reduce constituent parsing. In Proceedings of the 51st Annual Meeting of the ACL (Volume 1: Long Papers), pages 434–443. ACL, August 2013.

附录

COCO 数据集（Common Objects in Context）是一个用于计算机视觉任务（尤其是目标检测、实例分割和图像描述生成）的大规模、高质量、公开可用的图像数据集。规模庞大：包含 330,000+ 张图像（其中约 220,000 张标注，110,000+ 张未标注测试图），标注了 2,500,000+ 个物体实例。类别丰富（且常见）：包含 80 个日常生活中常见的物体类别（如人、

如何使用AIGC完成代码优化

前言最近需要将一个服务器上的minio桶的数据迁移到新服务器上，所以学习了一下，使用的是minio client。MinIO Client (mc) 是一个用于与 MinIO 和其他兼容 Amazon S3 的云存储服务交互的命令行工具。MinIO 是一个高性能的对象存储服务器，mc 提供了一个丰富的命令集来管理对象存储和存储桶。优点：跨平台支持：支持所有主流操作系统，包括 Window

## 使用 PyTorch 实现 Transformer 机器翻译在这篇文章中，我们将教会你如何使用 PyTorch 来实现一个简单的 Transformer 模型，用于机器翻译。我们将从构建模型到训练和评估模型，逐步进行。### 流程概述在开始之前，我们可以将整个过程划分为以下几个步骤：| 步骤 | 描述 ||------|------|| 1 | 准备数据集 ||

5.3序列模型与注意力机制3.6Bleu得分在机器翻译中往往对应有多种翻译，而且同样好，此时怎样评估一个机器翻译系统是一个难题。常见的解决方法是通过BLEU得分来进行判断评价机器翻译Evaluating machine translationPapineni K. Bleu:A Method for Automatic Evaluation of Machine Translation[J].

目录1 定义2 进展2.1 规则匹配模型2.2 统计模型2.3 seq2seq模型2.3.1 beam search2.3.2 BLEU (Bilingual Evaluation Understudy)2.3.2 attention2.3.2.1 attention作用3 参考 1 定义机器翻译 (Machine Translation)是一个将源语言句子翻译成目标语言句子的过程。机器翻译的相

图解 Transformer 在之前的博客《图解机器翻译模型：基于注意力机制的 Seq2Seq》中，我们介绍了注意力（Attention）机制，这也是深度学习模型中一种较为常用的方法。在本篇博客中，我们将介绍一种新的模型 Transformer，一种使用注意力机制来提高模型训练速度的模型。Transformer 是在论文 Attention is All You Need 中首次

transformer是一种不同于RNN的架构，模型同样包含 encoder 和 decoder ，但是encoder 和 decoder 抛弃了RNN，而使用各种前馈层堆叠在一起。Encoder：编码器是由N个完全一样的层堆叠起来的，每层又包括两个子层(sub-layer)，第一个子层是multi-head self-attention mechanism

1.机器翻译概述：使用计算机将一种自然语言转换成另一种自然语言的过程,机器翻译试图利用计算机来模拟人的翻译能力，因此他也成为人工智能的一个重要分支[1]。 2.机器翻译发展历史开创期：（1947-1964） 1954年美国乔治敦大学与IBM公司合作，首次完成了英俄机器翻译，展示了机器翻译的可行性，拉开了机器翻译发展的序幕，随后多个国家开始对机器翻译的研究。[2] 低潮期：（1964-1975）

不久前，一个实时翻译视频风靡网络，视频中两名分别说着英语和西班牙语的人借助Skype软件的实时翻译功能竟然实现了无障碍交流。这种之前只在科幻片中存在的场景如今已成现实，而这一切都得益于机器翻译技术。那么什么是机器翻译呢？机器翻译（machine translation），又称为自动翻译，是利用计算机把一种自然语言转变为另一种自然语言的过程。机器翻译的实现方法随着科技和社会经济的快速发展，全世界的互

关于翻译类app很多，那么在众多的翻译类app中，哪些可以值得一试，通过组员们以下分析，你讲知道一二。组员A谷歌翻译：它的工作原理Google 翻译生成译文时，会在数百万篇文档中查找各种模式，以便为您决定最佳翻译。Google 翻译通过在经过人工翻译的文档中检测各种模式，进行合理的猜测，然后得出适当的翻译。这种在大量文本中查找各种范例的过程称为“统计机器翻译”。由于译文是由机器生成的，

1 简介本文主要讲机器翻译时如何更好的进行汉字分割。本文参考2008年《Optimizing Chinese Word Segmentation for Machine Translation Performance》翻译总结。基于基本的机器翻译结果分析，我们发现下面文字分割有利于机器翻译： 1）基于特征的分割，比如支持向量机、条件随机场（CRF），有非常好的表现。主要是其一致性。而上下文分割方法

双语评估替换分数（简称BLEU）是一种对生成语句进行评估的指标。完美匹配的得分为1.0，而完全不匹配则得分为0.0。这种评分标准是为了评估自动机器翻译系统的预测结果而开发的，具备了以下一些优点：计算速度快，计算成本低。容易理解。与具体语言无关。已被广泛采用。BLEU评分是由Kishore Papineni等人在他们2002年的论文BLEU a Method for Automatic Evalua

machine translationmachine translation是机器自行进行翻译，不需要人类干预。课堂中涉及两个名词：FAHQMT(Fully Automatic High Quality Machine Translation)， FAMT(Fully Automatic Machine Translation)。Human Aided Machine Machine Transl

一、背景知识机器翻译，Machine Translation，简称MT，是一种运用计算机将一个句子从一种语言翻译成另一种语言的技术，是自然语言处理领域中一项重要的任务。机器翻译最早可以追溯到19世纪50年代的冷战时期，其目的是实现英语和俄语的翻译，但那个时候的技术手段主要是基于规则。之后到90年代才出现了基于统计学的机器翻译技术，而在2010后乘着深度学习的风，神经网络也被大量应用于机器翻译中，并

AI之机器翻译及相关技术机器翻译和数据集载入需要的包数据预处理分词建立词典载入数据集Encoder-DecoderSequence to Sequence模型模型：训练预测具体结构：EncoderDecoder损失函数训练测试Beam Search例题机器翻译和数据集机器翻译（MT）：将一段文本从一种语言自动翻译为另一种语言，用神经网络解决这个问题通常称为神经机器翻译（NMT）。主要特征：输出

你是否在使用Exa MCP Server时遇到过搜索响应延迟、内容抓取超时的问题？是否想知道如何让AI应用的网页搜索体验更加流畅？本文将从Core Web Vitals（核心网页指标）角度，为你提供一套完整的Exa MCP Server性能优化方案，让你的AI搜索应用响应更快、资源占用更低、用户体验更优。读完本文，你将掌握请求超时配置优化、日志分析定位瓶颈、工具调用效率提升等实用技巧。## 了...

【文摘】DeepSeek本地部署与应用开发—OpenWebUI深入剖析之联网搜索

以下内容来源于AI自动生成，仅供参考LCD1602，也被称为1602液晶显示器或16x2字符液晶显示器，是一种常见的字符型液晶显示器模块。它由两行，每行可以显示16个字符（共32个字符）组成。LCD1602模块通常由以下几个主要部分组成：LCD面板：是一个矩形的玻璃面板，上面有液晶材料和字符形状的透... ...

目录软件和镜像下载虚拟机软件Kali系统的下载Kali系统安装网络配置设置共享文件夹和剪切板安装VMware增强工具设置共享文件夹设置共享剪切板更新软件源软件和镜像下载虚拟机软件Kali需要在虚拟机中进行安装，使用的虚拟机软件为VMware，在官网下载最新版本，寻找激活码，按步骤安装即可正常使用，由于我在之前的实验中使用的即为VMware，并没有进行二次安装且安装较为简单，故本步骤略过。Kali系

Positron 是一款由Posit正在开发的新一代数据科学 IDE，支持 R、Python等语言。

THE END

使用transformer的完成机器翻译数据集mobcade的技术博客

循环神经网络机器翻译与数据集

aper：《anguageodelsareew

德语离线翻译软件如何开发–ingode

万字幅图一网打尽ransformer

神经机器翻译数据集预处理流程简介腾讯云开发者社区

使用transformer的完成机器翻译数据集mobcade的技术博客

最佳论文：智能翻译要抢字幕翻译员的饭碗

新闻

中天咨询：“上岗”翻译领域，翻译员的饭碗还保得住吗奥运奥运会冬奥英语

seqseq：神经机器变换架构的大量探索

线性变换器其实就是快权重编程器

oogle遵循原则减少机器翻译的性别偏见

基于注意力机制，机器之心带你理解与训练神经机器翻译系统腾讯云开发者社区

万字综述语言模型发展史博客

ransformers自然语言处理（二）绝不原创的飞龙

号称打败谷歌翻译的eep究竟靠不靠谱