简报(ssue)阅读清单腾讯云开发者社区

欢迎来到NLP时事简报第九期!全文较长,建议收藏

如果想让自己有趣的研究/项目出现在NLP简报中,欢迎在订阅号后台留言联系我们

来看看都有哪些内容,enjoy

RONEC[1]是罗马尼亚语的命名实体语料库,在约5000个带注释的句子中包含超过26000个实体,属于16个不同的类。这些句子摘自无版权的报纸,内容涉及多种样式。该语料库是罗马尼亚语言领域针对命名实体识别的第一个举措。它具有BIO和CoNLL-U Plus格式,可以在此处免费使用和扩展[2]。

机器学习在数据密集型应用中非常成功,但当数据集很小时,它常常受到阻碍。为了解决这一问题,近年来提出了小样本学习(Few Shot Learning,FSL)。利用先验知识,FSL可以快速地泛化到只包含少量有监督信息的样本的新任务中。来自第四范式和香港科技大学习的研究学者发表了一篇综述,Generalizing from a Few Examples: A Survey on Few-Shot Learning[3]以充分了解FSL。作者从三个角度对FSL方法进行了分类,如下图,回顾和讨论每个类别的优缺点,并对FSL问题的设置、技术、应用和理论方面也提出了有前景的方向,为未来的研究提供了见解。

John Hopkins和OpenAI的研究人员进行了一项实验性研究,Scaling Laws for Neural Language Models[4],以了解语言模型性能的scaling laws。这种类型的研究可以用作一种指导,以便就如何更有效地利用资源做出更好的决策。总体而言,研究发现较大的模型的样本效率明显更高;如果计算和数据有限,则最好通过几步训练来训练大型模型,而不是训练较小的模型直到收敛为止,见下图中汇总的结果。作者为训练大型语言模型(如Transformer)中的过拟合,最佳批大小,微调,架构等方面提供了更多建议。

随着在实际中越来越多地使用经过预训练的Transformer模型,尤其重要的是要了解其输出的“可信赖性”。UT Austin最近的一项工作,Calibration of Pre-trained Transformers[5],研究显示在三个任务(自然语言推理、释义检测、常识推理)的领域内以及领域外数据集上,BERT和RoBERTa的后验概率上相对校准(即与经验结果一致)。结果表明:(1)开箱即用时,预训练的模型在域内校准;(2)temperature scaling有效地进一步减小了域内的校准误差,而标签平滑处理增加了经验不确定性则有助于校准领域外后验概率。

最近的一篇论文,Statistical Mechanics of Deep Learning[6],仔细研究了物理/数学与深度学习之间的联系。作者的目的是讨论统计力学和机器学习相交的更深层次的主题,有助于理解深度神经网络的理论及其成功原因的问题。

在Gradient中发布的新文章,Towards an ImageNet Moment for Speech-to-Text[7]中,Alexander Veysov解释了为什么他们认为在俄语中语音转文本(Speech-to-Text,STT)的ImageNet时刻已经到来。在最近几年中,研究人员也对NLP领域提出了这一说法。但是,为了在STT中实现这一里程碑,Alexander声称必须将许多部分放在一起,例如使模型广泛可用,最小化计算要求并提高预训练大型模型的可使用性。

reciTAL还发布了一个名为COVID-19 Smart Search Engine[11]的项目,以帮助改进对COVID-19相关文章的搜索和浏览,目的是帮助研究人员和医疗保健专业人员快速并有效地发现与COVID-19相关的信息。

OpenMined发布了SyferText[12],这是一个新的隐私保护NLP库,旨在实现安全和私有的NLP以及私有数据集的文本处理。它尚处于初期阶段,但我们认为这是朝着更安全,更道德的AI系统迈出的重要一步。这是一些SyferText入门教程[13]。

模型总是越大越好吗?当回顾过去几年语言模型规模的演变时,人们可能会认为答案是肯定的。然而,训练这种怪物的经济和环境成本很高。同样,在这种情况下,较大通常意味着速度较慢,但在大多数应用中速度至关重要。这激发了当前NLP趋势,即在保持性能的同时推动更小,更快和更环保的模型。在此博客文章中,Manuel Tonneau[14]提出了这一新趋势,该趋势偏向于以较小的模型为重点,着重于三种近期流行的模型,Hugging Face[15]的DistilBERT、Google[16]的PD-BERT和Microsoft[17]的BERT-of-Theseus。

如今,许多致力于AI研究的大公司都认为深度学习可以用作科学发现的工具。最近的一篇论文,A Survey of Deep Learning for Scientific Discovery[18]提供了针对不同科学用例的常用深度学习模型的全面综述。论文中还分享了实现技巧,教程,其他研究摘要和工具。

为了增强可重复性并使其他人更容易地基于已发表的作品,大型组织paperwithcode介绍了ML代码完整性检查表[19]。ML代码完整性清单基于其中提供的脚本和人工制品来评估代码开源库。具体而言,它检查代码库是否存在:

为了鼓励建立可以更好地检测和读取图像中文本的模型,并进一步说明其回答问题和生成标题的方式,Facebook AI举办了两个独立的竞赛。这些竞赛分别称为TextVQA[20]挑战赛和TextCaps[21]挑战赛,分别针对视觉问题回答和字幕生成任务。

设计神经网络时要克服的最大障碍之一是过拟合。当前的泛化改进技术(例如Dropout,Regularization和Early Stoping)在大多数用例中非常有效,但是,当使用大型模型或较小的数据集时,它们往往会略显不足。为此,Charles Averill开发了KeraStroke[22],这是一种新颖的泛化改进技术套件,适用于大型模型或小型数据集。通过在训练过程中的某些情况下更改权重值,模型可以动态地适应他们所输入的训练数据。

从代码片段中我们可以看到,线性层仅需要输出要素的大小,而不是输出和输入的大小。这是由torchlayers根据输入大小来推断的。

Haystack[24]允许你大规模使用transformer模型进行问答任务。它使用Retriever-Reader-Pipeline,其中Retriever是查找候选文档的快速算法,而Reader是提取细粒度答案的Transformer。它基于Hugging Face的Transformers和Elasticsearch,它是开源的,高度模块化的且易于扩展。

Curation Corp正在开源40,000个新闻报道的专业摘要。该篇文章,Teaching an AI to summarise news articles: A new dataset for abstractive summarisation[25]为文本摘要提供了很好的介绍 和这项特定任务所面临的挑战。此外,它介绍了数据集,以及可以解决的问题,包括围绕微调方法和文本摘要评估指标的讨论,并为将来的工作进行了总结。有关如何访问数据集的说明,可以在此Github repo[26]中找到,以及使用数据集进行微调的案例[27]。

关于文本摘要,HuggingFace团队为其Transformers库[28]库添加了BART[29]和T5[30]。这些附加功能可进行各种NLP任务,例如抽象摘要,翻译和问题解答。

图神经网络最近已经被越来越多的任务采用,例如增强计算机视觉模型和预测由于药物相互作用而产生的副作用等。在此文章中,An Illustrated Guide to Graph Neural Networks[31],Rish提出了有关GNN的直观说明性指南。

就在上个月DeepMind开源Haiku,即TensorFlow神经网络库Sonnet的JAX版本。这篇博客,finetuning-transformers-with-jax-and-haiku[32]讲述了RoBERTa预训练模型的端口到JAX + Haiku的完整信息,然后进行了演示,微调模型以解决下游任务。它旨在作为使用Haiku公开的实用程序的实用指南,以允许在JAX的功能编程约束范围内使用轻量级的面向对象的“模块”。

FlávioClésio写了一篇非常详细的文章,A small journey in the valley of Natural Language Processing and Text Pre-Processing for German language[33],介绍了德语自然语言处理方面的挑战。他分享了许多经验教训,哪些是行之有效的,什么是行不通的,讨论了几种最新方法,应避免的常见问题以及大量学习资源,论文和博客文章。

在过去的几个月中,出现了很多有趣的法语NLP资源。我们之前讨论过的是CamemBERT,FlauBERT和PIAF(Pour une IA Francophone)。前两个是经过预训练的语言模型,最后一个是法语QA数据集。这篇博客,French language keeping pace with AI: FlauBERT, CamemBERT, PIAF[34]讨论了这三个项目以及此过程中提出的一些挑战。对于使用自己的语言开发不同模型的人们来说,这是一本不错的阅读指南。

Mohammad Taher Pilehvar和Jose Camacho-Collados公开发布了即将出版的新书的初稿,称为“Embeddings in Natural Language Processing[37]”。本书的想法是讨论嵌入的概念,这些概念代表了NLP中使用最广泛的技术。正如作者介绍[38],该书包括“向量空间模型和单词嵌入的基础知识,以及基于预训练语言模型的最新句子和上下文嵌入技术。”

James V Stone博士最近发表了他的新书,“A Brief Guide to Artificial Intelligence[39]”,目的是全面概述 当前的AI系统及其完成一系列任务的成就。如摘要所述,该书“以非正式的风格编写,具有全面的词汇表和更多的阅读材料清单,这使其成为快速发展的AI领域的理想介绍。”

Sebastian Raschka发布了两份课程Introduction to Deep Learning and Generative Models[40]视频。你可以在此repo[41]中找到讲义和其他材料。

这是关于“离散微分几何[42]”主题的另一套极好的讲座。

Peter Bloem已发布在VU University Amsterdam开设的机器学习入门课程[43]完整的教学大纲,包括视频和演讲幻灯片,主题范围从线性模型和搜索到概率模型到序列数据模型。

Dimitris Katsios提供了一组出色的教程,CNN Architectures - implementations | MLT[44],它们为如何从原始论文中实现卷积神经网络(CNN)架构提供了指导。他提出了有关如何逐步实现这些目标的方法,其中包括图表和代码,并具有推断模型结构的能力。从这些指南中可以学到很多,可以指导其他人更有效地复现论文。

几个月前,我们介绍了Luis Serrano关于Grokking Machine Learning的出色著作,听Luis探讨更多有关他的书以及他成为ML领域成功的教育者的故事,Grokking Machine Learning with Luis Serrano[45] 。

以下是一些可能会引起您注意的新闻简报:Sebastian Ruder的NLP新闻简报[46],Made With ML[47],SIGTYP的新闻简报[48],MLT新闻简报[49],Nathan的AI新闻通讯[50]等…

Jupyter现在带有可视调试器[51],这将使这个流行的数据科学框架更易于用于广泛用途。

Abhishek Thakur开放了一个很棒的YouTube频道,Abhishek Thakur[52],他在其中演示了如何在机器学习和NLP中使用现代方法的代码,一些视频包括从微调BERT模型分类到建立机器学习框架。

著名的强化学习教授和研究员David Silver因其在计算机游戏方面的突破性进展而被授予ACM计算奖[53],Silver带领Al Go团队击败了Lee Sedol。

对于那些有兴趣了解NLP流行方法(例如BERT和word2vec)的差异和背后工作原理的人,Mohd提供了关于这些方法的极好易懂且详细的概述,Demystifying BERT: A Comprehensive Guide to the Groundbreaking NLP Framework[54]。

TensorFlow 2.2.0-rc-1[55] 已经发布,它包括诸如Profiler之类的功能,可以帮助你发现ML模型中的瓶颈并指导对这些模型的优化。此外,Colab[56]现在也已经默认使用TensorFlow 2。

GabrielPeyré在ML优化课程[57]中提供了一组不错的笔记,包括凸分析,SGD,autodiff,MLP等。

THE END
0.《AI3.0》第四部分12机器翻译,仍然不能从人类理解的角度来理解更具体地说,解码器网络的输出是网络词汇表中(此处是法语)每个可能单词出现的概率。 如果句子太长的话,编码器网络最终会丢失有用的信息。也就是说,在后面的时步中,它会“忘记”句子前面的重要部分。 20世纪90年代末,瑞士的一个研究团队提出了一个解决方案:应该在一个递归神经网络的每个单元中都构造一个更加复杂的jvzquC41yy}/lrfpuj{/exr1r1=dhjg7gf:87<
1.如何快速学习法语音标发音你是不是也遇到过这种情况:背了一堆法语单词,读出来却像“法语版英语”,法国人听不懂,自己也别扭?或者对着音标表死记硬背,今天记明天忘,开口还是“中式法语”?其实,快速学好法语音标真没那么难——不用死磕理论,不用每天花几小时,掌握对方法,2周就能开口读对90%的单词。这篇文章我会把自己当年从“发音小白” jvzquC41yy}/srszwg9777hqo1~z|ƒ}1Htkoeqdncpmvcpj174696=3jvor
2.《再塑生命的人》教学设计(精选12篇)四、作业:熟读课文第二部分 五、板书: 一、找出文中表示“我”的`感情变化的词语? 安静地等待、陌生、自豪、模仿、争执、发脾气、恍然大悟、求知的欲望油然而生 二、 莎莉文老师对“我”做了那些事情? ①第一次亲密接触②给“我”洋娃娃,教“我”拼写doll③教“我”拼写简单单词④教“我”认识和理解“水”jvzquC41yy}/fr~khctxgw3eqo5kkjtcp1wjprfplkvynslkcubp8=423=:0qyon
3.法语(全球品牌战略管理中法实验班)本专业学生积极响应国家创业号召,由法语教师带领,参加了《啵滴法语记单词app》、《小微型企业财务管理app设计》、《北京地区中法合作项目中法语语言教学需求调研》、《“跟名画学法语”系列法语教材设计及线上课程开发项目》等多项国家级、市级创新创业项目。jvzquC41yy}/dlz0gf{/ew4lliryd8nphq523:<197640qyo
4.法语四级词汇大学法语四级高频词汇大学法语四级考试-语法与词汇选择题(四) 大学法语四级的选择题主要考查词汇和语法,如果这两项都没有掌握好,做选择题是就会觉得每项都是答案,所以平时要多练练,这样积累了词汇,又巩固了语法。 大学法语四级考试-语法与词汇选择题(三) 大学法语四级的选择题主要考查词汇和语法,如果这两项都没有掌握好,做选择题是就jvzquC41o0nvlrfpi0ipo8ktahgzw|nlk1lb{~xklkijj~n
5.盘点全网最全法语动画资源整理(36部+难度分级思维导图)对于零基础刚启蒙的宝宝来说,我们的目的是让他们的耳朵熟悉法语,并建立基本事物与法语单词的一一对应,这个阶段,动画片可作为主要的输入来源。以下三类动画片是比较合适: 「 童谣类动画 」 韵文对语言启蒙的作用也无须多说,大家都懂。童谣的选择标准就是没有标准,无需根据大人评断的难易标准,或好听与否去挑选童谣,我们要做的就是提供jvzquC41o0~jcxmwcunfpp3ep1hmqp4;d38779jf3hg79?8
6.JavaSE基本语法(42~133)java:[2844,133]定义:被Java语言赋予了特殊含义,用做专门用途的字符串(单词) 特点:关键字中所有字母都为小写 Java保留字:现有Java版本尚未使用,但以后版本可能会作为关键字使 用。自己命名标识符时要避免使用这些保留字 goto 、const 46.Java基本语法-标识符及命名规范 jvzquC41dnuh0lxfp0tfv8|gkzooa=;929=468ftvkimg8igvcomu864956689=
7.K线怎么学习3、看谱,拿到一张谱子要知道应该怎么打,要知道全音符,二分音符,四分音符等。 (五)怎么学习法语 1、视频语音、语气要精确:学习法语,最先碰到的是怎样音标发音,怎样拿腔拿调的难题。优良的音标发音和语气如同能写一手好字,或是衣着干净整洁,给人留有好印像。因而,不必仅考虑于能令人费劲的听得懂,而要令人开心jvzquC41yy}/3>ysy0ipo8sgyue73B5:694tj}rn
8.一般过去时的结构范文单词拼写题是考察学生“基础加能力”的一道高考题,而动词则是考察的重点。对动词“基础”的考察是指考察动词的记忆和对动词过去式、过去分词、现在分词变化规则的掌握;对动词“能力”考察是指考察通过对句子结构、成分的分析而确定其在一个句子里的正确形式的能力。一个实意动词在一个句子里不作谓语就是作非谓语,jvzquC41yy}/jjtskmgo0lto1jgpyns14;8327mvon
9.背单词软件法语翻译:四字成语翻译Part8法语翻译:四字成语翻译 Part 8 小白 2012-07-31 08:00 本文支持点词翻译 Powered by 沪江小D141.精疲力竭 Etre à bout 142.理屈词穷 Etre à bout d’arguments 143.薄祚寒门 Etre de bas lieu 144.兴高采烈 En liesse 145.漂泊无定 Etre sans feu ni lieu 146.无稽之谈 Paroles en l’air jvzquC41o0nvlrfpi0ipo8jpadkjfjsek1v539>691
10.李煜的词范文作为一代词人,李煜给后人留下的词作并不多,但其中的多数却千古传诵不衰,特别是亡国之后的作品,字字血声声泪,为后人所感慨。而究其原因归结为较之前,李煜的遭遇和之前相比已经完全的不同了,这对于李煜词的创作毫无疑问会产生巨大的影响。 一、感伤之深切 jvzquC41yy}/i€~qq0ipo8mcqyko1>=8964ivvq
11.草死你草四你扫货,限时特卖不容错过演员Jennifer English幽默地将其比作情景喜剧《老友记》中菲比教乔伊说法语的场景,表示他们在录音棚里一度陷入了“重复同一句话”的循环,比如试图发出法语脏话“Putain”的正确读音。《光与影:33号远征队》 虽然主要语言为英语,但游戏中融入了一些法语元素。近日,游戏的英语配音演员们透露,他们在录制过程中为法语单词jvzq<84j70mvk|mgpi€o0lto1jtfy|4281>38@60jvs
12.德语如何判断一个词的词性孤立记单词容易忘,把单词放进句子里,结合语法一起记。比如学“der Apfel”,就造句子:“Ich esse einen Apfel.”(我吃一个苹果。)这里“einen”是der的第四格,通过句子不仅记住了词性,还顺便练了冠词变化,一举两得。 其实德语词性没那么可怕。规律+例外+技巧,三管齐下,你会发现:大部分词“看一眼就知道词性jvzquC41yy}/srszwg9777hqo1~z|ƒ}1Igxncw46;89437mvon