丰富的线上&线下活动,深入探索云世界
做任务,得社区积分和周边
资深技术专家手把手带教
技术交流,直击现场
让创作激发创新
海量开发者使用工具、手册,免费下载
极速、全面、稳定、安全的开源镜像
开发手册、白皮书、案例集等实战精华
语音体系 (Phonology) 假定了一组或多组独特的、分类的单元:音素 (phoneme) 或者是独特的特征
分类感知的最佳例子就是语音体系
深度学习:形态学研究较少;递归神经网络的一种尝试是 (Luong, Socher, & Manning 2013)
一个简单的替代方法是使用字符 n-grams
没有分词 (没有在单词间放置空格)
大部分的单词都是分开的:由单词组成了句子
附着词
复合名词
需要处理数量很大的开放词汇:巨大的、无限的单词空间
① 词嵌入可以由字符嵌入组成
这两种方法都被证明是非常成功的!
上节课,我们看到了一个很好的用于句子分类的纯字符级模型的例子
最初,效果令人不满意
只有decoder (初步成功)
然后,出现了还不错的结果
它在单词级基线上运行得很好
字符级的 model 效果更好了,但是太慢了
2.5 #论文解读# Stronger character results with depth in LSTM seq2seq model
在捷克语这样的复杂语言中,字符级模型的效果提升较为明显,但是在英语和法语等语言中则收效甚微。
与 word 级模型相同的架构
混合架构
最初的压缩算法
Rico Sennrich, Barry Haddow, and Alexandra Birch. Neural Machine Translation of Rare Words with SubwordUnits. ACL 2016.
分词 (word segmentation) 算法
自动为系统添加词汇
谷歌 NMT (GNMT) 使用了它的一个变体
不使用字符的 n-gram count,而是使用贪心近似来最大化语言模型的对数似然函数值,选择对应的 pieces
Sentencepiece模型使用原始文本
BERT 使用了 wordpiece 模型的一个变体
(相对) 在词汇表中的常用词
其他单词由wordpieces组成
动机
混合高效结构
补充讲解
混合模型与字符级模型相比
使用WMT’15数据进行训练 (12M句子对)
一种用于单词嵌入和单词形态学的联合模型(Cao and Rei 2016)
Bojanowski, Grave, Joulinand Mikolov. FAIR. 2016.
Suggested Readings
关注阿里云公众号或下载阿里云APP,关注云资讯,随时随地运维管控云服务