基于双语对齐的汉语

采用音译或意译命名实体直接翻译的方法进行汉语-新蒙古文命名实体的翻译缺乏对命名实体自身组成结构以及上下文信息的考虑, 必然会影响翻译结果。如果使用命名实体对齐的方法, 则需要对命名实体的识别和命名实体间的对齐都能很好地处理。目前, 需要懂得新蒙古文的人员在语料上进行命名实体的标注, 工作量大, 周期长。新蒙古文语料相对于英语、汉语等其他语言规模尚小, 必然会影响新蒙古文命名实体识别的效果。在命名实体识别中的部分识别、识别错误等问题在对齐过程中不能很好地纠正。

a是一个表示源语言和目标语言句子中词与词对齐情况的隐含变量, a=a1a2… aI, 其中aI表示源语言句子里第I个词对应的目标语言句子中词的位置。在一对句子的所有对齐方式中, 其训练对齐模型中最大可能的对齐方式通常称为最大近似对齐。

在IBM对齐模型中,

在HMM对齐模型下, 用Viterbe算法实现最大近似对齐, 即对齐aI满足

p(ai|ai-1, I)表示源语言句子当前词对齐位置ai对前一个词对齐位置ai-1的依赖关系, I表示源语言的句长p(si|ti)表示词的翻译概率。

与IBM词对齐模型相比, HMM对齐模型考虑了当前词对齐位置ai对前一个词对齐位置ai-1的依赖关系, HMM模型比IBM模型更有利于对平行语料库中的局部化现象进行有效的建模。因此, 我们在HMM词对齐结果上来抽取候选汉语-新蒙古文命名实体翻译对。

本文命名实体翻译对的抽取经过3个步骤: 1)汉语端命名实体的识别; 2)基于词对齐模型, 生成与汉语端命名实体对应的新蒙古文端候选的翻译单位; 3)对新蒙古文端的候选翻译单位进行置信度估计, 从中选出置信度最高的汉语-新蒙古文命名实体翻译对。

本文使用CRF模型进行汉语端命名实体识别。因为汉语命名实体识别不属于本文重点讨论的内容, 不再赘述。下面重点介绍汉语-新蒙古文候选命名实体翻译等价对的生成和候选翻译等价对的置信度估计。

结合命名实体翻译的特点, 我们采用5个特征:对齐一致性得分、翻译得分、语言模型得分、共现得分、边界得分。下面分别详细介绍。

任意一个汉语端的命名实体与它所对应的新蒙古文端的任何一个候选翻译单位, 都在词对齐图中划分了一个范围。我们以这个划分是否与最大近似对齐中的对齐点一致来对候选翻译对进行对齐一致性置信度估计。对齐点Ap(x, y)与Hp(cs, ce, ms, me)定义的划分一致是指这个对齐点所对应的源语言端词的位置与目标语言端词的位置均在Hp所划分的范围内。对齐点Ap(x, y)与Hp(cs, ce, ms, me)定义的划分被认为不一致, 当且仅当满足

其中, num(cons)和 num(incons)分别表示与四元假设Hp(cs, ce, ms, me)划分范围一致的对齐点的个数和不一致的对齐点的个数。在汉语新蒙古文命名实体候选翻译对的四元假设的划分中, 如果一致的对齐点越多, 不一致的对齐点越少, 则该翻译对的对其一致性得分就越高。

组成汉语命名实体中的词与组成新蒙古文命名实体的词之间的翻译概率, 对于考察汉语端命名实体与新蒙古文端命名实体的相近程度具有非常重要的作用。假设汉语端命名实体由s个词组成nec={c1, c2,… cs}, 新蒙古文端候选命名实体翻译单位由t个新蒙古文词组成nem={m1, m2, … mt}, 则这个候选双语命名实体对的翻译得分可以由ci与mj之间的翻译概率计算得到:

式(10)给出候选双语命名实体对中的词互译的概率。可以看出, 该特征倾向于给含有词数更多的命名实体翻译单位以更高的分数。

为了使与汉语端命名实体对应的新蒙古文端的翻译单位最大程度地符合新蒙古文的语法, 在新蒙古文语料库上进行语言模型的训练LM (mn), 对候选新蒙古文端命名实体翻译单位进行语言模型打分, 如式(11)所示:

对应于汉语端同一个命名实体, 在新蒙古文端包含词数较多的命名实体翻译单位倾向于获得更高的翻译得分, 这样容易在新蒙古文命名实体翻译单位中引入一些多余的词。加入对语言模型得分的估计后, 候选命名实体翻译单位中多余词的存在会使该翻译单位获得很低的语言模型得分, 避免了翻译得分带来的偏差。例如, 在未加入语言模型得分之前, 我们获得“孔子学院-Күнзийн Институт улсын”的对应关系, 包含多余的词“улсын”。但加入语言模型得分后, 我们得到准确的命名实体翻译对“孔子学院-Күнзийн Институт”。

汉语端命名实体与候选新蒙古文端的命名实体翻译单位在双语语料库中常常是同时出现的, 那么它们为翻译等价对的可能性就非常大。从整个语料库中得到的知识可以作为对句对间局部对齐信息特征的一个有效补充。用式(12)计算源汉语端命名实体与候选新蒙古文端命名实体的共现得分:

其中, num (nec, nem)是nec和nem共同出现的次数, num (*, nec)是nec出现的次数。

新蒙古文命名实体词的开头字母是大写字母, 这是新蒙古文命名实体的一个重要特征。这一特征对于新蒙古文命名实体边界的确定具有重要的作用。但在实际语料库中存在着部分不规范的现象, 部分首字母应大写的命名实体词并未大写。为了尽量减少上述错误对计算边界得分的影响, 我们不直接考察组成命名实体的首词或尾词是否为首字母大写。边界得分是在该翻译单位中首字母大写的词的个数占所有词的个数的比例:

其中, num (CapWords)指在新蒙古文命名实体翻译单位中, 首字母是大写的词的个数, num (words)代表在该翻译单位中包括的所有词的个数。

为了验证本文提出的汉语-新蒙古文命名实体翻译方法的有效性, 我们使用实验室整理得到的12400句对的汉语-新蒙古文平行语料, 从中选取出300个汉-新蒙古文平行句对作为标准测试集(每个句对中至少包括一个命名实体翻译对), 并用人工标注出这300个句对中所有的汉语和新蒙古文命名实体, 作为命名实体翻译对的标准答案。

假设S*是汉语端标注出的所有的命名实体的集合, S是用本文的方法在S*基础上抽取得到的汉语-新蒙古文命名实体翻译对的集合,T是双语语料中基于S*的所有的正确的命名实体翻译对。我们用准确率(P)、召回率(R)、F值作为评价标准。

实验表明, 本文选择用来刻画汉语-新蒙古文命名实体翻译对的特征, 对于命名实体翻译对的抽取是非常有帮助的。对齐一致性得分为命名实体翻译对的抽取提供了句对间的上下文信息; 翻译得分指明了汉语端命名实体与候选新蒙古文端翻译单位的相近程度; 语言模型得分使抽取到的新蒙古文端命名实体单位尽量符合新蒙古文语法; 共现得分为命名实体翻译对的抽取提供了整个训练语料库中汉语词与新蒙古文词之间的共现知识; 边界得分则充分考虑了新蒙古文命名实体词首字母大写的特性。

命名实体翻译中, 对称对齐的方法需要在源语言端与目标语言端都进行命名实体识别, 且在一端识别错误, 即使另一端识别正确的情况下, 该错误也无法在对齐过程中纠正。目前, 可用于新蒙古文命名实体识别的标注语料规模尚小, 直接影响新蒙古文命名实体的识别效果。针对上述问题, 本文给出一种只需在汉语端进行命名实体标注, 从汉-新蒙古文平行语料中抽取汉-新蒙古文命名实体翻译对的方法, 在HMM词对齐模型上抽取候选汉-新蒙古文翻译单位, 然后用基于最大熵模型对候选翻译对进行过滤, 最终得到质量较高的实体翻译对。实验表明, 与基于HMM的方法相比, 本文方法的实验结果有了很大提高。本文抽取出的一些实体翻译对还有不正确的地方, 在下一步工作中, 可以考虑新蒙古文命名实体自身的语言特征, 并可以加入一些规则, 使得实验效果更好。

THE END
0.《Q版漫画西班牙语300句世界图书出版有限公司北京分公司当当天宇阁图书专营店在线销售正版《Q版漫画西班牙语300句 世界图书出版有限公司北京分公司》。最新《Q版漫画西班牙语300句 世界图书出版有限公司北京分公司》简介、书评、试读、价格、图片等相关信息,尽在DangDang.com,网购《Q版漫画西班牙语300句 世界图书出版有限公司jvzq<84rtqjve}3fcpmecwl0eqs03:698:7:8<50jvsm
1.阿拉伯半岛造句用阿拉伯半岛造句大全(5300个句子)句数:21 更新:2019-10-16【阿拉伯半岛 ā lā bó bàn dǎo】:世界最大的半岛。在亚洲西南部。面积322万平方千米。除西部、南部和东南边缘有山脉外,大部分是高原。气候炎热干燥,是世界最热的地区之一。沙漠广布。产椰枣、咖啡、羊毛、皮革等。富藏并盛产石油。相似词:阿拉伯 阿拉伯语 阿拉伯海 阿拉伯文 阿拉伯jvzquC41o0€bqs{0eqs04987;3;/j}rn
2.[面授&在线]2025年寒假阿拉伯语白天班晚班北京唯一一家实现所有小语种中外教共同授课的教育机构。鲜明的教学特色,学院派师资,品质保证,在确保夯实语法学习的基础上,让您的阿拉伯语学习从一开始就养成纯正发音,母语习惯。 阿拉伯语课程介绍 班级:初级上 适合学员:零基础。喜爱阿拉伯语言和文化,希望留学、移民、旅游或从事阿语国家贸易、工程建设工作的学员。 jvzq<84yyy4fv{fkpkth0xwi0et0kwkq1371:897364ivv
3.凸轮自由性别管凸轮管阿拉伯语设计原理,创新技术应用,提升工业🌽凸轮自由性别管凸轮管阿拉伯语设计原理,创新技术应用,提升工业自动化效率与精准度🍲,[V66.62.5]小说app,新用户赠送634礼包。小说《微信昵称女生淡雅好听 女性微信网名简单好听》在线阅读:凸轮自由性别管凸轮管阿拉伯语设计原理,创新技术应用,提升工业自动化效率与jvzq<84j70lm|‚|f0et0|qn|k1723946757:3h<990nuo
4.DeepSeek影视字幕多语言版本快速生成落地尤其在小语种(如泰语、阿拉伯语)市场,专业译者稀缺进一步拉长交付周期。近年来,基于神经机器翻译(NMT)和自动语音识别(ASR)的AI方案虽有所尝试,但普遍面临上下文断裂、口语化处理弱、多轮对话指代混淆等瓶颈。 在此背景下,大语言模型(LLM)凭借其强大的跨语言理解与语境建模能力,成为破局关键。DeepSeek系列模型采用深度TrjvzquC41dnuh0lxfp0tfv8|gkzooa=78356298ftvkimg8igvcomu86743869@<
5.2025四年级语文下册期末测试题苏教版(通用10套)A。汉语B。阿拉伯语C。法语D。英语 3。简答题。(4分) (1)你打算为家乡建设奉献自己的力量吗?你有哪些好点子? (2)在我们这个多民族的国家里,各民族应该怎样相处? 习作(33分) 一、应用文。8分 时间7月5日晚上7时到9时 地点朝阳小学大操场 人员社区居民 jvzquC41yy}/qq6220ipo8pcqunj1znoqmgpuqn1439:5<3jvor
6.大学生毕业自我鉴定300字(精选33篇)大学生毕业自我鉴定300字 篇33 从X年开始我的大学生活,那时的我经过了一个漫长的暑假,摇身一变成为了一名学习阿拉伯语的本科生。 充满新奇的生活,而我却一路延续了假期里轻松的状态,可以说在学习阿拉伯语的起步阶段,我并没有全身心的投入,在那个至关重要的时期,我的心理状态连同学习成绩,都处于较低迷的水平。像jvzquC41yy}/fr~khctxgw3eqo5gcw|gp1jbz~jujgth|r|qlkgofrsi13=539:770nuou
7.房子因开发商被查封300多名环球城公寓业主办不出产权证新闻中心美国网红称因在客机上讲阿拉伯语遭"禁飞" 2016-12-23 09:54 抛弃汪星人!奇异动物成澳大利亚民众新萌宠 2016-12-23 09:54 本地看点 本地看点 外籍货船海上肇事逃逸二副在甬受审 周末宁波市区这些路段会很堵 "轻装"出行靠谱 苍松路一路段将禁止通车四年 5条公交线路改道 年初的承诺兑现市总工会十件实事落实 jvzq<84yyy4dpwg0eqs/ew4zkp}fp8x{uvkn1;5381731;9122>6:<<2:0yivvq
8.新大纲!吉林外国语大学外国语言文学硕士研究生招生考试初试868本科目依据研究生培养目标和学科核心能力要求,系统测评考生运用目标语进行跨文化转换与学术书面表达的实践能力。考 察聚焦三大核心维度:汉译外能力重点考查中国文化语篇的高质量转换能力,确保译文符合目标语语法规范、词汇得体、句式流畅及语篇连贯,并在术语翻译中保持一致性,必要时自然融入文化背景阐释。概要写作能力侧重考jvzquC41o0mbqmzp0eun1tfq{ct03@75648/j}rn
9.888彩票3.0版本软件亮点版本大全以《中华百科全书》《中华文化百科丛书》《中国经济改革进程》《中国的智慧》等为代表的一批百科社优秀图书通过黎巴嫩数字未来出版社陆续译介到阿拉伯语国家和地区。在融合出版方面,双方携手建设中国主题百科阿拉伯语数字平台,该项目基于百科社丰富、权威的词条资源,遴选出具有中国特色,体现中国精神,蕴藏中国智慧,展现中国jvzq<84o0n>m;~s0kplp1Jwvkerf1=825:
10.学蒙古语App排行榜安卓手机学蒙古语app推荐安卓手机学蒙古语App排行榜由点点数据提供。本次排行榜包含了:简单的学习蒙古语、学习蒙古语单词、轻松学土耳其语、学习越南语 - 初学者、学中文 - 6,000 中文单词 & 5,000 中文句子、学越南语,说越南语、轻松学广东话、学荷兰语课程 - 5,000 荷兰语句子、学繁体中文 - 11,000 繁体中文单词、Ling灵语言学jvzquC41xkv/frfpfkgo0lto1rnc1:958172/:3jvor