KiCad 华秋发行版 new
供应链、设计、制造,一体成就未来
华秋PCB
高可靠多层板制造商
华秋SMT
高可靠一站式PCBA智造商
华秋商城
自营现货电子元器件商城
PCB Layout
高多层、高密度产品设计
钢网制造
专注高品质钢网制造
BOM配单
专业的一站式采购解决方案
华秋DFM
一键分析设计隐患
华秋认证
认证检测无可置疑
发资料
发帖
提问
发视频
扫码添加小助手
加入工程师交流群
神经机器翻译
如果想推动翻译技术,让其不止步于单句翻译,则需要新指标来衡量进展,并且需要新数据集,其中包括最常见的上下文错误。翻译性别错误(如选择正确的代词或性别一致)可能直接涉及到人及自我认同方式,因此尤其敏感。而这一点则进一步加剧了挑战。
为应对上下文翻译的常见挑战(如代词省略、性别一致和准确使用所有格),我们发布了 Translated Wikipedia Biographies(维基百科传记译本)数据集,可用于评估翻译模型的性别偏见。发布此数据集的目的在于提供衡量模型改变前后的翻译准确性的基准,从而对翻译中代词和性别的 ML 系统进行长期改进。
Translated Wikipedia Biographies(维基百科传记译本)
“维基百科传记 (Wikipedia:Biographies of living persons) ”经过精心撰写,涵盖多个地域,包含多个句子,并以第三人称指代主语(所以包含大量代词)。因此极有可能出现性别相关的翻译错误。当文章在段落前几句中明确提及某人,但在后面的句子中没有明确提及时,通常会出现性别相关的翻译错误。一些示例如下:
构建数据集
在应用所有这些过滤条件之后,我们会为每个“职业-地区-性别”三元组随机选择一个实例。针对七个地理区域的每一种职业,我们都挑选了两份传记(一份男性传记和一份女性传记)。
最后,我们添加了 12 个性别无关实例。之所以选择摇滚乐队和运动队,是因为它们通常由无性别的第三人称代词(如“它”或复数形式的“它们”)所指代。包含这些实例是为了研究过度触发 (over triggering),即当模型得知其因产生特定性别的代词而获得奖励时,它们会在本不应该的情况下产生这些代词。
结果和应用
该数据集为降低机器翻译中的性别偏见提供了一种新的评估方法(前一篇文章中已有所介绍)。每个实例都指向已知性别的主语,因此我们可以计算出指向该主语的、特定性别翻译的准确性。在翻译成英语(该语言有代词省略或中性代词)时,因为主要计算基于英语的特定性别代词,所以这种计算更为容易。在这些情况下,与先前模型相比,上下文感知模型利用性别数据集,将错误数量减少了 67%。如前所述,我们可利用中性实体,如使用阴性或阳性代词来指代无性别实体,来发现过度触发的情况。这个新数据集还为不同类型的职业或地理区域中不同模型的性能提供了新的研究方向。
比如,我们利用该数据集,在翻译自西班牙语的 Marie Curie 传记节选中发现了改进之处。
结论
Translated Wikipedia Biographies(维基百科传记译本)数据集是我们在研究识别与性别和机器翻译有关的偏见方面的工作成果。该数据集侧重于与性别偏见有关的具体问题,并不旨在涵盖整个问题。值得一提的是,我们发布此数据集的目的并不在于强调确定解决性别偏见的最佳方法,而是帮助推动全球研究界在应对这一方面挑战。
致谢
责任编辑:haq
浏览量
浏览量
浏览量
原文标题:用于研究翻译中性别偏见的数据集
扫码添加小助手
加入工程师交流群
下载发烧友APP
电子发烧友观察
长沙市望城经济技术开发区航空路6号手机智能终端产业园2号厂房3层(0731-88081133)