阿里研发技术秒识别拦截外语脏话图覆盖近个语种

一年多前,阿里巴巴国际安全内容风控小二小荷(化名)在用户交互场景发现了特殊的为规避平台审查的“脏话”案例。

她的工作是借助技术和规则识别与清扫影响清朗环境的违规内容,刚开始,一些小广告和口吐芬芳的脏话只是以文字形式呈现,后来随着对抗升级,一些脏话嵌入到图片中,甚至会使用多国语言进行伪装。

为解决这个问题,阿里安全进行了多语种识别技术升级。近日,阿里安全算法团队宣布,其研发用于网络脏话的AI(OCR)技术,已能识别近30种语言,包括嵌入图片中的英文、阿拉伯、俄语、法语、西语、日语、韩语、泰语、越南语、波斯语、孟加拉、尼泊尔、僧伽罗、朝鲜、苏丹、德语、荷兰语,以及马来语、塔加洛语、土耳其语、意大利语、印尼语等国语言,甚至还包括三种中国少数民族语言。

在部分国际平台中,“买家”在商品评论中以英语评论图骂人,或者在交互场景中,买卖双方以俄语脏话图片对阵。国际平台风控团队和算法团队复盘了很多案例,发现除了多语种脏话,多语种垃圾广告以及不良信息也会暗藏在图片中,试图对抗风控。

全球有几百种语言,重点的语言也有几十种,一个工作人员最多认识三四种语言,在国际化场景下,靠人工识别风险图片是不现实的,多语言识别的技术需求应运而生。

图(左)为俄语脏话示意图 图(右)为暗藏英语脏话的骂人图

阿里安全高级算法工程师沄帆介绍,要识别多语种文字,就要了解各个语言文字特点,以及影响算法识别的问题。每种文字体系都有自己的字体,不同字体会导致同一字符出现字形上的差异,例如下左图展示了汉字“字”在不同字体时的形态,以及手写文字中的字符变化。下右图则展示了俄语字母在手写体和印刷体时的差异,红框标出了部分字符会出现字形上的巨大变化。

“字符连接导致字形变化,不同文字体系,书写及阅读顺序是不同的,这些都会影响AI识别和对语义的判断。”沄帆说。例如,相同的单词在不同的语种里也可能有不同的含义,“jammer”在荷兰语里是“遗憾”的意思,但是在英语中是“信号屏蔽器”,可能涉及违规。

“以前没有多语种识别功能的时候,我们如果把这个口语词直接拦截,可能会造成‘误杀’,脏话图识别也是如此,要依据语种来判断。”小荷说。

除此之外,还有脏话图以置换正常字符顺序,对抗风控的情况出现,如下图所示,即使调换字符顺序,人还是可以轻而易举地判断单词的含义,但这种“攻击”试图以打乱字母顺序的方式骗过机器识别。

对抗的脏话图

当然,要训练如此多语种的识别模型,并解决多种对抗情况并不容易。技术团队既要保证好的识别效果,又要尽可能提高计算效率及控制成本,解决好训练样本及模型方案的问题。

通过一年多努力研究,阿里安全算法团队对这些点进行了逐个突破,通过改进多语言样本生成方案与多语种识别模型框架,在多种图片语言的识别上做到了高识别率,以及做到识别1张脏话图只需0.15秒的速度,目前该技术也已应用在阿里多项国际业务中,总体识别准确率可达95%以上,并对各种艺术字体、复杂背景以及手写图进行了针对性识别优化。

其实,脏话拦截只是多语种OCR识别技术应用的场景之一,阿里安全国际风控小二文萱介绍,在交互场景里,违规信息中还有大部分属于垃圾信息。

现在,基于阿里安全的算法能力,每天仅单个国际平台就为全球用户拦截几万次包含危险、辱骂、垃圾文本的多语言脏话图片。阿里安全图灵实验室算法负责人薛晖表示:“期待以科技创新解决实际业务问题,帮助造就更好的网络环境和网络安全。”

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

THE END
0.Android阿拉伯语的处理当我修改了系统语言为阿拉伯语后,我的应用不会翻转布局,只有重启设备后应用的布局才会翻转,但是theme添加了android:layoutDirection="locale"属性后,切换语言后应用的布局马上翻转。 图片/动画/图标的方向 有方向的图片需要调转方向后,存放在drawable-ldrtl-xxx这个资源文件夹下面(更改语言后需要重启,改为drawable-ar-xxjvzquC41yy}/lrfpuj{/exr1r1kgg:
1.沉浸式阅读器支持的语言和产品语言 Web 大声朗读 PDF 大声朗读 行距 页面颜色 音节 词性 行焦点 图片词典 翻译 南非荷兰语 否 否 是 是 否 否 是 否 是 阿尔巴尼亚语 否 否 是 是 否 否 是 否 是 阿姆哈拉语 否 否 是 是 否 否 是 否 是 阿拉伯语 (埃及) 是 是 是 是 否 否 是 是 是 阿拉伯语 (沙特阿拉伯) jvzquC41uwvqq{y0okisq|thv0ipo8j/et0c{ykenk06@k4;:j7/m>4e/:d5>2:7:<.7ng:3g93c@;gApy>p~qn(xksurtp?3<
2.中东地区最大电商总经理毛德恩:中东市场机会的分析这个是中东地区的地图,大家可以看到面积很大,再加上他们的人口是5亿,所有的人口他们说的语言都一模一样的,他们都说阿拉伯语,所以对一个国家想开发这个地区,你做一个内容就是阿拉伯语,阿拉伯人不太喜欢用英文采购,你把你的内容翻译成阿拉伯文,他们才能有机会买你的东西。 jvzquC41yy}/erkpgyy/exr1crv0rxxvuktgq86499=
3.图片翻译在线将图片中的文字翻译成其它语言图片翻译功能可以在线将图片上的文字转换为阿拉伯语、德语、英语、韩语、葡萄牙语等多种语言 ,用户只需将图片上传到网站并选择输出语言即可快速自动识别图片上的语言并转换为目标语言.jvzquC41yy}/hjs{k38467hqo1oni
4.一张图告诉你:使用人数最多的23种语言(双语)新浪教育这张图片进一步按照国家和地区来划分。每种语言中较小的区域表明该语言在不同国家和地区的使用者数量。尽管并没有列出所有存在该种语言使用者的国家和地区(用“+”号标记其他拥有少量该种语言使用者的国家和地区),但是这些小区域的数量清晰地反映了国家和语言。有很多国家都有阿拉伯语使用者,但是只有日本才有日语使用jvzquC41gf{/ursc0eun0ls1gp532::/2833586579?15==0ujznn
5.一部手绘的草原交通史——《蒙古游牧图》评介书画汤因比还说:“在草原的周围,也有着同样的语言现象”,“由于草原游牧民族的传布,今天还存在四种这样的语言:柏柏尔语、阿拉伯语、土耳其语和印欧语”。这几种语言的分布,都与草原交通有着密切的联系。 回顾中国古代对外交往历史,不难发现,草原通路的确起到了汤因比所说的语言散布及文化传播等作用。丝绸贸易经过草原地区jvzq<84ctv4qgxung0ipo7hp1p70496912>3;8h44863867;72747=3jvor
6.非洲的苦,阿拉伯的泪,都在这位诺奖得主的笔下古尔纳用英语写作,不过他的第一语言是斯瓦希里语,其散文经常带有斯瓦希里语、阿拉伯语和德语的痕迹。 目前,他已经出版了10部长篇小说和若干短篇小说,贯穿其作品始终的是难民主题。《离开的记忆》《朝圣者之路》和《多蒂》讲述的是移民在英国的经历;《天堂》讲述的是一个男孩在饱受殖民主义创伤的东非国家如何成长jvzquC41yy}/ezhd0eun1yjtuqtbin44247.3922;1:62>>84avd0qyon
7.《数一数》教案(精选13篇)难点:学会观察图片的方法;用语言表达观察的结果。 教学准备: 第2~3页彩图(或相应多媒体课件),第4~5页彩图,10以内的数字卡片。 教学过程: 一、谈话引入课题: 小朋友们,从今天开始,你们就是小学生了,要与老师一起学习很多的数学知识。数学知识是很有用的,学会它你就能增长本领,会解决许多生活中的问题。大家jvzquC41yy}/fr~khctxgw3eqo5kkjtcp1~jcx}wg{ookjslkunvz~jlkcubp8=86;:40qyon
8.梅华龙:在耶路撒冷,他们假装互相看不见|犹太人|耶路撒冷|巴以我未曾思考过他们有怎样的人生,没有好奇过他们为什么会做出某种举动。当然,去北部或约旦河西岸时,就完全不可能忽视阿拉伯人的存在。但很大程度上,在东耶路撒冷,特别是阿拉伯人聚居的东耶路撒冷,他们只是希大留学生西方式学习和生活的背景板而已。 希伯来大学植物园及山谷中的阿拉伯村落。图片来源:wikimedia.org jvzq<84m0uooc7hqo0io1jwvkerfa:=:95:55=6a92=f;?i724613;yf30nuou
9.版面编排论文范文文字是在原始的图形基础上演变而来的,现代的文字图形又是在现有的文字基础上发展变化的,要比原始的图形文字更具深一层的文化内涵和新的表现形式,象形文字只是对事物表面形体上的认识,是一种传达信息的简单语言符号,是在当时的特定环境中产生的,还称不上文字。而且现代汉字发展已比较系统,比较完整,统一和规范化了,jvzquC41yy}/i€~qq0ipo8mcqyko1@97;64ivvq