不会中英互译,百度文心一言变“中文差生”

不会中英互译,百度文心一言变“中文差生”

作者 赵翔 姜睿盈

编辑 覃拓近期,文心一言“套皮”争议愈演愈烈。

一名业内人士告诉《橡果商业评论》,所谓“套皮”,应该是指文心一言采用中英互译方式套用开源模型、采用开源数据加入训练的行为。据百度发布的相关论文显示,文心一言“文生图”功能在训练时,使用百度翻译进行中英互译。

《橡果商业评论》将百度翻译与讯飞翻译、腾讯翻译、网易翻译对比发现,百度翻译对名词短语的翻译,存在多义、歧义等问题。上述业内人士表示:如果翻译错误,也会直接影响生成模型的效果。但翻译是中国AI的必经之路。

截至2021年,全球排名前1000万个网站中,英文内容占比60.4%,中文内容占比仅为1.4%。中国AI需要依赖大量的英文数据集训练。

翻译成为文心一言面前的一座“大山”。 面对技术问题,百度不仅从未正面回应,还不断公开强调“国货”需要时间。如此发言,似乎是在维护李彦宏“文心一言中文优等生”的自尊心。文心一言受困于中英互译,中国AI未来在哪里?

文心一言“套皮”疑云   自画像竟是“白种男性”?

3月22日,博主@刘大可先生 爆料,文心一言“套皮、画皮、造假”。@刘大可先生表示,若使用文心一言做图,它会将中文翻译为英文,再使用国外开源的AI文生图模型Stable Diffusion生成图画。Stable Diffusion与OpenAI的Dall-E 2相似,都是AI文生图模型,由英国公司Stability AI在2022年8月发布。

以“一可以豆子”为例,这句话在汉语中不是完整语言;若使用“百度翻译”直翻英语,结果为“One can beans”。

“可以”被翻译成“can”,根据上下文,“can”被理解为量词,整句意为“一罐豆子”。

所以,让文心一言制图“一可以豆子”,就会得到“一罐豆子”的图片。

这并非个例:1. “牛肉可以”使用“百度翻译”会得到“Beef can”;

2. “一冰箱可以”为“A refrigerator can ”。

3. “牛奶路”对应翻译“Milk Road”;相应的,文心一言也会分别生成“一罐牛肉”“装满罐头的冰箱”“银河”的图片。

“直翻”导致错误之外,一词多义的单词们也会让文心一言制图“抓瞎”:

1.“起重机”“百度翻译”为“Crane”;

2.“土耳其”为“Turkey”。

“Crane”更常用的意思为“鹤”,“Turkey”也有“火鸡”之意,所以文心一言会生成“鹤头”“火鸡”的图片。

此外,若让文心一言生成“人像”,不加“中国”关键字,画出的都是“白种人”。

3月16日,《橡果商业评论》让文心一言画“自画像”,却得到一个“白人男性”的图片。

3月23日,百度发声明称“不传谣不信谣”,文心一言“文生图”能力来自文心跨模态大模型ERNIE-ViLG。

“猪队友”百度翻译让文心一言卷入“套皮”风波

文心一言有不一样的答案。3月23日,据《澎湃新闻》报道,在对话文心一言,询问其是否采用Stable Diffusion时,文心一言不仅承认使用Stable Diffusion,还承认使用Transformer、GRU等深度学习模型来生成图像。

事实上,这并不代表文心一言“文生图”存在所谓“套皮”。百度官方介绍,文心一言“文生图”功能来自ERNIE-ViLG 2.0。

据百度发布论文《ERNIE-ViLG 2.0:用知识增强型混合去噪专家改进文本到图像的扩散模型》显示,ERNIE-ViLG 2.0的训练数据由1.7亿图文对组成,包括网络公开的英文数据集和百度内部中文数据集。

然而,ERNIE-ViLG 2.0训练阶段,部分训练数据里的中、英文翻译由百度翻译自动翻译。

业内人士唐喆(化名)告诉《橡果商业评论》,百度翻译目前已经掉队,机器翻译效果相比其他人工智能公司存在很大差距。

特别是名词短语翻译,存在多义、歧义等问题,如果翻译错误,也会直接影响生成模型的结果。

以上述“牛肉可以”为例。

《橡果商业评论》用百度翻译结果为“Beef can”(牛肉罐头);腾讯翻译为“Beef is fine”(牛肉不错);网易翻译为“Beef can”(牛肉罐头);讯飞翻译结果为“Beef is OK”(牛肉不错)。

不同翻译软件中,只有腾讯翻译、讯飞翻译回答正确。唐喆则举例近期最火的“虎头虎脑的胖小子”。

百度翻译为“Big fat kid with a tiger's head and brain”(长虎头的胖子),网易翻译、腾讯翻译也类似。

讯飞翻译结果相对接近,为“A tiger-headed fat boy”(虎头虎脑胖小子);唐喆解释,文心一言作画能力强调输入文本内容的实体信息,例如“虎头虎脑的胖小子”,会把“虎头”当做单独的实体。

这不仅忽略了整体句子级别的语义理解,也与文心一言发布时提到“中文理解能力强”完全不符。

“差生”伪装“优等生”李彦宏的自尊心游戏?

在3月16日的文心一言发布会上,百度CEO李彦宏用提前录制好的文心一言演示视频,解释其中文理解能力。

例如向文心一言提出“洛阳纸贵”“藏头诗”等问题。

目前看来,文心一言距离李彦宏所言“中文优等生”相差甚远。

唐喆认为,百度采用中英互译方式,无论是套用开源模型还是采用开源数据加入训练,都应该在中文语言理解和中英互译上多加注意。

令人遗憾的是,文心一言技术出现问题,面对质疑,百度并未就此问题进行公开的专业解答。

还以“需要时间学习和成长”“给自研产品信息、时间”为由,消耗着国内用户的耐心与信心。

另一方面,当文心一言答案被指出现问题,答案就会“消失”。

3月23日下午,《橡果商业评论》使用文心一言发现,与“牛肉可以”类似的“XX可以”问题,文心一言答案疑被“屏蔽”。

直到当日晚间,答案才再次恢复,面对“牛肉可以”的指令,文心一言画出的不再是“牛肉罐头”,而是“一盘牛肉”。

这似乎是“升级迭代”?但继续提问“牛奶路”(Milk Road),生成的图片依然是“银河”(the Milky Way)。

如此操作,并不像是百度口中“学习能力提升”,更像是真人进行的屏蔽、修正。即便如此,李彦宏在媒体专访时也认为,文心一言能在两个月后追赶到今年一月份的ChatGPT。

唐喆认为,从用户视角来看,文心一言和ChatGPT差距不小。

ChatGPT基本可以满足用户的诉求,反观文心一言,作图能力理解能力双双“丧失”,“从画图结果来看,文心一言更适合玩看图猜成语的游戏。”

文心一言受困于中英互译中国难有ChatGPT?

文心一言距离ChatGPT还有多远?

唐喆认为,文心一言在知识问答、词典、文献检索等方面回答基本过关,这是发挥百度自有搜索引擎的优势。

但在数学、代码、归纳推理、翻译等方面,被ChatGPT甩在身后。

唐喆曾多次询问中国特有的农历,即便百度对文心一言进行过多次修正,文心一言也依然没有给出正确答案。

对于一些常见的亲属关系、推理选择,文心一言展示的推理逻辑看似很有道理,实际是在一本正经地胡说。

唐喆总结:

1.文心一言在中文写作、语法分析上,分析精度和准确性均不高;2.文本生成、改写、作文等,虽然会有基本格式框架在,但不能仔细阅读内容,内容精细度不如GPT详实和细腻。3.文心一言在海量信息的参数化全量记忆类型问题,及一些复杂的逻辑思维推理类问题的回复上,不符合用户原始意图的表现居多。

其次,对于安全类敏感类话题,文心一言控制的十分谨慎。

唐喆表示,文心一言的敏感词范围较宽泛,处理逻辑也略显粗暴。

例如,若用户A问出带有敏感词的问题,文心一言为防止A继续发文,会强制关闭A的对话框。在此类问题上,ChatGPT相对更加客观,会增加正向引导和安抚。

唐喆认为,通过上述例子可见,百度内部细化、分层不够,处理不灵活。

事实上,对文心一言来说,现阶段最重要的事,是寻找百度翻译替代品。

有业内人士表示,虽然简体中文互联网用户和英文互联网用户规模相当,但截至2021年,全球排名前1000万的网站中,英文内容占比60.4%,中文内容占比仅为1.4%。中国AI需要依赖大量的英文数据集训练,否则会吃亏。

文心一言若想成为“中国版”ChatGPT,需做好第一步中英互译。

在文心一言“文生图”还在“看图猜成语”之时,据最新消息,OpenAI宣布ChatGPT支持接入第三方插件,并上架11个插件。

其中Browsing插件支持ChatGPT实时搜索互联网内容。

解除“封印”的ChatGPT将涌现无数可能性。

毫无疑问,全能AI助理时代即将到来。

中国的ChatGPT在哪?

原文标题 : 不会中英互译,百度文心一言变“中文差生”

手机

验证码

密码

其他方式

图片新闻

OpenAI发布的AI浏览器,市场为何反应强烈?

马云重返一线督战,阿里重启创始人模式

机器人奥运会战报:宇树机器人摘下首金,天工Ultra抢走首位“百米飞人”

THE END
0.神经机器翻译系统上线500天百度的英文说得越来越溜譬如,“给你点颜色看看”这句话,不具备NMT系统或技术不够完善的机器翻译往往会将其译为“Give you some color to see see”,而上线了NMT系统的百度翻译则可以非常地道地向老外讲出汉语语境中“颜色”的深意了。 一番试验下来,无论是类似“我的电脑有点卡”的口语化表达,还是“萝卜青菜各有所爱”类似的俗语,jvzq<84vgen/eww0ep5uglmjny532:;333>0v;538372:h:454=86>:0ujznn
1.2022可以中文翻译成英文的软件有哪些在我们日常工作中很多时候需要将我们的母语中文转换成英语才能和其他国家进行交流,今天小编给大家带来中文翻译成英文的软件合集推荐2022,来为大家推荐几款好用的翻译软件,并且这些翻译软件精准度极高,避免因翻译不当导致各种误会的发生。 2022最新中文翻译成英文的软件有哪些 jvzquC41yy}/3A6:50ipo8xqhv555:>;994ivvq
2.百度翻译api中文自动翻译为英文api中文转英文【百度翻译api】中文自动翻译为英文 欸,最近想做一些nlp的项目,做完了中文的想做做英文的,但是呢,国内爬虫爬取的肯定都是中文 ,爬取外网的技术我没有尝试过,没有把握。所以我决定启用翻译,在这期间chatGPT给了我非常多的方法,但是都因为各种各样的原因一一无效。ps:大骗子GPT!jvzquC41dnuh0lxfp0tfv8vsa7795:8571gsvrhng1jfvjnnu1744;9374=
3.调用百度翻译api实现中英文翻译java百度翻译api实现中英文互译本文提供了一个使用百度翻译API的Java示例代码,详细展示了如何通过申请开发者ID和证书来实现文本翻译功能,包括从中文到英文及从英文到中文的翻译过程。 需要首先申请自己的开发者id和证书,我申请的是通用翻译,可以参考这个申请百度翻译 直接上代码 ** * 百度翻译引擎java示例代码 jvzquC41dnuh0lxfp0tfv8vsa4<55B<631gsvrhng1jfvjnnu1718A899;>
4.百度翻译中英语发音设置如何切换成英式发音步骤详解百度 翻译 中英语发音设置如何切换成英式发音这是我们经常会遇到的问题。如何解决这个问题呢?接着往下看ie小编为您带来的中英语发音设置切换成英式发音方法讲解。 方法/步骤分享: 1、首先 打开并点击进入百度翻译App 。 2、进入页面后, 点击右下角的我选项 。 jvzquC41i0vdqwqkpg4dqv3ep1~03>:913;69B7790nuou
5.Java百度翻译API中文转英文接入MyDistance业务上遇到了语言国际化的需求,需要将 中文的 json 字符串翻译成英文,通过百度翻译 API 接口来实现翻译功能。回到顶部 1、平台认证登录百度翻译开放平台,找到通用翻译模块,提交申请。申请链接:http://api.fanyi.baidu.com/product/11申请通过后,就能直接使用了,默认为标准版,完全免费:jvzquC41yy}/ewgnqiy/exr1EH743=4r13;46@7340nuou
6.Java百度翻译API实现中英文互相翻译java教程"; String targetLanguage = "zh"; String translatedText = translation.translate(textToTranslate, targetLanguage); System.out.println("英文翻译为中文: " + translatedText); } } 通过运行以上代码,我们即可实现简单的中英文互相翻译功能。 总结起来,本文介绍了如何使用Java语言结合百度翻译API实现中英文互相jvzquC41yy}/rqu0ep5gcz47;:7757mvon
7.百度翻译上线,只支持中英文互译OSCHINA【搜狐 IT 消息】百度在线翻译新版近日正式上线,据悉,百度翻译将支持中文、英文免费在线翻译;同时支持网页翻译,用户可在输入框直接输入网页地址,翻译准确率较高。 据悉,这项新服务是百度与中科院合作的一个项目,研发时间已经持续两年,获得国家几千万资金扶持。 jvzquC41yy}/q|hjkpg/pny1pg}t1:>5425ccriw/vxbp|qcvg3ppunpg