首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

无监督式训练方法或能解决小语种机器翻译难题

来源:Science

编译:Bing

得益于神经网络的发展,机器自动翻译已取得了很大的进步。但是训练这样的网络需要有大量的数据,要向计算机展示数以百万个人类翻译的例子。现在,有两篇新的论文表明,神经网络可以无需平行文本自学翻译。这个令人惊讶的进步能让多语言的文档更容易访问。有趣的是,这两篇论文提交的时间只相差一天。

论文一:Unsupervised Neural Machine Translation:https://arxiv.org/abs/1710.11041

论文二:Unsupervised Machine Translation Using Monolingual Corpora Only:https://arxiv.org/abs/1711.00043

Mikel Artetxe是西班牙巴斯克大学的计算机科学家,是第一篇论文的第一作者。他说:“如果你给一个人一摞中文书和一摞阿拉伯语书,却没有相同的内容,那让这个人把中文翻译成阿拉伯语几乎是不可能的。但现在,电脑可以做到了。”

大多数机器学习架构是“监督式的”,计算机先猜测一个结果,接收到正确答案后再调整其过程。用这种方法教给计算机在英法两种语言之间翻译时十分有效,因为目前已经有很多文本都有英法两种版本的了。但对于很多小语种、或者没有相应的平行文本的语言来说,这种方法就不见得奏效了。

这两篇新论文已提交至明年的ICLR中,但还没有经过同行评议。它们主张的是另一种无监督式的机器学习方法。首先,这两种方法都要在没有人类老师的监督下创建双语词典,即不会有人判断机器的结果是否正确。这是可以做到的,因为很多语言在词组的使用上都有相似性。例如,像桌子椅子这类词语就经常在一起使用。因此,如果一台计算机能够将这些共现词(co-occurences)统计起来,就像一张张地图,每个词语就像地图上的城市,那么不同语言最终形成的地图就会是相似的,只是上面“城市”的名称不同而已。然后再将地图叠加,就得到了一个双语词典了!

这两篇新的论文就是用类似的方式,也能做到在句子层面翻译。他们用了两种训练策略,称为“回译”(back translation)和“去噪”(denoising)。在回译过程中,机器先将一种语言的句子大致翻译成目标语言,然后再翻译成原来的语言。如果翻译后的句子和原文不一致,则需要调整神经网络,让其下一次表现得更好。去噪与其类似,不过不是讲一句话翻译之后再翻译回去,而是在翻译到目标语言后,在句子中添加噪声(重新排列或删除单词),再将其翻译回原文。两种方法结合,会教给神经网络更深层次的语言结构。

不过,这两篇论文中所阐述的技术略有差异。UPV系统在训练期间更多的使用“回译”,而另一种由Facebook计算机科学家Guillaume Lample和他的同事们一起合作的系统在翻译过程中增加了一个步骤。不过,这两个系统在将一种语言翻译成另一种语言之前,都会先编码为一种抽象的形式。而两篇论文的作者都表示,他们可以应用其他论文中的技术来改进他们的结果。

研究人员利用两种方法英法互译了同一组大约3000万条句子,结果表明这两种方法的双语评估分数(用来衡量翻译的准确性)都差不多在15分,远不及用监督式方法的谷歌翻译的40分,而人类的得分超过50。不过这个分数至少比词对词的翻译要好。不过,作者表示如果在他们的训练中增加几千个平行文本,成为半监督式训练方法,结果很容易就会改善。

这两种新技术除了可以应用在没有平行文本的多语言之间,还可以应用于其他领域。比如在英语和法语之间只有新闻报道,但是没有街头俚语或医学术语的相关翻译,所以就可以利用这两种工具。“不过,这项技术还处于初期。”Artetxe的合著者Eneko Agirre提醒道,“我们刚刚开始开辟一项新的研究,还不确定它会通往哪里。”

原文地址:www.sciencemag.org/news/2017/11/artificial-intelligence-goes-bilingual-without-dictionary

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171217G0NTYR00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券
http://www.vxiaotou.com