无监督式训练方法或能解决小语种机器翻译难题

文章来源：企鹅号 - 论智

来源：Science

编译：Bing

得益于神经网络的发展，机器自动翻译已取得了很大的进步。但是训练这样的网络需要有大量的数据，要向计算机展示数以百万个人类翻译的例子。现在，有两篇新的论文表明，神经网络可以无需平行文本自学翻译。这个令人惊讶的进步能让多语言的文档更容易访问。有趣的是，这两篇论文提交的时间只相差一天。

论文一：Unsupervised Neural Machine Translation：https://arxiv.org/abs/1710.11041

论文二：Unsupervised Machine Translation Using Monolingual Corpora Only：https://arxiv.org/abs/1711.00043

Mikel Artetxe是西班牙巴斯克大学的计算机科学家，是第一篇论文的第一作者。他说：“如果你给一个人一摞中文书和一摞阿拉伯语书，却没有相同的内容，那让这个人把中文翻译成阿拉伯语几乎是不可能的。但现在，电脑可以做到了。”

大多数机器学习架构是“监督式的”，计算机先猜测一个结果，接收到正确答案后再调整其过程。用这种方法教给计算机在英法两种语言之间翻译时十分有效，因为目前已经有很多文本都有英法两种版本的了。但对于很多小语种、或者没有相应的平行文本的语言来说，这种方法就不见得奏效了。

这两篇新论文已提交至明年的ICLR中，但还没有经过同行评议。它们主张的是另一种无监督式的机器学习方法。首先，这两种方法都要在没有人类老师的监督下创建双语词典，即不会有人判断机器的结果是否正确。这是可以做到的，因为很多语言在词组的使用上都有相似性。例如，像桌子椅子这类词语就经常在一起使用。因此，如果一台计算机能够将这些共现词（co-occurences）统计起来，就像一张张地图，每个词语就像地图上的城市，那么不同语言最终形成的地图就会是相似的，只是上面“城市”的名称不同而已。然后再将地图叠加，就得到了一个双语词典了！

这两篇新的论文就是用类似的方式，也能做到在句子层面翻译。他们用了两种训练策略，称为“回译”（back translation）和“去噪”（denoising）。在回译过程中，机器先将一种语言的句子大致翻译成目标语言，然后再翻译成原来的语言。如果翻译后的句子和原文不一致，则需要调整神经网络，让其下一次表现得更好。去噪与其类似，不过不是讲一句话翻译之后再翻译回去，而是在翻译到目标语言后，在句子中添加噪声（重新排列或删除单词），再将其翻译回原文。两种方法结合，会教给神经网络更深层次的语言结构。

不过，这两篇论文中所阐述的技术略有差异。UPV系统在训练期间更多的使用“回译”，而另一种由Facebook计算机科学家Guillaume Lample和他的同事们一起合作的系统在翻译过程中增加了一个步骤。不过，这两个系统在将一种语言翻译成另一种语言之前，都会先编码为一种抽象的形式。而两篇论文的作者都表示，他们可以应用其他论文中的技术来改进他们的结果。

研究人员利用两种方法英法互译了同一组大约3000万条句子，结果表明这两种方法的双语评估分数（用来衡量翻译的准确性）都差不多在15分，远不及用监督式方法的谷歌翻译的40分，而人类的得分超过50。不过这个分数至少比词对词的翻译要好。不过，作者表示如果在他们的训练中增加几千个平行文本，成为半监督式训练方法，结果很容易就会改善。

这两种新技术除了可以应用在没有平行文本的多语言之间，还可以应用于其他领域。比如在英语和法语之间只有新闻报道，但是没有街头俚语或医学术语的相关翻译，所以就可以利用这两种工具。“不过，这项技术还处于初期。”Artetxe的合著者Eneko Agirre提醒道，“我们刚刚开始开辟一项新的研究，还不确定它会通往哪里。”

原文地址：www.sciencemag.org/news/2017/11/artificial-intelligence-goes-bilingual-without-dictionary

发表于: 2017-12-172017-12-17 23:39:48
原文链接：http://kuaibao.qq.com/s/20171217G0NTYR00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

无监督式训练方法或能解决小语种机器翻译难题

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐