在过去的几年中,自然语言处理(NLP)取得了长足的进步,诸如BERT,ALBERT,ELECTRA和XLNet等预训练语言模型在各种任务中均取得较高的准确性。预训练语言模型以Wikipedia这样的大型文本语料库为训练集,通过遮掩一些单词并对它们进行预测来学习嵌入表示,即遮掩语言建模。实验结果表明,通过这样的方式,可以对不同概念(如外科医生和手术刀)间的丰富语义信息进行编码。训练完成后,经过微调就可使模型适用特定任务的训练数据,通过预训练嵌入实现分类等特定任务。鉴于这样的预训练表示在不同NLP任务中得到广泛采用,作为从业者,我们需要了解预训练模型如何对信息编码以及学习到怎样的相关性,这些又会怎样影响下游应用性能,这样才不至于偏离我们的AI原则。
在“Measuring and Reducing Gendered Correlations in Pre-trained Models”,我们对BERT及精简版的ALBERT进行实例研究,讨论了性别相关性,并为预训练语言模型的实践应用提供参考。我们在学术任务数据集进行实验,并将结果与一些常用模型做了对比,以验证模型实用性,并为进一步的研究提供参考。我们后续会发布一系列checkpoints,从而可以在保持NLP任务准确性的情况下减少性别相关性。
相关性衡量
为了解预训练表征中的相关性如何影响下游任务,可以使用多种评估指标来研究性别表征。在这里,我们采用共指消解讨论测试结果,该方法旨在使模型能够理解句子中给定代词的正确先行词, 例图示句子中,模型要识别出他指护士而不是患者。
OntoNotes(Hovy等,2006)是最常用得标准验证数据集,同时F1分数用来衡量模型在共指消解中的准确性(Tenney等。2019)。由于OntoNotes仅表示一种数据分布,因此我们还使用WinoGender基准测试,该基准提供了一些其他数据,通过该基准可以判别性别和职业何时会产生错误的共指消解。WinoGender的得分较高(接近1),表明模型基于性别与职业间的关联(如将护士与女性而不是男性关联)进行决策;当性别和职业之间没有一致的关联时(得分为零),此时模型决策基于句子结构或语义等其他信息。
研究发现,BERT或ALBERT在WinoGender上都没有零得分,而在OntoNotes上获得了极高的准确性(接近100%)。实验表明,在一些情况下,模型在推理决策中会考虑性别相关性。这符合我们的预期,模型可以使用多种线索来理解文本,可以只采用其中的一种或是选择全部线索。当然,在实际应用中我们还是要谨慎,不能寄希望于模型根据先验的性别相关性进行预测,其他可用信息对于预测也非常重要。
实践指南
鉴于预训练模型嵌入中的隐式关联有可能影响下游任务,因此在开发新的NLP模型时,我们要考虑可以采取哪些措施来减轻这种风险?
相关性的缓解:前文以介绍了Dropout对性别相关性的影响,据此,我们进一步推论得到通过这样的方式可能减少额外的相关性:通过增加dropout参数,我们可以改进模型对WinoGender的推理方式,而无需手动指定任何内容,甚至不需要更改微调阶段。然而,随着dropout的增加,OneNotes的准确性也会开始下降(见BERT的结果),但我们认为可以在预训练阶段避免这种情况,通过更改dropout改进模型,而无需针对特定任务进行更新。在论文中,我们基于反事实数据增强,提出了另一种具有差异化权重的缓解策略。
展望
我们认为,以上这些实践指南为开发强大的NLP系统提供了参考,从而使其适用于更广泛的语言和应用范围。当然,由于技术本身的不足,难以捕获和消除所有潜在的问题。因此,在现实环境中部署的任何模型都应经过严格测试,即尝试不同方法,并通过一些保护措施以确保符合道德规范,如Google的AI原则。我们期待评估框架与数据取得更进一步的发展,使语言模型适用于各种任务,为更多人提供优质服务。
致谢
本文的合作者包括Xuezhi Wang,Ian Tenney,Ellie Pavlick,Alex Beutel,Jilin Chen,Emily Pitler和Slav Petrov。同时感谢Fernando Pereira,Ed Chi,Dipanjan Das,Vera Axelrod,Jacob Eisenstein,Tulsee Doshi和James Wexler等人。
昨日晚间,知名苹果分析师郭明錤更新了有关美国封禁微信对苹果 iPhone 影响的报...
2020年对于手机制造商而言将是艰难的,CCS Insight的分析师认为,与2019年相比,...
机器人流程自动化(RPA)技术对于一些企业来说并不总是福音,人们为此需要了解RPA...
众所周知,通信行业的女性从业者人数占比很低。那么,这个比例到底是多少呢? 小...
随着生活节奏的加快,人们面对的压力越来越大,能在有限的休息时间内缓解压力、...
人工智能与产业结合推动中国市场爆发式增长,是未来我国移动互联网发展的重大趋...
对于一家以搜索服务起家的企业来说,谷歌拥有的操作系统在数量上实在惊人。除了A...
从2020年年中开始,网络上有关4G网络越来越慢的讨论非常多。虽然有网友将此归结...
人工智能(artificial intelligence,AI) 是基于计算机科学来模拟人脑学习知识、...
为什么人工智能可以 COVID-19 席卷全球的时候弥补巨大的缺口?无论是教育、安全、...