前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【NLP】用腻了 CRF,试试 LAN 吧?

【NLP】用腻了 CRF,试试 LAN 吧?

作者头像
zenRRan
发布2019-12-06 12:58:49
1K0
发布2019-12-06 12:58:49
举报

作者:Tobias Lee

来自:AINLP公众号

知乎专栏:NLPer 的成长之路

原文链接,可点击文末"阅读原文"直达:

https://zhuanlan.zhihu.com/p/91031332


西湖大学在 EMNLP 2019 上提出了一种序列标注模型,在比 BiLSTM-CRF 训练解码速度更快的情况下,取得了更高的精度。

论文链接: arxiv.org/abs/1908.08676 源码链接: Nealcly/BiLSTM-LAN(https://github.com/Nealcly/BiLSTM-LAN

1. 序言

统计自然语言处理中,条件随机场(Conditional Random Field)在词性标注,命名实体识别,中文分词等序列标注任务上都取得了惊人的效果。然而在深度学习时代,很多情况下 BiLSTM-CRF 并没有比不对输出序列进行建模的 BiLSTM-softmax 取得更好的效果。一个可能的原因是神经网络编码器已经有很强的序列信息编码能力,在此基础上 CRF 并没有引入更多的有效信息。 为了更好的对输出序列进行编码,论文中提出了一种逐层改进的基于标签注意力机制的网络(Hierarchically-Refined Label Attention Network)。该模型通过利用标签知识,更好的捕捉标签间长期的依赖关系。在英文词性标注,命名实体识别和组合范畴语法超标注的任务上,BiLSTM-LAN 在比 BiLSTM-CRF 训练解码速度更快的情况下,取得了更好的效果。 如下图所示,以词性标注为例,对输入句子 "They can fish and also tomatoes here", 第一层中,模型通过局部信息对每个单词词性进行判断,倾向于判断 "can" 为情态动词(MD),"fish" 为动词(VB)。在经过多层LAN信息交互以后,长期标签依赖关系被考虑以后,"tomatoes"为名词的信息帮助模型对 "can" 和 "fish" 的词性进行重新判断,认定 "can" 和 "fish" 应为动词(VB)和名词(NN)。

示意图

2. 模型 下图模型中包含了两层 BiLSTM-LAN。每一个 BiLSTM-LAN 由对序列信息进行编码的 BiLSTM Encoding Layer 和对标签信息进行推理的 Label Attention Inference Layer 组成。

LAN-Model

BiLSTM Encoding Layer 为标准的 BiLSTM,定义其输出为

。Label Attention Inference Layer 首先通过计算词表示

与所有候选标签

的 attention 生成

,其中

为序列长度,为

候选标签个数,

为 BiLSTM 隐层纬度。

表示每个词对每个标签的概率分布。最终我们将蕴含标签信息的

与蕴含词信息的

拼接并输入到下一个 BiLSTM-LAN 层。在之后的 BiLSTM-LAN 中输入文本的序列表示和输出标签的序列表示分布同时被 BiLSTM 编码,底层的 BiLSTM-LAN 学习到局部的信息,顶层 BiLSTM-LAN 学习到更加全局的信息。在最后一层,BiLSTM-LAN 直接根据预测每个词的标签。 BiLSTM-LAN可以被看成一种 BiLSTM-softmax 的变种。一层BiLSTM-LAN与一层BiLSTM-softmax 完全相同。然而多层 BiLSTM-softmax 仅仅叠加BiLSTM以期更好的编码输入序列信息。BiLSTM-LAN可以理解为即叠加了BiLSTM也叠加了softmax,用来更好的学习输入和输出序列的表示。

3. 实验 本文在词性标注(WSJ, UD v2.2),命名实体识别(OntoNotes 5.0)和组合范畴语法超标注(CCGBank)上进行了实验。

其中,*表示利用多任务与半监督学习取得的结果

4. 分析 4.1 标签可视化 论文使用t-SNE对词性标注的标签向量进行了可视化分析。

训练开始前,所有标签随机分散到空间内。模型训练5轮后,可以看到"NNP"和"NNPS","VBD"和"VBN"等相似词性聚集到一起。在训练38轮后,几乎所有相似的词性被聚集到了一起,例如"VB","VBD","VBN","VBG"和"VBP"。

4.2 超标签复杂度 为了验证BiLSTM-LAN捕捉长距离标签依赖关系的能力,论文中对不同复杂度的超标签标注准确率进行了分析。

越复杂的超标签需要更长期的标签依赖关系进行判断。随着复杂度的增加,BiLSTM-CRF 并没有比 BiLSTM-softmax 表现的好,然而 BiLSTM-LAN 表现显著高于其他模型。

4.3 案例分析 下图是不同模型的预测结果,错误部分使用黄色标注。

由于进行局部预测,BiLSTM-softmax 并不能捕捉到 "settled" 和 "at" 的关系。BiLSTM-CRF在出现"/PP"后,由于马尔科夫假设,预测 "with" 为 "PP/NP"。可以看出,BiLSTM-LAN 基于全局信息更好地进行了预测。

5. 总结

理论和序列标注实验结果证明,BiLSTM-LAN 通过对所有候选标签进行编码的方式,很好的捕捉了标签间长期依赖关系,并在一定程度上解决了标注偏执问题。在比BiLSTM-CRF训练解码速度更快的情况下,在词性标注,命名实体识别和组合范畴语法超标注任务上可以达到更高的精度。

代码语言:javascript
复制
本文参与?腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-11-22 12:30:00,如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 序言
  • 5. 总结
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com