综合技术

语言知识和上下文表示的可迁移性

微信扫一扫,分享到朋友圈

语言知识和上下文表示的可迁移性
0

Introduction

预训练的词表示已经被广泛应用在NLP的任务中,在本文中称之为contextual word representations (CWRs)。CWRs通常是基于大规模数据集任务的神经网络模型的输出,如机器翻译,语言模型等。在不同任务上的成功证明了CWRs的可迁移性,然而对其表示的语言知识和迁移性还缺乏一定的理解,本文着眼于此进行研究。

最近关于学习CWRs的成果层出不穷,如ELMo,OpenAI的transformer语言模型和BERT,文中称之为contextualizers。

本文研究以下几个问题:

1、这些表示向量捕获了哪些语言特征?

2、在contextualizers中,每层的可迁移性为何不同?

3、预训练任务的选择如何影响向量的学习?

Probing Tasks

使用probing models分析CWR中的语言信息。如下图,从预训练的contextualizers中提取特征,生成单词表示,并训练简单模型进行预测。 如果能单独用CWR预测关于单词的语言信息,则认为CWR含有此类特征信息。


Token Labeling

  • 词性标注(POS)任务确定CWR是否捕获基本语法知识。
  • CCG超级标记任务评估向量在上下文中关于单词的句法角色的细粒度信息。
  • syntactic constituency ancestor tagging任务旨在探索向量的分层语法知识。
  • semantic tagging中,标注其在上下文中的语义角色的标签。
  • Preposition supersense disambiguation:介词消歧任务
  • event factuality (EF):事件事实任务

Segmentation

  • 句法分块(Chunk)测试CWR是否包含跨度和边界的概念
  • Named entity recognition (NER)
  • 语法错误检测(GED)
  • conjunct identification (Conj)

Pairwise Relations

检查是否捕获关系信息(是否有relation和什么relation)。

  • semantic dependency arc prediction
  • syntactic dependency arc classification
  • coreference arc prediction

Models

使用线性模型作为probe model,使用ELMo,OpenAI的transformer语言模型和BERT作为contextualizers分别实验。

Pretrained Contextualizer Comparison

针对不同Contextualizer的比较试验:


实验表明CWR未能捕获实体和共参考现象的有效信息。

可能原因:1、CWR根本不编码相关信息2、探测模型没有从向量中提取信息或预测的能力。

而学习任务特定的上下文信息可能有帮助。

改变probe model进一步探索在NER任务上表现不佳的原因(ELMo):


在NER和GED中,MLP和LSTM + Linear模型之间的性能非常相似, 这表明单纯扩大探测模型容量就可以CWR中提取必要的信息。在Conj和GGParent表明pretrained contextualizers不能捕获有效信息。

实验证明了针对任务训练上下文表示的有效性(而不是单纯固定CWR作为输入)。另一方面,这种特定任务的上下文表示可以来自于微调的CWR或使用固定输出特征作为task-trained contextualizer的输入。

Analyzing Layerwise Transferability

分析不同层的可迁移性:


可以认为迁移性是以任务特定性为代价的。循环网络中的第一层语境化始终是最易迁移的(验证了gradual unfreezing method的合理性)。基于transformer的上下表示器没有单个最可转移的层;每项任务的最佳表现层各不相同,通常在中间附近。在大多数任务中,其标量混合优于单个层。

Transferring Between Tasks

不同预训练任务的影响:(使用ELMo,每个预训练任务的训练数据都来自PTB)


结论是许多任务在用本任务做pretrain时会达到最佳效果,而使用大规模语料得到的CWR仍旧可以得到strong result。

Conclusion

本文探索了不同上下文表示的知识蕴含及其可迁移性,另外,在基于transformer的模型中,将不同层的输出标量混合能达到更好的实验效果。

阅读原文...

微信扫一扫,分享到朋友圈

语言知识和上下文表示的可迁移性
0
西土城的搬砖日常

谷歌助力,快速实现 Java 应用容器化

上一篇

码农西游 | 为啥有些大公司技术弱爆了

下一篇

评论已经被关闭。

插入图片

热门分类

往期推荐

语言知识和上下文表示的可迁移性

长按储存图像,分享给朋友