综合技术

《Extracting Multiple-Relations 》阅读笔记

微信扫一扫,分享到朋友圈

《Extracting Multiple-Relations 》阅读笔记
0

《Extracting Multiple-Relations in One-Pass with Pre-Trained Transformers》

原文链接: https:// arxiv.org/abs/1902.0103 0?context=cs.CL

多关系抽取任务中,目前的方法大多需要对目标的段落/句子进行多次(multiple-pass)编码操作,成本高且对长段落和大数据集应用效果差。本文的方法可以对一个段落中的多关系抽取任务,只进行一次段落编码(one-pass),从而缓解上述问题。此外,本文结合预训练语言模型BERT,针对Relation Classification任务的特点提出了两种抽取entity-aware信息的策略。

Introduction

多关系抽取(multi-relation extraction, MRE)是关系抽取任务中的一种,目标是在一个输入段落中,可以识别出多个实体对之间的关系。目前的方法主要是采用单关系抽取的方法,把每对实体看作一个独立的实例,同时依赖于附加的实体关系特征。这样的方法在预测多实体对之间的关系时,需要对同一个段落进行多次编码,尤其在使用deep learning model时往往造成计算效率低的问题。本文主要通过解决multi-pass的问题来对MRE任务进行one-pass解决。

本文主要贡献:

Key idea:对于同一段落中的不同实体对间的不同关系,可以对应生成不同的段落表示,而且.生成的段落表示是entity-aware的。

1. 应用预训练语言模型Bidirectional Encoder Representations from Transfoemers (BERT) 对输入句子进行one-pass编码;

2. 在预训练模型中引入结构化预测层,从而对不同的实体对进行不同的关系预测;在self-attention层中加入relative distance信息,可以得到输入段落中的所有实体位置信息。

Related Work

MRE:

1. (Gormley et al., 2015; Nguyen and Gr- ishman, 2015) 通过特征和模型的选择来进行多关系抽取。

2. (Fu et al., 2017; Shi et al., 2018) 关注MRE模型的领域自适应性。

上述的方法都是将MRE任务视为multi-pass的SRE任务(单关系抽取)。

3. Verga et al. (2018) 实际上解决的不是MRE任务,其针对的问题是:对于一对目标实体,在同一段落中存在多次实体提及时,进行该实体对的单关系预测。而本文针对的任务是对于多对实体,在同一段落中进行多关系预测。

预训练语言模型:

1. 目前比较热门的几种预训练编码器主要有CoVe (McCann et al., 2017), ELMo (Peters et al., 2018), GPT (Radford et al., 2018) and BERT (Devlin et al., 2018)

本文主要针对两个问题展开讨论:1.目前对于将预训练模型应用到结构化输入的研究较少,而MRE任务中的结构化信息非常重要;2.预训练模型多为深层模型,因此传统的MRE方法在应用预训练模型时成本较高。本文针对以上两个问题进行了研究,提出了本文的one-pass entity-aware方法。

2. 本文基于BERT产生的表示来进行MRE任务处理。BERT是一个词级&句子级的语言模型,在用较少的标注数据进行fine-tune的时候,可以得到比较好的效果,e.g.阅读理解、文本分类任务。

其中的transformers的每一层执行multi-heads self-attention,每一层的输出:


其中self-attention score 由:


得到。

Model

本文在BERT模型中加入结构化预测层,使在MRE任务中模型可以只对输入进行一次编码;加入entity-aware机制,在每个隐层中加入多个实体对的不同relative distance信息。

整体模型:


1.Structured Prediction of Multi-Relations with BERT

由于存在一个实体中包含多个词的情况,而且BERT应用Byte Pair Encoding(BPE)编码,一个实体会存在多个隐层状态,作者做平均池化来得到每一个实体的表示。最终对于一个实体对( )其表示向量为( )拼接 通过线性分类层来进行关系分类:


训练损失函数:


2. Entity-Aware Self-Attention based on Relative Distance

目标是将multi-relations信息编码到模型隐层中。Key idea:使用词和所有实体间的相对位置信息(relative distance)来指导attention计算。

对于一对tokens( )如果存在距离类别 ,则将上文的公式1,2变形如下:


其中 , 是距离类别 的向量表示,距离类别 的定义如下:

  • 如果 的其中一个存在某一个实体中,k限制着相对距离的最大值,则

  • 如果 的都不是实体提及,则将 , 映射为零向量
  • 如果 都组成某一实体,则应用公式5

张量的可视化如下:


Experimental Result

  • 数据集:

1.ACE2005:采用多域设置,包含

news domain (nw and bn), tune hyperparameters on half of the broadcast conversation (bc) domain, and evaluate on the remainder of broadcast con- versation (bc), the Telephone Speech (cts), Usenet Newsgroups (un), and Weblogs (wl) domains

2.SemEval 2010 task 8

  • 方法:
  1. BERT_sp:BERT+结构化预测层

2. Entity-Aware BERT_sp:BERT+结构化预测层+entity-aware(本文整体模型)

3. BERT_sp w/ position embedding on the final attention layer :

这种方法借鉴了之前工作(Nguyen and Grishman, 2015; Fu et al., 2017; Shi et al., 2018),在BERT中最后的隐层输出上加上relative position embeddings。

4. BERTSP w/ entity indicators on input layer :

这种方法借鉴了之前工作(Verga et al., 2018)中对于position feature的实现方式,通过加入entity indicator指示实体的位置,并将这种indicator转化为embedding参与到fine-tuning过程中。

  • Results on ACE 05
  1. Main results

本文提出的方法在MRE任务中的效果都是最好的。


2. 时间分析

由于one-pass的主要贡献是缩短时间成本,本文还对训练、测试的时间/速度进行了分析:


3. 预测模型分析

用不同的预测模型代替线性预测,得到的对比结果如下:


作者分析原因是通过无监督预训练,编码器会功能很强大,所以在顶端加上更复杂的层并不会提升性能,反而会增加更多的参数和更高的过拟合风险。

  • Results on SemEval

Conclusions

本文应用BERT提出了一种可以对段落一次性编码的多关系抽取方法,基于预训练模型进行结构改进的思路可以加以借鉴。

阅读原文...


微信扫一扫,分享到朋友圈

《Extracting Multiple-Relations 》阅读笔记
0

西土城的搬砖日常

rxjs入门6之合并数据流

上一篇

UX Microcopy: Finding a Balance Between Empathy andHumor

下一篇

评论已经被关闭。

插入图片

热门分类

《Extracting Multiple-Relations 》阅读笔记

长按储存图像,分享给朋友