Bart: Seq2Seq预训练模型

微信扫一扫,分享到朋友圈

Bart: Seq2Seq预训练模型

最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的、完整的知识结构体系,

以下是要写的文章,本文是这个系列的第十六篇:

Overall

Transformer最早出来是为了解决机器翻译问题,因而Transformer模型分为两部分,Encoder和Decoder。Bert模型使用了Encoder部分,而GPT模型使用了Decoder部分,分别得到了很好的预训练模型。

而本文所解说的Bart,则返本溯源,重新拾起了Encoder-Decoder并用的结构,即seq2seq结构

Bart预训练模式

Bert,GPT和Bart的对比如下,可以看到,Bart是在Encoder中输入被损坏的句子,然后在Decoder中去还原。这样做的好处在于相对于Bert中单一的数据损坏方式,Bart更灵活。

Bart的数据处理方式

在Bert中,数据是按照15%的概率采样出来替换成特殊标记[MASK],当然,里面还有一个8:1:1的分配,在这里就不细说了,感兴趣可以去Bert那一篇细看。

而在Bart中,数据的处理就多种多样了。如下,可以是类似Bert的Mask方式,可以是删除,可以是颠倒顺序,可以是多个词语替换为一个[MASK]。

其中,词语删除和多个词语替换为一个[MASK]等方式会改变句子的长度,这点是Bert做不到的。

这样的数据复原方式,使得Bart会在生成问题上很有优势,实验也表明了这点,另外,Bart可以在判别任务上也达到和Roberta相近的结果。

实验

在GLUE数据集上的结果如下,Bart可以达到和Roberta相近的结果。

在Summarization数据集上的结果如下:

在Abstractive QA上的结果如下:

可以看到,Bart这种方式在生成问题上效果很好。

参考文献

  • [1]. Lewis, Mike, et al. “Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension.” arXiv preprint arXiv:1910.13461 (2019).

欢迎加入预训练模型交流群

进群请添加AINLP小助手微信 AINLPer(id: ainlper),备注 预训练模型

推荐阅读

这个NLP工具,玩得根本停不下来

征稿启示| 200元稿费+5000DBC(价值20个小时GPU算力)

完结撒花!李宏毅老师深度学习与人类语言处理课程视频及课件(附下载)

从数据到模型,你可能需要1篇详实的pytorch踩坑指南

如何让Bert在finetune小数据集时更“稳”一点

模型压缩实践系列之——bert-of-theseus,一个非常亲民的bert压缩方法

文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化

Node2Vec 论文+代码笔记

模型压缩实践收尾篇——模型蒸馏以及其他一些技巧实践小结

中文命名实体识别工具(NER)哪家强?

学自然语言处理,其实更应该学好英语

斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。

阅读至此了,分享、点赞、在看三选一吧:pray:

微信扫一扫,分享到朋友圈

Bart: Seq2Seq预训练模型

《实况足球2021》vs《实况足球2020》 也没啥变化 确实只是单纯赛季更新

上一篇

大数据领域75个核心术语讲解!

下一篇

你也可能喜欢

Bart: Seq2Seq预训练模型

长按储存图像,分享给朋友