如何用少样本做数据到文本的生成?

对于NLP研究领域来说,来自结构化数据或知识的自然语言生成(NLG)是必不可少的。虽然以前基于神经的端到端方法在几个基准测试中取得了重大进展,但是这些方法在实际应用中需要大量数据,在数据有限的情况下很难得以应用。


近日,来自加利福尼亚大学的学者Zhiyu Chen等人发表了一篇名为《Few-Shot NLG with Pre-Trained Language Model》的论文。文中,研究者提出了少样本自然语言生成的新任务。目前,该论文已被ACL 2020录用。


由于人们倾向于总结表格数据,因此他们提出了一种简单而有效的方法,它不仅展示了强大的性能,而且还提供了良好的跨域泛化。研究贡献如下:

  • 提出了少样本NLG的新研究,在实际应用中潜力巨大。

  • 对于该问题提出了不同的算法,创建了有价值的多域表格到文本的数据集,并将其公开。

  • 提出的算法可以利用外部资源作为先验知识,以显著减少人工标注的工作量,并在各个领域的基准性能平均提高8.0 BLEU以上。


模型体系结构的设计基于两个方面:从输入数据的内容选择/复制和语言建模来组成连贯的句子,这些句子可以从先验知识中获得。


ACL 2020 | 如何用少样本做数据到文本的生成?

图1:switch策略(来自WIKIBIO数据集的示例):在输入表格的选择/复制(左蓝色部分)和语言模型生成(从黄色前部分获取)之间交替进行,语言模型是从预训练中获得的。

一般来说,需要两种技能来组成连贯正确的句子。其中一项技能是从表中选择和复制内容——通过少量的表格可快速学会该技能。

另一种是写出语法正确的句子,将这些事实结合在一起——这种技能并不局限于任何领域。

可以想象这是一个“switch”,通过这两种技能的交替,产生事实正确和连贯的句子。

因此,研究者采用预先训练的域独立(domain-independent)语言模型作为先验语言模型,而内容选择/复制只能通过少数几个领域内训练实例来学习,从而达到少样本的学习目标。

仅需要少量实例训练,就可以学习从表格切换和复制的能力,从而将神经NLG模型从数据密集型训练中解放出来(有关switch策略的示例见图1)。


此前基于大量训练数据的方法,并不是运用switch策略,而是训练一种强领域的特定语言模型,因此在少样本的设置下,其效果非常差。

由于研究者是在严格数据限制下进行的多次操作,因此模型参数空间需要从头开始学习的内容不能太大。

因此,他们力求模型架构简单,这种简单性也意味着在实际应用程序中,模型具有更好的泛化性和可重复性。


ACL 2020 | 如何用少样本做数据到文本的生成?

图2:方法概述:在switch策略策略的基本框架下,预训练的语言模型充当生成器。

为了演示该方法可以跨域泛化,研究者遵循WIKIBIO中列出的方法,从Wikipedia中抓取多域表格到文本的数据作为训练/测试实例。

ACL 2020 | 如何用少样本做数据到文本的生成?

图3:性能曲线。与最强的基准(Base + switch)相比,该方法的性能起初倾向于较快增强(该区域少于200个实例),然后随着训练实例的增加而逐渐稳定。

通过200个训练实例,他们证明了该方法的性能良好,并且在自动测量和手动评估的情况下,该方法与最强的基准性能相比,BLEU分数平均提高了8.0 点。


论文链接

https://arxiv.org/pdf/1904.09521.pdf


GitHub链接

https://github.com/czyssrs/Few-Shot-NLG


分享到:


相關文章: