坚决打击假新闻 这种检测的AI将帮助我们检查假新闻事实

文 | AI国际站 唐恩

编 | 艾娃

本文由AI国际站 原创出品,未经许可,任何渠道、平台请勿转载,违者必究。

在过去的几年中,与假新闻作斗争已成为一个日益严重的问题,这是乞求一种涉及人工智能的解决方案的问题。几乎不可能验证新闻网站,视频流服务,博客,社交媒体等上正在生成的几乎无限量的内容一直在推动使用机器学习来管理在线内容,但是这些努力仅在找到垃圾邮件和删除成人内容以及在较小程度上检测到仇恨言论方面取得了一定的成功。

坚决打击假新闻 这种检测的AI将帮助我们检查假新闻事实

打击假新闻是一个更为复杂的挑战。事实检查网站,例如Snopes,FactCheck.org和PolitiFact,在公正地核实政客的谣言,新闻和言论方面做得不错。但是他们的影响力有限。

期望当前的人工智能技术完全自动化打击假新闻的行为是不合理的。但是希望深度学习的使用可以帮助使伪造新闻检测管道的某些步骤自动化,并增强人类事实检查人员的功能。

在2019年NeurIPS AI会议上发表的一篇论文中,DarwinAI和加拿大滑铁卢大学的研究人员介绍了一种AI系统,该系统使用先进的语言模型来自动进行姿态检测,这是识别虚假信息的重要的第一步。

自动化的假新闻检测管道

在创建可以抵抗虚假新闻的AI系统之前,我们必须首先了解验证索赔真实性的要求。AI研究人员在论文中将过程分为以下几个步骤:

  • 检索与索赔有关的文件
  • 检测这些文件相对于索赔的立场或立场
  • 根据文档的来源和语言质量计算该文档的声誉得分
  • 根据从相关文件中获得的信息验证索赔

研究人员并没有着眼于采用端到端的AI驱动的假新闻检测器,该检测器将一条新闻作为输入并输出“假”或“真实”消息,而是将重点放在了第二步。他们创建了一种AI算法,该算法可以确定某个文档是否同意,不同意或不赞成特定声明。

使用变压器检测姿态

这不是使用AI进行姿态检测的第一步。先前的研究使用了各种AI算法和组件,包括递归神经网络(RNN),长短期记忆(LSTM)模型和多层感知器,所有相关且有用的人工神经网络(ANN)体系结构。这项工作还利用了在该领域进行的其他研究,例如有关“词嵌入”的工作,即词之间关系的数字矢量表示,使神经网络可以理解它们。

但是,尽管这些技术对于某些任务(例如机器翻译)非常有效,但它们在姿态检测方面的成功有限。“以前的姿势检测方法通常是通过手工设计的特征或词嵌入来指定的,而这两种特征或表现形式都难以代表语言的复杂性,”。

这项新技术使用了一种变压器,这是一种在过去几年中变得很流行的深度学习算法。变压器用于最新的语言模型,例如GPT-2和Meena。尽管转换器仍然遭受基本缺陷的困扰,但是它们在处理大型文本集方面比其前任要好得多。

变压器使用特殊的技术来查找字节序列中的相关信息位。这使它们在处理大序列时比其他深度学习算法更具存储效率。变压器也是一种无监督的机器学习算法,这意味着它们不需要大多数当代AI工作中需要花费大量时间和精力的数据标记工作。

Wong说:“双向转换器语言模型的优点在于,它们允许使用很大的文本语料库来获得对语言的丰富而深刻的理解。”“然后,当涉及到姿态检测问题时,可以利用这种理解来促进更好的决策。”滑铁卢大学的研究人员使用了BERT(RoBERTa)的变体,也称为深双向变压器。RoBERTa由Facebook在2019年开发,是一种开源语言模型。

在培训阶段,变压器仍然需要非常大的计算资源(我们对Meena的培训费用进行的后勤计算约为150万美元)。使用像RoBERTa这样的现成模型的优点是研究人员可以执行转移学习,这意味着他们只需要针对特定问题领域微调AI。这样可以在培训阶段为他们节省大量时间和金钱。“深度双向转换器语言模型的一个显着优势是,我们可以利用预先训练的模型,这些模型已经使用大量的计算资源在非常大的数据集上进行了训练,然后针对特定任务(例如,姿态检测)对其进行微调。

通过转移学习,滑铁卢大学的研究人员能够使用一张Nvidia GeForce GTX 1080 Ti卡(约700美元)对RoBERTa进行微调以进行姿态检测。

姿势数据集

为了进行姿态检测,研究人员使用了Fake News Challenge(FNC-1)中使用的数据集.FNC-1是2017年发起的一项竞赛,目的是测试和扩展AI在检测在线虚假信息方面的功能。该数据集包含50000条训练数据和25000条测试集。AI将文章的标题和文本作为输入,并输出文本相对于标题的立场。文章的正文可能同意或不同意标题中的主张,可以在不采取立场的情况下进行讨论,可能与主题无关。

滑铁卢大学研究人员提出的基于RoBERTa的姿态检测模型的得分优于赢得了原始FNC竞赛的AI模型以及此后开发的其他算法。

坚决打击假新闻 这种检测的AI将帮助我们检查假新闻事实

假新闻挑战赛(FNC-1)结果:前三行是赢得原始竞赛(2017)的语言模型。接下来的五行是在接下来的几年中开发的AI模型。最后一行是滑铁卢大学研究人员提出的基于变压器的方法。

显然,开发代表现实世界的混乱和不可预测性的AI基准和评估方法非常困难,尤其是在自然语言处理方面。

FNC-1的组织者竭尽全力使基准数据集能够反映现实情况。他们的数据来自哥伦比亚大学Tow数字新闻学中心创建的实时谣言跟踪器Emergent Project。但是,尽管FNC-1数据集已被证明是姿态检测的可靠基准,但也有人批评它的分布范围不足以代表所有类别的结果。

Wong说:“假新闻的挑战正在不断发展。”“就像网络安全一样,散布错误信息的人与研究该问题的研究人员之间存在针锋相对的问题。”

基于AI的姿态检测的局限性

滑铁卢大学研究人员所做的工作的非常积极的方面之一是,他们已经认识到深度学习模型的局限性(我希望一些大型的AI研究实验室也能采用这种做法)。

一方面,研究人员强调,该AI系统将成为应对假新闻的众多组件之一。在收集文档,验证其声誉以及对相关索赔做出最终决定方面需要开发其他工具。这些是研究的活跃领域。

研究人员还强调需要将AI工具集成到人为控制的程序中。“如果可以开发这些要素,那么自动事实检查系统的最初目标最终用户应该是记者和事实检查员。研究人员在论文中观察到,通过事实检查过程的专家的视角来验证系统是该系统在基准数据集上无法提供的性能。

研究人员明确警告,盲目相信机器学习算法来做出关于事实的决策的后果。这项工作潜在的意想不到的负面结果是,人们无需使用自己的判断就可以将自动事实核查系统的输出作为确定的真相,或者恶意参与者有选择地提出可能被模型错误分类的主张,但是坚持自己的议程。

坚决打击假新闻 这种检测的AI将帮助我们检查假新闻事实

这是众多项目之一,显示了将人工智能和人类专业知识相结合的好处。“总的来说,我们将人类的经验和创造力与人工智能所提供的速度和细致性相结合。为此,AI打击假新闻的努力只是事实检查人员和新闻工作者在确定给定文章是否为欺诈性信息之前应该使用的工具,” Wong说。“人工智能系统可以做的是为给定新闻片段中的声明提供一些统计保证。也就是说,给定标题,他们可以发现,例如,有5000篇“其他”文章不同意该主张,而只有50篇支持该主张。这样的区分会警告个人怀疑他们正在阅读的内的准确性。”

Wong的公司DarwinAI的主要努力之一就是解决AI的可解释性问题。深度学习算法会对其训练数据进行非常复杂的表示,并且通常很难理解其输出背后的因素。可解释的AI在为深度学习决策带来透明度。Wong说:“在提供错误信息的情况下,我们的目标是让记者了解导致新闻被分类为伪造的关键因素。”团队的下一步是解决声誉评估,以通过文章的来源和语言特征来验证文章的真实性。


分享到:


相關文章: