堅決打擊假新聞 這種檢測的AI將幫助我們檢查假新聞事實

文 | AI國際站 唐恩

編 | 艾娃

本文由AI國際站 原創出品,未經許可,任何渠道、平臺請勿轉載,違者必究。

在過去的幾年中,與假新聞作鬥爭已成為一個日益嚴重的問題,這是乞求一種涉及人工智能的解決方案的問題。幾乎不可能驗證新聞網站,視頻流服務,博客,社交媒體等上正在生成的幾乎無限量的內容一直在推動使用機器學習來管理在線內容,但是這些努力僅在找到垃圾郵件和刪除成人內容以及在較小程度上檢測到仇恨言論方面取得了一定的成功。

堅決打擊假新聞 這種檢測的AI將幫助我們檢查假新聞事實

打擊假新聞是一個更為複雜的挑戰。事實檢查網站,例如Snopes,FactCheck.org和PolitiFact,在公正地核實政客的謠言,新聞和言論方面做得不錯。但是他們的影響力有限。

期望當前的人工智能技術完全自動化打擊假新聞的行為是不合理的。但是希望深度學習的使用可以幫助使偽造新聞檢測管道的某些步驟自動化,並增強人類事實檢查人員的功能。

在2019年NeurIPS AI會議上發表的一篇論文中,DarwinAI和加拿大滑鐵盧大學的研究人員介紹了一種AI系統,該系統使用先進的語言模型來自動進行姿態檢測,這是識別虛假信息的重要的第一步。

自動化的假新聞檢測管道

在創建可以抵抗虛假新聞的AI系統之前,我們必須首先了解驗證索賠真實性的要求。AI研究人員在論文中將過程分為以下幾個步驟:

  • 檢索與索賠有關的文件
  • 檢測這些文件相對於索賠的立場或立場
  • 根據文檔的來源和語言質量計算該文檔的聲譽得分
  • 根據從相關文件中獲得的信息驗證索賠

研究人員並沒有著眼於採用端到端的AI驅動的假新聞檢測器,該檢測器將一條新聞作為輸入並輸出“假”或“真實”消息,而是將重點放在了第二步。他們創建了一種AI算法,該算法可以確定某個文檔是否同意,不同意或不贊成特定聲明。

使用變壓器檢測姿態

這不是使用AI進行姿態檢測的第一步。先前的研究使用了各種AI算法和組件,包括遞歸神經網絡(RNN),長短期記憶(LSTM)模型和多層感知器,所有相關且有用的人工神經網絡(ANN)體系結構。這項工作還利用了在該領域進行的其他研究,例如有關“詞嵌入”的工作,即詞之間關係的數字矢量表示,使神經網絡可以理解它們。

但是,儘管這些技術對於某些任務(例如機器翻譯)非常有效,但它們在姿態檢測方面的成功有限。“以前的姿勢檢測方法通常是通過手工設計的特徵或詞嵌入來指定的,而這兩種特徵或表現形式都難以代表語言的複雜性,”。

這項新技術使用了一種變壓器,這是一種在過去幾年中變得很流行的深度學習算法。變壓器用於最新的語言模型,例如GPT-2和Meena。儘管轉換器仍然遭受基本缺陷的困擾,但是它們在處理大型文本集方面比其前任要好得多。

變壓器使用特殊的技術來查找字節序列中的相關信息位。這使它們在處理大序列時比其他深度學習算法更具存儲效率。變壓器也是一種無監督的機器學習算法,這意味著它們不需要大多數當代AI工作中需要花費大量時間和精力的數據標記工作。

Wong說:“雙向轉換器語言模型的優點在於,它們允許使用很大的文本語料庫來獲得對語言的豐富而深刻的理解。”“然後,當涉及到姿態檢測問題時,可以利用這種理解來促進更好的決策。”滑鐵盧大學的研究人員使用了BERT(RoBERTa)的變體,也稱為深雙向變壓器。RoBERTa由Facebook在2019年開發,是一種開源語言模型。

在培訓階段,變壓器仍然需要非常大的計算資源(我們對Meena的培訓費用進行的後勤計算約為150萬美元)。使用像RoBERTa這樣的現成模型的優點是研究人員可以執行轉移學習,這意味著他們只需要針對特定問題領域微調AI。這樣可以在培訓階段為他們節省大量時間和金錢。“深度雙向轉換器語言模型的一個顯著優勢是,我們可以利用預先訓練的模型,這些模型已經使用大量的計算資源在非常大的數據集上進行了訓練,然後針對特定任務(例如,姿態檢測)對其進行微調。

通過轉移學習,滑鐵盧大學的研究人員能夠使用一張Nvidia GeForce GTX 1080 Ti卡(約700美元)對RoBERTa進行微調以進行姿態檢測。

姿勢數據集

為了進行姿態檢測,研究人員使用了Fake News Challenge(FNC-1)中使用的數據集.FNC-1是2017年發起的一項競賽,目的是測試和擴展AI在檢測在線虛假信息方面的功能。該數據集包含50000條訓練數據和25000條測試集。AI將文章的標題和文本作為輸入,並輸出文本相對於標題的立場。文章的正文可能同意或不同意標題中的主張,可以在不採取立場的情況下進行討論,可能與主題無關。

滑鐵盧大學研究人員提出的基於RoBERTa的姿態檢測模型的得分優於贏得了原始FNC競賽的AI模型以及此後開發的其他算法。

堅決打擊假新聞 這種檢測的AI將幫助我們檢查假新聞事實

假新聞挑戰賽(FNC-1)結果:前三行是贏得原始競賽(2017)的語言模型。接下來的五行是在接下來的幾年中開發的AI模型。最後一行是滑鐵盧大學研究人員提出的基於變壓器的方法。

顯然,開發代表現實世界的混亂和不可預測性的AI基準和評估方法非常困難,尤其是在自然語言處理方面。

FNC-1的組織者竭盡全力使基準數據集能夠反映現實情況。他們的數據來自哥倫比亞大學Tow數字新聞學中心創建的實時謠言跟蹤器Emergent Project。但是,儘管FNC-1數據集已被證明是姿態檢測的可靠基準,但也有人批評它的分佈範圍不足以代表所有類別的結果。

Wong說:“假新聞的挑戰正在不斷髮展。”“就像網絡安全一樣,散佈錯誤信息的人與研究該問題的研究人員之間存在針鋒相對的問題。”

基於AI的姿態檢測的侷限性

滑鐵盧大學研究人員所做的工作的非常積極的方面之一是,他們已經認識到深度學習模型的侷限性(我希望一些大型的AI研究實驗室也能採用這種做法)。

一方面,研究人員強調,該AI系統將成為應對假新聞的眾多組件之一。在收集文檔,驗證其聲譽以及對相關索賠做出最終決定方面需要開發其他工具。這些是研究的活躍領域。

研究人員還強調需要將AI工具集成到人為控制的程序中。“如果可以開發這些要素,那麼自動事實檢查系統的最初目標最終用戶應該是記者和事實檢查員。研究人員在論文中觀察到,通過事實檢查過程的專家的視角來驗證系統是該系統在基準數據集上無法提供的性能。

研究人員明確警告,盲目相信機器學習算法來做出關於事實的決策的後果。這項工作潛在的意想不到的負面結果是,人們無需使用自己的判斷就可以將自動事實核查系統的輸出作為確定的真相,或者惡意參與者有選擇地提出可能被模型錯誤分類的主張,但是堅持自己的議程。

堅決打擊假新聞 這種檢測的AI將幫助我們檢查假新聞事實

這是眾多項目之一,顯示了將人工智能和人類專業知識相結合的好處。“總的來說,我們將人類的經驗和創造力與人工智能所提供的速度和細緻性相結合。為此,AI打擊假新聞的努力只是事實檢查人員和新聞工作者在確定給定文章是否為欺詐性信息之前應該使用的工具,” Wong說。“人工智能系統可以做的是為給定新聞片段中的聲明提供一些統計保證。也就是說,給定標題,他們可以發現,例如,有5000篇“其他”文章不同意該主張,而只有50篇支持該主張。這樣的區分會警告個人懷疑他們正在閱讀的內的準確性。”

Wong的公司DarwinAI的主要努力之一就是解決AI的可解釋性問題。深度學習算法會對其訓練數據進行非常複雜的表示,並且通常很難理解其輸出背後的因素。可解釋的AI在為深度學習決策帶來透明度。Wong說:“在提供錯誤信息的情況下,我們的目標是讓記者瞭解導致新聞被分類為偽造的關鍵因素。”團隊的下一步是解決聲譽評估,以通過文章的來源和語言特徵來驗證文章的真實性。


分享到:


相關文章: