歷屆聯合國大會都在辯論什麼?讓半監督機器學習來告訴你

在國際關係理論的第三次大辯論中,建構主義國際關係理論異軍突起,成為最受學者青睞的理論之一。話語分析是建構主義學者常用的研究方法,被廣泛應用於戰爭、反恐、民族主義等研究領域。話語分析對於人們理解國際政治背後一些深層次的邏輯起到了非常重要的作用。然而,直到近年,多數話語分析研究都是採取人工編碼方式,這一方面帶來了比較高昂的分析成本,另一方面也存在研究者將主觀偏見帶入研究的風險。

隨著政治學者對量化文本分析方法的探索,一些大規模語料庫被建立起來並提供公開利用。Alexander Baturo等人構建的聯合國大會一般性辯論語料庫(UN General Debate corpus,以下稱UNGD語料庫)便是其中之一。每年秋季,各國領導人(或其代表)都會在聯合國大會進行一次15分鐘左右的發言,闡述該國的外交政策和對重要國際問題的立場。領導人一般會選擇用本國語言發言,但同時會提交一份官方英文翻譯,用於公佈在聯合國網站。UNGD語料庫將1970-2017年(目前已更新至2018年)的聯合國大會一般性辯論進行了文本化處理,研究者可以相對簡單地將該數據用於各類文本分析模型。

歷屆聯合國大會都在辯論什麼?讓半監督機器學習來告訴你

聯合國標誌

有的學者已經使用LDA主題模型等無監督學習方法對UNGD語料庫進行文本分類。然而,無監督學習方法產出的結果與先前人工編碼的研究結果存在很大出入,也很難從理論上進行較為合理的解釋。這是因為,研究者很難對無監督學習模型進行較為有效的干預,使其過程符合用於分析的理論。有監督學習方法可以在一定程度上克服這一缺點,但是需要通過人工標註大量數據來得到一份訓練數據庫,使用成本較為高昂。

本文的目標在於提供一種控制和成本相對平衡的方法,使研究者既可以根據自身的理論在一定程度上對文本分析過程進行干預,又不至於因為干預成本過於高昂而難以實行。在下文中,我們將提出Newsmap這一半監督學習文本分類模型,並對其在文本分類任務中的表現進行評估。

半監督學習技術

計算機科學家們開發了大量的半監督學習技術,其核心思想是利用少量的標註樣本和大量的未標註樣本來進行模型訓練。渡邊耕平將詞典分析與樸素貝葉斯分類器結合,開發出一種新的半監督學習文本分類模型。由於該模型最初被用於國際新聞的地理分類,他將該模型命名為Newsmap。事實上,Newsmap不僅可以用於新聞報道的地理分類,也可用於各類文本的主題分類。Newsmap模型需要的監督不是大規模的人工標註數據,而僅僅是一個研究者根據自身的數據和研究問題所做成的小詞典。在半監督學習方法中,詞典中的詞彙被稱為"種子詞彙(seed words)"。首先,Newsmap模型將在整個語料庫中搜索種子詞彙,從而給各個文檔進行標註。然後,這些標籤將用於估計語料庫中的特徵與各個標籤的關係,從而計算各個文檔歸類於各個主題的概率。好的種子詞彙能夠有效提高模型的分類準確度,而壞的種子詞彙可能大大降低模型的表現。可見,使用Newsmap模型最重要的一步便是設計一個相對精確的詞典從而實現精確度較高的分類。

下面,我們將通過一系列實驗來探索如何選取詞典中的種子詞彙。

實驗

為了進行文本分類實驗,我們從UNGD語料庫1991年至2017年的數據中每年選取了一個國家的發言。我們在選取樣本時,充分考慮了發言國家的國際影響力、地理位置、工業化水平等因素。另外,由於所有樣本均為冷戰後的發言,發言主題具有相對的一致性。選取樣本後,我們將所有發言分割為句子,並將每一句話人工分類到以下六個主題之一:開場白、安全問題、發展問題、人權問題、民主問題以及聯合國問題。我們將人工分類的結果作為黃金標準(gold standard),以此來評估模型的表現。

對於每個目錄,我們定義了兩套種子詞彙:基於知識的種子詞彙(knowledge-based seed words)和基於頻率的種子詞彙(frequency-based seed words)。基於知識的種子詞彙是根據我們作為該領域研究者的背景知識以及各類相關文獻的術語表和索引等選取,而基於頻率的種子詞彙是從整個語料庫詞頻前300的特徵中選取。表1 列出了我們在實驗中使用的種子詞彙。我們在詞典中使用了通配符來使各個種子詞彙更加一般化。

建立詞典後,我們分別將基於知識的種子詞彙、基於頻率的種子詞彙以及兩者個的結合用於Newsmap模型對樣本數據進行分類。我們使用F1 score來評估模型表現,其計算方法為精確率和召回率的調和平均數。結果發現,基於知識的種子詞彙表現(F1 = 0.53)略優於基於頻率的種子詞彙(F1=0.52),而兩者結合使用的結果表現最優(F1=0.57)。需要注意的是,單句分類對於任何模型來說都是一項相當困難的任務,因為每個句子中含有的特徵數量是十分有限的。

歷屆聯合國大會都在辯論什麼?讓半監督機器學習來告訴你

表1 種子詞彙

實驗1:種子詞彙的覆蓋

為了研究種子詞彙的數量與分類精確度的關係,我們隨機抽取1-7個種子詞彙投入Newsmap模型來模擬計算分類結果的F1 score。從圖1可以看出,隨著種子詞彙數量的增加,分類結果的F1 score也有了明顯的改善,而種子詞彙的數量達到7個的時候,模型的表現出現了相對的平穩。由此可見,增加種子詞彙的數量,尤其是增加高頻種子詞彙,可以有效改善模型分類的結果。

歷屆聯合國大會都在辯論什麼?讓半監督機器學習來告訴你

圖1:種子詞彙的覆蓋與F1

實驗2:平均特徵信息熵

平均特徵信息熵(average feature entropy,以下稱AFE)是一個衡量信息處理過程中信息量的統計指標。在我們的實驗中,如果一個新的種子詞彙增加後AFE變大,說明該詞彙隨機屬於多個主題的可能性較高,反之,如果AFE變小,說明該詞彙傾向於今出現在某一主題之中。在下面的實驗中,我們以基於知識的種子詞彙為基準,隨機從基於頻率的種子詞彙中選取一個詞彙添加,然後計算AFE和F1 score,從而發現它們的相關關係。

歷屆聯合國大會都在辯論什麼?讓半監督機器學習來告訴你

圖2:種子詞彙帶來的AFE、覆蓋率以及F1 score的變化

從圖2可以看出,在初始階段F1 score隨著種子詞彙的添加逐漸有了提高,然而,當"people" (20th)和 "hop*" (30th)被添加進去時,AFE增加,F1 score出現了急劇的下降。同樣的負相關在"legal*" (5th), "women" (6th), "respect*" (12th), "responsib*" (15th), "institution*" (19th), "anniversary*" (21th) 以及"government*" (27th)等處也有出現。我們對此過程進行了100次重複模擬,發現AFE和F1 score之間存在顯著的負相關(r=−0.49, p<0.001>

實驗3:選擇標準

我們通過計算AFE,定位出了23個可能降低模型分類表現的"風險種子詞彙"。我們將這些風險詞彙從詞典中去除之後,發現Newsmap模型的F1 score從原來的0.57上升到了0.61,較原來有了明顯的改善。圖3顯示了每個詞彙帶來的AFE和F1 score的變化。

歷屆聯合國大會都在辯論什麼?讓半監督機器學習來告訴你

圖3:定位風險詞彙

實驗4:語境平滑處理

雖然我們通過AFE定位和去除風險種子詞彙提高了Newsmap模型的表現,但是由於很多句子之中並無較為明顯的話題指標,模型很難對這類文檔進行準確的分類。在人工標註之時,我們可以根據上下文語境來對缺乏話題指標的句子進行分類。為了模仿這一過程,我們對模型分類結果進行了平滑處理,使每句發言的前後3句話納入對該句分類的考慮依據之中。圖4顯示了平滑處理可以有效捕捉到句子之間話題的連接與轉換。經過語境平滑處理後,分類結果的F1 score提高到了0.72。

歷屆聯合國大會都在辯論什麼?讓半監督機器學習來告訴你

圖4:對烏克蘭1993年聯合國大會發言的平滑化處理

案例研究

為了展示該方法可能的應用,我們使用Newsmap模型對冷戰後五個常任理事國在聯合國大會的發言進行了分類。圖5揭示了幾個較為有趣的現象。首先,進入20世紀之後,隨著聯合國改革以及維和行動等的受挫,關於聯合國問題的討論在各大國的發言中明顯減少。其次,人權問題和民主問題在美、英、法的發言中比例有了很大提高,但是中國對這些問題採取了迴避的策略。再次,由於9/11之後恐怖主義給歐洲帶來的威脅,安全問題在英國和法國的發言中比重有了一定上升。

歷屆聯合國大會都在辯論什麼?讓半監督機器學習來告訴你

圖5:對聯合國五常發言的分類結果

結論

相對於簡單地詞典分析和監督學習方法,半監督學習方法在國際關係研究中具有明顯的優點:首先,研究可以自定義文本分類的目錄以確保分類結果與研究的理論框架一致;其次,研究者只需要花小成本製作一個小的詞典而無需進行大量的人工標註。另外,半監督學習模型也可以相對容易地應用到非英文文本的分析之中,從而增進我們對來自世界各地的數據的理解。隨著越來越多同時掌握學科知識以及方法技術的年輕學者的出現,我們希望半監督學習方法能夠被更多地用於社會科學的各類研究之中。


文獻來源:Watanabe, Kohei, and Yuan Zhou. "Theory-Driven Analysis of Large Corpora: Semisupervised Topic Classification of the UN Speeches." Social Science Computer Review. Online First.https://journals.sagepub.com/doi/10.1177/0894439320907027

期刊簡介:根據2018 Journal Citation Reports,Social Science Computer Review的影響因子為2.922,在104種社會科學交叉學科期刊中排名第10。

撰文:周源


分享到:


相關文章: