riogarfield
人工智能領域的發展離不開學者們的貢獻,然而隨著研究的進步,越來越多的論文出現了「標題黨」、「佔坑」、「注水」等現象,暴增的頂會論文接收數量似乎並沒有帶來更多技術突破。最近,來自卡耐基梅隆大學的助理教授 Zachary C. Lipton 與斯坦福大學博士 Jacob Steinhardt 提交了一篇文章《Troubling Trends in Machine Learning Scholarship》,細數了近年來機器學習研究的幾大「怪現狀」。本文已在 7 月 15 日 ICML 2018 大會上的「Machine Learning: The Debates」研討會上進行討論。
1 引言
總體來說,機器學習(ML)的研究人員正在致力於數據驅動算法知識的創建與傳播。在一篇論文中提到,研究人員迫切地想實現下列目標的任一個:理論性闡述可學習內容、深入理解經驗嚴謹的實驗或者構建一個有高預測精度的工作系統。雖然確定哪些知識值得探究是很主觀的,但一旦主題確定,當論文為讀者服務時,它對社區最有價值,它能創造基礎知識並儘可能清楚地進行闡述。
什麼樣的論文更適合讀者呢?我們可以列出如下特徵:這些論文應該(i)提供直觀感受以幫助讀者理解,但應明確區別於已證明的強有力結論;(ii)闡述考量和排除其他假設的實證調查 [62];(iii)明確理論分析與直覺或經驗之間的關係 [64];(iv)利用語言幫助讀者理解,選擇術語以避免誤解或未經證實的內容,避免與其他定義衝突,或與其他相關但不同的概念混淆 [56]。
儘管經常偏離這些理想條件,但機器學習近期仍然在持續進步。在本文中,我們關注以下四種模式,在我們看來,這些模式是機器學習領域當下研究的傾向:
1. 無法區分客觀闡述和猜想。
2. 無法確定達到好效果的來源,例如,當實際上是因為對超參數微調而獲得好效果的時候,卻強調不必要修改神經網絡結構。
3. 數學性:使用令人混淆的數學術語而不加以澄清,例如混淆技術與非技術概念。
4. 語言誤用,例如,使用帶有口語的藝術術語,或者過多的使用既定的技術術語。
雖然這些模式背後的原因無法確定,但很可能包括社區大幅擴張,導致審查人員數量不足,以及學術和短期成功衡量標準(如文獻數量、關注度、創業機會)之間經常出現的錯位激勵。雖然每種模式都提供了相應的補救措施(呼籲「不要這樣做」),我們還是想討論一些關於社區如何應對此類趨勢的探索性建議。
隨著機器學習的影響擴大,研究此類論文的人員越來越多,包括學生、記者和決策者,這些考量也適用於更廣泛的讀者群體。我們希望通過更清晰精準的溝通,加速研究步伐,減少新晉研究人員的入門時間,在公共討論中發揮建設性的作用。
有缺陷的學術研究可能會誤導大眾、阻礙未來研究、損害機器學習知識基礎。事實上,在人工智能的歷史上,甚至更廣泛的科學研究中,很多問題都是循環往復的。1976 年,Drew McDermott [53] 就批判 AI 社區放棄了自律,並預言「如果我們不能批評自己,就會有別人來幫我們解決問題」。類似的討論在在 80 年代、90 年代和 00 年代反覆出現 [13,38,2]。在心理學等領域,糟糕的實驗標準削弱了人們對該學科權威的信任 [14]。當今機器學習的強勁潮流歸功於迄今為止大量嚴謹的研究,包括理論研究 [22,7,19] 和實證研究 [34,25,5]。通過加強更明瞭的科學思考和交流,我們才可以維持社區目前所擁有的信任和投資。
本文旨在激發討論,響應 ICML 機器學習辯論研討會關於論文的號召。雖然我們支持這裡的觀點,但我們並不是要提供一個完整或平衡的觀點,也不是要討論機器學習這一科學領域的整體質量。在復現性等許多方面,社區的先進標準遠遠超過了十年前的水平。我們注意到,這些爭論是我們自己發起的,攻擊的也是我們自身,關鍵的自省都是我們自己人做出的,而不是來自局外人的攻擊。我們發現的這些弊病不是某個人或某個機構獨有的。我們已經身處這種模式之中,將來還會重蹈覆轍。揭示其中一種模式不會讓一篇論文變差或譴責論文的作者,但是我們相信,揭示這種模式之後,所有論文都會因避開這種模式而得到質量的提高。我們給出的具體例子將涉及(i)我們自身及(ii)那些我們仰慕的著名研究者或機構,不會挑選那些容易受到本文嚴重影響的年輕學者或沒有機會與我們平等對話的研究者。身處這樣一個可以自由獲取知識、表達觀點的社區,我們感到非常欣慰。
3 不良趨勢
在下面的每個小節中,我們 (i) 首先描述一個趨勢;(ii) 然後提供幾個例子(包括抵制這一趨勢的正面例子);最後解釋該趨勢帶來的後果。指出個別論文的弱點可能是一個敏感的話題。為了儘量減少這種情況,我們選擇了簡短而具體例子。
3.1 解釋與推測
對新領域的研究往往涉及基於直覺的探索,這些直覺尚未融合成清晰的表達形式。於是推測成為作者表達直覺的一種手段,但是這種直覺可能還無法承受科學審查的所有壓力。然而,論文常以解釋為名行推測之實,然後由於科學論文的偽裝和作者假定的專業知識,這些推測被解釋為權威。
例如,[33] 圍繞一個內部協變量轉移的概念形成了一個直觀的理論。關於內部協變量轉移的論述從摘要開始,似乎陳述了技術事實。然而,關鍵術語不夠清晰,最終無法得出一個真實值。例如,論文指出,通過減少訓練過程中隱激活層分佈的變化,批處理規範化可以獲得改進。這種變化是用哪種散度衡量的?論文中沒有闡明,並且有些研究表明,這種對批處理規範化的解釋可能偏離了 [65] 的標準。然而,[33] 中給出的推測性解釋已經被重複為一種事實,例如 [60] 中說,「眾所周知,由於內部協變量轉移問題,深層神經網絡很難優化。」
我們也同樣對偽裝成推測的解釋感到不安。在 [72] 中,JS 寫道,「無關特徵的高維性和豐富性……給了攻擊者更多的空間來攻擊」,而沒有進行任何實驗來衡量維度對攻擊性的影響。在 [71] 中,JS 引入了直觀的覆蓋概念,但沒有對其進行定義,並將其當做一種解釋來運用,如:「缺少覆蓋的一個表現是不確定性估計較差,無法生成高精度的預測。」回顧過去,我們希望交流不夠具體化的直覺,這些直覺對論文中的研究很重要,我們不願把論點的核心部分看作推論。
與上述例子相反,[69] 把推測與事實區分開來。這篇論文介紹了 dropout 正則化,詳細推測了 dropout 和有性繁殖之間的聯繫,但「Motivation」一節明確地隔開了這一討論。這種做法避免了混淆讀者,同時允許作者表達非正式的想法。
在另一正面例子中,[3] 提出了訓練神經網絡的實用指南。在這篇論文中,作者謹慎地表達了不確定性。該論文沒有把這些指南當成權威性的東西,而是這樣表達:「雖然這些建議……來自多年的實驗和一定程度的數學證明,但它們應該受到挑戰。這是一個良好的起點……但沒有得到什麼正式驗證,留下許多問題,可以通過理論分析或紮實的比較實驗工作來回答」。
3.2 未能確定經驗成果的來源
機器學習同行評審過程重視技術創新。也許是為了讓審稿人滿意,許多論文強調了複雜的模型(這裡提到的)和奇特的數學表達式(見 3.3)。雖然複雜的模型有時是合理的,但經驗上的進步往往通過其它方式實現:巧妙的問題公式、科學實驗、優化算法、數據預處理技術、廣泛的超參數調整,或者將現有方法應用於有趣的新任務。有時,把提出的很多技術相結合可以獲得顯著的經驗結果。在這些情況下,作者有責任向讀者闡明實現文中的成果需要哪些技術。
但很多時候,作者提出了許多缺乏適當變化的控制變量研究,掩蓋了經驗成果的來源。實際上,有時改善結果的原因只有一個變化而已。這會給人一種錯誤的印象,認為作者做了更多的工作(通過提出幾項改進),而實際上他們做得並不夠(沒有進行適當的變量控制)。此外,這種做法會使讀者誤以為提出的所有改變都是必要的。
最近,Melis et al.[54] 闡明,很多已發表的改進技術實際上要歸功於超參數的調節,而這原本被認為是在神經網絡中進行復雜創新的功勞。與此同時,自 1997 年以來幾乎沒有修改過的經典 LSTM 排名第一。如果早點知道關於超參數調節的真相,而沒有受到其它干擾,AI 社區可能受益更多。深度強化學習 [ 30 ] 和生成對抗網絡 [ 51 ] 也遇到了類似的評估問題。更多關於經驗嚴謹性失誤及其後果的討論詳見 [ 68 ]。
相比之下,許多論文對 [ 41,45,77,82 ] 進行了很好的控制變量分析,甚至追溯性地嘗試隔絕成果來源也可能導致新的發現 [ 10,65 ]。此外,控制變量對於理解一種方法來說既不是必要的也不是充分的,甚至在給定計算約束的情況下也是不切實際的。可以通過魯棒性檢查(如 [15],它發現現有的語言模型處理屈折形態的效果很差)以及定性錯誤分析 [40] 來理解方法。
旨在理解的實證研究甚至在沒有新算法的情況下也能起到啟發作用。例如,探究神經網絡的行為可以識別它們對對抗干擾的易感性 [ 74 ]。細緻的研究還經常揭示挑戰數據集的侷限性,同時產生更強的基線。[ 11 ] 研究了一項旨在閱讀理解新聞段落的任務,發現 73 % 的問題可以通過看一個句子來回答,而只有 2 % 的問題需要看多個句子(剩下 25 % 的例子要麼模稜兩可,要麼包含共指錯誤)。此外,更簡單的神經網絡和線性分類器的性能優於此前在這項任務中評估過的複雜神經結構。本著同樣的精神,[ 80 ] 分析並構建了視覺基因組場景圖數據集的強基線。
在寫早期 PhD 論文的時候,經驗豐富的博士後會給我們(ZL)一些反饋:論文需要更多的方程式。博士後並沒有認可我們提出的系統,但是傳達出一種審議研究工作的清晰方式。即使工作很難解釋,但更多的方程式會令評審者相信論文的技術深度。
數學是科學交流的重要工具,正確使用時可以傳遞精確與清晰的思考邏輯。然而,並非所有想法與主張都能使用精確的數學進行描述,因此自然語言也同樣是一種不可或缺的工具,尤其是在描述直覺或經驗性聲明時。
當數學聲明和自然語言表述混合在一起而沒有明確它們之間的關係時,觀點和理論都會受到影響:理論中的問題用模糊的定義來覆蓋,而觀點的弱論據可以通過技術深度的出現而得到支持。我們將這種正式和非正式聲明之間的糾纏稱為「濫用數學(mathiness)」。經濟學家 Paul Romer 描述這種模式為:「就像數學理論一樣,濫用數學將符號和語言的混合,但濫用數學不會將兩者緊密聯繫在一起,而是在自然語言表述與形式語言表述間留下了充足的空間 [64]。」
濫用數學表現在幾個方面:首先,一些論文濫用數學來傳遞技術的深度,他們只是將知識堆砌在一起而不是嘗試澄清論點。偽造定理是常見的手法,它們常被插入到論文中為實證結果提供權威性,即使定理的結論並不支持論文的主要主張。我們(JS)就犯過這樣的錯 [70],其中對「staged strong Doeblin chains」的討論與提出的學習算法只有很少的相關性,但可能給讀者帶來理論的深度感。
在 Adam 優化器的原論文 [35] 中,這個問題無處不在。在引入具有強大經驗性性能的優化器過程中,它還提供了凸優化情況下的收斂性證明,這對於關注非凸優化的的論文來說不是必要的。這一個證明後來還被指出有錯誤 [63],並給出了新的證明。
第二個問題是既非明確的形式化表述,也非明確的非形式化表述。例如在 [18] 中,作者表示優化神經網絡主幹的困難不在極小值點,而在鞍點。這項工作引用了一篇關於高斯隨機場的統計物理學論文 [9],該論文表示「高斯隨機場中所有局部極小值點的誤差與全局最小值點誤差非常相近」,相似的說明在 [12] 中也有提到。這似乎是一個正式的聲明,但是並沒有一個具體的定理,也很難驗證聲明的結果或確定其確切內容。我們可以理解為,這個聲明表示在問題參數為典型配置時,我們不知道是經驗性地在數值上極值與最值差距非常小,還是理論性地這個差距在高維空間中會慢慢消失。正式聲明將有助於澄清這一點,我們注意到 [18] 描述了極小值點比鞍點有更低的損失、更清楚的證明與經驗性的測試。
最後,一些論文以過於寬泛的方式引用理論,或者引用不是那麼相關的定理。例如,通常我們引用「沒有免費午餐定理」作為使用啟發式方法的理由,而這種啟發式方法通常是沒有理論保證的。
雖然補救濫用數學最好的方法就是避免它,但有一些論文會進一步明確數學與自然語言之間的關係。最近有一篇論文 [8] 描述了反事實推理,它以紮實的方式涵蓋了大量的數學基礎,且與很多已應用的經驗性問題有非常多的明確聯繫。此篇教程以明確地方式寫給讀者,並幫助促進新興社區研究機器學習的反事實推理。
3.4 濫用語言
我們明確了機器學習中三種濫用語言的方式:暗示性定義、技術術語過載和 suitcase words。
3.4.1 暗示性定義
在第一種方法中,新的技術術語創造出來可能就具有暗示性的口語語義,因此潛在的含義無需爭論。這常常體現在任務的擬人化特徵(音樂合成 [59] 和閱讀理解 [31])、技術的擬人化特徵(好奇 [66] 和害怕 [48])。很多論文以暗示人類認知的方式命名提出模型的組成部分,例如「思想向量」[36] 和「意識先驗」[4] 等。我們的目的並不是消除所有這類語言的學術文獻;如果命名比較合適,那麼它可以傳遞靈感的來源。然而,當暗示性術語指定了技術含義時,所有後續論文都別無選擇,只能接受該術語。
使用「人類水平」的鬆散聲明描述經驗性結果,同樣描繪了對當前能力的錯誤認識。以 [21] 中的「皮膚病專家水平的皮膚癌分類模型」為例,與皮膚科醫生的對比掩蓋了分類器和皮膚科醫生執行根本不同任務的事實。真正的皮膚科醫生會遇到各種各樣的情況,並且儘管存在不可預測的變化,他們都必須完成工作。但是分類器只在獨立同分布的測試數據上實現了較低的誤差。相比之下,[29] 表明分類器在 ImageNet 圖像分類任務上有人類水平的性能更可信,因為它並不是說在目標檢測等更廣泛的領域。即使在這種情況下,相比於不那麼細緻的 [21, 57, 75],一篇更細緻的論文可能並不足以使公眾討論重回正軌。流行的文章記敘將現代圖像分類器描述為「超越人類水平的性能,並有效證明更大的數據集導致更好的決策」[23]。儘管有證據表明這些分類器依賴虛假的相關性,即將「穿紅衣服的亞洲人」誤分類為乒乓球 [73],但人們還是相信它們有超越人類的準確度。
深度學習論文並不是唯一遭受影響的領域,濫用語言困擾著 ML 非常多的子領域。[49] 中討論了機器學習公平性的最近文獻,其發現機器學習從複雜的法律學中借了大量的術語,例如使用「disparate impac」命名統計等價概念的簡單方程。這導致了文獻中的「fairness」、「opportunity」和「discrimination」表示預測性模型的簡單統計學特徵,這樣會令忽略其中差異的研究者迷惑,也會令政策制定者誤解將道德納入機器學習的難易程度。
3.4.2 技術術語過載
誤用語言的第二個方式包括將具備準確技術含義的術語用作不準確或完全相反的意義。例如解卷積(deconvolution),它描述了反轉卷積的過程,但是現在在深度學習文獻中,該詞常用於指自編碼器和生成對抗網絡中的轉置卷積(transpose convolution,也叫 up-convolution)。在深度學習領域中,該術語首先出現於 [79],其中它確實是指解卷積,但後來被過度一般化,指使用 upconvolution 的任意神經架構 [78, 50]。此類術語過載現象會導致持續的混淆。新機器學習論文中的 deconvolution 可能 (i) 指其原始意義,(ii) 描述 upconvolution,(iii) 嘗試解決混淆,如 [28]。
另一個例子是 generative model(生成模型),它原本指輸入分佈 p(x) 或聯合分佈 p(x,y) 的模型。而 discriminative model(判別模型)指標籤的條件分佈 p(y | x)。但是,近期的論文中「generative model」不準確地意指生成逼真結構化數據的任意模型。表面看來,這似乎與 p(x) 的定義一致,但它混淆了幾個缺陷:例如,GAN 或 VAE 無法執行條件推斷(如,從 p(x2 | x1) 中採樣,x1 和 x2 是兩個不同的輸入特徵)。後來這個術語被進一步混淆,現在一些判別模型(discriminative model)指生成結構化輸出的生成模型 [76],我們在 [47] 中犯了這個錯誤。為了解決該混淆,並提供歷史背景,[58] 對規定的和隱性的生成模型進行了區分。
再來看批歸一化(batch normalization),[33] 描述協變量偏移(covariate shift)為模型輸入分佈的變化。而事實上,協變量偏移指一種特定類型的偏移,儘管輸入分佈 p(x) 可能確實出現變化,但標註函數 p(y|x) 沒有變化 [27]。此外,由於 [33] 的影響,Google Scholar 將 batch normalization 列為搜索「covariate shift」的第一個參考文獻就是 batch normalization(《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》)。
語言誤用的後果之一是我們可能通過將之前的未解決任務重新定義來掩蓋沒有進展的事實。這通常與通過擬人化命名進行的暗示性定義有關。語言理解(language understanding)和閱讀理解(reading comprehension)曾經是 AI 的兩大挑戰,而現在指在特定數據集上的準確預測 [31]。
最後,我們討論機器學習論文中「suitcase words」的過度使用。這個詞由 Minsky 在 2007 年的書《The Emotion Machine》中創造,suitcase words 將多種意義的詞「打包」起來。Minsky 描述了心理過程例如意識、思維、注意力、情緒和感覺,並認為這些過程可能沒有「共同的起因或來源」。很多機器學習中的術語都有這樣的現象。例如,[46] 注意到可解釋性並沒有普遍認同的含義,通常對應不相交的方法。結果,即使在論文的互相交流中,人們也可能理解的是不同的概念。
另一個例子,generalization 有特定的技術含義:「泛化」(從訓練泛化到測試),和更加口語化的含義:更加接近於遷移的概念(從一個總體擴展到另一個總體),或外部效度(從實驗擴展到現實世界)。合併這些概念將導致高估當前系統的能力。
暗示性的定義和超載的術語也可能創造出新的 suitcase words。在研究公平性的文獻中,法律、哲學和統計學語言通常都過載,像 bias 這樣的變成 suitcase words 的術語在之後必須要分離。
在通用語和鼓舞人心的術語中,suitcase words 可以很有用。也許 suitcase words 反映了一個至關重要的聯合不同含義的概念。例如,人工智能一詞也許能打包成一個鼓舞人心的名詞來組織一個學術部門。另一方面,在技術觀點中使用 suitcase words 可能導致困惑。例如,[6] 寫了一個涉及智能和優化能力的等式(Box 4),隱含地假設這些 suitcase words 可以用一個 1 維標量量化。
4. 對趨勢背後原因的思考
以上模式預示著某種趨勢嗎?如果答案是肯定的,其背後的原因又是什麼?我們推測,這些模式將愈演愈烈,其背後的原因可能有以下幾點:面對進步的自滿;社區的急劇擴張;相關審議團隊的匱乏;扭曲的激勵機制與評價成果的短期標準。
4.1 面對進步的自滿
機器學習的快速發展有時會導致這樣一種態度:只要結果足夠有力,論點站不住腳也沒有關係。取得有力結果的作者可能感覺自己有權插入可以導出結果的任意未經證實的東西(見 3.1),省略掉可能弄清楚這些因素的實驗(見 3.2),採用誇張的術語(見 3.4),或濫用數學(見 3.3)。
同時,評價過程的單輪屬性可能讓評閱人感覺自己不得不接受具有有力結果的定量研究論文。實際上,即使論文被拒,其中的弱點可能也不會在下一輪中得到修補,甚至根本不會被注意到,因此評閱人最終可能會認為:接受一篇有瑕疵的論文是最好的選擇。
4.2 成長的痛苦
大約在 2012 年左右,由於深度學習方法的成功,機器學習社區急劇擴張。儘管我們將社區的擴張視為一種積極的發展,但這一擴張也有其弊端。
為了保護年輕的研究者們,我們優先選用自己和那些著名學者的論文。然而,新加入的研究者可能更容易受到這些模式的不良影響。例如,不瞭解既有術語的作者更容易用錯或亂用論文語言(見 3.4)。另一方面,資深研究者可能也會陷入這些模式。
社區的急劇擴張還會從兩個方面稀釋評論:一是提高提交論文與評閱人的比例,二是降低資深評閱人的比例。經驗不足的評閱人可能對架構新奇性的要求更高,也更容易被偽造的定理所迷惑,並忽略嚴重而微妙的問題,如誤用語言,從而加快上述幾種趨勢的發展。同時,資深但負擔過重的評閱人可能陷入「清單核對」的心理定勢,更加青睞公式化的論文,忽略更富有創意或思路更寬但不符合既有模板的論文。此外,工作量超負荷的評閱人可能沒有足夠的時間來修補或注意到論文中的所有問題。
4.3 扭曲的激勵機制
給作者以不良激勵的不止是評閱人。隨著機器學習研究越來越受媒體關注,機器學習創業公司也越來越普遍,在某種程度上,這一領域所獲得的激勵可以說是媒體(「他們會寫什麼?」)或投資人(「他們的錢會投到哪裡?」)給的。媒體煽動了上述趨勢的幾種。對機器學習算法擬人化的表述為新聞報道提供了素材。以 [55] 為例,該文將自動編碼稱之為「模擬大腦」。暗示機器表現達到人類水平的新聞會在報紙頭條上引起轟動,如 [52],該文在描述一種深度學習圖像字幕系統時稱其「模仿人類的理解水平」。投資人對 AI 研究也頗有興趣,有時他們僅依據一篇論文就會為創業公司投資。根據我們(ZL)與投資人接觸的經驗,他們有時更青睞那些研究成果已經被媒體報道的創業公司,這種資本激勵最終又歸功於媒體。我們注意到,最近投資人對智能會話機器人創業公司的興趣伴隨著報紙及其他媒體對對話系統及強化學習者的擬人化描述一起出現,儘管很難確定投資者的興趣和扭曲的激勵機制是否構成因果關係。
5 建議
假設我們要對抗這些趨勢,該如何做呢?除了僅建議每個作者放棄這類模式,我們從社區可以做些什麼來提高實驗實踐、闡述和理論水平呢?我們如何才能更容易的提煉社區內的知識並消除研究人員和普羅大眾的誤解呢?下面根據我們的個人經歷和印象提出一些初步的建議。
5.1 對作者的建議
我們鼓勵作者多問「是什麼起了作用?」和「為什麼?」,而不是「有多好?」除了在特殊情況下的 [39],原始的標題數字對於科學進步的價值是有限的,它並沒有表述出驅動數據的原因。觀察並不意味著理論。在最有力的實證研究論文中有三種實踐方式:錯誤分析、控制變量研究和魯棒性檢驗(例如選擇超參數以及理想數據集)。這些做法每個人都可以使用,我們提倡大家廣泛使用。對於一些實例論文,我們建議讀者參考 §3.2 的內容。[43] 還提供了更詳細的最佳經驗實踐調研。
合理的實證研究不應該只侷限於追蹤特定算法的經驗效果;即使沒有提出新的算法,它也可以產生新的見解。這裡的例子可以證明:通過隨機梯度下降訓練的神經網絡可以適用於隨機分配的標籤 [81]。這篇論文對模型複雜性的學習理論能力提出質疑,試圖讓其解釋為什麼神經網絡可以泛化到未見過的數據。在另一個例子中,[26] 探索了深層網絡的損失表面,揭示了初始化和學習化參數間的參數空間直線路徑通常具有單調遞減的損失。
在撰寫此論文時,我們希望能出現以下問題:我是要依靠這種解釋做出預測還是讓系統正常工作?這可以很好地檢驗是否包含這能取悅審核人員或者傳遞明確信息的定理。它還有助於檢查概念和說明是否與我們自己的內心想法相匹配。在數學寫作方面,我們將建議讀者閱讀 Knuth,Larrabee 和 Roberts 的優秀教程 [37]。
最後,弄清哪些問題是開放性的,哪些問題是可以被解決的。這不僅能夠讓讀者更加清楚,還能鼓勵後續的工作,防止研究人員忽略那些假定(錯誤)要被解決的問題。
5.2 對出版商和評審人的建議
評審人可以通過問這樣的問題來明確自己的動機:「如果作者的工作做的不夠好,我是否會接受這篇論文?」例如,一篇論文描述了一個簡單的想法,雖然連帶了兩個負面的結果,卻能使性能得到改進。這樣的文章應該好於將三個想法結合在一起(沒有控制變量研究)產生相同改進的文章。
現在的文獻以接收有缺陷的會議出版物為代價而迅速發展。補救的措施之一就是強調權威性的回顧調查,剔除誇大的聲明和無關的材料,改變擬人化名稱以使記號、術語標準化等。儘管機器學習中的 Foundation 和 Trend 等已經對此類研究進行追蹤,但我們認為這方面仍然缺乏足夠強大的論文。
此外,我們認為批判性寫作應該在機器學習會議上有所發聲。典型的 ML 會議論文選擇一個已有問題(或提出一個新問題),展示一個算法和/或分析,然後報告實驗結果。儘管很多問題可以通過這種方式解決,但是對於問題或調查方法的正當性,算法和實驗都不足夠(和恰當)。我們在擁抱更具批判性的論述方面並不孤單:在 NLP 領域,今年的 COLING 大會號召論文「挑戰傳統思維」[1]。
關於同行評審有很多值得討論的地方。我們描述的問題通過開放性評審能夠得到緩解還是加劇?評審人系統與我們提倡的價值觀有多大的一致性?這些話題已經在其他地方被詳細討論 [42, 44, 24]。
6 討論
常理來說,我們不應該在技術升溫時進行干預:你不能質疑成功!在此,我們用以下一些理由進行反駁:首先,當前文化的許多方面是機器學習成功的結果,而不是其原因。事實上,導致目前深度學習成功的許多論文都是仔細的實證研究,其描述了深度網絡訓練的基本原則。這包括隨機連續超參數搜索的優勢、不同激活函數的行為,以及對無監督預訓練的理解。
其次,有缺陷的學術氛圍已經對研究界,以及更為廣泛的公眾群體產生了負面影響。在第三章中,我們已經看到了不受支持的觀點已被人們引用了上千次,被稱為改進的譜系被簡單的基線所推翻,數據集旨在測試高級語義推理,但實際上測試的是低級語法流暢性,術語混亂使得學術對話變得舉步維艱。
其中最後一個問題也影響著公眾的判斷。歐洲議會曾通過一份報告,討論如何應對「機器人產生自我意識」的問題。儘管機器學習的研究者們並不向所有這些工作產生的誤解負責,但權威同行評審論文中的擬人化語言似乎至少負有一定的責任。
我們相信,解釋說明以及科學和理論的嚴謹性對於科學進步,和建立更廣泛的公眾有效對話至關重要。此外,由於機器學習技術將被應用於醫療健康、法律自動駕駛等重要領域,對於機器學習系統能力限制的知曉將讓我們能夠更加安全地部署 AI 技術。我們將通過討論一些對於上述觀點的反駁,及歷史背景來結束本文。
6.1 與之相對的考慮因素
針對上述建議也有很多需要考慮的因素。本文草稿的一些讀者曾指出:隨機梯度下降往往比梯度下降的收斂速度更快——換句話說,或許更快節奏的、更喧鬧的過程讓我們拋棄了撰寫「更乾淨」論文的初衷,也加快了研究速度。例如,關於 ImageNet 數據集圖像分類的突破性論文 [39] 提出了多種沒有控制變量研究的技術,其中一些隨後被確定是不必要的。然而,在研究提出時,其結果非常重要且實驗計算成本高昂,等待控制變量完成可能不值得整個社區為之付出代價。
這讓我們擔心,高標準可能會阻礙創見的發佈,因為這些創見往往非同尋常,而且可能是推測性的。在其他領域,如經濟學,高標準導致學者可能需要數年才能完成一篇論文,冗長的修訂週期必然會消耗可用於新研究的資源。
最後,也許專業化有其價值:創造新概念或建立新系統的研究者不一定會是那些仔細整理和提煉知識的人。
我們認識到這些考慮的有效性,並且也認識到這些標準有時過於嚴格。但是,在很多情況下,它們很容易實現,只需要幾天的實驗和更仔細的寫作。此外,我們將這些內容作為強烈的啟發,而不是不可逾越的規則來呈現——如果不違反這些標準就無法分享新的想法,那麼我們更願意分享這個想法,而將標準放在一邊。此外,我們總會發現遵守這些標準的嘗試是值得的。總之,我們不相信研究界在前沿的推進上實現了帕累托最優狀態。
6.2 歷史經驗
實際上,在這裡討論的問題既不是機器學習所特有的,也不是目前這個時代所特有的:它們反映了整個學術界反覆出現的問題。早在 1964 年,物理學家 John R. Platt 在其關於強推理的論文 [62] 中就對於相關問題進行了討論,他在文中指出了對特定先驗標準的遵守,這也為隨後分子生物學和高能物理,甚至其他領域的快速發展提供了能量。
在 AI 領域裡,事情也是類似的,正如第一章所述,Drew McDermott [53] 在 1976 年就一系列問題批評了一個(主要是機器學習時代以前的)人工智能社區,批評內容包括暗示定義,以及未能將猜測與技術主張分開。1988 年,Paul Cohen 和 Adele Howe [13] 也指責一個人工智能社區「很少發佈他們提出的算法的性能評估」,而只是描述了系統。他們建議為量化技術發展建立合理的指標,並分析「它為什麼有效?」、「在什麼情況下它不起作用?」以及「如何讓設計決策合理化?」……這些問題在今天仍然能引起我們的共鳴。
最後,在 2009 年,Armstrong 等人 [2] 討論了信息檢索研究的實證嚴謹性,並注意到很多論文都有與相同弱基線進行比較的趨勢,這些改進並沒有積累到有意義的經驗。
在其他領域,學術水平不受限制的下降導致了危機。2015 年的一項具有里程碑意義的研究表明,心理學文獻中很大一部分研究結果可能無法再現 [14]。在一些歷史案例中,跟風與缺乏規制的學術態度導致整個研究社區走進了死衚衕。例如,在 X 射線被發現之後,有人又提出了 N 射線(之後真相被揭穿)。
6.3 結束語
最後,讀者們可能認為這些問題是可以自我糾正的。我們同意這樣的觀點,但是,機器學習社區需要反覆討論如何構建合理的學術標準以實現這種自我修正。我們希望本文能夠為這樣的討論提供建設性貢獻。