AI頂會ICLR找來論壇和推特網友當論文評審,這樣真的靠譜?

選自 Approximately Correct

作者:Zachary C. Lipton

機器之心編譯

參與:王淑婷、張倩、李澤南

隨著人工智能頂會論文數量的增長,本科生評審也已經無法滿足大會需求了,一些會議組織者最近產生了「大膽的想法」。本文中,來自卡耐基梅隆大學(CMU)的助理教授 Zachary C. Lipton 對此事發表了評論。

近年來,大會接收的論文數量直線上升,但經驗豐富的研究人員卻沒有明顯增長。一些機器學習大會陷入困境,不得不選擇擴充同行評審隊伍,以應對論文的大幅增長。

AI頂會ICLR找來論壇和推特網友當論文評審,這樣真的靠譜?

該信息圖展示了 NeurIPS 論文接收數量的逐年變化。紅色部分為預測數據。

由於每個教授和高年級研究生、博士生的評審工作量都已接近飽和,大會組織者們極富創意地在「不太可能」的地方找到了評審者。

ICLR 的項目主席拒絕透露他們尋找未被發現的評審人才的策略,怕這些商業機密被對手 NeurIPS 和 ICML 利用。幸運的是,在匿名前提下,幾個職位較低的 ICLR 工作人員同意透露他們利用的一些非常規渠道。

1. 著名論壇 Reddit 上 r/machinelearning 板塊中的一切渠道

2. 關注 @ylecun(人工智能先驅 Yann LeCun)的 Twitter 用戶

3. 註冊 .ai 和.ml domain 用戶的人

4. 把機器學習相關文章的評論發佈到 Hacker News 上的人

5. 在 Siraj Raval 深度學習 rap 視頻上評論的 YouTube 用戶

6. 註冊為.ai/.ml domain 所有者的公司的員工

7. 在 Burning Man 上 Andrej Karpathy 的 4° 上駐紮的每一個人

8. 過去六個月裡處理 TensorFlow、Pytorch 或 MXNet 棘手問題的 GitHub 用戶

9. 與優達學城合作,將 ICLR 大會論文評審作為深度學習入門課程的一個項目

有這麼多新的評審員,看到一些不同尋常的評審意見也就不足為奇了。這些意見有的很短,有些則很奇怪……感受一下里面的網絡語言(「imho, srs paper 4 real」)……還有些評審意見挑戰社區成員具備的共同知識(如「who are you to say this matrix is degenerate?」)

然而,如果不仔細看,有人可能覺得這些給出意見的人不夠格,掩蓋了一批新評審員為應對評審工作所做的努力。我之所以知道這一點,是因為許多新的評審員都是《Approximately Correct》的熱心讀者,在過去的幾周裡,我的郵箱裡充斥著善意的新評審員們提出的嚴肅問題。

如果以前當過老師,你就會發現他們的問題中有很多是重疊的。因此,雖然通常我們不會在《Approximately Correct》上發佈 QA 類型的文章,但此次破例似乎倒也說得過去。我彙編了幾個問題作為例子,並在一篇名為「Is This a Paper Review?」的問答文章中提供了簡潔的答案。以下是部分問答內容:

帕薩迪納市的 Henry 寫道:

我被分配來評審一篇論文。我讀了摘要,形成了與該論文主題相關的見解。然後寫了一段話來表達我的見解,以及與一位匿名評審就一個無關的話題展開討論。這是 Hacker News 上的標準做法,我在上面獲得了 2000 多個支持,這些支持成為了我為 ICLR 進行評審的資格基礎。這算論文評審嗎?

AC:不,這不是論文評審。

邁索爾市的 Pandit 寫道:

我閱讀過一篇關於梯度下降收斂的論文。文中所說的「limit」我沒看明白,所以直接跳到了論文後面,然後我發現他們沒在 ImageNet 上做任何實驗。我寫了一個「一句話(one-line)」評論,標題上寫著類似「這是什麼鬼」這種,正文寫了「沒在 ImageNet 上做實驗」。這算是論文評審嗎?

AC:不,這不是論文評審。

上海的 Xiao 寫道:

我根據曾經的 ICLR 評審訓練了一個 LSTM,然後在 softmax temperature 設定為 0.01 的情況下運行它。輸出顯示「不新穎」。我把這一點加在了 OpenReview 中。這算是論文評審嗎?

AC:不,這不是論文評審。

博爾德市(Boulder)的 George 寫道:

評審這篇論文的時候,我發現它與我 1987 年的一個概念有某種相似之處。雖然我很喜歡這個概念(你儘可以想象),但我給它打了一箇中等的分數。我給的評論意見中,有一半是關於技術研究的固定討論,另一半專門用來列舉我自己關於這個概念的論文,並要求作者引用它們。這算是論文評審嗎?

AC:聽起來像一個糟糕的論文評審。不過如果你把評分提高到不帶感情的程度,並指出那篇論文與你自己論文的相似之處,然後給元評審(metareviewer)發一個提示,指出其中小小的利益衝突,這就是一個不錯的評審了。

新澤西的 Rachel 寫道:

我閱讀了論文。在前兩頁出現了 10 個數學錯誤,其中的一些導致整篇論文都不正確。於是我停止閱讀論文以節省時間,並撰寫了一篇簡短的評審意見指出錯誤,我寫道:「該論文不適合在 ICLR 上發表。」這是一篇論文評審嗎?

AC:雖然通常來講,這麼短的評審意見並不合適,但這篇明顯例外。意見寫得非常好!

11 月初,ICLR 2019 的論文評審結果出爐,評審們已經在論文的 openreview 頁面公佈了他們的評論和分數。本屆大會共接收到了 1591 篇論文投稿,相比去年的 996 篇增長了 60%。在 11 月 5 日到 11 月 21 日期間,論文作者可以對評審人的評論進行回覆、修改論文。

在社交網絡上,已有論文作者對評審的給分提出了質疑。擴大評審隊伍的效果究竟如何,看來還有待觀察。

AI頂會ICLR找來論壇和推特網友當論文評審,這樣真的靠譜?

原文鏈接:http://approximatelycorrect.com/2018/11/18/is-this-a-paper-review/

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權

✄------------------------------------------------

加入機器之心(全職記者 / 實習生):[email protected]

投稿或尋求報道:content@jiqizhixin.com

廣告 & 商務合作:[email protected]


分享到:


相關文章: