ML&NLP頂會論文發表總榜:谷歌最狂,清北入前十,周明、張嶽、劉挺華人前三

ML&NLP頂會論文發表總榜:谷歌最狂,清北入前十,周明、張嶽、劉挺華人前三

中美差距何止一丁點!

作者 | 叢末、蔣寶尚

倫敦帝國理工學院機器學習和自然語言處理著名學者Marek Rei 教授從2016年起,每年都會對ML&NLP相關的會議論文進行統計和分析,並一年一度發表分析結果,目前已成為該領域權威性的報告內容。

近期,Marek Rei 再次發佈2019年度機器學習和自然語言處理(ML&NLP)領域的年度統計。

從其分析中,我們可以清晰地看到在ML&NLP領域到底哪家單位最狂(非谷歌莫屬),哪些單位實例雄厚,哪位學者研究突飛猛進,以及中美之間實力差距如何巨大。

根據Marek Rei教授的報告結果,我們一一進行分析!

注:報告統計數據來源於2019年機器學習和NLP相關的會議

和期刊,其中統計範圍包括ACL,EMNLP,NAACL,EACL,COLING,TACL,CL,CoNLL,NeurIPS,ICML,ICLR,AAAI。

1、NeurIPS指數式增長

ML&NLP顶会论文发表总榜:谷歌最狂,清北入前十,周明、张岳、刘挺华人前三

幾乎所有的會議都在2019年破了紀錄,尤其是NeurIPS,曾指數上升趨勢,根據數據顯示其規模是最大的,而且領先AAAI接近300篇論文。當然,由於COLING和EACL在2019年沒有舉辦,所以沒有統計其數據。

2、谷歌發文最多,清北排名前十

2019年論文發表數量最多的機構是哪個呢?

ML&NLP顶会论文发表总榜:谷歌最狂,清北入前十,周明、张岳、刘挺华人前三

其中

谷歌順利佔據了領先地位,在各個領域都發表了大量的論文。例如,在 ICML 上,谷歌發表的論文數量是緊隨其後的MIT 的兩倍有餘。值得一提的是,Marek 之前幾年的統計中曾將DeepMind的論文也囊括在谷歌發表的論文之中,而在這一次則將DeepMind 的論文發表情況單獨列出。

微軟和 CMU 也發表了大量的研究成果,在所有會議上發表的論文數總量分別排在第二、第三。

而清華大學、北京大學,則是中國進入各大會議論文數總量前十的兩所高校,分別排在第七、第九,這也說明了近年來中國高校在學術論文上的影響力日益攀升。

3、八年爭奪,微軟、CMU總量第一,谷歌上升迅猛

接下來我們來看 2012年至2019年的總體數據。

ML&NLP顶会论文发表总榜:谷歌最狂,清北入前十,周明、张岳、刘挺华人前三

雖然在2019年由谷歌佔據主導地位,然而CMU 和微軟在 2012年至2019年整場“馬拉松式”的拉鋸戰中遙遙領先。並且值得一提的是,CMU 和微軟在 2012年至2019年的論文發表數量完全相同,都為 1215篇論文。

排在兩者其後的,是谷歌、斯坦福大學、MIT、IBM、伯克利大學、清華大學和北京大學。

ML&NLP顶会论文发表总榜:谷歌最狂,清北入前十,周明、张岳、刘挺华人前三

如果我們再看下時間分段數據,我們會發現谷歌上升勢頭迅猛。雖然在 2012年至2016年,

谷歌發表的論文總數要比CMU和微軟的少得多,但是從2018年開始,它的論文發表數就開始遠超包括CMU和微軟在內的其他所有機構。

而所有排在前列的機構都呈上升趨勢,在2019年發表的論文數量都遠比此前發表的論文數量要多。

其中,中國機構表現最突出的清華大學,雖然論文發表數量在前幾年中都一直較大地落後於國外機構,但在所有機構總體上升的趨勢下,以高於平均上升趨勢的幅度,終於在2019年拿下第七的排名,實屬不易!

4、Sergey年產33篇論文,劉知遠25篇位列華人第一

ML&NLP顶会论文发表总榜:谷歌最狂,清北入前十,周明、张岳、刘挺华人前三

就個人作者而言,伯克利的 Sergey Levine 在2019年總共發表了33篇論文,其中在NeurIPS 上12篇,ICML上6篇,ICLR上15篇。其他比較高產的作者分別是:卡內基·梅隆的Neubig、蒙特利爾的Yoshua Bengio。清華大學的劉知遠副教授以25篇排名第四(華人第一),其次是微軟亞研院秦濤研究員(24篇)以及其同事劉鐵巖(23篇)。

此外,北大的孫栩、加州大學聖塔芭芭拉分校的王威廉、騰訊AI Lab的Shuming Shi也不分上下,分別發表了21、21、20篇論文,排名前十以內。我們還注意到統計中包括了西湖大學的張嶽(18篇)、微軟的高劍峰(18篇)、Caiming Xiong(18篇)、哈工大劉挺(17篇)、北大趙東巖(18篇)等。

5、八年期,Yoshua Bengio晉級第一,周明、張嶽、劉挺華人前三

ML&NLP顶会论文发表总榜:谷歌最狂,清北入前十,周明、张岳、刘挺华人前三

將2012~2019年的數據作為一個整體來看,蒙特利爾的Yoshua Bengio已經取代了DeepMind的Chris Dyer成為最高產的作者。

位列第三的微軟周明,第四的西湖大學張嶽、華盛頓大學的 Noah A. Smith 以及位列第六的哈爾濱工業大學的劉挺有超過90篇論文產出。

這裡需要強調,由於中國學者英文重名現象比較嚴重,為了統計方便,列表中刪除了Yang Liu這一作者,因為有多人用此名字對論文署名,導致難以分辨。這導致清華大學計算機系的劉洋教授沒有被統計排名。

ML&NLP顶会论文发表总榜:谷歌最狂,清北入前十,周明、张岳、刘挺华人前三

以“年”為節點進行觀察,Sergey Levine、Graham Neubig、Yoshua Bengio各自發表的文章的數量都比前幾年要多,而且這幾個人也都超過了Chris Dyer在2016年創下的記錄。

另外,值得注意的是西湖大學張嶽的論文發表在2015、2016年達到最高產,劉挺則是在2014年發表最多。

6、以一作之名,平均兩個月可發一篇頂會論文

論文的第一作者通常是論文初稿的寫作人,實驗設計的主要參與者以及實驗的主要執行者。一般能夠在第一作者署名意味著在論文裡面的貢獻比較大。下面讓我們看看論文第一作者的情況。

ML&NLP顶会论文发表总榜:谷歌最狂,清北入前十,周明、张岳、刘挺华人前三

Gabriele Farina 是卡內基梅隴四年級的博士生,他以第一作者的身份發表論文6篇,其中有3篇被NeurIPS收錄。威斯康星大學的Diakonikolas,杜克大學的 Hanrui Zhang、新加坡國立大學的Rui Zhang以及清華大學的武楚涵、北京大學的楊鵬程、普林斯頓的 Sanjeev Arora、微軟的Zeyuan Allen-Zhu、IBM的 Mikhail Yurochkin也都有5篇論文是第一作者的署名。.

其中清華大學的武楚涵三篇文章發在了EMNLP上,北京大學的楊鵬程有五篇文章發表在了ACL上面。

ML&NLP顶会论文发表总榜:谷歌最狂,清北入前十,周明、张岳、刘挺华人前三

縱觀第一作者的論文,其中微軟的Zeyuan Allen-Zhu、香儂科技李紀為、劍橋的Ivan Vulić和Ryan Co、亞馬遜的Young-Bum Kim以及普林斯頓的Sanjeev Arora發表的論文最全面,涉及的頂會最多。

其中李紀為在七個會議上發表了論文,數量頗豐位列第一。

7、中美差距,何止一丁點!

分析2019年各國家和地區的論文發表數量,這還是首次。不可否認地,下面這張統計圖展示了美國在 AI 領域“力壓群山”的主導地位,不過中國、英國、德國和加拿大在該領域所發揮的影響力也不容小覷。

ML&NLP顶会论文发表总榜:谷歌最狂,清北入前十,周明、张岳、刘挺华人前三

單獨從各大會議會議上來看,中國在 AAAI 上的論文發表數量甚至與美國持平,可見中國研究者在 AAAI 上扮演著舉足輕重的角色。另外中國在NeurIPS、EMNLP、ACL 等會議上的表現也非常出色,雖然可能不及在 AI 領域本就擁有先天優勢的美國,但是遙遙領先於其他國家和地區。

下圖展示了2012年至2019年各國家和地區的論文發表總數,整體排名和差距情況與2019年各國家和地區的發表論文數量差不多。

ML&NLP顶会论文发表总榜:谷歌最狂,清北入前十,周明、张岳、刘挺华人前三

這些年來,美國的論文發表數量都一直遠超其他國家和地區,並且現在還在加速拉大這一差距。而中國則在拼盡全力與美國匹敵,如今也以不斷增大的幅度領先於美國以外的其他國家和地區。而英國雖然在論文發表數量以及增長幅度上不及美國和中國,也還是牢牢鎖住了第三的位置。

ML&NLP顶会论文发表总榜:谷歌最狂,清北入前十,周明、张岳、刘挺华人前三

美國—企業主導

由於美國2019年的論文發表數量在所有國家和地區中佔據了遙遙領先的主導地位,因而以下這張美國2019年論文發表數量統計圖整體情況與各大機構2019年論文發表數量統計圖差不多,

谷歌依舊遙遙領先,而微軟和CMU 依舊排在第二、第三。

ML&NLP顶会论文发表总榜:谷歌最狂,清北入前十,周明、张岳、刘挺华人前三

中國—高校領先

在中國,高校是論文發表的中堅力量,排在前十的有九所高校,僅有一家企業。

ML&NLP顶会论文发表总榜:谷歌最狂,清北入前十,周明、张岳、刘挺华人前三

清華大學和北京大學分別鎖住了第一、第二的寶座,二者在國際舞臺上的表現同樣不菲,是中國進入全球各機構論文發表排行榜前十僅有的兩所高校,近年來對於 AI 領域的整體發展做出了較大的貢獻和推動作用。

中國科學院大學、中國科學院、南京大學是論文發表數量排在第三至第五的高校,三所高校在 中國乃至全球 AI 領域扮演的角色同樣出類拔萃,不僅有該領域的領軍人物坐鎮,如周志華等,還有為 AI 領域培養了一大批人才,如中科院計算所等機構。

而企業同樣是中國論文發表的一隻輔助力量,其中百度、阿里巴巴是其中表現比較出色的企業,分別成立了科研性的實驗室,近年來也發表了大量的科研論文。

英國— DeepMind的傳奇

在英國, 谷歌麾下的DeepMind 遙遙領先,其後是劍橋大學、牛津大學、愛丁堡大學、倫敦大學學院、帝國理工大學和阿蘭圖靈機構。

ML&NLP顶会论文发表总榜:谷歌最狂,清北入前十,周明、张岳、刘挺华人前三

值得注意的是,阿蘭圖靈機構由劍橋、牛津、愛丁堡、華威和倫敦大學學院五所大學領導,所有該機構的論文發表數據與其他幾所大學有一定交叉,因此具體數據比較模糊。

論文發表數量排在前七的機構中,劍橋大學和愛丁堡大學主要聚焦於 NLP 領域,而其他機構則主要專注於 ML 領域。

德國—NLP一家獨大

在德國,達姆施塔特工業大學是論文發表數量最多的機構,尤其是在 NLP 領域,論文發表數量佔德國論文發表總數的 2/3。羅伯特·博世有限公司總體論文發表數量排在第二,但 ML 領域的論文發表數量卻是德國機構中最多的。

ML&NLP顶会论文发表总榜:谷歌最狂,清北入前十,周明、张岳、刘挺华人前三

隨後是薩爾大學、慕尼黑大學、圖賓根大學、慕尼黑工業大學、馬克斯普朗克智能系統研究所,分別排在第三至第第七的位置。

加拿大—三足鼎立

在加拿大,多倫多大學的論文發表數量是各機構中最出類拔萃的,排在第一,隨後是蒙特利爾大學、Vector 人工智能研究院,分別排第二、第三。

ML&NLP顶会论文发表总榜:谷歌最狂,清北入前十,周明、张岳、刘挺华人前三

滑鐵盧大學是聚焦於 NLP 領域研究的唯一一所機構,而其他機構的論文大多數都發表在 ML 的相關

會議上。

8、國際合作的多元化,中國還有待提升

Marek 也做了另外一項分析,即根據論文研究課題進行相似性分析,得出一些有意思的結論:

ML&NLP顶会论文发表总榜:谷歌最狂,清北入前十,周明、张岳、刘挺华人前三

首先是組織之間的相似性,從下圖可以看出,來自中國的大學主要集中在圖的上部分,美國大學主要在圖的右側,歐洲則在左側,企業在中間。因此可以看出研究課題即是非常具有區域性的,高校之間的相互合作受地域影響很大,而企業則相對就比較靈活。

ML&NLP顶会论文发表总榜:谷歌最狂,清北入前十,周明、张岳、刘挺华人前三

相似性也可以應用到作者的分析上,下圖的緊密度反映了研究者之間研究課題的相似性和合作頻率。從圖中可以看出秦濤(Tao Qin)和劉鐵巖(Tie-Yan Liu)很近,這很容易理解,他們都在微軟亞洲研究院工作。

ML&NLP顶会论文发表总榜:谷歌最狂,清北入前十,周明、张岳、刘挺华人前三

也可以將相似性分析應用到國家和地區。不過鑑於每個國家都會有許多不同的主題,下面這個圖可能更能代表它們的合作頻率。中國居於右下角,距離較近的是新加坡、澳大利亞、日本等,但距離其他國家和地區就比較遠了,例如與臺灣、韓國、法國等的合作就不是很緊密。而美國和英國在國際合作上相對比較多元化。

9、因崔斯汀的統計數據

最後,讓我們再來看一些有趣的數據:

1)提及GitHub(就是指有代碼開放)的論文佔比:ACL 有70 %的論文、 EMNLP 有69%,的論文、 NAACL有 68%的論文、 ICLR 有56%的論文、 NeurIPS有 46%的論文、ICML 有45%的論文、 AAAI 有31%的論文提及GitHub。如此來看,NLP領域的論文似乎大多都免費開放了論文代碼。

2)單篇論文作者最多有 24 位,論文是《 CoSQL: A Conversational Text-to-SQL Challenge Towards Cross-Domain Natural Language Interfaces to Databases》(地址:https://arxiv.org/abs/1909.05378)

3)標題最長的論文:《What if We Simply Swap the Two Text Fragments? A Straightforward yet Effective Way to Test the Robustness of Methods to Confounding Signals in Nature Language Inference Tasks》(地址:https://ar

xiv.org/abs/1809.02719)

4)標題最短的論文:《Graph U-Nets》(地址:https://arxiv.org/abs/1905.05178)

https://www.marekrei.com/blog/ml-and-nlp-publications-in-2019/


分享到:


相關文章: