投稿一千,錄用「百」篇,數據挖掘頂會ICDM 2019頂會反映了哪些研究趨勢?

投稿一千,錄用「百」篇,數據挖掘頂會ICDM 2019頂會反映了哪些研究趨勢?

作者 | Camel

數據挖掘領域的學者們在過去的9天裡,紛紛相聚在北京國家會議中心。

從11月3日到7日,舉辦了CIKM 2019會議(相關報道參閱《CIKM投稿數量1700篇,圖神經網絡成熱門方向,最佳論文紛紛進行圖研究》),緊接著從11月8日到11日,在同一地點又繼續舉辦了數據挖掘頂會ICDM 2019 。兩個會議同為CCF列表 B類,其區別在於前者是ACM舉辦,而後者是IEEE舉辦;此外CIKM覆蓋範圍更廣,包括了數據庫、信息檢索和數據挖掘三個領域,而ICDM則更為專注數據挖掘。

IEEE ICDM 會議首次舉辦於2001年,至今已經是第 19屆會議。而作為會議的發起人、數據挖掘領域領軍人物吳信東教授則從會議之初一路相隨,ICDM國際會議舉辦地輾轉十個國家之後終於來到中國,而吳信東也當之無愧與Granada大學的Francisco Herrera共同擔任大會主席,大會的組織則由清華大學和吳信東擔任科學院院長的明略科技共同承辦。

本次會議共包含了 3 個主旨報告,3 個 tutorial, 6 個特邀工業報告,1 個關於“營銷智能”的 pannel 以及 34 個 session。

ICDM從誕生之日起便以錄取率低著稱,今年也不例外。ICDM 2019 共收到來自56個國家和地區的1046篇投稿,而僅有95篇(9.1%)被錄為regular papers,在此之外還錄用了99篇的short papers,才把總錄取率提升到18.5%。需要提及的是這1046篇投稿中有2/3的論文第一作者都是學生,且今年是ICDM接收論文數量首次突破一千(去年為948篇)。

注:short paper 指一些篇幅比較短(一般是4頁以下),內容比較少但是具有一定的原創型和新穎性的文章。regular paper(長文章)是指內容充實,研究比較完整,分析比較充分的文章,文章的篇幅比較長,一般都在10頁左右,甚至更長。

投稿一千,录用「百」篇,数据挖掘顶会ICDM 2019顶会反映了哪些研究趋势?

當然組委會也以國籍對投稿論文做了分析,其中40.95%的來自中國,而有25.31%的來自美國,其次則是澳、日、德、印、加等國家。國內投稿如此多的原因,一是中國各高校和研究單位在數據挖掘領域本身就比較強;二是會議在國內開,中國的師生投稿和參會的成本相對較低,而美國的學者則更願意去投SIGKDD等會議。

投稿一千,录用「百」篇,数据挖掘顶会ICDM 2019顶会反映了哪些研究趋势?

不過,從錄取率來看,來自中國的論文平均錄取率只有17.5%,相比美國的23.2%、澳大利亞的27.8%以及日本的29.03%則有不小的距離。這說明啥?離家近了,投稿的膽子也變大了。

投稿一千,录用「百」篇,数据挖掘顶会ICDM 2019顶会反映了哪些研究趋势?

最終中國還是勝在了基數大。據吳信東教授介紹,在所有錄取的194篇文章中,其中有74篇來自中國,62篇來自美國;也即有70%的錄用文章是被中美兩國所瓜分。

投稿一千,录用「百」篇,数据挖掘顶会ICDM 2019顶会反映了哪些研究趋势?

根據錄用時的平均最高分以及組織會的投票選擇,本次會議的最佳論文獎獲得者授予給了來自GeorgeMason大學的Xiaojie Guo,Liang Zhao等人,而最佳學生論文獎則由Michigan大學的Mark Heimann等人摘取。補充一點,本次會議還授予了研究貢獻獎、10年最具影響力獎、李濤獎。研究貢獻獎的獲得者是來自斯坦福大學的JureLeskovec教授,他也是ICDM 2010最佳應用論文獎的獲得者;而獲得10年最具影響力獎的論文是由 Steffen Rendle發表在2010年的論文(Factorization Machines ICDM’10, pp.995-1000);李濤獎是為了紀念數據挖掘領域著名學者李濤,該獎項於去年設立,今年的獲獎者為UIUC的華人學者Hanghang Tong。

對於投稿分析還有一個比較重要的便是話題分析,組委會對不同的領域投稿做了排序。從下圖可以看出“在傳統領域對新數據進行挖掘的算法”和“網絡環境的挖掘和關聯分析”兩年連續霸榜,其他則都稍有變動,這種分析在一定程度上也反映了數據挖掘領域的主流和新趨勢:主流的依舊是主流,新趨勢則在上升或下降。

投稿一千,录用「百」篇,数据挖掘顶会ICDM 2019顶会反映了哪些研究趋势?

投稿中,尤為關鍵的一個角色便是審稿人,審稿人的喜好也決定了論文的錄取情況。組委會為了分析本年度審稿人的喜好,也嘗試了對標題詞進行分析,計算方式如下所示:

投稿一千,录用「百」篇,数据挖掘顶会ICDM 2019顶会反映了哪些研究趋势?

分析結果如下圖:

投稿一千,录用「百」篇,数据挖掘顶会ICDM 2019顶会反映了哪些研究趋势?

可以看出標題中帶有 adversarial、dynamic、alignment、feature、generation等詞彙時論文更容易被錄取,而標題中帶有 deep 、based、model、prediction、detection等詞彙的論文杯具的概率就比較大了,特別是帶有based的論文杯具率達90.79%。你能從這個標題詞彙正、負率中推測出審稿人的喜好是什麼嗎?

那麼我們再來一張詞雲吧:

投稿一千,录用「百」篇,数据挖掘顶会ICDM 2019顶会反映了哪些研究趋势?

真的是成也學習,敗也學習!

二、主旨報告

本次大會邀請了數據挖掘的巨擘UIUC的韓家煒教授、IBM研究院的Ronald Fagin以及康奈爾大學的Joseph Halpern做大會主旨報告。

投稿一千,录用「百」篇,数据挖掘顶会ICDM 2019顶会反映了哪些研究趋势?

韓家煒的報道主題是Embedding-Based Text Mining: AFrontier in Data Mining。我們對韓家煒以往的研究已經做過詳細的報道;而Embedding則是韓家煒近來研究的一個重要方向,在CIKM和ICDM兩場會議中,韓教授都詳細介紹過他們實驗室近來在Embedding方面所做的工作《Spherical Text Embedding》,且相應的工作已經發表在NeurIPS 2019。

投稿一千,录用「百」篇,数据挖掘顶会ICDM 2019顶会反映了哪些研究趋势?

比較有意思的是,據他的學生透露,這篇文章是韓家煒教授本年度最喜歡的一篇工作,但很不幸在最初投稿時卻被拒了,因為沒有和最近的顯學BERT進行比較;隨後韓家煒等人做了比較,充分證明並分析了BERT在詞相似等任務中確實不如Embedding,如下圖所示:

投稿一千,录用「百」篇,数据挖掘顶会ICDM 2019顶会反映了哪些研究趋势?

讓筆者感到極為佩服的是,作為數據挖掘領域的泰斗,從3日的CIKM一直到11日的ICDM結束,韓家煒教授每天都會去會場參會,讓吾等去一天休三天的年輕人汗顏。

Ronald Fagin是IBMFellow(這個Fellow是IBM的最高榮譽,現在全世界範圍內也就100位,這可是從IBM 在全世界40萬僱員中選出的哦,而且整個歷史上總共也就大約250名)。

投稿一千,录用「百」篇,数据挖掘顶会ICDM 2019顶会反映了哪些研究趋势?

Ronald老先生笑起來很魔性

他在ICDM上的演講主題為“Applyingtheory of data to practice”,具體來講就是講了兩個IBM的研究案例。第一個是Top k問題的算法研究,Ronald在報告中提供了一種最優算法,只需要10行就可以解決這個問題;這個算法也獲得了2014年的哥德爾獎(理論計算機科學中的最高獎),這個問題是由實踐中逐漸提出的,最終卻獲得了理論界的最高獎項。第二個則是從理論層面提出的問題,即數據交換,本質上來說就是將數據從一種格式轉換為另一種格式,但其中實踐上的複雜的問題卻讓數據交換成為一個新的子領域,甚至有專門的會議。Ronald在這裡想要強調的就是:理論家一定要和實踐家共同起來工作,反之亦然,這樣兩種類型的學者共同受益。

康奈爾大學的Joseph Halpern演講的非常理論,主題為“Actual Causality”。事件C“實際引起”事件E是什麼意思?這是Joseph提出的問題。

投稿一千,录用「百」篇,数据挖掘顶会ICDM 2019顶会反映了哪些研究趋势?

一看Joseph就是個哲學家

在報告中,Joseph分析了自亞里士多德、休謨等哲學家對因果關係的分析,他認為許多定義都是根據反事實提出的。(如果C沒有發生,那麼C就是E的原因,那麼E就不會發生。)2001年 Joseph等人提出了一種新的實際原因定義,使用結構方程概念對事實進行建模。由於內容太過抽象,筆者在此就不再詳細介紹,對此感興趣的讀者可以在「AI科技評論」

微信公眾號回覆「Joseph」查看PPT照片。

值得一提的是,在本次會議中幾位贊助商也獲得了工業報告的機會。

投稿一千,录用「百」篇,数据挖掘顶会ICDM 2019顶会反映了哪些研究趋势?
  • 明略科技在吳信東的帶領下,目前對知識圖譜做的非常深入,徐凱波博士對明略科技的圖挖掘技術在公共安全中的應用做了介紹。

  • 葉傑平是滴滴研究院副院長,他在報告中講述了滴滴出行在交通中如何應用人工智能。

  • 百度研究院資深研究員熊昊一博士講述瞭如何使用百度的AutoDL來實現AI的工業化。值得一提的最近百度剛剛發佈了最新版的飛槳(PaddlePaddle)框架,而AutoDL正是飛槳裡面重要的一個模塊。

  • 南京財經大學信息工程學院的曹傑教授講述了從線上、線下融合的實用數據管理和商業智能的解決方案研究。

  • 來自LinkedIn 的李子博士,介紹了LinkedIn大規模適應端到端的機器學習。他們在LinkedIn上啟動了一個名為“生產機器學習”(簡稱“ Pro-ML”)的程序。Pro-ML使機器學習工程師的效率提高一倍,同時向來自LinkedIn堆棧的工程師開放AI和建模工具。

  • 同盾科技副總裁、人工智能研究院院長李曉林講述了他們的聯邦學習框架(iBond),以及如何用iBond來把數據孤島連接起來,同時能夠保護數據隱私。

三、最佳論文

本次會議的最佳論文獎獲得者授予給了來自George Mason大學的Xiaojie Guo,Liang Zhao等人,而最佳學生論文獎則由Michigan大學的Mark Heimann等人摘取。

1、最佳論文獎

標題:Deep Multi-attributed Graph Translation with Node-Edge Co-evolution

論文鏈接:http://mason.gmu.edu/~lzhao9/materials/papers/ICDM_2019_NEC_DGT-final.pdf

投稿一千,录用「百」篇,数据挖掘顶会ICDM 2019顶会反映了哪些研究趋势?

摘要:圖翻譯是將圖像和語言翻譯結合起來的一項研究,其目的是通過限制源域中的輸入圖來在目標域中生成圖。最近,這個話題引起了越來越多的關注。但現有的工作僅限於預測具有固定拓撲圖的節點屬性,或者僅在不考慮節點屬性的情況下僅預測圖拓撲,但由於存在巨大挑戰,因此無法同時預測它們的兩者:1)難以描述交互式,迭代式,節點和邊緣的異步轉換過程;2)難以發現和保持預測圖中節點和邊緣之間的固有一致性。這些挑戰阻止了用於聯合節點和邊緣屬性預測的通用端到端框架,這是對現實世界應用程序的需求,例如物聯網網絡中的惡意軟件限制以及結構到功能的網絡轉換。這些實際應用高度依賴於手工製作和臨時啟發式模型,但無法充分利用大量的歷史數據。

投稿一千,录用「百」篇,数据挖掘顶会ICDM 2019顶会反映了哪些研究趋势?

在這篇論文中,作者將此通用問題稱為“多屬性圖轉換”,並開發了一種無縫集成節點和邊緣轉換的新穎框架。這裡的邊緣轉換路徑是通用的,這被證明是對現有拓撲轉換模型的概括。然後,提出了一種基於我們的非參數圖拉普拉斯算子的頻譜圖正則化方法,以學習和保持預測節點和邊緣的一致性。最後,作者對合成和實際應用數據進行的大量實驗證明了該方法的有效性。

2、最佳學生論文獎

標題:Distribution of Node Embeddings asMultiresolution Features for Graphs

論文鏈接:https://markheimann.github.io/papers/19ICDM_RGM.pdf

投稿一千,录用「百」篇,数据挖掘顶会ICDM 2019顶会反映了哪些研究趋势?

摘要:從生物信息學、神經科學到計算機視覺和社交網絡分析,圖分類是許多領域的重要問題。也就是說,為了圖形分類的目的而比較圖形的任務面臨著幾個主要挑戰。特別是,有效的圖比較方法必須(1)在表達上和歸納上比較圖;(2)有效地比較大圖;(3)使用快速機器學習模型進行圖分類。

投稿一千,录用「百」篇,数据挖掘顶会ICDM 2019顶会反映了哪些研究趋势?

為了解決這些挑戰,作者提出了隨機網格映射(RGM),這是一種快速計算的特徵圖,通過其節點嵌入在特徵空間中的分佈來表示圖。作者通過與內核方法的緊密聯繫來證明RGM的合理性:RGM可證明地近似拉普拉斯內核均值圖,並且具有金字塔匹配內核的多分辨率特性。

作者還表明,可以使用Weisfeiler-Lehman框架將RGM擴展為合併節點標籤。大量實驗表明,使用RGM特徵圖進行圖分類的準確性優於或優於許多強大的圖核,無監督圖特徵圖和深度神經網絡。此外,在保持高分類精度的同時,將基於其節點嵌入的圖與RGM進行比較的速度比競爭基準快一個數量級。

One more thing

明年ICDM的舉辦地:意大利的Sorrento——

投稿一千,录用「百」篇,数据挖掘顶会ICDM 2019顶会反映了哪些研究趋势?投稿一千,录用「百」篇,数据挖掘顶会ICDM 2019顶会反映了哪些研究趋势?


分享到:


相關文章: