國內接收論文佔四成圖神經網絡大火,ACM CIKM2019最佳論文已出爐

機器之心報道

昨晚,在北京舉行的信息檢索頂會 ACM CKIM 2019 上,來自以色列的研究者獲得了最佳論文獎項,阿里巴巴獲最佳應用論文獎,最佳 Demo 獎則頒給了 IBM 的研究者。

ACM CIKM 全稱為(ACM International Conference on Information and Knowledge Management),是國際計算機學會(ACM)主辦的數據庫、知識管理、信息檢索領域的重要學術會議。自 1992 年首次舉辦以來,它已經在全球的 8 個國家舉行過 27 次會議,今年的大會是 CIKM 第二次來到中國。

在 11 月 3 日到 7 日舉行的大會中,Steve Maybank、韓家煒、裴健和石建萍等著名學者都將發表主題演講。此外大會還有十餘場行業演講,以及討論會議等活動。

本屆大會吸引了超過 700 人前來參會,熱度頗高。同時,眾多華人學者和研究也成為了大會上的亮點。

國內學者佔據四成

今年的 CIKM 收到 1676 篇提交論文(其中包括 1031 篇長論文和 471 篇短論文),經過同行評審,共有 202 篇長論文、107 篇短論文和 37 篇應用研究論文被接收。總接受率約為 21%。

為了促進人工智能、大數據等方向的業界研究,今年的大會論文也新增了應用論文 Track,與學界 Track 並列。所有的接收論文都有口頭宣講和海報展示。

「在學術研究取得一定進展之後,我們必須探討如何把這些新技術轉換到實際的問題中,」本屆大會主席、澳大利亞科學院院士、悉尼大學教授陶大程表示。「這可以解決工業界此前無法解決的問題。在產業界,我們也可以從新的角度發現問題。」

在1700餘篇提交論文中,來自中國的學術機構和公司佔據了其中的 700 餘篇,比例超過四成,成為了本屆大會上提交論文數量最多的國家。

CIKM 2019 大會程序委員會主席、清華大學計算機科學與技術系副教授崔鵬說道:「近年來,國內學者在人工智能等領域的學術會議上正扮演著越來越重要的角色。在數據挖掘領域,近三年中國也呈崛起的態勢。最近研究水平的進步,需要感謝政策環境的支持,以及相關產業發展的推動。」

把目光放到更遠,其實華人在數據挖掘領域中一直以來都有著很大貢獻。其中最為著名的當屬 IEEE、ACM 院士,伊利諾伊大學香檳分校教授韓家煒,他被認為是數據挖掘的「開山鼻祖」,論文被引用量超過 17 萬次,H-index 高達 171。數據挖掘頂級會議 KDD,就是在在韓家煒等人的推動下成為了重要的學術會議。今年,韓教授也作為程序委員會資深成員來到了大會現場。

「在數據挖掘領域裡有很多著名的華人學者,包括韓家煒,俞士綸(Philip S. Yu)、Wang Ke、吳信東等等,」陶大程介紹道。「他們對推動數據挖掘的發展作出了傑出的貢獻。縱觀歷史,華人在數據挖掘領域裡起著非常重要的位置。」

最佳論文出爐

CIKM 2019 論文獎項分為三個:最佳研究論文、最佳應用論文與最佳 Demo。

最佳研究論文由來自以色列內蓋夫本-古裡安大學的 Noy Cohen 等人獲得。

國內接收論文佔四成圖神經網絡大火,ACM CIKM2019最佳論文已出爐


論文鏈接:http://www.cikm2019.net/attachments/papers/p821-cohen-shapiraA.pdf

摘要:近來,非機器學習人士也希望能夠使用相關的算法進行應用。其中一個主要的挑戰是,他們需要選擇算法並用它來解決問題。如果能夠選擇正確的算法,在給定數據集、任務和評價方法的情況下可以使算法得到很好的效果。
本文中,研究者提出了一個名為 AutoGRD 的算法,這是一種新穎的元學習算法,用於算法推薦。AutoGRD 首先將數據表示為圖,並將其隱式表示提取出來。提取出來的表示會被用來訓練一個排序元模型,這個模型能夠精確地對未見數據集提供表現最好的算法。研究者將這一算法在 250 個數據集上進行了測試,在分類和迴歸任務上都表現出了很高的性能,而且 AutoGRD 比現有的元學習 SOTA 模型和貝葉斯算法表現得都要好。

最佳研究論文第二名由北大、微軟研究院和阿里巴巴的研究者獲得。

國內接收論文佔四成圖神經網絡大火,ACM CIKM2019最佳論文已出爐

論文鏈接:http://www.cikm2019.net/attachments/papers/p409-longA.pdf

摘要:為了描述現實世界無處不在的關係數據,網絡數據已經廣泛應用於複雜關係的建模中。因此,將頂點(vertice)映射到低維空間(即網絡嵌入)適用於各種各樣的預測任務。大量的研究利用了成對接近性(pairwise proximity),這是真實網絡具有的特性。聚類性,即頂點傾向於形成各種規模的社區——由此形成一個囊括不同社區的層級結構,則是另一種屬性。這類研究卻沒有引起研究者的關注。

在本文中,研究者提出了一種子空間網絡嵌入框架(Subspace Network Embedding,SpaceNE),該框架保留了社區通過子空間形成的層級結構,並具有靈活的維數以及固有的層次結構,並且本質上是層次結構。此外,他們提出子空間能夠解決表徵層級社區的更多問題,包括稀疏性和空間扭曲。
最後,研究者提出了要降噪的子空間維數的約束條件,這些約束條件通過可微分函數進一步逼近,從而使聯合優化成為可能。與此同時,他們還採用了逐層方案來減少由參數過度引起的開銷。研究者進行了各種實驗,結果證明了 SpaceNE 模型在解決社區層級結構方面是有效的。

最佳應用論文作者來自阿里巴巴。

國內接收論文佔四成圖神經網絡大火,ACM CIKM2019最佳論文已出爐


論文鏈接:https://arxiv.org/pdf/1908.10679.pdf

摘要:購物網站上的評論會影響到用戶的購買決定,同時還會吸引到大批致力於誤導買家的垃圾評論。二手商品交易網站閒魚就飽受垃圾評論困擾。閒魚的反垃圾評論系統面臨兩大挑戰:數據的可擴展性以及垃圾評論者的敵對行為。


在這篇論文中,阿里的研究者提出了這些挑戰的應對方案。他們提出了一個基於圖卷積網絡(GCN)的大規模反垃圾評論方法——GAS,用於檢測閒魚上的垃圾廣告。這個模型結合了異構圖和同構圖來捕獲內容的本地上下文和全局上下文。離線實驗表明,他們提出的方法優於利用評論信息、用戶特徵和被瀏覽商品信息的基線方法。此外,他們還將模型部署在了閒魚上,每天處理上百萬的數據。在線性能也證明了模型的有效性。

最佳 Demo 獎項頒給了 IBM 的研究者。

國內接收論文佔四成圖神經網絡大火,ACM CIKM2019最佳論文已出爐

論文鏈接:https://arxiv.org/abs/1909.01606

摘要:深度學習(DL)模型正變得無處不在,但大多數軟件開發者並非深度學習專家,因此很難用上蓬勃發展的 DL 模型。TensorFlow、pyTorch 等各種不兼容的 DL 編程框架的普遍使用使得這一情況變得更加糟糕。
為了解決這一問題,IBM 的研究者提出了一種名為 Model Asset Exchange(MAE)的系統,使得開發人員可以方便地利用當前最新的 DL 模型。無論底層的 DL 編程框架是什麼,該模型都能提供一個開源的 Python 庫(MAX 框架),該庫封裝 DL 模型,並使用標準化的 RESTful API 統一編程接口。這些 RESTful API 使得開發者能夠在推理任務中利用封裝的 DL 模型,無需完全理解不同的 DL 編程框架。利用 MAX,研究者封裝並開源了來自不同研究領域的 30 多個 SOTA DL 模型,包括計算機視覺、自然語言處理和信號處理等。

圖神經網絡成為最大趨勢

這屆 CIKM 的主題是「賦能未來生活的人工智能」,可見以深度學習為主要動力的人工智能技術在信息提取、數據挖掘領域中已經成為了主流技術。

「當前,全世界各個國家都在制定自己的人工智能戰略。不僅僅是中國,美國、英國、歐盟、澳大利亞都在制定自己的戰略,」陶大程表示。「我們認為,未來它會滲透到生活的各個方面。人工智能其中主要是機器學習和深度學習,本屆大會希望討論深度學習和傳統的統計學習在未來會有什麼樣的發展趨勢。」

在大會上,很多學者都認為圖神經網絡方面的研究成為了最近一段時間以來,信息提取、數據挖掘中的熱點,不過在這一方面,人們還有很多可以發展的方向。

「在圖卷積神經網絡(GCN)上我們使用的定義還是歷史性的,還有很多事情要去做,」陶大程說道。「相較於傳統算法,人們在圖網絡的理論分析上還有所欠缺,真正的發展還需要一些時間。目前,想要讓圖網絡獲得很好的效果,往往需要依賴於在參數和模型上的不斷調整嘗試。」

陶大程也表示,即便如此,圖網絡相對於傳統算法還是展現出了很多優勢,並在很多研究中已經取得了比較好的效果。

崔鵬教授則指出了圖神經網絡的侷限性:「我們認為問題的核心在於處理拓撲結構,目前大家普遍的觀點是 GCN 已經可以很好地處理其中的一部分了。但另一方面,我們也發現 GCN 擅長解決的是特徵驅動——比如節點的標籤是由節點本身的特徵決定的,這方面 GCN 做得比較好,能夠很好地抑制噪聲;如果標籤的產生並不是由特徵驅動的,而是由拓撲結構決定的,則圖卷積神經網絡就不能解決問題。」

在知識檢索任務中,建立知識網絡是解決用戶檢索需求的重要環節。面向未來,深度學習等技術還有很多挑戰需要解決。「從學術研究的角度來看,AI 也到了十字路口,」崔鵬表示。「目前的人工智能熱潮毋庸置疑是深度學習推動起來的。但到今天為止,我們也看到了很多問題,包括魯棒性、可解釋性、公平性等等。」

目前,ACM CIKM 2019 大會正在北京舉行中。今明兩天,大會主要圍繞機器學習、深度學習方面的理論和應用,以及工業界在相關領域的研究進行研討。機器之心也會關注後續內容,併為讀者帶來新的消息。


分享到:


相關文章: