首屆國際分佈式AI會議在京召開,姚期智、Lesser坐鎮,德撲、圍棋 AI 頂級研究者齊聚

首屆國際分佈式AI會議在京召開,姚期智、Lesser坐鎮,德撲、圍棋 AI 頂級研究者齊聚

首屆國際分佈式 AI 大會

作者 | 京枚

近年來,隨著中國的學術實力不斷增強,越來越多的學術頂會移步中國,例如IJCAI、IROS、EMNLP、ICDM等學術頂會今年都在國內舉辦。而針對多智能體系統而舉辦的國際分佈式人工智能會議(Distributed AI,DAI)則更進一步的代表,不僅僅首屆會議選址中國,且其發起人中多數也都是華人學者。

其中南洋理工大學安波(大會共同主席)、清華大學唐平中(程序委員會共同主席)、南京大學高陽(Workshop 主席)、MSRA秦濤(工業論壇主席)、南京大學俞揚(贊助主席)、天津大學郝建業(宣傳主席)都在組織者之列,圖靈獎得主姚期智院士也擔任大會名譽主席並將做主旨報告。

之所以由華人推動併成立這個會議,其背後則是我國分佈式人工智能的研究群體日益壯大,工業界的應用越來越頻繁,國內學術界迫切需要舉辦一個新的高水平交流平臺。

2019年10月13-15日,第一屆國際分佈式AI大會在北京國家會議中心成功召開。AI 科技評論瞭解到,本次會議共有 1 個workshop、2個tutorial、3個特邀主旨報告、3個工業主旨報告、6個工業特邀報告以及48個oral演講。本次會議,作為首屆DAI會議,共接收37篇投稿論文,其中13篇被收錄(長論文 11 篇、短論文 3 篇)。此外,為了豐富本次會議的內容,會議組織方也邀請了來自AAAI,AAMAS,IJCAI,NeurIPS,ICML,ACL,KDD等頂會的35篇論文做口頭報告。

一、德撲&圍棋,全天講解

會議從13日開始,上下午分別有一個tutorial。有意思的是,上午tutorial的講者是著名德撲AI研究者Noam Brown,而下午的講者是在圍棋AI領域極為著名的華人學者、圍棋 AI 大牛田淵棟

德撲AI大師:Noam Brown

首届国际分布式AI会议在京召开,姚期智、Lesser坐镇,德扑、围棋 AI 顶级研究者齐聚

Noam Brown 是Facebook人工智能實驗室的研究科學家,他在計算博弈論和機器學習方面成果顯著,最為著名的則是2017年研發了雙人無限撲克Libratus ,以及2019年研發了多人無限撲克Pluribus,分別戰勝了人類頂級玩家,轟動一時。其中,Libratus 也被《科學》雜誌列入 12 項年度突破性科學成果之一,Pluribus 則登上《科學》雜誌的封面。

在tutorial中,Brown講述了“不完美信息”情況下的遊戲AI。在傳統遊戲AI(例如國際象棋、圍棋等),所有的信息對於博弈雙方來講都是已知的,人工智能所需做的是儘可能快地搜尋最優解,隨著AlphaGo在圍棋上的突破,完美信息遊戲AI已經達到了巔峰。但在現實世界中的諸多決策往往是不完全展現在參與者面前的,例如撲克,我們並不知道對手手中牌的信息。Brown在tutorial中首先解釋了為什麼過去用於完美信息遊戲的策略(搜索算法)在不完美信息遊戲中會崩潰,然後介紹了集中克服相應挑戰的新算法,特別是涵蓋虛擬遊戲和反事實後悔最小化算法(counterfactual regret minimization algorithms),以及用於不完美信息遊戲的搜索技術

圍棋AI大師:田淵棟

首届国际分布式AI会议在京召开,姚期智、Lesser坐镇,德扑、围棋 AI 顶级研究者齐聚

田淵棟則從強化學習的角度對遊戲AI中的方法、工具、應用以及其他等方面做了全面回顧。田淵棟是Facebook在圍棋研究領域的負責人,在今年初田淵棟將基於AlphaZero研究工作而開發的ELF OpenGo 預訓練模型與代碼完全開源,成為圍棋AI的首次開源,極大地促進了圍棋AI的廣泛研究和應用。

在tutorial中,田淵棟對最新的強化學習方法(A3C,APE-X,R2D2,SAC,自學習等)及其在遊戲和其他應用中的用法進行了廣泛的回顧,並提出了一個全新的強化學習工具ReLA。田淵棟介紹說,ReLAx與之前他們開源所使用的ELF相比,在 PyTorch C++ API 中能夠利用本機向量支持,具有高效的批處理功能,且能夠執行並行網絡轉發。田淵棟在隨後通過更加詳細的應用案例講解了ReLA的應用,值得遊戲AI研發的人員仔細研究。

二、特邀主旨報告

本次會議的另一大亮點是由姚期智、Victor R. Lesser、劉鐵巖組成的特邀主旨報告陣容。

姚期智:Fintech: A Meeting of Minds Between Computer Science and Economics

首屆國際分佈式AI會議在京召開,姚期智、Lesser坐鎮,德撲、圍棋 AI 頂級研究者齊聚

姚期智是世界著名的計算機學家,2000年圖靈獎得主。其主要研究方向為計算理論及其在密碼學和量子計算中的應用。其在

1995年便提出了分佈式量子計算模型,後來成為分佈式量子算法和量子通訊協議安全性的基礎。在本次會議中,姚期智作為首個特邀報告嘉賓做了主題為《Fintech: A Meeting of Minds Between Computer Science and Economics》的報告。

姚期智認為金融科技可以看做是數字時代經濟學和計算機科學的一次融合,在金融科技的主要技術基礎包含了計算機科學的可靠分佈式計算和密碼學以及金融學方面的有效金融活動機制等。在報告中,姚期智從以上的角度,探討了拍賣以及區塊鏈領域的一些最新工作。例如是否可以從競標者願意支付的拍賣中獲得更多收益?當投標人比其他人更具風險承受能力時會有更多的收入嗎?他隨後還介紹了有關區塊鏈費用的一些最新結果。他認為這些結果有助於揭示經濟學中的寫結構性問題,而這些問題的答案在以往並不明顯。以下是姚期智在演講最後的總結:

首届国际分布式AI会议在京召开,姚期智、Lesser坐镇,德扑、围棋 AI 顶级研究者齐聚
首届国际分布式AI会议在京召开,姚期智、Lesser坐镇,德扑、围棋 AI 顶级研究者齐聚

Victor R. Lesser:Reflections on DAI History and Coordination Technology

首届国际分布式AI会议在京召开,姚期智、Lesser坐镇,德扑、围棋 AI 顶级研究者齐聚

Victor R. Lesser 可謂是多智能體系統領域的創始人之一。他的重點研究領域包括複雜 AI 系統的控制和組織等,在多智能體和「黑板」系統等領域做出了突出貢獻。他曾擔任 AAAI 創始 Fellow、IEEE Fellow、多智能體系統國際會議(ICMAS)的首屆主席、國際智能體及多智能體系統協會(IFAAMAS)創始主席等;2007 年,為了表彰他在多智能體系統領域做出的傑出貢獻,IFAAMAS 還專門設立了以他的名字命名的「Victor Lesser 傑出論文獎」。此外,他還獲得了 2009 年 IJCAI「卓越研究獎」等重要獎項。作為多智能體系統領域的創始人,Lesser的報告主題為《Reflections on DAI History and Coordination Technology》,全面回顧了分佈式AI和協作技術的研究歷史。

Lesser 回顧說,上世紀 70 年代後期,分佈式人工智能這個新領域開始興起,研究內容包括分佈式問題求解、規劃、組織控制、協商、協作等。最早在1980年 MIT 舉辦首次分佈式人工智能研討會,當時僅有 22 人參加;直到1995年才舉辦第一個相關的國際性會議ICMAS(International Conference on Multi-Agent Systems)。隨後分佈式AI的研究逐漸蓬勃發展。Lesser列舉了80年代人們對分佈式AI的看法,並指出當時“Agents' Views can be uncertain, incomplete and Out-of-Date”,儘管這麼多年已經過去,用戶的帶寬呈指數增長,agent仍然必須應對有限且過時的網絡狀態視圖。隨後Lesser講述了他個人對於協作在多智能體中的作用。並強調說“協作過去是、現在是、將來也將仍然是分佈式AI中重要且具有挑戰性的問題”。

首届国际分布式AI会议在京召开,姚期智、Lesser坐镇,德扑、围棋 AI 顶级研究者齐聚

劉鐵巖:Towards AI-powered Industrial Digital Transformations

首届国际分布式AI会议在京召开,姚期智、Lesser坐镇,德扑、围棋 AI 顶级研究者齐聚

劉鐵巖是微軟亞洲研究院副院長,IEEE Fellow。作為機器學習和信息檢索領域的知名專家,他近年來在深度學習、強化學習、分佈式機器學習等方面也頗有建樹。值得一提的是,他帶領的微軟團隊就在不久前為 AI 領域帶來了一項突破性的成果——世界最強的麻將 AI「Suphx」在日本在線麻將競技平臺「天鳳」晉級十段。不過他在本次報告中並沒有介紹他們所研製的麻將AI,而是以主題為《Towards AI-powered Industrial Digital Transformations》介紹了微軟亞洲研究院如何利用人工智能幫助傳統企業進行數字化轉型。

劉鐵巖首先介紹了他們與共同基金公司AMC和保險公司中國太平在AI投資方面的合作,據劉鐵巖介紹,他們開發的AI投資模型實現了超額的回報以及非常好的風險控制。隨後他介紹了微軟亞洲研究院與世界上最大的海洋運輸公司東方海外的合作,其發明的“競爭性強化學習”的技術解決了他們在空容器重新放置的問題,極大地降低了東方海外的運營成本。劉鐵巖介紹說,隨著AI技術的發展,將會有越來越多的行業進行數字化轉型,AI科學家和領域專家應當充分合作以共同促進世界的進步。

首届国际分布式AI会议在京召开,姚期智、Lesser坐镇,德扑、围棋 AI 顶级研究者齐聚

除了以上三位大會特邀主旨報告外,會議還邀請了螞蟻金服副總裁漆遠、微軟亞洲軟件技術中心首席科學家姜大昕、滴滴出行副總裁葉傑平分別就分佈式AI在各自行業的應用做了特邀分享:

首届国际分布式AI会议在京召开,姚期智、Lesser坐镇,德扑、围棋 AI 顶级研究者齐聚

螞蟻金服副總裁漆遠

報告主題:Multi-agent Machine Learning for All-Inclusive Finance

首届国际分布式AI会议在京召开,姚期智、Lesser坐镇,德扑、围棋 AI 顶级研究者齐聚

微軟亞洲軟件技術中心首席科學家姜大昕

報告主題:Question Answering in Bing

首届国际分布式AI会议在京召开,姚期智、Lesser坐镇,德扑、围棋 AI 顶级研究者齐聚

滴滴出行副總裁葉傑平

報告主題:AI for Transportation

三、最佳論文

本屆 DAI 大會在14日晚宴上宣佈了最佳論文獎與最佳論文榮譽提名獎項。

首届国际分布式AI会议在京召开,姚期智、Lesser坐镇,德扑、围棋 AI 顶级研究者齐聚

最佳論文獎

本屆最佳論文獲獎者為 Weixun Wang、Jianye Hao、Yixi Wang、Matthew E. Taylor 。其中 Weixun Wang、Jianye Hao、Yixi Wang 來自天津大學,Matthew E. Taylor 來自華盛頓州大學。

首届国际分布式AI会议在京召开,姚期智、Lesser坐镇,德扑、围棋 AI 顶级研究者齐聚

標題:Achieving Cooperation Through Deep Multiagent Reinforcement Learning in Sequential Prisoner's Dilemmas

作者:Weixun Wang, Jianye Hao, Yixi Wang, Matthew E. Taylor

論文地址:http://www.adai.ai/dai/paper/29.pdf

該論文考慮了一個多智能體交互的問題。考慮到真實世界更多的是一個多智能體問題,採用傳統的「感知」方法是不夠的,需要多智能體研究來更好地模擬真實情況。迭代囚徒困境已經指導了社會困境問題方面的研究多年。然而,這一問題只分成了兩種原子行為:合作和對抗。在真實世界的囚徒困境中,這些選擇可能會有所延伸,而且不同的策略可能會帶來一連串連鎖反應,從而影響合作的程度。在本文中,研究者提出了一種名為序列囚徒困境(SPD)的問題,以便更好地捕捉前述特徵。

在文章中,作者提出了一個深度多智能體強化學習方法,可以探索在 SPD 問題中相互合作的演變過程。研究者的方法分為兩步:第一步是線下過程,通過不同的合作級別整合策略,然後訓練一個合作等級檢測網絡。第二步是在線過程,一個智能體基於檢測到的對方的合作等級,逐漸調整並選擇自身的策略。研究者認為,他們提出的方法可以在兩個有代表性的二維 SPD 問題中展示:「蘋果-梨」問題和「水果收集」問題。實驗結果說明,研究提出的方法可以讓智能體避免被具有掠奪性的對手剝削,同時和有合作意向的對手達成合作。

最佳論文榮譽提名獎

本屆 DAI 大會最佳論文榮譽提名獎授予給谷歌研究院(Google Research)的 Song Zuo,他從線性規劃的新穎視角解讀了邁爾森的最優拍賣理論。

首届国际分布式AI会议在京召开,姚期智、Lesser坐镇,德扑、围棋 AI 顶级研究者齐聚

標題:Rediscovery of Myerson's Auction via Primal-Dual Analysis

論文地址:http://

www.adai.ai/dai/paper/36.pdf

最優拍賣理論是由邁爾森(Myerson)於 1981 年提出的,該理論力圖解決在給定信息分佈的情況下,如何設計出某種制度來最大限度地激勵經濟活動的參與人,也就是最優合同的設計問題。2007年Myerson憑藉這套理論獲得了該年度的諾貝爾經濟學獎。

在這篇文章中,作者用完全不同的方法(線性變成和原始對偶分析)重新發現了Myerson的最優拍賣。具體來說,他同時考慮了貝葉斯(貝葉斯激勵兼容+貝葉斯個人理性)和支配策略(支配策略激勵+事後個人比例)的實現方式,其中所有購買者都具有加法估值和準線性公用事業和所有估值均分佈在有限支持下。當購買者價值為一維且獨立分佈時,可以直接證明貝葉斯實施線性程序的雙重目標不超過主導策略實施線性程序的雙重目標。換句話說,在貝葉斯和主導策略實施下的最優收入是相同的。

據論文作者觀察,若把雙重計劃解釋為最大化的虛擬福利,便可將Myerson的最優拍賣直接解釋為“主導策略”線性計劃。此外,作者還描述了BIC = DSIC的充分必要條件,即貝葉斯實現的最佳收益等於主導策略實現的最佳收益(BRev = DRev)。條件是當且僅當獨立於虛擬價值函數的 DSIC 和後 IR 虛擬福利達到最大值時才能獲得最優 DSIC 收益 DR-EV(一個買家的虛擬價值獨立於其他買家的估價)。

首届国际分布式AI会议在京召开,姚期智、Lesser坐镇,德扑、围棋 AI 顶级研究者齐聚


分享到:


相關文章: