科學匠人|打開AI黑匣子,「三清」學子的科學故事

科学匠人|打开AI黑匣子,“三清”学子的科学故事

編者按:自然科學一直以來追求的簡單之美在人工智能領域似乎正面臨著挑戰,目前深度學習等主流AI技術趨向複雜和龐大。微軟亞洲研究院副院長劉鐵巖博士和他的團隊一直致力於尋找機器學習中簡單而美的規律,提出了對偶學習、推敲網絡等重要技術突破,這些突破的背後,是劉鐵巖博士“靈感驅動”的科研工作和前瞻的行業洞見。本文授權轉載自微信公眾號“北京青年週刊”。

科学匠人|打开AI黑匣子,“三清”学子的科学故事

劉鐵巖博士,人工智能領域的國際知名學者。現任微軟亞洲研究院副院長,國際電子電氣工程師學會(IEEE)會士,國際計算機學會(ACM)傑出會員,美國卡內基梅隆大學(CMU)客座教授,英國諾丁漢大學榮譽教授,中國科技大學、中山大學、南開大學博士生導師。

劉博士的研究興趣包括:機器學習、信息檢索、數據挖掘等。他的先鋒性工作促進了機器學習與信息檢索之間的融合,被國際學術界公認為“排序學習”領域的代表人物,在網絡搜索和計算廣告學等方向取得了卓越的學術成果。近年來,劉博士在博弈機器學習、深度學習、強化學習、分佈式機器學習等方面也頗有建樹,發表了二百餘篇學術論文,被他引近兩萬次,並多次獲得最佳論文、最高引用論文獎。

“大到天體運行,小到微觀世界。所有的規律都逃不出幾個公式,若干個參數,一直以來自然科學所追求的正是這種簡單之美。可是,目前主流的人工智能技術(深度學習)則有些背道而馳,它從來沒有試圖尋找如此簡單而美的規律。”

我們坐在位於中關村的微軟大廈14層的會議室,眼前正在說話的是人工智能領域的國際知名學者劉鐵巖博士,他戴著黑框眼鏡,身著一絲不苟的藍色襯衫,正在描述對科學之美的體悟。他的說話方式是緩緩道來且條理明晰,為了讓在場的人加深印象,他還會加上適當的手勢以作輔助。

前段時間,劉鐵巖所帶領的微軟亞洲研究院機器學習團隊與自然語言計算組的同事,以及微軟雷德蒙研究院的同事一起參與了在通用新聞報道數據newstest2017的中-英測試集上進行的機器翻譯的研究。

為保證結果的可信度,該團隊聘請了外部雙語評估員,他們對比了微軟團隊的翻譯結果與兩組獨立翻譯的人類譯文,評定結果為:微軟機器翻譯取得了至少和專業翻譯人員相媲美的效果。

科学匠人|打开AI黑匣子,“三清”学子的科学故事

圖為中-英新聞翻譯能力的過程。

還記得震驚世界的AlphaGo大戰李世石,一場人工智能與圍棋世界冠軍的超級對弈,被全人類通過網絡直播共同圍觀。從此,人與機器的較量拉開了觀戰的序幕,也吸引了各大科技研究組織、知名企業乃至國家的廣泛關注。

劉鐵巖作為微軟亞洲研究院副院長,同時也是一名人工智能領域的資深研究員。在他看來,現階段的人工智能領域更像是一個黑匣子,所有人都在慢慢尋找它的邊界,試圖觸碰它的內核,這個領域的研究一直在路上。

“如果沒有燃料,機器學習這艘航空母艦也飛不起來”

與劉鐵巖的採訪時間是幾經交涉才明確下來的。對一直潛心於技術研究的他來說,加之相關管理工作傍身,日常的忙碌是可想而知的。果不其然,在與劉鐵巖進一步的交談中得知,他的日常行程幾乎是無縫銜接。

早上七點多到公司,劉鐵巖有兩個小時的“充電”時間,這是雷打不動的。在這段完全屬於自己的時間中,閱讀文獻是劉鐵巖的充電方式,而後隨著同事陸續到崗,劉鐵巖也開始了自己的日常工作。

科学匠人|打开AI黑匣子,“三清”学子的科学故事

團隊成員、合作伙伴、實習生、訪客,不同的面孔,不同的會議,這些看似日常的安排都會成為劉鐵巖技術創新的靈感源泉。他說自己是一位“靈感驅動”的研究員,“很多研究都不是苦思冥想得來的,相反是來自靈光一現的豁然開朗”,其中就包括兩項促成了前文提到的中英翻譯領域重大突破的獨創關鍵技術——對偶學習和推敲網絡。

起初,劉鐵巖的團隊發現很多的人工智能任務都是對稱出現的,比如中譯英與英譯中,語音識別與語音合成等,這成為了“對偶學習”的靈感之源。而推敲網絡的“推敲”二字則來源於人類閱讀、寫作時的一種行為方式,任務完成之後,並不當即終止,而是會反覆推敲,逐步完善。根據這樣的靈感啟發,團隊成員開始設計相應的機器翻譯模型,並不斷運行試錯,直至最終取得突破性結果,站在媒體的聚光燈之下。

這兩項技術的突破性意義不言而喻,語言溝通的障礙一直存在於人類社會中,如果可以打破語言障礙,無疑將有助於全人類的交流。但劉鐵巖也表示,應該客觀地看待這項成果,它是嚴謹的“學術論文”,表明在特定數據集上,在一定的標準之下,機器翻譯取得了突破性進展,並不能說“機器翻譯已經全面超越人類”。

科学匠人|打开AI黑匣子,“三清”学子的科学故事

對偶學習:解決對標註數據的依賴。利用人工智能任務之間存在的天然對稱性(中-英翻譯vs英-中翻譯,語音識別vs語音合成,圖像處理vs圖像生成),建立機器學習的天然閉環,從而達到弱監督甚至無監督的學習效果。

談及目前人工智能,或者機器學習領域,劉鐵巖表示還有很多挑戰需要解決。比如,幾乎每一類機器學習進程都離不開“數據”的支撐。“如果沒有燃料,機器學習這艘航空母艦也飛不起來。所以,我們經常將‘機器學習’叫做‘數據驅動的人工智能’,因為數據確實是極其核心的存在。”也正是因為目前的機器學習過分依賴數據,所以,如何減少對數據的依賴也成為亟待攻破的難題。

劉鐵巖團隊發明的對偶學習正是一種可以解決此問題的新型學習範式。它利用人工智能的對稱性,可以為模型訓練提供有效的反饋信號,在缺乏有標籤訓練數據的時候,也可以實現高效的學習。對偶學習不僅可以助力中英互譯這類數據充足的學習任務取得提高,對小語種互譯這類缺乏訓練數據的學習任務也是大有用武之地。

劉鐵巖形象地將目前主流的深度學習技術比喻為一個“黑盒子”,但是大多數人並不關心它的構造及原理,只是關心它的功能以及如何使用。這個黑盒子到底如何運作,尚未盡在人們的掌控之中。

由於缺乏可解釋性,在很多關鍵性領域,例如醫療和軍事,深度學習技術的應用還需要非常謹慎。劉鐵巖的團隊近期在符號學習、知識圖譜自動推理等方面進行的有益嘗試,其目的正是要解決這方面的問題。

“科學睡前故事,研究員的後人可能都這樣”

每天晚上的九點鐘,劉鐵巖會準時出現在孩子的床邊,這是父子二人的睡前故事時間,此時應該是劉鐵巖最放鬆的時候。劉鐵巖講的故事並不是故事繪本或童話,而是涉及相對論、量子力學、天體物理、化學、生物等較為艱澀難懂的知識。劉鐵巖將它們用通俗易懂的方式講給孩子聽,就成為了他口中的“科學故事”。據他所說,孩子總是聽得津津有味。在我詫異於此的時候,劉鐵巖說到:“研究員的後人可能都這樣。”

劉鐵巖在黑龍江長大,高中之前的日子都是在那片黑土地上度過的。他有著東北人天生的豪爽,也不否認自己從小就是學霸,是那種“一直都是第一”的類型。採訪當天,正值高考第一天,回想起當年自己填報志願的場景,劉鐵巖深嘆這是一次“陰差陽錯”的經歷。

在劉鐵巖高考的時候,計算機教育尚未普及,高中開設的計算機課程更像是興趣班,而且主要是教大家使用數據庫。在填報志願的時候,他特意去諮詢了學校的計算機老師,向他請教計算機專業的發展前景。可是,老師對計算機專業的瞭解也十分有限,認為計算機就是一門“操作性”技能,學術價值不高,建議考慮其他學科。

於是,劉鐵巖報考了清華大學的電子工程系,並且以全省英語考生最高分的成績考入了清華大學這個錄取分數線最高的專業。

科学匠人|打开AI黑匣子,“三清”学子的科学故事

談及在清華大學本、碩、博連讀的學習生活,劉鐵巖的回答很熱血,“在清華大學的學習,讓我打下了堅實的數學基礎、練就了很強的實操能力,以至於我什麼方向都敢嘗試,即使轉型也不怕”。我想,這也是“三清”(清華畢業的學士、碩士、博士)畢業的劉鐵巖在微軟亞洲研究院三次轉型的動力所在吧。

說起來也許是冥冥中早已註定。雖然當年填報志願的時候,劉鐵巖沒有選擇計算機專業,但是博士畢業之後,進入了微軟亞洲研究院,卻開始了長達15年的計算機科學領域的研究之路。

研究院的自由氛圍為他提供了一個理想的學術環境。在微軟亞洲研究院,他從博士期間所從事的信號處理方向的研究轉入了信息檢索領域,開始了對互聯網搜索的探索。後來,他被搜索背後的經濟規律所吸引,又開始研究計算廣告學和算法博弈論。

而第三次轉型,他則進入了人工智能和機器學習的核心領域。談起最近這次轉型的動因,劉鐵巖的表述透露著一位研究員的偉大願景,“因為人工智能這個領域能夠對各個行業產生更加本質且廣泛的影響”。

“人工智能行業是一個飛速發展的行業,也是逆水行舟,不進則退的行業”

在很多人眼中,科學研究的週期一般都十分漫長。在研究伊始,從獲得研究靈感到將其付諸實踐,創造出原型系統需要多久時間呢?劉鐵巖回答:“其實並不需要很長的時間。”

那麼,大量的時間消耗在哪個步驟中呢?

“其實,從第一個原型系統產生到最終形成完善的體系,並且對其他領域產生輻射作用,這是一個相當漫長的過程。這需要研究人員清楚地瞭解研究雛形和實用技術之間的差別,通過不懈的努力,把研究成果扶上馬、送一程,最終轉化到產品之中。”

劉鐵巖帶領的機器學習組的研究員們都是多面手,既能夠發明讓人眼前一亮的新技術,又懂得如何和產品部門、合作伙伴共同協作,讓這些技術落地生根,產生更大的影響力。

科学匠人|打开AI黑匣子,“三清”学子的科学故事

我們身處的人工智能的第三次浪潮和深度學習的進展密不可分。但深度學習本身並不是一個全新的概念,它的成功主要歸功於三大因素——大數據、大模型、大計算

如今,在微軟必應搜索引擎、廣告系統、Windows操作系統、Azure雲計算平臺、Xbox遊戲機、微軟小冰聊天機器人等諸多產品中,都有著來自劉鐵巖團隊發明的人工智能技術。

微軟亞洲研究院是一個工業研究院,擁有很多微軟產品線的資源,這不僅為研究人員的技術提供了用武之地,也為研究思路的產生提供了豐富的“刺激信號”。

2017年,微軟亞洲研究院成立了“創新匯”,旨在用微軟的人工智能技術去幫助中國的傳統產業做數字化、智能化轉型。這也為劉鐵巖團隊的人工智能技術開啟了新的出口。

當人工智能技術遇到量化投資、資產配置、風險控制、需求預測、路徑規劃、物流調度、基因工程、精準醫療等,會碰撞出怎樣新的火花呢?

近期,劉鐵巖正在負責這些領域對外合作的相關項目。劉鐵巖分析說,人工智能賦能傳統行業大有可為,它可以幫助金融行業更加充分地利用海量數據、處理市場的動態變化、分析和預測投資人的行為、對投資組合進行優化;可以幫助物流和運輸行業利用供應鏈信息和海量數據對需求和供給進行更加準確的預測、利用強化學習使路徑規劃更加靈活地適應環境的動態變化和更好地處理非線性的業務邏輯;可以幫助醫療健康行業進行更加快捷和準確的基因測序、發掘出基因和免疫信息與疾病之間的對應關係、做更加精準的診斷和藥物研發,等等。

科学匠人|打开AI黑匣子,“三清”学子的科学故事

癌症一直是人類最需要迫切解決的醫學難題之一,近兩年微軟亞洲研究院的研究員通過利用人工智能領域中的計算機視覺和機器學習技術來輔助醫生對病理切片中的癌細胞進行識別和判斷

與來自傳統行業的合作伙伴一起進行聯合研究,為研究員們打開了通向更多領域的方便之門。“我們的研究員接受到了更加廣泛和多樣的刺激信號,開始瞭解這些產業,瞭解用戶需求,這遠比閉門造車要高效很多。人工智能是一個飛速發展的行業,也是逆水行舟,不進則退的行業。

現在,人工智能的應用範圍非常廣,為了發明更好的人工智能技術,我們需要跟合作伙伴共同去探索可以與人工智能應用相連接的領域。在實際問題的驅動下,形成抽象的學術問題,發明相應的技術,再反哺應用落地,這是一個良性的研究循環。”劉鐵巖如是說。

Q&A

Q:《北京青年》週刊 A:劉鐵巖

Q1:你曾經說人工智能的深度學習過度複雜又過度簡單,如何理解這兩個反義詞?

A:我們說深度學習過度複雜是因為它沒有去試圖探究世界的簡單之美。我們這個世界存在著本質的規律,看起來很複雜的世界,背後往往是被幾個二階的偏微分方程所支配。然而現在主流的人工智能技術並沒有去深挖這些簡單而深刻的規律,而是用非常複雜的模型去擬合數據的複雜表象,以繁治繁。

我們說深度學習過度簡單,是因為它試圖用一種單一函數擬合的學習模式來處理各種複雜的問題。它忽略了人類智能本身的複雜性和多樣性,比如人類的語言系統、知識傳承、社會分工、群體智慧等,都遠遠超出了一個簡單的函數擬合的範疇。

Q2:你在與各個領域的合作伙伴商談時,他們對於人工智能的態度如何?

A:他們對於人工智能的態度都是十分正面的。合作至今,人工智能不僅提升了我們的研究,也讓合作伙伴看到了人工智能技術的巨大潛力。我們在智能投資、智能物流領域取得的突破性進展為合作伙伴帶來了巨大的經濟利益,也為他們的未來發展提供了強有力的保障。

同時經過合作,他們也瞭解到人工智能的能力範圍,人工智能不是去搶他們員工的飯碗的,而是幫助他們的員工更加高效地工作。這對於破除“人工智能威脅論”起到了非常積極的作用。

Q3:在你看來,人工智能扮演了一個怎樣的角色?

A:人工智能是一種工具,不是生命體,它本身不會思考,沒有自主意識,說得直白點,其實就是一群聰明人編寫的複雜程序。人工智能在計算力、記憶、模式識別等方面與普通人相比有明顯的優勢,但是在創造性、推理決策等方面,還遠遠沒有達到人類的水平。因此,我們所提倡的是人機協作、人機共進化,讓人工智能和人類取長補短,共同進步。

科学匠人|打开AI黑匣子,“三清”学子的科学故事

劉鐵巖所在的微軟亞洲研究院人工智能研究團隊與東方海外航運攜手合作,運用深度學習(Deep Learning)和強化學習(Reinforcement Learning)技術,優化現有的航運操作。東方海外航運每月需處理和分析超過3000萬條船舶數據,應用人工智能技術及機器學習服務,有助於進行船期表和泊位活動的預測分析。據悉,此次合作預計每年為東方海外航運節省1,000萬美元的運營成本。

Q4:聽說你帶領的實習生團隊有一個很特殊的文化?

A:是的,我們的團隊有一種“吵架文化”,就是在頭腦風暴過程中不相信權威、 不有所保留,簡單直接地表達自己的觀點,我一直堅信真理不辨不明。

Q5:在這個團隊中會有人員選擇的標配嗎?

A:在實踐中,我發現了做研究的一個黃金組合。我們的實習生很多元,有來自各個高校、不同專業的學生,而不同專業的學生各有特色。比如,物理或做電子專業的學生直覺非常好,他們有很強的對實際問題進行數學建模的能力;數學專業的人非常嚴謹,可以對數學模型進行分析和理論論證;計算機專業的學生實現能力很強,可以對模型進行大規模的實現和驗證。一個由電子或物理專業、數學專業、計算機專業的學生所組成的項目組,通常會發生強烈的化學反應,做出單方面任何一種人都做不到的了不起的事情。

Q6:目前你也在高校帶學生嗎?

A:是的,但我覺得自己並不是嚴格意義上的老師。我和學生們的關係更像是合作者。我是那種壓抑不住內心想要去表達自己看法的人,所以給同學們直接的刺激信號可能更多一些。

如今的互聯網把世界變平了,國內國外的學術環境沒有太大差別,比我們讀書的那個年代好太多了。在這麼好的學術環境下,學生們如果能夠更加珍惜、更加努力,那麼他們的成長速度一定會比我快5年,甚至是10年,一定會取得比我大得多的學術成果。作為他們的導師和合作者,我拭目以待!

你也許還想看

科学匠人|打开AI黑匣子,“三清”学子的科学故事

感謝你關注“微軟研究院AI頭條”,我們期待你的留言和投稿,共建交流平臺。來稿請寄:[email protected]


分享到:


相關文章: