人物|史丹福大學計算機系教授Percy Liang:讓機器擁有理解語言的能力

機器之心發佈

第三屆美國硅谷頂級人工智能前沿大會(AI Frontiers Conference) 將於 2018 年 11 月 9-11 日在美國硅谷最高級別會議中心聖何塞會展中心盛大舉行。美國 AI 界領軍人物悉數出席。限時最優惠折扣碼:P25JH(25% 的折扣)

迄今為止,語言理解一直是人類的特權,這也是為何研究自然語言處理 ( NLP ) 至關重要,因為它有助於研究員們更接近人工智能的終極目標——通用人工智能。許多研究人員深入到自然語言處理的領域,去解決諸如機器翻譯、問答、閱讀理解、自然對話等問題。

ACL 大會向來是聚焦語言理解最新研究進展的地方,今年,ACL 2018 公佈了最佳論文名單,《Know What You Don't Know: Unanswerable Questions for SQuAD》榮獲了這次大會的最佳短論文。SQuAD,全名斯坦福問答數據集,被認為是閱讀理解領域最好的數據集。它孵化出瞭如今最前沿的模型,這些模型在回答問題的準確性上已經達到了人類的水平。

SQuAD 是由斯坦福大學計算機科學和統計學助理教授 Percy Liang 所帶領的團隊建立,他也是 Google Assistant 中核心語言理解技術的創造者。自 2012 年以來,Liang 在斯坦福大學教授人工智能相關的課程,他也是對話式人工智能創業公司 Semantic Machines 的聯合創始人和人工智能研究員,後者在幾個月前被微軟收購,近年來,Liang 稱得上是機器學習和自然語言處理領域日益崛起的新星,多年來他獲得了無數學術獎項,這其中包括了 2016 年的 IJCAI Computers and Thought Award,2016 年的 NSF CAREER Award,2015 年的 Sloan Research Fellowship,2014 年的 Microsoft Research Faculty Fellowship。

在今年 11 月即將在硅谷舉辦的 AI Frontiers 大會上,Liang 將講述他在語言理解方面的最新研究進展,而這篇文章旨在介紹他的學術生涯、研究重心以及他對人工智能的展望。

人物|斯坦福大学计算机系教授Percy Liang:让机器拥有理解语言的能力

AI Frontiers 大會演講嘉賓

探索語言理解的奧秘

「我是如何理解語言的?」

這個問題在 Liang 高中的時候就困擾著他,而他對於使用某一種方法來探索語言理解的奧秘興奮不已。

2004 年,梁博士獲得了麻省理工學院的本科學位。緊接著,他在麻省理工學院就讀碩士時期的導師 Michael Collins - 一位在計算語言學領域受人尊敬的研究員 - 鼓勵他攻讀自然語言處理碩士學位。

一年後,他被加州大學伯克利分校錄取,師從 Dan Klein 和 Michael Jordan,這兩位都傻逼機器學習和語言理解方面的大牛,後者更是培育了一批如今活躍在人工智能領域最前沿的專家,包括 deeplearning.ai 的創始人吳恩達、蒙特利爾大學教授和 MILA 實驗室負責人 Yoshua Bengio、Petuum Computing 的創始人邢波都是 Jordan 的學生。

Liang 在一次接受中國媒體的採訪時回憶起這段求學經歷時說,「我很幸運有這兩位導師。梁博士我不僅從他們那裡學到了很多東西,而且學到的東西是互補的,不僅僅是在研究領域 (機器學習和自然語言學習)。」

Liang 畢業後來到了谷歌紐約做了一年博士後,之後他加入了斯坦福大學,開始教人工智能的課程。一位叫做 Shiyu Wang 的 Quora 用戶在評價 Liang 時說,「他很年輕/很有親和力,能夠傾聽學生的意見,說話得體,最重要的是,他有足夠的動力去嘗試和使用這些技能,讓演講值得去聽。」

2014 年,Liang 在加州大學伯克利分校的導師 Klein 創立了 Semantic Machines。該公司開發了一種革命性的新方法來建立對話式 AI,利用機器學習的能力,使用戶能夠以更自然的方式發現和訪問信息,獲得服務並與之互動,而且效率更高。

Klein 希望他的這位學生和他一起共事,他曾說過「Percy 是我共事過的最傑出的研究人員之一。」2016 年,梁博士加入了公司的技術領導團隊。今年,該公司被微軟收購。

SQuAD 和機器學習的可解釋性

Liang 的研究工作重心放在了將用戶的請求轉換成簡單的計算機程序的任務上,並讓程序有序地作出回應。

SQuAD 數據集是他的傑作之一。研究員們一直試圖攻克問答系統,他們希望機器能和人類一樣,在閱讀完一些內容後,能夠理解和回應自然語言中複雜、微妙和脫離上下文的問題。SQuAD 在 2016 年創建,這個數據集包括了維基百科文章中的 100,000 個問題,這些問題的答案可以直接從某一段文本中提取出來。

然而,SQuAD 的第一代數據集有個問題:模型無法辨別出問題的合理性,有些問題看似關聯,實則在原文中根本無法找到答案。

於是到了今年,Liang 領導的研究小組發佈了 SQuAD 2.0,它在 SQuAD 1.0 的基礎上增加了 50,000 多個全新的、無法被回答的問題結合在一起,這些問題是由眾包工作者收集起來,目標是幫助人工智能模型根據所提供的文本數據識別哪些問題是無法被回答的。

雖然 SQuAD 是為閱讀理解而設計的,但在接受香儂科技採訪時,Liang 認為 SQuAD 可以有更大的影響力:數據集可以鼓勵研究人員開發新的通用模型,神經機器翻譯產生了基於注意力的模型,這是機器學習領域最常見的模型之一;

同時,在一個數據集上訓練的模型對其他任務很有價值。

除此之外,Liang 也在開發能夠和進行互動交流的機器人、或者可以與人類進行合作對話的機器人。語言理解的目的不僅僅是模仿人類,在與人類互動的過程中應該從根本上理解人類如何思考和行動,至少在行為層面上。

雖然 Liang 把大部分時間和精力放在語言理解上,但他對可解釋性機器學習也有著濃厚的興趣。機器學習的可解釋性如今是一個熱門話題,公眾越來越擔心人工智能應用的安全性,尤其在自動駕駛、醫療保健、罪犯面部識別上,機器學習的黑箱屬性讓它在面對攻擊時顯得特別脆弱,研究員又無法溯源,找出核心的問題所在。

Liang 在接受 Future of Life Institute 採訪時表示:「鑑於我們對機器學習的依賴越來越大,建造工具來幫助我們更可靠地學習機器是至關重要的。」

最近,他的研究團隊在解釋黑箱機器學習模型方面取得了一些進展。他的一篇論文提出了一種叫做「影響函數」的統計技術,通過學習算法來追蹤模型的預測,並將預測結果再返回給訓練數據。他的另一篇論文介紹了一種基於半定鬆弛的方法來防止來自對抗性樣本的攻擊,對抗性樣本如今已經可以做到更改一個參數,就能改變整個預測模型的結果。

儘管機器學習和語言理解仍處於早期階段,它走向成熟工程學科的道路必然漫長而艱難,Liang 卻從不畏懼挑戰。當人工智能已經在視覺和語音上取得成果後,自然語言處理和可解釋性是如今人工智能邁向下一個階段的核心領域,Liang 的工作或許能讓學界看到人工智能的下一個重大突破。

點擊「閱讀原文」,查看大會官網信息。機器之心讀者限時特別優惠折扣碼(25% off):P25JH

人物|斯坦福大学计算机系教授Percy Liang:让机器拥有理解语言的能力


分享到:


相關文章: