AI技術的下一個突破口就在理解自然語言

近年來,科技的發展給人工智能帶來了深遠的推動。而人工智能的下一個重大突破在於理解自然語言。

6月23日,中國計算機學會舉辦主題為“人機對話的產業應用與技術發展”的研討會,京東AI研究院常務副院長何曉冬博士發表關於“自然語言理解技術突破”的主題報告。

在這場報告中,何曉冬博士首先簡略回顧了深度學習技術對語音,語言,視覺等方面的驅動,然後著重從兩個方面探討了其在自然語言處理(NLP)方面的前沿研究,一是如何讓AI通過NLP技術理解人類,如理解意圖,解析語義,識別情緒,搜索推薦;二是如何讓AI的結果能被人類理解接受,如文本摘要,內容生成,話題展開,情感對話等。最後,探討了在多模態智能,長文本生成,情感和風格表達,及人機對話這些前沿方向上的最新研究進展。

AI技術的下一個突破口就在理解自然語言

小碼君注:何曉冬博士發表演講

今年3月,何曉冬博士加盟京東,出任京東AI研究院常務副院長及深度學習及語音和語言實驗室主任。在深度學習、自然語言處理、語音識別、計算機視覺及信息檢索等方面均有重要貢獻。其工作包括DSSM(深度結構語義模型/深度語義匹配模型)和圖像描述機器人Caption Bot等。在加入京東之前,何曉冬博士就職於美國微軟雷德蒙德研究院,擔任首席研究員(Principal Researcher)及深度學習技術中心(DLTC)負責人。何曉冬博士於1996年獲清華大學學士學位,1999年獲中國科學院碩士學位,2003年獲美國密蘇里大學-哥倫比亞分校博士學位。

以下是何曉冬博士所做報告的具體內容,小碼君做了不改變原意的編輯整理。

深度學習發展歷程

AI技術的下一個突破口就在理解自然語言

深度學習的前身,當時叫作“神經網絡”,在80年代就曾經流行。在90年代,大家對神經網絡的期望到達頂峰,但是發現很多問題它解決不了,比如解決一些語音識別問題,神經網絡的效果並不見得比其他基於統計的模型好。

直到2010年左右,深度神經網絡模型開始在大規模語音識別上產生了大的突破。從那時候開始,大家對神經網絡有了新的信心,經過進一步推動,神經網絡在2012年在圖像識別上產生很大的突破,2014、2015年,神經網絡在機器翻譯上也有了很大的突破。之後神經網絡技術在越來越多AI領域產生更大的影響。

AI技術的下一個突破口就在理解自然語言

以語音識別為例,2000年以前,語音識別發展上不停有進步,使得語音識別的錯誤率有一個很明顯的下降趨勢。

2000年開始,語音識別技術進入了一個瓶頸期,雖然每年還會有一些新的技術發明,但實際上總體來說,從2000到2010年,它在大規模測試集上的錯誤率基本降不下去,技術上來說這十年是基本停滯的。

2010年開始,Geoff Hinton和微軟合作開始做語音識別技術研發,2011年發現在一些大規模的語音識別數集上,可以看到20%-30%的錯誤率下降。更多的研究員投入以後,錯誤率以一個很快的速度下降。在重要的電話語音測試集switchboard上,去年微軟的語音識別錯誤率僅為5%左右,等於一個專業的速記員水平。所以可以說,2017年開始,在switchboard 上,機器達到了人的水平。

AI技術的下一個突破口就在理解自然語言

不光是在語音上,在圖像識別上深度學習也有很大的進步。大概在2009年,李飛飛團隊提出了一個數據集ImageNet,從2010年開始李飛飛和她的團隊成員基本每年都會舉辦一個挑戰賽。在2010年、2011年,最好的系統在這個數據集上做識別的錯誤率大概是在25%左右。2012年,Hinton和他的學生第一次提出了一個深度的卷積神經網絡,雖然不是他們提出來的,但是他們把這個網絡做到一個很大的規模,把一些新的技術也加了進去,使得錯誤率一下子從25%降到16%。

2015年,我之前在微軟的同事孫劍團隊提出一個新的模型,把深度學習推到一個新的高度,把網絡層數做到152層,錯誤率降到3.57%。因為人有時候犯錯誤,人的錯誤率大概在5%左右,但是機器可以做到3.5%,所以從那個時候開始,在這個特定數據集上用計算機做圖像識別的能力已經比一般的人要好

可能語音和圖像我們看到了很清楚的突破,下一個期待的能否在自然語言上做到更深的突破。因為語言是人類特有的智能,很多高等動物也有很強的視覺和聽覺,但是語言是人獨有的智慧。所以我們也希望計算機或者人工智能有一天能夠跟人一樣,對語言充分理解。

自然語言處理前沿研究

說到自然語言處理,基本上可以分成兩個單位:

1、AI理解人類。

像意圖識別、搜索,人通過文字表達各種各樣的意圖和情緒。所以我們說要讓AI理解人類。

語言理解第一步就是槽值提取。

如果你說一句話,計算機需要理解這句話裡面你要的意圖。比如你要去找一個航班,就要把城市和時間標出來。 在2013年我們跟Yoshua Bengio合作,第一次把RNN成功應用於這個問題。

另外一個工作是怎麼分類意圖

人說話很複雜,你說一段話,裡面描述了對餐館的意見,但是我們想從這個段子裡面知道你真正的意見,為什麼會這麼說?這就意味著在這樣一個語段裡面要知道哪些句子更重要,哪些句子不那麼重要。所以我們設計了一個雙層的基於關注度的神經網絡,叫做Hierarchical Attention Net。就是在句子內,在詞這個層面先抽取最重要的那個信息,同時在句子之間抽取更重要的句子,兩者聯合起來,就能達到一個完整的對語段的表達。

這個語段本身講的是他是喜歡這個餐館,我們甚至可以把重要的詞給標出來,或者重要的句子標出來,越深的顏色意味著對語段的意圖理解越重要。所以不但可以解釋整個語段意思是喜歡餐館,同時它也會告訴你為什麼會喜歡餐館。

語義表徵是一個核心的自然語言理解問題。

AI技術的下一個突破口就在理解自然語言

自然語言可以千變萬化,但是其實有一個語義在裡面。語義理解是一個很難的問題,我們希望設計一個深度神經網絡,可以從原始或者比較初步的自然語言描述提取到抽象的語義特徵。這個語義特徵最後會形成一個語義空間,每一句話的意思都會被映射成這個空間的一個點。不同的句子描述的語義是相似的,但是字面意思不一樣。我們希望這個神經網絡學習以後,讓他知道這兩句話在空間裡面是相近的。

兩句話重合度非常相關但是意思完全不一樣,我們也希望這個神經網絡通過學習知道不同的句子雖然可能描述字面很相似,但是意思是完全不一樣的,所以這是在語言理解裡面核心的問題。

為了解決這個問題,我們大概在2013年提出一個模型,叫深度解構語義模型(DSSM)。它解決一個本質問題是,有幾個句子,比如像跑車,可能翻譯成賽車或者跑步,跑車和跑步雖然字面上的重合度更高一些,但卻是非常不一樣的兩個概念。所以經過學習我們可以知道,跑車和賽車最後在向量空間裡面向量的重合度要儘可能高;然後跑車和跑步的向量儘可能拉開,這樣的話,我們可以在語義空間裡面更好的分開跑車和跑步的關係。

AI技術的下一個突破口就在理解自然語言

小碼君注:深度結構語義模型(DSSM)

整個訓練比較複雜,我們並不關心向量之間的絕對值,而是向量與向量的相對關係,只有這個相對關係定義了語義。因為語義本身是一個虛擬的概念,你可能看過這個圖像,看過這個物體,但是語義從來都是在人的腦海裡面的一個概念。所以所有的語義都是通過一個相對性的意思來表達,我們知道A和B很相似,所以我們通過一個相對性的訓練目標來訓練這個模型,從而得到這樣一個語義模型。

還有另外一個重要問題,就是知識圖譜。

AI技術的下一個突破口就在理解自然語言

小碼君注:知識圖譜示意圖

點代表了重要的物體和實體,線往往描述事情和事情的關係。像奧巴馬有很多關係,他的出生地是夏威夷,黨派是民主黨,他的妻子和女兒叫什麼名字。很多時候我們希望在一個連續空間裡面進行知識計算,誰跟誰很相似,誰跟誰大概會有一些新的關係,以前不知道的可以挖掘出來。在2015年我有一篇文章提出怎麼樣把知識圖譜在一個連續空間裡面表示。比如我們可以用一個剛才說的語義向量來表示每個實體,同時用一個矩陣來表示實體之間的關係。這樣的話,我們在計算實體A和實體B是不是存在一個特定的關係M的時候,只要算一下A的向量×B的向量,看看這個值是不是高,做一個相似度的測量。

AI技術的下一個突破口就在理解自然語言

有這樣一個在連續空間裡面表達的知識圖譜以後,其實可以做很多別的事情。比如可以在連續空間裡面推出來很多東西,我們知道奧巴馬出生地在夏威夷,夏威夷在美國,我們就可以推導出來他的國籍是美國。這些都可以通過在知識空間裡面計算得到。根據國籍關係和出生地關係可以算出兩個矩陣之間的距離,如果這兩個矩陣之間的距離足夠小的話,就認為這兩個關係是等價的。

有了知識圖譜以後可以做很多事情,比如做知識解答,問誰是賈斯汀比伯的姐姐,就可以通過語義解析和搜索匹配得到答案。

2、讓AI以人類理解的方式表達。

就是讓AI產生內容,理解人類。舉個例子,我們都知道人工智能可以寫詩現在已經不是新聞了,人工智能還會畫畫,還可以做一些文本摘要,甚至可以做一個菜譜。所以我們對人工智能要求越來越高,希望人工智能不僅能理解我們說什麼,還能反饋一些內容。

還有怎麼樣用增強學習在自然語言裡面做應用。在增強學習裡面AlphaGo是一個很好的例子,我們認為自然語言理解是比AlphaGo下圍棋更難的問題,因為語言的空間是無限大的,圍棋的空間很大,其實語言空間比圍棋還要大。語言的空間是無限的,特別就行動空間而言,而圍棋每一步只能在361個點上選擇任意一點。

AI技術的下一個突破口就在理解自然語言

為了解決這個問題,我們不能像AlphaGo一樣直接去判斷,在語言對話問題裡面,一個H就是機器說了一句話,或者機器選了一句話,因為這個話的表達是千變萬化的,這個H是沒有邊界的。所以不是說我們讓機器選某一個H,而是說把所有的H通過一個神經網絡映射到一個語義空間,在這個語義空間裡面計算什麼時候應該選哪個H,最後這個H才能在一個語言的環境裡面做深度學習。

人類理解跟計算機理解是不一樣的,很多時候計算機的理解邏輯更像做一些匹配,包括關鍵字查找、語義分析。不管怎麼說,在這個數據集上很多最新模型已經超過人的水平了。甚至我們還提出新的如何作遷移學習的模型,即怎麼樣把一個模型從一個領域遷移到另外一個領域,這樣才能迅速達到很高的水平。

AI技術的下一個突破口就在理解自然語言

還有一個做的比較大的方面,是機器閱讀,我們希望AI讀完一篇文章以後,它能夠回答關於這篇文章的任何問題。計算機要對這些前後關係有一個充分理解,然後得到一個準確的答案。這個方面也有很大的進展,斯坦福做了一個數據集,最近他們出了2.0版;最近很多企業這方面做的也不錯,比如科大迅飛,谷歌,微軟,阿里等。

下一步突破

AI技術的下一個突破口就在理解自然語言

1.多模態智能

多模態智能也是一個交叉性的概念,我們知道人在獲得智能的時候,是通過多個來源,並不是只看圖,或者只是聽。

AI技術的下一個突破口就在理解自然語言

們知道奧巴馬是誰,知道他的背景,但是並不全面,看到圖片以後才知道原來奧巴馬長這樣。所以視覺對語言知識有很大的補充。聽覺也是一樣,我們聽到奧巴馬的演講,知道他怎麼用詞,對他有更加深入的理解。所有這些各個模態的東西在一起,才能導致我們對整個知識有一個深入的瞭解。所以基於深度學習模型,我們希望對不同模態的輸入都可以逐步的把它不變的語義信號和概念提取出來,最後能夠統一到一個多模態的語義空間裡面,在這個語義空間裡,我們可以跨模態的做一些工作,比如圖文關聯的推理,甚至可以做跨圖文處理,甚至一個模態到一個模態的內容生成等等。

2.複雜內容的創作

AI技術的下一個突破口就在理解自然語言

這是另外一個最新的工作,即怎麼樣生成一首詩歌。生成詩歌也是內容創作,假設這是我們一個算法科學家給他女兒寫了一首詩,輸入關鍵字之後計算機會理解他大概想表達什麼樣的情緒,同時用文字來表達這個情緒,從而生成一篇詩歌。

這裡面還有一個核心問題沒有解決,即寫作邏輯。所以這個時候就關係到怎樣確立這樣一個模型,使得主題、子主題的結構可以展開,並且能夠在模型上得到體現,最後才能真正寫出一篇前後邏輯嚴謹,有意義的文章出來。

3.情感智能

AI技術的下一個突破口就在理解自然語言

舉一個簡單例子,如何生成有情感的對話。假如一位女士買了一件T恤,如果她發到朋友圈的時候,我們可以知道這是一個女士。甚至計算機可能用一句話描述:穿著藍色T恤的女士。但實際上這位女士發在朋友圈的圖片,可能只是為了炫耀她新買的新衣服。所以這時候我希望計算機知道她的情感需求,看起來這個圖片美麗的像一個天使,而不是著重於她表象的衣服和行為。所以我們希望計算機能夠做的更好,能夠理解用戶的情感,知道用戶的訴求,這樣才能夠說對用戶有更深的理解。我們希望人工智能逐步開始對情感有更深的理解,不光是能夠識別情感,而且能夠配合情感進行相應表達。

4.多輪人機對話

AI技術的下一個突破口就在理解自然語言

智能技術終歸回到一個問題,AI是什麼?圖靈在50年代的時候提出圖靈測試,如果計算機和人進行大量的交談,長時間以後,人不能判斷跟他交談的是人還是計算機,他認為計算機通過測試是有智能的。換句話說,圖靈認為語言和對話代表高級的智能,如果對話上能夠通過圖靈測試,意味著這個計算機真的有智能。

從那以後,一代一代的科學家做了很多研究,在過去50年已經發表了很多對話系統,從聲學識別、語音識別到語義理解。

最近我們做了一個情感對話服務機器人,客服裡面最重要的一個事情就是情緒,所以需要對情緒有精準的把握。客服需要對用戶有同理心,同時客服要有足夠細膩的說話技巧,同時還要符合某種社會價值觀。

AI技術的下一個突破口就在理解自然語言

舉個例子,如果一個人打電話,他開始問他的快遞為什麼還沒有到?這個時候我們希望AI模型可以精準的體會到這個顧客是生氣的。然後機器人會進行一些安撫,表示抱歉,讓他的情緒能夠緩和。然後再問他具體的內容:“到底什麼時候發生的?”他說:“昨天”。這個時候智能機器人就會查具體這個東西不是已經到了,最後告訴他,“系統已經顯示東西到了”。這時候顧客的情緒從生氣變成焦急,機器人就很迅速捕捉到他這種情緒變化,告訴他說,“不用著急,我們有保險,請您放心。”

再往下一步,顯示說“您的鄰居幫您簽收了,並不是弄丟了,所以可以完全放心。”這個時候顧客的情緒又發生變化,他可能覺得如釋重負,覺得這個事情解決了,他會說:“放心了,謝謝。”這個時候機器人也檢測到愉快的情緒,祝這個客戶愉快,然後把這個問題解決掉。

現在有情感支持的對話機器人已經在京東上線了,已在線上服務了將近100多萬的諮詢。

總結

AI技術的下一個突破口就在理解自然語言

恭喜法國隊在度成為世界盃冠軍

小碼聰聰 就業輕鬆

整個自然語言突破,我個人認為並不是要證明AI技術比人強,計算機下棋下的比人強,證明計算機前進的程度不是我們的終極目標,我們的終極目標是AI幫助人類連接這個世界

我們生活在一個物理世界,這個世界往往需要大量的視覺信號在裡面。同時,我們也生活在一個數字世界裡,我們有各種的帳號,還有各種號碼。此外,我們還需要跟其他的人打交道,我們有微信,看微博,看各種各樣的頭條,或者看各種各樣的信息,去線上買東西,給客服打電話,所以跟人類打交道也是需要突破的一點。所以我們希望AI幫助每一個用戶和每個消費者更好的跟自己的三個世界的人能夠連接起來。

語言理解作為一個核心技術,就是能夠溝通人和世界的交流,像圖靈說的,只有通過對話測試才能證明機器有智能,所以語言理解和人機對話一直是推動人工智能發展的一個核心目標。我們希望機器能夠更進一步的進化到高級智能和通用智能,能夠自動學習和自我創新,然後迅速的在一些特定領域比人做的更好。

IELTS a bit

overestimate vt. 對...評價過高;對...估計過高

n. 估計過高;評價過高;出價過高

vi. 估計過高;評價過高

collateral adj. 並行的;旁系的;附屬的

n. 抵押品;擔保品;旁系親屬

devastating adj. 毀滅性的;全然的

v. 摧毀;毀壞

recipe n. 食譜;處方;秘訣

commitment n. 承諾;保證;委託;承擔義務;獻身

小碼聰聰 就業輕鬆


分享到:


相關文章: