現在,人工智能已經解決了機器感知問題,下一步是什麼?

來自南京工業大學的宋昊旻用聽上去有些蹩腳的普通話,在微軟人工智能大會的舞臺上,跟微軟全球執行副總裁、微軟人工智能及微軟研究事業部負責人沈向洋進行對話的時候,現場很多人都非常感動。對於一個雙耳失聰的人來說,只要拿著一部手機,就可以跟人正常交流,是多麼難的一件事。我們不會手語,而他們聽不到聲音,而我們和他們之間的鴻溝,現在只要有一部手機就幫助宋昊旻跟正常人溝通,甚至可以跟外國人交流了。

現在,人工智能已經解決了機器感知問題,下一步是什麼?

圖:宋昊旻(右)與微軟全球執行副總裁、微軟人工智能及微軟研究事業部負責人沈向洋(左)

解決宋昊旻的溝通問題,可能只是我們看到的其中一個小例子,幫助人類解決更多語言的問題,才是人工智能的專家們孜孜以求的目標。微軟雲與人工智能事業部全球資深技術院士兼首席語音科學家黃學東,正在微軟領導語音技術和語言翻譯工作,他們的工作就是想解決這些問題。

從感知到認知

二十幾年前的時候,沒有GPU,沒有DSP、TMS320……,那個時候的黃學東是不敢想象,計算機語音識別、語音合成能達到可以媲美人類的水平,到今天來看,這已經是很了不起的成就,是令語音識別這個領域的人值得驕傲的成績。

現在,人工智能已經解決了機器感知問題,下一步是什麼?

圖:微軟雲與人工智能事業部全球資深技術院士兼首席語音科學家黃學東

從整個人工智能的發展水平來看,這是人工智能在感知層面的一大步。

不管是語音識別也好,計算機視覺也罷,都屬於“感知”層面,感知智能因為深度學習、神經網絡的發展,獲得了突破性的成果。但是在認知層面,進步還是有限的。

我們當前看到的機器翻譯,實際上是處於感知到認知之間的過程,它可以“假裝”聽懂,來做翻譯工作,而且翻譯出來的效果還不錯,但實際上,它並沒有聽懂。

今年,黃學東帶領團隊在中英文新聞翻譯任務(WMT-2017)上首次實現了可以媲美人類的機器翻譯歷史性突破,這是非常有歷史性意義的事實。語音和語言是人類進化中重要的要素,而現在,計算機第一次在翻譯質量上超過專業人士的水平,這對人類文明的進展來說,都很有里程碑意義。

所謂“認知”包括上下文推理,真正的自然語言處理,而這方面還需要更長的路要走,那才是人工智能真正的皇冠,我們現在還沒有達到,也不知道什麼時候達到。

可以想象一下,如果有一天,機器可以理解我們所有的文本,瞭解上下文,有推理的功能,這意味著機器可以24小時閱讀所有的新聞,所有出版過的文件、著作、科學文獻,那是真正的“上知天文下知地理”,還有生物等等各個學科的知識,那個時候的機器比愛因斯坦,因為愛因斯坦也是隻懂物理,那個時候,才是真正的“強人工智能”的來臨。

強人工智能,一定是有自然語言理解,由感知驅動的,讓計算機能達到人的知識獲取能力,可以通過閱讀自動獲取知識。過去5000年人類的所有文獻,它都可以讀得一個字不忘,還有超過人類的深入理解。

比如說,今天,我們引用《封神演義》裡的一句:眼觀六路、耳聽八方,其實《封神演義》裡面講的不是六路,是眼觀四路、耳聽八方。如果計算機在自然語言處理上進步了,機器就可以指出“眼觀六方”是不對的,《封神演義》講的是四方,不是六方。

智能音箱、翻譯機開始“感知”

當然,讓黃學東感到遺憾的是,以目前的技術能力和水平,還不知道什麼時候能夠實現真正的“強人工智能”。但好消息是,在從感知到認知的過程中,我們已經有了一步一步的成績。

黃學東強調,語音技術是一個賦能的技術,所有的開發者都可以把這個技術拿過來,實現自己想要做的東西,比如智能音箱和翻譯器的火爆,是兩個很好的案例。

“現在遠場語音識別能力已經很強,所以音箱火得不能再火了,智能音箱也成為今年CES展上的重頭戲。音箱出現很重要的一個原因就是,語音識別技術進步到了這個水平,遠場交互都已經達到了可用的水平,所以促使了智能音箱市場的火爆。”

今年另一個熱門產品翻譯器,尤其在中國,是一個很大的市場。中國每年有1.2億的遊客出去,微軟跟小米生態鏈企業香蕉出行合作推出的魔芋AI翻譯機,能夠提供覆蓋全球170多個國家和地區的14種語言的實時語音翻譯,而且物美價廉,常常是脫銷狀態。

從翻譯的質量來看,目前的翻譯機也是不遜色的。翻譯滿分是100分的話,微軟最新的機器翻譯系統已經達到了69分,可以媲美人類。機器翻譯不像語音識別只有唯一的答案,機器翻譯是有很多種答案的,評價機器翻譯的時候,現在只能靠人為判斷。現有的商用系統中,微軟和谷歌在標準的測試集上,得分分別在56分、54分左右,在微軟有最新突破之前,國內的搜狗公司達到了62分的水平。

然而當翻譯機火爆的時候,人工智能威脅說也隨之愈演愈烈,人工智能會取代翻譯的說法也鋪天蓋地。

但黃學東覺得,目前機器翻譯取代人類還為時尚早,機器翻譯出錯誤會出得比人類更離譜,最好的方法就是在機器轉錄翻譯的時候,有人在旁邊看著,有錯誤就給糾正一下,人和機器協同工作,這是最好的模式。

因為在出現冷僻的詞、新的概念的時候,機器往往會出錯。人可以實時學習冷僻的詞和新的概念,這裡面實際上包含很大的信息量,人類馬上可以自適應,可以舉一反三,而機器就做不到。怎麼樣處理沒有見過的事情,這才是真的智能,也是人類智能和機器智能最大的區別。

“如果是沒有突發事件,那麼是基本可信、基本可達、基本還算比較雅。如果出現突發事件,就舉一不可反三,這是人工智能和人的智能最大的差距。”


分享到:


相關文章: