11.29 深思考楊志明:多模態語義理解能推動人工智能大規模落地

2019年11月26日-27日,36氪在北京國際會議中心舉辦了“2019WISE新經濟之王大會”,大會下設13大會場,邀請超百位新經濟社群的代表,共同關注新技術、新場景對傳統產業的顛覆與融合,連接初創公司、互聯網巨頭、投資機構、地方政府、傳統企業等市場參與主體,聚焦那些腳踏實地、以夢為馬的未來產業之王的成長和成熟。

目前,AI在語音識別、圖像識別領域已經比較成熟,開始了大規模落地。人工智能的發展也正從認知走向理解。

深思考專注語義理解15年的時間,目前在多模態語義理解方面取得了一些進展,在智慧營銷、智能終端落地了相關技術。對於多模態語義理解的AI落地,他們又有怎樣的見解和經驗分享?

深思考杨志明:多模态语义理解能推动人工智能大规模落地 | 2019 WISE新经济之王大会

以下是深思考CEO AI算法科學家楊志明的演講實錄,36氪編輯整理:

各位大家上午好!

我給大家分享一下我們深思考人工智能在多模態深度語義理解這個領域我們的一些進展,以及對多模態深度語義理解落地的一些經驗。

首先介紹一下我們深思考人工智能,我們只專做一件事情就是多模態的深度語義理解。人工智能的最後一塊,就是語義理解,目前包括語音識別、圖像識別已經比較成熟,已經開始大規模落地。目前大家垢病最多的是,有的時候跟智能音箱進行交互的時候,聊兩句就聊不下去了,就聊死了,或者說它根本不懂你的意思。所以大家覺得這個不是人工智能,是人工智障,效果很不好。包括車載助手,手機助手也是,有的時候你稍微話術說複雜一點,它就沒法理解你的意思。

另外,有的時候我們人與人在交互的時候,我們的交互也是多模態的,比如我們用微信跟大家交流的時候,跟對方可能發一個語音,可能發一個文字,也可能發一個圖像,也可能發一個視頻,其實人與人之間交互的時候,是很容易準確理解對方的含義的,但機器要理解多模態的信息則變得非常困難。深思考專注語義理解已經15年的時間,目前我們在多模態語義理解方面取得了一些進展。

目前人工智能發展到這個階段,大家都知道我們人首先是聽到、看到、觸摸到,然後去認知和理解,人工智能的發展其實也是一樣。

第一就是我們覺得從原來的計算智能到感知智能,也就是我們目前比較普遍的所謂視覺、聽覺、觸覺等等,先感知到。其實人工智能的落地還有一個非常重要的一部分,就是我們的認知智能,就是我們要在聲音、文本、圖像,尤其非結構化的信息上進行認知計算,什麼叫非結構化信息?就是那些雜亂無章,未經人工整理成結構化的信息,如一篇作文、一個網頁、一個視頻、一個音頻,其實都是非結構化的。我們如何實現對這些非結構化信息的理解,這就是認知智能需要做的工作,這也是人工智能最後一塊高地,只有解決這個,才能實現人工智能大規模落地。

我可以說一下,為什麼我們來做這個多模態的語義理解和人機交互?非常顯而易見,我們人去理解信息,剛剛說了,很多場景本身就是多模態的,我們看一個視頻的時候,我們不會把眼睛閉起來去看這個視頻,也不會把耳朵塞起來看這個視頻,我們人與人之間進行交流的時候,可能有情感、有表情、有語言、有握手。人機交互的時候也是如此,從來不是單模態的。

人工智能落地也是這樣?比如汽車的數字座艙場景,原來只是語音識別和語音指令,其實這個場景中包含了車外場景圖像、車內的手勢、車內的表情、車內的語音等等,這就是一個多模態的場景。

醫療也是,我們俗稱望聞問切,就是醫生去診斷的時候不光是看到,還要聽到,聞到,觀察患者多模態的信息,最終實現精準診斷。

我們很多2C的網站或者平臺,他們有很多虛擬偶像,90後很喜歡這種虛擬偶像,虛擬偶像原本的交互只是簡單的觸摸、點擊等,其實受眾和虛擬偶像去交互的時候,也是希望跟這個虛擬偶像有語音的互動,視覺的互動,聲音的互動,文本的互動等等。包括我們的手機現在也是個多模態的,包括現在落地的廣告。比如說我們一個網頁裡面,它包含文本,包含視頻,包含圖像,我們怎麼去理解這個網頁?然後點擊這個網頁的受眾他的畫像是什麼?包括智慧營銷等等。

其實我覺得正因為從單模態過渡到多模態,其實才更加適合AI的大規模落地,因為人工智能目前落地可能大家都知道,是一個普遍的難題。怎麼去解決這個大規模落地問題?其實有幾個,第一個就是場景問題,我覺得多模態的這個場景一定會比單模態更加適合我們人工智能的落地。

第二個就是人工智能落地技術上的難題,我們現實中接觸的所謂的大數據,大量都是非結構化的,剛剛我說了語音也是非結構化的,視頻也是非結構化的,文本也是非結構化的,我們看到的海量網頁,都是非結構化的信息,圖像也是。比如我們手機上拍了很多的照片,這個照片本身的含義是什麼?它描述的是一個什麼物體?等等,這些信息沒有人給我們整理出來,當然這也是一個難點。

我覺得非結構化信息的理解,我們叫暗數據理解,也是人工智能的技術的剛需和至高點。我們深思考人工智能是通過多模態數據的機器閱讀理解。原來像一段視頻,一段文本,都是人去理解的。

我介紹一下什麼是機器閱讀理解?比如我們看一本書,原來我們人去看一本書的時候,看完這個書後,我再去詢問書中的知識,他能夠根據理解反饋回來準確的答案。這時人是已經有這種極高的技能去理解一本書,這種大量的非結構化的信息。那麼機器如何去進行理解呢?機器閱讀一本書以後,能夠對書中的知識點準確的理解出來,然後將答案准確的反饋回來,這也是語義理解中的難點和痛點。

目前深思考在機器閱讀理解這一塊已經取得了大規模的突破,也就是說,我們已經實現了,我們最新的產品則基於我們原創的機器閱讀理解模型。我們有些友商在做智能客服、人機交互的時候,都是基於事先整理好的知識庫、問答對或者知識圖譜。深思考另闢蹊徑,成功運用機器閱讀理解技術。也就是說,我們原來做一個智能客服的時候,需要大量的時間及人力去整理知識圖譜,而我們深思考直接用機器閱讀理解,然後大規模的去理解和閱讀非結構化的信息,比如產品說明書、網頁等等。然後你對這裡面的知識點,可以用任意話術去提問,它都可以準確的回覆。這樣就使得我們整個項目的效率得到了極大的提高,並能夠規模化遷移,從而極大地提高產品研發的效率。

我們的機器閱讀理解技術,可以實現人工智能,包括大規模的機器理解時,不再單獨依賴知識圖譜。我們有些客戶在實施智能客服,人機交互時遇到過一些問題,比如在智能家居領域,我要做一個營養大健康知識問答,我要把所需要的知識整理出來,因為目標很龐大,結果半年一年甚至於兩年走下來,也沒有整理成結構化的數據,所以很多時候時間一長,這個項目也就擱置了。更多時候我們現實中的大數據都是非結構化的,技術上實現對大規模非結構化文本進行機器閱讀理解的話,就可以實現我們人機交互,AI技術迅速的領域遷移和大規模的落地。

我們深思考在落地的過程中,針對一些場景,已經開始大規模落地了。比如我們在跟知名的車企品牌合作,將我們的技術落地到數字座艙裡面去了,原來的座艙大多是語音指令式的,比如給開個空調。但是如果我說“我有點熱”,原來的語音助手就沒法跟你做交互。如果它具備深度語義理解的話,它可以說“主人,我能幫你把空調或者是天窗開開嗎?”,你只需說“空調就可以了”,它就會給你調到喜歡的溫度,這個交互就很順利的進行下去。不像傳統的語音指令,你需要背那個語音指令表,但我們人是不希望背語音指令表的,我們希望機器能理解我們,這是我們認為在人機交互和語義理解一個重大的區別。

我們目前已經落地的智慧營銷、智能終端都接入了多模態機器閱讀理解大腦。我們已經實現了在家庭場景下的健康營養AI諮詢,比如可以詢問和孕婦相關的很多問題以及其他的一些健康常識,像需要補充什麼營養,有些什麼注意事項等等。我們的AI去大規模學習相關的文章以後,就可以對這些問題去做一個權威的回覆。在智慧醫療領域,我們用多模態的視覺理解去做了細胞學的篩查,現在已經大規模落地醫院的實際場景,協助醫生去解決他們的一些大規模癌前篩查的問題。

這是我們在數字座艙裡面的一個簡單示意,大家可以看一下。

深思考杨志明:多模态语义理解能推动人工智能大规模落地 | 2019 WISE新经济之王大会

我們不光對話,而且這個對話比較簡潔,不需要跟它一輪輪的對話。很多時候我們人習慣說“你幫我辦吧”,人們期望機器能理解到我們的需求並幫我們辦到。所以前面我們深思考的三代機器人的人機交互是能夠有上下文,多輪的,然後有情感的等等。自由對話,我們做的非常好,但是我們的四代機器人首先有兩個特點:

1、人狠話不多,我們交互的時候不需要那麼多話,它提供解決方案。

2、說到做到,這個交互的機器人它能夠幫你把事辦成、辦好。

另外我們把手機、家、車三者同步起來。

我們在車的環境下也可以做一些健康營養諮詢。

隨著社會發展,我們對營養健康越來越關注,我們在汽車場景下可以跟家庭聯動,機器人可以在車上給你推薦營養健康的飲食建議等等。如果你接受這個建議,那機器人就可以聯動家裡的設備去製作了。

這樣就像剛才我們說到的,“說到“、”做到“————交互完了以後,機器人直接在後臺幫你辦到這件事。

另外,我們在智慧營銷也有大規模落地,優勢就在於我們的機器人是多模態的,它能接受你線上的語音、圖像和文本。大家現實中可以看到,在我們的生活中有這樣一種現象,當你看到一款很炫酷的汽車廣告後,心裡想回去就買下它,但等回去之後可能就再沒有這個激情去買這輛汽車了。我們的創意已經用在很多汽車品牌上,用戶看到這個廣告以後可以直接去點擊,之後會有一個AI和用戶去交流,這相當於有一個AI在24小時給客戶提供服務。服務的時候,可以使用語音、文本、圖像等等,去跟它做交互。而且它反向會理解你的關注點,比如說價格、油耗、車的用途等等,而且我們的AI會引導客戶到線下來。在線下我們也有一套多模態的AI交互方案,通過視覺,聲音,姿態、表情,動作等等,去判斷用戶的意圖,然後畫出用戶的畫像,最後幫助銷售顧問提升顧客的轉化率。

原來我們對線上線下的用戶瞭解很少,一旦用戶沒有留下電話,這個用戶就消失掉了。而我們的方案呢?

  • 第一、增加了流量入口

  • 第二、增加了與希望用戶的觸點

  • 第三、更加了解這個用戶

所以最後的轉化率得到大幅提高。

另外在智慧醫療領域,我們已經實現了病理細胞學大規模的篩查,大家可能很奇怪,為什麼語義理解還有視覺,其實剛剛我說的就是多模態,多模態的視覺語義理解和視覺有一定相關,但是不是完全等同的。舉一個例子,我們在反暴力的時候,總覺得我把兇器識別出來就可以了,比如把一把刀識別出來,但其實用刀的時候也可能是在餐桌上吃飯的場景。我再舉個例子,比如有一個畫面,一個小狗在一棵樹下面,傳統的識別是一隻小狗和一棵樹,用圖像的識別理解就是一隻小狗在炎炎夏日在樹下乘涼。

這個是央視對我們的一個報道。

這是我們在央視的平臺上去做的一個測試,目前我們的AI在這個實際場景下能夠真正的幫助到醫生,而不再只是一個概念,真正能夠幫助醫生大規模實現篩查。這個用在大規模篩查的時候,AI就非常有必要。

另外我們在智能家居這一塊,也聯合了業界的巨頭,去接入各個品牌的智能家居設備,這相當於我們在家庭場景下有一個多模態的AI大腦,它去理解家庭每個成員的健康狀況,提供健康諮詢。

就是說使得用戶在家庭場景下,讓AI更加了解用戶,包括用戶的個性化、健康狀況等等。營養健康場景下最重要的東西就是健康和營養,我們針對的不止是某一個電視機、電飯煲或者音箱,這些外在的硬件只是一個載體,我們的AI相當於一個家庭的中央大腦,它落地載體是電視和音箱,它能夠真正在家庭場景下為家庭成員提供健康營養方面AI的服務。

最後一塊,我們深思考在語義理解這一塊還打造了一個AI的技術中臺,也就是說我們用這個中臺去生成一些AI,大家知道我們原來去建立一些智能客服、對話機器人很麻煩,我們其實是自己有一個對話機器人,它相當於一個“母親”,然後很快的生成其他場景下的對話機器人。我們相比於友商,比如意圖識別,很多友商是意圖匹配,我們是在線訓練,我們不用讓算法工程師設計一個模型,而是直接在場景下,用戶直接可以訓練一個很好的AI模型出來。

我主要介紹了深思考的多模態語義理解技術,尤其機器閱讀理解,如2019年我們拿了全世界中國領域的冠軍,相比業界最權威的友商,我們指標高了20.8%。

最後一句話,人工智能落地的時候,最後一塊皇冠就是語義理解,通過多模態語義理解,真正能夠使得人工智能大規模的適應各種場景,然後快速的落地。我認為未來一個願景就是隨著物聯網的發展、互聯網的發展,我們能夠做到端側的理解,語義方面的理解,最後達到萬物智能。

謝謝大家!


分享到:


相關文章: