01.10 William Wang:語言與視覺研究的未來

<code>關注微信公眾號:人工智能前沿講習,
重磅乾貨,第一時間送達/<code>

一:報告導讀

本文報告主要介紹語言與視覺領域的探索以及未來,主要是真實環境下的導航與推理以及多語種任務,包括了視覺與語言在深度結合時的難點問題和目前的研究進展,以及研究團隊在這些問題上的研究工作,以及對於語言與視覺跟機器交互等多模態融合方面未來研究趨勢的展望。


二、專家介紹


William Wang:語言與視覺研究的未來

William Wang,UC Santa Barbara自然語言處理實驗室主任、機器學習中心主任、Mellichamp講席教授、計算機系助理教授。曾獲得谷歌教員研究獎(2019)、臉書研究獎(2018)、IBM教員獎(2017,2018)。擔任過NAACL、ACL、EMNLP和AAAI等國際頂級會議的區域主席。主要從事信息抽取、知識圖譜推理、語言與視覺、語言生成領域的研究。

三、報告內容

如果總結一下語言與視覺的研究,其實是遠遠不止五年的,再往前追隨,十年、二十年前也有人做語言與視覺的研究,那是在深度學習之前。廣為接受的一個工作,就是在CVPR2015的時候,由谷歌、斯坦福、微軟各大公司分別用機器學習中的神經網絡網絡做一些看圖說話之類的工作。

看圖說話工作徹底火了起來,給任何一張圖可以自動加上字幕和描述。這項技術非常有用,包括給盲人指路等等。2015年之後,在CVPR之後還有個很有意思的工作,對圖片問一些問題,看機器能不能自動給一些答案。還有一個工作是2016年的時候通過更加動態的視頻,比如YouTube這些視頻,當然這是梅濤老師的工作。最近幾年比較有意思的是把視覺跟語言進行深度結合,做更深入的交互,視覺跟語言深度結合。

William Wang:語言與視覺研究的未來

什麼是視覺跟語言進行深度結合呢?機器人方向的研究者比較熟悉,語言和視覺稍微做得比較少的任務,就是如何教機器人給機器人一些指令,通過這扇門往右走,再往臺階上走,能不能達到指定的目的地。現在的機器人還做不到,不能很好地理解人的指令,跟現實的視頻做動態分析,就是如何教機器人漸進式做一些正確指令,到達我們想要的目的地。

William Wang:語言與視覺研究的未來

這個任務難在哪裡呢? 第一點比較難的是跨模態的理解,什麼是跨模態之間的理解呢?這是我們的一個俯視圖,這是室內的場景,機器人是沒有這個輸入的,它不能接受到這樣的信息,但是我們的任務可以看到,給一個指令,機器人要從原始位置,也就是三角形的位置,要走向目標位置,比較靠近衛生間的區域。給另外一些指示的話,機器人只能看到的是眼前的視覺效果,只能看到一些本地的特徵,比如當前能看到的環境,並不知道這個房屋的佈局。這是其中的一個難點,如何理解每一個字、每個詞,如何理解視覺跟像素之間的變化,使得機器人漸進式一步步走向正確的目的地,這是比較難的地方。為什麼這個比較難呢?其實涉及到之後機器人會接受什麼樣的反饋輸入。訓練機器學習模型的話肯定有反饋輸入,但是這個比較難。

William Wang:語言與視覺研究的未來

舉個例子,假設現在要一個機器人在室內環境下,在三角形區域走到接近衛生間的區域,肯定有很多路線。比如左邊這個路線比較快,紅色這個線是比較有效的路徑。同時也可以想象這個機器人在房間裡亂走,可以走非常長的路徑,像藍色的區域,通過藍線最後也到了目的地。但是在機器學習訓練的時候,在左圖和右圖接受的獎勵信號是一樣的,就沒有辦法區分開左邊這個比較快的、比較短的紅色線路比右邊的藍色線路要好,光從傳統的強化學習的一個獎勵函數,最後有沒有達到目的地,是無法分辨出來的。

William Wang:語言與視覺研究的未來

我們在這上面做了一些工作,我們今年CVPR的最佳學生論文,主要想法是兩點:第一點是不光得到外部的獎勵信息,除了外部的獎勵函數,還可以檢測機器人有沒有遵從人類原始的指令,這是一個內部的獎勵函數。內外部獎勵函數相結合,就能告訴你有沒有達到目的地,同時有沒有遵從比較短的路線這個指令。

William Wang:語言與視覺研究的未來

另外一點是泛化,什麼是泛化呢?通俗一點,比如房屋有5層樓,我們在4層樓上做的訓練,你現在用在5樓,如果5樓佈局不一樣,機器人就會做的比較差。所以我們就加入自監督,跟強化學習裡面有比較相關的,主要參考機器人在訓練的時候,能不能看一下有什麼比較好的表現。傳統的情況下,這個地方是碰都不能碰的,但是可以想像,把機器人從4樓放到5樓做測試,機器人是探索位置的環境,看一下跟之前訓練時候做的行為有沒有相近的情況。

William Wang:語言與視覺研究的未來

這個是我們做自監督之前,這個機器人在陌生的環境確實比較難找到目的地,它也是到處亂逛,效率非常低。在我們接受機器人的自監督之後,在這個指令裡面,機器人非常迅速能夠找到目標,走了比較短的路徑,直接就到了最後的目的地,就是一個白色的大門。

William Wang:語言與視覺研究的未來

另外一個方向,多語種的研究這也是非常有意思的,多語言的圖形,包括自然語言的研究。在當前工作中,英語使用上是比較多一點,英語的看圖說話,英語的看圖講故事或者英語的視頻描述。如果用中文做會怎麼樣?我們今年也耗費比較大的人力物力,與頭條合作收集了比較大的中英文雙語視頻描述的數據集,可以看到不僅可以直接做翻譯,同時還請人直接對視頻進行中文的描述,得到了中文的描述部分。

William Wang:語言與視覺研究的未來

William Wang:語言與視覺研究的未來

我們提出MSN-VTT數據集是一個多語種,詞彙量還是比較大的。大家可以看出來一段視頻,我們不光做英文的描述,還有中文的描述,很多實際應用中會使用到這種描述的模型。這是我們的一個架構,大家可以看到這個架構還是比較簡單的,主要是一個數據集的工作。我們主要用比較簡單的Monolingual video captioning對視頻進行提取,然後用解碼器生成語言的描述。

William Wang:語言與視覺研究的未來

多語言有意思的部分是在於思考怎麼樣利用多語言的優勢,比如在編碼器的時候,不光用英文,也可以用中文,用兩個語言分享同樣的編碼器,這樣的話參數會變少,訓練有更高效率。但解碼器也可以,在兩個語言的時候同時分享同樣的解碼器,看看能不能有英文幫到中文,或者用中文幫到英文。還有比較有意思的,通過數據集不光做描述,這個數據集有中英文的描述,不光可以做自動的描述,也可以做機器翻譯。在很多情況下有含混不清的動詞情況下,可以通過視頻的信息提高機器翻譯的準確性。比如這個例子,如果只用英語文本翻譯成中文,那結果其實非常不好的,是完全翻錯了,但是通過視頻的信息可以看出這個人在做拉桿運動,在健身,這樣的話機器就能得到比較正確的結果。

William Wang:語言與視覺研究的未來

最後和大家分享我在語言和視覺領域最近幾年的想法,有一些趨勢是可以看出來的。第一點,目前的研究已經從單一的圖像進行到了真實的視頻環境的研究,視頻是比較難處理的,數據量很大,同時又非常複雜。還有一個動態,從單一的信源,語言語音視覺多模態結合,才能取得比較好的成就。還有一個是需要更多交互,語言與視覺跟機器的很多交互,是漸進式的決策過程,之後能不能到達目的地。還有一個是剛才講的從單一語言到多語言的語言與視覺的研究,不光是用英文做這種看圖講故事、看圖說話,同時也可以用中文幫助英文,用英文幫助中文,實現視覺多語言的識別和推理。

William Wang:語言與視覺研究的未來

William Wang:語言與視覺研究的未來


分享到:


相關文章: