02.03 自動化所&微信AI:雙通道多步推理模型,更好解決視覺對話生成問題

AAAI2020 | 自動化所&微信AI:雙通道多步推理模型,更好解決視覺對話生成問題

作者 | 陳飛龍編輯 | Camel

本文是對中科院自動化所和騰訊微信AI團隊共同完成,被 AAAI2020 錄用的論文《DMRM: A Dual-channel Multi-hop Reasoning Model for Visual Dialog》進行解讀,相關工作已開源。

AAAI2020 | 自动化所&微信AI:双通道多步推理模型,更好解决视觉对话生成问题論文地址:https://arxiv.org/abs/1912.08360


代碼地址:https://github.com/phellonchen/DMRM

為解決目前視覺對話系統中視覺語言兩個模態之間的多輪指代、推理以及信息對齊等問題,自動化所陳飛龍博士、許家銘副研究員和徐波研究員等人與騰訊一起共建了一種雙通道多步推理視覺對話生成模型,使得模型從視覺和語言兩個方面豐富問題的語義表示,更好地針對問題生成高質量答覆。

研究背景與研究目標

由於自然語言處理和計算機視覺技術的快速發展,多模態問題受到了越來越多的關注。視覺對話是一種視覺語言交互任務,需要AI智能體與人類圍繞同一個輸入圖像進行交流。這是一項具有挑戰性的任務,要求模型能夠充分理解人類當前輪對話的提問,同時有效整合對話歷史的語言模態和輸入圖像的視覺模態,以關注與當前問題相關的語義信息並進行推理,給出高質量答覆。研究團隊就視覺對話任務提出一種雙通道多步推理模型(簡稱DMRM)。

AAAI2020 | 自动化所&微信AI:双通道多步推理模型,更好解决视觉对话生成问题

圖1 DMRM模型框架

實驗方法

DMRM通過利用雙通道推理同步地從對話歷史和輸入圖像中捕獲信息,以豐富問題的語義表示。

具體地說,DMRM維護一個跨模態交互的雙通道(如圖1所示,Track Module負責從視覺方面豐富問題的語義表示,Locate Module負責從對話歷史方面豐富問題的語義表示),通過每個通道中的多步推理過程(如圖2所示)獲得與當前問題和對話歷史相關的視覺特徵,以及當前問題和輸入圖像相關的語言特徵。此外,團隊還設計了一種多模態注意機制,以進一步增強解碼器來生成更準確的答覆。

AAAI2020 | 自动化所&微信AI:双通道多步推理模型,更好解决视觉对话生成问题

圖2 多步推理的示意圖

團隊在視覺對話任務中的解碼端引入多模態注意機制,有效地緩解了只利用編碼端輸出多模態信息融合的侷限性,在解碼過程中能夠較好的進行一些錯誤糾正及語義豐富。

AAAI2020 | 自动化所&微信AI:双通道多步推理模型,更好解决视觉对话生成问题

圖3 基於多模態注意的解碼器

實驗結果

團隊在VisDial v0.9和VisDial v1.0兩個公開數據集上進行實驗。VisDial v0.9包含了83k訓練集,40k測試集,每一幅圖像對應10輪對話和圖像描述。VisDial v1.0包含了123k訓練集,2k驗證集和8k測試集。

表1和表2給出了不同模型在兩個數據集上的實驗效果。可以看出,在大多數評價指標上,雙通道多步推理視覺對話生成模型DMRM都優於其他模型(其中,MRR、R@k越高越好,Mean越低越好)。

AAAI2020 | 自动化所&微信AI:双通道多步推理模型,更好解决视觉对话生成问题

表1 不同模型在VisDial v0.9數據集上的實驗結果

AAAI2020 | 自动化所&微信AI:双通道多步推理模型,更好解决视觉对话生成问题

表2 不同模型在VisDial v1.0數據集的實驗結果

表3顯示了雙通道多步推理視覺對話生成模型DMRM的消融實驗,分析了各個模塊對於視覺對話任務效果的影響,可以看出雙通道多步推理以及多模態解碼器都起到了重要作用。

AAAI2020 | 自动化所&微信AI:双通道多步推理模型,更好解决视觉对话生成问题

表3 DMRM的消融實驗

圖4顯示了DMRM模型生成的回答結果,融合了多模態解碼器的DMRM模型在準確性和語義豐富性上表現更好。

AAAI2020 | 自动化所&微信AI:双通道多步推理模型,更好解决视觉对话生成问题

圖4 視覺對話生成結果樣例


分享到:


相關文章: