02.03 自動化所&微信AI：雙通道多步推理模型，更好解決視覺對話生成問題科技頭條網

作者 | 陳飛龍編輯 | Camel

本文是對中科院自動化所和騰訊微信AI團隊共同完成，被 AAAI2020 錄用的論文《DMRM: A Dual-channel Multi-hop Reasoning Model for Visual Dialog》進行解讀，相關工作已開源。

AAAI2020 | 自动化所&微信AI：双通道多步推理模型，更好解决视觉对话生成问题

論文地址：https://arxiv.org/abs/1912.08360

代碼地址：https://github.com/phellonchen/DMRM

為解決目前視覺對話系統中視覺語言兩個模態之間的多輪指代、推理以及信息對齊等問題，自動化所陳飛龍博士、許家銘副研究員和徐波研究員等人與騰訊一起共建了一種雙通道多步推理視覺對話生成模型，使得模型從視覺和語言兩個方面豐富問題的語義表示，更好地針對問題生成高質量答覆。

研究背景與研究目標

由於自然語言處理和計算機視覺技術的快速發展，多模態問題受到了越來越多的關注。視覺對話是一種視覺語言交互任務，需要AI智能體與人類圍繞同一個輸入圖像進行交流。這是一項具有挑戰性的任務，要求模型能夠充分理解人類當前輪對話的提問，同時有效整合對話歷史的語言模態和輸入圖像的視覺模態，以關注與當前問題相關的語義信息並進行推理，給出高質量答覆。研究團隊就視覺對話任務提出一種雙通道多步推理模型（簡稱DMRM）。

圖1 DMRM模型框架

實驗方法

DMRM通過利用雙通道推理同步地從對話歷史和輸入圖像中捕獲信息，以豐富問題的語義表示。

具體地說，DMRM維護一個跨模態交互的雙通道（如圖1所示，Track Module負責從視覺方面豐富問題的語義表示，Locate Module負責從對話歷史方面豐富問題的語義表示），通過每個通道中的多步推理過程（如圖2所示）獲得與當前問題和對話歷史相關的視覺特徵，以及當前問題和輸入圖像相關的語言特徵。此外，團隊還設計了一種多模態注意機制，以進一步增強解碼器來生成更準確的答覆。