谷歌發佈大規模對話語料庫,涉及17個領域含1.8萬個註釋

在不需要額外數據和再訓練的情況下,谷歌Assistant等人工智能助手如何更好地支持新服務?

這是谷歌的研究人員在最近的一項研究中試圖回答的問題,該研究引入了一種方法,在沒有領域特定參數的情況下跨服務使用模型。

作為它的一部分,該團隊發佈了一個語料庫——模式指導的對話(SGD)語料庫——他們聲稱這是最大的面向任務的對話語料的公開彙編。

谷歌發佈大規模對話語料庫,涉及17個領域含1.8萬個註釋

軟件工程師Abhinav Rastogi 和谷歌研究工程負責人Pranav Khaitan在博客中寫道:“如今的虛擬助手幫助用戶完成各種各樣的任務,包括查找航班、搜索附近的活動和電影、預訂、從網上獲取信息等等。”

“儘管取得了巨大的進步……適應性挑戰在最先進的模型中常常被忽視。這部分是由於缺乏合適的數據集來匹配虛擬助理所面臨的規模和複雜性。”

為此,SGD包含18000多個人與虛擬助理之間的帶註釋的對話,涉及與17個領域服務的交互:從銀行、大事件到媒體、日曆、旅行和天氣等。

對於大多數領域,數據集包含幾個不同的api,其中許多api具有重疊的功能,但是不同的接口反映了典型的真實場景。評估集包含了訓練集中沒有的服務,主要用於量化模型對api變化或新api添加的魯棒性。

至於前面提到的模式指導方法,它利用每個服務或API及其相關屬性的自然語言描述來學習分佈式語義表示,該語義表示作為對話系統的額外輸入,隨後作為單個模型實現。

該團隊表示,統一模型是谷歌開源對話狀態跟蹤模型的核心,它促進了不同服務中相似概念之間的公共知識表示,使得對訓練數據中沒有的新服務進行操作成為可能。

“我們相信,這個數據集將成為建立大規模對話模型的良好基準,”Rastogi和Khaitan寫道。“我們很興奮,並期待著研究界將以各種創新的方式利用它來推進對話技術。”

新數據集和模型的發佈是在谷歌Coached Conversational Preference Elicitation (CCPE)和Taskmaster-1(兩個人之間的一對對話數據集)的開源之後進行的。(前者包括與人們就他們的電影喜好進行的500次對話,總計1萬次,總計1.2萬次對話。)

谷歌將其描述為:向能夠實現人類級別的性能的自然語言系統建模邁出了一步。

參考鏈接:

https://venturebeat.com/2019/10/28/google-releases-task-oriented-dialogues-for-virtual-assistant-model-training/

福利:關注本公眾號(ID:turingtopia)

特別推薦

谷歌發佈大規模對話語料庫,涉及17個領域含1.8萬個註釋

如果您對工業互聯網、數據中臺、精準營銷、智能推薦、人臉識別等業務經驗和AI應用感興趣,就來@派小僧 吧!

一線專家給你:

最全面的趟坑總結;

最前沿的實踐經驗;

最新落地的行業應用案例。

立即關注,一網打盡!

(ID:python_daydayup)

《雲原生下數據治理的微服務架構》:

https://mp.weixin.qq.com/s/CyItUzXITwR3LHBNFOTQZg


分享到:


相關文章: