Gabor Angeli是Square公司的工程經理及團隊成員,他曾發表過一篇論文,內容是關於如何將AI助手打造成一個能夠和對話者產生共鳴的聽眾。文章中描述了一種AI模型,這種模型通過印證式傾聽(reflective listening)技術來使機器達到類人的表現。所謂印證式傾聽(reflective listening),指的是聽眾能夠重述對方的請求,從而使對方知道自己的需求被其聽到了。
如今,他的團隊正在努力將Square Assistant從一個虛擬調度器擴展成為一個能夠驅動公司所有產品的會話式AI引擎。
Angeli說:“在買家和賣家之間有一個巨大的對話空間,我們可以而且應該幫助人們,為他們在這一空間領域提供指引。” Angeli將在GTC Digital(現在可以免費註冊)演講中介紹此項工作。
Square以其時尚的支付終端而聞名,它為小企業提供多種服務,從處理工資單到建立忠誠計劃等。
靈感起源
十多年前,一位加州大學伯克利分校(UC Berkeley)教授的AI課程點燃了Angeli對自然語言處理領域的興趣。他在大學的AI實驗室開始了對這一新興領域的研究,並最終與夥伴共同創立了Eloquent公司,這是一家NLP初創公司,於去年5月被Square收購。
六個月後,Square Assistant作為一個虛擬調度器誕生了。
Angeli說:“我們想做出能夠快速呈現在顧客面前的,更好的產品。我們正在為Square Assistant 添加更多高級功能,我們的目標是使其能夠驅動我們所提供的全部功能。”
從目前情況看來,這種期待是有望實現的。Square Assistant可以理解75%的客戶問題併為其提供幫助,而且它可以將沒有預約的問題減少10%。
但是為了讓NLP真正成為大家街頭巷尾所討論的熱門話題,這個團隊還面臨著棘手的語言和技術挑戰。例如,如何理解“下個星期六”,其指的是這周的星期六,還是下週的星期六?
更重要的是,這其中有一個常見的關於客戶查詢的長尾問題。隨著Square Assistant的工作描述從幾十個任務擴展到幾千個任務,其神經網絡模型也將隨之擴大,這意味著它需要更多的訓練。
“看到BERT能夠做到一些我們認為不可能的事情,比如顯示閱讀理解的AI,真是令人興奮,我驚訝於這竟然是可能實現的。但這些規模巨大模型對模型訓練和部署的時長提出了挑戰。”
GPU加速推理、訓練
在Eloquent 時期,Angeli的團隊使用配置了單卡NVIDIA GPU的臺式機運行CUDA。在加入Square後,團隊轉而使用帶有雙卡GPU的臺式機,並使用運行於AWS雲服務之上的GPU進行超大型參數訓練。
在測試中,Square發現,對於一般大小的模型來說,在GPU上運行推理作業,其運行速度是CPU的2倍。而對於如RoBERTa這樣的大型模型來說,在AWS GPU服務上運行推理的速度比CPU快10倍。
他在報告中表示,訓練工作的性能差別“更為明顯”。“沒有GPU,很難訓練現代機器學習模型。如果我們必須在CPU上進行深度學習,那麼我們將落後其他人10年,”他補充說。
他說,更快的訓練也能夠鼓勵AI開發者們更頻繁地迭代設計,從而得到更好的模型。
他的團隊混合使用了小型、中型和大型NLP模型,運用預訓練技巧,證明了它們在計算機視覺應用程序中的價值。他相信,從長遠角度來看,工程師們將會發現通用模型能夠很好地處理各類任務。
同時需要強調的是,開發會話式AI是一場需要相互配合的“兩人三足賽跑”,即需要有像Angeli團隊這樣的開發者團隊設計出高效的模型,還需要有GPU架構師們設計更強大的芯片。
正如Angeli所說的:“要完成這項工作,一半的努力在於算法設計,而另一半的努力則在於需要NVIDIA製造更適合機器學習的硬件,運行更大規模的模型。”
瞭解有關NVIDIA在深度學習領域的最新技術動態,請戳“瞭解更多”。