CCHI2018:王海峯展示百度大腦最新能力「多模態深度語義理解」

8月25日,為期兩天的首屆中國認知計算和混合智能學術大會(CCHI2018)在西安舉辦,百度高級副總裁、AI 技術平臺體系(AIG)總負責人王海峰與中國科學院院士陳霖、蒲慕明等學界知名專家共同研討與交流認知科學、神經科學、人工智能學科領域交叉融合的最新進展和前沿技術。

中國認知計算和混合智能學術大會(CCHI2018)由國家自然科學基金委員會信息科學部、中國自動化學會與中國認知科學學會聯合主辦,是國內首個關注認知科學、神經科學與 AI 交叉融合的高端學術會議。本屆大會邀請了認知建模與計算、混合智能、智能機器人、智能駕駛等領域海內外知名專家作學術報告,交流相關研究領域的最新成果和發展趨勢。

王海峰是人工智能的領軍人物之一,在國內外有廣泛的影響力。他是自然語言處理領域最權威的國際學術組織 ACL 50多年曆史上唯一出任主席(President)的華人,也是 ACL 亞太分會(AACL)創始主席。同時,王海峰是百度人工智能的奠基者和領導者,為百度創建和發展了自然語言處理、知識圖譜、語音、視覺、深度學習等 AI 核心技術,併成立 AI 技術平臺體系(AIG)擔任總負責人,致力於 AI 相關技術的研究及其應用落地。

逐步加深對客觀世界的認知

在大會報告中,王海峰分享了百度大腦的最新進展。百度大腦是百度 AI 技術多年積累和業務實踐的集大成,包括視覺、語音、自然語言處理、知識圖譜、深度學習等 AI 核心技術和 AI 開放平臺,對內支持百度所有業務,對外全方位開放,助力合作伙伴和開發者,加速 AI 技術落地應用,賦能各行各業轉型升級。

百度大腦的演進,從基礎技術積累,到建立完整的技術體系,再到核心技術進入多模態深度語義理解階段,同時伴隨著百度多年的業務實踐和 AI 能力的全面開放。

王海峰指出,AI 技術與產業的結合愈發多元化,單一技術已無法滿足應用需求,具備“多模態深度語義理解”能力的百度大腦通過多技術融合,能讓機器對客觀世界有更深層認知,從而更好地支撐應用。

多模態深度語義理解

“多模態深度語義理解”是指對文字、聲音、圖片、視頻等多模態的數據和信息進行深層次多維度的語義理解,包括數據語義、知識語義、視覺語義、語音語義一體化和自然語言理解等多方面的語義理解技術。“多模態深度語義理解不僅能讓機器聽清、看清,更能深入理解它背後的含義,深度地理解真實世界,進而更好地支撐各種應用。”王海峰解釋。

在 AI 領域,數據的重要性不言而喻。無論是物理世界、人類社會還是網絡空間,都匯聚了海量的多元、異構、多模態數據。數據語義化技術可以將這些數據形成包含千億節點、萬億關係的龐大數據語義網絡,從中總結規律、提煉知識、發現價值,助力經濟和社會發展。王海峰介紹,數據語義化技術已經在生產生活中發揮作用,比如在新能源充電樁運維中,利用百度的數據語義化技術進行設備監測、故障診斷等,可以顯著提升效率,節約成本。

除了數據,理解並運用大千世界中的多元知識也是 AI 技術進一步突破、深層次理解客觀世界的重要基礎。百度已經構建了包含數億實體、數千億事實的龐大知識圖譜。除了基礎的由實體、屬性、關係構成的實體圖譜,百度還針對不同的應用場景和知識形態,構建了關注點圖譜、事件圖譜、多媒體圖譜、行業圖譜等多種知識圖譜。

視覺語義化可以讓機器從看清到看懂視頻,並提煉出結構化語義知識。王海峰通過體育比賽視頻的案例,展示了視覺語義化技術的價值。他介紹,2016年,百度 AI 實現了奧運會籃球比賽的自動解說,背後是自然語言處理和搜索技術。如今,應用視覺語義化技術對世界盃比賽視頻進行解析,AI 能夠全面識別視頻中的球員、裁判、球、以及球門、球場線等人、物和場景,可以捕捉射門、進球、角球、任意球、換人等事件,形成比賽的語義化知識,既可以實現機器人解說比賽,也可以進行精彩片段集錦、以及各種數據統計分析等更深層的應用。

語音語義一體化技術讓機器聽得更清楚準確,實現更自然的人機對話。王海峰介紹,百度採用多語種聲學混合建模,中文的 Deep Peak 2模型效果比業界最好競品錯誤率

相對降低20%;WaveNet+拼接的情感語音合成技術,既可以使機器發聲的自然度大幅提升,又避免了計算量過大的問題。

自然語言理解是人工智能最具挑戰的技術領域之一,近年來取得的進展已經釋放出巨大的應用價值。王海峰介紹,在對話理解上,百度研發的深層注意力匹配模型,比已知的最好結果提升了4.1%,人機對話交互更加流暢自然。而在閱讀理解上,百度大腦已經閱讀了千億量級的文章,相當於6萬個中國國家圖書館的藏書,積累了億級實體、千億事實的知識,從而深入地理解內容、獲取知識,支持更廣泛的應用。

百度大腦的技術能力在不斷進步,對外開放也更加全面和豐富。截至目前,百度已對外開放120多項領先的 AI 場景化能力與解決方案,並通過開源開放深度學習框架 PaddlePaddle、定製化平臺 EasyDL 等、實訓平臺 AI Studio、軟硬一體的 AI 能力,持續降低 AI 應用門檻,幫助開發者和企業應用 AI 實現業務創新與升級。

直麵人工智能的機遇和挑戰

為發展加速

人工智能技術發展迅速,在各行各業的應用落地正在變得更加廣泛並開始走向深入。面對全社會掀起的人工智能熱潮,我們更要清醒地認識 AI 發展的機遇和挑戰。

在基礎理論層面,小樣本學習、低能耗的智能機制或許是人工智能面臨的最大挑戰。目前的深度學習技術都是建立在大規模樣本、高能耗計算的基礎之上,同時,深度神經網絡的結果很難解釋。因此,未來的人工智能理論研究,要探索如何讓人工智能像人類一樣,能夠做到小樣本學習,能耗低,且真正地被理解。

在應用技術層面,視覺、語音等感知技術在這一輪深度學習的浪潮中得到很大提升,甚至某些方面的能力已經超越人類。但在認知技術方面,無論是對語言的理解,還是對知識的掌握和應用,依然有很大的進步空間。

因此,自然語言處理、知識圖譜等認知技術,將是未來非常重要的研究方向。

從產業層面,一方面呈現出軟硬結合的趨勢,另一方面,深度學習框架和 AI 芯片也將是新的產業機會。“AI 芯片能否在產業上成功,取決於圍繞 AI 芯片建立起來的應用生態。其中,深度學習框架起到至關重要的作用,其意義相當於指令集和操作系統。”因此,王海峰認為,類似百度 PaddlePaddle 這樣的深度學習框架,將會成為 AI 時代的重要基礎設施。

在應用系統層面,多技術綜合應用、結合場景的系統性創新至關重要。王海峰建議,研究者可以術業有專攻,但產業界,應關注公司的綜合技術實力,特別是其工程落地能力。此外,結合特定場景和數據等特性的系統性創新,也是 AI 技術應用落地的必要條件。

人工智能經過60餘年的發展,在互聯網、大數據、大計算、腦科學等新理論新技術,以及經濟社會發展需求的共同驅使下,正在進入一個嶄新的時代。如今,它需要與更多不同領域的知識產生新碰撞,打造競爭新優勢、開拓發展新空間。中國的 AI 之路也將不斷注入新活力,走得長且遠。