雲知聲 AI 全棧能力再獲突破!人臉識別技術達業界領先水平

《經濟學人》雜誌稱:許多硅谷公司以“全棧”(fullstack)而自豪。其原意指打造一套完整的、端到端的產品或服務體系。在人工智能領域,“全棧”的概念更多的被理解為在人工智能的多個應用領域(計算機視覺、語音、自然語言理解等多模態交互技術),具備提供業內一流的技術和服務的能力。

<strong>近日,雲知聲 AI “全棧”能力再次取得重大突破——在國際權威的人臉識別標準評測數據庫 LFW 和 MegaFace 上,雲知聲團隊研發的人臉識別 UFaceID 算法系統,在上述兩項標準評測中,性能分別達到 99.80%和 98.47%,首次參與內部測評,系統性能即位居業內前列。這兩個測試集是業內公認的標準評測數據集,經常參與測試的還有阿里、騰訊優圖、百度、搜狗、商湯、Face++ 等知名公司。該成績不僅彰顯了雲知聲在計算機視覺領域的技術實力,也意味著雲知聲多模態 AI 能力再一次獲得拓展與驗證。

LFW 和 MegaFace 均為人臉識別領域重要的評測數據集。前者是人臉識別研究領域最重要的人臉圖像測評集合之一,後者為目前最具權威的、熱門的評價人臉識別性能的數據集之一。LFW 是針對早期人臉驗證任務提出評測方法與指標,結果有借鑑意義,但已不代表目前的最難問題。MegaFace 提出的關於百萬級別的 1:N 人臉辨識任務的評測指標,難度更大,是目前學術界測評的新主流。儘管兩個數據集都存在高分數與實際應用需求間的矛盾,但由評測過程中催生出來的新方法,無疑極大的推動了人臉識別技術的長足進步。

雲知聲 AI 全棧能力再獲突破!人臉識別技術達業界領先水平

通常在計算機視覺評測中,為了跑出更好的成績,參賽團隊普遍會使用多模型和較高的模型複雜度,既考驗模型算法的性能,也相應對計算資源提出更高要求。此次,雲知聲首次研發人臉識別算法即斬獲出色成績,除了團隊算法研究人員的不懈努力之外,雲知聲分佈式機器學習智能計算平臺 —— Atlas 亦同樣功不可沒。

<strong>雲知聲很早就開始佈局建設國內領先的 GPU/CPU 異構計算平臺和分佈式文件存儲系統,該計算集群能夠為智能計算提供高性能計算和海量數據的存儲訪問能力。在該計算集群的基礎上,雲知聲建設了被譽為雲知聲版“TensorFlow + GKE (Google Kubernetes Engine) ”的 Atlas 機器學習計算平臺,在雲知聲向人工智能多領域技術橫向擴展和縱向迭代中,發揮了至關重要的作用。

雲知聲 AI 全棧能力再獲突破!人臉識別技術達業界領先水平

Atlas 機器學習智能計算平臺以 GPU 和 CPU 為計算集群的基礎硬件資源,針對智能計算的需求和任務特點,使用雲知聲內部改進的 Kubernetes 作為資源管理和調度系統,通過計算任務容器化和圖形化的任務交互,最大化的簡化算法研究人員提交計算任務的複雜度,實現計算任務的全流程管理和一鍵式分佈式運行。同時,針對智能計算對海量真實應用場景數據的訪問特點, Atlas 智能計算平臺構建具備 PB 量級的高 IO 和高可靠的分佈式存儲系統。

<strong>在計算機視覺等新的人工智能應用領域,更加依賴高性能的計算和海量數據的讀寫能力,而此恰恰體現了雲知聲在智能計算平臺的超前佈局。到 2019 年,Atlas 計算平臺將具備 1000+ 的 GPU 計算資源和超過一億億次每秒的浮點計算能力,為在人工智能新領域的拓展奠定了強大的計算能力基礎。

除此之外,在 Atlas 智能計算平臺基礎上,為了更加高效地實現算法模塊共享和高效運行,雲知聲研發了 UniFlow 計算框架。支持 DNN、CNN、RNN/LSTM、seq2seq 等豐富的機器學習和深度學習算法模塊,支持 TensorFlow 、 PyTorch 、Caffe 等主流計算框架以及用戶自定義算法,同時,優化分佈式任務的計算和通信邏輯,計算效率提升 50% 以上。在下一代的 UniFlow 中,還將集成自動調參和模型壓縮模塊,實現全流程託管式自動調參,能夠為不同場景下的 AI 數據處理、算法演進提供高效的計算支撐。

雲知聲 AI 全棧能力再獲突破!人臉識別技術達業界領先水平

<strong>基於 Atlas 計算平臺和 UniFlow 計算框架,雲知聲實現在統一計算框架體系下的計算高效率和算法高產出,通過協同利用 AI 底層研發的技術成果,進而實現在人工智能的多個應用領域的快速拓展,從語音識別(ASR)、語義理解(NLU) 到機器翻譯(NMT)、計算機視覺(CV)等新的人工智能技術領域。

值得一提的是,在今年5月份的WMT2018國際機器翻譯大賽中英翻譯比賽中,組建不足一年的雲知聲NMT機器翻譯團隊首戰即斬獲英中第二、中英第四,綜合第三(BLEU關鍵評分僅次於第二名0.1)的成績,同期參賽的還有阿里、騰訊、微軟、劍橋等頂尖巨頭與高校院所。結合此次在計算機視覺領域的佳績,無疑證明了Atlas 計算平臺在雲知聲探索多模態 AI 技術能力過程中的威力與價值。

雲知聲 AI 全棧能力再獲突破!人臉識別技術達業界領先水平

<strong>雲知聲 CEO 黃偉指出,“在 LFW 和 MegaFace 評測數據集上的初露鋒芒,檢驗了雲知聲在計算機視覺研究方面的新進展,也更加堅定了我們發展多模態 AI 能力的信心。但是,從另一方面來看,技術的最終目的是落地,由單純算法所驅動的技術差距實際上正在變得越來越小,如何將技術落地到場景才是所有的 AI 公司應該關心和考慮的。”

在技術場景化應用方面,雲知聲無疑擁有領先優勢。目前,雲知聲領先的語音技術已在包括家居、車載、醫療、教育、金融、零售等多個領域實現落地。與此同時,在汽車行業,雲知聲已與吉利汽車達成合作,共同研發融合語音、計算機視覺等技術的車規級前裝 AI 芯片。可以想象的是,伴隨著計算機視覺技術的成熟,智能語音與計算機視覺技術的深入結合,將進一步豐富雲知聲 AI 產品與服務的形態,也將有效提升用戶的使用體驗。


分享到:


相關文章: