老師木:有了Tensorflow,為什麼我們還需要另外一個深度學習平臺框架|GIAC 訪談

在大會前夕,高可用架構採訪了本屆大會講師老師木,就目前業界非常熱門的機器學習話題進行了探討。

老師木,本名袁進輝。 2003 年 7 月畢業於西安電子科技大學計算機學院,並被免試推薦入清華大學計算機系攻讀博士學位,師從張鈸院士,研究方向為計算機視覺及機器學習, 2008 年 7 月獲得工學博士學位,博士論文獲得清華大學優秀博士學位論文獎,同年留校做師資博士後,參與計算神經科學方向的學科建設,與李兆平等國際知名學者合作開展神經科學方面的理論研究。

2004 至 2007 年參與美國國家技術標準局組織的視頻檢索評測,獲得多項第一。 2010 年,與國家體育總局合作,負責研發斯諾克比賽“鷹眼”系統,面世後取代英國鷹眼系統服務於各項國際大賽,並被國家隊作為日常訓練輔助系統。

2011 年加入網易,任高級應用研究員。 2012 年作為早期成員加入 360 搜索團隊,一年之後,產品上線成為國內市場份額第二的搜索引擎。 2013 年加入微軟亞洲研究院,主要從事大規模機器學習平臺的研發工作。 2014 年,首次將訓練 LDA 主題模型的吉布斯採樣算法的計算複雜度降到單個詞為常數級,基於該算法的分佈式實現僅需數十臺服務器即可完成以往數千臺服務器才能完成的任務,應用於微軟在線廣告系統,被主管研究的全球副總裁周以真女士稱為”年度最好成果“。 2015 年至 2016 年底,專注於搭建基於異構集群的深度學習平臺,項目榮獲微軟亞洲研究院院長特別獎 。

2017 年創立北京一流科技有限公司,著力打造下一代分佈式深度學習平臺。

高可用架構:老師木你好,很多讀者應該都知道你離職創業了,但是還不太清楚你們做的產品和要解決的問題,能否介紹一下?

老師木:目前唯一的產品是深度學習平臺或框架,市場定位和和 Google 的 Tensorflow, Facebook 的 Pytorch, Caffe2, Amazon 的 MxNet, Microsoft 的 CNTK, Baidu 的 PaddlePaddle 完全一樣。要解決深度學習開發者在易用性和擴展性方面遇到的痛點。

老師木:相同之處在於市場定位,面向的客戶一樣,不同在於大家的技術路線不同。每一個經典的軟件解決方案背後都有獨特,強大的需求在推動。新的業界需求出現時,解決方案呈現百花齊放,百家爭鳴的局面,但必然會演進收斂到一種業界公認的 best practice。正像結構化數據的存儲和查詢催生了數據庫,大規模離線批處理的需求孕育了 Hadoop。我們相信,深度學習平臺技術仍未收斂,我們走在一條實現易用性和擴展性的必由之路上。

高可用架構:這種機器學習平臺最後會形成事實標準麼?

老師木:“事實工業標準”和“工業標準”不同,既不是廠商宣稱的,也不是權威組織欽定的,是用戶選擇的結果,是無冕之王。最好地滿足用戶需求是我們的唯一目標,能不能成為事實工業標準,要看用戶和開發者認不認可。關於機器學習平臺,現在還不好說哪一個會成為標準,但一定會出現一個。

機器學習肯定離不開數據,同時也需要分佈式計算平臺,怎麼看待機器學習和大數據平臺(比如:各種分佈式數據庫)以及分佈式計算調度平臺(比如: yarn, kubernetes)的結合形式?

首先,我堅信,各種業務最終一定會走向“數據驅動”的模式,正如之前的搜索,廣告,推薦系統,用戶畫像,金融風控,未來的自動駕駛等等。數據驅動的業務模式依賴於一整條數據加工分析的流程,包括數據的採集,存儲,清洗,分析,預測,診斷,可視化等等,機器學習只是這個鏈條中的一環。所以,機器學習和大數據平臺不是並列的關係,機器學習平臺只是廣義上大數據平臺的一部分。當前,在各個環節都發展出來一些廣為用戶接受的技術平臺,譬如分佈式存儲和分析 Hadoop, Hbase, Spark,這些系統在數據存儲和清洗階段仍是當前最好的選擇,使得開發,部署和運維更加便利的 Docker,分佈式資源管理和調度利器 Kubernetes, Yarn 等等。機器學習平臺一定要和這些上下游的開源工具有機銜接成為一個整體。我們的想法也是,弱水三千,只取一瓢飲,不求面面俱到,只把我們最擅長的事做到最好。

高可用架構:機器學習的平臺如果切入到軟件研發流程裡,理想的形態是什麼樣的?它和當前的業務系統應該如何交互?最後輸出的能力應該如何應用到業務系統中?

一個軟件的基本功能是根據業務邏輯對輸入數據反應產出合適的輸出。在傳統的軟件研發流程裡,軟件的業務邏輯全部由程序員編碼完成。在數據驅動型的軟件研發流程中,程序員只負責一部分程序的編碼工作,還有一部分程序是由機器學習軟件根據訓練數據推導生成的(可以把機器學習訓練得到的模型理解成一種程序)。機器學習軟件根據數據推導出的程序取代了一部分原本需要領域專家和程序員協作完成的那部分代碼,機器生成的程序比人工編寫的程序更加強大,更準確,更魯棒。機器學習平臺軟件在數據驅動的業務流程中的扮演角色是,利用更多的數據,更快的推導出準確率更高的程序。

高可用架構:現在機器學習領域的創業,除了像你們這樣做基礎設施平臺的,還有哪些方面的機會?

在整個機器學習領域的創業形式中,可以看到幾種模式,基於垂直場景的,基於算法的,基於計算力(軟件或者硬件)。 90% 以上的都屬於第一類,都是機器學習技術和場景相結合的模式,例如金融,醫療,自動駕駛。幾乎沒有基於算法的創業模式 (OpenAI, ElementAI 除外),一般算法專家都聚集在大學,研究所和大公司研究院。可能有 10% 的創業是圍繞計算力的,其中絕大部分都是聚焦在硬件領域,譬如各種 AI 專用芯片,像我們這樣聚焦在計算力的軟件平臺上的創業公司可以說非常另類,只有 Google, Amazon, Facebook, Microsoft, Baidu 這樣的巨頭在做類似的事情。總體上,從業者在“ AI+ 場景”這種模式裡的機會非常多。

高可用架構:現在機器學習很火,很多人擔心不學習機器學習感覺就要落伍了,對工程背景的研發工程師來說,如何應對這波浪潮?是否適合切入到這個領域?如何切入?

上文提到可以把機器學習理解成機器自動從訓練數據中推導出程序,這種自動生成的程序在某些方面可以比程序員的作品更加優秀。說的危言聳聽一點,機器學習在一些重要的商業場景已經證明了它可以取代一部分程序員(當然,機器學習程序本身也是程序員的工作成果)。

無論從好奇心,還是功利的角度看(機器學習一般意味著更高薪水的職位,更高的工作效率),工程背景的研發工程師都有必要去擁抱這一新生事物並思考機器學習能不能給自己正在做的工作帶來收益。機器學習的門檻並沒有想象的那麼高,而且門檻會越來越低,機器學習工具會變成像結構化數據庫一樣的標準軟件組件。

高可用架構:最後您對 GIAC 有什麼期望和寄語麼?

GIAC 互聯網架構大會已經是技術同行分享信息和見解的專業平臺,期待架構大會涵蓋面更廣,探討的話題更深入,在科普會議和專業學術會議之間獨樹一幟。

本期 GIAC 大會上,機器學習部分精彩的議題如下:

老师木:有了Tensorflow,为什么我们还需要另外一个深度学习平台框架|GIAC 访谈

注:出品人及演講議題以最新官網 http://2017.thegiac.com 為準。


分享到:


相關文章: