12.18 對話雪湖科技王韻——FPGA 已經到了火山口

上海雪湖科技有限公司成立於2017年9月,專注於深度學習加速器和FPGA硬件加速,目前已獲得包括美圖公司在內的2輪投資。可為人工智能、金融交易、工業控制、生物醫藥、氣象研究等提供一站式FPGA加速技術解決方案。



對話雪湖科技王韻——FPGA 已經到了火山口


FPGA已經到了火山口的狀態。


雪湖科技COO王韻做出這種判斷,是基於AI、5G等帶來的數據量指數級增長的需求。對於大規模並行計算,FPGA是一個非常核心的選擇。


根據MRFR統計,2018年全球FPGA市場規模為60億美元左右,而隨著AI+5G的應用逐步展開,市場規模有望在2025年達到125億美元,年複合增長率為10.22%。其中在亞太地區,尤其是在中國,由於新興基礎建設應用的鋪開,FPGA的複合增長率有望高於其他地區,成為重要的增量市場。


除了AI、5G,汽車也是重要的驅動力。隨著智能駕駛的推進,車上的數據運算規模將比傳統汽車達到十倍、甚至百倍的增長。由於汽車對於實時性的高要求,導致它無法進行數據上雲,而現有的車身運算架構,更適合進行控制,完全無法支撐未來的運算規模。況且,未來還有車與車之間的通信,還有海量的大規模數據爆發的場景。


FPGA不是小賽道!


我很好奇雪湖科技當時為什麼選擇FPGA這個小賽道,畢竟這是個被巨頭和寥寥可數的幾家公司長期主導的市場,不乏“不差錢”的創業公司已經死在半路上。


王韻並不這樣看,他認為FPGA是一個絕對值得憧憬的大賽道。相對於全球4000億芯片市場規模,FPGA現在60億的規模雖然並不大,但是根據測算,它有望在5年內增長到200億。如果再放到應用市場去看,將會是乘以10的規模。

雪湖科技在2017年成立時,就已經看到了整個行業的大趨勢。而最重要的是,一切都源於核心團隊的早期積累,以及對FPGA創業的衝動和熱情。


“我們公司都是一幫特別喜歡FPGA的人,比如CEO張強,早些年曾以核心開發人員的身份參與了多個全球性的FPGA科研項目,和NASA、美國國家癌症中心和國內的科研院所都進行過合作”,王韻介紹。


張強做過的一個很有名的項目是比爾蓋茨基金旗下的“激光打蚊子”,曾經獲得了該年度“福布斯全球十大發明”之一。這個項目的目的是幫助非洲消滅瘧疾的主要傳播者——蚊子。生化方面的方案由於不夠環保,因此選擇了激光這一手段,張強團隊負責整個項目的算力部分。整個方案最大的難點在於,要在高速攝像頭取景框中同時抓取到的4000多隻蚊子中,區分出公蚊子、母蚊子甚至還有蜜蜂。而這還不夠,由於只有母蚊子才叮人,因此需要精確識別出母蚊子,再控制激光頭打掉它的翅膀(至於為什麼不直接消滅蚊子而是隻打掉它的翅膀?原因在於採用的是小功率的民用激光頭,能量不足以消滅掉它,但打掉翅膀就等同於喪失了叮咬能力)。


整套方案基於非常精妙的設計和環環相扣的運算,而要完成這樣的運算,對於芯片的硬件性能要求非常高。該方案的所有視覺處理運算,都是通過FPGA來完成的。


不只是CEO,王韻本人也是半導體領域的資深人士。他是日本國立九州大學碩士,師從著名的產業經濟學教授山崎朗,曾就職於富士通集團,任職亞太區高管。在半導體領域多年的從業經歷,使他注意到了摩爾定律下的半導體工藝紅利消失後,算力即將出現的巨大缺口。“你不覺得嗎?FPGA是一個很神奇的芯片,它打通摩爾定律,可以發揮軟件人的能力來定義硬件,可以幫助實現很多數據運算、完成加速,太多的機會可以去開拓了”,王韻興奮地表示。


FPGA加速三大場景——AI、圖片/視頻、仿真


FPGA是加速許多計算工作負載的出色平臺,特別是那些數據通路適用於大規模並行運算的工作負載。FPGA可以通過在硬件中實現重要的計算密集算法塊來減少對傳統處理器的調用,從而大幅減少延遲、降低功耗。


FPGA在AI方面的加速能力有目共睹。深度學習是近幾年AI的主要推動力,它需要大量的並行計算。GPU在深度學習訓練方面成為主流,但是,在大規模推理部署和一些對延時敏感的場景,FPGA由於具有更好的性能功耗比,且基於門級電路設計使得FPGA是一個低延時的方案,此外,其可編程性及動態可重構可以適應算法的變化,I/O可編程性可以滿足更多業務需求(例如網絡加速、邊緣計算等),因此基於FPGA的加速方案越來越盛行。


AI之外,加速場景其實很多。


圖片/視頻可能會是即將爆發或是正在爆發的下一個場景。今年雙11,淘寶/天貓APP、網頁端,實現不同格式或分辨率的圖片轉碼全部由FPGA來完成的。“這就是一個非常明顯的趨勢”,王韻提到,“隨著交易量的攀升,這個需求還會變大。特別是現在還不止圖片瀏覽,還有直播等多種形態的出現。”


根據預測,到2022年,視頻將佔據全球80%的移動數據流量。而FPGA可以實現運算加速、內存加速、智能網卡加速等等。


第三個有希望普及的場景就是計算機仿真,但前提是算力需要足夠的便宜。王韻分析,計算機仿真已經開始有民用化的趨勢。最早計算機仿真用於航天領域,被NASA用於對航天飛機進行損傷評估。後來,由車企引入汽車設計的最後流程中,通過仿真對設計的合理性、疏漏等進行評估。與傳統的方式相比,大大縮短了造車的時間週期。


那麼未來,有沒有更多場景會用到基於FPGA加速的仿真?王韻認為關鍵在於“算得夠快、算得便宜”,當這個問題得解時,一定會存在越來越多的可能性。


互聯網廣告和內容點擊率的新風口


看到了互聯網公司對廣告投放、內容點擊率的痛點後,雪湖科技推出了“Wide and Deep”FPGA加速器。這是一個什麼樣的方案?


你可能有和我一樣的感覺,雲音樂推薦的“今日歌單”,抖音上的短視頻,購物APP的“猜你喜歡”,怎麼就那麼懂我?


其實,這些推送都是由機器學習搭建的推薦系統預測的結果。


推薦系統中,CTR(Click-Through-Rate,點擊率)至關重要。這就需要更為精準的推薦和投放。2016年,谷歌提出了“Wide and Deep”算法模型,現在已經被Facebook、Youtube等國際領先的互聯網公司廣泛使用。


“Wide and Deep”模型主要包括LR和DNN兩部分。這就好比融合了人類從認知學習過程中演化而來的記憶和學習能力:從出生開始,我們不斷學習知識,通過記憶達到見多識廣的效果。然後通過歷史知識泛化(generalize)到之前沒見過的。當然,由於泛化的結果不一定都準確,可以通過記憶(memorization)修正泛化的規則(generalized rules),作為特殊去處理。這就是“Wide and Deep”的學習方式。


舉個例子:推薦系統通過歷史數據知道“喜歡吃水煮魚”的人也“喜歡吃回鍋肉”,當輸入為“喜歡吃水煮魚”,推出“喜歡吃回鍋肉”。這部分就是它的記憶能力。


而通過推斷在歷史數據中從未見過的情形,由“喜歡吃水煮魚”,“喜歡吃回鍋肉”,推出喜歡吃川菜,進而推薦出其他川菜,這就是泛化能力。


但是,模型普遍都存在兩個問題:

a) 偏向於提取低階或者高階的組合特徵,不能同時提取這兩種類型的特徵。

b) 需要專業的領域知識來做特徵工程。


當輸入一些之前沒有學習過的數據時,模型表現不夠優秀,此時單單依賴記憶能力是不夠的。通過在CTR模型中引入深度學習,能夠達到更好的效果。深度學習構建多層隱層,通過FC(全連接)的方式挖掘到特徵與特徵之間的深度隱藏的信息,來提高模型的泛化能力。最終將這兩部分的輸出通過邏輯迴歸,就得出預測類別。


由於部署於GPU的成本高,這一算法以往採用CPU來加速,但性能並不理想。那麼,雪湖科技是如何通過FPGA來實現的呢?


據王韻介紹,在完成推薦過程時,會根據用戶信息提取用戶自畫像和商品屬性,輸入到模型,再根據相應算子得出最終結果。基於賽靈思FPGA構建出的“Wide and deep”加速器,能夠根據模型API製作出雪湖科技API,再由自研發的工具包將模型和數據轉換為可由FPGA處理的數據,從而快速計算出結果。


將結果進行處理和排序也就是我們日常可見的推薦界面了。由於不同的用戶有不同的個人信息和喜好,經過模型計算也會有不同的結果,也就對應出不同的推薦內容了。


對話雪湖科技王韻——FPGA 已經到了火山口


相較於CPU服務器,基於FPGA加速器打造的這一解決方案將吞吐量提高了3~5倍,性價比是CPU的5.5倍。對推薦系統動輒上億、幾十億的部署,帶來巨大的經濟效益。


雪湖科技和賽靈思已經共同推出了由Alveo U200加速卡支持實現的“Wide and Deep廣告推薦算法加速解決方案”,相較於CPU服務器,把吞吐量提高了3~5倍,加上功耗更低,其TOC(總體擁有成本)是CPU雲的5倍以上。一組廣告預估CTR數據顯示,綜合成本、性能來看,這一FPGA加速器產品相對CPU呈現出了絕對優勢。


考慮到大型推薦系統的上線都是通過雲端部署,同時用在線和離線方式更新模型。雪湖科技還把以Wide and Deep為基礎網絡的模型移植到阿里雲FPGA服務器F3上,用戶可以通過鏡像文件部署。根據最近的更新數據顯示,模型精度損失可控制在十萬分之二。當模型更新時,通過雪湖科技提供的專有工具可直接載入模型參數,可做到一鍵式更新模型參數。


我們不一樣——用ASIC的方法開發FPGA


基於在半導體領域數十年摸爬滾打的經驗,雪湖科技團隊對FPGA的理解更為深刻,也使得他們在成立短短兩年內取得了快速的發展。


王韻說,“我們有一句口號,叫做‘一樣的FPGA,不一樣的加速’。同樣一個芯片,經過我們軟件開發後,跟別人開發達到的性能是完全不一樣的。我們的產品思路是:用ASIC的方法去開發FPGA,也許在物理上無法實現,但是可以去無限接近ASIC的水平。當它無限接近時,一部分ASIC市場,就會變成FPGA的市場。”


不過,王韻並不認為未來ASIC、GPU或是FPGA中的哪個會吃遍天下,而一定是共存的狀態,只不過各有自己更適合的場景。


雪湖科技還有一句口號,印在公司的文化衫背後——“願算力與你同在”。這句源於王韻由兒子的星際大戰玩具得到的靈感,蘊藏了兩重深刻含義:第一,表明他們是聚焦於算力的公司;第二,也是雪湖科技的願景,是他們希望達成的終極目標。


伴隨著數字化的發展,算力的缺口一直存在,且正在因為AI的發展不斷增大。雪湖科技的切入點從FPGA加速開始,通過算法提升來幫助客戶解決算力問題。而AI只是雪湖科技的標籤之一,FPGA的應用開發和硬件加速絕對並不侷限於AI。


未來,算力提升的關鍵是什麼?王韻認為,首先硬件方面的提升是根本,但是,軟件會變得越來越重要。


FPGA的軟件定義能力,就像是ASIC的前端設計能力一樣重要。以拼樂高來打比方,同樣的一盒樂高,最終的作品可能天壤之別,這就是軟件的能力不同所導致的。“這也就是為什麼雪湖科技從軟件的角度切入來提升算法,因為它能夠跨越芯片本身的物理特性,隨著需求的提升而變化。軟件在算力提升方面變得越來越重要”,王韻表示。


“需要什麼樣的人才我們自己培養”


在FPGA 200億市場的爆發前夜,雪湖科技有一個重要且緊急的問題擺在面前,那就是“人”的問題。國內的FPGA工程師總量並不多,且多數集中在通信領域和科研院所,這種情況下,吸引優秀人才變得難上加難。


據王韻介紹,他們可能是國內創業公司中為數不多的把內部培訓當做差異化競爭力的企業。“雪湖極客學院”專門給新入職的工程師提供培訓,而且執行非常嚴格的考試和淘汰制度,三個月的培訓結束後,會有隆重的畢業典禮、正式的畢業證書頒發。


這樣一套體系固然有利於新人的培養,但是,很有可能就會成為一個費力不討好的“賠本”生意:三個月的培訓期間,工程師帶薪學習,零工作量、零業績,只需要專心學習。對於初創公司,這絕對是一筆不小的投入。“拿來主義”可不可以?通過高薪挖人、讓人才迅速創造價值,不是更為便捷?


王韻的答案是:在國內FPGA工程師總量就很少的情況下,互相爭奪人才,不利於市場的增長和長遠發展。必須解決了人的問題,未來才有可能進一步做大。


雪湖極客學院的內訓課程,整套制度設計由王韻和CEO張強兩人共同完成。目的就是為了保證能在最短時間內,培養出能夠快速上手的優秀人才。就好比造房子,以前可能需要從拌水泥、黃沙做起,因此需要掌握配比和其他基本的知識。但現在相當於直接給你預製板了,造房子的速度會加快,能夠把更多的精力放在怎麼把房子造得更好這件事上。


雪湖極客學院正在逐漸發揮出作用。第一,員工在這個體系中,可以快速成長並得到成就感;第二,利於雪湖科技正在快速形成規模化的軟件生產能力、開發能力,在人才建設上與其他創業公司拉開差距。


“需要什麼樣的人才,我們可以自己培養”,王韻自信地說。


我沒有問他坐在火山口上是一種什麼樣的感覺,應該是一種焦灼又幸福的等待吧。


分享到:


相關文章: