挑戰雲端AI訓練領域,中國芯「邃思」背後的故事 | 專訪燧原科技張亞林

2020年,人工智能應用範圍繼續擴大,而算力作為承載人工智能應用的驅動力,推動了整個人工智能產業的演進。AI 芯片為雲、邊、端多方協同提供了必要的算力支持,自然成為國內外工業界和學術界共同角逐的熱點。

AI 雲端訓練芯片設計難度大、行業壟斷程度高,能獨立完成設計、流片,並實現量產和落地商業化的國產芯片企業屈指可數。燧原科技就是其中一家。

10月28日,燧原科技專為人工智能應用開發的雲端訓練加速芯片“邃思”(DTU, Deep Thinking Unit),獲評由中國電子信息產業發展研究院評選的“中國芯”年度重大創新突破產品獎。這一獎項面向“有重大技術創新、填補國內技術或市場空白,對完善自主供應鏈具有較大貢獻且產生較顯著經濟社會效益的單款芯片產品”,邃思芯片是僅有的四款獲獎產品之一。

挑戰雲端AI訓練領域,中國芯「邃思」背後的故事 | 專訪燧原科技張亞林

邃思芯片趕上了行業商業化價值爆發的關鍵時期。據市場研究機構Tractica預測,全球 AI 芯片市場規模將由 2018 年的 51 億美元增長到 2025 年的 726 億美元,CAGR 將達 46.14%。據 IDC 預計,到 2025 年,中國將擁有全球數據量的 27.8%。隨著數據量的爆發式增長,人工智能應用場景越來越豐富,對於算力的巨大需求讓中國 IC產業面臨嚴峻的挑戰,但也蘊含了極大的機遇。

今年,國務院也發佈《新時期促進集成電路產業和軟件產業高質量發展的若干政策》,從財稅、投融資、研究、人才、知識產權、市場應用和國際合作等組合措施,重點支持集成電路企業及其相關產業鏈的發展。

中國芯片市場需求旺盛,但國產品牌要撬動巨頭的壟斷局面並不容易。艾瑞諮詢發佈的2019年《AI芯片行業研究報告》指出,目前AI芯片行業接近Gartner技術曲線泡沫頂端,只有通過市場檢驗和篩選的優質團隊才能夠繼續獲得產業、政策和資本的青睞與支持。

在這樣的背景下,燧原科技是如何快速完成自主設計、流片、量產?又是如何在行業高度壟斷的環境下推進商業化?帶著這些問題,我們採訪了燧原科技創始人兼COO張亞林。

挑戰雲端AI訓練領域,中國芯「邃思」背後的故事 | 專訪燧原科技張亞林

以下為36氪與張亞林的訪談內容整理。

18個月裡一次性流片成功,設計與量產均自主完成

獲得了“中國芯”年度重大創新突破產品獎的邃思芯片,從架構設計、產品設計到軟硬件開發、流片,甚至到量產的所有環節,全部是由燧原科技團隊獨立完成的。

作為一家以高端人工智能訓練產品切入數據中心市場的初創公司,燧原科技僅經歷 18 個月的高強度開發,就於 2019 年 12 月發佈了“邃思”人工智能訓練芯片和基於“邃思”芯片的人工智能訓練加速卡“雲燧 T10”。

Q:AI訓練芯片“邃思”能在18個月裡一次性流片成功,背後主要的原因是什麼?

張亞林認為主要原因有三個。“第一,我們設定了‘高舉高打’的目標和踏實聚焦的執行計劃;第二,我們組建了非常優秀的研發團隊,並得到了業內眾多戰略伙伴的大力支持;第三,我們有一套系統化的項目管理制度,保證項目的每一個里程碑都可以順利達到。”

張亞林認為,正是“做大芯片,拼硬科技”的初心,在創業之初吸引了志同道合的夥伴,迅速組建了團隊。在開發第一個芯片時,全公司只有150人左右。“從產品定義、架構設計,到芯片的研發、流片再到後續的產品測試驗證、量產等等,這150人組成了一個全鏈路的團隊。”張亞林說。

燧原科技的團隊成員基本集中在上海張江和北京中關村——兩個中國歷史最悠久的集成電路研發中心。所有員工的平均工作年限達到 10 年,很多工程師甚至有超過15年的研發經驗。“他們中的絕大多數人來自於業內知名的半導體公司和軟件、互聯網企業。”張亞林說。

Q:在整個研發過程之中,最困難的是哪個環節?

“我認為最難的部分有兩個——一頭一尾。”張亞林說。

他回憶,2018 年 4 月,燧原科技啟動邃思芯片項目時,全公司只有 3 個人,“連電腦、開發環境都要從頭準備”。從產品定義、團隊招募,到與產業鏈上下游夥伴合作,直至 2019 年 5 月成功流片。

“尾”指的是量產環節。用張亞林的話來說,“從前期設計到成功完成流片,其實也只是走了整條路的一半。”

實際上,從芯片回到實驗室裡點亮,再到量產,還需要將近一年的時間。在這一年的時間裡面,有很多困難要攻克,比如芯片的良率、散熱、穩定性、可靠性、以及成本的控制,性能的優化等等,這些問題涉及到很多的核心技術。

“通常,如果你沒有參與過大規模量產大芯片,你是不會掌握這種核心技術的。”張亞林說。“我們比較幸運的是,建立了一支完整建制的產品設計和量產團隊。很多團隊成員擁有大芯片大規模量產的經驗,所以我們才能順利完成整個流程。”

Q:目前芯片的產能情況如何?如何控制成本?

據張亞林介紹,在打通了量產流程後,燧原科技在芯片產能上發揮穩定。

“大芯片的良率和散熱穩定性是很有挑戰的。我們在量產過程中跟GlobalFoundry和日月光進行了非常緊密的合作,目前我們的良率已經完全符合了GlobalFoundry關於良率的指引。”張亞林說。

同時,燧原科技通過用驗證方法學和驗證覆蓋率來確保芯片設計質量和製造質量,並通過軟硬件聯合性能以實現端到端的性能調優,保證了產品質量。

“今年我們做了提前備貨,同時優化供應鏈,所以在整個供應鏈上供貨充分。又因為我們的量產環節沒有外包,因此成本的優化和控制權全部掌握在自己團隊的手裡。”張亞林說。

既有高算力,又有靈活性,“高性價比”的國產芯片

2020年,AI芯片市場理性迴歸,投資人開始更多地關注算力和功效之外的問題,比如產品進入了哪些場景、合作了哪些客戶、有沒有軟硬一體化的方案等等。“AI落地難”已成行業共識。

特別是在雲端 AI 芯片領域,因為海外市場起步早,且所需要協同的CPU/GPU等硬件成本投入規模高,該領域幾乎已被英偉達一家壟斷。

Q:相比GPGPU方案,邃思芯片有什麼競爭優勢?國產品牌挑戰傳統巨頭,關鍵難點在於什麼?

“邃思芯片專為 AI 深度學習應用設計,支持計算機視覺、語音識別、自然語言處理,機器學習知識圖譜等 AI 模型訓練所需要的性能,存儲帶寬以及互聯。在保持高度的靈活性、可編程擴展的同時,在算力、能效比、性價比等維度上具有競爭優勢。”張亞林說。

GPGPU全稱 General Purpose Computingon Graphics Processing Unit,即能夠進行通用計算的圖形處理器(GPU)。目前在全球範圍內,實現 GPGPU 大規模落地商用的唯有英偉達,國內在這一領域的缺口還很明顯。但目前GPGPU正在向分離的計算產品和圖形產品進化,分別優化架構,而不再合併。比如英偉達的Telsa系列和RTX系列以及AMD的CDNA和RNDA,都是計算和圖形分離的典型例子。計算的產品和架構主要用來做純粹的 AI 和科學計算,而圖形的產品和架構則主要是做遊戲相關的加速。

考慮到遷移成本和風險,國產芯片必須在性能上比肩國際巨頭,並同時具備可編程擴展的靈活性,並擁有用戶友好的軟件系統,才能吸引用慣了巨頭產品的客戶選擇自己的解決方案。

張亞林認為,要挑戰巨頭,需要關注三點:第一是產品定位。第二是產品生態,第三是持續與國際巨頭差異化競爭。

關於產品定位,張亞林解釋說,“我們會盡可能地幫客戶降低訓練產品遷移的成本,同時,做好技術支持工作,讓我們的產品成為客戶的第二選擇,幫助他們的降本增效。”

第二,在產品生態方面,張亞林認為,燧原想要做的是瞭解客戶的真正需求,在場景上進行更多更深入地分析,採取多點突破,結合開源,從而構築自己新的客戶生態。

最後,從長遠來講,“燧原目前還是一家初創公司,我們需要在整個產品的架構設計、生態打法、客戶關係上,通過幾代產品的迭代,慢慢在我們擅長的領域裡面,真正與國際大廠形成差異化,為客戶提供更多的價值。”張亞林說。

Q:燧原GCU芯片架構的獨特之處體現在哪裡?

值得一提的是,邃思DTU的創新之處,在於它基於自研核心IP和創新系統方案,具有完全自主知識產權的燧原GCU芯片架構。這是燧原科技區別於其他芯片公司的優勢之一。

張亞林介紹說,燧原的GCU結構專為計算搭建,沒有帶入任何的圖形化部分,但是包羅了所有AI計算的模式和精度。“這使得我們的整個芯片的計算架構非常的單純,是我們能夠進行高效和高性價比運算的原因。”

在運算過程中,燧原 GCU架構引入了雲端 AI 計算引擎(GCU-CARE),數據架構(GCU-DARE),智能互聯(GCU-LARE)和先進封裝(GCU-PARE)4個部分。

其中,雲端AI計算引擎具有全域支持多數據格式、超高算力、可靈活編程等特點;數據架構具有可編程共享緩存調度,異步數據加載,提高運算並行度的特性;智能互聯芯片4通道200GB/s高速互聯,服務器內800GB/s高速互聯;先進封裝採用全覆蓋仿真設計方法學,先進高並行設計流程。

“燧原 GCU 架構的這 4個部分,共同構成了一個完整的芯片架構,也使芯片能夠在AI訓練和推斷裡發揮更大的計算效能。”張亞林說。

挑戰雲端AI訓練領域,中國芯「邃思」背後的故事 | 專訪燧原科技張亞林

從芯片設計的實驗室走出,在商業化的峽谷中落地

雖然國產雲端AI芯片的商業化落地並非易事,但從中長期維度上,擴張半導體行業成長的邊界因子依然存在。考慮到國內市場的充足需求,這是一塊很大的蛋糕。

關於投資人最關注的商業化問題,燧原科技有一個三年為期的計劃。張亞林認為,燧原的商業化已經完成了從 0 到 1,接下來是從 1 到 N 的進程。

Q:目前邃思芯片與雲燧T10訓練加速卡的商用進展情況如何?落地難度大嗎?

張亞林認為,目前燧原科技的商業化進程“已經完成了從0到1”,因為搭載邃思芯片的“雲燧T10”組成的分佈式集群已順利落地,邃思芯片已經在頭部客戶的數據中心裡正式開始業務運作。“接下來,我們會拓展客戶群體,搭建客戶生態。”張亞林說。

現在,公司的商業化正在“從1到N的過程”,張亞林告訴36氪,接下來,燧原科技會選擇戰略客戶和應用高地,“在每一個戰略客戶、應用高地上進行生態的打磨。”

相比國際巨頭,燧原科技這支中國團隊也具有“主場優勢”。張亞林認為,燧原本土化的團隊可以給中國客戶及時的支持,展現出更多的靈活性。“我相信未來我們的商業落地速度會大大加快。”

Q:接下來燧原科技的中期目標和長期目標分別是什麼?

張亞林介紹說,燧原科技的中期目標,是“利用三年的時間,完成整個雲端的AI訓練和推斷產品部署,完善生態,讓燧原科技在中國的雲端 AI 芯片領域成為頭部企業。”

“未來,我們希望能夠長期聚焦發展數據中心業務。”張亞林說。“不僅限於 AI,我們希望能夠給中國的數據中心帶來高科技的產品和更廣泛的系統生態。”


分享到:


相關文章: