12.18 对话雪湖科技王韵——FPGA 已经到了火山口

上海雪湖科技有限公司成立于2017年9月,专注于深度学习加速器和FPGA硬件加速,目前已获得包括美图公司在内的2轮投资。可为人工智能、金融交易、工业控制、生物医药、气象研究等提供一站式FPGA加速技术解决方案。



对话雪湖科技王韵——FPGA 已经到了火山口


FPGA已经到了火山口的状态。


雪湖科技COO王韵做出这种判断,是基于AI、5G等带来的数据量指数级增长的需求。对于大规模并行计算,FPGA是一个非常核心的选择。


根据MRFR统计,2018年全球FPGA市场规模为60亿美元左右,而随着AI+5G的应用逐步展开,市场规模有望在2025年达到125亿美元,年复合增长率为10.22%。其中在亚太地区,尤其是在中国,由于新兴基础建设应用的铺开,FPGA的复合增长率有望高于其他地区,成为重要的增量市场。


除了AI、5G,汽车也是重要的驱动力。随着智能驾驶的推进,车上的数据运算规模将比传统汽车达到十倍、甚至百倍的增长。由于汽车对于实时性的高要求,导致它无法进行数据上云,而现有的车身运算架构,更适合进行控制,完全无法支撑未来的运算规模。况且,未来还有车与车之间的通信,还有海量的大规模数据爆发的场景。


FPGA不是小赛道!


我很好奇雪湖科技当时为什么选择FPGA这个小赛道,毕竟这是个被巨头和寥寥可数的几家公司长期主导的市场,不乏“不差钱”的创业公司已经死在半路上。


王韵并不这样看,他认为FPGA是一个绝对值得憧憬的大赛道。相对于全球4000亿芯片市场规模,FPGA现在60亿的规模虽然并不大,但是根据测算,它有望在5年内增长到200亿。如果再放到应用市场去看,将会是乘以10的规模。

雪湖科技在2017年成立时,就已经看到了整个行业的大趋势。而最重要的是,一切都源于核心团队的早期积累,以及对FPGA创业的冲动和热情。


“我们公司都是一帮特别喜欢FPGA的人,比如CEO张强,早些年曾以核心开发人员的身份参与了多个全球性的FPGA科研项目,和NASA、美国国家癌症中心和国内的科研院所都进行过合作”,王韵介绍。


张强做过的一个很有名的项目是比尔盖茨基金旗下的“激光打蚊子”,曾经获得了该年度“福布斯全球十大发明”之一。这个项目的目的是帮助非洲消灭疟疾的主要传播者——蚊子。生化方面的方案由于不够环保,因此选择了激光这一手段,张强团队负责整个项目的算力部分。整个方案最大的难点在于,要在高速摄像头取景框中同时抓取到的4000多只蚊子中,区分出公蚊子、母蚊子甚至还有蜜蜂。而这还不够,由于只有母蚊子才叮人,因此需要精确识别出母蚊子,再控制激光头打掉它的翅膀(至于为什么不直接消灭蚊子而是只打掉它的翅膀?原因在于采用的是小功率的民用激光头,能量不足以消灭掉它,但打掉翅膀就等同于丧失了叮咬能力)。


整套方案基于非常精妙的设计和环环相扣的运算,而要完成这样的运算,对于芯片的硬件性能要求非常高。该方案的所有视觉处理运算,都是通过FPGA来完成的。


不只是CEO,王韵本人也是半导体领域的资深人士。他是日本国立九州大学硕士,师从著名的产业经济学教授山崎朗,曾就职于富士通集团,任职亚太区高管。在半导体领域多年的从业经历,使他注意到了摩尔定律下的半导体工艺红利消失后,算力即将出现的巨大缺口。“你不觉得吗?FPGA是一个很神奇的芯片,它打通摩尔定律,可以发挥软件人的能力来定义硬件,可以帮助实现很多数据运算、完成加速,太多的机会可以去开拓了”,王韵兴奋地表示。


FPGA加速三大场景——AI、图片/视频、仿真


FPGA是加速许多计算工作负载的出色平台,特别是那些数据通路适用于大规模并行运算的工作负载。FPGA可以通过在硬件中实现重要的计算密集算法块来减少对传统处理器的调用,从而大幅减少延迟、降低功耗。


FPGA在AI方面的加速能力有目共睹。深度学习是近几年AI的主要推动力,它需要大量的并行计算。GPU在深度学习训练方面成为主流,但是,在大规模推理部署和一些对延时敏感的场景,FPGA由于具有更好的性能功耗比,且基于门级电路设计使得FPGA是一个低延时的方案,此外,其可编程性及动态可重构可以适应算法的变化,I/O可编程性可以满足更多业务需求(例如网络加速、边缘计算等),因此基于FPGA的加速方案越来越盛行。


AI之外,加速场景其实很多。


图片/视频可能会是即将爆发或是正在爆发的下一个场景。今年双11,淘宝/天猫APP、网页端,实现不同格式或分辨率的图片转码全部由FPGA来完成的。“这就是一个非常明显的趋势”,王韵提到,“随着交易量的攀升,这个需求还会变大。特别是现在还不止图片浏览,还有直播等多种形态的出现。”


根据预测,到2022年,视频将占据全球80%的移动数据流量。而FPGA可以实现运算加速、内存加速、智能网卡加速等等。


第三个有希望普及的场景就是计算机仿真,但前提是算力需要足够的便宜。王韵分析,计算机仿真已经开始有民用化的趋势。最早计算机仿真用于航天领域,被NASA用于对航天飞机进行损伤评估。后来,由车企引入汽车设计的最后流程中,通过仿真对设计的合理性、疏漏等进行评估。与传统的方式相比,大大缩短了造车的时间周期。


那么未来,有没有更多场景会用到基于FPGA加速的仿真?王韵认为关键在于“算得够快、算得便宜”,当这个问题得解时,一定会存在越来越多的可能性。


互联网广告和内容点击率的新风口


看到了互联网公司对广告投放、内容点击率的痛点后,雪湖科技推出了“Wide and Deep”FPGA加速器。这是一个什么样的方案?


你可能有和我一样的感觉,云音乐推荐的“今日歌单”,抖音上的短视频,购物APP的“猜你喜欢”,怎么就那么懂我?


其实,这些推送都是由机器学习搭建的推荐系统预测的结果。


推荐系统中,CTR(Click-Through-Rate,点击率)至关重要。这就需要更为精准的推荐和投放。2016年,谷歌提出了“Wide and Deep”算法模型,现在已经被Facebook、Youtube等国际领先的互联网公司广泛使用。


“Wide and Deep”模型主要包括LR和DNN两部分。这就好比融合了人类从认知学习过程中演化而来的记忆和学习能力:从出生开始,我们不断学习知识,通过记忆达到见多识广的效果。然后通过历史知识泛化(generalize)到之前没见过的。当然,由于泛化的结果不一定都准确,可以通过记忆(memorization)修正泛化的规则(generalized rules),作为特殊去处理。这就是“Wide and Deep”的学习方式。


举个例子:推荐系统通过历史数据知道“喜欢吃水煮鱼”的人也“喜欢吃回锅肉”,当输入为“喜欢吃水煮鱼”,推出“喜欢吃回锅肉”。这部分就是它的记忆能力。


而通过推断在历史数据中从未见过的情形,由“喜欢吃水煮鱼”,“喜欢吃回锅肉”,推出喜欢吃川菜,进而推荐出其他川菜,这就是泛化能力。


但是,模型普遍都存在两个问题:

a) 偏向于提取低阶或者高阶的组合特征,不能同时提取这两种类型的特征。

b) 需要专业的领域知识来做特征工程。


当输入一些之前没有学习过的数据时,模型表现不够优秀,此时单单依赖记忆能力是不够的。通过在CTR模型中引入深度学习,能够达到更好的效果。深度学习构建多层隐层,通过FC(全连接)的方式挖掘到特征与特征之间的深度隐藏的信息,来提高模型的泛化能力。最终将这两部分的输出通过逻辑回归,就得出预测类别。


由于部署于GPU的成本高,这一算法以往采用CPU来加速,但性能并不理想。那么,雪湖科技是如何通过FPGA来实现的呢?


据王韵介绍,在完成推荐过程时,会根据用户信息提取用户自画像和商品属性,输入到模型,再根据相应算子得出最终结果。基于赛灵思FPGA构建出的“Wide and deep”加速器,能够根据模型API制作出雪湖科技API,再由自研发的工具包将模型和数据转换为可由FPGA处理的数据,从而快速计算出结果。


将结果进行处理和排序也就是我们日常可见的推荐界面了。由于不同的用户有不同的个人信息和喜好,经过模型计算也会有不同的结果,也就对应出不同的推荐内容了。


对话雪湖科技王韵——FPGA 已经到了火山口


相较于CPU服务器,基于FPGA加速器打造的这一解决方案将吞吐量提高了3~5倍,性价比是CPU的5.5倍。对推荐系统动辄上亿、几十亿的部署,带来巨大的经济效益。


雪湖科技和赛灵思已经共同推出了由Alveo U200加速卡支持实现的“Wide and Deep广告推荐算法加速解决方案”,相较于CPU服务器,把吞吐量提高了3~5倍,加上功耗更低,其TOC(总体拥有成本)是CPU云的5倍以上。一组广告预估CTR数据显示,综合成本、性能来看,这一FPGA加速器产品相对CPU呈现出了绝对优势。


考虑到大型推荐系统的上线都是通过云端部署,同时用在线和离线方式更新模型。雪湖科技还把以Wide and Deep为基础网络的模型移植到阿里云FPGA服务器F3上,用户可以通过镜像文件部署。根据最近的更新数据显示,模型精度损失可控制在十万分之二。当模型更新时,通过雪湖科技提供的专有工具可直接载入模型参数,可做到一键式更新模型参数。


我们不一样——用ASIC的方法开发FPGA


基于在半导体领域数十年摸爬滚打的经验,雪湖科技团队对FPGA的理解更为深刻,也使得他们在成立短短两年内取得了快速的发展。


王韵说,“我们有一句口号,叫做‘一样的FPGA,不一样的加速’。同样一个芯片,经过我们软件开发后,跟别人开发达到的性能是完全不一样的。我们的产品思路是:用ASIC的方法去开发FPGA,也许在物理上无法实现,但是可以去无限接近ASIC的水平。当它无限接近时,一部分ASIC市场,就会变成FPGA的市场。”


不过,王韵并不认为未来ASIC、GPU或是FPGA中的哪个会吃遍天下,而一定是共存的状态,只不过各有自己更适合的场景。


雪湖科技还有一句口号,印在公司的文化衫背后——“愿算力与你同在”。这句源于王韵由儿子的星际大战玩具得到的灵感,蕴藏了两重深刻含义:第一,表明他们是聚焦于算力的公司;第二,也是雪湖科技的愿景,是他们希望达成的终极目标。


伴随着数字化的发展,算力的缺口一直存在,且正在因为AI的发展不断增大。雪湖科技的切入点从FPGA加速开始,通过算法提升来帮助客户解决算力问题。而AI只是雪湖科技的标签之一,FPGA的应用开发和硬件加速绝对并不局限于AI。


未来,算力提升的关键是什么?王韵认为,首先硬件方面的提升是根本,但是,软件会变得越来越重要。


FPGA的软件定义能力,就像是ASIC的前端设计能力一样重要。以拼乐高来打比方,同样的一盒乐高,最终的作品可能天壤之别,这就是软件的能力不同所导致的。“这也就是为什么雪湖科技从软件的角度切入来提升算法,因为它能够跨越芯片本身的物理特性,随着需求的提升而变化。软件在算力提升方面变得越来越重要”,王韵表示。


“需要什么样的人才我们自己培养”


在FPGA 200亿市场的爆发前夜,雪湖科技有一个重要且紧急的问题摆在面前,那就是“人”的问题。国内的FPGA工程师总量并不多,且多数集中在通信领域和科研院所,这种情况下,吸引优秀人才变得难上加难。


据王韵介绍,他们可能是国内创业公司中为数不多的把内部培训当做差异化竞争力的企业。“雪湖极客学院”专门给新入职的工程师提供培训,而且执行非常严格的考试和淘汰制度,三个月的培训结束后,会有隆重的毕业典礼、正式的毕业证书颁发。


这样一套体系固然有利于新人的培养,但是,很有可能就会成为一个费力不讨好的“赔本”生意:三个月的培训期间,工程师带薪学习,零工作量、零业绩,只需要专心学习。对于初创公司,这绝对是一笔不小的投入。“拿来主义”可不可以?通过高薪挖人、让人才迅速创造价值,不是更为便捷?


王韵的答案是:在国内FPGA工程师总量就很少的情况下,互相争夺人才,不利于市场的增长和长远发展。必须解决了人的问题,未来才有可能进一步做大。


雪湖极客学院的内训课程,整套制度设计由王韵和CEO张强两人共同完成。目的就是为了保证能在最短时间内,培养出能够快速上手的优秀人才。就好比造房子,以前可能需要从拌水泥、黄沙做起,因此需要掌握配比和其他基本的知识。但现在相当于直接给你预制板了,造房子的速度会加快,能够把更多的精力放在怎么把房子造得更好这件事上。


雪湖极客学院正在逐渐发挥出作用。第一,员工在这个体系中,可以快速成长并得到成就感;第二,利于雪湖科技正在快速形成规模化的软件生产能力、开发能力,在人才建设上与其他创业公司拉开差距。


“需要什么样的人才,我们可以自己培养”,王韵自信地说。


我没有问他坐在火山口上是一种什么样的感觉,应该是一种焦灼又幸福的等待吧。


分享到:


相關文章: