GPU+分布式计算,能把数据性能提升100倍吗?

文 | 新京报网 记者 | 刘娜

GPU+分布式计算,能把数据性能提升100倍吗?

Zilliz是中国首家将GPU的技术应用在分布式数据库中的数据处理公司,据星爵透露,Zilliz的处理性能比普通数据库的性能提高100倍,并且能够在此基础上,将硬件成本降低10倍。

项目要点

Zilliz定位于基于GPU硬件加速的新一代OLAP(联机分析处理)数据库系统,专注于研发基于GPU的智能数据处理平台,是一家分布式数据库公司。

Zilliz的应用领域包括了金融、游戏、电商、物联网、零售、电信等领域。Zilliz的产品还处于内测阶段,产品预计2018年年底正式发布公测版本,未来将在银行、政府、电信等行业进行重点布局。

目前,Zilliz现在不超过20人,大部分为技术人员,主要来自于甲骨文等公司。

科技发展至今,人类巨大数据量的产生以指数级的速度增长中。在此基础上,云计算、大数据、以及需要大数据支撑的AI技术也在不断蓬勃发展,并在不同垂直领域陆续实现商业化落地。

近几年来,中国大数据行业遍地开花,大数据创业公司也在短期内如雨后春笋般出现。大数据领域创业公司也在抓紧赛道窗口期跑马圈地中,寻找中国创客(ID:xjbmaker)曾经报道过行业大数据(数澜科技、云英数据)、人力大数据(E成科技)、零售大数据(超盟数据)、移动游戏大数据(热云数据)、再到营销大数据(ZMT众盟)。

在竞争加剧的同时,大数据公司在使用场景、目标客户上更加细分化,形成一定差异化竞争。定位银行、政府等大型客户,Zilliz是一家专注于研发基于GPU硬件加速的新一代OLAP的分布式数据库公司。

创业契机:数据的爆发性增长带来机遇

“我天生对数据敏感,整个工作生涯似乎都在与数据和计算机打交道。”在美国威斯康星大学计算机专业硕士毕业后,Zilliz的创始人星爵加入甲骨文(Oracle)公司总部。后来在Oracle工作多年,当时他主要负责多租户数据库(OracleMultitenant)的核心研发工作,是一个典型的技术研发工程师。

在当时,数据的产生速度每两年发生一次迭代,基本上是两年之前的一倍。在星爵看来,各行各业都存在数据产能过剩,数据不能够得以利用的问题。这是由于现有大数据处理的速度不能够赶上数据增加迭代的速度,导致大量数据没有被分析利用。

研究报告表明,人类数据的生产量和存储量呈指数级增长。过去5年里数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至于ZB (1024EB=1ZB)级别。

而在当时,尽管市面上大多数大数据解决方案能处理海量数据,但并不能完全满足瞬时、海量的数据处理需求。在数据行业工作数年的星爵发现,GPU性能改进的速度曲线,跟爆炸式数据增长的曲线非常吻合。

尽管海量数据处理的需求已经存在,“但在数据库软件的发展长期受到硬件成本、处理速度等方面的种种约束,在当时并不适合投入商业化使用。”星爵说,直至近期硬件厂商能够提供更加高速的芯片,帮开发者把门槛降低,为分布式数据库的技术开发提供基础。

看到创业的时机到来,2016年星爵离开Oracle创办了Zilliz,Zilliz的名字来源于英文zillion of zillions,直译为无穷的无穷。Zilliz现在不超过60人,大部分为技术人员,主要来自于甲骨文等公司。

GPU+分布式计算,能把数据性能提升100倍吗?

ZILLIZ创始人兼CEO:星爵

基于GPU的分布式数据库

Zilliz是中国首家将GPU的技术应用在分布式数据库中的数据处理公司,据星爵透露,Zilliz的处理性能比普通数据库的性能提高100倍,并且能够在此基础上,将硬件成本降低10倍。

一直以来,CPU在计算机上负责“计算”,CPU的核数越大,运算能力越强。相较于CPU的十几核来说,GPU上可以承载数千个处理单元。在过去,GPU技术主要被应用于图像渲染和真实场景模拟。

现在,GPU计算已经在深度学习、高性能计算(HPC)中广泛应用,越来越像更高性能的CPU。GPU的这种“大规模并行计算”的能力已经开始被挖掘,定位也从之前协处理器向主流处理器做转移。

“如何运用GPU加速数据处理速度,在2006年的时候就是学术热点,”星爵说,他表示为了简单理解GPU分布式数据库,可以想象为当CPU处理数据时,是一个人在抄写课文;当GPU处理数据时,是多个分散在各个地方不同的人,同时在抄录课文,所以效率会高很多。

这就是GPU分布式数据库,利用GPU处理器上成千上万个处理单元进行大规模并行数据处理,加速数据库操作。百度百科将分布式数据库定义为,利用高速计算机网络将物理上分散的多个数据存储单元连接起来组成一个逻辑上统一的数据库。

当数据量的高速增长,瞬时处理数据的需求得以体现,分布式数据库技术也得到了快速的发展。传统的关系型数据库开始从集中式模型向分布式架构发展,基于关系型的分布式数据库在保留了传统数据库的数据模型和基本特征下,从集中式存储、计算走向分布式存储、计算。Zilliz的技术优势也在于此。

GPU+分布式计算,能把数据性能提升100倍吗?


面向银行政府等布局产品

目前,Zilliz还在测试阶段,产品预计2018年年底正式上线,产品应用领域包括金融、游戏、电商、物联网、零售、电信等,主要将在银行、政府、互联网行业进行重点布局。

值得一提的是,近期火爆的区块链技术跟分布式数据库技术有相似之处,也是去中心化分布式存储和计算。区块链可以被看做是一种特殊的分布式数据库,以一个区块为单位,可以分布式、去中心化地存储数据,不可篡改是它的特点。以往的分布式数据库往往是有中心的,而区块链彻底没有中心,用来防止被篡改。

竞品方面,Zilliz对标美国的Kinetica和美国的MapD,二者都是GPU分布式数据库,前者已经于2017年6月完成5千万美元融资,后者于2017年完成2500万B轮融资。而Zilliz于2017年8月完成由云启资本领投,靖亚资本、华岩资本跟投的数千万元天使轮融资。

在国内,分布式数据库创业公司还有柏睿数据和PinCAP,其中PinCAP和Zilliz都还处于研发阶段。而柏睿数据定位运营商、公安局等政企大客户已经投入商业化落地,据了解柏睿数据去年签单总金额约为1亿元人民币。分布式数据库也属于大数据公司的一种,区别在于能够在瞬时处理更大量的数据,所以目标企业往往定位于是银行、政府、运营商等每秒运算需求到TB级别的大型政企客户。


分享到:


相關文章: