03.04 西海数据NoSQLt-何谓大数据?

大数据仿佛一瞬间就走入了公众视野,大家突然发现数据量级增大,一来不好控制管理,二来,数据的能力在爆发,仿佛能办很多事,但谁都说不清楚大数据能做什么?怎么做?在此基础上,人们逐渐开发出云计算技术,后续的AI技术,目的都是为了更好地运用大数据。

大数据怎么来的?何谓“”,大和小的分界线在哪里?这些似乎没有标准答案。

目前很多数据平台建设投入很大,硬盘容量可以存储TB级,PB级数据,但是似乎处理起来并不容易,感觉很“慢”,与人们心目中的大数据技术似乎大相径庭。

曾经有个例子,中国电信的移动基站信令集数据量很大,一个省就有几十TB,只能用文本文件存储,不好管理。前几年就有人和中国电信说,时代变了,现在是大数据时代了,有了全新的技术,可以用Hadoop等大数据技术处理,于是花了几百万,购买新设备,改用Hadoop存储,但是转存完之后发现速度没有变化,原来是多慢,现在还是多慢。电信的人就问项目商,我花了几百万,做了什么?取得了什么效果?项目商答不出来。

这是个极端的例子,但是类似的例子还很多,很多企业数据量很大,采用现在一些所谓的大数据技术搞数据平台建设,建设了,感觉速度没有起来,像以前的方案一样慢,感觉大数据技术在“忽悠”,没有多大意义。

所以人们的第一个认知,就是数据处理的“快慢”,业务完成的“快慢”,这是“

大数据”和“小数据”的分界线,慢了,就算“大数据”

何谓“”?西海数据走访了国内很多国有企业,军内外单位,某单位甲方给我们举例,查找库房中手套数量,点下查询键就开始漫长的等待,甲方开始给我们泡茶,等水烧开,一杯茶泡好,结果出来。这大概就是“”。

应该说,这种“”已经严重影响到了业务活动的开展,这在以速度取胜的军事工业现场,乃至互联网服务商来说显然无法忍受,故西海数据得出的第一个结论就是“大数据就是让业务变慢的数据量,而大数据技术就是高效处理海量数据,让已经变慢的系统变快,让业务流畅运行的技术”。

故西海数据通过多年研发,对标很多一线场景,发明了全新的大数据技术,既能处理海量的大数据,又能让处理效率非常灵活高效,为了有别于目前业界火热的各种大数据技术,西海数据把NoSQLt内置的这门技术称作“

实时大数据”技术。

另一个问题,就是何谓“”,快是有成本的,是受目前硬件条件的极限限制的,比如一个固态硬盘的吞吐量极限就是写入800MB/s,读出1500MB/s,这就是极限,数据库作为软件系统,无论怎么调优,极限磁盘交换吞吐量无法超越这个吞吐量,故“”有上限。

但另一方面,计算机系统的“快”有上限,用户的业务要求也有上限,西海数据发现,不同行业的用户的业务效率要求并不一样。比如大多数工业实时数据监管场合,一般2~3秒之内能完成计算控制任务即可满足要求,气象系统可能15分钟一批也能满足要求,地震系统可能只需要到天级即可,但某些极限场合,比如音频信号处理,数据要在毫秒级甚至微秒级被迅速处理,否则业务就无法完成。故西海数据认识到,每个用户优化到满足其业务效率要求即可算作“快”

但遗憾的是,除NoSQLt外目前所有的数据库,包括Oracle、SQLServer、MySQL,也包括目前火热的大数据平台Hadoop、mongoDB,都无法真正解决“

用户业务数据量大了变慢”这个问题。无法将大数据业务处理效率提升到用户满意的程度。



分享到:


相關文章: