实时大数据分析计算问题

互联网服务讲究效率,实时性要求很高,但是目前传统的数据库技术管理数据的能力和吞吐效率均不高,无法满足实时服务的需求。

“慢慢算”和“实时秒算”

前面提到了基于物联网大数据平台创建的实时历史数据库天生具有高效性,而NoSQLt又是其中的佼佼者,这个性能很重要。

在过去,大数据一般存在于传统的科学研究中,迄今为止,科研院所、大学都还是科研大数据的主要使用者。

但是传统的大数据使用方法是采集归采集,计算归计算,采集和计算不是同时发生的,大多数时候,数据是搜集回来“慢慢算”。算上几天、几周甚至几个月,出具一份报告,这也是大多数科学研究的常态。

但是大数据时代到来了,随着3G、4G、5G的发展,智能性移动终端应用越来越广泛,过去必须国家力量来建设的大规模广域探测网络,现在一个运营商通过发展自己的App用户可以很轻易地做到。

过去大规模探测阵列建设成本太高昂,只能国家来建设,但现在随着科技进步,中国的工业化建设成功,成为世界工厂的典范,工业品在中国的价格很低,特别是新兴的通信电子、IT、智能终端、移动APP等技术,成本都不高,任何一个运营商只要愿意,利用现有用户资源即可迅速建立某个探测要素的大规模全国性采集阵列,迅速开始收集积累数据。可以说,目前任何一个运营商手里的数据,甚至比以前的院士手中的数据还多。

但数据量大了,计算难度随之就加大,需要用科学的计算处理方法,要解决数据的采集、传输、存储、边缘计算、大规模云计算、计算中心运维、成本效益和商业模式等一系列问题,形成产业,为公众服务。

其中,最核心的问题其实就是速度,速度快了,就可以用更少的设备完成更多的服务,可以节约采购成本;设备少了,电信机房托管少了,节约运营成本;速度快了,同一个计算可以引用参考更多的数据,给出的报告精度和准确度搞了,含金量增加了,用户更愿意买单了;速度快了,报告时效性就增强了,以前的“慢慢算”就可以变成“实时算”,以前每周一份报告,现在每5分钟一份报告,用户买单次数增加了,效益就好了,等等......

“科研”和“业务”

互联网运营商作为IT信息系统服务商,其给社会用户提供的主要产品就是各种分析报告,那么,生产报告的质量效率可以说直接关系其营收,至关重要。

科学研究主要针对“正确性”,商业实战业务除了“正确”,还需要“效率”,比如气象预报如果动用超算,不计成本的计算,其实可以算得很精准,但是实际上大家都知道,报出来的预报总是有偏差,究其原因,每天下午必须报,不管算不算的完,按照已经算出的结果会商后就报,气象预报必须保证时效性,超过时间,预报变晚报,就失去意义了。

我们实际互联网运维中也是这样,比如我们要播报新冠肺炎的态势,每天一报,每天就必须统计完成,完不成,数据不全的,先按照现有数据报,都不能拖延,因为这是社会承诺;再如我们医疗应用,监测出病人身体病变,必须马上报警,报晚了,病人已经走了,也没有意义了;再如交通拥堵,预测、发现、报警、处置都必须快速完成,晚了,要么拥堵自然解除,失去意义,要么形成更严重的拥堵,需要更大的疏导成本。

但是长期以来我们发现,我们国家的科学研究的成果往往形不成生产力,无法快速应用到商业实战中去,究其原因,一个很重要的原因就是

科研没有考虑计算效率,在实验室里面,测试数据是人工仿真或小批量采样,计算公式的研发很完美,但是一拿到现场去,现场数据量庞大,特别是还很脏乱,由于一线采样条件恶劣,生产的数据大量重复、乱序、错误,公式计算的效率立即慢得无法接受,根本无法应对现场的时效性要求,最终不了了之。

西海数据的NoSQLt数据平台就是解决大数据科研成果转化为生产力效率的关键,西海创造性的提出“大数据技术无用,需要实时大数据技术”的口号,就是明确纯粹为了堆叠数据量的大数据毫无意义,只有解决了访问计算效率的“实时大数据”对各行业现场实战才有现实意义,大数据才能真正转化为生产力。

西海数据认为:

大数据 + 大数据应用科研成果公式 + 高速实时计算能力 = 运营效益”。

但遗憾的是,目前除了NoSQLt之外所有的大数据平台,包括Hadoop,mongoDB,甚至包含实时历史库的鼻祖PI,对大数据访问效率问题重视都不够。这导致目前所有运营商平台数据处理能力底低下,无法产生精准报告,运营成本居高不下,扩容不易,生产运营遇到困难。

如果能解决这个速度和效率问题,则我们可以想象,任何一个运营商,只要手里有终端人群,不断采集数据,形成大数据集,再到科研院所和院校中寻找合适的教授研究院,联合研发出科研公式和成果,再加上NoSQLt的效率,可以立即开拓出新的增值业务,推向市场,获取营收。

大数据有多个维度,从不同维度解释会有不同的报告结果,一套大数据集只要搭配不同学科领域的公式,可以生产不同的报告产品供给市场,可以说,一套拥有用户终端人群,不断采集数据的运营商大数据集,就是一个源源不断产生价值的“聚宝盆”,是一只“会下金蛋的鸡”。而这里面的核心就是数据平台的效率。

一个简单的千万级用户移动计步的App,利用医疗公式就可以实时给每个用户提供健康咨询,给卫健委提供公众样本健康报告,利用地理位置公式,可以给附近商家提供访问人群和潜在消费需求的建议,可以给交通部分提供道路拥堵的报告,甚至银行、金融机构、保险公司都需要这些数据和公式产生的结果。一切的一切,都是速度,用户实时产生数据,实时算,实时提供报告,立即更新这个人,这个街区,这个城市的画像,指导相关行业的生产和生活。

一套大数据集只要建设起来,不断“攒数”,具有生命力,它的应用前景可以说千变万化,永无止境,新增一个公式,可能就新增一个产业,新增一家上市公司。但这一切要依赖NoSQLt的实时大数据处理能力,否则无意义。



分享到:


相關文章: