认识数据湖(三):解决方案案例

很多人都说:“数据湖是新瓶装旧酒”,只不过是一个概念的拼凑罢了,本质上并没有什么技术创新。其实“数据湖”这一名词并不重要,重要的是它能不能在数字化浪潮下,真正帮助企业实现技术转型,应对快速发展的商业环境下层出不穷的新问题。

数据湖的核心价值是为企业带来了数据平台化运营机制。当前很多企业尚未意识到数据平台化为企业带来的好处。当今的商业环境,在日新月异的技术变革驱动下,正发生着剧烈的变化,传统行业不停的被互联网公司颠覆,给很多公司造成了极大的生存压力。互联网公司之所以能不断颠覆传统行业,本身除了商业模式的变革,同时也是因为这些公司很多都是采用平台化战略,将最新的技术与竞争力整合在平台中,去赋能公司的运营,使公司的业务发生跳跃式发展,跨界挤压其他企业的发展空间。传统企业急需变革,需要像互联网公司一样,利用信息化、数字化、新技术的利器形成平台化系统,赋能公司的人员和业务,快速应对挑战。

为数据湖解决方案紧扣时代脉搏,帮助企业利用数据平台化利器--数据湖,助力业务飞速发展。华为数据湖解决方案基于先进的云上系统架构,着力解决线下企业数字化转型中,数据无法驱动业务发展、成本高昂、计算存储等基础设施资源浪费等复杂问题。

认识数据湖(三):解决方案案例

图1 华为数据湖解决方案基本架构

下文从数据集中存储与共享、数据治理、计算侧Cache,快速数据分析这四个维度详细介绍华为数据湖解决方案。

数据集中存储与共享

许多企业通常忽略数据积累的价值,数据需要从企业的各个方面持续的收集、存储,才有可能基于这些数据挖掘出价值信息,指导业务决策,驱动公司发展。华为数据湖解决方案实现数据集中存储与共享是基于华为大数据解决方案FunsionInsight和华为海量对象存储架构,实现万亿级数据可靠存储与高效分析。

使用一套数据存储资源池,可有效解决企业中的数据烟囱问题,提供统一的命名空间,多协议互通访问,实现数据资源的高效共享,减少数据移动。例如:很多的汽车制造企业都在进行无人驾驶/自动驾驶研究,车辆上的传感器、雷达等IOT设备产生的文件,通过离线批量导入或者高速访问网络进入到存储集群后通过Hadoop(HDFS)进行分析处理,再进入HPC集群(NFS)进行仿真计算,也可以读取到GPU集群进行训练(S3)。整个过程中,数据无需拷贝和移动,实现高效数据共享。

数据集中存储与共享实际上是将存储资源池化,将计算和数据进行分离。当前仍然有不少人不能接受大数据的计算和数据分离架构,认为一旦采用分离架构,必然会导致性能的降低。但实际上,分离后可极大降低存储成本,有效提高计算资源利用率,增强计算和存储集群的灵活性。但不是所有情况下都要分离,根据我们在政府、运营商、金融、企业等多个行业多个项目的经验,如下情况适合分离:

1.随着数据量的增长,存储和计算资源的使用率严重不均衡,比如:用户行为分析中的用户留存分析,存储数据量不断增长,但计算资源基本不变;

2.业务部门向平台部门单独申请计算或存储资源,分离架构可以更灵活的分配资源。

另外从数据生命周期的维度也可以找到适合的阶段,绿色部分表示的数据的清洗、加工整合和归档备份场景适合存储和计算的分离。

认识数据湖(三):解决方案案例

图2

注意:存储和计算分离往往伴随大数据的服务化,需要从云化、资源弹性调度的角度管理资源。

数据治理

数据不仅要存下来,更要治理好,否则数据湖将变成数据沼泽,浪费大量的IT资源。平台化的数据湖架构能否驱动企业业务发展,数据治理至关重要。企业中收集的数据或从其他行业中采集数据种类多样,格式不一,多数以原始格式存储,企业需要不断对这些原始数据进行整合加工,根据各业务组织、场景、需求形成容易分析的干净数据,尽可能多的让更多的人访问分析数据。数据治理是个一系列复杂的工作,这里重点介绍下元数据的管理。

华为数据湖解决方案为企业中海量的数据集提供了一套集中的元数据管理系统,提供全局的数据资源目录、完整的数据元数据描述、数据血缘关系,方便员工快速查找了解数据,更好的支撑数据分析,元数据管理异步的从数据服务中抽取元数据,尽量不影响原系统的运行。

计算侧Cache

计算和数据分离后必然会带来一定的网络I/O开销,计算侧Cache可有效减少频繁的网络I/O次数。同时万兆网络已经得以普及,甚至更高,网络对计算影响已经非常有限。计算侧Cache采用多种算法,将数据缓存在计算侧,可以使得很多场景下计算与数据分离方案的性能甚至高于一体化方式。

数据快速分析

前述的大量工作实际上都是为了加速数据分析的过程。数据快速分析需要提供多种数据分析引擎,基于华为FusionInsight大数据方案提供Spark、HBase、ES、LibrA(一种融合数据的基于SQL的分布式数据关系型数据库)等多种分析方式,快速分析不仅是能在已经被整合后变干净的保存在LibrA中的数据,还能直接访问海量对象存储中的数据,无需数据抽取,减少数据的转换,支持高并发读取,提升实时分析效率。同时可支持自助式的数据探索式分析。

华为数据湖解决方案提供了完整的数据架构支持,为企业构建一站式数据处理体验,目前已在多个行业和客户中使用。例如:华为数据湖解决方案支撑平安城市“一云一湖一平台”系统架构,为公安客户构建了物理分散(分散在各地市、区县的数据)、逻辑统一的数据治理架构。


分享到:


相關文章: