(文/邹大斌)虽然中国周边国家新冠疫情此起彼伏,暂时还难以消停,但目前我们国内的疫情已经基本控制,生产、生活正在慢慢回复常态,因此是时候让我们把关注的目光重新转回到眼下的科技领域,回到我们所处的IT行业。
就数据库市场而言,2019年可谓看点颇多,一大亮点就是新品频出,不只是有华为这样的大厂推出了自己的GaussDB数据库,其他云服务商和一些从事数据相关业务的厂商也纷纷推出了自己的数据库产品,这是近些年来少有的一个现象。另一个值得关注的变化是,关系型数据库垄断的格局正在被打破,以MongoDB为代表的NoSQL迅速崛起。
数据库市场经过40多年的演进,不少人认为其技术已经趋于成熟,市场趋于稳定。事实证明,技术从来不会停止创新的脚步,在云、AI等技术的带动下,数据库市场依然充满活力,值得期待。
云化与分布式:让数据库自由伸缩
2019年年中Gartner发布的研究报告《The Future of the Database Management System (DBMS) Market Is Cloud》引发了业内的广泛关注。Gartner在该报告中提出,数据库的云服务是大趋势,将数据库安装在企业数据中心的服务器上已经或者很快将成为一种“过时”的方法。
数据库的主战场从传统的本地市场转到了云是云原生数据库和服务崛起的必然结果。AWS的Aurora被认为是AWS历史上增长速度最快的一款云服务;POLARDB在阿里云2018年4月才开始商用,但在Gartner公布的2019年全球数据库魔力象限评选中,阿里云就成功进入“挑战者”象限,连续两年作为唯一中国企业入选。除了AWS、阿里云,今天不少云服务商都推出了自己的云数据库。
实际上,不只是传统数据库,作为NoSQL领头羊MongoDB的云服务版本Altas同样受到市场欢迎,Altas已经成为MongoDB重要的收入来源,营收占比超过40%。去年年底,阿里云与MongoDB达成战略合作,宣布在阿里云平台上推出最新版MongoDB数据库云服务MongoDB 4.2。这肯定会进一步加速MongoDB未来在云服务市场的拓展,尤其是中国市场。
阿里云智能数据库事业部负责人李飞飞曾明确表示,未来的数据库一定是云原生和分布式。因为云原生数据库在成本、灵活度、安全、技术进化层面都优于传统数据库,“传统数据库会像马车一样被更为先进的汽车即云原生数据库淘汰。”他说。
新一代数据库崛起的一个核心原因是大数据时代的来临。今天我们正处于一个数据大爆炸的时代,要应对数据的爆炸性增长需要数据库具有足够的弹性,而在云上资源天生池化,这就为满足客户业务变化的峰值、峰谷需求奠定了很好的基础,再结合新一代数据库的分布式架构结合计算、存储分离等一系列技术就可以很好地解决可扩展性问题。
以MongoDB为例,MongoDB的一大亮点是其存储和访问海量数据的能力,就是依赖其分布式架构实现的,包括数据的分片、扩容/缩容时数据的自动均衡、分片信息的存取以及高可用,这些特性的集成使得MongoDB数据库能从容应对海量数据的存储和访问需求。类似的,阿里云的POLARDB也是通过分布式共享存储架构、采用计算与存储分离技术大大提升了数据库的存储容量。
实际上,当云时代诞生的新一代数据库把分布式技术、云的灵活扩展以及成本优势淋漓尽致地充分展示出来,激发出来的强大的创新能力、丰富多样的产品体系、经济高效的部署方式和按需付费的支付模式,这些优势让传统数据库很难企及。根据IDC的研究,2021年会成为转折一年,存储在云上的数据量将超过传统数据中心,在这一变化之下云数据库的普及终将成为必然。
智能化:让数据库更聪明
数据库运维是一件非常复杂的工作,尤其是涉及企业核心数据库时,其中保存了企业重要的数据,对操作人员的要求非常高,因此数据库管理员一直是市场紧缺人才。不过,得益于人工智能、机器学习等技术的进步,这种状况有望慢慢得到缓解。
2017年甲骨文提出了“自治数据库”这个概念,引发业界对人工智能在数据库的应用前景的关注。2018年甲骨文的新一代数据库ADW正式上市,我们看到,甲骨文的确朝着把数据库管理员从繁重的数据库优化、各种调优以及数据库备份中解脱出来的方面上迈出了一大步,它让管理员能腾出了更多时间去做一些高附加值的工作。根据甲骨文提供的资料,通过自动运行、自动完成打补丁、自动完成数据的备份、自动修复等,甲骨文自治数据库能降低70%的运维工作量,将数据库平均宕机时间减少到每月2.5分钟。
实际上,随着人工智能、机器学习技术的快速发展,利用它们来优化数据库内核和以及数据库运维、管控等一系列动作已经成为数据库行业的共识。比如,数据库管理员或者运维人员想优化应用软件的负载,可能想知道需要建哪些索引;用户体验不佳想知道到底是哪个存储过程受到了影响、如何优化,现在基本上是依赖工程师、DBA的经验来解决,这些未来完全可以利用机器学习、人工智能方法进行智能化的优化。
值得一提的是,除了数据库本身的智能化外,支持智能化应用方面也是数据库的一个热点。传统数据仓库产品通常只能处理结构化数据,而新一代的数据仓库无不把支持多数据类型的处理作为基本指标,比如,通过标准的SQL语句同时处理结构化和非结构数据(文档、图片甚至视频等)。另外,数据仓库还在努力帮助业务人员找出系统与系统之间、数据与数据之间的关联性。借助数据库仓库的这一能力,业务部门即便不懂具体算法,也可以及时对相关数据做出调整。
为了支持AI应用,新一代数据库基本都提供了数据湖产品或服务。比如,MongoDB的Atlas就集成的数据湖功能。其不需要定义模式,可以就地分析 JSON、BSON、CSV、TSV、Avro 和 Parquet 等格式;只要通过一个通用的用户界面,就可以同时对数据湖和 Atlas 联机事务处理集群进行操控,非常方便。
NoSQL崛起:为大数据而来
除了云数据库的崛起之外,这几年数据库市场另一个重大变化的是以NoSQL为代表的非关系型数据库的异军突起。
NoSQL诞生之前,数据库市场基本是关系型数据库(RDBMS)的天下,无论是理论知识还是数据库产品乃至生态都已经非常成熟,而NoSQL走的是一条完全不同的技术路线。它与关系型数据库以行和列构成的表来存储数据不同,而NoSQL是以键、值对来存储数据。
NoSQL的崛起有两个最重要的原因,其一是大量非结构化数据的涌现,有数据显示新增数据中超过80%是非结构化数据,这些数据用关系型数据库来处理成本,高昂还不够灵活,而NoSQL数据库不仅数据存储非常灵活,同时扩展灵活,从而受到市场热捧。
在NoSQL市场MongoDB无疑是表现最为亮眼的一个。来自于DB-Engine的市场数据显示,MongoDB已经持续多年与Oracle、MySQL、SQL Server、PostgreSQL一起位列全球五大最流行的数据库,其影响力已经超过传统数据库DB2。
作为文档型数据库的代表,MongoDB采用的是BSON文件格式,MongoDB对数据结构没有严格要求,可以根据需要灵活增减字段,简单方便,而且MongoDB是原生的分布式数据库,天生地具有快速的水平扩展能力,非常适合海量数据的各种应用场景。MongoDB流行的另一个非常重要的原因在于其对程序员非常友好。相比于传统数据库需对复杂的表、库进行操作以及多次存取数据,MongoDB开发人员不用去设计那些表、库之间的各种复杂关系,只需一次存取,就可拿到想要的数据,程序员非常容易使用,开发效率非常高。
去年,MongoDB推出了最新版本——MongoDB 4.2,通过支持分布式事务、自动重试和修改分片键等让开发变得更快速、更轻松。同时,新的物化视图、Kafka连接器和对Kubernetes的支持以及客户端加密等,让应用变得更健壮,使得MongoDB 4.2完成了一个里程碑式的升级。这些新特性再加上MongoDB与生俱来的云原生的分布式拓展能力无缝结合,使得MongoDB再次走到了NoSQL阵营的前列。
值得一提的是,除了NoSQL/NewSQL之外,近年来图数据库市场的成长也值得关注,来自Gartner研究报告显示,2019年—2022年图数据库市场将会以每年100%的增长率增长,尤其是在风控、反洗钱、个性化推荐等领域,图数据库应用非常热门。
综上所述,经历了多年平稳发展的数据库市场正在迎来重大变化,这背后有技术本身的进步(比如AI),更有计算环境的变化(如云计算的普及)。在这种市场中,谁能真正把握用户需求,推出贴合用户需求的产品和服务才能赢得更多的生存机会,我们也期待市场上能有更多更好的产品和服务!