01.19 「揭秘GP」Greenplum 6——新一代 PB 级分布式 HTAP 数据库

2020-01-19 12:07:00 Greenplum中文社區

导读：2019年 Pivotal 中国研发中心副总经理兼 Greenplum 中文社区发起人姚延栋受阿里云开发者社区邀请于钉钉进行技术直播演讲《基于 PostgreSQL 的 PB 级开源企业级分布式 HTAP 数据库》。本文由演讲内容整理而成。

直播回顾视频链接：

今天和大家分享的标题是《新一代PB级分布式HTAP数据库》，我加了个副标题为：Greenplum 能做什么？过去，我们做的分享大多是从产品的角度分享 Greenplum 有哪些特性。后来接到一些反馈，很多听众都表示在听到这些特性后，更希望知道将这些特性综合起来可以对业务有哪些支撑。因此今天重点和大家分享 Greenplum 能做什么，并引出背后需要什么样的技术支撑。

Greenplum 是个关系型数据库，支持完善的 ACID，HTAP 是这几年比较流行的方向，是指 Transaction 和 Analytics 混合处理在一个系统里。分布式是指一个集群有很多节点，每个节点处理一部分的任务，从而实现速度更快更高可用的处理。PB 级是指 Greenplum 可支持的数据量，我们已经有大量的客户在生产集群里使用 Greenplum 支持 PB 级数据量。

在标题中，我使用了“新一代”的字样。有人也许会提出疑问，Greenplum 是 MPP 架构，这个架构从 80 年代就有人研究，为什么会用新一代来形容。其实 MPP 只是 Greenplum 的骨架特点之一，经过多年的发展，Greenplum 加入很多的新技术，可以处理 HTAP 场景，具有结构化数据、半结构化数据、Text、GIS 的支持能力，可以实现数据库内嵌的机器学习能力。

关于什么叫做新架构：可以和大家交流一个关于列存（ Column Storage ）的故事：大数据处理使得列存非常流行，但是大家知道不知道谁最早做的列存？实际上世界上第一款关系型数据库 SystemR（上世纪70年代初开发）第一版本实现时，数据存储就是现在我们说的列存。第一版做完后，总结了设计的一些缺陷，其中包括使用列存。如今列存成为了用来解决大数据的主流技术。很多时候，创新都会用一个已经被发明的老技术来解决新时代的问题。

接下来和大家主要讲一讲 Greenplum 能做什么。首先是数仓、OLAP、即席分析。这三个词很多时候指的是一回事。细抠的话各自也有不同的侧重。

数仓是一种数据库类型，用来做 BI 和复杂查询处理，强调的是来自各种数据源的历史数据的分析，产生商业智能（ BI ）；
OLAP 是一组操作，例如 pivot/slice/dice/drilling/cube 等。（ https://stackoverflow.com/questions/18916682/data-warehouse-vs-olap-cube ）强调的是处理；
即席分析：强调的是查询时 ad-hoc 的，不是预先设计好的 SQL 查询，强调需求和解决问题的动态性，不是静态需求；

数仓、OLAP、即席分析，这三个词有各自的侧重点，但总体上都是指数据分析。一半以上 Greenplum 客户在这种场景下使用 Greenplum，解决的是数仓问题、在线分析问题和即席查询问题。这个场景也是 Greenplum 创始团队2004年前后创业时主攻的市场。经过15年的研发和打磨，Greenplum 在该领域具备了极大的优势，在全球范围内有良好的口碑。

口碑和优势并不是靠我们“王婆卖瓜自卖自夸”，而是来源于客户对产品的信赖和支持。这是 Gartner 2019年发布的报告。我们可以看到 Greenplum 在经典数仓领域排名第三，前两名是 Teradata 和 Oracle，他们都经过长达40多年的发展，相比之下，Greenplum 还处于青少年时期，发展更为快速。此外在实时数仓领域，并列排名第4。取得这样的认可，需要很多方面的因素，除了技术，还有服务、支持、品牌等。但技术肯定是重要一环。接下来，我们来看看，从技术上，Greenplum 是如何来解决数仓和 OLAP 问题的。

首先，我们来看一下 Greenplum 的核心架构。上图是一张典型的部署拓扑图。上面是 Master，下面都是 Segment，Master 和 Segment 之间通过网络进行高效通讯，我们称为 Interconnect。

Master：存储用户元数据，负责对整个集群的调度、监控和管理控制
Segment：存储用户数据，执行master分配的任务
Interconnect：实现数据在各个节点间的传输

整个架构可以做到线性拓展，这里我们看到 Greenplum 的核心架构特色：MPP shared nothing。 MPP 是大规模并行处理，shared nothing 是无共享。

在这种架构下，数据要如何存储呢。在 Greenplum 这种分布式数据库中，数据根据各种策略分布到不同节点上。Greenplum 提供了多种分布策略，包括哈希、随机，6.0 还提供了复制表的技术。不管是哪种技术，最重要的策略和目标是做到数据的均匀分布。DBA 或者开发人员要选择合适的分布键，使得每个节点分布 1/n 数据，避免出现短板效应，如果找不到一个合适的分布键，也可以考虑使用随机分布。

这样可以做到两重加速：

每个节点只有 1/n 数据，速度快
N 个节点并行处理，速度快

数据均匀分布考虑的是不同节点之间数据分布的问题。每个节点上，Greenplum 还支持分区技术，并支持多级分区。通过多级分区，可以将数据进一步在每个 segment 分开，底层会使用不同的文件保存不同的分区。核心目的还是尽量降低每次 SQL 处理要扫描的数据量。上图的例子中的查询，如果我们是按月做的分区，就可以只读2007年10月的数据，而不需要关心其他月份的数据。这样的话，磁盘 IO 会大幅降低，处理速度、性能也会有很大的提升。

Greenplum 支持多模存储/多态存储。Greenplum 可以对同一张表的不同分区采用不同的存储模式，常用的划分标准是根据时间划分分区。比如上图的例子中，最老的数据，也就是不常访问的数据可以使用外部表的模式，中间的数据可以使用列存储，频繁更新或者访问的数据可以用行存储。多态存储对用户透明。

数据有了分发和存储，也得支持查询。Greenplum 研发团队于2011年自研的优化器——ORCA，是Greenplum 开源的子项目，也是 Apache 的顶级项目。 ORCA 是基于 Cascade 架构，基于 Cost 模型的优化器。 ORCA 的主要用途是解决一些 OLAP 中存在的复杂的查询。ORCA 可以很好的应对包括10+表 join、关联子查询、CTE、分区动态裁剪等复杂查询。在这些场景下，ORCA 查询速度比传统的优化器有几十倍到几百倍的性能提升。

有了优化器，接下来就要谈谈查询的执行。上图中有两张表：t1 和 t2，它们各有6条数据，分布键都是c1，如图所示均匀分布在三个节点上。查询 SELECT * FROM t1 JOIN t2 ON t1.c1 = t2.c1 的执行计划如上图右半部分所示，每个节点上单独执行 JOIN 并将 JOIN 结果发送给 master。这种场景是 Greenplum 最擅长的场景之一。

但并不是所有的查询都容易处理，比如上图的例子中，需要通过数据 shuffle 来实现数据在不同节点间的动态传输。Greenplum 实际用户有更多、更复杂的使用场景，Greenplum 作为企业级数据库都能很好的支持。

除了上面介绍的核心技术，Greenplum 还有很多其他的技术，对数据库的性能，稳定性、和高可用有很大的支撑，上图列出了其中的一部分。

接下来，我们来介绍一个 AP 密集型的案例。某大型银行，采用 Greenplum 作为数据处理的中枢，所有业务数据都经过 Greenplum 中枢集群的处理，处理后的结果分发给不同的上游集群。中枢集群数据量 PB 级，节点数达 200 个；上游业务 Greenplum 集群有二三十套。支撑了该银行的大量核心业务。之前该银行主流技术是 Teradata，现在使用了几十套 Greenplum 集群替换了之前的 Teradata 集群。

随着数据量增大，一个痛点出现：传统的 OLTP + OLAP + ETL 方式过于复杂，效率低，费用高。客户对混合负载的需求越来越大。这里混合负载和 HTAP 大体指一回事，但是也有些微差别：混合负载通常强调是大查询+小查询，通常只读为主；HTAP 则强调小查询不只是读，而且有大量的 Insert、Update 和 Delete。Greenplum 早期版本主要为 OLAP 场景而优化，随着客户需求越来越大，慢慢很多人开始使用 Greenplum 做混合负载。从客户反馈来看，大约有 30% 以上 Greenplum 用户使用 Greenplum 处理混合负载，而且呈现逐年增长趋势。从今年9月份发布的 Greenplum 6 开始，Greenplum 对 OLTP 业务处理能力大幅提升。

上图是我们在 Greenplum 6 发布时做的性能评测，Greenplum OLTP 性能大幅提升。具体评测内容请查看链接（）。下面列出了常见 TP 查询的 tps，从这个数据看来很多 TP 业务完全可以使用 Greenplum 6 支撑。这个测试是 Greenplum 6.0 刚发布时做的，用最新的 Greenplum 6.3 跑测试，结果比这个数据还要好。

TPCB：4500 tps
SELECT：8万
INSERT：1.8万
Update：7000 tps

上图是社区的一位小伙伴在社区的帮助下作的一个 Greenplum 6 和 MySQL 的 JDBC insert 测评，在优化后得到的上图的结果。Greenplum 6 可以承担越来越多的 TP 业务。

Greenplum 性能提升归功于一系列 OLTP 优化技术，包括全局死锁检测、锁优化、事务优化、复制表、多模存储、灵活索引、OLTP 友好的优化器、多个版本内核升级等。

由于有各种查询的存在，就可能存在资源竞争的情况。为了解决这个问题，我们引入了资源组，并在 Greenplum 6 中持续增强。资源组可以很好的进行资源管理，并具有上图的各大功能特性。

接下来我们来讲一个案例。很多企业会像上图中采用很复杂、并且成本很高的架构：用 TP 系统来支持事务型业务，用 AP 系统支持 AP 业务，再用 ETL 将数据从 TP 系统中导入进 AP 系统中。而通过 Greenplum 6 这样的 HTAP 数据库，一套数据库便可以同时支持 AP 和 TP 业务。Greenplum 从2019年9月份发布至今，全球已有20多家客户开始测试，并有数个客户开始应用于生产系统。

5版本时，我们发布了Greenplum Kafka Connector，在6版本中，也进行了大幅提升。GPKafka 可以将用户导入 Kafka 的数据高效并行的导入 Greenplum 中。

这是一个世界顶级证券交易所的案例。在做 POC 时，客户要求每秒从 Kafka 导入 100万数据到Greenplum，每秒提交一次。最终结果是 Greenplum 可以做到每秒300万条数据，数据量是9.8亿，平均时延是170毫秒。

Greenplum 可以处理各种数据类型，包括结构化，及JSON、XML 这种半结构化数据和 Text 这种非结构化数据，还有地理信息数据等。除此之外，还可以做到 in-databse 机器学习，图计算等。

数据融合也称数据虚拟化、数据联邦，指不用移动数据，可以分析远程数据源的数据。Greenplum 的数据融合技术支持 ORACLE、MySQL、PostgreSQL、Hadoop、HIVE、HBASE 等。

Hackday 是 Greenplum 团队的传统活动：这一天可以“不干活”，选择你感兴趣的一个问题组织一个小团队搞一搞。上图列出了一次 Hackday 的题目。在 Greenplum 中可以用下图中的一条 UDF 来解决。

下图是一个做国家安全的大型服务提供商的案例。用户的地图界面中可以做一些 OLAP 操作，包括下钻、上卷等。在此案例中有文本数据、地理信息数据、和结构化数据。每天5亿数据，单表最大1000亿，用了一个满配的 DCA 一体机，单纯文本索引达 11TB。同时有200+用户访问，数据要求在1分钟之内进入系统。

大数据分析最近几年有一个新的发展趋势，高级分析下沉。之前的技术是拉数据到分析应用节点，需要抽样和数据移动。为了解决这两个问题，避免数据移动，提高模型精度，机器学习开始下沉到数据库内实现。最早的工业实现之一是 Apache MADLib。MADLib 是 Greenplum 2011年联合加州大学伯克利分校、威斯康星大学、布朗大学等一起合作的项目，目前已经成为 Apache 的顶级开源项目。下图是MADLib的架构。

下图是MADLib支持的一些函数。

2019年年初，我们开始进行一个新的尝试，用 MADLib 来支持 AI 深度学习，在每个 Segment 上，通过 MADLib 架构支持 Keras 和 TensorFlow，这样就可以使用挂在节点上的 GPU 的资源实现深度学习。

下面是一个跨国传媒和娱乐公司关于机器学习的案例。

采用 Greenplum 数据库内分析方案后，性能上达到了十倍的提升。

最后我们简单聊一下现代 SQL vs 92年的 SQL。下图详细说明了 SQL 特性、SQL 标准和 Greenplum 对应的支持的版本。当把上面这些特性有效结合在一起的时候，可以实现的功能非常强大。

我们来看一个例子。

写出上图的解决方案，有很多方式。

接着我们考虑一下以下多种因素。然后再考虑下你的方案是否可以很好的支持这些情况。

但是如果用成熟的数据库，几行 SQL 便可以实现。并且不需要考虑上面提到的各种问题带来的挑战。

综上所述，Greenplum 是一个成熟的、开源的企业级的 HTAP 数据库，且支持 Apache 协议，为全球来自各行各业的大量大型客户的生产系统支撑关键数据分析业务。数仓要求对大量数据进行处理，对应“Volume”；流数据要求对新产生的数据快速处理，对应“Velocity”；集成数据分析要求支持各种各样的数据类型，对应“Variety”。

这也是大数据的3V，Greenplum 是新一代大数据处理技术。和传统的 Hadoop 技术栈相比具有诸多优势，譬如性能更好、更简单易用、标准支持更好等。

目前很多数据中心将数据分析分为两类：数据仓库和大数据。数仓采用 Greenplum 已经非常流行，大数据部门也开始越来越多的采用 Greenplum。这种新型的架构可以大大简化数据分析的复杂度，提高数据分析速度和时效性，避免在各种数据产品间频繁的搬动数据，降低运维人员的工作负载，提高知识共享度。节省成本且效率提升。

End～

分享到:

閱讀更多 Greenplum中文社區 的文章

關鍵字: 阿里云计算数据库创作者来直播

一个小时内学习 SQLite 数据库

数据库：JdbcTemplate的前世今生

【数据库】简单六步，教你设置云数据库RDS白名单

轻松入门mongo 数据库

【数据库】云数据库RDS基础版的优势及适用场景

数据库——java调用存储过程

数据库——存储过程

数据库——存储过程（6）

[数据库] 事务已提交，数据却丢了，赶紧检查下这个配置！

数据库——INSERT INTO 插入

数据库——Oracle卸载

数据库——存储过程（7）

数据库——DELETE 删除、 TRUNCATE清空

数据库——UPDATE 更新

数据库——SELECT 查询

数据库——UNION

数据库——FULL OUTER JOIN 连接

数据库——order BY 排序

数据库——replace() 替换

数据库——返回坐标

数据库——字符串截取

数据库——INNER JION 内连接

数据库——LEFT JOIN 左连接

数据库——RIGHT JOIN 右连接

数据库——LIKE 查询

数据库——BETWEEN 查询、TOP查询、count 查询

数据库——in 和 =

Python标准库—数据库 (sqlite3)

03.08 一文读懂 NoSQL 数据库

CTO之瞳-数据库-MySql

数据库：MySQL存储引擎中的MyISAM和InnoDB区别详解

数据库：MySQL常见的三种存储引擎InnoDB、MyISAM、MEMORY的区别？

数据库：事务的并发？事务隔离级别？嵌套事务？事务传播行为？

数据库——MySQL基本安装和使用

初识 MongoDB 数据库

11.30 MariaDB 数据库

数据库：Mysql中“select ... for update”排他锁分析

10.13 数据库，主键为何不宜太长？

「数据库」纯go写的嵌入式数据库-BuntDB

「数据库」纯go写的数据库-NutsDB

数据库：Join算法

数据库：事务隔离级别

数据库：innodb数据组织形式

数据库：MySQL高性能优化规范建议,速度收藏

数据库：为什么MySQL数据库要用B+树存储索引？

【数据库】SQL优化还凭经验？这个工具能帮你智能优化SQL

【数据库】ORM 原理及实例教程

NoSQL 数据库 mongodbCAP 定理

01.30 数据库：史上最全SQL优化方案，总有一款留给你！

06.13 「软考高级软件架构师」数据库-分布式数据库系统概念及架构

第二章 IoC容器和Bean配置

bean是一个对象，它是由Spring

运算里不得不说的python模块—math

Help

Devops度量--DevOps 现状快速检查表

今天主要分享一个DevOps

SOP是什么（解读）

SOP不是单个的，是一个体系，虽然我们可以单独地定义每一个SOP，但真正从企业管理来看，SOP不可能只是单个的，必然是一个整体和体系，也是企业不可或缺的。

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

随着终端设备的越来越多，人工干预配置IP地址，不仅工作效率低，而且，还很容易导致IP冲突，影响正常的网络访问。到此已经完成了，DHCP服务的配置了，我们可以在终端验证。

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

这两天分析了一下头条文章网页的源文件，现在将分析的结果分享给大家。首先以一篇文章为例，其网址如下：https://www.toutiao.com/i6822245428176617998/如上图网页所示，文章中包含文字和图片。

DNS侦查工具

我们只需要打开浏览器输入例如:www.baidu.com就可以解析到该网站.为了便于记住不需要输入长长的IP地址去访问这就是DNS域名解析.关于域名域名的层次划分用点来分割这时DNS把相对应的域名解析成IP地址高的在右边.例如:www. NS简介访问某网站的时候最低在左边

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

Create

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

最后一个要介绍的命令是

（必收藏系列）Linux面试题——命令集

关注，后台私信【Linux】分享Linux入门到进阶电子书、Linux入门到精通视频教程（免费）。文件管理命令cat

五分钟学会如何在 IPFS 上部署网站

原文标题:五分钟学会如何在

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

1）实验平台：【正点原子】

小白怎么学Web前端开发如何成为技术达人

Web前端开发工程师已经成为了很多年轻人心中的理想工作，不仅入行门槛低、而且薪资待遇和发展前景都不错，自然吸引了大批人加入行业。

如何开发一个web静态服务器

我们都知道如今的web服务器有很多，比如著名的有apache，有nginx，有tomcat，有resin服务器，有sphere，有iis服务器等等，这些服务器都能提供web服务，并且几乎都能和多种语言进行搭配使用，那么一个web服务器都需要那些功能，开发一个web服务器都需要那些

学Java编程还有前景吗如何才能拿到高薪

需求大、薪资高似乎是Java开发人员的标签，不过学Java编程还有前景吗？它架构在操作系统之上，屏蔽了底层的差异，真正实现了“Writeonce run

Python网络爬虫之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的运行效率太低？几行代码快速提升！

return的就是是你所需要的结果2.3、运行这一步就是最后一步了，只要像下面一样输入上述函数名，赋予参数值，点击运行Run，就能得到你想要的结果arg1=5

python的优点是什么？最新Python400集视频（附教程）

2020，最新Python零基础到精通资料教材，干货分享，新基础Python教材，稳稳找到过万工作，看这里，这里有你想要的所有资源哦，最强笔记，教你怎么入门提升！获取方式：私信小编“

MySQL中OOM故障应如何下手-爱可生

作者：孙祚龙爱可生南区分公司交付服务部成员，实习工程师。负责公司产品问题排查及日常运维工作。本文来源：原创投稿*爱可生开源社区出品，原创内容未经授权不得随意使用，转载请联系小编并注明来源。

像专家一样使用 panic

|go

30种不同的编程语言怎么写“Hello, World”

printfn

percona QAN 介绍

一、背景QAN慢查询日志分析工具是PMM

面试官：你可以用纯CSS判断鼠标进入的方向吗？

虽然没什么软用，但是对付面试官应该是够用了。感谢面试官提出的问题，让我实现了这个功能，对CSS

网络工程师职业生涯中，哪两点是最重要的？

网络工程师最重要的技能是扎实的基础和非常开放的思维，微观知识扎实、宏观能力突出。项目经验也会让网络工程师基础更牢靠，网络工程师是要实战的，要避免纸上谈兵，我认为对基础理论的理解，比你清楚配置更重要。

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

有关以太坊2.0

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

yuminstall

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

今天的你捉住IPFS机遇了吗？我们都知道在Filecoin网络中作为一名存储矿工，信誉对于我们是非常重要的——信誉越高，爆块几率越大。那么信誉系统现在怎么样了呢？

Hive分桶表

fieldsterminated

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

编辑Exchange

$【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库$

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

在阿里云控制台，我们能下载的文件是一个压缩包，解压之后，是.idb和.frm文件，你可能要问了，我可以直接把解压好的问题件覆盖到MySQL的data目录下吗？

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度学习这样实现人脸的年龄检测

前期的文章我们分享了人脸的识别以及如何进行人脸数据的训练，本期文章我们结合人脸识别的模型进行人脸年龄的检测人脸年龄的检测步骤1、首先需要进行人脸的检测2、把检测到的人脸数据给年龄检测模型去检测3、把检测结果呈现到图片上人脸年龄检测import

嵌入式linux网络编程之——5年程序员给你深度讲解socket套接字

图8-1

深入了解ProcessFunction的状态操作(Flink-1.10)

先反思为何会有上述疑惑上述疑惑产生的原因，应该是受到平时使用HashMap的影响，HashMap获取值就是在调用get方法时指定key，设置值也是在put时指定key，所以看到state.value，看懂了这些，其实也是在了解DataStream/DataSetAPI的设计思路：

Redis内存分析工具--rdr安装与使用

分析Redis

资深架构师教你源码讲解zookeeper实现分布式锁以及集群搭建步骤

//getData发现前一个子节点被删除，抛出异常

一行代码提升迁移性能

论文原址：https://arxiv.org/pdf/2003.12237.pdf开源地址：https://github.com/cuishuhao/BNM在发表在CVPR2020

利用相似几何信息，做可泛化3D形状分割模型

更具体的有以下三种典型的分割方案：FullyConvolutional-Like

这么好用的开源计算器SpeedCrunch，没有不尝试一下的道理

介绍SpeedCrunch是一款高精度科学计算器，具有快速，键盘驱动的用户界面。获取方式在GitHub上搜索SpeedCrunch，就可以去到

分布式缓存，真香

他是前易宝支付架构师、阿里云MVP、腾讯云

特征工程的力量

在本文中，我希望教给您一些有关特征工程的知识，以及如何使用它来对非线性决策边界进行建模。为了说明这一点，假设恢复时间与身高和体重具有以下关系：Y=β₀+β₁+β2+β₃+noise从第三项来看，我们可以看到Y与身高和体重没有线性关系。

java架构：天天写面向接口编程，你考虑过性能吗？大神都是这么写

public

SpringBoot如何优雅的使用RocketMQ

源码编译需要Maven3.2x，JDK8在根目录进行打包:Copymvn-Prelease-all

css代码规范工具stylelint

"mixin"