TiDB SQL Engine Team｜PingCAP 招聘季

2020-03-25 11:52:02 PingCAP

“SQL at SCALE”（出自 PingCAP 官网）是我们对 TiDB 的一个精简概括，而我们 TiDB SQL Engine Team 正是负责这 3 个单词中的 “SQL” 部分，其重要性可见一斑。SQL 在数据库中的大致处理流程可以简短概括为查询优化和执行，这期间涉及到 SQL Parser、优化器、统计信息和执行引擎等模块，他们就是 TiDB SQL Engine Team 目前所负责的模块。接下来我会用简短的篇幅向大家介绍 SQL Engine 的背景知识，以及我们在做的事情，面临的挑战等。

关于查询优化

优化器是 SQL 引擎的大脑，负责查询优化。查询优化的主要工作概括起来很简单：搜索可行的执行计划，从中挑一个最好的。但要做好这两件事却是整个分布式数据库中最难的地方。

1979 年 Selinger 发布了 “Access Path Selection in a Relational Database Management System [1]”，正式拉开了 Cost Based Optimization 的帷幕，这篇论文也被视为 CBO 优化器的圣经。在这之后陆续出现了 Starburst [2]（1988 年），Volcano Optimizer Generator [3]（1993 年）和 Cascades Framework [4]（1995 年）等，每年数据库三大顶会中也能看到不少查询优化相关的论文，整个优化器领域可谓是蓬勃发展。但即使如此，优化器也仍然有很多问题未能得到很好的解决，比如：

Guy Lohman 2014 年在 “Is Query Optimization a “Solved” Problem? [5]” 中详细讲述的 SQL 算子结果集估算的难题。简单来说，要估算某个表需要扫多少行数据比较容易，但是要再估算更上层的 SQL 算子，比如 Join 或者 Join 之后再 Group By 的结果集有多大，这个就很难了。可以想象的是，估算误差会随着层数的增加而被放大，这个放大有时候是数量级的。此外还会出现负负得正的情况：明明估算错了，但是执行计划却是对的，纠正估算误差后，执行计划反而不对了 ‍。
Viktor Leis 等人在 2015 年的论文 How Good Are Query Optimizers, Really? [6] 中讨论了优化器的另一朵乌云：Join Order。如果枚举所有可行的 Join Order，光是考虑左深树，N 个表的 Join 就可能有 N! 种执行计划。目前大家普遍采用一种妥协的方案：当参与 Join 的表比较少时用动态规划来确定 Join 的顺序，表比较多的时候用贪心或者遗传算法（PG 用的模拟退火）来做。但是采用什么样的动态规划和搜索算法也仍然处在热烈的研究中，而算子结果集的估算误差又进一步让这个问题雪上加霜，难上加难。

作为一个从头到尾完全自己手写的优化器，TiDB 优化器的发展历史也算精彩：一开始我们是 Selinger 的 System R 模型，但是它的扩展性不是很好，搜索空间有限，维护成本也高，于是我们调研后，决定开发 Cascades 模型的新优化器。具体请参考：十分钟成为Contributor 系列| 为Cascades Planner 添加优化规则和揭秘TiDB 新优化器：Cascades Planner 原理解析。在开发 Cascades Planner 的同时，我们还在做着另外一件非常重要的事情，提升优化器的稳定性：

优化器的稳定性非常重要。去年之前我们经常遇到选错索引，或者干脆不选索引的问题。这个对业务的影响非常大，有时候一个慢查询可能拖垮整个集群，很多用户都吐槽过这个问题。后来调查研究后，我们引入了 Skyline Pruning 的剪枝优化，极大地提升了优化器选择索引的稳定性。参考：Proposal: Support Skyline Pruning [7]。
优化器的稳定性非常重要。要稳定的做出好的执行计划，统计信息非常非常关键。以前我们收集统计信息需要整个表都扫描一遍，扫的过程中用蓄水池算法做抽样。小表这样做没啥问题，大表也这样做就不行了：一方面担心对正在运行的业务造成影响，另一方面这种方式也很低效。于是我们结合 TiKV 的存储特点引入了 Fast Analyze，极大的提升了统计信息的搜集速度，也降低了对业务负载的影响。参考：PR/10214（https://github.com/pingcap/tidb/pull/10214）。
优化器的稳定性非常重要。即使我们做了各种优化，解了各种 Bug，仍然会出现执行计划不优的问题。有条件的用户还可以改一改 SQL，那没条件的呢？比如 SQL 是通过第三方工具自动拼接的怎么改？为了解决这些问题，我们决定引入 SQL Plan Management（https://github.com/pingcap/tidb/projects/19），先实现了给 SQL 绑定执行计划的功能，使得不用更改业务也能抢救 SQL 的执行计划（pingcap/tidb/Issue/8935）；为了能够应对更多业务场景，更加细粒度的控制优化行为，我们还丰富了 SQL Hint 集合（pingcap/tidb/Issue/12304）；为了让 SQL 执行计划不会变差，我们为 SQL 确定了 Plan 的 Baseline，并且再往前走一步，我们做了 Baseline 的自动演进，使得执行计划不但不会变坏，而且只会变的越来越好。

重要的事情重复 3 遍：优化器的稳定性非常重要。

除了稳定性之外，还有性能问题：

如何在尽量短的时间内消耗尽量少的硬件资源找到最佳执行计划？
而目前 TiDB 正在 HTAP 之路上迈出坚实步伐，如何自动识别一条 SQL 是 AP 还是 TP 查询？
如何为 TP 查询选择合理的索引？
又如何为 AP 查询做出一个高效的分布式执行计划？

可以预见，在这条道路上，优化器又将迎接新的困难和挑战，不断自我演进。

关于查询执行

我的第一份工作从执行引擎开始，对它的感情异常深厚。执行引擎的目标是尽量利用计算资源，正确且快速的完成执行计划所描述的计算任务。光有看起来很完美的执行计划，却没有高效的执行引擎，整个 SQL 引擎也是废的。

执行引擎也是一个热门的研究领域。最经典的执行模型当属 1994 年 Goetz Graefe 发表的 Volcano 迭代器模型 [8]，至今仍被广大数据库使用。原因很简单：接口抽象度高，扩展性好，实现起来简单。在数据量不大的 TP 请求中，这种模型足够用了。不过后来大家发现，随着数据量的上升，这玩意的执行性能很差：每完成一条数据的计算，要额外花费的很多 CPU 指令，计算效率非常低。于是有了后来的两大优化方向：Vectorization 和 Compilation，各自的代表分别为：2005 年 Marcin Zukowski 的 ”MonetDB/X100: Hyper-Pipelining Query Execution [9]”和 2011 年 Thomas Neumann 的 “Efficiently Compiling Efficient Query Plans for Modern Hardware [10]”。

除了执行框架，如何利用 CPU 硬件特性优化各种执行算子也被广泛的讨论和研究。比如 2013 年的《Multi-Core, Main-Memory Joins: Sort vs. Hash Revisited [11]》这篇论文详细的探讨和对比了 Hash Join 和 Merge Join 的实现和性能，2015 年的《Rethinking SIMD Vectorization for In-Memory Databases [12]》这篇论文详细讨论了如何利用 SIMD 指令提升 SQL 算子性能。此外，底层软硬件技术的革新带来更多的优化机会，比如还有一系列论文来讨论如何适配 NUMA 架构，提升算子执行性能等。

作为一个从头到尾完全自己手写的执行引擎，TiDB 执行引擎的发展也非常丰富多彩：一开始我们使用的是传统 Volcano 迭代器模型，后来我们和社区同学在 TiDB 2.0 版本中将其优化成了向量化模型（/pingcap/tidb/Issue/5261），得到了巨大的性能提升：TPC-H 50G, TiDB 2.0 VS 1.0 [13]。之后我们和社区同学优化了聚合算子，重构了整个聚合函数的执行框架，执行性能又取得了飞跃的发展（/pingcap/tidb/Issue/6952）。再之后，我们和社区同学优化了表达式执行框架，使得表达式执行效率得到了 10 倍的性能提升，这期间 10x Performance Improvement for Expression Evaluation Made Possible by Vectorized Execution and the Community [14] 这篇文章还占据了 Hacker News 的首页和 DZone Database 头版头条。

稳定性和易用性也非常重要。为了解决用户 OOM 的问题，我们先后引入了内存追踪和记录的机制，后来干脆让算子落盘真正解决内存使用过多的问题，另外我们也在优化排查问题的调查工具，方便在出问题时快速定位和 workaround。

如前文所说，目前 TiDB 正在 HTAP 之路上迈出坚实的步伐。执行引擎将在新的征程上肩负着新的使命。在分布式数据库中，广义上的执行引擎需要考虑更多的事情：任务如何调度？shuffle 如何优化？目前三套执行引擎（TiDB、TiKV、TiFlash）三套代码的维护成本如何降低？这些问题都等待着我们去探索和解决，可以预见，在这条道路上，执行引擎又将迎接新的困难和挑战，不断自我演进。

期待你的加入

很开心，TiDB 的优化器和执行引擎是从零开始由我们纯手工打造的，我们有很大的自由度来发挥自己的创造力；很紧张，上面这些列出来的种种问题我们都会遇到；很荣幸，我们能够和业界大牛、广大开源爱好者们一起来攻克这些难题；也很有成就感，我们能在广大 TiDB 用户的业务中看到这些改进为他们带来的价值。

我们热爱开源，相信开源能够为我们的产品带来巨大的收益，也愿意为开源奉献，非常期待同样热爱开源的你的加入。如果你：

热爱和相信开源，聪明且有激情；
敢于挑战上面那些难题，突破极限；
熟悉分布式系统、优化器和执行引擎的实现，熟悉 CPU 硬件特性；
有团队带领经验（加分项）。

那么我们就加入我们吧，一起向这些难题发起挑战，构建一个前沿、稳定的优化器和高效易用的执行引擎。

[1].https://www2.cs.duke.edu/courses/compsci516/cps216/spring03/papers/selinger-etal-1979.pdf

[2].https://people.eecs.berkeley.edu/~brewer/cs262/23-lohman88.pdf

[3].https://15721.courses.cs.cmu.edu/spring2017/papers/14-optimizer1/graefe-icde1993.pdf

[4].https://www.cse.iitb.ac.in/infolab/Data/Courses/CS632/Papers/Cascades-graefe.pdf[

5].https://wp.sigmod.org/?p=1075

[6].http://www.vldb.org/pvldb/vol9/p204-leis.pdf

[7].https://github.com/pingcap/tidb/blob/master/docs/design/2019-01-25-skyline-pruning.md

[8].https://paperhub.s3.amazonaws.com/dace52a42c07f7f8348b08dc2b186061.pdf

[9].http://cidrdb.org/cidr2005/papers/P19.pdf

[10].https://www.vldb.org/pvldb/vol4/p539-neumann.pdf

[11].http://www.vldb.org/pvldb/vol7/p85-balkesen.pdf

[12].http://www.cs.columbia.edu/~orestis/sigmod15.pdf

[13].https://github.com/pingcap/docs-cn/blob/master/v2.1-legacy/benchmark/tpch.md

[14].https://pingcap.com/blog/10x-performance-improvement-for-expression-evaluation-made-possible-by-vectorized-execution/

加入我们吧！

我们认为优秀的工程师或多或少有以下共同特质：

· A Quick Learner

· A- n Earnest Curiosity

· Faith in Open Source

· Self-driven

· Get Things Done

如果你符合以上特质，欢迎进入招聘页面查看目前开放的工作机会：

https://www.pingcap.com/recruit-cn/join/#positions

简历投递通道：[email protected]

实习生：公司的各项福利和学习资源对实习生全面开放，更重要的是实习生还未毕业就有机会接触工业级项目，而且实习期间表现优异者将有机会获得校招绿色通道特权。针对实习时间并不充裕的小伙伴，你可以先通过 Talent Plan 丰富基础知识（https://university.pingcap.com/talent-plan/），也可以通过参与 TiDB 开源社区获得更多实践机会！

伯乐推荐：如果你身边有符合以上要求的小伙伴，也可以找我们聊一聊，推荐成功就有机会获得伯乐推荐奖励。伯乐推荐邮件格式：[伯乐推荐] 候选人姓名-职位名称-推荐人姓名-推荐人手机号。延展阅读

延展阅读

是的，我们在招人！PingCAP 2020 招聘季正式开启
TiDB Architecture Team：挑战数据库的本质难题
揭秘 PingCAP 年轻前沿的团队：用户生态
TiDB SQL Infra Team：一起打造从计算层到存储层的完美桥梁
原厂 DBA：连接技术和价值的“最后一米”

分享到:

閱讀更多 PingCAP 的文章

關鍵字: 招聘算法数据库

SQL Server 2012 高级用法（四）

SQL:WHERE 和 HAVING、ON 有什么区别？

SQL Server 2012 高级用法（二）

configure: error: could not locate SQL headers

如何将Azure SQL 数据库还原到本地数据库中

SQL Server 常用近百条SQL语句（收藏版）

五个 SQL 查询性能测试题，只有 40% 及格率，你敢来挑战吗？

SQL 基础知识- 数据库与 SQL

SQL Server 2008 R2

sql server自动备份数据库

SQL SERVER 数据库置疑紧急模式修复

sql server 数据库置疑解决办法

SQL Server的行转列和列转行

SQL Server查询锁表语句

02.13 MS sql 显错注入和反弹注入，疫情在家要努力学习哦

MS sql 显错注入和反弹注入，疫情在家要努力学习哦

一次搞定各种数据库 SQL 执行计划

01.09 SQL SERVER数据库如何备份和还原

SQL Server 树形递归查询

mybatis-plus/mybatis 自定义 sql 语句、动态 sql

12.27 mybatis-plus/mybatis 自定义 sql 语句、动态 sql

SQL 已死，但 SQL 将永存

12.03 数据库教程-SQL Server多条件模糊查询

12.02 Sql Server数据库安装，不能再详细了，不信你看看

SQL

SQL Server 磁盘空间如何扩容？

SQL SERVER数据库中的向导创建数据库详细步骤

SQL SERVER数据库中的update语句基本用法详解

SQL SERVER数据库中删除语句delete的用法

SQL SERVER数据库中的触发器详解

SQL SERVER程序设计 T-SQL基础

SQL SERVER数据库中的视图基础

11.20 SQL SERVER中的group by 分组查询和having字句

Sql Server中孤立的SQL用户查找和删除

SQL Server性能调优领域的扛鼎之作--SQL Server性能调优实战

Sql Server数据库中查看或修改identity(自增列)的值

SQL--每日一解------ count(*)，count(1)和count(列名)的区别

SQL--每日一解------DBLink 跨库查询

SQL Server 数据库高级查询语句

SQL Server 数据库设计--SELECT高级查询语句之三

SQL Server 数据库设计--SELECT语句之二

SQL SERVER占用CPU过高排查和优化

sql server 2012 集群AlwaysOn实现只读路由，读写分离，很不错

SQL 已死，但 SQL 将永存！

分享：SQL 注入攻防入门详解

无需密码攻击 SQL Server 的几种思路

SQL server2008r2 日志文件收缩

Big SQL vs Spark SQL 100TB：它们如何叠加？

第二章 IoC容器和Bean配置

bean是一个对象，它是由Spring

运算里不得不说的python模块—math

Help

Devops度量--DevOps 现状快速检查表

今天主要分享一个DevOps

SOP是什么（解读）

SOP不是单个的，是一个体系，虽然我们可以单独地定义每一个SOP，但真正从企业管理来看，SOP不可能只是单个的，必然是一个整体和体系，也是企业不可或缺的。

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

随着终端设备的越来越多，人工干预配置IP地址，不仅工作效率低，而且，还很容易导致IP冲突，影响正常的网络访问。到此已经完成了，DHCP服务的配置了，我们可以在终端验证。

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

这两天分析了一下头条文章网页的源文件，现在将分析的结果分享给大家。首先以一篇文章为例，其网址如下：https://www.toutiao.com/i6822245428176617998/如上图网页所示，文章中包含文字和图片。

DNS侦查工具

我们只需要打开浏览器输入例如:www.baidu.com就可以解析到该网站.为了便于记住不需要输入长长的IP地址去访问这就是DNS域名解析.关于域名域名的层次划分用点来分割这时DNS把相对应的域名解析成IP地址高的在右边.例如:www. NS简介访问某网站的时候最低在左边

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

Create

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

最后一个要介绍的命令是

（必收藏系列）Linux面试题——命令集

关注，后台私信【Linux】分享Linux入门到进阶电子书、Linux入门到精通视频教程（免费）。文件管理命令cat

五分钟学会如何在 IPFS 上部署网站

原文标题:五分钟学会如何在

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

1）实验平台：【正点原子】

小白怎么学Web前端开发如何成为技术达人

Web前端开发工程师已经成为了很多年轻人心中的理想工作，不仅入行门槛低、而且薪资待遇和发展前景都不错，自然吸引了大批人加入行业。

如何开发一个web静态服务器

我们都知道如今的web服务器有很多，比如著名的有apache，有nginx，有tomcat，有resin服务器，有sphere，有iis服务器等等，这些服务器都能提供web服务，并且几乎都能和多种语言进行搭配使用，那么一个web服务器都需要那些功能，开发一个web服务器都需要那些

学Java编程还有前景吗如何才能拿到高薪

需求大、薪资高似乎是Java开发人员的标签，不过学Java编程还有前景吗？它架构在操作系统之上，屏蔽了底层的差异，真正实现了“Writeonce run

Python网络爬虫之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的运行效率太低？几行代码快速提升！

return的就是是你所需要的结果2.3、运行这一步就是最后一步了，只要像下面一样输入上述函数名，赋予参数值，点击运行Run，就能得到你想要的结果arg1=5

python的优点是什么？最新Python400集视频（附教程）

2020，最新Python零基础到精通资料教材，干货分享，新基础Python教材，稳稳找到过万工作，看这里，这里有你想要的所有资源哦，最强笔记，教你怎么入门提升！获取方式：私信小编“

MySQL中OOM故障应如何下手-爱可生

作者：孙祚龙爱可生南区分公司交付服务部成员，实习工程师。负责公司产品问题排查及日常运维工作。本文来源：原创投稿*爱可生开源社区出品，原创内容未经授权不得随意使用，转载请联系小编并注明来源。

像专家一样使用 panic

|go

30种不同的编程语言怎么写“Hello, World”

printfn

percona QAN 介绍

一、背景QAN慢查询日志分析工具是PMM

面试官：你可以用纯CSS判断鼠标进入的方向吗？

虽然没什么软用，但是对付面试官应该是够用了。感谢面试官提出的问题，让我实现了这个功能，对CSS

网络工程师职业生涯中，哪两点是最重要的？

网络工程师最重要的技能是扎实的基础和非常开放的思维，微观知识扎实、宏观能力突出。项目经验也会让网络工程师基础更牢靠，网络工程师是要实战的，要避免纸上谈兵，我认为对基础理论的理解，比你清楚配置更重要。

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

有关以太坊2.0

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

yuminstall

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

今天的你捉住IPFS机遇了吗？我们都知道在Filecoin网络中作为一名存储矿工，信誉对于我们是非常重要的——信誉越高，爆块几率越大。那么信誉系统现在怎么样了呢？

Hive分桶表

fieldsterminated

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

编辑Exchange

$【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库$

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

在阿里云控制台，我们能下载的文件是一个压缩包，解压之后，是.idb和.frm文件，你可能要问了，我可以直接把解压好的问题件覆盖到MySQL的data目录下吗？

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度学习这样实现人脸的年龄检测

前期的文章我们分享了人脸的识别以及如何进行人脸数据的训练，本期文章我们结合人脸识别的模型进行人脸年龄的检测人脸年龄的检测步骤1、首先需要进行人脸的检测2、把检测到的人脸数据给年龄检测模型去检测3、把检测结果呈现到图片上人脸年龄检测import

嵌入式linux网络编程之——5年程序员给你深度讲解socket套接字

图8-1

深入了解ProcessFunction的状态操作(Flink-1.10)

先反思为何会有上述疑惑上述疑惑产生的原因，应该是受到平时使用HashMap的影响，HashMap获取值就是在调用get方法时指定key，设置值也是在put时指定key，所以看到state.value，看懂了这些，其实也是在了解DataStream/DataSetAPI的设计思路：

Redis内存分析工具--rdr安装与使用

分析Redis

资深架构师教你源码讲解zookeeper实现分布式锁以及集群搭建步骤

//getData发现前一个子节点被删除，抛出异常

一行代码提升迁移性能

论文原址：https://arxiv.org/pdf/2003.12237.pdf开源地址：https://github.com/cuishuhao/BNM在发表在CVPR2020

利用相似几何信息，做可泛化3D形状分割模型

更具体的有以下三种典型的分割方案：FullyConvolutional-Like

这么好用的开源计算器SpeedCrunch，没有不尝试一下的道理

介绍SpeedCrunch是一款高精度科学计算器，具有快速，键盘驱动的用户界面。获取方式在GitHub上搜索SpeedCrunch，就可以去到

分布式缓存，真香

他是前易宝支付架构师、阿里云MVP、腾讯云

特征工程的力量

在本文中，我希望教给您一些有关特征工程的知识，以及如何使用它来对非线性决策边界进行建模。为了说明这一点，假设恢复时间与身高和体重具有以下关系：Y=β₀+β₁+β2+β₃+noise从第三项来看，我们可以看到Y与身高和体重没有线性关系。

java架构：天天写面向接口编程，你考虑过性能吗？大神都是这么写

public

SpringBoot如何优雅的使用RocketMQ

源码编译需要Maven3.2x，JDK8在根目录进行打包:Copymvn-Prelease-all

css代码规范工具stylelint

"mixin"