Flink Native Kubernetes实战_技术 _ 頭條網

回顾Flink Kubernetes

Flink Kubernetes

与Flink Native Kubernetes是不同的概览，先回顾一下Flink Kubernetes：

如下图，从1.2版本到目前最新的1.10，Flink官方都给出了Kubernetes上部署和运行Flink的方案：

在kubernetes上有两种方式运行flink：session cluster和job cluster，其中session cluster是一套服务可以提交多个任务，而job cluster则是一套服务只对应一个任务；下图是典型的session cluster部署操作，可见关键是准备好service、deployment等资源的yaml文件，再用kubectl命令创建：

关于Flink Native Kubernetes

先对比官方的1.9和1.10版本文档，如下图和红框和蓝框所示，可见Flink Native Kubernetes是1.10版本才有的新功能：

看看Native Kubernetes是如何运行的，如下图，创建session cluster的命令来自Flink安装包：

更有趣的是，提交任务的命令也来自Flink安装包，就是我们平时提交任务用到flink run命令，如下图：

结合官方给出的提交和部署流程图就更清晰了：kubernetes上部署了Flink Master，由Flink Client来提交session cluster和job的请求：

Flink Kubernetes和Flink Native Kubernetes的区别

至此，可以小结Flink Kubernetes和Flink Native Kubernetes的区别：

Flink Kubernetes自1.2版本首次出现，Flink Native Kubernetes自1.10版本首次出现；Flink Kubernetes是把JobManager和TaskManager等进程放入容器，在kubernetes管理和运行，这和我们把java应用做成docker镜像再在kubernetes运行是一个道理，都是用kubectl在kubernetes上操作；Flink Native Kubernetes是在Flink安装包中有个工具，此工具可以向kubernetes的Api Server发送请求，例如创建Flink Master，并且可以和Flink Master通讯，用于提交任务，我们只要用好Flink安装包中的工具即可，无需在kubernetes上执行kubectl操作；

Flink Native Kubernetes在Flink-1.10版本中的不足之处

Flink Native Kubernetes只是Beta版，属于实验性质（官方原话：still experimental），请勿用于生产环境！只支持session cluster模式（一个常驻session执行多个任务），还不支持Job clusters模式(一个任务对应一个session)

尽管还没有进入Release阶段，但这种操作模式对不熟悉kubernetes的开发者来说还是很友好的，接下来通过实战来体验吧；

官方要求

为了体验Native Kubernetes，除了flink版本不能低于1.10，flink官方还还提出了下列前提条件：

kubernetes版本不低于1.9kubernetes环境的DNS是正常的KubeConfig文件，并且这个文件是有权对pod和service资源做增删改查的（kubectl命令有权对pod和service做操作，也是因为它使用了对应的KubeConfig文件），这个文件一般在kubernetes环境上，全路径：~/.kube/configpod执行时候的身份是service account，这个service account已经通过RBAC赋予了pod的增加和删除权限；

前面两点需要您自己保证已达到要求，第三和第四点现在先不必关心，后面有详细的步骤来完成；

实战环境信息

本次实战的环境如下图所示，一套kubernetes环境（版本是1.15.3），另外还有一台CentOS7电脑，上面已部署了flink-1.10（这里的部署

是说把安装包解压，不启动任何服务）：

准备完毕，开始实战了~

实战内容简介

本次实战是在kubernetes环境创建一个session cluster，然后提交任务到这个sessionc cluster运行，与官方教程不同的是本次实战使用自定义namespace和service account，毕竟生产环境一般是不允许使用default作为namespace和service account的；

实战

在CetnOS7电脑上操作时使用的是root账号；在kubernetes的节点上，确保有权执行kubectl命令对pod和service进行增删改查，将文件

~/.kube/config复制到CentOS7电脑的~/.kube/目录下；在kubernetes的节点上，执行以下命令创建名为flink-session-cluster的namespace：

<code>kubectl create namespace flink-session-cluster/<code>执行以下命令创建名为flink的serviceaccount：

<code>kubectl create serviceaccount flink -n flink-session-cluster/<code>执行以下命令做serviceaccount和角色的绑定：

<code>kubectl create clusterrolebinding flink-role-binding-flink \\
--clusterrole=edit \\
--serviceaccount=flink-session-cluster:flink/<code>SSH登录部署了flink的CentOS7电脑，在flink目录下执行以下命令，即可创建名为session001的session cluster，其中-Dkubernetes.namespace参数指定了namespace，另外还指定了一个TaskManager实例使用一个CPU资源、4G内存、内含6个slot：

<code>./bin/kubernetes-session.sh \\
-Dkubernetes.namespace=flink-session-cluster \\
-Dkubernetes.jobmanager.service-account=flink \\
-Dkubernetes.cluster-id=session001 \\
-Dtaskmanager.memory.process.size=8192m \\
-Dkubernetes.taskmanager.cpu=1 \\
-Dtaskmanager.numberOfTaskSlots=4 \\
-Dresourcemanager.taskmanager-timeout=3600000/<code>如下图，控制台提示创建成功，并且红框中提示了flink web UI的访问地址是http://192.168.50.135:31753：

下载镜像和启动容器需要一定的时间，可以用kubectl get和kubectl describe命令观察对应的deployment和pod的状态：

pod启动成功后访问flink web，如下图，此时还没有创建TaskManager，因此Slot为零：

回到CentOS7电脑，在flink目录下执行以下命令，将官方自带的WindowJoin任务提交到session cluster：

<code>./bin/flink run -d \\
-e kubernetes-session \\
-Dkubernetes.namespace=flink-session-cluster \\
-Dkubernetes.cluster-id=session001 \\
examples/streaming/WindowJoin.jar/<code>控制台提示提交任务成功：

页面上也会同步显示增加了一个TaskManager，对应6个slot，已经用掉了一个：

再连续提交5次相同的任务，将此TaskManager的slot用光：

这时候再提交一次任务，页面如下图所示，TaskManager数量还是1，并没有增加，并且红框中显示新增的任务并没有正常运行起来：

在kubernetes环境查看pod情况，如下图红框所示，有个新建的pod状态是Pending，看来这就是第七个任务不能执行就是因为这个新建的pod无法正常工作导致的：

再看看这个namespace的事件通知，如下图红框所示，名为session001-taskmanager-1-2的pod有一条通知信息：由于CPU资源不足导致pod创建失败：

穷到没钱配置kubernetes环境，连一核CPU都凑不齐：

一时半会儿也找不出多余的CPU资源，唯一能做的就是降低TaskManager的CPU要求，刚才配置的是一个TaskManager使用一核CPU，我打算降低一半，即0.5核，这样就够两个TaskManager用了；您可能会疑惑：怎么会有0.5个CPU这样的配置？这个和kubernetes的资源限制有关，kubernetes对pod的CPU限制粒度是千分之一个CPU，也是就是在kubernetes中，配置1000单位的CPU表示使用1核，我们配置0.5核，不过是配置了500单位而已（所以我还可以更穷....）接下来的操作是先停掉当前的session cluster，再重新创建一个，创建的时候参数

-Dkubernetes.taskmanager.cpu的值从1改为0.5在CentOS7电脑上执行以下命令，将session cluster停掉，释放所有资源：

<code>echo 'stop' | \\
./bin/kubernetes-session.sh \\
-Dkubernetes.namespace=flink-session-cluster \\
-Dkubernetes.cluster-id=session001 \\
-Dexecution.attached=true/<code>控制台提示操作成功：

稍等一分钟左右，再去查看pod，发现已经全部不见了：

在CentOS7电脑的flink目录下，执行以下命令，和之前相比，唯一变化就是-Dkubernetes.taskmanager.cpu参数的值：

<code>./bin/kubernetes-session.sh \\
-Dkubernetes.namespace=flink-session-cluster \\
-Dkubernetes.jobmanager.service-account=flink \\
-Dkubernetes.cluster-id=session001 \\
-Dtaskmanager.memory.process.size=4096m \\
-Dkubernetes.taskmanager.cpu=0.5 \\
-Dtaskmanager.numberOfTaskSlots=6 \\
-Dresourcemanager.taskmanager-timeout=3600000/<code>从控制台提示得到新的flink web UI端口值，再访问网页，发现启动成功了：

像之前那样提交任务，连续提交7个，这一次很顺利，在提交了第七个任务后，新的TaskManager创建成功，7个任务都成功执行了：

用kubectl describe pod命令查看TaskManager的pod，如下图红框所示，可见该pod的CPU用量是500单位，符合之前的推测：

这里再提醒一下，降低CPU用量，意味着该pod中的进程获取的CPU执行时间被降低，会导致任务执行变慢，所以这种方法不可取，正确的思路是确保硬件资源能满足业务需求(像我这样穷到一核CPU都凑不齐的情况还是不多的....)

清理资源

如果已完成Flink Native Kubernetes体验，想彻底清理掉前面的所有资源，请按照以下步骤操作：

在web页面点击Cancel Job停止正在运行的任务，如下图红框：

在CentOS7电脑上停止session cluster：

<code>kubectl delete service session001 -n flink-session-cluster
kubectl delete clusterrolebinding flink-role-binding-flink
kubectl delete serviceaccount flink -n flink-session-cluster
kubectl delete namespace flink-session-cluster/<code>所有cluster session相关的ConfigMap、Service、Deployment、Pod等资源，都通过kubernetes的ownerReferences配置与service关联，因此一旦service被删除，其他资源被被自动清理掉，无需处理；

至此，Flink Native Kubernetes相关的实战就完成了，如果您也在关注这个技术，希望本文能给您一些参考。

回顾Flink Kubernetes

关于Flink Native Kubernetes

Flink Kubernetes和Flink Native Kubernetes的区别

Flink Native Kubernetes在Flink-1.10版本中的不足之处

官方要求

实战环境信息

实战内容简介

实战

清理资源

相關文章:

深入了解ProcessFunction的状态操作(Flink-1.10)

Flink SQL Client综合实战

Flink 消息聚合处理方案

Flink 基础入门

Flink 流批一体的实践与探索

花一元学习一下 Spark，对比一下 Flink

实时流处理框架Storm+SparkStreaming+Samza+Flink，谁可笑傲江湖

自从阿里拿下 Flink 以后, 你还不懂 Flink 就 out 了

一行配置作业性能提升53%！Flink SQL 性能之旅

高级大数据工程师必备知识：Hadoop+Spark+Flink+Kylin

Flink 状态(State)管理在推荐场景中的应用

Kafka + Flink + Redis 的电商大屏实时计算案

Flink 基础知识大补

02.13 基于 Flink 的实时特征平台在携程的应用

基于 Flink 的实时特征平台在携程的应用

Flink Broadcast State实战案例：电商平台用户行为模式分析

Flink Checkpoint机制原理剖析与参数配置

Flink 状态管理与 Checkpoint 机制

Flink 基础学习(一)初识和基础概念

2019 年的 Apache Flink

Flink水印机制（watermark）

12.25 使用 Apache Flink 开发实时 ETL

12.21 Flink 全链路端到端延迟的测量方法

基于Kafka+Flink+Redis的电商大屏实时计算案例

美团点评基于 Apache Flink 的实时数仓平台实践

12.14 美团点评基于 Apache Flink 的实时数仓平台实践

11.21 Flink 单并行度内使用多线程来提高作业性能

Flink 原理与实现：内存管理

Flink State 有可能代替数据库吗？

Flink 快速实战开发

Flink 流式计算在节省资源方面的简单分析

Flink 实时写入数据到 ElasticSearch 性能调优

汽车之家基于 Flink 的实时 SQL 平台设计思路与实践

Flink：你绕不过去的 Hello World

Apache Flink 零基础入门（二）：DataStream API编程

深入了解 Apache Flink 的网络协议栈

如何从小白进化成 Apache Flink 技术专家？9节基础课程免费公开

5分钟从零构建第一个 Apache Flink 应用

Apache Flink Time & Window 深度解析

一文了解 Apache Flink 核心技术

Flink 在有赞实时计算的实践

大数据实时处理引擎 Structured Streaming VS Flink

杠上 Spark、Flink？Kafka 为何转型流数据平台

Spark Streaming VS Flink

Flink 靠什么征服饿了么工程师？

Spark Streaming 和 Flink 谁是数据开发者的最爱？

Flink StreamSQL 原理介绍

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

python的优点是什么？最新Python400集视频（附教程）

MySQL中OOM故障应如何下手-爱可生

像专家一样使用 panic

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪