Apache Flink——集群部署模式案例

2024-04-10 01:00:29 阅读数 1237

前言

本文重点是Flink on Yarn模式的部署，但在写Yarn 模式部署之前，说一下独立模式（Standalone）模式

独立模式（Standalone）

独立模式是独立运行的，不依赖任何外部的资源管理平台；当然独立也是有代价的：如果资源不足，或者出现故障，没有自动扩展或重分配资源的保证，必须手动处理。所以独立模式一般只用在开发测试或作业非常少的场景下。

会话模式部署

可以发现，独立模式的特点是不依赖外部资源管理平台，而会话模式的特点是先启动集群、后提交作业。所以，在https://www.jianshu.com/p/4acf1df75088中用的就是独立模式（Standalone）的会话模式部署。

单作业模式部署

Flink 本身无法直接以单作业方式启动集群，一般需要借助一些资源管理平台。所以 Flink 的独立（Standalone）集群并不支持单作业模式部署。

一、应用模式部署

应用模式下不会提前创建集群，所以不能调用 start-cluster.sh 脚本。我们可以使用同样在bin 目录下的 standalone-job.sh 来创建一个 JobManager。
具体步骤如下：

1、进入到 Flink 的安装路径下，将应用程序的 jar 包放到 lib/目录下。

[root@hadoop102 flink-1.13.0]# cp Flink_1.13-1.0-SNAPSHOT.jar ./lib/

2、执行以下命令，启动 JobManager。

[root@hadoop102 flink-1.13.0]#./bin/standalone-job.sh start --job-classname com.hao.wc.StreamWordCount

这里直接指定作业入口类，脚本会到 lib 目录扫描所有的 jar 包。

3、同样是使用 bin 目录下的脚本，启动 TaskManager。

[root@hadoop103 flink-1.13.0]# ./bin/taskmanager.sh start
[root@hadoop104 flink-1.13.0]# ./bin/taskmanager.sh start

4、如果希望停掉集群，同样可以使用脚本，命令如下。

[root@hadoop102 flink-1.13.0]# ./bin/standalone-job.sh stop
[root@hadoop103 flink-1.13.0]# ./bin/taskmanager.sh stop
[root@hadoop104 flink-1.13.0]# ./bin/taskmanager.sh stop

二、Yarn模式

整体来说，YARN 上部署的过程是：客户端把 Flink 应用提交给 Yarn 的 ResourceManager，Yarn 的 ResourceManager 会向 Yarn 的 NodeManager 申请容器。在这些容器上，Flink 会部署JobManager 和 TaskManager 的实例，从而启动集群。Flink 会根据运行在 JobManger 上的作业所需要的 Slot 数量动态分配 TaskManager 资源。

三、会话模式部署

YARN 的会话模式与独立集群略有不同，需要首先申请一个 YARN 会话（YARN session）来启动 Flink 集群。具体步骤如下：

1、启动集群
- 启动 hadoop 集群(HDFS, YARN)。
- 执行脚本命令向 YARN 集群申请资源，开启一个 YARN 会话，启动 Flink 集群。

[root@hadoop102 flink-yarn]# bin/yarn-session.sh -nm test

可用参数解读：

-d：分离模式，如果你不想让 Flink YARN 客户端一直前台运行，可以使用这个参数，即使关掉当前对话窗口，YARN session 也可以后台运行。
-jm(–jobManagerMemory)：配置 JobManager 所需内存，默认单位 MB。
-nm(–name)：配置在 YARN UI 界面上显示的任务名。
-qu(–queue)：指定 YARN 队列名。
-tm(–taskManager)：配置每个 TaskManager 所使用内存。

注意：Flink1.11.0 版本不再使用-n 参数和-s 参数分别指定 TaskManager 数量和 slot 数量，YARN 会按照需求动态分配 TaskManager 和 slot。所以从这个意义上讲，YARN 的会话模式也不会把集群资源固定，同样是动态分配的。YARN Session 启动之后会给出一个 web UI 地址以及一个 YARN application ID，

命令结尾如下所示：

提交作业

通过 Web UI 提交作业
这种方式比较简单，先前的博客有讲解：https://blog.csdn.net/weixin_45417821/article/details/124037866
通过命令行提交作业

[root@hadoop102 flink-yarn]# bin/flink run \
-c com.hao.wc.StreamWordCount ./Flink_1.13-1.0-SNAPSHOT.jar

在Yarn中查看，点击

跳转到的 Web UI 页面如下：

四、单作业模式部署

在 YARN 环境中，由于有了外部平台做资源调度，所以我们也可以直接向 YARN 提交一个单独的作业，从而启动一个 Flink 集群。

4.1 执行命令提交作业。

[root@hadoop102 flink-yarn]# bin/flink run \
-d \
-t yarn-per-job \
-c com.hao.wc.StreamWordCount ./Flink_1.13-1.0-SNAPSHOT.jar

命令行结尾如下

4.2 在 YARN 的 ResourceManager 界面查看执行情况

点击可以打开 Flink Web UI 页面进行监控

五、应用模式部署

[root@hadoop102 flink-yarn]# bin/flink run-application \
-t yarn-application \
-c com.hao.wc.StreamWordCount ./Flink_1.13-1.0-SNAPSHOT.jar

在 YARN 的 ResourceManager 界面查看执行情况