數據作業自動化調度 AirFlow 搭建

背景概述

前文提及了數據的應用,在很多時候,數據是以最原始的形態存儲在數據庫,日常使用的標籤類數據等,往往需要通過數據分析師的手動清洗。業務不會停止,所以手動更新數據不斷重複,每天都需要手動處理,難免浪費時間。此時可以考慮使用Airflow進行調度任務的自動化部署,以提高效率。

1工具說明

Airflow是Aribnb內部發起的一個工作流管理平臺,使用Python編程實現任務管理,調度,監控的工作流平臺。

關於Airflow的基本概念有:

Dag:用於描述任務數據流;

Task:Dag中的一個任務節點;

Operators:描述Dag中,節點Task要執行的具體任務;

Airflow可用UI界面進行管理,也可用CMD命令管理。

2環境說明

系統環境:Linux (必須linux)

編程語言:Python 3.6 以下

3環境搭建

注:以上命令均在命令行中執行

Airflow安裝:使用 pip install airflow 即可

修改Airflow路徑:export AIRFLOW_HOME=/root/airflow

初始化Airflow:airflow initdb(初始化後在/root/airflow路徑下看是否存在Airflow文件夾,如存在則表示成功)

4啟動服務

注:以上命令均在命令行中執行

啟動服務:airflow scheduler

啟動webUI:airflow webserver(可通過訪問http://localhost:8080/admin/進入UI管理頁面)

6

圖形化UI界面

數據作業自動化調度 AirFlow 搭建

Dag任務


數據作業自動化調度 AirFlow 搭建

任務流信息

數據作業自動化調度 AirFlow 搭建


分享到:


相關文章: