背景概述
前文提及了數據的應用,在很多時候,數據是以最原始的形態存儲在數據庫,日常使用的標籤類數據等,往往需要通過數據分析師的手動清洗。業務不會停止,所以手動更新數據不斷重複,每天都需要手動處理,難免浪費時間。此時可以考慮使用Airflow進行調度任務的自動化部署,以提高效率。
1工具說明
Airflow是Aribnb內部發起的一個工作流管理平臺,使用Python編程實現任務管理,調度,監控的工作流平臺。
關於Airflow的基本概念有:
Dag:用於描述任務數據流;
Task:Dag中的一個任務節點;
Operators:描述Dag中,節點Task要執行的具體任務;
Airflow可用UI界面進行管理,也可用CMD命令管理。
2環境說明
系統環境:Linux (必須linux)
編程語言:Python 3.6 以下
3環境搭建
注:以上命令均在命令行中執行
Airflow安裝:使用 pip install airflow 即可
修改Airflow路徑:export AIRFLOW_HOME=/root/airflow
初始化Airflow:airflow initdb(初始化後在/root/airflow路徑下看是否存在Airflow文件夾,如存在則表示成功)
4啟動服務
注:以上命令均在命令行中執行
啟動服務:airflow scheduler
啟動webUI:airflow webserver(可通過訪問http://localhost:8080/admin/進入UI管理頁面)
6
圖形化UI界面
![數據作業自動化調度 AirFlow 搭建](http://p2.ttnews.xyz/loading.gif)
Dag任務
![數據作業自動化調度 AirFlow 搭建](http://p2.ttnews.xyz/loading.gif)
任務流信息
閱讀更多 Ai機器學習 的文章