Airflow安裝部署

2021-09-24 07:55:59 字數 1980 閱讀 6966

新聞資訊是通過爬蟲獲取,使用scrapy框架進行爬蟲任務;使用airflow工作流監控平台對爬蟲任務進行管理、監控(可使用celeryexecutor分布式,也可使用localexecutor多程序進行資料採集)。以下主要是對airflow的安裝和配置。

目前使用的系統環境為centos linux release 7.4.1708 (core),linux版本的核心linux version 3.10.0-693.2.2e17.x86_64.

1、執行命令安裝

cd /opt

sh anaconda3-5.2.0-linux-x86_64.sh(按回車鍵,直到出現》 輸入yes)

/opt/anaconda3(安裝目錄)

2、配置環境變數

echo "export path=/opt/anaconda3/bin:$path" >> /etc/profile

source /etc/profile

mysql作為airflow資料庫,主要是記錄airflow資訊;

redis作為celery的broker和backend(也可以用rabbitmq),如果不使用celeryexecutor則不需要redis配置。

通過anaconda安裝虛擬環境news_push

/opt/anaconda3/bin/conda create -y --name news_push python=3.6.5

airflow安裝、配置

修改airflow配置檔案

vim /opt/newspush/airflow/airflow.cfg

修改內容為:

複製**安裝celery支援及celeryde redis元件

pip install airflow[celery]

pip install celery[redis]

安裝mysql-python

yum install mysql-python

pip install pymysql==0.7.1

如果pymysql版本為0.8.0或以上則會有警告:

/opt/anaconda3/envs/news_push/lib/python3.6/site-packages/pymysql/cursors.py:170: warning: (1300, "invalid utf8mb4 chara

result = self._query(query)

複製**

再次初始化

airflow initdb

錯誤解決

再次初始化

airflow initdb

airflow啟動及測試

airflow使用

airflow安裝啟動

airflow框架下支援celery的問題

Airflow安裝部署

新聞資訊是通過爬蟲獲取,使用scrapy框架進行爬蟲任務 使用airflow工作流監控平台對爬蟲任務進行管理 監控 可使用celeryexecutor分布式,也可使用localexecutor多程序進行資料採集 以下主要是對airflow的安裝和配置。目前使用的系統環境為centos linux r...

airflow分布式部署(二)mysql安裝

airflow生產環境一般以mysql作為元資料庫,所以需要安裝mysql 通過rpm安裝 rpm ivh mysql community release el7 5 noarch.rpm 安裝mysql yuminstall mysql server 授權chown r mysql mysql v...

airflow排程安裝

1.安裝gcc yum install gcc y 後續安裝airflow如果不成功,可以再次執行,它會更新包 2.安裝setuptools4.環境配置 安裝依賴的環境 yum y install zlib devel bzip2 devel openssl devel ncurses devel ...