IT 삽질기

Ambari-Airflow 연동하기 본문

BigData/Airflow

Ambari-Airflow 연동하기

화이팅빌런 2020. 12. 22. 20:07

Ambari-Airflfow 연동하기

Ambari는 HDP(Hortonworks Data Platform)에서 제공하는 Hadoop 관리용 툴로 각종 Hadoop 서비스 설정과 시작, 중지 등 다양한 동작을 할 수 있는 관리 도구인데 Ambari에서는 Airflow 연동 기능을 제공하지 않는다

Airflow를 단독으로 구성하여 사용하는 방법도 있지만 여기서는 Ambari와 연동해서 사용하기 위해서는 어떻게 해야하는 지 알아보자

 

설치환경

OS : CentOS 7.7

HDP : 3.1.4

python : 3

mpack 설치

mpack를 이용해 Ambari에 Airflow를 연동할 수 있는데 아래의 github link에서 mpack를 다운받아 사용할 수 있다

github.com/miho120/ambari-airflow-mpack

 

miho120/ambari-airflow-mpack

Ambari stack service for installing and managing Apache Airflow on HDP cluster - miho120/ambari-airflow-mpack

github.com

위의 링크를 이용해서 사용할 수 있는데 해당 버전으로 동일하게 사용하는 경우 Airflow가 1.10.0 버전으로 설치된다

작성일 기준 Airflow 최신버전은 2.0

 

조금 더 최신버전을 사용하고 싶은 경우는 아래의 링크를 참고

github.com/dydwnsekd/ambari-airflow-custom

 

dydwnsekd/ambari-airflow-custom

copy https://github.com/miho120/ambari-airflow-mpack custom - dydwnsekd/ambari-airflow-custom

github.com

원본 mpack에서 버전과 일부를 수정한 버전으로 위의 링크에 있는 mpack을 그대로 사용하는 경우 airflow 1.10.10이 설치되며 virtualenv를 사용하고자 하는 경우 README문서에 따라 수정을 통해 진행하며

 

1.10.10버전 이후 버전에 대해서는 테스트가 진행되지 않아 오류가 발생할 수 있으니 주의가 필요

 

추가적으로 최신버전인 Airflow 2.x 버전에서는 python2.x 버전에 대한 지원은 더 이상하지 않아 python3.x 버전을 사용해야하는데 HDP는 python2.x의 버전만 지원하여 호환이 어려울 가능성이 있다.

 

위와 같이 mpack를 이용해 Ambari-Airflow를 연동시킨 이후에도 Airflow를 python3.x 버전으로 설치하고 spark submit operator을 사용하는 경우 python관련 이슈가 발생할 수 있는데 해당 내용은 다음 포스트에 기록하도록 하겠다

'BigData > Airflow' 카테고리의 다른 글

Airflow 2.0 설치하기(3)  (0) 2021.03.21
Airflow 2.0 설치하기(2)  (0) 2021.01.29
Airflow 2.0 설치하기(1)  (0) 2021.01.27
Airflow 용어 및 기본 개념  (0) 2020.12.03
Airflow란?  (0) 2020.12.01
Comments