일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Kafka
- docker
- slack app
- slack
- Example DAG
- HIVE
- HDFS
- jupyter
- LDAP
- python
- Scala
- NoSQL
- Namenode
- Windows
- MapReduce
- hadoop
- HBase
- execution_date
- airflow
- Lambda architecture
- 람다 아키텍처
- ambari
- 빅데이터
- java
- yarn
- Service
- SlackWebhookOperator
- HDP
- 정규표현식
- re
- Today
- Total
IT 삽질기
Ambari-Airflow 연동하기 본문
Ambari-Airflfow 연동하기
Ambari는 HDP(Hortonworks Data Platform)에서 제공하는 Hadoop 관리용 툴로 각종 Hadoop 서비스 설정과 시작, 중지 등 다양한 동작을 할 수 있는 관리 도구인데 Ambari에서는 Airflow 연동 기능을 제공하지 않는다
Airflow를 단독으로 구성하여 사용하는 방법도 있지만 여기서는 Ambari와 연동해서 사용하기 위해서는 어떻게 해야하는 지 알아보자
설치환경
OS : CentOS 7.7
HDP : 3.1.4
python : 3
mpack 설치
mpack를 이용해 Ambari에 Airflow를 연동할 수 있는데 아래의 github link에서 mpack를 다운받아 사용할 수 있다
github.com/miho120/ambari-airflow-mpack
위의 링크를 이용해서 사용할 수 있는데 해당 버전으로 동일하게 사용하는 경우 Airflow가 1.10.0 버전으로 설치된다
작성일 기준 Airflow 최신버전은 2.0
조금 더 최신버전을 사용하고 싶은 경우는 아래의 링크를 참고
github.com/dydwnsekd/ambari-airflow-custom
원본 mpack에서 버전과 일부를 수정한 버전으로 위의 링크에 있는 mpack을 그대로 사용하는 경우 airflow 1.10.10이 설치되며 virtualenv를 사용하고자 하는 경우 README문서에 따라 수정을 통해 진행하며
1.10.10버전 이후 버전에 대해서는 테스트가 진행되지 않아 오류가 발생할 수 있으니 주의가 필요
추가적으로 최신버전인 Airflow 2.x 버전에서는 python2.x 버전에 대한 지원은 더 이상하지 않아 python3.x 버전을 사용해야하는데 HDP는 python2.x의 버전만 지원하여 호환이 어려울 가능성이 있다.
위와 같이 mpack를 이용해 Ambari-Airflow를 연동시킨 이후에도 Airflow를 python3.x 버전으로 설치하고 spark submit operator을 사용하는 경우 python관련 이슈가 발생할 수 있는데 해당 내용은 다음 포스트에 기록하도록 하겠다
'BigData > Airflow' 카테고리의 다른 글
Airflow 2.0 설치하기(3) (0) | 2021.03.21 |
---|---|
Airflow 2.0 설치하기(2) (0) | 2021.01.29 |
Airflow 2.0 설치하기(1) (0) | 2021.01.27 |
Airflow 용어 및 기본 개념 (0) | 2020.12.03 |
Airflow란? (0) | 2020.12.01 |