일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- jupyter
- Service
- LDAP
- docker
- re
- python
- HIVE
- java
- NoSQL
- airflow
- Kafka
- Scala
- slack app
- Namenode
- 빅데이터
- execution_date
- hadoop
- HBase
- Lambda architecture
- Windows
- MapReduce
- Example DAG
- slack
- 람다 아키텍처
- HDP
- HDFS
- SlackWebhookOperator
- ambari
- yarn
- 정규표현식
- Today
- Total
목록BigData/Airflow (23)
IT 삽질기
Airflow 1.x대 버전에서는 외부 서비스(HDFS, Hive, sqoop등)을 사용할 때 별도의 패키지를 설치하지 않고 사용할 수 있었다. Ariflow 2.x대 버전으로 버전이 업그레이드 되며 이 부분이 변경되었다 airflow.apache.org/docs/apache-airflow-providers/ 위의 링크를 살펴보면, 자세한 설명이 나와있는데, pip를 이용하여 개별적으로 설치가 가능하며 커스텀 패키지를 개발하여 사용하는 것도 가능하다 Airflow에서 제공하는 providers목록은 아래의 링크에 정리되어 있다 airflow.apache.org/docs/ Hadoop와 연동해 사용하기 위해서는 HDFS, Hive, Sqoop등을 설치하여 사용하면 되는데, 패키지가 변경되어 만약 Airfl..
지난 글에서 Airflow를 설치하고, webserver까지 실행하는 것을 완료했다 오늘은 mysql과의 연동 과정을 진행한다 2021.01.27 - [BigData/Airflow] - Airflow 2.0 설치하기(1) 2021.01.29 - [BigData/Airflow] - Airflow 2.0 설치하기(2) Airflow github페이지를 살펴보면 사용 가능한 DB에 대해 아래와 같이 나와있다 github.com/apache/airflow 이번 글에서는 MySQL 5.7버전을 사용해 테스트를 진행하고 다음 글에서 MySQL 8버전에 대한 테스트를 진행한다 MySQL 8버전을 사용하면 Scheduler HA를 사용할 수 있는데 이 부분 또한 MySQL 8버전에 대한 연동테스트를 진행하며 같이 진행..
지난 글에서 Airflow를 설치하는 것까지 완료했다 오늘은 Airflow db 생성, user생성, webserver실행까지 진행해보도록 하자 2021.01.27 - [BigData/Airflow] - Airflow 2.0 설치하기(1) airflow를 실행하기 위해서 먼저 db연결 및 초기화를 진행한다 특별한 설정을 진행하지 않는다면 sqlite가 기본으로 설정된다 설정 내용은 airflow.cfg에서 확인할 수 있다 기본값으로 설정한 후 airflow db init를 진행한다 airflow db init db init이 정상적으로 진행되면 아래의 메세지를 확인할 수 있다 이제 users를 생성해보자 users를 생성해야 한다 airflow users create \ --username admin \..
Airflow 2.0 설치하기 Airflow 2.0을 docker를 이용 centos에 설치해보도록 하자. 이 글에서는 centos를 이용하여 아무것도 없는 상태에서 설치를 진행하며 airflow 가이드문서에 따른 설치 방법은 아래의 글을 참고하기 바란다. 2021.05.13 - [BigData/Airflow] - Docker를 이용한 Airflow 2.0.2 실행하기(1) Airflow에 대한 설명은 이전글 참고 2020/12/01 - [BigData/Airflow] - Airflow란? Airflow란? Airflow란? Airlfow는 Airbnb에서 개발한 워크플로우 스케쥴링, 모니터링 도구로 현재는 Apache 프로젝트가 되었다. Airflow는 DAG(Directed Acyclic Graph)..
Ambari-Airflfow 연동하기 Ambari는 HDP(Hortonworks Data Platform)에서 제공하는 Hadoop 관리용 툴로 각종 Hadoop 서비스 설정과 시작, 중지 등 다양한 동작을 할 수 있는 관리 도구인데 Ambari에서는 Airflow 연동 기능을 제공하지 않는다 Airflow를 단독으로 구성하여 사용하는 방법도 있지만 여기서는 Ambari와 연동해서 사용하기 위해서는 어떻게 해야하는 지 알아보자 설치환경 OS : CentOS 7.7 HDP : 3.1.4 python : 3 mpack 설치 mpack를 이용해 Ambari에 Airflow를 연동할 수 있는데 아래의 github link에서 mpack를 다운받아 사용할 수 있다 github.com/miho120/ambari-a..
Airflow 구성 지난 포스트에서 Airflow가 무엇인지 간단하게 알아보았다 이번 포스트에서는 Airflow에서 알아야 할 용어들과 기본 개념에 대해서 알아보도록 하자 DAG (Directed Acyclic Graph) 지향성 비순환 그래프로 지난 포스트에서도 간단하게 언급이 되었는데 python으로 작성하고 순서를 정해 하나의 workflow형식으로 동작한다 DAG는 아래와 같은 그림으로 표시할 수 있으며, 각 노드들은 task로 DAG가 실행되는 순서를 파악할 수 있다. 더보기 Airflow에서 DAG를 인식하기 위해서는 dags folder로 지정된 경로에 존재하는 python 파일로 "airflow" 혹은 "dag"라는 키워드가 포함되어 있어야 한다. 모든 python 파일을 인식시키기 위해선..
Airflow란? Airlfow는 Airbnb에서 개발한 워크플로우 스케쥴링, 모니터링 도구로 현재는 Apache 프로젝트가 되었다. Airflow는 DAG(Directed Acyclic Graph)라는 개념으로 동작하는데 python으로 DAG를 작성하고 순서를 정의할 수 있다 현재도 활발한 개발이 이루어지고 있으며 1.10.0 버전이 2018.8.9 배포된 이후 현재 2020.12.1일 현재를 기준으로 1.10.13버전까지 배포되었으며 2.0대의 버전도 꾸준히 개발되고 있다 Airflow 공식 github링크는 아래와 같다 github.com/apache/airflow 빅데이터를 활용하는 많은 곳에서 활용하는 도구로 비슷한 도구에는 oozie가 있으며, oozie와의 비교는 추후에 포스팅할 예정 Ai..