일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- NoSQL
- 빅데이터
- 정규표현식
- SlackWebhookOperator
- LDAP
- yarn
- MapReduce
- slack app
- Windows
- Namenode
- HIVE
- hadoop
- execution_date
- Example DAG
- airflow
- Scala
- HDP
- java
- ambari
- Kafka
- slack
- Lambda architecture
- HDFS
- docker
- Service
- python
- re
- jupyter
- HBase
- 람다 아키텍처
- Today
- Total
목록airflow (22)
IT 삽질기
Airflow 1.x대 버전에서는 외부 서비스(HDFS, Hive, sqoop등)을 사용할 때 별도의 패키지를 설치하지 않고 사용할 수 있었다. Ariflow 2.x대 버전으로 버전이 업그레이드 되며 이 부분이 변경되었다 airflow.apache.org/docs/apache-airflow-providers/ 위의 링크를 살펴보면, 자세한 설명이 나와있는데, pip를 이용하여 개별적으로 설치가 가능하며 커스텀 패키지를 개발하여 사용하는 것도 가능하다 Airflow에서 제공하는 providers목록은 아래의 링크에 정리되어 있다 airflow.apache.org/docs/ Hadoop와 연동해 사용하기 위해서는 HDFS, Hive, Sqoop등을 설치하여 사용하면 되는데, 패키지가 변경되어 만약 Airfl..
지난 글에서 Airflow를 설치하고, webserver까지 실행하는 것을 완료했다 오늘은 mysql과의 연동 과정을 진행한다 2021.01.27 - [BigData/Airflow] - Airflow 2.0 설치하기(1) 2021.01.29 - [BigData/Airflow] - Airflow 2.0 설치하기(2) Airflow github페이지를 살펴보면 사용 가능한 DB에 대해 아래와 같이 나와있다 github.com/apache/airflow 이번 글에서는 MySQL 5.7버전을 사용해 테스트를 진행하고 다음 글에서 MySQL 8버전에 대한 테스트를 진행한다 MySQL 8버전을 사용하면 Scheduler HA를 사용할 수 있는데 이 부분 또한 MySQL 8버전에 대한 연동테스트를 진행하며 같이 진행..
지난 글에서 Airflow를 설치하는 것까지 완료했다 오늘은 Airflow db 생성, user생성, webserver실행까지 진행해보도록 하자 2021.01.27 - [BigData/Airflow] - Airflow 2.0 설치하기(1) airflow를 실행하기 위해서 먼저 db연결 및 초기화를 진행한다 특별한 설정을 진행하지 않는다면 sqlite가 기본으로 설정된다 설정 내용은 airflow.cfg에서 확인할 수 있다 기본값으로 설정한 후 airflow db init를 진행한다 airflow db init db init이 정상적으로 진행되면 아래의 메세지를 확인할 수 있다 이제 users를 생성해보자 users를 생성해야 한다 airflow users create \ --username admin \..
Airflow 2.0 설치하기 Airflow 2.0을 docker를 이용 centos에 설치해보도록 하자. 이 글에서는 centos를 이용하여 아무것도 없는 상태에서 설치를 진행하며 airflow 가이드문서에 따른 설치 방법은 아래의 글을 참고하기 바란다. 2021.05.13 - [BigData/Airflow] - Docker를 이용한 Airflow 2.0.2 실행하기(1) Airflow에 대한 설명은 이전글 참고 2020/12/01 - [BigData/Airflow] - Airflow란? Airflow란? Airflow란? Airlfow는 Airbnb에서 개발한 워크플로우 스케쥴링, 모니터링 도구로 현재는 Apache 프로젝트가 되었다. Airflow는 DAG(Directed Acyclic Graph)..
Ambari-Airflfow 연동하기 Ambari는 HDP(Hortonworks Data Platform)에서 제공하는 Hadoop 관리용 툴로 각종 Hadoop 서비스 설정과 시작, 중지 등 다양한 동작을 할 수 있는 관리 도구인데 Ambari에서는 Airflow 연동 기능을 제공하지 않는다 Airflow를 단독으로 구성하여 사용하는 방법도 있지만 여기서는 Ambari와 연동해서 사용하기 위해서는 어떻게 해야하는 지 알아보자 설치환경 OS : CentOS 7.7 HDP : 3.1.4 python : 3 mpack 설치 mpack를 이용해 Ambari에 Airflow를 연동할 수 있는데 아래의 github link에서 mpack를 다운받아 사용할 수 있다 github.com/miho120/ambari-a..
Airflow 구성 지난 포스트에서 Airflow가 무엇인지 간단하게 알아보았다 이번 포스트에서는 Airflow에서 알아야 할 용어들과 기본 개념에 대해서 알아보도록 하자 DAG (Directed Acyclic Graph) 지향성 비순환 그래프로 지난 포스트에서도 간단하게 언급이 되었는데 python으로 작성하고 순서를 정해 하나의 workflow형식으로 동작한다 DAG는 아래와 같은 그림으로 표시할 수 있으며, 각 노드들은 task로 DAG가 실행되는 순서를 파악할 수 있다. 더보기 Airflow에서 DAG를 인식하기 위해서는 dags folder로 지정된 경로에 존재하는 python 파일로 "airflow" 혹은 "dag"라는 키워드가 포함되어 있어야 한다. 모든 python 파일을 인식시키기 위해선..