일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- Example DAG
- slack
- HDP
- python
- LDAP
- hadoop
- Service
- ambari
- Lambda architecture
- yarn
- 람다 아키텍처
- HDFS
- re
- 정규표현식
- java
- MapReduce
- Kafka
- 빅데이터
- Namenode
- NoSQL
- jupyter
- airflow
- execution_date
- HIVE
- Windows
- HBase
- Scala
- SlackWebhookOperator
- docker
- slack app
- Today
- Total
목록BigData (73)
IT 삽질기

이전 4개의 포스팅으로 CentOS에 Airflow를 설치하고 실행시켜보았다. 2021.01.27 - [BigData/Airflow] - Airflow 2.0 설치하기(1) 2021.01.29 - [BigData/Airflow] - Airflow 2.0 설치하기(2) 2021.03.21 - [BigData/Airflow] - Airflow 2.0 설치하기(3) 2021.05.03 - [BigData/Airflow] - Airflow 2.0 설치하기(4) 마지막 글에서처럼 오늘은 Airflow에서 제공하는 가이드 문서에 따라 Airflow를 올려보도록 하자. 먼저 가이드 문서의 링크를 확인해보자 http://airflow.apache.org/docs/apache-airflow/stable/start/doc..

Kudu란? kudu는 Apache Hadoop Ecosystem 저장소 중 하나로 Columnar Storage이다. Columnar 형식으로 HBase와 같이 NoSQL이 아니므로 schema를 가지고 있으며, column별로 파일을 저장한다. Kudu에서 실제로 데이터를 저장하는 형식은 아래와 같은대, 일반적으로 알고 있는 RDB와 거의 동일한 형태를 가진다. Kudu 공식 문서에서는 Kudu의 장점을 아래와 같이 소개하고 있다 - OLAP 워크로드의 빠른 처리 - MapReduce, Spark 및 기타 Hadoop Ecosystem과의 통합 - Impala를 이용한 다양한 질의 - 순차 및 random access에서의 강력한 성능 - HA기능 제공 Kudu Architecture Kudu는 위와..

지난번까지 Airflow를 설치하고, mysql과 연동하는 작업까지 마무리 했다. 오늘은 실질적으로 DAG를 만들어 동작시켜보도록 하자 2021.01.27 - [BigData/Airflow] - Airflow 2.0 설치하기(1) 2021.01.29 - [BigData/Airflow] - Airflow 2.0 설치하기(2) 2021.03.21 - [BigData/Airflow] - Airflow 2.0 설치하기(3) 설치가 완료되었으니 webserver, scheduler을 실행시켜보도록 하자 webserver 실행 -D 옵션은 daemon 형식으로 실행하는 옵션으로 -D 옵션만 이용한다 airflow webserver -D WebServer가 실행되었으면 PC에서 확인이 가능하다 기존에 접근했던 것과 ..

Kafka 시작하기 Docker을 이용해 Kafka를 시작해보자 docker hub에 있는 이미지를 사용했으며 사용한 이미지는 아래의 링크를 참고하기 바란다 hub.docker.com/r/wurstmeister/kafka github.com/wurstmeister/kafka-docker docker-compose를 사용하기 위해 github에서 다운받는다 git clone https://github.com/wurstmeister/kafka-docker.git 다운받은 후 compose 파일을 수정한다. broker을 하나만 올려서 테스트할 것이기 때문에 docker-compose-single-broker.yml 파일을 수정했으며, 수정한 내용은 아래와 같다 ip에는 사용하고 있는 pc의 ip를 넣어주면 ..

지난 글에서는 HiveServer2 인증 방법으로 LDAP을 사용하는 경우 Airflow HiveServer2Hook를 사용하는 방법에 대해서 알아보았다. 2021.04.23 - [BigData/Airflow] - Airflow HiveServer2Hook LDAP 연결 이번 글에서는 HiveServer2 인증 방법으로 LDAP을 사용하는 경우 Airflow HiveOperator를 사용해 hive에 query을 날리는 방법에 대해서 알아보도록 하자 Airflow의 버전은 마찬가지로 2.0.0을 사용했다 먼저 HiveOperator의 코드를 살펴보자 github.com/apache/airflow/blob/master/airflow/providers/apache/hive/operators/hive.py H..

HiveServer2 인증 방법으로 LDAP을 사용하는 경우 Airflow HiveServer2Hook를 사용해 hive에 query을 날리는 방법에 대해서 알아보도록 하자 Airflow의 버전은 2.0.0을 사용했다. 먼저 Airflow의 HiveServer2Hook의 코드를 살펴보도록 하자 github.com/apache/airflow/blob/c699e97d0d43e06ea9835a845570db4fc7fd6931/airflow/providers/apache/hive/hooks/hive.py#L804 코드에서 살펴봐야 할 부분은 인증방식에 대한 부분과 connection을 만드는 과정이다. 먼저 인증 방식을 설정하기 위해서는 829번 line의 코드를 살펴봐야 한다 auth_mechanism으로 c..

YARN 스케줄링 2019/06/10 - [BigData/Hadoop] - Hadoop 1.0과 Hadoop 2.0 (1 YARN) Hadoop 1.0과 Hadoop 2.0 (1 YARN) 이번 글에서는 Hadoop 1.0과 Hadoop 2.0의 차이점에 대해서 간단하게 알아보도록 하자. Hadoop 버전에 따른 아키텍처를 비교해서 살펴보면 아래와 같다. Hadoop 2.0에서는 클러스터의 자원을 관리하기 위한 시스.. dydwnsekd.tistory.com 이전 글에서 YARN이 무엇인지에 대해 간단히 설명했다. YARN은 Resource Manager과 Application Master, Node Manager등으로 구분되는데 이번에는 YARN에서 작업을 스케줄링하는 방식에 대해서 알아보도록 하자. ..
2021.04 Apache 프로젝트로 있던 프로젝트들의 일부를 폐기한다고 발표했습니다 폐기된 프로젝트 중 빅데이터 관련 프로젝트는 13개 이중 Hadoop Ecosystem으로 속해 있던 프로젝트는 10개입니다 사용해본적 없는 프로젝트들이지만 한번씩 이름을 들어본 프로젝트들도 여러 개 섞여 있다. 폐기된 프로젝트는 아래와 같다 Apex : Hadoop YARN 기반의 빅 데이터 스트림 및 일괄 처리를위한 통합 플랫폼 Chukwa : HDFS (Hadoop Distributed File System)를 기반으로 구축된 대규모 분산 시스템 모니터링을 위한 데이터 수집 시스템 Crunch : MapReduce (Hadoop MapReduce 포함) 파이프 라인을 작성, 테스트 및 실행하기위한 프레임 워크를 제..