일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 빅데이터
- HIVE
- HDP
- Service
- HBase
- Example DAG
- slack
- java
- ambari
- LDAP
- Windows
- 람다 아키텍처
- NoSQL
- slack app
- Scala
- SlackWebhookOperator
- python
- hadoop
- airflow
- docker
- execution_date
- Namenode
- HDFS
- re
- yarn
- MapReduce
- jupyter
- 정규표현식
- Lambda architecture
- Kafka
- Today
- Total
IT 삽질기
HBase에서 데이터를 읽고 쓰는 과정에 대해서 알아보도록 하자. HBase 데이터 쓰기 HBase에서 데이터를 저장할 때는 두 가지 장소에 저장하게 되는데, WAL(Write Ahead Log)와 Memstore이다. WAL에 대한 내용은 아래의 글을 확인하기 바란다. 2021.05.14 - [개발] - WAL(Write-ahead logging)란 ? 위의 두 가지 방법을 활용하여 정상적으로 쓰기 과정이 끝나는 것은 WAL과 Memstore에서 모두 변경이 일어난 시점이 된다. HBase에 데이터 적재 요청이 오면 먼저 적절한 region server을 찾게 된다. region server를 찾아 commit log를 추가 하고 메모리 내의 Memstore에 추가되게 된다. Memstore에 저장되어..
WAL이란 데이터 무결성을 보장하는 표준 방법으로, DB에서 사용하는 방법이다. WAL을 사용하는 시스템에서는 데이터 수정을 하기 전 WAL에 먼저 기록을 하게 되며, 이 기록을 이용해 어느시점에 장애가 발생했는지, 어디까지가 성공한 것이고 어디부터 이후 작업이 실행되어야 하는지에 대해서 알 수 있다 postgreSQL, HBase MongDB 등 다양한 DB시스템에서 WAL 방식을 사용한다.
이전 4개의 포스팅으로 CentOS에 Airflow를 설치하고 실행시켜보았다. 2021.01.27 - [BigData/Airflow] - Airflow 2.0 설치하기(1) 2021.01.29 - [BigData/Airflow] - Airflow 2.0 설치하기(2) 2021.03.21 - [BigData/Airflow] - Airflow 2.0 설치하기(3) 2021.05.03 - [BigData/Airflow] - Airflow 2.0 설치하기(4) 마지막 글에서처럼 오늘은 Airflow에서 제공하는 가이드 문서에 따라 Airflow를 올려보도록 하자. 먼저 가이드 문서의 링크를 확인해보자 http://airflow.apache.org/docs/apache-airflow/stable/start/doc..
Kudu란? kudu는 Apache Hadoop Ecosystem 저장소 중 하나로 Columnar Storage이다. Columnar 형식으로 HBase와 같이 NoSQL이 아니므로 schema를 가지고 있으며, column별로 파일을 저장한다. Kudu에서 실제로 데이터를 저장하는 형식은 아래와 같은대, 일반적으로 알고 있는 RDB와 거의 동일한 형태를 가진다. Kudu 공식 문서에서는 Kudu의 장점을 아래와 같이 소개하고 있다 - OLAP 워크로드의 빠른 처리 - MapReduce, Spark 및 기타 Hadoop Ecosystem과의 통합 - Impala를 이용한 다양한 질의 - 순차 및 random access에서의 강력한 성능 - HA기능 제공 Kudu Architecture Kudu는 위와..
지난번까지 Airflow를 설치하고, mysql과 연동하는 작업까지 마무리 했다. 오늘은 실질적으로 DAG를 만들어 동작시켜보도록 하자 2021.01.27 - [BigData/Airflow] - Airflow 2.0 설치하기(1) 2021.01.29 - [BigData/Airflow] - Airflow 2.0 설치하기(2) 2021.03.21 - [BigData/Airflow] - Airflow 2.0 설치하기(3) 설치가 완료되었으니 webserver, scheduler을 실행시켜보도록 하자 webserver 실행 -D 옵션은 daemon 형식으로 실행하는 옵션으로 -D 옵션만 이용한다 airflow webserver -D WebServer가 실행되었으면 PC에서 확인이 가능하다 기존에 접근했던 것과 ..
Kafka 시작하기 Docker을 이용해 Kafka를 시작해보자 docker hub에 있는 이미지를 사용했으며 사용한 이미지는 아래의 링크를 참고하기 바란다 hub.docker.com/r/wurstmeister/kafka github.com/wurstmeister/kafka-docker docker-compose를 사용하기 위해 github에서 다운받는다 git clone https://github.com/wurstmeister/kafka-docker.git 다운받은 후 compose 파일을 수정한다. broker을 하나만 올려서 테스트할 것이기 때문에 docker-compose-single-broker.yml 파일을 수정했으며, 수정한 내용은 아래와 같다 ip에는 사용하고 있는 pc의 ip를 넣어주면 ..
지난 글에서는 HiveServer2 인증 방법으로 LDAP을 사용하는 경우 Airflow HiveServer2Hook를 사용하는 방법에 대해서 알아보았다. 2021.04.23 - [BigData/Airflow] - Airflow HiveServer2Hook LDAP 연결 이번 글에서는 HiveServer2 인증 방법으로 LDAP을 사용하는 경우 Airflow HiveOperator를 사용해 hive에 query을 날리는 방법에 대해서 알아보도록 하자 Airflow의 버전은 마찬가지로 2.0.0을 사용했다 먼저 HiveOperator의 코드를 살펴보자 github.com/apache/airflow/blob/master/airflow/providers/apache/hive/operators/hive.py H..
HiveServer2 인증 방법으로 LDAP을 사용하는 경우 Airflow HiveServer2Hook를 사용해 hive에 query을 날리는 방법에 대해서 알아보도록 하자 Airflow의 버전은 2.0.0을 사용했다. 먼저 Airflow의 HiveServer2Hook의 코드를 살펴보도록 하자 github.com/apache/airflow/blob/c699e97d0d43e06ea9835a845570db4fc7fd6931/airflow/providers/apache/hive/hooks/hive.py#L804 코드에서 살펴봐야 할 부분은 인증방식에 대한 부분과 connection을 만드는 과정이다. 먼저 인증 방식을 설정하기 위해서는 829번 line의 코드를 살펴봐야 한다 auth_mechanism으로 c..