일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- NoSQL
- yarn
- Lambda architecture
- Example DAG
- re
- jupyter
- Windows
- airflow
- SlackWebhookOperator
- hadoop
- HBase
- execution_date
- docker
- Service
- HDFS
- slack app
- 정규표현식
- 람다 아키텍처
- LDAP
- slack
- python
- MapReduce
- java
- ambari
- HDP
- Namenode
- 빅데이터
- Scala
- Kafka
- HIVE
- Today
- Total
IT 삽질기
Ambari에서 HDFS 관련 컴포넌트(Namenode, JournalNode, ZookeeperFailOverController)을 재시작 하는 경우 이슈 발생 hadooplzo 관련 에러로그 확인 hadooplzo 관련 이슈로 보여 NN(NameNode)로 사용하는 두 노드 간의 패키지를 비교 NN1과 NN2에 존재하는 hadooplzo-native 관련 패키지의 버전이 다른 것으로 확인 해당 패키지 관련 이슈일 가능성이 있어 NN2에 hadooplzo-native를 설치하는 것으로 결정 NN2에 있는 lzo를 제거한 후 버전을 맞춰 재설치 진행 #NN2 remove yum remove hadoop-lzo-native #NN2 install yum install hadoop-lzo-native yum..
하둡 클러스터 운영중 HBase read/write 관련 성능 이슈 발생 일부 HBase 옵션 변경으로 문제를 해결하였는데 리서치 결과와 성능 변경사항에 대해 정리 hbase.client.write.buffer 클라이언트에서 서버로 데이터 전송을 할 때 사용되는 버퍼 hbase.regionserver.handler.count region 서버에서 데이터 처리를 위해 사용되는 thread 수 hbase.hregion.memstore.flush.size MemStore가 이 크기 이상을 가지면 flush 진행 hbase.regionserver.global.memstore.upperLimit region 서버의 힙영역에서의 MemStore의 크기 비율로 이 크기를 넘기면 MemStore에 쓰기를 차단하고 강제..
지난 글에서 Airflow를 설치하는 것까지 완료했다 오늘은 Airflow db 생성, user생성, webserver실행까지 진행해보도록 하자 2021.01.27 - [BigData/Airflow] - Airflow 2.0 설치하기(1) airflow를 실행하기 위해서 먼저 db연결 및 초기화를 진행한다 특별한 설정을 진행하지 않는다면 sqlite가 기본으로 설정된다 설정 내용은 airflow.cfg에서 확인할 수 있다 기본값으로 설정한 후 airflow db init를 진행한다 airflow db init db init이 정상적으로 진행되면 아래의 메세지를 확인할 수 있다 이제 users를 생성해보자 users를 생성해야 한다 airflow users create \ --username admin \..
Airflow 2.0 설치하기 Airflow 2.0을 docker를 이용 centos에 설치해보도록 하자. 이 글에서는 centos를 이용하여 아무것도 없는 상태에서 설치를 진행하며 airflow 가이드문서에 따른 설치 방법은 아래의 글을 참고하기 바란다. 2021.05.13 - [BigData/Airflow] - Docker를 이용한 Airflow 2.0.2 실행하기(1) Airflow에 대한 설명은 이전글 참고 2020/12/01 - [BigData/Airflow] - Airflow란? Airflow란? Airflow란? Airlfow는 Airbnb에서 개발한 워크플로우 스케쥴링, 모니터링 도구로 현재는 Apache 프로젝트가 되었다. Airflow는 DAG(Directed Acyclic Graph)..
Windows WSL Version Up Windows에서 Docker Desktop를 사용하던 중 WSL Version에 관련된 이슈 발생 메뉴얼을 찾아본 결과 docs.docker.com/docker-for-windows/wsl/ Docker Desktop WSL 2 backend docs.docker.com WSL버전에 따른 문제인 것으로 확인 이전에 설치했던 WSL1 Version에 대한 지원은 하지 않으니 WSL2 Version을 사용해야 함 위의 메뉴얼에 나온 내용으로 wsl 버전 확인 기존에 설치되어 있는 Ubuntu에 대한 버전업을 진행하는 것으로 결정 wsl.exe --set-version 명령어를 이용해 기존 1 Version이였던 Ubuntu를 2로 변경 Docker에서 Refresh..
Ambari-Airflfow 연동하기 Ambari는 HDP(Hortonworks Data Platform)에서 제공하는 Hadoop 관리용 툴로 각종 Hadoop 서비스 설정과 시작, 중지 등 다양한 동작을 할 수 있는 관리 도구인데 Ambari에서는 Airflow 연동 기능을 제공하지 않는다 Airflow를 단독으로 구성하여 사용하는 방법도 있지만 여기서는 Ambari와 연동해서 사용하기 위해서는 어떻게 해야하는 지 알아보자 설치환경 OS : CentOS 7.7 HDP : 3.1.4 python : 3 mpack 설치 mpack를 이용해 Ambari에 Airflow를 연동할 수 있는데 아래의 github link에서 mpack를 다운받아 사용할 수 있다 github.com/miho120/ambari-a..
빅데이터 처리 과정 빅데이터 처리 과정에 대해서 알아보자 지난번 빅데이터의 정의에 대해서 알아보았다 2020/06/24 - [BigData] - 빅데이터의 정의 빅데이터의 정의 빅데이터의 정의 빅데이터가 어떻게 정의되어 있는지 알아보자 빅데이터에 대해 다양한 곳에서 각기 다르게 정의하고 있는데 몇몇 정의를 살펴보자 빅데이터란 기존 DB의 관리도구의 능력을 넘 dydwnsekd.tistory.com 빅데이터를 어떻게 처리하는지 알아보도록 하자 빅데이터 아래와 같은 순서를 가진다 수집 적재 처리/탐색 분석/응용 1. 수집 데이터를 처리하기 위해 먼저 데이터를 수집해야 하는데 조직의 내 외부에 있는 데이터를 수집한다 데이터 크롤링, DB, 파일, API 등 정형/비정형 데이터를 처리해 수집한다. 2. 적재 수..
Airflow 구성 지난 포스트에서 Airflow가 무엇인지 간단하게 알아보았다 이번 포스트에서는 Airflow에서 알아야 할 용어들과 기본 개념에 대해서 알아보도록 하자 DAG (Directed Acyclic Graph) 지향성 비순환 그래프로 지난 포스트에서도 간단하게 언급이 되었는데 python으로 작성하고 순서를 정해 하나의 workflow형식으로 동작한다 DAG는 아래와 같은 그림으로 표시할 수 있으며, 각 노드들은 task로 DAG가 실행되는 순서를 파악할 수 있다. 더보기 Airflow에서 DAG를 인식하기 위해서는 dags folder로 지정된 경로에 존재하는 python 파일로 "airflow" 혹은 "dag"라는 키워드가 포함되어 있어야 한다. 모든 python 파일을 인식시키기 위해선..