일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- jupyter
- SlackWebhookOperator
- Service
- Kafka
- ambari
- slack app
- 정규표현식
- Example DAG
- python
- Namenode
- Scala
- 빅데이터
- HDFS
- Windows
- re
- java
- airflow
- slack
- execution_date
- hadoop
- MapReduce
- yarn
- HBase
- HDP
- 람다 아키텍처
- HIVE
- LDAP
- docker
- NoSQL
- Lambda architecture
- Today
- Total
목록hadoop (18)
IT 삽질기
이번 글에서는 Hadoop MapReduce 과정에서 이야기하는 Combiner 함수에 대해 알아보도록 하자. Combiner 함수 Hadoop을 사용하면 데이터를 분산처리하고 많은 양의 자원을 사용할 수 있지만 무한한 자원을 사용하는 것은 아니다. Map, Reduce 작업 진행시 자원을 최소화하여 사용할 필요가 있는데 Combiner는 Map-Reduce간 데이터 전송을 최소화할 수 있게 해준다. Combiner 함수는 Reduce 함수의 출력이 Reduce 함수의 입력이 되는 것을 허용하는 것을 뜻한다. 예를 들어 최대값, 최솟값, count와 같은 결과를 얻기 위해 Map task에서 취합한 결과를 reduce에서만 진행하는 것이 아니라 각각의 Map task에서 최댓값, 최솟값, count와 같..
이번 글에서는 Namenode의 safe mode에 대해서 알아보도록 하자. Namenode Safe mode safe mode는 일반적으로 Namenode(NN)가 새로 시작되는 경우에 들어가게 되는데 Namenode가 새로 시작되게 되면 지난번 글에서 설명했던 것과 fsimage와 edits log를 병합하는 과정을 거치게 된다. 2021.07.26 - [BigData/Hadoop] - Namenode fsimage, edits log 이런 과정이 수행되는 동안 NN는 safe mode에 들어가게 되는데, 이 상태에서는 데이터를 조회하는 것은 가능하지만, 파일을 변경하는 작업은 할 수 없다. fsimage와 edits log 병합 이외에 어떤 작업이 이루어질까? 지난 글에서 NN는 블록이 어디에 저장..
이번 글에서는 Namenode의 디렉토리 구조와 fsimage, edits log에 대해서 알아보도록 하자. Namenode 디렉토리 구조 먼저 Namenode의 디렉토리는 아래와 같이 구성되어 있다. ${dfs.namenode.name.dir}/ ㄴ in_use.lock ㄴ current ㄴ VERSION ㄴ edits_0000000066074616938-0000000066076353481 ㄴ edits_inprogress_0000000066083634643 ㄴ fsimage_0000000066076831695.md ㄴ fsimage_0000000066076831695 ㄴ fsimage_0000000066079768707.md ㄴ fsimage_0000000066079768707 ㄴ fsimage.ck..
오늘은 Kerberos가 무엇인지 간단하게 알아보고 Hadoop에서 Kerberos를 이용한 인증과정에 대해서 알아보도록 하자. Kerberos란? Kerberos란 ticket를 기반으로 동작하는 컴퓨터 네트워크 인증 암호화 프로토콜로 네트워크에서 통신하는 노드가 보안 방식으로 다른 노드에 대해 식별할 수 있게 허용하며, client-server모델로 동작하며 상호 인증을 제공한다. Kerberos로 보안 설정이 되어 있는 시스템에 접근하고자 하는 경우 서버는 클라이언트에 Kerberos티켓을 요구하며, 사용자는 Kerberos 티켓을 이용해 원하는 서버에 접근할 수 있게 된다. Kerberos 동작 방식 Kerberos 인증 과정은 어떻게 진행될까 1. 인증 Client는 인증 서버에 자신을 인증하고..
Hadoop에서 MapReduce의 동작방식에 대해서 알아보도록 하자. 먼저 MapReduce에 대해 간단히 알아보도록 하자 MapReduce - 대용량의 데이터 처리를 위한 분산 프로그래밍 모델 - 분산 컴퓨팅 환경에서 데이터를 병렬로 분석할 수 있음 - Map / Reduce라는 2개의 taks로 구성 - Map는 분산된 데이터를 연관성 있는 데이터들로 분류하거나 연산을 하는 작업으로 (Key, Value) 쌍을 가짐 - Reduce는 Map에서 나온 결과 데이터에서 중복 데이터를 제거하고 원하는 데이터를 추출하는 작업 Map의 output가 Reduce의 input이 된다. Hadoop 분산 시스템에서 이런 MapReduce작업이 어떻게 이루어지는 알아보도록 하자. 먼저 Map의 input값에 대해..
YARN 스케줄링 2019/06/10 - [BigData/Hadoop] - Hadoop 1.0과 Hadoop 2.0 (1 YARN) Hadoop 1.0과 Hadoop 2.0 (1 YARN) 이번 글에서는 Hadoop 1.0과 Hadoop 2.0의 차이점에 대해서 간단하게 알아보도록 하자. Hadoop 버전에 따른 아키텍처를 비교해서 살펴보면 아래와 같다. Hadoop 2.0에서는 클러스터의 자원을 관리하기 위한 시스.. dydwnsekd.tistory.com 이전 글에서 YARN이 무엇인지에 대해 간단히 설명했다. YARN은 Resource Manager과 Application Master, Node Manager등으로 구분되는데 이번에는 YARN에서 작업을 스케줄링하는 방식에 대해서 알아보도록 하자. ..
문제 발생 최근 운영중인 클러스터에서 너무 잦은 NameNode(NN) 전환 작업이 일어났다 기존에는 약 2주에 한번씩 전환되던 NN의 전환이 하루에 한번 정도씩 반복되었는데 이를 해결한 과정이다 먼저 문제가 발생한 NN의 log를 살펴보았다 log를 확인한 결과 NN이 종료되기 전 JournalNode로 edit 내용을 쓰는 과정에서 timeout이 걸려 NN이 중단되는 것으로 보였다. 정상적으로 edit 내용을 전달하는 경우의 log는 아래와 같다 warn은 발생하지만 20000ms(20초)를 넘지 않는 경우에는 error이 발생하지 않고 NN이 내려가지 않았다 원인 파악 1. 네트워크 문제 2. 서버 노후화와 부하 증가로 인한 문제 1. 네트워크 문제에 대한 부분은 데이터의 양이 많아지고 많은 요청..
지난 글에서 Hadoop NameNode(NN) HA가 무엇인지에 관한 내용과 HA를 구성하기 위한 요구사항들을 알아보았다 2021.04.08 - [BigData/Hadoop] - Hadoop2 NameNode HA QJM(Quorum Journal Manager) Hadoop2 NameNode HA QJM(Quorum Journal Manager) Hadoop2 NameNode(NN)에서 제공하는 HA기능에 대해서 알아보도록 하자 Hadoop NN을 HA로 구성하는 방법은 2가지로 QJM(Quorum Journal Manager)방식과 NFS를 이용하는 방식이 있는데 여기서는 QJM 방식에 대해서.. dydwnsekd.tistory.com 오늘은 그 중 ZKFC에 대해서 좀 더 자세히 알아보도록 하자 ..