일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- slack app
- HDFS
- Service
- Namenode
- re
- python
- docker
- SlackWebhookOperator
- Kafka
- NoSQL
- 람다 아키텍처
- yarn
- Scala
- 빅데이터
- execution_date
- airflow
- Lambda architecture
- slack
- HIVE
- Windows
- jupyter
- Example DAG
- 정규표현식
- HDP
- HBase
- java
- hadoop
- LDAP
- ambari
- MapReduce
- Today
- Total
목록HDFS (5)
IT 삽질기
이번 글에서는 Namenode의 safe mode에 대해서 알아보도록 하자. Namenode Safe mode safe mode는 일반적으로 Namenode(NN)가 새로 시작되는 경우에 들어가게 되는데 Namenode가 새로 시작되게 되면 지난번 글에서 설명했던 것과 fsimage와 edits log를 병합하는 과정을 거치게 된다. 2021.07.26 - [BigData/Hadoop] - Namenode fsimage, edits log 이런 과정이 수행되는 동안 NN는 safe mode에 들어가게 되는데, 이 상태에서는 데이터를 조회하는 것은 가능하지만, 파일을 변경하는 작업은 할 수 없다. fsimage와 edits log 병합 이외에 어떤 작업이 이루어질까? 지난 글에서 NN는 블록이 어디에 저장..
이번 글에서는 Namenode의 디렉토리 구조와 fsimage, edits log에 대해서 알아보도록 하자. Namenode 디렉토리 구조 먼저 Namenode의 디렉토리는 아래와 같이 구성되어 있다. ${dfs.namenode.name.dir}/ ㄴ in_use.lock ㄴ current ㄴ VERSION ㄴ edits_0000000066074616938-0000000066076353481 ㄴ edits_inprogress_0000000066083634643 ㄴ fsimage_0000000066076831695.md ㄴ fsimage_0000000066076831695 ㄴ fsimage_0000000066079768707.md ㄴ fsimage_0000000066079768707 ㄴ fsimage.ck..
문제 발생 최근 운영중인 클러스터에서 너무 잦은 NameNode(NN) 전환 작업이 일어났다 기존에는 약 2주에 한번씩 전환되던 NN의 전환이 하루에 한번 정도씩 반복되었는데 이를 해결한 과정이다 먼저 문제가 발생한 NN의 log를 살펴보았다 log를 확인한 결과 NN이 종료되기 전 JournalNode로 edit 내용을 쓰는 과정에서 timeout이 걸려 NN이 중단되는 것으로 보였다. 정상적으로 edit 내용을 전달하는 경우의 log는 아래와 같다 warn은 발생하지만 20000ms(20초)를 넘지 않는 경우에는 error이 발생하지 않고 NN이 내려가지 않았다 원인 파악 1. 네트워크 문제 2. 서버 노후화와 부하 증가로 인한 문제 1. 네트워크 문제에 대한 부분은 데이터의 양이 많아지고 많은 요청..
HDFS에서 데이터를 읽고 쓸 때 어떻게 동작하는지 알아보도록 하자. 해당 내용은 하둡 완벽 가이드 4판의 내용을 정리한 내용입니다. HDFS 데이터 읽기 HDFS에서 데이터를 읽을 때 아래와 같은 동작을 하게 된다. 1. 클라이언트는 HDFS가 DistributedFileSystem 인스턴스 FileSystem 객체의 open() 메서드를 호출하여 원하는 파일을 연다. 2. DistributedFileSystem은 파일의 첫 번째 블록 위치를 파악하기 위해 RPC를 사용하여 NameNode를 호출 3. NameNode는 데이터의 메타데이터를 저장하고 있기 때문에 저장된 파일의 위치를 알고 이에 해당하는 DataNode의 주소 반환 이때 클러스터의 네트워크 위상에 따라 클라이언트와 가까운 순으로 Data..
HDFS(Hadoop Distributed File System)란 HDFS는 하둡 분산 파일시스템으로 하둡에서 사용하는 파일 시스템이다 하둡에서 사용하는 파일시스템 답게 대용량의 파일을 처리하기에 적합하도록 설계 되었다 HDFS의 특징 HDFS의 특징은 다음과 같다. 대용량 파일 HDFS는 하나의 파일이 기가, 테라 단위의 파일까지 저장이 가능하다. 스트리밍 방식의 데이터 접근 HDFS는 클라이언트의 요청을 빠른 시간에 처리하는 것보다 동일한 시간 내 많은 데이터를 처리하도록 설계되었다. 범용 하드웨어 사용 신뢰도가 높은 고가의 하드웨어가 아닌 범용의 하드웨어를 사용할 수 있고, 장애가 발생하는 경우 장애 복구 기능을 통해 작업을 실행 할 수 있다. 데이터 수정 하둡에서는 데이터를 한 번 쓰고 끝나거나..