일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Namenode
- hadoop
- LDAP
- java
- 람다 아키텍처
- SlackWebhookOperator
- HBase
- 빅데이터
- re
- HIVE
- Scala
- NoSQL
- ambari
- Lambda architecture
- jupyter
- slack app
- MapReduce
- HDFS
- slack
- python
- execution_date
- Kafka
- Service
- airflow
- docker
- Example DAG
- 정규표현식
- yarn
- Windows
- HDP
- Today
- Total
목록hadoop (18)
IT 삽질기
Hadoop2 NameNode(NN)에서 제공하는 HA기능에 대해서 알아보도록 하자 Hadoop NN을 HA로 구성하는 방법은 2가지로 QJM(Quorum Journal Manager)방식과 NFS를 이용하는 방식이 있는데 여기서는 QJM 방식에 대해서 설명한다 HA(High Availability)란 고가용성을 의미하는 말로 서버와 네트워크 등을 오랜시간 정상적으로 운영이 가능한 성질을 말한다 자세한 내용은 아래의 내용에서 확인하기 바란다 ko.wikipedia.org/wiki/%EA%B3%A0%EA%B0%80%EC%9A%A9%EC%84%B1 Hadoop에서 NN은 매우 중요한 역할을 하고 장애가 발생하는 경우 Hadoop 시스템이 정상적으로 동작하지 않기 때문에 NN을 HA로 구성하여 많이 사용한다 ..
Hive 테이블을 복사하는 방법을 알아보도록 하자 Hive 테이블을 복사하는 방법은 다음과 같이 나뉜다 1. hive 테이블의 구조(partition) 복사해 새로운 테이블을 만드는 방법 2. hive partition정보는 가지고 오지 않고 데이터만 복사해 새로운 테이블에 넣는 방법 3. partition과 데이터를 모두 복사하는 방법 먼저 복사하려고 하는 hive Table에 partition이 있는지 알아보도록 하자 DESC [DB].[TABLE] # ex) DESC tmp.aa partition이 있는 테이블은 아래와 같이 표시된다 반대로 partition이 없는 테이블은 아래와 같이 표시된다 파티션이 없어 데이터만 복사하고자 하는 경우 새로운 테이블을 만들 때 CREATE - SELECT문을 통..
HDP 3.1.4 환경에서 Hive 설정을 진행하던 중 아래와 같은 에러가 발생했다 UnicodeDecodeError 인코딩 관련 문제로 생각하여 python 파일에 한글 인코딩 관련 코드를 추가해 보았다 파일의 경로는 에러메세지에 명시된 파일을 우선으로 작업했다 /usr/hdp/3.1.4.0-315/hive/scripts/llap/yarn/package.py #-*-coding:utf8-*- 해당 코드를 추가하여 테스트를 진행한 결과는 달라진 것은 없었다 이후로 추가로 리서치를 진행했다 community.cloudera.com/t5/Support-Questions/Install-UnicodeDecodeError-ascii-codec-can-t-decode-byte/td-p/139342 동일하진 않지만 ..
Hadoop클러스터를 구축할 때 Node별 성능이 다르거나 운영중 하드웨어에 문제가 발생하는 경우가 있다 클러스터 구축 시 서버를 Grouping하여 설정을 다르게 하는 방법과 운영중 disk fault가 발생했을 때 disk 교체가 어려운 경우 어떻게 대응할 수 있는지에 대해 포스팅 한다 Ambari에서는 Node를 group으로 나누고 설정을 적용할 수 있는 기능을 제공한다 먼저 Ambari에 접근해 HDFS - Configs - Manage Config Groups탭으로 들어가보자 아래의 창에서 Node를 Group로 나누어 설정할 수 있다 기본적으로 모든 Node들은 Default에 속해 있는데 아래의 + 버튼을 이용하여 그룹을 만든다 이후 새로 추가된 그룹에 설정 변경을 원하는 특정 노드들을 선..
2018년 10월 cloudera와 hortonworks가 합병을 진행했다. www.ciokorea.com/news/39756 cloudera는 CDH를 유료로 공개하여 사용자들이 사용료를 내고 사용하는 형태였고 hortonworks의 HDP는 오픈소스로 무료로 사용할 수 있는 Hadoop패키지였다. 두 회사가 합병을 진행한 이후 cloudera는 HDP 3.1.5까지만 공개하고 이후 버전은 나오지 않고 있다 기존 Legacy에 대한 지원은 계속되는 것으로 알고 있었지만 kr.cloudera.com/downloads/paywall-expansion.html 위의 공지처럼 21년 1월 31일부터 HDP Repo에 대해 접근시 유료 서브스크립션이 필요하도록 변경 HDP Repo를 사용하여 새로운 클러스터를 ..
하둡 클러스터 운영중 Active Resource Manager가 내려간 후 Standby RM이 Active상태로 전환되지 않는 이슈 발생 이후 Active로 동작하고 있던 RM도 올라왔지만 역시 StandBy 상태로 Active상태로 전환되지 않음 리서치 결과 community.cloudera.com/t5/Community-Articles/Resource-Managers-are-starting-up-both-in-standby/ta-p/246250 Zookeeper 관련 이슈로 판단 yarn-leader-election 이슈로 RM이 정상적으로 전환되지 않는 것 zkcli에 접근하여 직접 데이터를 삭제 #hdp zookeeper 경로 ex) /usr/hdp/current/zookeeper/bin/zk..
Ambari에서 HDFS 관련 컴포넌트(Namenode, JournalNode, ZookeeperFailOverController)을 재시작 하는 경우 이슈 발생 hadooplzo 관련 에러로그 확인 hadooplzo 관련 이슈로 보여 NN(NameNode)로 사용하는 두 노드 간의 패키지를 비교 NN1과 NN2에 존재하는 hadooplzo-native 관련 패키지의 버전이 다른 것으로 확인 해당 패키지 관련 이슈일 가능성이 있어 NN2에 hadooplzo-native를 설치하는 것으로 결정 NN2에 있는 lzo를 제거한 후 버전을 맞춰 재설치 진행 #NN2 remove yum remove hadoop-lzo-native #NN2 install yum install hadoop-lzo-native yum..
HDFS에서 데이터를 읽고 쓸 때 어떻게 동작하는지 알아보도록 하자. 해당 내용은 하둡 완벽 가이드 4판의 내용을 정리한 내용입니다. HDFS 데이터 읽기 HDFS에서 데이터를 읽을 때 아래와 같은 동작을 하게 된다. 1. 클라이언트는 HDFS가 DistributedFileSystem 인스턴스 FileSystem 객체의 open() 메서드를 호출하여 원하는 파일을 연다. 2. DistributedFileSystem은 파일의 첫 번째 블록 위치를 파악하기 위해 RPC를 사용하여 NameNode를 호출 3. NameNode는 데이터의 메타데이터를 저장하고 있기 때문에 저장된 파일의 위치를 알고 이에 해당하는 DataNode의 주소 반환 이때 클러스터의 네트워크 위상에 따라 클라이언트와 가까운 순으로 Data..