일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- MapReduce
- 빅데이터
- 정규표현식
- Kafka
- HBase
- python
- execution_date
- Namenode
- java
- Scala
- HDFS
- re
- yarn
- ambari
- 람다 아키텍처
- Example DAG
- HDP
- Windows
- SlackWebhookOperator
- Service
- jupyter
- NoSQL
- slack
- docker
- HIVE
- LDAP
- hadoop
- slack app
- airflow
- Lambda architecture
- Today
- Total
목록분류 전체보기 (104)
IT 삽질기
pyHive를 이용해 Hive에 접근하는 경우 발생한 에러에 대해 정리한다 Hive는 LDAP을 이용해 인증을 하는 방식으로 설정되어 있다 hive.server2.authentication LDAP 이런 경우 pyHive를 통해 hive에 접근하는 경우에도 LDAP을 통한 인증이 필요한대 pyHive의 코드를 살펴보자 github.com/dropbox/PyHivegithub.com/dropbox/PyHive/blob/master/pyhive/hive.py 코드를 살펴보면 HiveServer2를 통해 접근을 하고 연결하기 위해 필요한 다양한 파라미터들에 대해 정리가 되어 있는데 인증방식 auth에 LDAP을 사용할 예정이다 python에서 연결을 위해 사용한 명령어는 아래와 같다 from pyHive im..
YARN 스케줄링 2019/06/10 - [BigData/Hadoop] - Hadoop 1.0과 Hadoop 2.0 (1 YARN) Hadoop 1.0과 Hadoop 2.0 (1 YARN) 이번 글에서는 Hadoop 1.0과 Hadoop 2.0의 차이점에 대해서 간단하게 알아보도록 하자. Hadoop 버전에 따른 아키텍처를 비교해서 살펴보면 아래와 같다. Hadoop 2.0에서는 클러스터의 자원을 관리하기 위한 시스.. dydwnsekd.tistory.com 이전 글에서 YARN이 무엇인지에 대해 간단히 설명했다. YARN은 Resource Manager과 Application Master, Node Manager등으로 구분되는데 이번에는 YARN에서 작업을 스케줄링하는 방식에 대해서 알아보도록 하자. ..
2021.04 Apache 프로젝트로 있던 프로젝트들의 일부를 폐기한다고 발표했습니다 폐기된 프로젝트 중 빅데이터 관련 프로젝트는 13개 이중 Hadoop Ecosystem으로 속해 있던 프로젝트는 10개입니다 사용해본적 없는 프로젝트들이지만 한번씩 이름을 들어본 프로젝트들도 여러 개 섞여 있다. 폐기된 프로젝트는 아래와 같다 Apex : Hadoop YARN 기반의 빅 데이터 스트림 및 일괄 처리를위한 통합 플랫폼 Chukwa : HDFS (Hadoop Distributed File System)를 기반으로 구축된 대규모 분산 시스템 모니터링을 위한 데이터 수집 시스템 Crunch : MapReduce (Hadoop MapReduce 포함) 파이프 라인을 작성, 테스트 및 실행하기위한 프레임 워크를 제..
Hadoop3에서 변경된 내용 중 몇몇 중요한 사항들에 대해 알아보도록 하자 Java8 기존의 Hadoop2는 Java 7버전을 지원했는데 Hadoop3를 사용하기 위해서는 Java8를 설치해야 한다 erasure coding 가장 큰 변경점 중 하나인 erasure coding은 기존의 Hadoop2에서 문제가 되었던 스토리지 관련 문제를 해결한다 Hadoop2 에서는 기본적으로 데이터를 저장하기 위해 3배의 용량이 필요했다 예를 들어, 1TB의 데이터를 저장하기 위해서는 3TB의 용량이 필요했던 것이다 이는 HDFS에서 데이터 유실이 일어나지 않게 해주는 역할을 함과 동시에 데이터를 많이 저장할 수 없는 단점으로 작용했다 물론 설정을 통해 Replication 수를 줄여 용량을 확보하는 방법이 있지만..
문제 발생 최근 운영중인 클러스터에서 너무 잦은 NameNode(NN) 전환 작업이 일어났다 기존에는 약 2주에 한번씩 전환되던 NN의 전환이 하루에 한번 정도씩 반복되었는데 이를 해결한 과정이다 먼저 문제가 발생한 NN의 log를 살펴보았다 log를 확인한 결과 NN이 종료되기 전 JournalNode로 edit 내용을 쓰는 과정에서 timeout이 걸려 NN이 중단되는 것으로 보였다. 정상적으로 edit 내용을 전달하는 경우의 log는 아래와 같다 warn은 발생하지만 20000ms(20초)를 넘지 않는 경우에는 error이 발생하지 않고 NN이 내려가지 않았다 원인 파악 1. 네트워크 문제 2. 서버 노후화와 부하 증가로 인한 문제 1. 네트워크 문제에 대한 부분은 데이터의 양이 많아지고 많은 요청..
지난 글에서 Hadoop NameNode(NN) HA가 무엇인지에 관한 내용과 HA를 구성하기 위한 요구사항들을 알아보았다 2021.04.08 - [BigData/Hadoop] - Hadoop2 NameNode HA QJM(Quorum Journal Manager) Hadoop2 NameNode HA QJM(Quorum Journal Manager) Hadoop2 NameNode(NN)에서 제공하는 HA기능에 대해서 알아보도록 하자 Hadoop NN을 HA로 구성하는 방법은 2가지로 QJM(Quorum Journal Manager)방식과 NFS를 이용하는 방식이 있는데 여기서는 QJM 방식에 대해서.. dydwnsekd.tistory.com 오늘은 그 중 ZKFC에 대해서 좀 더 자세히 알아보도록 하자 ..
Hadoop2 NameNode(NN)에서 제공하는 HA기능에 대해서 알아보도록 하자 Hadoop NN을 HA로 구성하는 방법은 2가지로 QJM(Quorum Journal Manager)방식과 NFS를 이용하는 방식이 있는데 여기서는 QJM 방식에 대해서 설명한다 HA(High Availability)란 고가용성을 의미하는 말로 서버와 네트워크 등을 오랜시간 정상적으로 운영이 가능한 성질을 말한다 자세한 내용은 아래의 내용에서 확인하기 바란다 ko.wikipedia.org/wiki/%EA%B3%A0%EA%B0%80%EC%9A%A9%EC%84%B1 Hadoop에서 NN은 매우 중요한 역할을 하고 장애가 발생하는 경우 Hadoop 시스템이 정상적으로 동작하지 않기 때문에 NN을 HA로 구성하여 많이 사용한다 ..
Hive 테이블을 복사하는 방법을 알아보도록 하자 Hive 테이블을 복사하는 방법은 다음과 같이 나뉜다 1. hive 테이블의 구조(partition) 복사해 새로운 테이블을 만드는 방법 2. hive partition정보는 가지고 오지 않고 데이터만 복사해 새로운 테이블에 넣는 방법 3. partition과 데이터를 모두 복사하는 방법 먼저 복사하려고 하는 hive Table에 partition이 있는지 알아보도록 하자 DESC [DB].[TABLE] # ex) DESC tmp.aa partition이 있는 테이블은 아래와 같이 표시된다 반대로 partition이 없는 테이블은 아래와 같이 표시된다 파티션이 없어 데이터만 복사하고자 하는 경우 새로운 테이블을 만들 때 CREATE - SELECT문을 통..