일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- yarn
- execution_date
- LDAP
- jupyter
- SlackWebhookOperator
- airflow
- HDP
- Lambda architecture
- Example DAG
- slack
- HBase
- Service
- 빅데이터
- re
- Kafka
- hadoop
- python
- docker
- NoSQL
- java
- Windows
- 람다 아키텍처
- 정규표현식
- Scala
- slack app
- HDFS
- MapReduce
- HIVE
- ambari
- Namenode
- Today
- Total
목록분류 전체보기 (104)
IT 삽질기
HDP 3.1.4 환경에서 Hive 설정을 진행하던 중 아래와 같은 에러가 발생했다 UnicodeDecodeError 인코딩 관련 문제로 생각하여 python 파일에 한글 인코딩 관련 코드를 추가해 보았다 파일의 경로는 에러메세지에 명시된 파일을 우선으로 작업했다 /usr/hdp/3.1.4.0-315/hive/scripts/llap/yarn/package.py #-*-coding:utf8-*- 해당 코드를 추가하여 테스트를 진행한 결과는 달라진 것은 없었다 이후로 추가로 리서치를 진행했다 community.cloudera.com/t5/Support-Questions/Install-UnicodeDecodeError-ascii-codec-can-t-decode-byte/td-p/139342 동일하진 않지만 ..
Airflow 1.x대 버전에서는 외부 서비스(HDFS, Hive, sqoop등)을 사용할 때 별도의 패키지를 설치하지 않고 사용할 수 있었다. Ariflow 2.x대 버전으로 버전이 업그레이드 되며 이 부분이 변경되었다 airflow.apache.org/docs/apache-airflow-providers/ 위의 링크를 살펴보면, 자세한 설명이 나와있는데, pip를 이용하여 개별적으로 설치가 가능하며 커스텀 패키지를 개발하여 사용하는 것도 가능하다 Airflow에서 제공하는 providers목록은 아래의 링크에 정리되어 있다 airflow.apache.org/docs/ Hadoop와 연동해 사용하기 위해서는 HDFS, Hive, Sqoop등을 설치하여 사용하면 되는데, 패키지가 변경되어 만약 Airfl..
Scala에서 형변환을 하기 위해서는 흔히 .toInt .toString 등과 같은 to[자료형]을 이용해 사용한다 실제 사용 예를 보자 위의 실행결과는 당연하게도 아래와 같다 정상적으로 1+1234 = 1235라는 결과가 나온다 그렇다면 char을 Int로 바꾸면 어떻게 될까 다른 언어서도 그렇지만 char을 int로 변경하는 경우 ascii코드의 형식으로 변환된다 실행결과는 1,2의 ascii코드 값인 49, 50이 되어 '1'+'2'는 99라는 결과가 나온다 char을 우리가 원하는 int형식으로 변환하려면 아래와 같은 방법을 사용할 수 있다 위의 3코드의 결과값은 모두 같다 0의 ascii 코드 값인 48을 빼면 원하는 것처럼 숫자에 대한 값을 구할 수 있다 String형식으로 되어 있는 숫자들의..
Hadoop클러스터를 구축할 때 Node별 성능이 다르거나 운영중 하드웨어에 문제가 발생하는 경우가 있다 클러스터 구축 시 서버를 Grouping하여 설정을 다르게 하는 방법과 운영중 disk fault가 발생했을 때 disk 교체가 어려운 경우 어떻게 대응할 수 있는지에 대해 포스팅 한다 Ambari에서는 Node를 group으로 나누고 설정을 적용할 수 있는 기능을 제공한다 먼저 Ambari에 접근해 HDFS - Configs - Manage Config Groups탭으로 들어가보자 아래의 창에서 Node를 Group로 나누어 설정할 수 있다 기본적으로 모든 Node들은 Default에 속해 있는데 아래의 + 버튼을 이용하여 그룹을 만든다 이후 새로 추가된 그룹에 설정 변경을 원하는 특정 노드들을 선..
지난 글에서 Airflow를 설치하고, webserver까지 실행하는 것을 완료했다 오늘은 mysql과의 연동 과정을 진행한다 2021.01.27 - [BigData/Airflow] - Airflow 2.0 설치하기(1) 2021.01.29 - [BigData/Airflow] - Airflow 2.0 설치하기(2) Airflow github페이지를 살펴보면 사용 가능한 DB에 대해 아래와 같이 나와있다 github.com/apache/airflow 이번 글에서는 MySQL 5.7버전을 사용해 테스트를 진행하고 다음 글에서 MySQL 8버전에 대한 테스트를 진행한다 MySQL 8버전을 사용하면 Scheduler HA를 사용할 수 있는데 이 부분 또한 MySQL 8버전에 대한 연동테스트를 진행하며 같이 진행..
2018년 10월 cloudera와 hortonworks가 합병을 진행했다. www.ciokorea.com/news/39756 cloudera는 CDH를 유료로 공개하여 사용자들이 사용료를 내고 사용하는 형태였고 hortonworks의 HDP는 오픈소스로 무료로 사용할 수 있는 Hadoop패키지였다. 두 회사가 합병을 진행한 이후 cloudera는 HDP 3.1.5까지만 공개하고 이후 버전은 나오지 않고 있다 기존 Legacy에 대한 지원은 계속되는 것으로 알고 있었지만 kr.cloudera.com/downloads/paywall-expansion.html 위의 공지처럼 21년 1월 31일부터 HDP Repo에 대해 접근시 유료 서브스크립션이 필요하도록 변경 HDP Repo를 사용하여 새로운 클러스터를 ..
HBase Tools는 카카오에서 개발한 오픈소스로 HBase관리에 필요한 여러 가지 기능을 제공한다 tech.kakao.com/2016/03/24/opensource-4-hbase-tools/ github.com/kakao/hbase-tools HBase Tools를 이용해 HBase region reblance작업을 진행해보도록 한다 HBase를 사용하다 보면 row key 설계에 따라 특정 region에 데이터가 몰리기도 하고 row key 설계가 잘 되어 있어도 특정 region에 데이터가 몰리는 경우가 발생했는데 이 경우 HBase Tools를 이용해 region을 재분배 작업을 진행했다 HBase Tools는 위의 github 링크를 통해 다운받아 사용한다. 여러 가지 기능이 있지만 여기서는 ..
하둡 클러스터 운영중 Active Resource Manager가 내려간 후 Standby RM이 Active상태로 전환되지 않는 이슈 발생 이후 Active로 동작하고 있던 RM도 올라왔지만 역시 StandBy 상태로 Active상태로 전환되지 않음 리서치 결과 community.cloudera.com/t5/Community-Articles/Resource-Managers-are-starting-up-both-in-standby/ta-p/246250 Zookeeper 관련 이슈로 판단 yarn-leader-election 이슈로 RM이 정상적으로 전환되지 않는 것 zkcli에 접근하여 직접 데이터를 삭제 #hdp zookeeper 경로 ex) /usr/hdp/current/zookeeper/bin/zk..