일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- hadoop
- python
- MapReduce
- HBase
- java
- Service
- ambari
- docker
- Windows
- jupyter
- slack
- Example DAG
- Kafka
- HIVE
- airflow
- NoSQL
- Scala
- Namenode
- yarn
- re
- 람다 아키텍처
- slack app
- Lambda architecture
- 정규표현식
- HDFS
- HDP
- execution_date
- LDAP
- 빅데이터
- SlackWebhookOperator
- Today
- Total
IT 삽질기
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bql0yH/btq1OMOoNqB/ryVEI3ZMOdNwIDoEFqSfLk/img.png)
HDP 3.1.4 환경에서 Hive 설정을 진행하던 중 아래와 같은 에러가 발생했다 UnicodeDecodeError 인코딩 관련 문제로 생각하여 python 파일에 한글 인코딩 관련 코드를 추가해 보았다 파일의 경로는 에러메세지에 명시된 파일을 우선으로 작업했다 /usr/hdp/3.1.4.0-315/hive/scripts/llap/yarn/package.py #-*-coding:utf8-*- 해당 코드를 추가하여 테스트를 진행한 결과는 달라진 것은 없었다 이후로 추가로 리서치를 진행했다 community.cloudera.com/t5/Support-Questions/Install-UnicodeDecodeError-ascii-codec-can-t-decode-byte/td-p/139342 동일하진 않지만 ..
Airflow 1.x대 버전에서는 외부 서비스(HDFS, Hive, sqoop등)을 사용할 때 별도의 패키지를 설치하지 않고 사용할 수 있었다. Ariflow 2.x대 버전으로 버전이 업그레이드 되며 이 부분이 변경되었다 airflow.apache.org/docs/apache-airflow-providers/ 위의 링크를 살펴보면, 자세한 설명이 나와있는데, pip를 이용하여 개별적으로 설치가 가능하며 커스텀 패키지를 개발하여 사용하는 것도 가능하다 Airflow에서 제공하는 providers목록은 아래의 링크에 정리되어 있다 airflow.apache.org/docs/ Hadoop와 연동해 사용하기 위해서는 HDFS, Hive, Sqoop등을 설치하여 사용하면 되는데, 패키지가 변경되어 만약 Airfl..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cD6xq1/btq1ow4Orvz/fWpaN2UyRDCkIeRknEjKaK/img.png)
Scala에서 형변환을 하기 위해서는 흔히 .toInt .toString 등과 같은 to[자료형]을 이용해 사용한다 실제 사용 예를 보자 위의 실행결과는 당연하게도 아래와 같다 정상적으로 1+1234 = 1235라는 결과가 나온다 그렇다면 char을 Int로 바꾸면 어떻게 될까 다른 언어서도 그렇지만 char을 int로 변경하는 경우 ascii코드의 형식으로 변환된다 실행결과는 1,2의 ascii코드 값인 49, 50이 되어 '1'+'2'는 99라는 결과가 나온다 char을 우리가 원하는 int형식으로 변환하려면 아래와 같은 방법을 사용할 수 있다 위의 3코드의 결과값은 모두 같다 0의 ascii 코드 값인 48을 빼면 원하는 것처럼 숫자에 대한 값을 구할 수 있다 String형식으로 되어 있는 숫자들의..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bio2pv/btq0JxRHFA3/1LM6IAVOQ3puP1ljBlOGZk/img.png)
Hadoop클러스터를 구축할 때 Node별 성능이 다르거나 운영중 하드웨어에 문제가 발생하는 경우가 있다 클러스터 구축 시 서버를 Grouping하여 설정을 다르게 하는 방법과 운영중 disk fault가 발생했을 때 disk 교체가 어려운 경우 어떻게 대응할 수 있는지에 대해 포스팅 한다 Ambari에서는 Node를 group으로 나누고 설정을 적용할 수 있는 기능을 제공한다 먼저 Ambari에 접근해 HDFS - Configs - Manage Config Groups탭으로 들어가보자 아래의 창에서 Node를 Group로 나누어 설정할 수 있다 기본적으로 모든 Node들은 Default에 속해 있는데 아래의 + 버튼을 이용하여 그룹을 만든다 이후 새로 추가된 그룹에 설정 변경을 원하는 특정 노드들을 선..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cqnDWN/btq0Jx32o5H/IOUF4aT6BnZUDDaepVCHM1/img.png)
지난 글에서 Airflow를 설치하고, webserver까지 실행하는 것을 완료했다 오늘은 mysql과의 연동 과정을 진행한다 2021.01.27 - [BigData/Airflow] - Airflow 2.0 설치하기(1) 2021.01.29 - [BigData/Airflow] - Airflow 2.0 설치하기(2) Airflow github페이지를 살펴보면 사용 가능한 DB에 대해 아래와 같이 나와있다 github.com/apache/airflow 이번 글에서는 MySQL 5.7버전을 사용해 테스트를 진행하고 다음 글에서 MySQL 8버전에 대한 테스트를 진행한다 MySQL 8버전을 사용하면 Scheduler HA를 사용할 수 있는데 이 부분 또한 MySQL 8버전에 대한 연동테스트를 진행하며 같이 진행..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/b1WDF0/btqZ0tIZncF/1A23Yo1IyS9xm1uAbQWtY0/img.png)
2018년 10월 cloudera와 hortonworks가 합병을 진행했다. www.ciokorea.com/news/39756 cloudera는 CDH를 유료로 공개하여 사용자들이 사용료를 내고 사용하는 형태였고 hortonworks의 HDP는 오픈소스로 무료로 사용할 수 있는 Hadoop패키지였다. 두 회사가 합병을 진행한 이후 cloudera는 HDP 3.1.5까지만 공개하고 이후 버전은 나오지 않고 있다 기존 Legacy에 대한 지원은 계속되는 것으로 알고 있었지만 kr.cloudera.com/downloads/paywall-expansion.html 위의 공지처럼 21년 1월 31일부터 HDP Repo에 대해 접근시 유료 서브스크립션이 필요하도록 변경 HDP Repo를 사용하여 새로운 클러스터를 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/b053XD/btqZyu2ZhEt/yU1Y80x9VDGbetcwUWYuD1/img.png)
HBase Tools는 카카오에서 개발한 오픈소스로 HBase관리에 필요한 여러 가지 기능을 제공한다 tech.kakao.com/2016/03/24/opensource-4-hbase-tools/ github.com/kakao/hbase-tools HBase Tools를 이용해 HBase region reblance작업을 진행해보도록 한다 HBase를 사용하다 보면 row key 설계에 따라 특정 region에 데이터가 몰리기도 하고 row key 설계가 잘 되어 있어도 특정 region에 데이터가 몰리는 경우가 발생했는데 이 경우 HBase Tools를 이용해 region을 재분배 작업을 진행했다 HBase Tools는 위의 github 링크를 통해 다운받아 사용한다. 여러 가지 기능이 있지만 여기서는 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/buU19H/btqZvMQpp6i/m9HGp3hfRFYdDYDGyz2KcK/img.png)
하둡 클러스터 운영중 Active Resource Manager가 내려간 후 Standby RM이 Active상태로 전환되지 않는 이슈 발생 이후 Active로 동작하고 있던 RM도 올라왔지만 역시 StandBy 상태로 Active상태로 전환되지 않음 리서치 결과 community.cloudera.com/t5/Community-Articles/Resource-Managers-are-starting-up-both-in-standby/ta-p/246250 Zookeeper 관련 이슈로 판단 yarn-leader-election 이슈로 RM이 정상적으로 전환되지 않는 것 zkcli에 접근하여 직접 데이터를 삭제 #hdp zookeeper 경로 ex) /usr/hdp/current/zookeeper/bin/zk..