일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- re
- 정규표현식
- python
- execution_date
- slack
- MapReduce
- Lambda architecture
- java
- jupyter
- HDFS
- Scala
- HIVE
- 빅데이터
- LDAP
- HBase
- yarn
- HDP
- ambari
- 람다 아키텍처
- Service
- airflow
- Example DAG
- NoSQL
- Namenode
- Windows
- hadoop
- Kafka
- slack app
- SlackWebhookOperator
- docker
- Today
- Total
목록분류 전체보기 (104)
IT 삽질기
jupyter 외부접속 허용 지난 글에서 mac에 jupyter을 설치하고 실행시켰다. 2019/04/30 - [개발] - Mac에 jupyter 설치하기 Mac에 jupyter 설치하기 Mac 환경에서 jupyter 설치하기 Mac 환경에서 python 사용을 위한 jupyter 설정에 대해 알아보도록 하자. mac 환경 1. python3 설치 확인 최신 mac에는 python3가 설치되어 있으므로 python3 설치 부분은 생략하.. dydwnsekd.tistory.com 이번에는 설치된 jupyter에서 설정을 통해 외부접속을 허용하고 비밀번호를 설정하는 등 간단한 설정방법에 대해 알아보도록 하자. 먼저 설정 파일을 만들어보도록 하자. jupyter notebook --generate-config..
이번 글에서는 Hadoop 1.0과 Hadoop 2.0의 차이점에 대해서 간단하게 알아보도록 하자. Hadoop 버전에 따른 아키텍처를 비교해서 살펴보면 아래와 같다. Hadoop 2.0에서는 클러스터의 자원을 관리하기 위한 시스템으로 YARN이 도입되었다. YARN은 Resource Manager와 Node Manager 2 가지 유형의 실행 데몬을 통해 핵심 서비스를 제공하게 되는데, 이는 Hadoop 1.0에 있는 JobTracker와 TaskTracker를대신해 등장한 개념이라고 생각하면 된다. Hadoop 1.0에서의 JobTracker는 3가지 기능을 했는데 1. 클러스터 전체의 리소스 관리 2. 잡을 수행하며 성공적으로 일을 마칠 수 있도록 관리 3. 완료된 Job에 대한 이력을 저장(잡트래..
HDFS에서 데이터를 읽고 쓸 때 어떻게 동작하는지 알아보도록 하자. 해당 내용은 하둡 완벽 가이드 4판의 내용을 정리한 내용입니다. HDFS 데이터 읽기 HDFS에서 데이터를 읽을 때 아래와 같은 동작을 하게 된다. 1. 클라이언트는 HDFS가 DistributedFileSystem 인스턴스 FileSystem 객체의 open() 메서드를 호출하여 원하는 파일을 연다. 2. DistributedFileSystem은 파일의 첫 번째 블록 위치를 파악하기 위해 RPC를 사용하여 NameNode를 호출 3. NameNode는 데이터의 메타데이터를 저장하고 있기 때문에 저장된 파일의 위치를 알고 이에 해당하는 DataNode의 주소 반환 이때 클러스터의 네트워크 위상에 따라 클라이언트와 가까운 순으로 Data..
HDFS(Hadoop Distributed File System)란 HDFS는 하둡 분산 파일시스템으로 하둡에서 사용하는 파일 시스템이다 하둡에서 사용하는 파일시스템 답게 대용량의 파일을 처리하기에 적합하도록 설계 되었다 HDFS의 특징 HDFS의 특징은 다음과 같다. 대용량 파일 HDFS는 하나의 파일이 기가, 테라 단위의 파일까지 저장이 가능하다. 스트리밍 방식의 데이터 접근 HDFS는 클라이언트의 요청을 빠른 시간에 처리하는 것보다 동일한 시간 내 많은 데이터를 처리하도록 설계되었다. 범용 하드웨어 사용 신뢰도가 높은 고가의 하드웨어가 아닌 범용의 하드웨어를 사용할 수 있고, 장애가 발생하는 경우 장애 복구 기능을 통해 작업을 실행 할 수 있다. 데이터 수정 하둡에서는 데이터를 한 번 쓰고 끝나거나..
Spark란? 범용의 분산 클러스터 컴퓨팅 프레임워크 메모리 기반의 대용량 데이터 고속 처리 엔진 하둡과 밀접하게 통합되어 YARN을 기반으로 실행 할 수 있으며 HDFS 기반의 저장소 지원 데이터가 메모리에 저장되어 있을 때 하둡보다 약 100배 빠르며 디스크에 저장되어 있을 때 약 10배 빠른 속도 자바, 파이썬, 스칼라, R 등을 기반으로 동작 단일 시스템 내에서 데이터 batch/Stream처리, SQL 및 Machine Leraning, Graph processing 지원 Spark는 메모리를 기반으로 데이터를 처리하는데 그와 반대로 Hadoop는 디스크에 기반하여 데이터를 처리한다고 했다. Hadoop에서는 데이터를 어떻게 처리하는지, 디스크 기반의 데이터 처리는 어떤 단점이 있는지 간단하게 ..
동기(Sync)와 비동기(Asyn) 프로그래밍 동기 프로그래밍과 비동기 프로그래밍에 대해서 알아보도록 하자. 동기(synchronous) 동시에 일어나는 일을 순차적으로 처리하며 끝내는 방식 요청한 결과가 한 자리에서 동시에 일어남 동기 시스템에 대한 예를 들어보도록 하자. 동기 시스템은 일을 순차적으로 처리하며 요청한 결과가 한 자리에서 동시에 일어나는 것인데 계좌이체를 예로 들어보도록 하자. A가 B의 계좌로 돈을 송금한다고 할 때, A의 계좌에서 돈이 빠져나감과 동시에 B의 계좌에 돈이 들어가야 한다. 이를 동기 시스템이라고 생각하면 된다. 비동기(Asynchronous) 동시에 일어나지 않는 해야 할 일을 위임하고 기다리는 방식 요청한 그 자리에서 결과가 주어지지 않음 비동기 시스템에 대한 예를 ..
Mac 환경에서 jupyter 설치하기 Mac 환경에서 python 사용을 위한 jupyter 설정에 대해 알아보도록 하자. mac 환경 1. python3 설치 확인 최신 mac에는 python3가 설치되어 있으므로 python3 설치 부분은 생략하도록 한다. 설치되어 있지 않은 경우에는 brew를 통해 설치 https://dejavuqa.tistory.com/132 Mac에 Python3.x 설치 (brew) Python.org에서 package를 다운받아 설치하다 brew로 모든 package를 관리하고 싶어졌습니다. 그래서 이번엔 brew를 이용해 python 3를 설치해 보겠습니다. 먼저 Home Brew 를 설치 합니다. [http://dejavuqa.tist.. dejavuqa.tistory..
HBase 테이블별 용량 확인 서버 환경 HDFS 2.7.3 HBase 1.1.2 먼저 hdfs dfs -ls [path] 명령어를 이용하여 table들이 어디에 있는지 확인 나의 경우에는 /apps/hbase/data/data/[namespace]/[table name]로 저장되어 있었고 namespace가 지정되지 않은 테이블들은 default/ 경로에서 확인이 가능했다. 테이블을 찾은 후 각 테이블의 용량을 확인하기 위해서는 hdfs dfs -du -s -h [path] 명령어를 이용해 테이블들의 용량을 확인할 수 있으며 hdfs dfs -du -s -h /apps/hbase/data/data/default/* 명령어를 이용하면 default에 있는 모든 테이블들의 용량을 확인할 수 있다.