일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- slack
- HDP
- Namenode
- LDAP
- hadoop
- execution_date
- Service
- python
- HDFS
- jupyter
- MapReduce
- Windows
- Scala
- java
- HIVE
- 빅데이터
- Lambda architecture
- re
- 정규표현식
- Kafka
- airflow
- docker
- SlackWebhookOperator
- HBase
- NoSQL
- slack app
- yarn
- 람다 아키텍처
- Example DAG
- ambari
- Today
- Total
목록BigData (73)
IT 삽질기
HDFS(Hadoop Distributed File System)란 HDFS는 하둡 분산 파일시스템으로 하둡에서 사용하는 파일 시스템이다 하둡에서 사용하는 파일시스템 답게 대용량의 파일을 처리하기에 적합하도록 설계 되었다 HDFS의 특징 HDFS의 특징은 다음과 같다. 대용량 파일 HDFS는 하나의 파일이 기가, 테라 단위의 파일까지 저장이 가능하다. 스트리밍 방식의 데이터 접근 HDFS는 클라이언트의 요청을 빠른 시간에 처리하는 것보다 동일한 시간 내 많은 데이터를 처리하도록 설계되었다. 범용 하드웨어 사용 신뢰도가 높은 고가의 하드웨어가 아닌 범용의 하드웨어를 사용할 수 있고, 장애가 발생하는 경우 장애 복구 기능을 통해 작업을 실행 할 수 있다. 데이터 수정 하둡에서는 데이터를 한 번 쓰고 끝나거나..

Spark란? 범용의 분산 클러스터 컴퓨팅 프레임워크 메모리 기반의 대용량 데이터 고속 처리 엔진 하둡과 밀접하게 통합되어 YARN을 기반으로 실행 할 수 있으며 HDFS 기반의 저장소 지원 데이터가 메모리에 저장되어 있을 때 하둡보다 약 100배 빠르며 디스크에 저장되어 있을 때 약 10배 빠른 속도 자바, 파이썬, 스칼라, R 등을 기반으로 동작 단일 시스템 내에서 데이터 batch/Stream처리, SQL 및 Machine Leraning, Graph processing 지원 Spark는 메모리를 기반으로 데이터를 처리하는데 그와 반대로 Hadoop는 디스크에 기반하여 데이터를 처리한다고 했다. Hadoop에서는 데이터를 어떻게 처리하는지, 디스크 기반의 데이터 처리는 어떤 단점이 있는지 간단하게 ..

HBase 테이블별 용량 확인 서버 환경 HDFS 2.7.3 HBase 1.1.2 먼저 hdfs dfs -ls [path] 명령어를 이용하여 table들이 어디에 있는지 확인 나의 경우에는 /apps/hbase/data/data/[namespace]/[table name]로 저장되어 있었고 namespace가 지정되지 않은 테이블들은 default/ 경로에서 확인이 가능했다. 테이블을 찾은 후 각 테이블의 용량을 확인하기 위해서는 hdfs dfs -du -s -h [path] 명령어를 이용해 테이블들의 용량을 확인할 수 있으며 hdfs dfs -du -s -h /apps/hbase/data/data/default/* 명령어를 이용하면 default에 있는 모든 테이블들의 용량을 확인할 수 있다.

failed due to EOF occurred in violation of protocol (_ssl.c:579) Ambari 연결 중 node 하나에서 lost-heartbeat 현상 발생 log를 살펴보니 아래와 같은 문제가 발생 이를 해결하기 위해 찾아본 결과 https://community.hortonworks.com/content/supportkb/188002/ioerror-request-to-httpslocalhost8441agentv1regist.html "IOError: Request to https://localhost:8441/agent/v1/register/namenode.exterrocloud.info failed due to EOF occurred in violation comm..
NoSQL의 분류 1. Key:Value DB Key:Value 쌍으로 저장되는 가장 단순한 형태로 Riak, Vodemort, Tokyo 등이 있음 2. Wide Columnar Store Big Table DB라고도 하며 Key:Value에서 발전된 형태의 Column Family 데이터 모델을 사용 HBase, Cassandra, ScllaDB등이 있음 3. Document DB JSON, XML과 같은 Collection 데이터 모델 구조를 채택하며 MongoDB, CoughDB가 해당 4. Graph DB Nodes, Relationship, Key-Value 데이터 모델을 사용하며 Neo4j, OreientDB등이 해당 그래프별 기능을 비교하면 아래의 표와 같다. 데이터 모델 성능 확장성 유연..
NoSQL이란? No Only SQL로 현재 가장 많이 사용 RDB에서 데이터를 조회, 수정, 삭제하거나 조작하는데 사용되는 언어인 SQL을 사용하지 않는 DB로 RDB가 제공하는 특성인 ACID(Atomic, Consistency, Integrity, Durability)는 제공하지 않지만 뛰어난 확장성과 성능을 가지는데 이는 관계형이 아닌 다른 특성들도 지원한다는 것을 의미 ACID(Atomic, Consistency, Integrity, Durability) Atomic(원자성) : 트랜잭션과 관련된 작업들이 부분적으로 실행되다가 중단되지 않는 것을 보장하는 능력 Consistency(일관성) : 트랜잭션이 실행을 성공적으로 완료하면 언제나 일관성 있는 데이터베이스 상태로 유지하는 것 Integri..
HBase 용어 정리 Table다중 로우로 구성된 집합으로 RDB에서의 table와 비슷한 개념이지만 테이블을 만들 때 Column을 지정해주는 것이 아니라 Column Family만 지정 RowRowKey와 Column으로 구성되며, RowKey를 기준으로 알파벳 오름차순으로 정렬되어 저장되기 때문에 로우키 설계가 매우 중요후에 다시 언급하겠지만 HBase 데이터는 리전 서버에 저장이 되는데 이 때 같은 리전서버에 있는 것과 다른 리전서버에 있는 데이터를 불러오는 경우 속도차이가 날 수 있어 로우키를 어떻게 설계하는지가 중요 Row KeyRow를 구분하기 위한 구분자로 RDB에서의 primary key와 비슷한 개념을 가짐 Column Famaily물리적으로 모든 Column Family단위로 파일 시..
Apache HBase란? Hadoop 플랫폼을 위한 구글의 BigTable을 본보기로 자바를 기반으로 만들어진 데이터 비관계형 분산 데이터 베이스이다.NoSQL로 분류되며 스키마 지정 및 변경 없이 데이터를 저장할 수 있으며 하둡의 분산 파일 시스템인 HDFS에서 동작하기 때문에 가용성 및 1)확장성을 그대로 이용할 수 있다.구글의 BigTable 논문에 설명된 2)Bloom필터 기능을 제공하며 자바를 기반으로 만들어져 자바 API, REST, Avro, Thrift를 통해 접근 가능 HBase의 특징- 선형 확장성을 가짐- 읽기와 쓰기의 일관성 제공- Hadoop 시스템과 연계하기 편리 source와 destination으로 사용 가능- 클러스터를 통한 데이터 복제로 장애 극복(fail over)가능..