일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Scala
- Example DAG
- Windows
- HDFS
- slack
- ambari
- MapReduce
- 람다 아키텍처
- docker
- 정규표현식
- LDAP
- NoSQL
- python
- Service
- yarn
- re
- airflow
- slack app
- jupyter
- execution_date
- Kafka
- java
- HBase
- HIVE
- hadoop
- HDP
- SlackWebhookOperator
- Lambda architecture
- Namenode
- 빅데이터
- Today
- Total
목록hadoop (18)
IT 삽질기
HDFS(Hadoop Distributed File System)란 HDFS는 하둡 분산 파일시스템으로 하둡에서 사용하는 파일 시스템이다 하둡에서 사용하는 파일시스템 답게 대용량의 파일을 처리하기에 적합하도록 설계 되었다 HDFS의 특징 HDFS의 특징은 다음과 같다. 대용량 파일 HDFS는 하나의 파일이 기가, 테라 단위의 파일까지 저장이 가능하다. 스트리밍 방식의 데이터 접근 HDFS는 클라이언트의 요청을 빠른 시간에 처리하는 것보다 동일한 시간 내 많은 데이터를 처리하도록 설계되었다. 범용 하드웨어 사용 신뢰도가 높은 고가의 하드웨어가 아닌 범용의 하드웨어를 사용할 수 있고, 장애가 발생하는 경우 장애 복구 기능을 통해 작업을 실행 할 수 있다. 데이터 수정 하둡에서는 데이터를 한 번 쓰고 끝나거나..
Spark란? 범용의 분산 클러스터 컴퓨팅 프레임워크 메모리 기반의 대용량 데이터 고속 처리 엔진 하둡과 밀접하게 통합되어 YARN을 기반으로 실행 할 수 있으며 HDFS 기반의 저장소 지원 데이터가 메모리에 저장되어 있을 때 하둡보다 약 100배 빠르며 디스크에 저장되어 있을 때 약 10배 빠른 속도 자바, 파이썬, 스칼라, R 등을 기반으로 동작 단일 시스템 내에서 데이터 batch/Stream처리, SQL 및 Machine Leraning, Graph processing 지원 Spark는 메모리를 기반으로 데이터를 처리하는데 그와 반대로 Hadoop는 디스크에 기반하여 데이터를 처리한다고 했다. Hadoop에서는 데이터를 어떻게 처리하는지, 디스크 기반의 데이터 처리는 어떤 단점이 있는지 간단하게 ..