일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- LDAP
- ambari
- 빅데이터
- 람다 아키텍처
- 정규표현식
- airflow
- Windows
- HDP
- Lambda architecture
- docker
- HDFS
- Scala
- python
- SlackWebhookOperator
- slack
- Service
- yarn
- Example DAG
- hadoop
- MapReduce
- HIVE
- Kafka
- NoSQL
- re
- execution_date
- jupyter
- slack app
- HBase
- Namenode
- java
Archives
- Today
- Total
목록BigData/Spark (1)
IT 삽질기
Spark란
Spark란? 범용의 분산 클러스터 컴퓨팅 프레임워크 메모리 기반의 대용량 데이터 고속 처리 엔진 하둡과 밀접하게 통합되어 YARN을 기반으로 실행 할 수 있으며 HDFS 기반의 저장소 지원 데이터가 메모리에 저장되어 있을 때 하둡보다 약 100배 빠르며 디스크에 저장되어 있을 때 약 10배 빠른 속도 자바, 파이썬, 스칼라, R 등을 기반으로 동작 단일 시스템 내에서 데이터 batch/Stream처리, SQL 및 Machine Leraning, Graph processing 지원 Spark는 메모리를 기반으로 데이터를 처리하는데 그와 반대로 Hadoop는 디스크에 기반하여 데이터를 처리한다고 했다. Hadoop에서는 데이터를 어떻게 처리하는지, 디스크 기반의 데이터 처리는 어떤 단점이 있는지 간단하게 ..
BigData/Spark
2019. 5. 26. 23:03