일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Kafka
- Windows
- 람다 아키텍처
- HIVE
- Service
- HDP
- ambari
- Namenode
- LDAP
- 정규표현식
- MapReduce
- Lambda architecture
- slack
- slack app
- Example DAG
- java
- HDFS
- execution_date
- Scala
- HBase
- hadoop
- yarn
- python
- 빅데이터
- airflow
- SlackWebhookOperator
- re
- jupyter
- NoSQL
- docker
- Today
- Total
목록MapReduce (2)
IT 삽질기
이번 글에서는 Hadoop MapReduce 과정에서 이야기하는 Combiner 함수에 대해 알아보도록 하자. Combiner 함수 Hadoop을 사용하면 데이터를 분산처리하고 많은 양의 자원을 사용할 수 있지만 무한한 자원을 사용하는 것은 아니다. Map, Reduce 작업 진행시 자원을 최소화하여 사용할 필요가 있는데 Combiner는 Map-Reduce간 데이터 전송을 최소화할 수 있게 해준다. Combiner 함수는 Reduce 함수의 출력이 Reduce 함수의 입력이 되는 것을 허용하는 것을 뜻한다. 예를 들어 최대값, 최솟값, count와 같은 결과를 얻기 위해 Map task에서 취합한 결과를 reduce에서만 진행하는 것이 아니라 각각의 Map task에서 최댓값, 최솟값, count와 같..
Hadoop에서 MapReduce의 동작방식에 대해서 알아보도록 하자. 먼저 MapReduce에 대해 간단히 알아보도록 하자 MapReduce - 대용량의 데이터 처리를 위한 분산 프로그래밍 모델 - 분산 컴퓨팅 환경에서 데이터를 병렬로 분석할 수 있음 - Map / Reduce라는 2개의 taks로 구성 - Map는 분산된 데이터를 연관성 있는 데이터들로 분류하거나 연산을 하는 작업으로 (Key, Value) 쌍을 가짐 - Reduce는 Map에서 나온 결과 데이터에서 중복 데이터를 제거하고 원하는 데이터를 추출하는 작업 Map의 output가 Reduce의 input이 된다. Hadoop 분산 시스템에서 이런 MapReduce작업이 어떻게 이루어지는 알아보도록 하자. 먼저 Map의 input값에 대해..