일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- HDP
- docker
- SlackWebhookOperator
- LDAP
- 정규표현식
- slack
- Example DAG
- yarn
- airflow
- Lambda architecture
- ambari
- Kafka
- Service
- java
- MapReduce
- hadoop
- Windows
- HIVE
- HDFS
- re
- execution_date
- 람다 아키텍처
- slack app
- HBase
- 빅데이터
- python
- Namenode
- jupyter
- NoSQL
- Scala
- Today
- Total
IT 삽질기
빅데이터 처리 과정 본문
빅데이터 처리 과정
빅데이터 처리 과정에 대해서 알아보자
지난번 빅데이터의 정의에 대해서 알아보았다
2020/06/24 - [BigData] - 빅데이터의 정의
빅데이터를 어떻게 처리하는지 알아보도록 하자
빅데이터 아래와 같은 순서를 가진다
- 수집
- 적재
- 처리/탐색
- 분석/응용
1. 수집
데이터를 처리하기 위해 먼저 데이터를 수집해야 하는데 조직의 내 외부에 있는 데이터를 수집한다
데이터 크롤링, DB, 파일, API 등 정형/비정형 데이터를 처리해 수집한다.
2. 적재
수집한 원천 데이터를 분산 스토리지에 영구 혹은 임시로 저장해 분석을 할 수 있게 하는 단계이다
일반적으로 사용하는 적재 장소는 HDFS, NoSQL(HBase, MongoDB 등), 인메모리 캐시(Redis, Memcached 등), 메세지 큐(Kafka, RabbitMQ, ActiveMQ 등)에 적재하여 처리하며
영구적 저장 장소는 HDFS, NoSQL
임시 저장장소는 인메모리 캐시와 메세지 큐를 예로 들 수 있다.
데이터가 HDFS에 적재되었다고 가정 하고 이후 단계를 설명한다
3. 처리/탐색
이제 적재된 데이터를 이용해 어떻게 활용할 것인지에 대해 분석하는 단계로 처리/탐색 단계이다.
수집된 데이터 중 어떤 데이터를 어떻게 활용할 것인지 가치 있는 데이터로 만들기 위한 단계로 데이터에 대한 이해가 요구되는 단계이다
Hive를 이용해 SQL 쿼리 형식으로 탐색할 수 있다
추가적으로 주기적인 처리 작업이 필요한 경우 workflow를 이용해 프로세스를 자동화하여 처리하게 되는데,
oozie-Hue, Airflow등을 이용해 workflow를 만들어 처리할 수 있다
4. 분석/응용
처리/탐색한 데이터를 통계, 데이터 마이닝 등 다양한 분석을 통해 실질적으로 활용하게 되는 부분으로 막대한 양의 데이터를 처리하기 위해 분산환경에서 데이터를 처리한다. 군집, 분류, 회귀, 추천 등의 다양한 방식으로 활용되며 Tensorflow, R, Spark등 다양한 방식으로 데이터를 분석하여 데이터를 많이 사용하는 RDB쪽으로 이동하기 위해 sqoop등을 이용해 데이터를 이관하게 된다
참고자료
실무로 배우는 빅데이터 기술
'BigData' 카테고리의 다른 글
sqoop이란 ? (0) | 2021.05.18 |
---|---|
Kudu란? (0) | 2021.05.08 |
빅데이터의 정의 (0) | 2020.06.24 |
Nifi에서 Hive3 연결하기 (0) | 2020.03.31 |
Ambari lost-heartbeat(failed due to EOF occurred in violation of protocol (_ssl.c:579)) (0) | 2019.04.27 |