IT 삽질기

빅데이터 처리 과정 본문

BigData

빅데이터 처리 과정

화이팅빌런 2020. 12. 18. 23:58

빅데이터 처리 과정

빅데이터 처리 과정에 대해서 알아보자

지난번 빅데이터의 정의에 대해서 알아보았다

2020/06/24 - [BigData] - 빅데이터의 정의

 

빅데이터의 정의

빅데이터의 정의 빅데이터가 어떻게 정의되어 있는지 알아보자 빅데이터에 대해 다양한 곳에서 각기 다르게 정의하고 있는데 몇몇 정의를 살펴보자 빅데이터란 기존 DB의 관리도구의 능력을 넘

dydwnsekd.tistory.com

빅데이터를 어떻게 처리하는지 알아보도록 하자

 

빅데이터 아래와 같은 순서를 가진다

  1. 수집
  2. 적재
  3. 처리/탐색
  4. 분석/응용

1. 수집

데이터를 처리하기 위해 먼저 데이터를 수집해야 하는데 조직의 내 외부에 있는 데이터를 수집한다

데이터 크롤링, DB, 파일, API 등 정형/비정형 데이터를 처리해 수집한다.

2. 적재

수집한 원천 데이터를 분산 스토리지에 영구 혹은 임시로 저장해 분석을 할 수 있게 하는 단계이다

일반적으로 사용하는 적재 장소는 HDFS, NoSQL(HBase, MongoDB 등), 인메모리 캐시(Redis, Memcached 등), 메세지 큐(Kafka, RabbitMQ, ActiveMQ 등)에 적재하여 처리하며

영구적 저장 장소는 HDFS, NoSQL

임시 저장장소는 인메모리 캐시와 메세지 큐를 예로 들 수 있다.

데이터가 HDFS에 적재되었다고 가정 하고 이후 단계를 설명한다

3. 처리/탐색

이제 적재된 데이터를 이용해 어떻게 활용할 것인지에 대해 분석하는 단계로 처리/탐색 단계이다.

수집된 데이터 중 어떤 데이터를 어떻게 활용할 것인지 가치 있는 데이터로 만들기 위한 단계로 데이터에 대한 이해가 요구되는 단계이다

Hive를 이용해 SQL 쿼리 형식으로 탐색할 수 있다

추가적으로 주기적인 처리 작업이 필요한 경우 workflow를 이용해 프로세스를 자동화하여 처리하게 되는데,

oozie-Hue, Airflow등을 이용해 workflow를 만들어 처리할 수 있다

4. 분석/응용

처리/탐색한 데이터를 통계, 데이터 마이닝 등 다양한 분석을 통해 실질적으로 활용하게 되는 부분으로 막대한 양의 데이터를 처리하기 위해 분산환경에서 데이터를 처리한다. 군집, 분류, 회귀, 추천 등의 다양한 방식으로 활용되며 Tensorflow, R, Spark등 다양한 방식으로 데이터를 분석하여 데이터를 많이 사용하는 RDB쪽으로 이동하기 위해 sqoop등을 이용해 데이터를 이관하게 된다

 

참고자료

실무로 배우는 빅데이터 기술

http://www.yes24.com/Product/Goods/35434922

'BigData' 카테고리의 다른 글

sqoop이란 ?  (0) 2021.05.18
Kudu란?  (0) 2021.05.08
빅데이터의 정의  (0) 2020.06.24
Nifi에서 Hive3 연결하기  (0) 2020.03.31
Ambari lost-heartbeat(failed due to EOF occurred in violation of protocol (_ssl.c:579))  (0) 2019.04.27
Comments