일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- yarn
- re
- airflow
- docker
- MapReduce
- slack
- Windows
- LDAP
- HDP
- NoSQL
- SlackWebhookOperator
- python
- Service
- hadoop
- HIVE
- jupyter
- Namenode
- 람다 아키텍처
- java
- slack app
- Scala
- Lambda architecture
- HBase
- HDFS
- execution_date
- ambari
- Kafka
- Example DAG
- 빅데이터
- 정규표현식
- Today
- Total
IT 삽질기
빅데이터의 정의 본문
빅데이터의 정의
빅데이터가 어떻게 정의되어 있는지 알아보자
빅데이터에 대해 다양한 곳에서 각기 다르게 정의하고 있는데 몇몇 정의를 살펴보자
빅데이터란 기존 DB의 관리도구의 능력을 넘어서는 대량의 정형 또는 DB형식이 아닌 비정형의 데이터 집합조차 포함된 데이터롤부터 가치를 추출하고 결과를 분석하는 기술 즉, 기존의 데이터 베이스로는 처리하기 어려울 정도로 방대한 양의 데이터
- 위키백과
https://ko.wikipedia.org/wiki/%EB%B9%85_%EB%8D%B0%EC%9D%B4%ED%84%B0
일반적으로 DB 소프트웨어로 저장/관리/분석할 수 있는 범위를 초과하는 규모의 데이터
- 맥캔지
대용량 데이터를 활용/분석해서 가치 있는 정보를 추출하고, 생성된 지식을 바탕으로 능동적으로 대응하거나 변화를 예측하기 위한 정보화 기술
- 국가정보화전략위원회
단순한 데이터의 크기가 아니라 데이터의 형식과 처리 속도 등을 함께 아우르는 개념으로, 기존 방법으로는 데이터의 수집, 저장, 검색, 분석 등이 어려운 데이터를 총칭해서 일컫는 용어
- IT World, 2012
위와 같이 다양하게 빅데이터에 대해 정의
이러한 상태에서 2011년 가트너에서는 빅데이터를 3V로 정의
데이터의 크기(Volume), 데이터 입출력 속도(Velocity), 데이터 종류의 다양성(Variety)의 3가지 차원으로 정리했고 이를 바탕으로 이후 진실성(Veracity), 시각화(Visualization), 가치(Value)가 더해져 6V까지 확장된 개념으로 사용하기도 한다
- Volumn : 방대한 양의 데이터(테라, 페타바이트 이상의 크기)
- Varity : 정형(DBMS, 전문) + 비정형(SNS, 동영상, 사진, 음성, 텍스트 등)
- Velocity : 실시간으로 생산되며, 빠른 속도로 데이터를 처리/분석
- Veracity : 주요 의사 결정을 위해 데이터의 품질과 신뢰성 확보
- Visualization : 복잡한 대규모 데이터를 시각적으로 표현
- Value : 비즈니스 효익을 실현하기 위해 궁극적인 가치 창출
결론적으로 6V로 정의된 빅데이터를 풀어 설명하면 다음과 같다.
"이 순간에도 발생하는 방대한 크기(Volume)의 다양한(Varity) 데이터들이 빠른 속도(Velocity)로 발생하고 있으며 데이터의 진실성(Veracity)를 확보하고 분석 데이터를 시각화(Visualization)함으로써 새로운 효익을 가져다 줄 가치(Value)를 창출하는 것"
참고자료
실무로 배우는 빅데이터 기술
'BigData' 카테고리의 다른 글
sqoop이란 ? (0) | 2021.05.18 |
---|---|
Kudu란? (0) | 2021.05.08 |
빅데이터 처리 과정 (0) | 2020.12.18 |
Nifi에서 Hive3 연결하기 (0) | 2020.03.31 |
Ambari lost-heartbeat(failed due to EOF occurred in violation of protocol (_ssl.c:579)) (0) | 2019.04.27 |