1. 빅데이터
- 정의
- 기존 DB 관리도구의 수집, 저장, 관리, 분석 역량을 넘어서는 데이터
- 다양한 종류의 대규모 데이터로부터 가치를 추출하고, 데이터의 빠른 수집, 발굴, 분석을 지원하도록 고안된 기술 및 아키텍쳐
- 출현 배경
- 데이터 양의 증가와 데이터 저장기술 발달
- sns등장, 스마트 기기 보급으로 발생하는 데이터의 양이 증가
- 디지털 저장 기술과 장치의 발달
- 경제적 타당성 증가 / 저장장치의 가격 인하
- 메모리 가격이 떨어짐
- 대용량의 데이터를 저장하여도 경제성이 있음
- 데이터 처리 기술의 발달
- 분산 병렬처리 기술의 발달로 합리적인 시간 안에 데이터 분석이 가능
- CPU 발전, 클라우드 컴퓨팅, 하둡 등 오픈소스 활성화로 스케일 아웃이 편리해짐
- 데이터 양의 증가와 데이터 저장기술 발달
- 특징
- 5V
- Volume-크기
- 저장장치 가격의 하락, 네트워크 속도의 향상으로 수 페타바이트의 데이터가 매일 생성
- Variety-다양성
- 정형, 반정형, 비정형 형태의 다양한 데이터를 분석
- Velocity-속도
- 정보의 유통 속도가 굉장히 빠름
- 데이터의 처리 속도가 빠름
- 일, 주, 월 단위 배치 처리와 초 단위 실시간 데이터 처
- Value-가치
- 유의미한 가치를 가지는 지표
- 지표를 사용하는 사람의 의사 결정에 도움을 줄 수 있는 정보를 제공
- Veracity-정확성
- 빅데이터를 이용하여 뽑아낸 데이터의 신뢰성, 정확성이 높음
- 데이터가 많아질수록 더 정확한 분석이 가능
- Volume-크기
- 5V
- 빅데이터 활용
- 기업
- 빅데이터를 활용해 소비자의 행동을 분석하고 시장 변동을 예측하여 비즈니스 모델을 혁신하거나 신사업 발굴
- 정부
- 기상, 인구이동, 각종 통계 정보를 수집하여 사회 변화를 추정하거나, 환경 탐색, 주변국의 상황을 분석하여 장기적인 관점의 대응책을 분석
- 개인
- 개인의 목적에 따라 활용
- 기업
2. 데이터의 형태
- 수집 형태
- 정형
- 데이터베이스, CSV, 엑셀과 같이 칼럼 단위의 명확한 구분자와 형태가 존재하는 데이터
- 반정형
- XML, HTML, JSON 형태와 같이 여러 가지 형태가 있을 수 있지만, 메타데이터나 스키마가 존재하는 데이터
- 비정형
- 동영상, SNS 메세지, 사진, 오디오, 음성 데이터처럼 형태가 존재하지 않는 데이터
- 빅데이터는 정형 데이터보다는 비정형, 반정형의 데이터가 더 많이 수집
- 수집된 데이터를 다양한 도구를 이용하여 정형 형태로 변형하고 분석에 이용
- 정형
- 수집 시간
- 배치
- 시, 일, 주, 월 단위로 일정한 주기로 수집, 처리되는 데이터
- 실시간
- 실시간 검색어, 실시간 차트처럼 사용자의 입력과 동시에 처리되는 데이터
- 배치
3. 분석 형태
- 대화형 분석
- 사용자가 입력한 쿼리에 바로 반응하여 결과를 반환하는 분석 방법
- 대화형 대쉬보드
- 배치 분석
- 저장된 데이터를 일정한 주기로 분석하는 방법
- 일/주/월간 보고서
- 실시간 분석
- 사용자의 여러 입력이 실시간으로 저장하고 분석하는 방법
- 결제/사기 경고 1분 측정
- 기계 학습
- 기계 학습 알고리즘을 이용해 예측 모델을 생성하는 방법
- 심리 분석, 예측 모델
'분산처리 > 빅데이터-하둡, 하이브로 시작하기' 카테고리의 다른 글
2-2) HDFS (0) | 2023.07.16 |
---|---|
2-1) 하둡이란? (0) | 2023.07.16 |
1-3) 빅데이터 에코시스템 (0) | 2023.07.16 |
1-2) 빅데이터 처리 단계 (0) | 2023.07.13 |
Hadoop (0) | 2023.07.11 |