1.빅데이터 처리 단계
- 수집
- 데이터를 수집하는 단계
- 정형, 비정형, 반정형 데이터 수집
- 정제
- 수집한 데이터를 적재하기 위해 필요 없는 데이터, 깨진 데이터를 정리하는 단계
- 반정형, 비정형 데이터는 분석에 필요한 데이터 외에 필요 없는 부분을 제거하는 단계가 필요
- 적재
- 정제된 데이터를 분석하기 위해 적재하는 단계
- RDB, NoSQL 데이터베이스, Redshift, Druid 등의 도구에 적재
- 분석
- 적재한 데이터를 의미 있는 지표로 분석하는 단계
- 의사결정권자나 이용자가 사용할 수 있는 데이터로 분석하는 단계
- 시각화
- 분석한 데이터를 도표로 보여주는 단계
- 데이터를 이해하기 쉬운 차트로 분석하는 단계
1) 수집
- 내부 / 외부 데이터
- 내부 데이터
- 시스템 로그, DB 데이터
- 외부 데이터
- 동영상, 오디오 정보
- 웹 크롤링 데이터
- SNS 데이터
- 내부 데이터
- 수집 방식
- 기존 데이터 수집
- HTTP 웹서비스, RDB, FTP, JMS, Text
- 새로운 방식의 데이터 수집
- SNS의 여러가지 데이터
- Text, 이미지, 동영상
- 전화 음성, GPS
- IoT 디바이스 센서
- 공간 데이터 + 인구 데이터
- SNS의 여러가지 데이터
- 기존 데이터 수집
- 데이터 수집 트랜잭션
- 데이터가 적다면 개별적으로 관리가 가능, 데이터가 많다면 트랜잭션 관리가 어려울 수 있음
- 데이터의 유실, 데이터의 전송 여부 확인을 위한 트랜잭션 처리가 중요
- 데이터 수집 기술
- Flume
- 플룸은 많은 양의 로그 데이터를 효율적으로 수집, 취합, 이동하기 위한 분산형 소프트웨어
- Kafka
- 오픈 소스 메시지 브로커 프로젝트
- Sqoop
- 관계형 데이터 베이스와 아파치 하둡간의 대용량 데이터들을 효율적으로 변환 하여 주는 명령 줄 인터페이스 애플리케이션
- Nifi
- 소프트웨어 시스템 간 데이터 흐름을 자동화하도록 설계된 소프트웨어 프로젝트
- Flink
- 오픈 소스 스트림 처리 프레임 워크
- Splunk
- 기계가 생성한 빅 데이터를, 웹 스타일 인터페이스를 통해 검색, 모니터링, 분석하는 소프트웨어
- Logstash
- 실시간 파이프라인 기능을 가진 오픈소스 데이터 수집 엔진
- Fluentd
- 크로스 플랫폼 오픈 소스 데이터 수집 소프트웨어 프로젝트
- Flume
2) 정제
- 데이터를 분석 가능한 형태로 정리하는 것
- 분석 단계에 사용할 도구에 맞는 형태로 변환
- 오류 데이터, 불필요한 데이터 제거
- 정제한 데이터를 압축하여 데이터 사이즈 축소
- 정제 단계
- Identification
- 알려진 다양한 데이터 포맷이나 비정형 데이터에 할당된 기본 포맷을 식별
- Filtration
- 수집된 정보에서 정확하지 않은 데이터는 제외
- Validation
- 데이터 유효성을 검증
- Noise Reduction
- 오류 데이터를 제거
- 분석 불가능한 데이터는 제외
- Transformation
- 데이터를 분석 가능한 형태로 변환
- Compression
- 저장장치 효율성을 위해 변환한 데이터를 압축
- Integration
- 처리 완료한 데이터를 적재
- Identification
3) 적재
- 대량의 데이터를 안전하게 보관하고 분석할 수 있는 환경으로 옮기는 것
- 분석 도구에 따라 NoSQL, RDB, 클라우드 스토리지, HDFS 등 다양한 환경으로 데이터 적재
4) 분석
- 적재된 데이터를 이용하여 의사 결정을 위한 데이터를 제공하기 위한 리포트를 생성하는 단계
- 대용량의 데이터를 빠르게 분석하기 위한 처리 엔진이 필요
- 효율적인 분석을 위해 파티셔닝, 인덱싱 등의 기술이 필요
5) 시각화
- 너무 많은 데이터는 정보 과잉으로 사용자가 확인하기에 부담
- 따라서 사용자가 빠르게 인식할 수 있는 형태의 시각화가 필
'분산처리 > 빅데이터-하둡, 하이브로 시작하기' 카테고리의 다른 글
2-2) HDFS (0) | 2023.07.16 |
---|---|
2-1) 하둡이란? (0) | 2023.07.16 |
1-3) 빅데이터 에코시스템 (0) | 2023.07.16 |
1-1) 빅데이터 (0) | 2023.07.13 |
Hadoop (0) | 2023.07.11 |