분산처리/빅데이터-하둡, 하이브로 시작하기

1-2) 빅데이터 처리 단계

busy맨 2023. 7. 13. 23:58

1.빅데이터 처리 단계

  • 수집
    • 데이터를 수집하는 단계
    • 정형, 비정형, 반정형 데이터 수집
  • 정제
    • 수집한 데이터를 적재하기 위해 필요 없는 데이터, 깨진 데이터를 정리하는 단계
    • 반정형, 비정형 데이터는 분석에 필요한 데이터 외에 필요 없는 부분을 제거하는 단계가 필요
  • 적재
    • 정제된 데이터를 분석하기 위해 적재하는 단계
    • RDB, NoSQL 데이터베이스, Redshift, Druid 등의 도구에 적재
  • 분석
    • 적재한 데이터를 의미 있는 지표로 분석하는 단계
    • 의사결정권자나 이용자가 사용할 수 있는 데이터로 분석하는 단계
  • 시각화
    • 분석한 데이터를 도표로 보여주는 단계
    • 데이터를 이해하기 쉬운 차트로 분석하는 단계

 1) 수집

  • 내부 / 외부 데이터
    • 내부 데이터
      • 시스템 로그, DB 데이터
    • 외부 데이터
      • 동영상, 오디오 정보
      • 웹 크롤링 데이터
      • SNS 데이터
  • 수집 방식
    • 기존 데이터 수집
      • HTTP 웹서비스, RDB, FTP, JMS, Text
    • 새로운 방식의 데이터 수집
      • SNS의 여러가지 데이터
        • Text, 이미지, 동영상
      • 전화 음성, GPS
      • IoT 디바이스 센서
      • 공간 데이터 + 인구 데이터
  • 데이터 수집 트랜잭션
    • 데이터가 적다면 개별적으로 관리가 가능, 데이터가 많다면 트랜잭션 관리가 어려울 수 있음
    • 데이터의 유실, 데이터의 전송 여부 확인을 위한 트랜잭션 처리가 중요
  • 데이터 수집 기술
    • Flume
      • 플룸은 많은 양의 로그 데이터를 효율적으로 수집, 취합, 이동하기 위한 분산형 소프트웨어
    • Kafka
      • 오픈 소스 메시지 브로커 프로젝트
    • Sqoop
      • 관계형 데이터 베이스와 아파치 하둡간의 대용량 데이터들을 효율적으로 변환 하여 주는 명령 줄 인터페이스 애플리케이션
    • Nifi
      • 소프트웨어 시스템 간 데이터 흐름을 자동화하도록 설계된 소프트웨어 프로젝트
    • Flink
      • 오픈 소스 스트림 처리 프레임 워크
    • Splunk
      • 기계가 생성한 빅 데이터를, 웹 스타일 인터페이스를 통해 검색, 모니터링, 분석하는 소프트웨어
    • Logstash
      • 실시간 파이프라인 기능을 가진 오픈소스 데이터 수집 엔진
    • Fluentd
      • 크로스 플랫폼 오픈 소스 데이터 수집 소프트웨어 프로젝트

 

2) 정제

  • 데이터를 분석 가능한 형태로 정리하는 것
  • 분석 단계에 사용할 도구에 맞는 형태로 변환
  • 오류 데이터, 불필요한 데이터 제거
  • 정제한 데이터를 압축하여 데이터 사이즈 축소

 

  • 정제 단계
    • Identification
      • 알려진 다양한 데이터 포맷이나 비정형 데이터에 할당된 기본 포맷을 식별
    • Filtration
      • 수집된 정보에서 정확하지 않은 데이터는 제외
    • Validation
      • 데이터 유효성을 검증
    • Noise Reduction
      • 오류 데이터를 제거
      • 분석 불가능한 데이터는 제외
    • Transformation
      • 데이터를 분석 가능한 형태로 변환
    • Compression
      • 저장장치 효율성을 위해 변환한 데이터를 압축
    • Integration
      • 처리 완료한 데이터를 적재

 

3) 적재

  • 대량의 데이터를 안전하게 보관하고 분석할 수 있는 환경으로 옮기는 것
  • 분석 도구에 따라 NoSQL, RDB, 클라우드 스토리지, HDFS 등 다양한 환경으로 데이터 적재

4) 분석

  • 적재된 데이터를 이용하여 의사 결정을 위한 데이터를 제공하기 위한 리포트를 생성하는 단계
  • 대용량의 데이터를 빠르게 분석하기 위한 처리 엔진이 필요
  • 효율적인 분석을 위해 파티셔닝, 인덱싱 등의 기술이 필요

5) 시각화

  • 너무 많은 데이터는 정보 과잉으로 사용자가 확인하기에 부담
  • 따라서 사용자가 빠르게 인식할 수 있는 형태의 시각화가 필

'분산처리 > 빅데이터-하둡, 하이브로 시작하기' 카테고리의 다른 글

2-2) HDFS  (0) 2023.07.16
2-1) 하둡이란?  (0) 2023.07.16
1-3) 빅데이터 에코시스템  (0) 2023.07.16
1-1) 빅데이터  (0) 2023.07.13
Hadoop  (0) 2023.07.11