분산처리/빅데이터-하둡, 하이브로 시작하기

1-1) 빅데이터

busy맨 2023. 7. 13. 23:45

1. 빅데이터

  • 정의
    • 기존 DB 관리도구의 수집, 저장, 관리, 분석 역량을 넘어서는 데이터
    • 다양한 종류의 대규모 데이터로부터 가치를 추출하고, 데이터의 빠른 수집, 발굴, 분석을 지원하도록 고안된 기술 및 아키텍쳐
  • 출현 배경
    • 데이터 양의 증가와 데이터 저장기술 발달
      • sns등장, 스마트 기기 보급으로 발생하는 데이터의 양이 증가
      • 디지털 저장 기술과 장치의 발달
    • 경제적 타당성 증가 / 저장장치의 가격 인하
      • 메모리 가격이 떨어짐
      • 대용량의 데이터를 저장하여도 경제성이 있음
    • 데이터 처리 기술의 발달
      • 분산 병렬처리 기술의 발달로 합리적인 시간 안에 데이터 분석이 가능
      • CPU 발전, 클라우드 컴퓨팅, 하둡 등 오픈소스 활성화로 스케일 아웃이 편리해짐
  • 특징
    • 5V
      • Volume-크기
        • 저장장치 가격의 하락, 네트워크 속도의 향상으로 수 페타바이트의 데이터가 매일 생성
      • Variety-다양성
        • 정형, 반정형, 비정형 형태의 다양한 데이터를 분석
      • Velocity-속도
        • 정보의 유통 속도가 굉장히 빠름
        • 데이터의 처리 속도가 빠름
        • 일, 주, 월 단위 배치 처리와 초 단위 실시간 데이터 처
      •  Value-가치
        • 유의미한 가치를 가지는 지표
        • 지표를 사용하는 사람의 의사 결정에 도움을 줄 수 있는 정보를 제공
      • Veracity-정확성
        • 빅데이터를 이용하여 뽑아낸 데이터의 신뢰성, 정확성이 높음
        • 데이터가 많아질수록 더 정확한 분석이 가능

빅데이터의 특징

  • 빅데이터 활용
    • 기업
      • 빅데이터를 활용해 소비자의 행동을 분석하고 시장 변동을 예측하여 비즈니스 모델을 혁신하거나 신사업 발굴
    • 정부
      • 기상, 인구이동, 각종 통계 정보를 수집하여 사회 변화를 추정하거나, 환경 탐색, 주변국의 상황을 분석하여 장기적인 관점의 대응책을 분석
    • 개인
      • 개인의 목적에 따라 활용

 

2. 데이터의 형태

  • 수집 형태
    • 정형
      • 데이터베이스, CSV, 엑셀과 같이 칼럼 단위의 명확한 구분자와 형태가 존재하는 데이터
    • 반정형
      • XML, HTML, JSON 형태와 같이 여러 가지 형태가 있을 수 있지만, 메타데이터나 스키마가 존재하는 데이터
    • 비정형
      • 동영상, SNS 메세지, 사진, 오디오, 음성 데이터처럼 형태가 존재하지 않는 데이터
    • 빅데이터는 정형 데이터보다는 비정형, 반정형의 데이터가 더 많이 수집
    • 수집된 데이터를 다양한 도구를 이용하여 정형 형태로 변형하고 분석에 이용
  • 수집 시간
    • 배치
      • 시, 일, 주, 월 단위로 일정한 주기로 수집, 처리되는 데이터
    • 실시간
      • 실시간 검색어, 실시간 차트처럼 사용자의 입력과 동시에 처리되는 데이터

 

3. 분석 형태

  • 대화형 분석
    • 사용자가 입력한 쿼리에 바로 반응하여 결과를 반환하는 분석 방법
    • 대화형 대쉬보드
  • 배치 분석
    • 저장된 데이터를 일정한 주기로 분석하는 방법
    • 일/주/월간 보고서
  • 실시간 분석
    • 사용자의 여러 입력이 실시간으로 저장하고 분석하는 방법
    • 결제/사기 경고 1분 측정
  • 기계 학습
    • 기계 학습 알고리즘을 이용해 예측 모델을 생성하는 방법
    • 심리 분석, 예측 모델

 

 

'분산처리 > 빅데이터-하둡, 하이브로 시작하기' 카테고리의 다른 글

2-2) HDFS  (0) 2023.07.16
2-1) 하둡이란?  (0) 2023.07.16
1-3) 빅데이터 에코시스템  (0) 2023.07.16
1-2) 빅데이터 처리 단계  (0) 2023.07.13
Hadoop  (0) 2023.07.11