분산처리/빅데이터-하둡, 하이브로 시작하기

2-1) 하둡이란?

busy맨 2023. 7. 16. 00:23
  • 하나의 성능 좋은 컴퓨터를 이용하여 데이터를 처리하는 대신, 적당한 성능의 범용 컴퓨터 여러 대를 클러스터화하고, 대용량 데이터를 클러스터에서 병렬로 동시에 처리하여 처리 속도를 높이는 것을 목적으로 하는
    분산처리를 위한 오픈소스 프레임워크

1. 하둡의 구성 요소

    • Hadoop Common
      • 하둡의 다른 모듈을 지원하기 위한 공통 컴포넌트 모듈
    • Hadoop HDFS
      • 분산저장을 처리하기 위한 모듈
      • 여러개의 서버를 하나의 서버처럼 묶어서 데이터를 저장
    • Hadoop YARN
      • 병렬처리를 위한 클러스터 자원관리 및 스케줄링 담당
    • Hadoop Mapreduce
      • 분산되어 저장된 데이터를 병렬 처리할 수 있게 해주는 분산 처리 모듈
    • Hadoop Ozone
      • 하둡을 위한 오브젝트 저장소

 

2. 하둡의 장단점

  • 장점
    • 오픈소스로 라이선스에 대한 비용 부담이 적음
    • 시스템을 중단하지 않고, 장비의 추가가 용이(Scale Out)
    • 일부 장비에 장애가 발생하더라도 전체 시스템 사용성에 영향이 적음(Fault tolerance)
    • 저렴한 구축 비용과 비용대비 빠른 데이터 처리
    • 오프라인 배치 프로세싱에 최적화
  • 단점
    • HDFS에 저장된 데이터를 변경 불가
    • 실시간 데이터 분석 같이 신속하게 처리해야 하는 작업에는 부적합
    • 너무 많은 버전과 부실한 서포트
    • 설정의 어려움

 

3.  Hadoop v3

  • 특징
    • 이레이져 코딩 도입
      • 기존의 블록 복제(Replication)를 대체하는 방식으로 HDFS 사용량 감소
    • YARN 타임라인 서비스 v2 도입
      • 기존 타임라인 서비스보다 많은 정보를 확인 가능
    • 스크립트 재작성및 이해하기 쉬운 형태로 수정
      • 오래된 스크립트를 재작성하여 버그 수정
    • 기본 포트 변경
      • NameNode
        • 50470 → 9871
        • 50070 → 9870
        • 8020 → 9820
      • Secondary NameNode
        • 50091 → 9869
        • 50090 → 9868
      • DataNode ports:
        • 50020 → 9867
        • 50010 → 9866
        • 50475 → 9865
        • 50075 → 9864
    • JAVA8 지원
    • 네이티브 코드 최적화
    • 고가용성을 위해 2개 이상의 네임노드 지원
      • 하나만 추가할 수 있었던 스탠바이 노드를 여러개 지원가능 스탠바이 노드
    • Ozone 추가
      • 오브젝트 저장소 추가

2023.07.11 - [분산처리] - Hadoop

 

Hadoop

1. Hadoop(하둡) 고가용성 분산형 객체 지향적 플랫폼(High Availability Distributed Object Oriented Platform) 객체 지향적 작업을 병렬 분산하여 고가용성을 확보 Apache Hadoop은 오픈소스, Java 기반 소프트웨어 플

kmg0157.tistory.com

 

'분산처리 > 빅데이터-하둡, 하이브로 시작하기' 카테고리의 다른 글

2-3) 블록과 세컨더리 네임노드  (0) 2023.07.16
2-2) HDFS  (0) 2023.07.16
1-3) 빅데이터 에코시스템  (0) 2023.07.16
1-2) 빅데이터 처리 단계  (0) 2023.07.13
1-1) 빅데이터  (0) 2023.07.13