분산처리/빅데이터-하둡, 하이브로 시작하기

1-3) 빅데이터 에코시스템

busy맨 2023. 7. 16. 00:01
  • 빅데이터는 수집, 정제, 적재, 분석, 시각화의 여러 단계를 거침
  • 이 단계를 거치는 동안 여러가지 기술을 이용하여 처리되고, 이 기술들을 통틀어 빅데이터 에코 시스템(Bigdata Eco System)이라고 함

 

1. 수집 기술

  • 빅데이터 분석을 위한 원천 데이터를 수집하는 기술
  • 원천 데이터는 실시간 데이터 수집 기술, 배치 데이터 수집기술이 있음
  • 원천 데이터의 종류에도 로그 데이터, DB 데이터, API 호출 데이터 등 여러가지 종류가 있음
  • ex) Flume, Kafka, NiFi 등

2. 작업 관리 기술

  • 빅데이터를 분석하는 여러가지 단계를 효율적으로 생성, 관리하고 모니터링 할 수 있게 도와주는 기술
  • ex) Airflow, Azkaban 등

3. 데이터 직렬화

  • 빅데이터 에코 시스템이 다양한 기술과 언어로 구현되기 때문에 각 언어 간에 내부 객체를 공유
  • 이를 효율적으로 처리하기 위해 데이터 직렬화 기술을 사용
  • ex) Avro, Thrift 등

4. 저장

  • 빅데이터는 대용량의 데이터를 저장하기 때문에 데이터 저장의 안정성과 속도가 중요
  • ex) HDFS, AWS의 S3, MS Azure의 Data Lake 등

5. 데이터 처리

  • 데이터 처리는 빅데이터를 분석하는 기술
  • ex) MapReduce, Spark, Hive 등

6. 클러스터 관리

  • 빅데이터는 단일 시스템보다는 클러스터로 처리되기 때문에 자원의 효율적이 사용이 필요
  • ex) YARN 등

7. 분산 서버 관리

  • 클러스터에서 여러가지 기술이 이용될 때 하나의 서버에서 모든 작업이 진행되면 이 서버가 단일실패지점이 됨
  • 이로 인한 리스크를 줄이기 위해 분산 서버 관리 기술 사용
  • ex) Zookeeper 등

8. 시각화

  • ex) Zeppelin, Hue 등

9. 보안

  • ex) Ranger

10. 데이터 거버넌스

  • 산재된 데이터를 같은 저장소에 관리
  • 비정형 데이터를 규칙에 맞게 표준화하는 전사 차원의 빅데이터 관리 체계
  • ex) Atlas, Amundsen 등

'분산처리 > 빅데이터-하둡, 하이브로 시작하기' 카테고리의 다른 글

2-2) HDFS  (0) 2023.07.16
2-1) 하둡이란?  (0) 2023.07.16
1-2) 빅데이터 처리 단계  (0) 2023.07.13
1-1) 빅데이터  (0) 2023.07.13
Hadoop  (0) 2023.07.11