- 빅데이터는 수집, 정제, 적재, 분석, 시각화의 여러 단계를 거침
- 이 단계를 거치는 동안 여러가지 기술을 이용하여 처리되고, 이 기술들을 통틀어 빅데이터 에코 시스템(Bigdata Eco System)이라고 함
1. 수집 기술
- 빅데이터 분석을 위한 원천 데이터를 수집하는 기술
- 원천 데이터는 실시간 데이터 수집 기술, 배치 데이터 수집기술이 있음
- 원천 데이터의 종류에도 로그 데이터, DB 데이터, API 호출 데이터 등 여러가지 종류가 있음
- ex) Flume, Kafka, NiFi 등
2. 작업 관리 기술
- 빅데이터를 분석하는 여러가지 단계를 효율적으로 생성, 관리하고 모니터링 할 수 있게 도와주는 기술
- ex) Airflow, Azkaban 등
3. 데이터 직렬화
- 빅데이터 에코 시스템이 다양한 기술과 언어로 구현되기 때문에 각 언어 간에 내부 객체를 공유
- 이를 효율적으로 처리하기 위해 데이터 직렬화 기술을 사용
- ex) Avro, Thrift 등
4. 저장
- 빅데이터는 대용량의 데이터를 저장하기 때문에 데이터 저장의 안정성과 속도가 중요
- ex) HDFS, AWS의 S3, MS Azure의 Data Lake 등
5. 데이터 처리
- 데이터 처리는 빅데이터를 분석하는 기술
- ex) MapReduce, Spark, Hive 등
6. 클러스터 관리
- 빅데이터는 단일 시스템보다는 클러스터로 처리되기 때문에 자원의 효율적이 사용이 필요
- ex) YARN 등
7. 분산 서버 관리
- 클러스터에서 여러가지 기술이 이용될 때 하나의 서버에서 모든 작업이 진행되면 이 서버가 단일실패지점이 됨
- 이로 인한 리스크를 줄이기 위해 분산 서버 관리 기술 사용
- ex) Zookeeper 등
8. 시각화
- ex) Zeppelin, Hue 등
9. 보안
- ex) Ranger
10. 데이터 거버넌스
- 산재된 데이터를 같은 저장소에 관리
- 비정형 데이터를 규칙에 맞게 표준화하는 전사 차원의 빅데이터 관리 체계
- ex) Atlas, Amundsen 등
'분산처리 > 빅데이터-하둡, 하이브로 시작하기' 카테고리의 다른 글
2-2) HDFS (0) | 2023.07.16 |
---|---|
2-1) 하둡이란? (0) | 2023.07.16 |
1-2) 빅데이터 처리 단계 (0) | 2023.07.13 |
1-1) 빅데이터 (0) | 2023.07.13 |
Hadoop (0) | 2023.07.11 |