1-3) 빅데이터 에코시스템

분산처리/빅데이터-하둡, 하이브로 시작하기

1-3) 빅데이터 에코시스템

busy맨 2023. 7. 16. 00:01

빅데이터는 수집, 정제, 적재, 분석, 시각화의 여러 단계를 거침
이 단계를 거치는 동안 여러가지 기술을 이용하여 처리되고, 이 기술들을 통틀어 빅데이터 에코 시스템(Bigdata Eco System)이라고 함

1. 수집 기술

빅데이터 분석을 위한 원천 데이터를 수집하는 기술
원천 데이터는 실시간 데이터 수집 기술, 배치 데이터 수집기술이 있음
원천 데이터의 종류에도 로그 데이터, DB 데이터, API 호출 데이터 등 여러가지 종류가 있음
ex) Flume, Kafka, NiFi 등

2. 작업 관리 기술

빅데이터를 분석하는 여러가지 단계를 효율적으로 생성, 관리하고 모니터링 할 수 있게 도와주는 기술
ex) Airflow, Azkaban 등

3. 데이터 직렬화

빅데이터 에코 시스템이 다양한 기술과 언어로 구현되기 때문에 각 언어 간에 내부 객체를 공유
이를 효율적으로 처리하기 위해 데이터 직렬화 기술을 사용
ex) Avro, Thrift 등

4. 저장

빅데이터는 대용량의 데이터를 저장하기 때문에 데이터 저장의 안정성과 속도가 중요
ex) HDFS, AWS의 S3, MS Azure의 Data Lake 등

5. 데이터 처리

데이터 처리는 빅데이터를 분석하는 기술
ex) MapReduce, Spark, Hive 등

6. 클러스터 관리

빅데이터는 단일 시스템보다는 클러스터로 처리되기 때문에 자원의 효율적이 사용이 필요
ex) YARN 등

7. 분산 서버 관리

클러스터에서 여러가지 기술이 이용될 때 하나의 서버에서 모든 작업이 진행되면 이 서버가 단일실패지점이 됨
이로 인한 리스크를 줄이기 위해 분산 서버 관리 기술 사용
ex) Zookeeper 등

8. 시각화

ex) Zeppelin, Hue 등

9. 보안

ex) Ranger

10. 데이터 거버넌스

산재된 데이터를 같은 저장소에 관리
비정형 데이터를 규칙에 맞게 표준화하는 전사 차원의 빅데이터 관리 체계
ex) Atlas, Amundsen 등

저작자표시 비영리 변경금지

'분산처리 > 빅데이터-하둡, 하이브로 시작하기' 카테고리의 다른 글

2-2) HDFS (0)	2023.07.16
2-1) 하둡이란? (0)	2023.07.16
1-2) 빅데이터 처리 단계 (0)	2023.07.13
1-1) 빅데이터 (0)	2023.07.13
Hadoop (0)	2023.07.11

현재글1-3) 빅데이터 에코시스템

Be easy

공부노트

QA,

Today :
Yesterday :

티스토리툴바