1-2) 빅데이터 처리 단계

분산처리/빅데이터-하둡, 하이브로 시작하기

1-2) 빅데이터 처리 단계

busy맨 2023. 7. 13. 23:58

1.빅데이터 처리 단계

수집
- 데이터를 수집하는 단계
- 정형, 비정형, 반정형 데이터 수집
정제
- 수집한 데이터를 적재하기 위해 필요 없는 데이터, 깨진 데이터를 정리하는 단계
- 반정형, 비정형 데이터는 분석에 필요한 데이터 외에 필요 없는 부분을 제거하는 단계가 필요
적재
- 정제된 데이터를 분석하기 위해 적재하는 단계
- RDB, NoSQL 데이터베이스, Redshift, Druid 등의 도구에 적재
분석
- 적재한 데이터를 의미 있는 지표로 분석하는 단계
- 의사결정권자나 이용자가 사용할 수 있는 데이터로 분석하는 단계
시각화
- 분석한 데이터를 도표로 보여주는 단계
- 데이터를 이해하기 쉬운 차트로 분석하는 단계

1) 수집

내부 / 외부 데이터
- 내부 데이터
  - 시스템 로그, DB 데이터
- 외부 데이터
  - 동영상, 오디오 정보
  - 웹 크롤링 데이터
  - SNS 데이터
수집 방식
- 기존 데이터 수집
  - HTTP 웹서비스, RDB, FTP, JMS, Text
- 새로운 방식의 데이터 수집
  - SNS의 여러가지 데이터
    - Text, 이미지, 동영상
  - 전화 음성, GPS
  - IoT 디바이스 센서
  - 공간 데이터 + 인구 데이터
데이터 수집 트랜잭션
- 데이터가 적다면 개별적으로 관리가 가능, 데이터가 많다면 트랜잭션 관리가 어려울 수 있음
- 데이터의 유실, 데이터의 전송 여부 확인을 위한 트랜잭션 처리가 중요
데이터 수집 기술
- Flume
  - 플룸은 많은 양의 로그 데이터를 효율적으로 수집, 취합, 이동하기 위한 분산형 소프트웨어
- Kafka
  - 오픈 소스 메시지 브로커 프로젝트
- Sqoop
  - 관계형 데이터 베이스와 아파치 하둡간의 대용량 데이터들을 효율적으로 변환 하여 주는 명령 줄 인터페이스 애플리케이션
- Nifi
  - 소프트웨어 시스템 간 데이터 흐름을 자동화하도록 설계된 소프트웨어 프로젝트
- Flink
  - 오픈 소스 스트림 처리 프레임 워크
- Splunk
  - 기계가 생성한 빅 데이터를, 웹 스타일 인터페이스를 통해 검색, 모니터링, 분석하는 소프트웨어
- Logstash
  - 실시간 파이프라인 기능을 가진 오픈소스 데이터 수집 엔진
- Fluentd
  - 크로스 플랫폼 오픈 소스 데이터 수집 소프트웨어 프로젝트

2) 정제

데이터를 분석 가능한 형태로 정리하는 것
분석 단계에 사용할 도구에 맞는 형태로 변환
오류 데이터, 불필요한 데이터 제거
정제한 데이터를 압축하여 데이터 사이즈 축소

정제 단계
- Identification
  - 알려진 다양한 데이터 포맷이나 비정형 데이터에 할당된 기본 포맷을 식별
- Filtration
  - 수집된 정보에서 정확하지 않은 데이터는 제외
- Validation
  - 데이터 유효성을 검증
- Noise Reduction
  - 오류 데이터를 제거
  - 분석 불가능한 데이터는 제외
- Transformation
  - 데이터를 분석 가능한 형태로 변환
- Compression
  - 저장장치 효율성을 위해 변환한 데이터를 압축
- Integration
  - 처리 완료한 데이터를 적재

3) 적재

대량의 데이터를 안전하게 보관하고 분석할 수 있는 환경으로 옮기는 것
분석 도구에 따라 NoSQL, RDB, 클라우드 스토리지, HDFS 등 다양한 환경으로 데이터 적재

4) 분석

적재된 데이터를 이용하여 의사 결정을 위한 데이터를 제공하기 위한 리포트를 생성하는 단계
대용량의 데이터를 빠르게 분석하기 위한 처리 엔진이 필요
효율적인 분석을 위해 파티셔닝, 인덱싱 등의 기술이 필요

5) 시각화

너무 많은 데이터는 정보 과잉으로 사용자가 확인하기에 부담
따라서 사용자가 빠르게 인식할 수 있는 형태의 시각화가 필

저작자표시 비영리 변경금지

'분산처리 > 빅데이터-하둡, 하이브로 시작하기' 카테고리의 다른 글

2-2) HDFS (0)	2023.07.16
2-1) 하둡이란? (0)	2023.07.16
1-3) 빅데이터 에코시스템 (0)	2023.07.16
1-1) 빅데이터 (0)	2023.07.13
Hadoop (0)	2023.07.11

현재글1-2) 빅데이터 처리 단계

Be easy

공부노트

QA,

Today :
Yesterday :

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

Be easy

1-2) 빅데이터 처리 단계

1.빅데이터 처리 단계

1) 수집

2) 정제

3) 적재

4) 분석

5) 시각화

'분산처리 > 빅데이터-하둡, 하이브로 시작하기' 카테고리의 다른 글

'분산처리/빅데이터-하둡, 하이브로 시작하기'의 다른글

티스토리툴바

1-2) 빅데이터 처리 단계

1.빅데이터 처리 단계

1) 수집

2) 정제

3) 적재

4) 분석

5) 시각화

'분산처리 > 빅데이터-하둡, 하이브로 시작하기' 카테고리의 다른 글

'분산처리/빅데이터-하둡, 하이브로 시작하기'의 다른글

관련글

티스토리툴바