분산처리/빅데이터-하둡, 하이브로 시작하기 13

1-2) 빅데이터 처리 단계

1.빅데이터 처리 단계 수집 데이터를 수집하는 단계 정형, 비정형, 반정형 데이터 수집 정제 수집한 데이터를 적재하기 위해 필요 없는 데이터, 깨진 데이터를 정리하는 단계 반정형, 비정형 데이터는 분석에 필요한 데이터 외에 필요 없는 부분을 제거하는 단계가 필요 적재 정제된 데이터를 분석하기 위해 적재하는 단계 RDB, NoSQL 데이터베이스, Redshift, Druid 등의 도구에 적재 분석 적재한 데이터를 의미 있는 지표로 분석하는 단계 의사결정권자나 이용자가 사용할 수 있는 데이터로 분석하는 단계 시각화 분석한 데이터를 도표로 보여주는 단계 데이터를 이해하기 쉬운 차트로 분석하는 단계 1) 수집 내부 / 외부 데이터 내부 데이터 시스템 로그, DB 데이터 외부 데이터 동영상, 오디오 정보 웹 크롤..

1-1) 빅데이터

1. 빅데이터 정의 기존 DB 관리도구의 수집, 저장, 관리, 분석 역량을 넘어서는 데이터 다양한 종류의 대규모 데이터로부터 가치를 추출하고, 데이터의 빠른 수집, 발굴, 분석을 지원하도록 고안된 기술 및 아키텍쳐 출현 배경 데이터 양의 증가와 데이터 저장기술 발달 sns등장, 스마트 기기 보급으로 발생하는 데이터의 양이 증가 디지털 저장 기술과 장치의 발달 경제적 타당성 증가 / 저장장치의 가격 인하 메모리 가격이 떨어짐 대용량의 데이터를 저장하여도 경제성이 있음 데이터 처리 기술의 발달 분산 병렬처리 기술의 발달로 합리적인 시간 안에 데이터 분석이 가능 CPU 발전, 클라우드 컴퓨팅, 하둡 등 오픈소스 활성화로 스케일 아웃이 편리해짐 특징 5V Volume-크기 저장장치 가격의 하락, 네트워크 속도의..

Hadoop

1. Hadoop(하둡) 고가용성 분산형 객체 지향적 플랫폼(High Availability Distributed Object Oriented Platform) 객체 지향적 작업을 병렬 분산하여 고가용성을 확보 Apache Hadoop은 오픈소스, Java 기반 소프트웨어 플랫폼으로 빅데이터 애플리케이션용 데이터 처리와 스토리지를 관리 하둡 플랫폼은 컴퓨터 클러스터 내 여러 노드에 걸쳐 하둡 빅데이터와 분석 작업을 분배하며, 그 과정에서 작업을 병렬식으로 실행 가능한 작은 크기의 워크로드로 분해 구조적 및 비구조적 데이터를 처리할 수 있으며 단 한 대의 서버에서 시스템 수천 대 규모로 안정적으로 확장 2. 하둡 데이터베이스 하둡은 오픈소스 프레임워크로써, 실시간으로 엄청난 양의 데이터를 동시에 처리하는 ..