분류 전체보기 125

15장) 선형 회귀 적용하기

1. 데이터 확인하기 import pandas as pd df=pd.read_csv('C:/Users/kang mingu/dataset/housing.csv',delim_whitespace=True, header=None) print(df.info()) 총 샘플의 수: 506개 13개의 속성과 1개의 클래스 속성 0: CRIM(인구 1인당 범죄 발생 수) 1: ZN(25,000평방 피트 이상의 주거 구역 비중) 2:INDUS(소매업 외 상업이 차지하는 면적 비율) 3: CHAS(찰스강 위치 변수(1-강 주변,0-이외)) 4: NOX(일산화질소 농도) 5: RM(집의 평균 방 수) 6: AGE(1940년 이전에 지어진 비율) 7: DIS(5가지 보스턴 시 고용 시설까지의 거리) 8: RAD(순환고속도로의 ..

1-2) 빅데이터 처리 단계

1.빅데이터 처리 단계 수집 데이터를 수집하는 단계 정형, 비정형, 반정형 데이터 수집 정제 수집한 데이터를 적재하기 위해 필요 없는 데이터, 깨진 데이터를 정리하는 단계 반정형, 비정형 데이터는 분석에 필요한 데이터 외에 필요 없는 부분을 제거하는 단계가 필요 적재 정제된 데이터를 분석하기 위해 적재하는 단계 RDB, NoSQL 데이터베이스, Redshift, Druid 등의 도구에 적재 분석 적재한 데이터를 의미 있는 지표로 분석하는 단계 의사결정권자나 이용자가 사용할 수 있는 데이터로 분석하는 단계 시각화 분석한 데이터를 도표로 보여주는 단계 데이터를 이해하기 쉬운 차트로 분석하는 단계 1) 수집 내부 / 외부 데이터 내부 데이터 시스템 로그, DB 데이터 외부 데이터 동영상, 오디오 정보 웹 크롤..

1-1) 빅데이터

1. 빅데이터 정의 기존 DB 관리도구의 수집, 저장, 관리, 분석 역량을 넘어서는 데이터 다양한 종류의 대규모 데이터로부터 가치를 추출하고, 데이터의 빠른 수집, 발굴, 분석을 지원하도록 고안된 기술 및 아키텍쳐 출현 배경 데이터 양의 증가와 데이터 저장기술 발달 sns등장, 스마트 기기 보급으로 발생하는 데이터의 양이 증가 디지털 저장 기술과 장치의 발달 경제적 타당성 증가 / 저장장치의 가격 인하 메모리 가격이 떨어짐 대용량의 데이터를 저장하여도 경제성이 있음 데이터 처리 기술의 발달 분산 병렬처리 기술의 발달로 합리적인 시간 안에 데이터 분석이 가능 CPU 발전, 클라우드 컴퓨팅, 하둡 등 오픈소스 활성화로 스케일 아웃이 편리해짐 특징 5V Volume-크기 저장장치 가격의 하락, 네트워크 속도의..

14장) 베스트 모델 만들기

1. 데이터의 확인과 실행 import pandas as pd # 데이터 입력 df_pre = pd.read_csv('C:/Users/kang mingu/dataset/wine.csv', header=None) df = df_pre.sample(frac=1) print(df.head(5)) sample() 원본 데이터에서 정해진 비율만큼 랜덤으로 뽑아오는 함수 frac=1 이라고 지정하면 원본 데이터의 100%를 불러오라는 의미 print(df.info()) 총 6479개의 샘플, 13개의 속성이 있는 것을 확인 속성 0: 주석산 농도 1: 아세트산 농도 2: 구연산 농도 3: 잔류 당분 농도 4: 염화나트륨 농도 5: 유리 아황산 농도 6: 총 아황산 농도 7: 밀도 8: pH 9: 황산칼륨 농도 10..

13-2장) 모델 저장과 재사용

1. 모델 저장과 재사용 학습이 끝난 후 테스트해 본 결과가 만족스러울 때 이를 모델로 저장하여 새로운 데이터에 사용 가능 1) 학습 결과 모델로 저장하기 from keras.models import load_model model.save('my_model.h5') 2) 저장한 모델 불러오기 model=load_model('my_model.h5') Code) from keras.models import Sequential, load_model from keras.layers.core import Dense from sklearn.preprocessing import LabelEncoder import pandas as pd import numpy import tensorflow as tf # seed 값..

13-1장) 과적합 피하기

1. 데이터의 확인과 실행 import pandas as pd # 데이터 입력 df = pd.read_csv('C:/users/kang mingu/dataset/sonar.csv', header=None) # 데이터 개괄 보기 print(df.info()) 총 샘플의 수는 208개 컬럼 수가 61개 60개의 속성 1개의 클래스 from keras.models import Sequential from keras.layers.core import Dense from sklearn.preprocessing import LabelEncoder import pandas as pd import numpy import tensorflow as tf # seed 값 설정 numpy.random.seed(3) tf.ra..

12장) 다중 분류 문제 해결하기

1. 다중 분류 문제 다중 분류 여러 개의 답 중 하나를 고르는 분류 이항 분류와는 접근이 다름 Q. 꽃잎의 모양과 길이에 따라 다른 아이리스의 품종을 구별 샘플 수: 150 속성 수: 4 정보 1: 꽃받침 길이(sepal length, 단위: cm) 정보 2: 꽃받침 너비(sepal width, 단위: cm) 정보 3: 꽃잎 길이(petal length, 단위: cm) 정보 4: 꽃잎 너비(petal width, 단위: cm) 클래스: Iris-setosa, Iris-versicolor, Iris-virginica 2. 상관도 그래프 import pandas as pd import seaborn as sns import matplotlib.pyplot as plt # 실행할 때마다 같은 결과를 출력하기..

Hadoop

1. Hadoop(하둡) 고가용성 분산형 객체 지향적 플랫폼(High Availability Distributed Object Oriented Platform) 객체 지향적 작업을 병렬 분산하여 고가용성을 확보 Apache Hadoop은 오픈소스, Java 기반 소프트웨어 플랫폼으로 빅데이터 애플리케이션용 데이터 처리와 스토리지를 관리 하둡 플랫폼은 컴퓨터 클러스터 내 여러 노드에 걸쳐 하둡 빅데이터와 분석 작업을 분배하며, 그 과정에서 작업을 병렬식으로 실행 가능한 작은 크기의 워크로드로 분해 구조적 및 비구조적 데이터를 처리할 수 있으며 단 한 대의 서버에서 시스템 수천 대 규모로 안정적으로 확장 2. 하둡 데이터베이스 하둡은 오픈소스 프레임워크로써, 실시간으로 엄청난 양의 데이터를 동시에 처리하는 ..

11장) 데이터 다루기

1. 피마 인디언 데이터 분석하기 샘플 수: 768 속성: 8 정보 1(pregnant): 과거 임신 횟수 정보 2(plasma): 포도당 부하 검사 2시간 후 공복 혈당 농도(mm Hg) 정보 3(pressure): 확장기 혈압(mm Hg) 정보 4(thickness): 삼두근 피부 주름 두께(mm) 정보 5(insulin): 혈청 인슐린(2-hour, mu U/ml) 정보 6(BMI): 체질량 지수(BMI, weight in kg/(height in m)2) 정보 7(pedigree): 당뇨병 가족력 정보 8(age): 나이 클래스: 2 0: 당뇨 아님 1: 당뇨 2. pandas를 활용한 데이터 조사 데이터를 다룰 때에는 라이브러리를 사용하는 것이 좋음 import pandas as pd # 피마 ..

10장) 모델 설계하기

1. 모델의 정의 ex) 폐암 수술 환자의 생존율 예측하기 Code) # 딥러닝을 구동하는 데 필요한 케라스 함수를 불러옵니다. from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense # 필요한 라이브러리를 불러옵니다. import numpy as np import tensorflow as tf # 실행할 때마다 같은 결과를 출력하기 위해 설정하는 부분입니다. np.random.seed(3) tf.random.set_seed(3) # 준비된 수술 환자 데이터를 불러들입니다. Data_set = np.loadtxt("../dataset/ThoraricSurgery.csv", delimiter=",") #..