데이터사이언스개론(6)
-
linear regression(ridge & lasso) coding implementation
to_numpy를 활용하면 행렬 연산이 가능한 형태로 변화 x의 feature는 5개 matmul은 행렬곱 함수(전치x 곱하기 x) 위의 w변수의 각각의 계수와 데이터프레임의 각 첫번째 행을 곱하기.(w곱하기 x_train) predicted_y_train 은 위에 수기로 계산한 것과 동일한 계산 값들임.(w계수와 train_x를 곱한것) 첫번째 값이 23.07245881로 동일한 것을 알 수 있음 잔차는 관측값 - 예측값 -> 그것을 제곱하기 -> 잔차의 평균을 구함 마찬가지로 y_test에 대해 잔차를 구하는 과정 선형회귀 모델을 만들고 fit을 이용해 학습시키기 (X_train, y_train)사용 절편 확인 mes값 구하기 \ & 결정계수 구하는 벙법 quiz! # 1. Student_Perfor..
2023.11.22 -
[machine learning-2]
나만 알아볼 수 있는 글씨체...ㅎㅎㅎ
2023.11.12 -
[machine learning] 1.data training
나만 알아볼 수 있는 글씨체...ㅎㅎㅎ
2023.11.12 -
머신 러닝 - data trainig 2023.10.30
-
Data preprocessing(데이터사이언스개론3-2)
Aggregation 여러 attributte(특성)을 하나로 통합하는 것 목적 : attribute나 object를 감소시키기 위함 Sampling 데이터를 감소하기 위한 메인 기술 통계자료에서 모든 데이터를 얻기는 매우 힘든 일 데이터 마이닝에 주로 사용 샘플링의 주요포인트 샘플이 대표성(representative)을 띈다면 전체 데이터를 사용하는 만큼 효과가 있음 이를 위한 조건은 오리지날 데이터와 대략 비슷한 properties(특성)를 가지는 것임. 샘플링의 타입 심플 랜덤 샘플링 (simple random sampling) 특정한 아이템이 선택되는 것에 동일한 가능성이 존재 계층 샘플링 (stratified sampling) Split the data into several partition ..
2023.09.21 -
머신러닝 기초개념
머신러닝의 분류 1.지도학습(supervised learning) 정답이 있는 데이터를 통해 데이터 분류 / 올바른 결과 예측 지도학습은 회귀(regression) / 분류(classfication)로 나눠진다. 1-1)회귀(regression) 연속형 변수 변수들 간의 상관관계를 찾는 것, 연속적인 데이터로부터 결과를 예측하는 것 (예측 결과가 숫자일 때) ex)근속연수에 따른 임금, 키에 따른 몸무게, 사용 기간에 따른 스마트폰 가격 1-2)분류(classification) 범주형 변수 주어진 데이터를 정해진 범주에 따라 분류 (예측 결과가 숫자가 아닐 때) ex) 스팸 메일 필터링, 시험 합격 여부 ,재활용 분리수거 품목, 악성 종양 여부 2.비지도 학습(unsupervised learning) 정..
2023.09.17