데이터사이언스(7)
-
[linear regression]regularization - ridge/lasso 2023.11.21
-
Regression analysis(선형 회귀) 개념 & 코딩 실습
[linear Regression's history] - 선형회귀의 역사는 galton이라는 인물이 아버지의 키로부터 아들의 키를 예측하는 것으로부터 시작되었다. [vocab] response (y): = dependent variable, Y-variable, target, outcome independent variable : = X-variable, feature, attribute record : row, case, instance, example intercept : 회귀선의 기울기 regression coefficient : 회귀선의 슬로프(slope=경사) 잔차residuals : 관찰값과 fitted values와 차이 (y - y^) least squares : 제곱의 잔차 합을 최소화 ..
2023.11.15 -
데이터사이언스_attribute transform / discretization
attribute transform은 크기의 차이를 해소하기 위해 속성 값을 변환하는 것이다. 예를들어 평균, 표준편차, z-score와 같이 변환할 수 있을 것이다. 이처럼 normalization이나 standardization은 데이터를 처음 받을 때 즉, 거리를 재기 전이나 머신러닝 모델을 만들기 전에 진행하는 것이 좋다고 말할 수 있다. discretization은 카테고리형 데이터를 numerical 형태로 변환하는 것이다. cut함수를 사용하여 범위를 가진 형태로 변환한다.
2023.11.13 -
데이터사이언스_결측치 처리/인덱싱
isnull().sum()을 통해 결측치 개수 확인 iloc을 통해 인덱싱
2023.11.13 -
데이터사이언스_원핫인코딩
변수의 타입에는 categorical, numerical이 존재한다. categorical한 변수가 있다면, 컴퓨터가 인식할 수 있도록 numerical 변수로 바꿔준다.
2023.11.13 -
머신러닝 코딩 실습 [iris data]
n의 개수를 20개로 증가시키니 경계면이 완만하게 변하는 것이 확인되었음. 또한 성능 측정에서도 이전과는 다르게 100% 정확도가 아닌 것도 확인 가능했음. knn방식에서는 k가 적을수록 복잡해지고 과적합 될 가능성이 존재함.
2023.11.13