데이터분석(21)
-
numpy,ndarray배열, argsort
#1번 import numpy as np x=np.array([4,2,6,5,1,3,0]) print(np.sort(x)) print('\n') print(x) [0 1 2 3 4 5 6] [4 2 6 5 1 3 0] #2번 x=np.array([4,2,6,5,1,3,0]) print(x.sort()) print(x) None [0 1 2 3 4 5 6] #3번 x=np.array([4,2,6,5,1,3,0]) x_reverse_1=np.sort(x)[::-1] x_reverse_1 array([6, 5, 4, 3, 2, 1, 0]) In [12]: #4번 x=np.array([4,2,6,5,1,3,0]) x_reverse_2 = x[np.argsort(-x)] x_reverse_2 array([6, ..
2023.11.16 -
Regression analysis(선형 회귀) 개념 & 코딩 실습
[linear Regression's history] - 선형회귀의 역사는 galton이라는 인물이 아버지의 키로부터 아들의 키를 예측하는 것으로부터 시작되었다. [vocab] response (y): = dependent variable, Y-variable, target, outcome independent variable : = X-variable, feature, attribute record : row, case, instance, example intercept : 회귀선의 기울기 regression coefficient : 회귀선의 슬로프(slope=경사) 잔차residuals : 관찰값과 fitted values와 차이 (y - y^) least squares : 제곱의 잔차 합을 최소화 ..
2023.11.15 -
[파이썬] t-test와 Anova
1. t-test(t 검정) - t-test는 두 집단의 평균에 통계적으로 유의한 차이가 있는지 알아볼 때 사용하는 통계 분석 기법 - one sample t-test와 two sample t-test가 있음 - t-test를 하기 위해 기본적으로 scipy 패키지로부터 stats라는 모듈을 불러와야 함 - 한 개의 집단을 가지고 t-test를 하는 것 - 한 집단의 평균값이 내가 생각한 값과 다른지 비교할 때 시행하는 것 - stats.ttest_1samp()를 활용 - 두 개의 집단을 가지고 t-test를 하는 것 - 두 집단의 평균 비교를 통해, 두 집단 간의 차이가 통계적으로 유의한지 유의하지 않은지를 확인할 수 있음 - stats.ttest_ind()를 활용 2. Anova 검정 - 세 개 이상..
2023.11.15 -
데이터사이언스_attribute transform / discretization
attribute transform은 크기의 차이를 해소하기 위해 속성 값을 변환하는 것이다. 예를들어 평균, 표준편차, z-score와 같이 변환할 수 있을 것이다. 이처럼 normalization이나 standardization은 데이터를 처음 받을 때 즉, 거리를 재기 전이나 머신러닝 모델을 만들기 전에 진행하는 것이 좋다고 말할 수 있다. discretization은 카테고리형 데이터를 numerical 형태로 변환하는 것이다. cut함수를 사용하여 범위를 가진 형태로 변환한다.
2023.11.13 -
데이터사이언스_거리 계산
1.맨해튼 거리, 유클리디안 거리, infinite 거리 계산 1차 거리 계산(맨해튼 거리 방식) 2차 거리 계산(유클리디안 거리 방식) infinite(무한대) 거리 계산 2.코사인 거리 계산 3.상관관계 계산
2023.11.13 -
[프로젝트]시간에 따른 이혼율 추세와 이혼 사유 데이터 분석 2023.11.12