차원축소(3)
-
회귀 / 차원축소
회귀 Linear Regression회귀에서 RSS는 비용(Cost), 비용 함수, 손실 함수(loss function)라고 함머신러닝 회귀 알고리즘은 데이터를 계속 학습하면서 이 비용 함수가 반환하는 값을 지속해서 감소시키고 최종적으로는 더 이상 갑소하지 않는 최소의 오류 값을 구하는 것임1)단순 선형 회귀(simple linear regression) : 한개의 독립 변수로 타겟 변수 예측2)다중 선형 회귀(multiple linear regression) : 다수의 독립변수로 타겟 변수 예측ex) 아들의 키 예측(y) = 아버지의 키 (x1) + 어머니의 키(x2) ...... 어머니 몸무게 …etc..경사하강법점진적으로 반복적인 계산을 통해 w 파라미터를 업데이트하면서 오류 값이 최소가 되는 w ..
2024.05.06 -
차원축소
차원 축소 개념 차원이(feature) 증가하면 데이터 포인트 간 거리가 기하급수적으로 멀어짐 (=희소한 구조) 만약 수백 개 이상 피처로 구성된 데이터 세트가 있다면 적은 차원에서 학습된 모델보다 예측 신뢰도 떨어짐 또한 개별 피처간 상관관계가 높을 가능성이 큼 선형 모델에서 입력 변수 간 상관관계가 높은 경우 다중 공산성 문제가 발생하며 결국, 모델 예측 성능이 저하됨 이러한 문제들을 해결하기 위해, 많은 다차원 피처를 줄이는 것이 차원 축소임 차원 축소 종류 2가지 피처 선택(feature selection) & 피처 추출(feature extraction) 피처 선택 특정 피처에 종속성이 강한 불필요한 피처 제거 즉, 특징을 잘 나타내는 주요 피처만 선택 피처 추출 기존 피처를 저차원의 중요 피처..
2023.12.30 -
Data preprocessing(데이터사이언스개론3-2)
Aggregation 여러 attributte(특성)을 하나로 통합하는 것 목적 : attribute나 object를 감소시키기 위함 Sampling 데이터를 감소하기 위한 메인 기술 통계자료에서 모든 데이터를 얻기는 매우 힘든 일 데이터 마이닝에 주로 사용 샘플링의 주요포인트 샘플이 대표성(representative)을 띈다면 전체 데이터를 사용하는 만큼 효과가 있음 이를 위한 조건은 오리지날 데이터와 대략 비슷한 properties(특성)를 가지는 것임. 샘플링의 타입 심플 랜덤 샘플링 (simple random sampling) 특정한 아이템이 선택되는 것에 동일한 가능성이 존재 계층 샘플링 (stratified sampling) Split the data into several partition ..
2023.09.21