Data preprocessing(데이터사이언스개론3-2)

2023. 9. 21. 11:14학교 수업/데이터사이언스개론

Aggregation

여러 attributte(특성)을 하나로 통합하는 것

목적 : attribute나 object를 감소시키기 위함

 

Sampling

  • 데이터를 감소하기 위한 메인 기술
  • 통계자료에서 모든 데이터를 얻기는 매우 힘든 일
  • 데이터 마이닝에 주로 사용

샘플링의 주요포인트

샘플이 대표성(representative)을 띈다면

전체 데이터를 사용하는 만큼 효과가 있음

 

이를 위한 조건은 오리지날 데이터와 대략 비슷한 properties(특성)를 가지는 것임.

 

샘플링의 타입

심플 랜덤 샘플링 (simple random sampling)

특정한 아이템이 선택되는 것에 동일한 가능성이 존재

 

계층 샘플링 (stratified sampling)

Split the data into several partition

데이터를 여러 분할로 쪼갠 후 각각의 파티션에서 추출

(Ex: 10대 선거율, 20대 선거율)

 

Discretization

연속적인 어트리부트를 ordinal한 어트리부트로 전환하는 것이다.(이산형)

 

- Equal interval width 동일한간격으로 discretization하는 것.

 

- Equal frequency 개수를 동일하게 맞춤

 

K-means 

비슷한 특성을 지닌 데이터들끼리 묶어 k개의 군집으로 군집화하는 것이다.

 

Binarization

Ordinal / onehotencoding으로 연속적 / categorical한 어트리부트를 변환함.

 

Attribute transform

  • Normalization
  • 원하지 않는 값들을 조정할 때 사용
  • X-뮤/표준편차  & x-xmin/xmax-xmin이 가장많이 사용하는 attribute transform이다

어느 개체가 더 유사한 관계를 가지는가?

표준화에서 a,b,c의 어트리부트가 동일하다고 할때 d에서의 특성이 큰 값이라면 d가 유사관계에 영향을 주는 주요인이 된다.

 

Curse of dimensionality

디멘션 증가(어트리부트 증가) = 데이터가 (밀도)희박해진다.(sparse)

ex) 강당에 있는 사람들 / 사막에 있는 사람들의 거리 비교 (사막에 있는 사람들의 거리를 재는 것이 더 어려움)- =디멘션이 증가=데이터가 희박해짐

 

Dimensionality reduction(차원 축소)

관계없는 피져들 등을 제거하기 위함

(상관관계를 비교 후 비슷한 것을 제거하는 방법도 있음)

pca(방법1)

각 점들이 퍼져있는 정도인 분산이 최대로 봅존 될 수 있도록한다.

이렇게 찾은 축을 principal component 줄여서 pc(주성분)이라고 한다.

Pc를 찾기 위해서는 covariance matrix(공분산 행렬)의 eigen vector(고유 벡터)값을 찾아야 하고, 이 값 중 가장 큰 값이 우리가 원하는 pc에 만족한다고 볼 수 있고 이를 pca 원리로 본다

 

Feature subset(부분집합) selection

데이터 차원을 줄일 수 있는 다른 방법이다.

- Redundant features (중복된것 제거)

Ex) purchase price of a product and the amount of sales tax paid

 

- Irrelevant features

데이터 마이닝을 하기에 적절하지 못한 정보를 가진 것.

Ex)학생 아이디 / 학생 성적

 

Feature creation(피처를 추가 생성)

오리지널 어트리부트 보다 더 효과적인 새로운 어트리부트를 생성한다.

 

Feature extraction

Ex)이미지의 엣지정보에 있는 것을 추출(포토샵 누끼)

 

Feature construction

다양한 변수를 새로운 변수로 만드는 것

Ex)dividing mass by volume to get density

 

Mapping data to new space

Ex)푸리에 / 음파 분석