ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 2/1
    스파르타/TIL(Today I Learned) 2024. 2. 1. 20:29

    어제 과제가 나오고 오늘은 머신 러닝 과제를 해결하기 위해서 시간을 썼다.

     

    과제는 우리가 좋은 주피터 데이터 셋을 구했는데 구멍이 뚫렸있으며

    구멍을 채우는 것을 목표로 진행되었다.

     

    기본적으로 데이터를 불러오고

    전처리할 데이터를 살피고 (info, describe( include='all')) 처리하였다.

     

    이상치로 탐지한 데이터가 -8000 이 찍혀있었고, 다른 데이터에 비해 많이 멀고 이상하였다.

    은행이라는 가상 주제에 -8000은 미친 마이너스 통장의 소유자가 아니면 존재하지 않을거 같았고 (주관적 생각)
    객관적으로는 우리는 데이터 분석에 있어서 머신 러닝을 통해 해당 가설에 맞는 인사이트 도출을 목표로 한다.

    이에 필요한 도구중 하나가 머신러닝의 기법들이고

    인코딩,스케일링 등이 있는데 스케일링을 하는 데이터가 이상치가 들어있는 데이터였다.

     

    스케일링은 평균과 표준편차를 이용하여 계산을 하는데 이상치가 너무 압도적이라서 

    평균과 표준편차에 큰 부정한 영향을 줄 것을 예상하여 처리하였다.

    min으로 최솟값을 구한뒤 abs로 절댓값을 씌워준다.

     

    이후 log로 데이터를 정규분포의 형태로 만드는데 log가 아닌 log1p를 사용하여

    음의 무한대가 나오는 경우를 방지한다.

    '스파르타 > TIL(Today I Learned)' 카테고리의 다른 글

    2/5  (0) 2024.02.05
    1월 마지막 주 ~ 2월 첫째 주 WIL  (1) 2024.02.05
    1/29  (0) 2024.01.29
    1/22  (0) 2024.01.22
    1/19  (0) 2024.01.19
Designed by Tistory.