데이터에서 이상치를 찾아보자 "1. EDA"
* anomaly / outlier란? 평소 데이터에서 거리가 먼 녀석, 특이한 녀석이라고 생각하면 되겠다. 보통은 이런 녀석들이 실제 우리 real-life에서 문제를 일으키는 녀석들이다. 예를 들면 본인이 무언가를 관리하는 엔지니어라고 생각해보자. 실질적으로 엔지니어의 메인 role중 하나는 이러한 이상치를 모니터링 하고 억제하기 위한 행위이지 않는가? 하다 못해 갑자기 내 주식 계좌가 녹으면 그것 또한 이런 케이스에 빗댈 수도 있겠다. 우선 이러한 이상치 찾는 문제는 3가지로 볼수 있다. 1. Supervised : 쉽게 말해서 데이터 내에 이것 이상치, 이건 정상치가 아니란 라벨이 다 나와있는 것 들이다. 족보가 있고 원리를 학습해서 새로운 문제에 대응하는 개념으로 보면 되겠다. Classific..
2022. 9. 25. 20:04