왜 Normalize 해야만 할까??
유명한 Air Bnb의 dataset을 보면 위와 같은 정보들이 있다.. 필자와 같이 가정을 해보자 해당 Dataset중 위의 Data를 사용해서 K-mean Cluster 기법을 사용한 분석을 하고 싶다고 말이다. 일단 눈에 띄는 것은 변수들의 크기와 변화량이다. 수가 아닌 Data도 수로 변환하여 분석하는 것이 Machine Learning의 보편적인 방법인데.. Maximum_nights가 다른 변수에 비해서 많이 숫자가 크고 변화가 심한 것을 볼수 있다. Feature의 가중치등을 부여하는 작업을 하더라도 당연히 숫자 자체적으로 Maximum_nights의 정보가 분석결과에 너무나 많은 impact를 줄것은 사실 알고리즘을 이해하지 못해도 어느정도 예측이 가능하다. 이것 정말 우리가 원하는 상황은..
2020. 7. 19. 16:42