K-Mean(2)
-
Euclidean Distance에 대해서 알아보자..(간략히..)
아주 Simple하게 설명하고자 하니 주의 바란다. 두개의 점이 있다. (q1, q2), (p1,p2) 이렇게 가정해보자. 여기서 Euclidean Distance의 정의 Simple 하다.. 그런데 수식으로 처리하기에 귀찮을 수 있겠다. 제곱이라든지 뺄셈, Root연산등을 다 해줘야 하나?.. 이런 귀차니즘이 발동할때는 라이브러리를 활용하는 것이 맞겠다. 위 정의보다 좀 더 효율적이고 빠르게 이미 다른 사람들이 만들어 놓은 것을 활용해야 되지 않겠는가. scipy 라이브러리를 아래와 같이 활용하면 손쉽게 계산 할 수 있다. from scipy.spatial import distance first_listing = [-0.596544, -0.439151] second_listing = [-0.596544..
2020.07.19 -
왜 Normalize 해야만 할까??
유명한 Air Bnb의 dataset을 보면 위와 같은 정보들이 있다.. 필자와 같이 가정을 해보자 해당 Dataset중 위의 Data를 사용해서 K-mean Cluster 기법을 사용한 분석을 하고 싶다고 말이다. 일단 눈에 띄는 것은 변수들의 크기와 변화량이다. 수가 아닌 Data도 수로 변환하여 분석하는 것이 Machine Learning의 보편적인 방법인데.. Maximum_nights가 다른 변수에 비해서 많이 숫자가 크고 변화가 심한 것을 볼수 있다. Feature의 가중치등을 부여하는 작업을 하더라도 당연히 숫자 자체적으로 Maximum_nights의 정보가 분석결과에 너무나 많은 impact를 줄것은 사실 알고리즘을 이해하지 못해도 어느정도 예측이 가능하다. 이것 정말 우리가 원하는 상황은..
2020.07.19