Data Science(13)
-
Euclidean Distance에 대해서 알아보자..(간략히..)
아주 Simple하게 설명하고자 하니 주의 바란다. 두개의 점이 있다. (q1, q2), (p1,p2) 이렇게 가정해보자. 여기서 Euclidean Distance의 정의 Simple 하다.. 그런데 수식으로 처리하기에 귀찮을 수 있겠다. 제곱이라든지 뺄셈, Root연산등을 다 해줘야 하나?.. 이런 귀차니즘이 발동할때는 라이브러리를 활용하는 것이 맞겠다. 위 정의보다 좀 더 효율적이고 빠르게 이미 다른 사람들이 만들어 놓은 것을 활용해야 되지 않겠는가. scipy 라이브러리를 아래와 같이 활용하면 손쉽게 계산 할 수 있다. from scipy.spatial import distance first_listing = [-0.596544, -0.439151] second_listing = [-0.596544..
2020.07.19 -
왜 Normalize 해야만 할까??
유명한 Air Bnb의 dataset을 보면 위와 같은 정보들이 있다.. 필자와 같이 가정을 해보자 해당 Dataset중 위의 Data를 사용해서 K-mean Cluster 기법을 사용한 분석을 하고 싶다고 말이다. 일단 눈에 띄는 것은 변수들의 크기와 변화량이다. 수가 아닌 Data도 수로 변환하여 분석하는 것이 Machine Learning의 보편적인 방법인데.. Maximum_nights가 다른 변수에 비해서 많이 숫자가 크고 변화가 심한 것을 볼수 있다. Feature의 가중치등을 부여하는 작업을 하더라도 당연히 숫자 자체적으로 Maximum_nights의 정보가 분석결과에 너무나 많은 impact를 줄것은 사실 알고리즘을 이해하지 못해도 어느정도 예측이 가능하다. 이것 정말 우리가 원하는 상황은..
2020.07.19 -
분류형 Data만 가져오는 간단한 방법 (How to Identify the columns that are categorical in nature)
Data는 크게 두가지 분류로 나눌수 있습니다. 수치형의 Data와 분류형의 Data Numerical vs Categorical 이렇게 나누는 이유는 분류에 따라서 Data를 전처리하고 분석하는 방법이 상이하기 때문입니다. 금번 Post에는 위 두가지 Data가 스프레드시트 즉, Table형태로 혼재되어 있는 일반적인 Dataset에서 쉽게 Categorical Data 즉, 분류형 자료만 어떻게 분리해서 가져오는지 간단히 Posting 하겠습니다. 1. df.dtypes (Pandas Dataframe이름을 df라고 가정하고 dtypes 매서드를 처보면 아래와 같은 결과가 나옵니다.) 위와 같이 int64 혹은 float64라고 써져있는 것은 문자 자체가 의미하는 것과 같이 수치형 자료입니다. 그외에..
2019.10.03 -
Missing Value에 대응하는 방법 1. Remove Value -
우리가 처리하려는 Data의 값이 듬성듬성 비어있다면 우리가 해야될 것은 당연히 전처리를 통해서 Missing Value를 처리해주는 것입니다. 처리방법은 크게 3가지로 나눌수 있습니다만.. 오늘은 제일 간단명료한 방법. 다시 말해 Missing이 있는 Data를 지우는 방법에 대해서 간단히 논의해보고자 합니다. 그런데 지우기전에 우리는 반드시 알아야 될 것이 있습니다. 생각없이 missing된 Data를 모두 날려버리고 Data를 분석한다면 잘못된 결과를 초래한다는 것을요. 머신러닝으로 치면 학습된 모델은 Biased된 Model이 될 가능성이 농후합니다. 당연히 예측 성능도 좋지 못하겠지요. 결국은 그 Data를 들여다 보고, Missing된 Data의 비율이 전체 정보에서 차지하는 비율이 어느정도인..
2019.09.29 -
아나콘다 설치해보자~ how to install Anaconda on your computer
https://www.anaconda.com/distribution/#download-section Anaconda Python/R Distribution - Free Download Anaconda Distribution is the world's most popular Python data science platform. Download the free version to access over 1500 data science packages and manage libraries and dependencies with Conda. www.anaconda.com 위 링크로 들어가서 다운 받도록 합시다. 의심되면 검색해서 들어가셔도 됩니다. 다운로드 다 받았으면 실행. 0.5 기가 정도 되네요. Defau..
2019.08.29 -
Supervised Learning(지도학습) 에 대해.. [간단 짧음 주의]
요즘 미래의 먹거리로 주목받고 있는 Machine learning은 크게 나누면 아래와 같이 3가지로 나눌수 있다. 1. Supervised Learning 2. Unsupervised Learning 3. Reinforcement Learning Supervised Learning에 대해서 먼저 이야기 해보자. 우리의 알고리즘은 라벨링된 데이터를 통해서 학습한다. 쉽게 이야기하면 요리재료와 완성된 요리의 맛정보를 토대로 계속 요리를 만들어보면서 학습을 하는거라고 볼수 있다. 학습이 끝나면 요리 재료만 봐도 무슨맛이 나올지 미리 예측을 할수 있게 될 것이다. 이러한 미래 예측은 이후 이어지는 선행적인 액션을 통해 가치를 만들어낼수 있겠다. 요약하면 Supervised = using Labeled Data..
2019.07.11