데이터 분석(3)
-
time series decomposition에 대해서
잠시 방향을 틀어서 시계열 데이터에 대한 decomposition에 대해서 알아보자. 시계열 데이터라고 하면 분명히 여러 요소의 복합적으로 나타나는 걸거다. 예를 들어 주식에 빗대어 보면, A라는 주식이 왜 이 시간대에 오르는 추세를 일정 시간 동안 보이는가? 를 고찰 해봤을때 FED가 시장에 유동성을 확 풀어서 그럴 수도.. A라는 회사의 실적이 예상밖에 잘나와서 그럴 수도.. 혹은 A라는 회사의 제품이 시즌을 타는 제품인데 해당 시즌이 다가와서 다음 분기 실적이 좋을 것으로 예상 되기 때문 일수도 있다. 당연히 그 이외의 원인들이 많겠지만 결국 시계열 데이터가 보여 줄 수 있는 정보를 분해해서 보게 되면 좀 더 분석자가 쉽고 빠르게 받아 들일수 있는 것 아니겠는가? 그럼 분해 할 수 있는 요소는 무엇..
2022.10.08 -
분류형 Data만 가져오는 간단한 방법 (How to Identify the columns that are categorical in nature)
Data는 크게 두가지 분류로 나눌수 있습니다. 수치형의 Data와 분류형의 Data Numerical vs Categorical 이렇게 나누는 이유는 분류에 따라서 Data를 전처리하고 분석하는 방법이 상이하기 때문입니다. 금번 Post에는 위 두가지 Data가 스프레드시트 즉, Table형태로 혼재되어 있는 일반적인 Dataset에서 쉽게 Categorical Data 즉, 분류형 자료만 어떻게 분리해서 가져오는지 간단히 Posting 하겠습니다. 1. df.dtypes (Pandas Dataframe이름을 df라고 가정하고 dtypes 매서드를 처보면 아래와 같은 결과가 나옵니다.) 위와 같이 int64 혹은 float64라고 써져있는 것은 문자 자체가 의미하는 것과 같이 수치형 자료입니다. 그외에..
2019.10.03 -
[통계] Box Plot은 처음이지?
Box Plot을 한번쯤 본사람은 있어도 해당 표식 하나하나가 어떠한 의미인지 알고 있는 사람들은 드물 것 같다. * Box & whisker plot이라고도함 전공자나 해당없게 종사자는 당연히 알것 같고.. 불특정 다수가 블로그에 들어온다는 가정하에 여기에 몇가지 필자가 이해한 설명을 추가해서 남기려고 한다. (출처 : OpenIntro Statistics, 3판 35p.) first Quartile : 25 %의 data가 해당 표시 아래에 있다는 의미이다. third quartile : 75%의 data가 해당 표시 아래에 있다는 의미.. median : 중간값. Box안은 25~75% 비율 사이의 data가 위치한다는 이야기이다. 이 사이간격이 중요해서 IQR이라고 일컷는다. (intel quar..
2019.04.16