Data Analysis(3)
-
time series decomposition에 대해서
잠시 방향을 틀어서 시계열 데이터에 대한 decomposition에 대해서 알아보자. 시계열 데이터라고 하면 분명히 여러 요소의 복합적으로 나타나는 걸거다. 예를 들어 주식에 빗대어 보면, A라는 주식이 왜 이 시간대에 오르는 추세를 일정 시간 동안 보이는가? 를 고찰 해봤을때 FED가 시장에 유동성을 확 풀어서 그럴 수도.. A라는 회사의 실적이 예상밖에 잘나와서 그럴 수도.. 혹은 A라는 회사의 제품이 시즌을 타는 제품인데 해당 시즌이 다가와서 다음 분기 실적이 좋을 것으로 예상 되기 때문 일수도 있다. 당연히 그 이외의 원인들이 많겠지만 결국 시계열 데이터가 보여 줄 수 있는 정보를 분해해서 보게 되면 좀 더 분석자가 쉽고 빠르게 받아 들일수 있는 것 아니겠는가? 그럼 분해 할 수 있는 요소는 무엇..
2022.10.08 -
[Pandas] 비지도학습을 위한 Custom Binary Encoding
데이터 셋에 따라 데이터 분석을 위한 조건을 만족시키는 이진값을 가진 열을 반들기 위해 레이블 인코딩과 온-핫 인코딩을 섞어 사용해야 될 수도 있습니다. 예를 한번 같이 보시겠습니다. 특정 데이터 셋에 engine_type이라는 열이 있고 그 열에는 아래와 같이 몇가지 값으로 분류되어 있습니다. obj_df["engine_type"].value_counts() ohc 148 ohcf 15 ohcv 13 l 12 dohc 12 rotor 4 dohcv 1 Name: engine_type, dtype: int64 여기서 다른거 필요없이 분류값중에 'ohc'가 있느냐 없느냐만 금번 분석에 의미가 있다고 생각해봅시다. 전제를 깔자는 거지요. 이러한 판단을 하기 위해서는 관련 산업군이나 Tech쪽에 Domain ..
2019.07.23 -
[통계] Box Plot은 처음이지?
Box Plot을 한번쯤 본사람은 있어도 해당 표식 하나하나가 어떠한 의미인지 알고 있는 사람들은 드물 것 같다. * Box & whisker plot이라고도함 전공자나 해당없게 종사자는 당연히 알것 같고.. 불특정 다수가 블로그에 들어온다는 가정하에 여기에 몇가지 필자가 이해한 설명을 추가해서 남기려고 한다. (출처 : OpenIntro Statistics, 3판 35p.) first Quartile : 25 %의 data가 해당 표시 아래에 있다는 의미이다. third quartile : 75%의 data가 해당 표시 아래에 있다는 의미.. median : 중간값. Box안은 25~75% 비율 사이의 data가 위치한다는 이야기이다. 이 사이간격이 중요해서 IQR이라고 일컷는다. (intel quar..
2019.04.16