time series decomposition에 대해서

2022. 10. 8. 19:45Programming Tutorial/Python

잠시 방향을 틀어서 시계열 데이터에 대한 decomposition에 대해서 알아보자.

 

시계열 데이터라고 하면 분명히 여러 요소의 복합적으로 나타나는 걸거다.

 

예를 들어 주식에 빗대어 보면,

 

A라는 주식이 왜 이 시간대에  오르는 추세를 일정 시간 동안 보이는가?  를 고찰 해봤을때

 

FED가 시장에 유동성을 확 풀어서 그럴 수도..

A라는 회사의 실적이 예상밖에 잘나와서 그럴 수도..

혹은 A라는 회사의 제품이 시즌을 타는 제품인데 해당 시즌이 다가와서 다음 분기 실적이

좋을 것으로 예상 되기 때문 일수도 있다.

 

당연히 그 이외의 원인들이 많겠지만 결국 시계열 데이터가 보여 줄 수 있는 정보를 분해해서 보게 되면

좀 더 분석자가 쉽고 빠르게 받아 들일수 있는 것 아니겠는가?

 

그럼 분해 할 수 있는 요소는 무엇이 있을까?

 

1. 트랜드 (T)

2. 사이클 (C)

3. 계절성 (S)

4. 그리고 외 3개를 제외한 나머지 (R)

 

위와 같이 4가지 정도로 나눌수 있다.

 

1. 트랜드 ? 말 할 것도 없다. 추세적인 상향, 추세적인 하향. 혹은 추세없이 오르락 내리락 할 수 있다.

 

2. 사이클 : 일관 되지 않는 주기로 오르고, 내리지 않는가? 마치 글로벌 경기 처럼. 호황이 오면 침체가 오기 마련.

 

3. 계절성 : 사이클과 다르게 특정 주기마다 오르고 내리고 반복 하는 것을 말한다.  예를 들면 여행사 매출?  성수기와 비수기는 보통 1년을 단위로 정해져 있으니까.

 

4. 그외 나머지 : 까보지 않고는 알 수 없다. 순전히 랜덤 일 수도 , 먼가 패턴을 숨겨 놨을 수도 있겠다.

 

일반적으로 계절성 개념은 모두가 알고 있는 정보니까 우리는 분해해서 계절성은 제외하고 보통 분석하고 싶을 거다.

주된 이유가 특별한 패턴을 찾고 싶은거니까. 남들이 미쳐 보지 못할 수 있는 것을 보고 싶은 거기도 하고.

 

 

 

일단 2가지 타입으로 일반적으로 보게 된다.

트랜드나 계절성 모두 additive 개념의 linear하거나 multiplicative개념의 곡선 개념이 될 수 있다.

결국엔 분해해보면 알게 될 것.

 

additive decomposition vs multiplicative decomposition

 

여기서 줄이자. 

 

스고