본문 바로가기

김성범 교수님 유튜브 강의/파이썬 시계열 분석

ARIMA 모델 개요 - Part 3

728x90

Topic : 본 강의에서는 ARIMA 모델에 대한 수학적 설명이 주를 이룬다.

 

1. 기본 Notation 및 통계 기본 공식

1) 기본 개념

  

2) X와 Y가 독립일 때,

3) AutoCovariance(자기공분산)

  •  특성상 대칭

4) AutoCorrelation

  • 그전에 notation을 이용하면 위와 같이 표현 가능.

뇌피셜) 여기까지는 Xt가 의미하는게 전체 시퀀스인 것 같다.  그러니까 V(Xt) = V(Xt+h) 가 같다는 결론이 나오지

 

cf) 근데 다른 블로그를 보니 저 식은 '정상' 시계열임을 가정하고 전개한 것이라는 얘기가 있다. 아니 근데 정상성을 판단하기 위해 자기상관계수를 구하고자하는데, 정상임을 가정하는게 말이 되나?

5) White Noise  

뇌피셜) 그런데 여기서부터는 at가 전체 시퀀스를 의미하는게 아니라, 전체 시퀀스 중 t번째 데이터를 의미하는 것 같다. 

참고로 일단 기본적인 것은 시퀀스에서 각 시점의 데이터는 모두 다른 분포에서 튀어나왔는데, 모든 시점에서의 데이터가 같은 평균과 분산의 확률분포에서 튀어나온 경우 특별하게 stationary 하다고 하는 것.

 

그 중에서도 백색소음은 '랜덤하게' '표준정규분포'에서 데이터를 뽑은 것처럼 평균이 0이고 각 시행은 독립적이므로 시점간의 상관계수가 0이며, 자기상관성이 없다. 고로 자기 상관계수 또한 0이거나 0근처를 맴돌겠지.

  • white noise를 at라고 함. 
  • 모든 t에 대해서(저 이상한 표기는 all t라는 의미) 기대값이 0
  • 모든 t에 대해서 일정한 분산을 가짐.
  • Corr(at, as) = 0 즉 서로 다른 시점에서 독립이다.
  • rx(h)처럼 ra(h)로 쓴 것 뿐

cf) 참고로 만약 E(X) = n 이고 X1이 X의 분포에서 추출된 것이라면, E(X1) = n 이다. 

 

2. ARIMA 와 Stationary

1) 개념

  • ARIMA 모델의 경우 모든 t에 대해서 평균과 분산이 일정해야 한다(정상성).
  • "시간에 따라서 확률분포가 일정" = Stationary
  • 여기에서의 Xt는 전체 시퀀스가 아니라 t번쨰 데이터를 의미.

2) 예시

  • Xt변수와 t변수가 있는 시계열 식이다.
  • Xt는 정상성이 있으므로 어느 시점에서나 확률분포가 일정하고, 따라서 기댓값이 상수 뮤이다.
  • 보다시피 Zt 의 기댓값에는 t 변수가 포함되어 있으므로 t에 따라 바뀌는 값이다.
  • 따라서 non - stationary
  • 반면 Z_t - Z_t-1 의 기댓값에는 t가 포함되어 있지 않는 일정한 상수이므로 stationary!
  • 그리고 정상 데이터의 경우 자기공분산이 t에 관계없이 일정해야하므로 차분을 한 결과의 자기공분산을 구해보자. 

cf) 모든 시점에서 일정한 분산을 가지는 것을 왜 증명하지 않은지 모르겠다. 

 

질문과 비판은 언제나 환영입니다. 많이 꾸짖어주세요.

728x90