본문 바로가기

김성범 교수님 유튜브 강의/파이썬 시계열 분석

ARIMA 모델 - Part 6

728x90

Topic : 모델을 이용해서 어떻게 예측하는지

 

 

1. 예측해보기 (Model : AR(1))

 

  • 목표는 Mean Squared Error 인 E[(Xt+1 - X_hat_t+1)^2] 를 최소화 시키는 것.
  • (과정은 생략하고 결과만 보면) 그것을 만족시키려면 X_hat_t+1 은 위와 같이 conditional expectation이 되어야 한다.
  • AR(1) 에 적용하면, 위와 같다.  
    • 뮤는 constant term 으로 그냥 상수정도로 생각하면 될 듯.
    • E[at+1 | X1...Xt] 에서 t 까지의 정보만 제공된 상태이므로 t+1 시점에서의 a 값에 대한 기댓값은, a가 시점에 상관없이 '기댓값'이 0이므로 0이라고 봐야한다. 
    • 그런데 만약 at+1이 아니라 at였다면, t 시점까지의 정보가 제공된 상태이므로 at는 실제로 알고 있는 값이다. 따라서 섣불리 0으로 볼 수는 없을 것이며 실제 식을 통해 알아내야한다. 이는 뒤에서 ARMA(1,1) 모델을 설명할 때 더 자세히 다루겠다. 

2. 점예측값(point value)를 토대로 PI(prediction interval) 구해보기 (신뢰구간이랑 비슷한거) 

1) AR(1) 모델의 경우

  (1) 한 시점 뒤의 prediction interval 

  • 예측값은 아니까 표준편차만 구하면 된다.
  • 저렇게 두 등식을 빼주고 V()를 씌우면 저런식이 나온다.
  • 한가지 의문은 왜 V(X_hat_t+1) = sigma_a^2 인지는 잘 이해가 안됨.
  • 실제값과 예측값의 차이의 분산을 저기에 넣네.

  (2) 두 시점 뒤의 prediction interval

 

  • 두 시점 뒤의 점예측값은 한 시점 뒤의 예측값과의 선형관계로 나타내짐
  • 여기도 마찬가지 실제값과 예측값의 차이의 분산을 넣는다.
  • 시점이 뒤로 갈수록 분산이 커져 PI의 범위가 커진다. 

2) AR(2)

  (1) 한 시점 뒤의 PI

  • Xt 가 주어진 상황에서 Xt의 기댓값은 당연히 Xt

  (2) 세 시점 뒤의 PI

  • 이건 '예측'이다. 추정과는 다름.  
추정 VS 예측

통계학을 공부하다 보면 추정과 예측의 개념을 헷갈릴 때가 있으므로, 확실하게 짚고 넘어갈 필요가 있겠다.

추정은 위에서 설명한 바와 같이 표본으로부터 얻은 통계량으로 '모수의 특성을 추측하는 과정'이다. 모집단 전체 데이터를 대상으로 분석하는 것이 불가능하므로, 표본 집단을 구성하여 모수를 추정할 수 있다.

 

예측은 추정을 반복하여 얻는 결과들을 기준으로 일정한 패턴을 찾아낸 후, 향후 미래에 활용할 수 있는 의미 있는 특정한 모수를 가늠하는 것이다.

  • 여하튼간에 점예측을 구하고 분산을 구해 PI 범위를 구한다는 매커니즘을 이해하자~

3) ARMA(1,1)

  (1) 한 시점 뒤

  • 앞서 설명했듯이 시점 t까지의 정보가 제공된 상태이므로 at는 기댓값을 0으로 볼 것이 아니라, 알고있는 값으로서 E[] 괄호를 그냥 뚫고 나온다. 
  • 그리고 at는 a1 = 0이라고 했을 때, 위와 같이 '추정'될 수 있다. '재귀적으로'
  • 결론적으로 이를 통해 점예측값을 알 수 있음. 

  • 잘 기억을 해보면 ARMA 모델에서 Xt는 psi(theta와 phi) 파라미터를 통해 백색소음의 선형결합으로 나타낼 수 있었다.  
  • 놀랍게도 한시점 뒤에 대한 PI 는 AR, ARMA 모두에서 같은 식이 도출된다.

   (2) 두시점, 세시점 뒤

3. 예시

문제가 주어졌을 때, 접근하는 순서는 다음과 같다.

1. 먼저, X6 값을 그냥 구해본다.
2. X1...5 가 주어졌을 때, X6의 예측값을 구한다.
3. 이 과정에서 a_tilde5 가 사용되는데, tilde는 추정되어야한다는 의미이다.
  cf) t=5 까지의 정보가 주어졌으므로 a5는 추정되어야 한다. 
4. 앞선 ARMA 식을 수정해서 at를 좌변으로 넘긴다. 그리고 a_tilde1 을 0이라고 두고 a_tilde5를 추정한다.
5. 최종적으로 X_hat6를 점예측한다.
6. 그리고 이제 분산을 구해서 X6(not X_hat 왜냐하면 모르는 값은 X6이기 때문)에 대한 PI를 추정한다.

 

  • sigma_a =1이라고 그냥 두고 PI를 쭉 추정해보면 위와 같다.

4. PACF

그냥 중요해서 설명함

  • 조건부함수다.
  • 두 개 외의 다른 변수까지 고려한 상관계수이다. 
  • 예시를 보면 알 수 있듯이 다른 변수가 주어졌을 때, 특정 변수 사이의 correlation을 측정한 것.

  • 시계열데이터에서의 PACF는 위와 같다.
  • 두 시점간의 PACF는 그 시점 사이의 값들이 주어졌을 때, 두 변수의 correlation 이다.

비판과 질문은 언제나 환영입니다. 많이 꾸짖어주세요.

728x90

'김성범 교수님 유튜브 강의 > 파이썬 시계열 분석' 카테고리의 다른 글

ARIMA 모델 Python 실습  (0) 2021.01.22
ARIMA 모델 - Part 5  (0) 2021.01.13
ARIMA 모델 - Part 4  (0) 2021.01.13
ARIMA 모델 개요 - Part 3  (0) 2021.01.12
ARIMA 모델 개요 - Part 2  (0) 2021.01.10