본문 바로가기

728x90

김성범 교수님 유튜브 강의

(10)
ARIMA 모델 Python 실습 # 캐글 노트북 캐글 노트북으로 작성했으니 전체 코드 및 설명은 아래 링크를 참조바람. https://www.kaggle.com/shutupandsquat/air-passengers-prediction-korean Air-passengers prediction(한국어, korean) Explore and run machine learning code with Kaggle Notebooks | Using data from Air Passengers www.kaggle.com 1. 분석 주제 월별 air passengers 데이터를 가지고 시계열 모델을 만들어 볼 것이다. 캐글 노트북을 통해 작성하였으며 아래의 링크로 들어가면 된다. 2. 시계열 분해 otexts.com/fppkr/components.htm..
ARIMA 모델 - Part 6 Topic : 모델을 이용해서 어떻게 예측하는지 1. 예측해보기 (Model : AR(1)) 목표는 Mean Squared Error 인 E[(Xt+1 - X_hat_t+1)^2] 를 최소화 시키는 것. (과정은 생략하고 결과만 보면) 그것을 만족시키려면 X_hat_t+1 은 위와 같이 conditional expectation이 되어야 한다. AR(1) 에 적용하면, 위와 같다. 뮤는 constant term 으로 그냥 상수정도로 생각하면 될 듯. E[at+1 | X1...Xt] 에서 t 까지의 정보만 제공된 상태이므로 t+1 시점에서의 a 값에 대한 기댓값은, a가 시점에 상관없이 '기댓값'이 0이므로 0이라고 봐야한다. 그런데 만약 at+1이 아니라 at였다면, t 시점까지의 정보가 제공된 상태이므..
ARIMA 모델 - Part 5 # Backward Shift operator(B) 이거랑 만나면 한 시점 뒤로 간다. BXt = Xt-1 1. AR(1) AR(1)과 AR(2) 를 이런 식으로 나타낼 수 있다~ B는 특정 Xt를 backward 시켜준다. 그 성질을 이용하여 AR(1) 모델을 다시 적어주면 위와 같다. Xt 등식의 우변은 비율이 phi*B 인 무한등비수열의 합과 같다. 결국 AR 모델도 White Noise 들로 나타낼 수 있다. 2. AR(2) AR(2) 도 위와 같이 백색소음들로 표현가능. 참고로 Forward shift operator 도 있다. 3. ARMA(1,1) 1) h = 0 일 때 목표는 ' ARMA 모델의 AutoCovariance 구하기 ' Yule-Walker 등식 이용 참고로 E(AxB) = C..
ARIMA 모델 - Part 4 이 모델들은 모두 정상 시계열 데이터임을 가정한다. 따라서 시점에 따른 분산이 일정하고, 시점간의 일정한 공분산 등 여러 가정들이 모델 설명 때 쓰인다. 원강의 : www.youtube.com/watch?v=R5L3El8YZwk&t=121s 1. MA 모델 1) MA(1) MA 모델은 Xt 를 이전 오차들로 표현하는 방식 이론적으로는 MA(1)에 딱 맞는 데이터는 이런 모양의 ACF 가 나와야 한다. theta 는 파라미터 2) MA(2) MA(2) 의 자기공분산 cut-off 가 3에서 되쥬? 박스앤 잰킨스인가 여튼 그분들이 말한 것처럼 실제 데이터가 저런 모냥이면 MA(2) 모델로 하면 됨. 2. AR 모델 자기자신의 과거로 예측 1) AR(1) 여기서는 분산도 필요해서 구했네 이번에는 h=1, h=..
ARIMA 모델 개요 - Part 3 Topic : 본 강의에서는 ARIMA 모델에 대한 수학적 설명이 주를 이룬다. 1. 기본 Notation 및 통계 기본 공식 1) 기본 개념 2) X와 Y가 독립일 때, 3) AutoCovariance(자기공분산) 특성상 대칭 4) AutoCorrelation 그전에 notation을 이용하면 위와 같이 표현 가능. 뇌피셜) 여기까지는 Xt가 의미하는게 전체 시퀀스인 것 같다. 그러니까 V(Xt) = V(Xt+h) 가 같다는 결론이 나오지 cf) 근데 다른 블로그를 보니 저 식은 '정상' 시계열임을 가정하고 전개한 것이라는 얘기가 있다. 아니 근데 정상성을 판단하기 위해 자기상관계수를 구하고자하는데, 정상임을 가정하는게 말이 되나? 5) White Noise 뇌피셜) 그런데 여기서부터는 at가 전체 시..
ARIMA 모델 개요 - Part 2 1. ARIMA model Procedure 1. 먼저 전처리를 한다(로그변환, 차분 등) 2. test용 모델을 만들어본다. 3. 파라미터를 예측한다. 4. check 5. 사용 뒤에 예시에서 이런 순서를 통해 모델을 구축하고 예측해보겠다. 2. 예시 1) Preprocessing(차분) (1) 원본 데이터 (2) ACF(for checking stationary) ACF 를 확인할 때, lag가 0이면 자기 자신과의 correlation 이므로 당연히 1. 따라서 lag가 1일 때부터 보면 된다. ACF 그래프가 서서히 작아진다면 이는 non-stationary 일 가능성이 높고, 급격히 작아지거나 일정한 패턴이 없는 경우는 stationary 일 가능성이 높다. 예시의 경우 비정상성이라고 판단할 수..
ARIMA 모델 개요 - Part 1 1. 정상 프로세스(Stationay Process) 1) 정의 # 참고 먼저 정상성이라는 조건이 필요한 이유에 대해 한번 생각해보자. 이 생각이 정답이라는 것은 아니다. 우리는 시간의 순서에 따라 기록되지 않은 일반적인 자료들을 분석할 때, 확률표본(Random samples)들에 i.i.d(All samples are independent and identically distributed) 가정을 한다. 시간에 종속되어있는 시계열은 상식적으로 i.i.d 가정을 할 수 없다. 그래서 이러한 시계열 자료에 대해 예측 모형을 적합하고 통계적 검정을 하기 위해서는 분석을 단순화 시킬 수 있는 새로운 가정이 필요하다. 이중 가장 중요한 것이 시계열 모형의 확률적 성질이 시간에 따라 변하지 않는다고 가정하는 정..
시계열 분석 기초(Time Series Regression) - Part 3 Topic : 계절적 변동을 어떻게 모델에 포함시킬까? 1. Modeling Seasonal Variations Trend와 Seasonal 변동이 있을 때 yt 는 위와 같이 나타낼 수 있다. 2. Binary 방식을 통한 모델링 원핫인코딩 벡터처럼 binary 방식으로 해당하는 season의 값만 가진다. t 시점이 1월이면 M1 = 1이고 나머지 M = 0. 12월이면 그냥 다 0. M1~11 만으로 12월을 표현할 수 있음. Trend 는 Linear Trend를 가정. 참고로 Increasing seasonal variation이 관찰되어 yt*은 yt 를 자연로그변환한 것. 모든 M=0 일 때 12월을 나타내므로, 12월이 기준이다. 따라서 beta2 는 12월과 1월에서의 y 값이 얼마나 차..
시계열 분석 기초(Time Series Regression) - Part 2 1. 다항회귀 적용의 문제점 일반적인 선형회귀와 같다. 그런데 선형회귀의 전제는 서로 다른 시점의 잔차가 등분산성을 가져야 하고, 서로 다른 시점의 잔차가 독립(공분산 = 0) 이어야하는데, 시계열 데이터의 경우 시점 간에 독립성을 보장할 수 없으며 오히려 연관성이 짙다. 따라서 다른 접근법이 필요하다. cf) 참고로 잔차의 독립성은 Durbin-Watson test로 검정한다. mindscale.kr/course/basic-stat-r/residuals 잔차분석 mindscale.kr 2. AutoCorrelation(자기상관성) 1) 개념 그 접근법이 autocorrelation이며 여기서 auto는 self의 의미이다. 이게 무슨의미냐면 변수 x를 shift한 변수를 하나 만들고 둘 사이의 공분산을..
시계열 분석 기초(Time Series Regression) - Part 1 본 게시물은 김성범 교수님의 유튜브 영상 "Time Series Regression part1" 과 "Forcast : Principles and Practices"를 바탕으로 작성되었습니다. 영상으로 강의를 들으며 이해가 부족했던 부분은 책을 통해 채웠습니다. 중간중간 위 책의 온라인 링크를 달아놓을테니 참고하십시오. 1. 시계열 데이터 구성요소 1) 변동의 종류 시계열자료는 시간의 경과에 따라 자료값이 변동하는데, 변동에는 불규칙변동(우연변동)과 체계적변동이 있다. 불규칙변동은 어떤 규칙없이 예측불능하게 발생하는 변동. 체계적변동은 어떤 규칙이나 패턴에 따라 나타나는 변동으로 추세변동(장기간에 걸쳐 서서히 자료값 자체가 변화), 순환변동(특정 주기에 따라 순환), 계절적변동(계절적 요인에 따라 1년단..

728x90