Nájdite si vhodné dáta. Požiadavky na dáta:
Nájdete pre ne vyhovujúci ARIMA model, ktorý nie je biely šum posunutý o konštantu. Požiadavky na model: správny rád diferencovania, nekorelované rezíduá, stacionárny a invertovateľný model
dáta majú byť bez pravidelnej sezónnosti. Pravideľnú sezónnosť majú napríklad mesačné hodnoty teploty alebo prietoku riek, sezónne neočistené kvartálne hodnoty HDP, dáta AirPassengers zo začiatku semestra a pod. - je to na grafe s priebehom jasne viditeľné. Ak počas hľadania dát na takéto dáta narazíte, odložte si ich - zídu sa v poslednej domácej úlohe.
Nie z balíkov astsa
a datasets
, nie
dáta použité na prednáške alebo na cvičení. Môžete použiť iné balíky,
súčasťou ktorých sú dáta s časovými radmi, príklady k učebniciam, reálne
dáta dostupné na internete a pod.
Z dát vynechajte niekoľko posledných hodnôt. Tieto nebudete používať pri hľadaní modelu, ale použite ich na zhodnotenie kvality predikcií.
V domácej úlohe:
Vysvetlite, čo vyjadrujú vaše dáta, uveďte ich zdroj a znázornite ich priebeh (1 bod).
Zistite správny rád diferencovania - treba zobrať do úvahy trend a jednotkový koreň. Spíšte výsledky a dopľnte ich výstupmi z R-ka tak, aby sa vaše tvrdenia dali skontrolovať bez spúšťania kódu (2 body).
Nájdite vhodný ARIMA model pre vaše pôvodné dáta, teda nie pre diferencie. Ak si viete tipnúť na základe PACF/ACF grafov je to fajn, ale skúste porovnať viac modelov, napríklad aj zmiešané a rozhodnúť sa podľa informačných kritérií. Požiadavky sú: stacionarita, invertovateľnosť, p-hodnoty Ljung-Boxovho testu nad 5%. Zároveň si skontrolujte, v prípade zmiešaného ARMA modelu, či korene polynómov nevychádzajú blízko seba. Ak áno, analogicky ako na cvičení, vyskúšajte znížiť rád p aj q o 1, teda namiesto ARMA(p,q), vyskúšajte ARMA(p-1,q-1). Váš komentár k modelu znovu dopľnte výstupmi z R-ka tak, aby sa vaše tvrdenia dali skontrolovaťbez spúšťania kódu. (2 body).
Spravte predikcie z vášho modelu (pre pôvodné dáta, nie pre prípadné diferencie) a porovnajte ich so skutočnými hodnotami, ktoré ste na začiatku vynechali. Zhodnoťte váš model. Čo si o ňom myslíte? (1 bod).
Súčasťou predchádzajúceho bodu bolo testovanie jednotkového koreňa. V poslednom kroku (po prípadnom predchádzajúcom diferencovaní) nastala situácia, že v dátach nebol ani trend, ani jednotkový koreň, a preto ich nebolo potrebné diferencovať. Podrobne vysvetlite, čo sa tam dialo.
V domácej úlohe (za každú čast môžete získať 1 bod):
Napíšte s akými parametrami ste dáta testovali a aká regresia sa
odhadla. (treba aj zdôvodniť, prečo do funkcie ur.df
volíte
práve tie parametre, ktoré uvádzate).
Aká hypotéza o parametroch regresie sa testuje? Ukážte, že pre váš prípad táto hypotéza predstavuje hypotézu o jednotkovom koreni daného časového radu.
Kedy túto hypotézu zamietame? (Ako vyzerá kritérium založené na testovacej štatistike a kritickej hodnote?). Vypíšte aj testovaciu štatistiku a kritické hodnoty, s ktorými ju budete porovnávať.
Čo vyšlo vo vašom prípade - zamietate alebo nie? Čo to znamená pre diferencovanie vášho časového radu - diferencujete alebo nie?