Regressziószámítás
A Wikipédiából, a szabad lexikonból.
A statisztikában a regressziószámítás, vagy regresszióanalízis során két vagy több véletlen változó között fennálló kapcsolatot modellezzük. A regressziós modell tulajdonságai alapján megkülönböztethetünk lineáris és nemlineáris regressziót, az adataink alapján pedig idősor, keresztmetszeti, és panel regresszióanalízist.
[szerkesztés] 1. Alapfogalmak
A regressziós egyenletben a magyarázandó vagy függő változót (Y) a magyarázó változók vagy regresszorok (X) segítségével magyarázzuk. A regressziós egyenletek fontos eleme a maradék (reziduum) vagy hibaváltozó (e, u, vagy gyakran ε), vagyis a modellünk által nem magyarázott rész. Ha a függő változónkat egy magyarázó változó segítségével modellezzük, akkor kétváltozós regresszióról, ha pedig több X változót is használunk, többváltozós regresszióról beszélünk.
[szerkesztés] 2. Lineáris regresszió
A kétváltozós lináris regressziós egyenlet általános formában:
Yi = β0 + β1Xi + ei
Ahol a β karakter az együtthatókat vagy koefficienseket jelöli. Bár az együtthatókat általában a görög ABC betűivel jelölik, ettől a gyakorlattól az szakirodalomban gyakran eltérnek. A β0 együtthatót az egyenlet konstansának, vagy tengelymetszetnek is szokták nevezni. Ez nem minden esetben része az egyenletnek.
A többváltozós (k-változós) lineáris regressziós egyenlet általános formában:
, ahol, ha az egyenletnek van konstansa, X0 = 1, egyébként X0 = 0.
Megjegyzés: A "lineáris regresszió" alkalmazásához csak annyi szükséges, hogy a modellünk paramétereiben lineáris legyen. Ez nem követli meg, hogy az Y és X változók közötti kapcsolat linearitását. Példa: Az egyenlet ebben a formában paramétereiben nem lineáris, és lineáris regresszióval nem becsülhető. Loglineáris átalakítás után a következő egyenletet kapjuk:
. Ez az egyenlet, bár nemlineáris kapcsolatot fejez ki Y és X között, paramétereiben lineáris, és így lineáris regresszióval becsülhető.
Az együtthatók becslésére alkalmazott eljárások:
- a Legkisebb Négyzetek Módszere (Ordinary Least Squares – OLS)
- az Általánosított Legkisebb Négyzetek Módszere (Generalized Least Squares- GLS)
- az Általánosított Momentumok Módszere (Generalized Method of Moments- GMM)
- a Legnagyobb Valószínűség Módszere (Maximum Likelihood estimation- ML).
[szerkesztés] 3. Nemlineáris regresszió
Nemlineáris regressziószámítást akkor alkalmaznak, ha a modell paramétereiben nem lineáris. Ekkor, ellentétben a lineáris regresszióval, nem lehetséges általános, analitikus módon megadni a becslőfüggvényt. Ehelyett iterációs (ismétléses) becslést alkalmaznak (numerikus optimalizációs algoritmusokat).
3.1 Nemlineáris Legkisebb Négyzetek
A leggyakoribb becslési módszer a Nemlináris Legkisebb Négyzetek (non-linear least squares) módszere. A hagyományos lineáris regresszióknál használt legkisebb négyzetek módszeréhez hasonlóan, az iteráció során azokat a paramétereket (együtthatókat) keressük, amelyek mellett a reziduum (eltérés) négyzetösszege a legkisebb.
3.2 Legnagyobb Valószínűség Módszere
A másik gyakori becslési mód a Legnagyobb Valószínűség módszere (Maximum Likelihood), amelynél azokat a paramétereket keressük, amelyek mellett a függvényünk a mintánkban megfigyelt értékeket a legnagyobb valószínűséggel veszi fel. Ehhez fel kell tételeznünk, hogy az adatok valószínségeloszlása ismert (valamilyen nevezetes eloszlást követ). Ekkor minden egyes i megfigyelésünkre kifejezhetjük annak valószínűségét, hogy Y függő változónk éppen a megfigyelt értéket veszi fel. Az együttes sűrűségfüggvény (joint probability density function) az egyedi sűrűségfüggvények szorzataként áll elő (a megfigyelések függetlenségét feltételezve). Mivel ez a függvény annak a valószínűségét adja meg, hogy az egyenletünk a függő változó megfigyelt értékeit veszi fel, valószínűség vagy Likelihood függvény-nek is nevezik. Az optimalizálásnál ennek a függvénynek a logartimusát szokták venni, amit log-likelihood függvény-nek neveznek. Az iterációs eljárásnál azokat az együtthatókat keressük, amelyek mellett a log-likelihood függvény a lehető legnagyobb értéket veszi fel.