Regressziószámítás

A Wikipédiából, a szabad lexikonból.

A statisztikában a regressziószámítás, vagy regresszióanalízis során két vagy több véletlen változó között fennálló kapcsolatot modellezzük. A regressziós modell tulajdonságai alapján megkülönböztethetünk lineáris és nemlineáris regressziót, az adataink alapján pedig idősor, keresztmetszeti, és panel regresszióanalízist.

[szerkesztés] 1. Alapfogalmak

A regressziós egyenletben a magyarázandó vagy függő változót (Y) a magyarázó változók vagy regresszorok (X) segítségével magyarázzuk. A regressziós egyenletek fontos eleme a maradék (reziduum) vagy hibaváltozó (e, u, vagy gyakran ε), vagyis a modellünk által nem magyarázott rész. Ha a függő változónkat egy magyarázó változó segítségével modellezzük, akkor kétváltozós regresszióról, ha pedig több X változót is használunk, többváltozós regresszióról beszélünk.

[szerkesztés] 2. Lineáris regresszió

A kétváltozós lináris regressziós egyenlet általános formában:

Yi = β0 + β1Xi + ei

Ahol a β karakter az együtthatókat vagy koefficienseket jelöli. Bár az együtthatókat általában a görög ABC betűivel jelölik, ettől a gyakorlattól az szakirodalomban gyakran eltérnek. A β0 együtthatót az egyenlet konstansának, vagy tengelymetszetnek is szokták nevezni. Ez nem minden esetben része az egyenletnek.

A többváltozós (k-változós) lineáris regressziós egyenlet általános formában:

Y_i=\sum_{j=0}^k \beta_j X_{j,i} +e_i, ahol, ha az egyenletnek van konstansa, X0 = 1, egyébként X0 = 0.

Megjegyzés: A "lineáris regresszió" alkalmazásához csak annyi szükséges, hogy a modellünk paramétereiben lineáris legyen. Ez nem követli meg, hogy az Y és X változók közötti kapcsolat linearitását. Példa: Az Y_i=\beta_0X_i^{\beta_1}\varepsilon_i egyenlet ebben a formában paramétereiben nem lineáris, és lineáris regresszióval nem becsülhető. Loglineáris átalakítás után a következő egyenletet kapjuk:ln Y_i=ln \beta_0+\beta_1 ln X_i+ln\varepsilon_i. Ez az egyenlet, bár nemlineáris kapcsolatot fejez ki Y és X között, paramétereiben lineáris, és így lineáris regresszióval becsülhető.

Az együtthatók becslésére alkalmazott eljárások:

- a Legkisebb Négyzetek Módszere (Ordinary Least SquaresOLS)

- az Általánosított Legkisebb Négyzetek Módszere (Generalized Least Squares- GLS)

- az Általánosított Momentumok Módszere (Generalized Method of Moments- GMM)

- a Legnagyobb Valószínűség Módszere (Maximum Likelihood estimation- ML).

[szerkesztés] 3. Nemlineáris regresszió

Nemlineáris regressziószámítást akkor alkalmaznak, ha a modell paramétereiben nem lineáris. Ekkor, ellentétben a lineáris regresszióval, nem lehetséges általános, analitikus módon megadni a becslőfüggvényt. Ehelyett iterációs (ismétléses) becslést alkalmaznak (numerikus optimalizációs algoritmusokat).

3.1 Nemlineáris Legkisebb Négyzetek

A leggyakoribb becslési módszer a Nemlináris Legkisebb Négyzetek (non-linear least squares) módszere. A hagyományos lineáris regresszióknál használt legkisebb négyzetek módszeréhez hasonlóan, az iteráció során azokat a paramétereket (együtthatókat) keressük, amelyek mellett a reziduum (eltérés) négyzetösszege a legkisebb.

3.2 Legnagyobb Valószínűség Módszere

A másik gyakori becslési mód a Legnagyobb Valószínűség módszere (Maximum Likelihood), amelynél azokat a paramétereket keressük, amelyek mellett a függvényünk a mintánkban megfigyelt értékeket a legnagyobb valószínűséggel veszi fel. Ehhez fel kell tételeznünk, hogy az adatok valószínségeloszlása ismert (valamilyen nevezetes eloszlást követ). Ekkor minden egyes i megfigyelésünkre kifejezhetjük annak valószínűségét, hogy Y függő változónk éppen a megfigyelt értéket veszi fel. Az együttes sűrűségfüggvény (joint probability density function) az egyedi sűrűségfüggvények szorzataként áll elő (a megfigyelések függetlenségét feltételezve). Mivel ez a függvény annak a valószínűségét adja meg, hogy az egyenletünk a függő változó megfigyelt értékeit veszi fel, valószínűség vagy Likelihood függvény-nek is nevezik. Az optimalizálásnál ennek a függvénynek a logartimusát szokták venni, amit log-likelihood függvény-nek neveznek. Az iterációs eljárásnál azokat az együtthatókat keressük, amelyek mellett a log-likelihood függvény a lehető legnagyobb értéket veszi fel.

Személyes eszközök