Egymintás t-próba
A Wikipédiából, a szabad lexikonból.
Az egymintás t-próba a statiszitkai hipotézisvizsgálatok közül a paraméteres próbák közé tartozik. A próba azt vizsgálja, hogy egy mintában egy valószínűségi változó átlaga szignifikánsan különbözik-e egy adott m értéktől.
Tartalomjegyzék |
[szerkesztés] A próba alkalmazásának feltételei
- a vizsgált valószínűségi változó normális eloszlású
- a vizsgált valószínűségi változó intervallum vagy arányskálán mért
[szerkesztés] A próba nullhipotézise
Nullhipotézis: a minta átlaga statisztikai szempontból megegyezik az előre megadott m értékkel.
Alternatív hipotézis: a minta átlaga statisztikai szempontból nem egyezik meg az előre megadott m értékkel.
- A "statisztikai szempontból" kifejezés itt arra utal, hogy az eltérés a mintából kiszámolt átlag és az m érték között olyan minimális, hogy pusztán csak a véletlen ingadozásnak tulajdonítható (ekkor a minta átlaga statisztikai szempontból azonosnak tekinthető az m-mel), vagy jelentősen nagyobb, mint ami a véletlennel magyarázható (ekkor a minta átlaga statisztikai szempontból nem egyezik meg m-mel).
Valójában a fenti két hipotézis precíz matematikai megfogalmazása a következő.
- H0: Az X valószínűségi változó várható értéke megegyezik m-mel.
- H1: Az X valószínűségi változó várható értéke nem egyezik meg m-mel.
[szerkesztés] A próbastatisztika
Az egymintás t-próba próbastatisztikája
ahol
a vizsgált valószínűségi változó átlaga a mintában,
- s a vizsgált valószínűségi változó becsült szórása,
- m az előre adott érték, amihez az átlagot viszonyítjuk (ld. nullhipotézis) és
- n a minta elemszáma.
A szórást itt többnyire a szokott képlettel becsüljük, ahol a minta az {x1,x2,...,xn} értékekből áll.
Azonban ha a minta elemszáma kisebb mint 30 (vagyis n<30), akkor a szórás helyett a korrigált szórással szoktunk számolni, melyet s helyett s*-gal jelölünk. Ennek képlete
.
Az n<30 esetben tehát a t próbastatisztika képletében az s helyére s* kerül. (A csere mögött az a meggondolás áll, hogy az s torzított becslése míg s* torzítatlan becslése a szórásnak.)
[szerkesztés] A próba végrehajtásának lépései
- Az t próbastatisztika értékének kiszámítása.
- A p szignifikancia szint megválasztása. (Ez a legtöbb vizsgálat esetén 0,05 vagy 0,01.)
- A p szignifikancia szinttől függő tp érték kiválasztása a próbának megfelelő táblázatból. A táblázat jelen esetben a t-eloszlás táblázata, melyre szoktak úgy is utalni, mint Student-eloszlás, illetve Student-féle t-eloszlás. A táblázat kétdimenziós, a p szignifikancia szint és az f szabadsági fok ismeretében azonnal megkapjuk a táblázatbeli tp értéket. Az f szabadsági fokot az egymintás t-próba esetén az f = n – 1 képlettel számítjuk.
- A nullhipotézisre vonatkozó döntés meghozása.
- Ha |t| ≥ tp, akkor a nullhipotézist elvetjük, az alternatív hipotézist tartjuk meg, és az eredményt úgy interpretáljuk, hogy a mintában a vizsgált valószínűségi változó átlaga szignifikánsan eltér az adott m értéktől (p szignifikancai szint mellett).
- Ha |t| < tp, akkor a nullhipotézist megtartjuk, amit úgy interpretálunk, hogy az egymintás t-próba nem mutat ki szignifikáns különbséget a vizsgált valószínűségi változó mintabeli átlaga és az adott m érték között (p szignifikancia szint mellett).
[szerkesztés] Példa
Egy gyárban egy gépnek 500 gr töltőanyagot kell a konzervekbe juttatnia minden töltéskor. A töltőanyag egyenetlenségéből adódóan a gép néha kicsit többet, néha kicsit kevesebbet tölt, mint 500 gr. Arra nagyunk kíváncsiak, hogy a gép átlagos "teljesítménye" 500 gr-nak mondható-e. Kiveszünk 10 konzervet a futószalagról és megmérjük mindben a töltőanyag súlyát. Az eredmények rendre
483, 502, 498, 496, 502, 483, 494, 491, 505, 486.
Azt látjuk, hogy a töltőanyag súlya többnyire valóban nem tér el az 500 gr-tól nagyon, az átlag = 494. Ránézésre mégsem tudjuk megállapítani, hogy ez a 494 gr lényegesen eltér-e az 500 gr-tól vagy csak a véletlennek tulajdonítható apró eltérésről van szó. Ennek a dilemmának az eldöntésére egymintás t-próbát alkalmazunk.
Feltesszük, hogy a töltőanyag súlya, mint valószínűségi változó normális eloszlást követ. (Hogy ez így van-e azt illeszkedésvizsgálatokkal, azon belül is normalitásvizsálatokkal lehetne ellenőrizni.) A súly kg-ban való mérése arányskála, így az egymintás t-próba alkalmazásának feltételei teljesülnek. Mivel a minta elemszáma n = 10 < 30 így a szórás becslésére az s* képletet használjuk: s* = 8,05 adódik. Az érték, amitől a minta átlagának esetleges eltérésére vagyunk kíváncsiak, nyilvánvalóan az m = 500 érték. A próbastatisztika képletének minden elemét ismerjük, tehát számítható
Vegyük a szignifikancia szintet p = 0,05-nek azaz 5%-os kockázatot vállalunk arra, hogy esetleg úgy vetjük el a nullhipotézist, hogy az közben igaz. A szabadsági fok f = n -1 = 9, így a p és az f ismeretében a t-eloszlás táblázatából könnyen kikereshetjük a megfelelő táblázat beli értéket, ami tp = t0,05 = 2,262.
t ≈ 2,36 miatt u > 2,3 > 2,262 = t0,05
azaz |t| ≥ tp teljesül.
Így a nullhipotézist elvethetjük, az egymintás t-próba szerint az átlagos töltősúly szignifikánsan eltér (p = 0,05-ös szignifikancia szint mellett) az 500 gr-tól.
[szerkesztés] A próba matematikai háttere
A próba matematikai hátterének legfontosabb gondolata, hogy bármely X normális eloszlású valószínűségi változóra vett X1, X2, ... Xn minta esetén az
,
és
jelölésekkel élve megmutatható, hogy a
valószínűségi változó (n – 1) szabadsági fokú t-eloszlást követ.
Emiatt az (n – 1) szabadsági fokú t-eloszlás ismeretében bármilyen 1 > p > 0 esetén meg lehet határozni azt az tp értéket, melyre
.
Ez azt jelenti, hogy ha igaz a nullhipotézis, akkor a t próbastatisztika értéke 1-p valószínűséggel a (-tp, tp) intervallumba esik.
[szerkesztés] Megjegyzések
- Az egymintás t-próba bizonyos tekintetben az egymintás u-próba párja. Az egymintás u-próba ugyanezt a nullhipotézis vizsgálja, csak a feltételei közt szerepel az szórás értékének előzetes ismerete, s nem a minta adataiból becsli azt. A próbastatisztika képlete is nagyon hasonló, csak benne az becsült s szórás helyett az eleve adott σ szórás szerepel. Természetesen a két próba matematikai háttere is nagyon hasonló.
- A szakirodalom nem teljesen egységes annak tekintetében, hogy a nullhipotézis elvetéséről vagy megtartásáról szóló döntésben az |t| és tp közötti két egyenlőtlenség közül melyiknél engedi meg az egyenlőséget. Ennek gyakorlati jelentősége nem igazán van, az alkalmazások során nagyon ritkán adódik, hogy a kiszámított próbastatisztika pontosan egybeesen a táblázat beli értékkel. Ha esetleg mégis így alakul, akkor az eredmény úgy interpretálható, hogy a nullhipotézis elvetése esetén a kockázat pontosan megegyezik a szignifikancia szinttel, s innen a kutató (és a tudós társadalom) szája ízétől függ, hogy ebben inkább a nullhipotézis elvetésének, vagy inkább a nullhipotézis megtartásának zálogát látja.
- Érdemes megfigyelni az óvatos fogalmazást a nullhipotézis megtartása esetén. Az általunk meghatározott p szignifikancia szint az elsőfajú hiba elkövetésének valószínűségét adja meg. Ha el tudom vetni a nullhipotézist, akkor ekkora kockázatot vállalok arra nézve, hogy esetleg hiba elvetni. Amennyiben viszont nem tudom elvetni a nullhipotézis, akkor elsőfajú hibát biztosan nem fogok elkövetni, ám elkövethetek másodfajú hibát, melynek kockázatáról semmit nem mond a próba. Ez indokolja, hogy ha a nullhipotézist megtartjuk, akkor nem azt mondjuk, hogy nincs szignifikáns különbség a minta átlata és az előre megadott m érték között, hanem hogy az egymintás t-próba nem tudott szignifikáns különbséget kimutatni (ami ettől még lehet, hogy van).
- A próbát Student-féle t-próbának, vagy egymintás Student-féle t-próbának is szokták nevezni. Az elnevezés mögött az áll, hogy a t próbastatisztika azt a t-eloszlást követi, melyet szoktak Student-eloszlásnak, vagy Student-féle t-eloszlásnak is nevezni.
[szerkesztés] Külső hivatkozások
[szerkesztés] Források
- Fazekas I. (szerk.) (2000): Bevezetés a matematikai statisztikába. Kossuth Egyetemi Kiadó, Debrecen.
- Lukács O. (2002): Matematikai statisztika. Műszaki Könyvkiadó, Budapest.
- Michaletzky Gy. – Mogyoródi J. (1995): Matematikai statisztika, Nemzeti Tankönyvkiadó, Budapest.
- Michelberger P. – Szeidl L. – Várlaki P. (2001): Alkalmazott folyamatstatisztika és idősor-analízis. Typotex Kiadó, Budapest.
- Vargha A. (2000): Matematikai statisztika pszichológiai, nyelvészeti és biológiai alkalmazásokkal. Pólya Kiadó, Budapest.