GYakorlati kérdések
- Meghatározás: A transzformáció olyan matematikai művelet, amely megváltoztatja egy változó mérési skáláját.
- Variancia stabilizálása: pl. log, négyzetgyök.
- Normálás: pl. négyzetgyök Poisson adatoknál, log esélyeknél.
- A kiugró értékek hatásának csökkentése: pl. reciprok.
- Mérési skála értelmesebbé tétele: pl. a kezeléshez szükséges szám az abszolút kockázatcsökkenésből.
- Linerarizál egy összefüggést: pl. a súly arányos a hossz kockával, a csonterősség arányos a hossz négyzetével.
- Negatív értékek problémát jelentenek a log és négyzetgyök transzformációkkal. E probléma kiküszöbölése érdekében a log- vagy négyzetgyökvonás előtt az eredeti értékhez hozzáadható egy megfelelő konstans; a legjobb, ha a konstans kiválasztásához statisztikus tanácsát kérjük ki.
- Az adatok rangsorolása erőteljes normalizálási technika, mivel az eloszlás mindkét végét behúzza, de ezáltal fontos információk veszhetnek el.
- A metszéspontok a transzformáció alternatívája ferde adatok esetén: pl. az átlag ± 3 standard eltérés vagy a medián ± 1,5 * interkvartilis tartomány használata olyan transzformáció helyett, mint a log/geometriai átlag.
- A transzformációk hatványainak létrája (1/x², 1/x, ln(x), sqr(x), x²) növekvő hatással van az eloszlás jobb oldali farkának behúzására.
- A legjobb transzformáció kiválasztása összetett kérdés lehet; feltáró technikák, például Box-Cox, Manley, ferdeségindex és QQ-diagramok kombinációjára lehet szükség; a legjobb, ha ehhez statisztikus szakembert vonunk be.
Az alapok
A transzformáció olyan matematikai művelet, amely megváltoztatja egy változó mérési skáláját. Ezt általában azért végzik, hogy egy adott statisztikai teszttel vagy módszerrel használhatóvá tegyenek egy halmazt.
Néhány statisztikai módszer olyan adatokat igényel, amelyek egy bizonyos típusú eloszlást, általában normális eloszlást követnek. Az összes megfigyelésnek olyan sokaságból kell származnia, amely normális eloszlást követ. A megfigyelések csoportjainak olyan populációkból kell származniuk, amelyek azonos szórással vagy szórással rendelkeznek. Az eloszlást normalizáló transzformációk általában egyenletesebbé teszik a szórást és fordítva.
Ha egy normális eloszlású populációból véletlenszerűen veszünk mintát, akkor a minták átlagai nem fognak korrelálni a minták szórásával. Ez részben megmagyarázza, hogy a normalizáló transzformációk miért teszik a varianciákat is egyenletessé. A központi határértéktétel (nagyszámú minta átlagai normális eloszlást követnek) kulcsfontosságú ennek a helyzetnek a megértéséhez.
Sok orvosbiológiai megfigyelés különböző hatások eredője lesz, például az erek ellenállása és a szív teljesítménye a vérnyomással leginkább összefüggő két hatás. Matematikai értelemben ezek a hatások általában összeszorzódnak, hogy egy általános hatást adjanak, így ha az általános hatás logaritmusát vesszük, akkor ez az egyes hatások összege . A központi határértéktétel tehát azt diktálja, hogy több befolyás szorzatának logaritmusa normális eloszlást követ.
Egy másik általános szabály, hogy az átlag és a variancia közötti bármilyen kapcsolat általában egyszerű; a variancia arányos a csoportátlaggal, a négyzetközzel, az átlag x hatványával stb. Egy transzformációt arra használunk, hogy ezt a kapcsolatot megszüntessük, és így az átlagot függetlenné tegyük a varianciától. A leggyakoribb helyzet az, hogy a variancia arányos az átlag négyzetével (azaz a szórás arányos az átlaggal), itt log-transzformációt alkalmaznak (pl. szérumkoleszterin). Négyzetgyök-transzformációt akkor használunk, ha a szórás arányos az átlaggal, például Poisson-eloszlású adatok esetén. Az időben és/vagy térben megszámolt megfigyelések (pl. a meningococcus okozta agyhártyagyulladás esetei egy városban egy év alatt) gyakran Poisson-eloszlást követnek; itt az átlag egyenlő a szórással. Erősen változó mennyiségeknél, mint például a szérum kreatinin, akkor a variancia gyakran arányos a szórás négyzetével (azaz az átlag négyes hatványával); itt a reciprok transzformációt (1/X) használják.
A transzformációk, amelyek megszüntetik a variancia és az átlag közötti kapcsolatot, általában normalizálják az adatok eloszlását is. A transzformált adatokon ezután a szokásos statisztikai módszerek alkalmazhatók. Az ilyen vizsgálatok eredményeinek azonban csak egy része konvertálható vissza az adatok eredeti mérési skálájára, a többit a transzformált változó(k)ra kell kifejezni (pl. log(szérum triglicerid) mint prediktor egy regressziós modellben). A visszatranszformált statisztika példája a geometriai átlag és annak konfidenciaintervalluma; a log-transzformált adatok átlagának antilogja a geometriai átlag, konfidenciaintervalluma pedig a log-transzformált adatok átlagára vonatkozó konfidenciaintervallum antilogja.