Transformation af data

Praktiske spørgsmål

  • Definition: Transformation er en matematisk operation, der ændrer måleskalaen for en variabel.
  • Stabiliserer varians: f.eks. log, kvadratrod.
  • Normaliserer: f.eks. kvadratrod for Poisson-data, log for odds.
  • Reducerer effekten af outliers: f.eks. reciprok.
  • Gør en måleskala mere meningsfuld: f.eks. antal der er nødvendigt for at behandle ud fra absolut risikoreduktion.
  • Lineariserer en sammenhæng: f.eks. vægt proportional med længde i kubik, knoglestyrke proportional med længde i kvadrat.
  • Negative værdier er et problem med log- og kvadratrodstransformationer. For at overvinde dette problem kan der lægges en passende konstant til den oprindelige værdi, før der tages en log- eller kvadratrod; det er bedst at søge råd hos en statistiker om valget af konstant.
  • Ranking af data er en effektiv normaliseringsteknik, da den trækker begge haler af en fordeling ind, men der kan gå vigtige oplysninger tabt ved at gøre dette.
  • Trimpunkter er et alternativ til transformation med skæve data: f.eks. brug af middelværdi ± 3 standardafvigelser eller median ± 1,5 * interkvartilinterval i stedet for en transformation som log/geometrisk middelværdi.
  • Stigen af potenser af transformationer (1/x², 1/x, ln(x), sqr(x), x²) har en stigende effekt ved at trække den højre hale af en fordeling ind.
  • Vælgelse af den bedste transformation kan være et komplekst spørgsmål; en kombination af udforskende teknikker som Box-Cox, Manley, skævhedsindeks og QQ-plots kan være nødvendig; det er bedst at involvere en statistiker i dette.

Grundlæggende

Transformation er en matematisk operation, der ændrer målestoksforholdet for en variabel. Dette gøres normalt for at gøre et sæt af brugbart med en bestemt statistisk test eller metode.

Mange statistiske metoder kræver data, der følger en bestemt form for fordeling, normalt en normalfordeling. Alle observationerne skal stamme fra en population, der følger en normalfordeling. Grupper af observationer skal komme fra populationer, der har den samme varians eller standardafvigelse. Transformationer, der normaliserer en fordeling, gør almindeligvis variansen mere ensartet og omvendt.

Hvis en population med normalfordeling udtages tilfældigt som stikprøve, vil stikprøvernes gennemsnit ikke være korreleret med stikprøvernes standardafvigelser. Dette forklarer til dels, hvorfor normaliserende transformationer også gør varianserne ensartede. Den centrale grænsesætning (middelværdierne for et stort antal stikprøver følger en normalfordeling) er en nøgle til at forstå denne situation.

Mange biomedicinske observationer vil være et produkt af forskellige påvirkninger, f.eks. er blodkarrenes modstand og hjertets produktion to af de påvirkninger, der er tættest forbundet med blodtrykket. I matematiske termer multipliceres disse påvirkninger normalt sammen for at give en samlet påvirkning, så hvis vi tager logaritmen af den samlede påvirkning, så er dette summen af de individuelle påvirkninger . Den centrale grænsesætning dikterer således, at logaritmen af produktet af flere påvirkninger følger en normalfordeling.

En anden generel regel er, at ethvert forhold mellem middelværdi og varians normalt er simpelt; varians proportional med gruppens middelværdi, middelværdi i kvadrat, middelværdi i potens x osv. En transformation bruges til at ophæve denne sammenhæng og dermed gøre middelværdien uafhængig af variansen. Den mest almindelige situation er, at variansen er proportional med kvadratet på middelværdien (dvs. standardafvigelsen er proportional med middelværdien), og her anvendes logtransformation (f.eks. serumkolesterol). Kvadratrodstransformation anvendes, når variansen er proportional med middelværdien, f.eks. ved Poisson-fordelte data. Observationer, der tælles i tid og/eller rum (f.eks. tilfælde af meningokok-meningitis i en by i løbet af et år), følger ofte en Poisson-fordeling; her er middelværdien lig med variansen. Ved meget variable størrelser som f.eks. serumkreatinin er variansen ofte proportional med kvadratet på standardafvigelsen (dvs. middelværdi i potens 4); her anvendes den reciprokke transformation (1/X).

Transformationer, der ophæver forholdet mellem varians og middelværdi, normaliserer normalt også datafordelingen. Almindelige statistiske metoder kan derefter anvendes på de transformerede data. Kun nogle af resultaterne af sådanne test kan imidlertid konverteres tilbage til dataenes oprindelige måleskala, resten skal udtrykkes i form af den/de transformerede variabel(er) (f.eks. log(serum triglycerid) som prædiktor i en regressionsmodel). Et eksempel på en tilbage-transformeret statistik er den geometriske middelværdi og dens konfidensinterval; antilog af middelværdien af log-transformerede data er den geometriske middelværdi, og dens konfidensinterval er antilog af konfidensintervallet for middelværdien af de log-transformerede data.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.