Praktiska frågor
- Definition: transformation är en matematisk operation som ändrar mätskalan för en variabel.
- Stabilisering av varians: t.ex. log, kvadratrot.
- Normalisering: t.ex. kvadratrot för Poisson-data, log för odds.
- Minska effekten av outliers: t.ex. reciprok.
- Göra en mätskala mer meningsfull: t.ex. antal som behövs för att behandla från absolut riskminskning.
- Linjalisera ett samband: t.ex. vikt proportionell mot längd i kubik, benstyrka proportionell mot längd i kvadrat.
- Negativa värden är ett problem med log- och kvadratrotsomvandlingar. För att övervinna detta problem kan en lämplig konstant läggas till det ursprungliga värdet innan man tar en log- eller kvadratrot; det är bäst att söka råd hos en statistiker om valet av konstant.
- Rankning av data är en kraftfull normaliseringsteknik eftersom den drar in båda svansarna i en fördelning, men viktig information kan gå förlorad på detta sätt.
- Trimpunkter är ett alternativ till transformation vid skeva data: t.ex. användning av medelvärde ± 3 standardavvikelser eller median ± 1,5 * interkvartilintervall, i stället för en transformation som log/geometriskt medelvärde.
- Stigen med potenser av transformationer (1/x², 1/x, ln(x), sqr(x), x²) har en ökande effekt genom att dra in den högra svansen av en fördelning.
- Välja den bästa transformationen kan vara en komplex fråga; en kombination av utforskande tekniker som Box-Cox, Manley, skewness-index och QQ-plottar kan behövas; det är bäst att involvera en statistiker i detta.
Grundläggande
Transformation är en matematisk operation som ändrar mätskalan för en variabel. Detta görs vanligtvis för att göra en uppsättning användbar med ett visst statistiskt test eller en viss statistisk metod.
Många statistiska metoder kräver data som följer en viss typ av fördelning, vanligtvis en normalfördelning. Alla observationer måste komma från en population som följer en normalfördelning. Grupper av observationer måste komma från populationer som har samma varians eller standardavvikelse. Transformationer som normaliserar en fördelning gör vanligen variansen mer enhetlig och vice versa.
Om en population med normalfördelning provtas slumpmässigt kommer medelvärdena för proverna inte att korrelera med provernas standardavvikelser. Detta förklarar delvis varför normaliserande transformationer också gör varianserna enhetliga. Den centrala gränsvärdessatsen (medelvärdena för ett stort antal stickprov följer en normalfördelning) är en nyckel till att förstå denna situation.
Många biomedicinska observationer kommer att vara en produkt av olika influenser, t.ex. är blodkärlens motstånd och produktionen från hjärtat två av de influenser som är närmast relaterade till blodtrycket. I matematiska termer brukar dessa influenser multipliceras med varandra för att ge ett övergripande inflytande, så om vi tar logaritmen av det övergripande inflytandet så är detta summan av de enskilda influenserna . Den centrala gränssatsen föreskriver således att logaritmen av produkten av flera influenser följer en normalfördelning.
En annan allmän regel är att varje förhållande mellan medelvärde och varians vanligen är enkelt; varians proportionell mot gruppens medelvärde, medelvärde i kvadrat, medelvärde i potens x osv. En transformation används för att upphäva detta förhållande och därmed göra medelvärdet oberoende av variansen. Den vanligaste situationen är att variansen är proportionell mot kvadraten på medelvärdet (dvs. standardavvikelsen är proportionell mot medelvärdet), här används logtransformation (t.ex. serumkolesterol). Kvadratrotstransformation används när variansen är proportionell mot medelvärdet, t.ex. vid Poissonfördelade data. Observationer som räknas i tid och/eller rum (t.ex. fall av meningokockmeningit i en stad under ett år) följer ofta en Poissonfördelning; här är medelvärdet lika med variansen. Med mycket variabla storheter som serumkreatinin är variansen ofta proportionell mot kvadraten på standardavvikelsen (dvs. medelvärdet i 4:e potens); här används den reciproka transformationen (1/X).
Transformationer som upphäver förhållandet mellan varians och medelvärde brukar också normalisera fördelningen av data. Vanliga statistiska metoder kan sedan användas på de transformerade uppgifterna. Endast en del av resultaten av sådana tester kan dock omvandlas tillbaka till den ursprungliga mätskalan för data, resten måste uttryckas i termer av den eller de transformerade variablerna (t.ex. log(serumtriglycerid) som en prediktor i en regressionsmodell). Ett exempel på en bakåttransformerad statistik är det geometriska medelvärdet och dess konfidensintervall; antilogen av medelvärdet av logtransformerade data är det geometriska medelvärdet och dess konfidensintervall är antilogen av konfidensintervallet för medelvärdet av de logtransformerade data.