Transformace dat

Praktické otázky

  • Definice: Transformace je matematická operace, která mění měřítko měření proměnné.
  • Stabilizace rozptylu: např. logaritmus, odmocnina.
  • Normalizace: např. odmocnina pro Poissonova data, logaritmus pro šance.
  • Snížení vlivu odlehlých hodnot: např. reciproční.
  • Zvýraznění měřítka měření: např. počet potřebný k léčbě z absolutního snížení rizika.
  • Linearizace vztahu: např. hmotnost úměrná délce v krychli, pevnost kostí úměrná délce na druhou.
  • Záporné hodnoty jsou problémem při transformaci log a odmocnin. K překonání tohoto problému lze k původní hodnotě před provedením logaritmické nebo odmocninové transformace přičíst vhodnou konstantu; s výběrem konstanty je nejlepší poradit se se statistikem.
  • Ranžování dat je účinná normalizační technika, protože vtahuje oba chvosty rozdělení, ale může se při ní ztratit důležitá informace.
  • Trimovací body jsou alternativou transformace u šikmých dat: např. použití průměru ± 3 směrodatné odchylky nebo mediánu ± 1,5 * mezikvartilové rozpětí místo transformace, jako je logaritmus/geometrický průměr.
  • Žebříček mocninných transformací (1/x², 1/x, ln(x), sqr(x), x²) má rostoucí účinek vtažení pravého chvostu rozdělení.
  • Výběr nejlepší transformace může být složitou záležitostí; může být zapotřebí kombinace průzkumných technik, jako jsou Box-Cox, Manley, index šikmosti a QQ grafy; nejlépe je zapojit do této činnosti statistika.

Základy

Transformace je matematická operace, která mění měřítko měření proměnné. Obvykle se to provádí proto, aby byl soubor použitelný s určitým statistickým testem nebo metodou.

Mnoho statistických metod vyžaduje data, která se řídí určitým druhem rozdělení, obvykle normálním rozdělením. Všechna pozorování musí pocházet z populace, která se řídí normálním rozdělením. Skupiny pozorování musí pocházet z populací, které mají stejný rozptyl nebo směrodatnou odchylku. Transformace, které normalizují rozdělení, běžně způsobují, že rozptyl je rovnoměrnější a naopak.

Pokud je populace s normálním rozdělením vybrána náhodně, pak střední hodnoty vzorků nebudou korelovat se směrodatnými odchylkami vzorků. To částečně vysvětluje, proč normalizační transformace způsobují také rovnoměrnost rozptylů. Klíčem k pochopení této situace je centrální limitní věta (střední hodnoty velkého počtu vzorků se řídí normálním rozdělením).

Mnoho biomedicínských pozorování bude výsledkem působení různých vlivů, například odpor cév a výkon srdce jsou dva vlivy, které nejvíce souvisejí s krevním tlakem. Z matematického hlediska se tyto vlivy obvykle násobí a dávají celkový vliv, takže pokud vezmeme logaritmus celkového vlivu, pak je to součet jednotlivých vlivů . Centrální limitní věta tedy říká, že logaritmus součinu několika vlivů se řídí normálním rozdělením.

Dalším obecným pravidlem je, že jakýkoli vztah mezi průměrem a rozptylem je obvykle jednoduchý; rozptyl úměrný skupinovému průměru, průměru na druhou, průměru na mocninu x atd. Transformace se používá k tomu, aby se tento vztah zrušil, a tím se střední hodnota stala nezávislou na rozptylu. Nejčastější situací je, že rozptyl je úměrný čtverci průměru (tj. směrodatná odchylka je úměrná průměru), zde se používá logaritmická transformace (např. sérový cholesterol). Transformace odmocninou se používá, když je rozptyl úměrný průměru, např. u dat s Poissonovým rozdělením. Pozorování, která jsou počítána v čase a/nebo prostoru (např. případy meningokokové meningitidy ve městě za rok), se často řídí Poissonovým rozdělením; zde je průměr roven rozptylu. U vysoce variabilních veličin, jako je např. sérový kreatinin, je pak rozptyl často úměrný kvadrátu směrodatné odchylky (tj. průměr na mocninu 4); zde se používá reciproční transformace (1/X).

Transformace, které ruší vztah mezi rozptylem a průměrem, také obvykle normalizují rozdělení dat. Na transformovaná data pak lze použít běžné statistické metody. Pouze některé výsledky takových testů však lze převést zpět na původní měřítko měření dat, zbytek musí být vyjádřen v transformované proměnné (proměnných) (např. log(triglyceridy v séru) jako prediktor v regresním modelu). Příkladem zpětně transformované statistiky je geometrický průměr a jeho interval spolehlivosti; antilog průměru logaritmicky transformovaných dat je geometrický průměr a jeho interval spolehlivosti je antilog intervalu spolehlivosti pro průměr logaritmicky transformovaných dat.

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.