Zagadnienia praktyczne
- Definicja: transformacja jest operacją matematyczną, która zmienia skalę pomiaru zmiennej.
- Stabilizowanie wariancji: np. log, pierwiastek kwadratowy.
- Normalizacja: np. pierwiastek kwadratowy dla danych Poissona, log dla szans.
- Zmniejszanie wpływu wartości odstających: np. odwrotność.
- Poprawianie znaczenia skali pomiarowej: np. liczba potrzebna do leczenia z bezwzględnego zmniejszenia ryzyka.
- Liniaryzacja zależności: np. waga proporcjonalna do długości sześciennej, wytrzymałość kości proporcjonalna do kwadratu długości.
- Negatywne wartości stanowią problem przy przekształceniach log i pierwiastek kwadratowy. Aby przezwyciężyć ten problem, można dodać odpowiednią stałą do oryginalnej wartości przed wykonaniem przekształcenia logarytmicznego lub pierwiastkowego; najlepiej jest zasięgnąć porady statystyka w sprawie wyboru stałej.
- Rankowanie danych jest potężną techniką normalizacji, ponieważ wciąga oba ogony rozkładu, ale można przy tym stracić ważne informacje.
- Punkty przecięcia są alternatywą dla transformacji w przypadku danych skośnych: np. użycie średniej ± 3 odchylenia standardowe lub mediany ± 1,5 * rozstęp międzykwartylowy, zamiast transformacji takiej jak log/średnia geometryczna.
- Drabina potęg przekształceń (1/x², 1/x, ln(x), sqr(x), x²) ma rosnący efekt wciągania prawego ogona rozkładu.
- Wybór najlepszej transformacji może być złożoną kwestią; kombinacja technik eksploracyjnych, takich jak Box-Cox, Manley, skewness index i QQ plots może być wymagana; najlepiej jest zaangażować w to statystyka.
Podstawy
Transformacja jest operacją matematyczną, która zmienia skalę pomiaru zmiennej. Zwykle robi się to po to, aby zestaw danych nadawał się do użycia z określonym testem statystycznym lub metodą.
Wiele metod statystycznych wymaga danych, które są zgodne z określonym rodzajem rozkładu, zwykle rozkładem normalnym. Wszystkie obserwacje muszą pochodzić z populacji, która ma rozkład normalny. Grupy obserwacji muszą pochodzić z populacji, które mają taką samą wariancję lub odchylenie standardowe. Przekształcenia, które normalizują rozkład, zwykle sprawiają, że wariancja jest bardziej jednolita i vice versa.
Jeśli populacja o rozkładzie normalnym jest losowo próbkowana, wtedy średnie z próbek nie będą skorelowane z odchyleniami standardowymi próbek. To częściowo wyjaśnia, dlaczego transformacje normalizujące również ujednolicają wariancje. Centralne Twierdzenie Graniczne (środki dużej liczby próbek są zgodne z rozkładem normalnym) jest kluczem do zrozumienia tej sytuacji.
Wiele obserwacji biomedycznych będzie produktem różnych wpływów, na przykład opór naczyń krwionośnych i wyjście z serca są dwoma wpływami najbardziej związanymi z ciśnieniem krwi. W kategoriach matematycznych te wpływy zwykle mnożą się razem, dając ogólny wpływ, więc jeśli weźmiemy logarytm z ogólnego wpływu, to jest to suma poszczególnych wpływów. Centralne twierdzenie graniczne nakazuje więc, że logarytm iloczynu kilku wpływów ma rozkład normalny.
Inna ogólna zasada jest taka, że każdy związek między średnią a wariancją jest zazwyczaj prosty; wariancja proporcjonalna do średniej grupy, średniej kwadratowej, średniej do potęgi x itd. Transformacja jest używana do anulowania tego związku i w ten sposób uniezależnia średnią od wariancji. Najczęściej wariancja jest proporcjonalna do kwadratu średniej (tzn. odchylenie standardowe jest proporcjonalne do średniej), w tym przypadku stosuje się transformację logarytmiczną (np. cholesterol w surowicy). Transformacja pierwiastka kwadratowego jest stosowana, gdy wariancja jest proporcjonalna do średniej, na przykład w przypadku danych o rozkładzie Poissona. Obserwacje, które są liczone w czasie i/lub przestrzeni (np. przypadki meningokokowego zapalenia opon mózgowych w danym mieście w ciągu roku) często mają rozkład Poissona; w tym przypadku średnia jest równa wariancji. W przypadku bardzo zmiennych wielkości, takich jak kreatynina w surowicy, wariancja jest często proporcjonalna do kwadratu odchylenia standardowego (tj. średnia do potęgi 4); w tym przypadku stosuje się przekształcenie odwrotne (1/X).
Transformacje, które znoszą związek między wariancją i średnią, również zazwyczaj normalizują rozkład danych. Na tak przekształconych danych można następnie stosować powszechnie stosowane metody statystyczne. Jednak tylko niektóre wyniki takich testów mogą być przekształcone z powrotem do oryginalnej skali pomiarowej danych, reszta musi być wyrażona w kategoriach przekształconej zmiennej(-ych) (np. log(trigliceryd w surowicy) jako predyktor w modelu regresji). Przykładem statystyki przekształconej wstecz jest średnia geometryczna i jej przedział ufności; antylog średniej z danych przekształconych logarytmicznie jest średnią geometryczną, a jej przedział ufności jest antylogiem przedziału ufności dla średniej z danych przekształconych logarytmicznie.