Transformieren von Daten

Praktische Fragen

  • Definition: Transformation ist eine mathematische Operation, die die Messskala einer Variablen verändert.
  • Stabilisieren der Varianz: z.B. log, Quadratwurzel.
  • Normalisieren: z.B. Quadratwurzel für Poisson-Daten, log für Odds.
  • Verringerung des Effekts von Ausreißern: z.B. reziprok.
  • Skalierung einer Messung: z.B. Number needed to treat aus absoluter Risikoreduktion.
  • Linearisierung einer Beziehung: z.B. Gewicht proportional zur Länge kubisch, Knochenstärke proportional zur Länge zum Quadrat.
  • Negative Werte sind ein Problem bei Log- und Quadratwurzeltransformationen. Um dieses Problem zu überwinden, kann eine geeignete Konstante zum ursprünglichen Wert addiert werden, bevor eine Logarithmus- oder Quadratwurzel-Transformation durchgeführt wird; es ist am besten, einen Statistiker bei der Wahl der Konstante zu Rate zu ziehen.
  • Daten zu ordnen ist eine leistungsfähige Normalisierungstechnik, da sie beide Schwänze einer Verteilung einbezieht, aber dabei können wichtige Informationen verloren gehen.
  • Trim-Points sind eine Alternative zur Transformation bei schiefen Daten: z.B. Verwendung von Mittelwert ± 3 Standardabweichungen oder Median ± 1,5 * Interquartilsbereich, anstelle einer Transformation wie log/geometrisches Mittel.
  • Die Potenzleiter von Transformationen (1/x², 1/x, ln(x), sqr(x), x²) hat den Effekt, dass der rechte Schwanz einer Verteilung zunehmend eingezogen wird.
  • Die Auswahl der besten Transformation kann eine komplexe Angelegenheit sein; eine Kombination von Untersuchungstechniken wie Box-Cox, Manley, Schiefe-Index und QQ-Plots kann erforderlich sein; es ist am besten, einen Statistiker damit zu beauftragen.

Grundlagen

Transformation ist eine mathematische Operation, die die Messskala einer Variablen ändert. Dies geschieht in der Regel, um einen Satz von Daten für einen bestimmten statistischen Test oder eine bestimmte Methode verwendbar zu machen.

Viele statistische Methoden erfordern Daten, die einer bestimmten Art von Verteilung folgen, normalerweise einer Normalverteilung. Alle Beobachtungen müssen aus einer Grundgesamtheit stammen, die einer Normalverteilung folgt. Gruppen von Beobachtungen müssen aus Grundgesamtheiten stammen, die die gleiche Varianz oder Standardabweichung aufweisen. Transformationen, die eine Verteilung normalisieren, machen in der Regel die Varianz gleichmäßiger und umgekehrt.

Wenn eine Grundgesamtheit mit Normalverteilung nach dem Zufallsprinzip entnommen wird, sind die Mittelwerte der Stichproben nicht mit den Standardabweichungen der Stichproben korreliert. Dies erklärt zum Teil, warum normalisierende Transformationen auch die Varianzen einheitlich machen. Der zentrale Grenzwertsatz (die Mittelwerte einer großen Anzahl von Stichproben folgen einer Normalverteilung) ist ein Schlüssel zum Verständnis dieser Situation.

Viele biomedizinische Beobachtungen sind ein Produkt verschiedener Einflüsse, zum Beispiel sind der Widerstand der Blutgefäße und die Leistung des Herzens zwei der Einflüsse, die am engsten mit dem Blutdruck verbunden sind. Mathematisch gesehen multiplizieren sich diese Einflüsse in der Regel zu einem Gesamteinfluss. Wenn wir also den Logarithmus des Gesamteinflusses nehmen, ist dies die Summe der einzelnen Einflüsse. Der zentrale Grenzwertsatz besagt also, dass der Logarithmus des Produkts mehrerer Einflüsse einer Normalverteilung folgt.

Eine weitere allgemeine Regel besagt, dass jede Beziehung zwischen Mittelwert und Varianz normalerweise einfach ist; die Varianz ist proportional zum Gruppenmittelwert, zum mittleren Quadrat, zum Mittelwert hoch x usw. Eine Transformation wird verwendet, um diese Beziehung aufzuheben und somit den Mittelwert unabhängig von der Varianz zu machen. Am häufigsten ist die Situation, dass die Varianz proportional zum Quadrat des Mittelwerts ist (d. h. die Standardabweichung ist proportional zum Mittelwert), hier wird die Logarithmentransformation verwendet (z. B. Serumcholesterin). Die Quadratwurzeltransformation wird verwendet, wenn die Varianz proportional zum Mittelwert ist, z. B. bei Poisson-verteilten Daten. Beobachtungen, die zeitlich und/oder räumlich gezählt werden (z. B. Fälle von Meningokokken-Meningitis in einer Stadt in einem Jahr), folgen oft einer Poisson-Verteilung; hier ist der Mittelwert gleich der Varianz. Bei stark variablen Größen wie Serumkreatinin ist die Varianz oft proportional zum Quadrat der Standardabweichung (d. h. Mittelwert hoch 4); hier wird die reziproke Transformation (1/X) verwendet.

Transformationen, die das Verhältnis zwischen Varianz und Mittelwert aufheben, normalisieren in der Regel auch die Verteilung der Daten. Auf die transformierten Daten können dann gängige statistische Verfahren angewendet werden. Allerdings kann nur ein Teil der Ergebnisse solcher Tests in die ursprüngliche Messskala der Daten zurücktransformiert werden, der Rest muss in Form der transformierten Variable(n) ausgedrückt werden (z. B. log(Serumtriglycerid) als Prädiktor in einem Regressionsmodell). Ein Beispiel für eine rücktransformierte Statistik ist der geometrische Mittelwert und sein Konfidenzintervall; der Antilog des Mittelwerts log-transformierter Daten ist der geometrische Mittelwert und sein Konfidenzintervall ist der Antilog des Konfidenzintervalls für den Mittelwert der log-transformierten Daten.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.