Gegevens transformeren

Praktische kwesties

  • Definitie: transformatie is een wiskundige bewerking die de meetschaal van een variabele verandert.
  • Stabiliseren van variantie: bv. log, vierkantswortel.
  • Normaliseren: bv. vierkantswortel voor Poisson-gegevens, log voor odds.
  • Het effect van uitschieters verminderen: b.v. reciproque.
  • Een meetschaal betekenisvoller maken: b.v. number needed to treat van absolute risicoreductie.
  • Een relatie linaireariseren: b.v. gewicht evenredig met lengte in blokjes, botsterkte evenredig met lengte in het kwadraat.
  • Negatieve waarden zijn een probleem bij log- en vierkantsworteltransformaties. Om dit probleem te ondervangen, kan een geschikte constante aan de oorspronkelijke waarde worden toegevoegd voordat een log- of vierkantswortel wordt genomen; het is het beste het advies van een statisticus in te winnen over de keuze van de constante.
  • Ranking van gegevens is een krachtige normaliseringstechniek, omdat daarmee beide staarten van een verdeling worden getrokken, maar daarbij kan belangrijke informatie verloren gaan.
  • Trim points zijn een alternatief voor transformatie bij scheve gegevens: b.v. gebruik van gemiddelde ± 3 standaardafwijkingen of mediaan ± 1,5 * interkwartielafstand, in plaats van een transformatie zoals log/geometrisch gemiddelde.
  • De ladder van machten van transformaties (1/x², 1/x, ln(x), sqr(x), x²) heeft een toenemend effect op het naar binnen trekken van de rechterstaart van een verdeling.
  • Het kiezen van de beste transformatie kan een ingewikkelde zaak zijn; een combinatie van verkennende technieken zoals Box-Cox, Manley, scheefheidindex en QQ-plots kan nodig zijn; het is het beste hierbij een statisticus te betrekken.

Basics

Transformatie is een wiskundige bewerking die de meetschaal van een variabele verandert. Dit wordt gewoonlijk gedaan om een reeks bruikbaar te maken met een bepaalde statistische toets of methode.

Veel statistische methoden vereisen gegevens die een bepaald soort verdeling volgen, meestal een normale verdeling. Alle waarnemingen moeten afkomstig zijn uit een populatie die een normale verdeling volgt. Groepen van waarnemingen moeten afkomstig zijn uit populaties die dezelfde variantie of standaardafwijking hebben. Transformaties die een verdeling normaliseren, maken de variantie meestal uniformer en vice versa.

Als een populatie met een normale verdeling willekeurig wordt bemonsterd, zullen de gemiddelden van de steekproeven niet gecorreleerd zijn met de standaardafwijkingen van de steekproeven. Dit verklaart gedeeltelijk waarom normaliserende transformaties ook varianties uniform maken. De Central Limit Theorem (de gemiddelden van een groot aantal steekproeven volgen een normale verdeling) is een sleutel om deze situatie te begrijpen.

Veel biomedische waarnemingen zullen een product zijn van verschillende invloeden, bijvoorbeeld de weerstand van de bloedvaten en de output van het hart zijn twee van de invloeden die het nauwst samenhangen met de bloeddruk. In wiskundige termen vermenigvuldigen deze invloeden zich gewoonlijk om een totale invloed te geven, dus als wij de logaritme van de totale invloed nemen dan is dit de som van de individuele invloeden . De Central Limit Theorem schrijft dus voor dat de logaritme van het product van verschillende invloeden een normale verdeling volgt.

Een andere algemene regel is dat elke relatie tussen gemiddelde en variantie gewoonlijk eenvoudig is; variantie evenredig met groepsgemiddelde, gemiddelde in het kwadraat, gemiddelde tot macht x enz. Een transformatie wordt gebruikt om dit verband op te heffen en zo het gemiddelde onafhankelijk te maken van de variantie. De meest voorkomende situatie is dat de variantie evenredig is met het kwadraat van het gemiddelde (d.w.z. de standaardafwijking is evenredig met het gemiddelde), hier wordt een log-transformatie gebruikt (b.v. serumcholesterol). Worteltransformatie wordt gebruikt wanneer de variantie evenredig is met het gemiddelde, bijvoorbeeld bij Poisson verdeelde gegevens. Waarnemingen die in tijd en/of ruimte worden geteld (b.v. gevallen van meningokokkenmeningitis in een stad in een jaar) volgen vaak een Poisson-verdeling; hier is het gemiddelde gelijk aan de variantie. Bij sterk variabele grootheden zoals serumcreatinine is de variantie vaak evenredig met het kwadraat van de standaardafwijking (d.w.z. gemiddelde tot de macht 4); hier wordt de reciproke transformatie (1/X) gebruikt.

Transformaties die het verband tussen variantie en gemiddelde opheffen, normaliseren gewoonlijk ook de verdeling van de gegevens. Gangbare statistische methoden kunnen dan op de getransformeerde gegevens worden toegepast. Slechts een deel van de resultaten van dergelijke tests kan echter worden teruggerekend naar de oorspronkelijke meetschaal van de gegevens, de rest moet worden uitgedrukt in termen van de getransformeerde variabele(n) (b.v. log(serumtriglyceride) als een voorspeller in een regressiemodel). Een voorbeeld van een teruggetransformeerde statistiek is het meetkundig gemiddelde en zijn betrouwbaarheidsinterval; de antilog van het gemiddelde van de log-getransformeerde gegevens is het meetkundig gemiddelde en zijn betrouwbaarheidsinterval is de antilog van het betrouwbaarheidsinterval voor het gemiddelde van de log-getransformeerde gegevens.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.