Trasformazione dei dati

Problemi pratici

  • Definizione: la trasformazione è un’operazione matematica che cambia la scala di misura di una variabile.
  • Stabilizzare la varianza: per esempio log, radice quadrata.
  • Normalizzare: per esempio radice quadrata per dati Poisson, log per probabilità.
  • Ridurre l’effetto degli outlier: per esempio reciproco.
  • Rendere una scala di misurazione più significativa: per esempio numero necessario per trattare dalla riduzione del rischio assoluto.
  • Linearizzare una relazione: per esempio peso proporzionale alla lunghezza al cubo, forza delle ossa proporzionale alla lunghezza al quadrato.
  • I valori negativi sono un problema con le trasformazioni log e radice quadrata. Per superare questo problema, una costante appropriata può essere aggiunta al valore originale prima di prendere un log o una radice quadrata; è meglio chiedere il consiglio di uno statistico sulla scelta della costante.
  • La classificazione dei dati è una tecnica di normalizzazione potente in quanto tira in entrambe le code di una distribuzione, ma importanti informazioni possono essere perse nel farlo.
  • I punti di taglio sono un’alternativa alla trasformazione con dati asimmetrici: per esempio l’uso della media ± 3 deviazioni standard o della mediana ± 1,5 * intervallo interquartile, invece di una trasformazione come il log/media geometrica.
  • La scala di potenze di trasformazioni (1/x², 1/x, ln(x), sqr(x), x²) ha un effetto crescente di tirare nella coda destra di una distribuzione.
  • Selezionare la migliore trasformazione può essere un problema complesso; può essere necessaria una combinazione di tecniche esplorative come Box-Cox, Manley, indice di skewness e diagrammi QQ; è meglio coinvolgere uno statistico con questo.

Basics

Trasformazione è un’operazione matematica che cambia la scala di misura di una variabile. Questo viene fatto di solito per rendere un set di utilizzabile con un particolare test statistico o metodo.

Molti metodi statistici richiedono dati che seguono un particolare tipo di distribuzione, di solito una distribuzione normale. Tutte le osservazioni devono provenire da una popolazione che segue una distribuzione normale. I gruppi di osservazioni devono provenire da popolazioni che hanno la stessa varianza o deviazione standard. Le trasformazioni che normalizzano una distribuzione di solito rendono la varianza più uniforme e viceversa.

Se una popolazione con una distribuzione normale viene campionata a caso, allora le medie dei campioni non saranno correlate con le deviazioni standard dei campioni. Questo spiega in parte perché le trasformazioni di normalizzazione rendono anche le varianze uniformi. Il teorema del limite centrale (le medie di un gran numero di campioni seguono una distribuzione normale) è una chiave per comprendere questa situazione.

Molte osservazioni biomediche saranno il prodotto di diverse influenze, per esempio la resistenza dei vasi sanguigni e la produzione del cuore sono due delle influenze più strettamente legate alla pressione sanguigna. In termini matematici, queste influenze di solito si moltiplicano insieme per dare un’influenza complessiva, quindi, se prendiamo il logaritmo dell’influenza complessiva, questa è la somma delle influenze individuali. Il teorema del limite centrale impone quindi che il logaritmo del prodotto di più influenze segua una distribuzione normale.

Un’altra regola generale è che qualsiasi relazione tra media e varianza è di solito semplice; varianza proporzionale alla media del gruppo, media quadrata, media alla potenza x ecc. Si usa una trasformazione per annullare questa relazione e rendere così la media indipendente dalla varianza. La situazione più comune è che la varianza sia proporzionale al quadrato della media (cioè la deviazione standard è proporzionale alla media), qui si usa la trasformazione logaritmica (per esempio il colesterolo nel siero). La trasformazione della radice quadrata è usata quando la varianza è proporzionale alla media, per esempio con dati distribuiti a Poisson. Le osservazioni che sono contate nel tempo e/o nello spazio (per esempio i casi di meningite meningococcica in una città in un anno) spesso seguono una distribuzione di Poisson; qui la media è uguale alla varianza. Con quantità altamente variabili come la creatinina del siero, la varianza è spesso proporzionale al quadrato della deviazione standard (cioè la media alla potenza di 4); qui si usa la trasformazione reciproca (1/X).

Trasformazioni che annullano la relazione tra varianza e media, di solito normalizzano anche la distribuzione dei dati. I comuni metodi statistici possono quindi essere utilizzati sui dati trasformati. Solo alcuni dei risultati di tali test, tuttavia, possono essere riconvertiti alla scala di misura originale dei dati, il resto deve essere espresso in termini di variabile trasformata (ad esempio, log (trigliceridi sierici) come predittore in un modello di regressione). Un esempio di una statistica retroformata è la media geometrica e il suo intervallo di confidenza; l’antilog della media dei dati log-trasformati è la media geometrica e il suo intervallo di confidenza è l’antilog dell’intervallo di confidenza per la media dei dati log-trasformati.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.