Transformación de datos

Cuestiones prácticas

  • Definición: la transformación es una operación matemática que cambia la escala de medición de una variable.
  • Estabilizar la varianza: por ejemplo, logaritmo, raíz cuadrada.
  • Normalizar: por ejemplo, raíz cuadrada para datos de Poisson, logaritmo para probabilidades.
  • Reducir el efecto de los valores atípicos: por ejemplo, recíproco.
  • Hacer que una escala de medición sea más significativa: por ejemplo, número necesario para tratar a partir de la reducción del riesgo absoluto.
  • Linear una relación: por ejemplo, peso proporcional a la longitud al cubo, fuerza ósea proporcional a la longitud al cuadrado.
  • Los valores negativos son un problema con las transformaciones log y raíz cuadrada. Para superar este problema, se puede añadir una constante apropiada al valor original antes de tomar una raíz logarítmica o cuadrada; lo mejor es buscar el consejo de un estadístico sobre la elección de la constante.
  • La clasificación de los datos es una poderosa técnica de normalización, ya que tira de las dos colas de una distribución, pero se puede perder información importante al hacerlo.
  • Los puntos de corte son una alternativa a la transformación con datos sesgados: por ejemplo, el uso de la media ± 3 desviaciones estándar o la mediana ± 1,5 * rango intercuartílico, en lugar de una transformación como log/media geométrica.
  • La escalera de potencias de las transformaciones (1/x², 1/x, ln(x), sqr(x), x²) tiene un efecto creciente de tirar de la cola derecha de una distribución.
  • La selección de la mejor transformación puede ser una cuestión compleja; puede ser necesaria una combinación de técnicas exploratorias como Box-Cox, Manley, índice de asimetría y gráficos QQ; es mejor involucrar a un estadístico con esto.

Basics

La transformación es una operación matemática que cambia la escala de medición de una variable. Suele hacerse para que un conjunto de datos sea utilizable con una prueba o método estadístico particular.

Muchos métodos estadísticos requieren datos que sigan un tipo de distribución particular, normalmente una distribución normal. Todas las observaciones deben proceder de una población que sigue una distribución normal. Los grupos de observaciones deben proceder de poblaciones que tengan la misma varianza o desviación estándar. Las transformaciones que normalizan una distribución suelen hacer que la varianza sea más uniforme y viceversa.

Si una población con una distribución normal se muestrea al azar, entonces las medias de las muestras no estarán correlacionadas con las desviaciones estándar de las muestras. Esto explica en parte por qué las transformaciones normalizadoras también hacen uniformes las varianzas. El Teorema del Límite Central (las medias de un gran número de muestras siguen una distribución normal) es una clave para entender esta situación.

Muchas observaciones biomédicas serán producto de diferentes influencias, por ejemplo la resistencia de los vasos sanguíneos y la salida del corazón son dos de las influencias más relacionadas con la presión arterial. En términos matemáticos, estas influencias suelen multiplicarse para dar una influencia global, por lo que, si tomamos el logaritmo de la influencia global, ésta es la suma de las influencias individuales. El Teorema del Límite Central dicta así que el logaritmo del producto de varias influencias sigue una distribución normal.

Otra regla general es que cualquier relación entre la media y la varianza suele ser simple; varianza proporcional a la media del grupo, media al cuadrado, media a la potencia x, etc. Se utiliza una transformación para anular esta relación y así hacer que la media sea independiente de la varianza. La situación más común es que la varianza sea proporcional al cuadrado de la media (es decir, la desviación estándar es proporcional a la media), aquí se utiliza la transformación logarítmica (por ejemplo, el colesterol sérico). La transformación de la raíz cuadrada se utiliza cuando la varianza es proporcional a la media, por ejemplo, con los datos con distribución de Poisson. Las observaciones que se cuentan en el tiempo y/o en el espacio (por ejemplo, los casos de meningitis meningocócica en una ciudad en un año) suelen seguir una distribución de Poisson; aquí la media es igual a la varianza. Con cantidades muy variables, como la creatinina sérica, la varianza suele ser proporcional al cuadrado de la desviación estándar (es decir, la media a la potencia de 4); en este caso se utiliza la transformación recíproca (1/X).

Las transformaciones que anulan la relación entre la varianza y la media también suelen normalizar la distribución de los datos. A continuación, se pueden utilizar métodos estadísticos comunes con los datos transformados. Sin embargo, sólo algunos de los resultados de dichas pruebas pueden convertirse de nuevo a la escala de medición original de los datos, el resto debe expresarse en términos de la(s) variable(s) transformada(s) (por ejemplo, log(triglicéridos séricos) como predictor en un modelo de regresión). Un ejemplo de estadística retrotransformada es la media geométrica y su intervalo de confianza; el antilogo de la media de los datos transformados logarítmicamente es la media geométrica y su intervalo de confianza es el antilogo del intervalo de confianza para la media de los datos transformados logarítmicamente.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.