Transformation des données

Problèmes pratiques

  • Définition : la transformation est une opération mathématique qui change l’échelle de mesure d’une variable.
  • Stabilisation de la variance : par exemple, log, racine carrée.
  • Normalisation : par exemple, racine carrée pour les données de Poisson, log pour les probabilités.
  • Réduire l’effet des valeurs aberrantes : par exemple réciproque.
  • Rendre une échelle de mesure plus significative : par exemple nombre nécessaire à traiter à partir de la réduction du risque absolu.
  • Linéariser une relation : par exemple poids proportionnel à la longueur cubique, résistance osseuse proportionnelle à la longueur au carré.
  • Les valeurs négatives sont un problème avec les transformations logarithmiques et racine carrée. Afin de surmonter ce problème, une constante appropriée peut être ajoutée à la valeur originale avant de prendre un logarithme ou une racine carrée ; il est préférable de demander l’avis d’un statisticien sur le choix de la constante.
  • Le classement des données est une technique de normalisation puissante car elle tire dans les deux queues d’une distribution mais des informations importantes peuvent être perdues ce faisant.
  • Les points de coupe sont une alternative à la transformation avec des données asymétriques : par exemple, l’utilisation de la moyenne ± 3 écarts-types ou de la médiane ± 1,5 * écart interquartile, au lieu d’une transformation telle que log/moyenne géométrique.
  • L’échelle des puissances des transformations (1/x², 1/x, ln(x), sqr(x), x²) a pour effet croissant de tirer vers la queue droite d’une distribution.
  • Le choix de la meilleure transformation peut être une question complexe ; une combinaison de techniques exploratoires telles que les diagrammes de Box-Cox, Manley, l’indice d’asymétrie et QQ peut être nécessaire ; il est préférable d’impliquer un statisticien à ce sujet.

Basics

La transformation est une opération mathématique qui change l’échelle de mesure d’une variable. Cela est généralement fait pour rendre un ensemble de utilisable avec un test ou une méthode statistique particulière.

De nombreuses méthodes statistiques nécessitent des données qui suivent un type particulier de distribution, généralement une distribution normale. Toutes les observations doivent provenir d’une population qui suit une distribution normale. Les groupes d’observations doivent provenir de populations qui ont la même variance ou le même écart-type. Les transformations qui normalisent une distribution rendent généralement la variance plus uniforme et vice versa.

Si une population avec une distribution normale est échantillonnée au hasard, alors les moyennes des échantillons ne seront pas corrélées avec les écarts types des échantillons. Cela explique en partie pourquoi les transformations normalisatrices rendent également les variances uniformes. Le théorème de la limite centrale (les moyennes d’un grand nombre d’échantillons suivent une distribution normale) est une clé pour comprendre cette situation.

De nombreuses observations biomédicales seront le produit de différentes influences, par exemple la résistance des vaisseaux sanguins et la sortie du cœur sont deux des influences les plus étroitement liées à la pression artérielle. En termes mathématiques, ces influences se multiplient généralement ensemble pour donner une influence globale, donc, si nous prenons le logarithme de l’influence globale, alors c’est la somme des influences individuelles . Le théorème de la limite centrale dicte donc que le logarithme du produit de plusieurs influences suit une distribution normale.

Une autre règle générale est que toute relation entre la moyenne et la variance est habituellement simple ; variance proportionnelle à la moyenne du groupe, à la moyenne au carré, à la moyenne à la puissance x etc…. Une transformation est utilisée pour annuler cette relation et ainsi rendre la moyenne indépendante de la variance. La situation la plus courante est que la variance soit proportionnelle au carré de la moyenne (c’est-à-dire que l’écart-type est proportionnel à la moyenne), on utilise alors une transformation logarithmique (par exemple, le cholestérol sérique). La transformation en racine carrée est utilisée lorsque la variance est proportionnelle à la moyenne, par exemple avec des données distribuées par Poisson. Les observations qui sont comptées dans le temps et/ou dans l’espace (par exemple, les cas de méningite à méningocoques dans une ville en une année) suivent souvent une distribution de Poisson ; ici, la moyenne est égale à la variance. Avec des quantités très variables comme la créatinine sérique, alors la variance est souvent proportionnelle au carré de l’écart-type (c’est-à-dire la moyenne à la puissance 4) ; ici la transformation réciproque (1/X) est utilisée.

Les transformations qui annulent la relation entre la variance et la moyenne, normalisent aussi habituellement la distribution des données. Les méthodes statistiques courantes peuvent alors être utilisées sur les données transformées. Cependant, seuls certains des résultats de ces tests peuvent être reconvertis dans l’échelle de mesure originale des données, le reste doit être exprimé en termes de variable(s) transformée(s) (par exemple, log(triglycéride sérique) comme prédicteur dans un modèle de régression). Un exemple de statistique rétro-transformée est la moyenne géométrique et son intervalle de confiance ; l’antilogue de la moyenne des données log-transformées est la moyenne géométrique et son intervalle de confiance est l’antilogue de l’intervalle de confiance pour la moyenne des données log-transformées.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.