Transformando Dados

Problemas práticos

  • Definição: a transformação é uma operação matemática que altera a escala de medida de uma variável.
  • Desvio estabilizador: por exemplo, log, raiz quadrada.
  • Normalização: por exemplo, raiz quadrada para dados de Poisson, log para probabilidades.
  • Reduzir o efeito de outliers: ex. recíproco.
  • Fazer uma escala de medida mais significativa: ex. número necessário para tratar da redução absoluta do risco.
  • Linearizar uma relação: ex. peso proporcional ao comprimento ao cubo, força óssea proporcional ao comprimento ao quadrado.
  • Valores negativos são um problema com as transformações de log e raiz quadrada. A fim de superar este problema, uma constante apropriada pode ser adicionada ao valor original antes de tomar um log ou raiz quadrada; é melhor procurar o conselho de um estatístico na escolha da constante.
  • Dados de Ranking é uma técnica de normalização poderosa, uma vez que puxa as duas caudas de uma distribuição, mas informações importantes podem ser perdidas ao fazê-lo.
  • Os pontos de corte são uma alternativa à transformação com dados distorcidos: por exemplo, uso de média ± 3 desvios padrão ou mediana ± 1,5 * intervalo inter-quartil, ao invés de uma transformação como log/média geométrica.
  • A escada de potências de transformação (1/x², 1/x², ln(x), sqr(x), x²) tem um efeito crescente de puxar na cauda direita de uma distribuição.
  • Selecionar a melhor transformação pode ser uma questão complexa; uma combinação de técnicas exploratórias como Box-Cox, Manley, skewness index e gráficos QQ pode ser necessária; é melhor envolver um estatístico com isto.

Basics

Transformação é uma operação matemática que muda a escala de medida de uma variável. Isto é normalmente feito para tornar um conjunto de dados utilizável com um teste estatístico ou método particular.

Muitos métodos estatísticos requerem dados que seguem um tipo particular de distribuição, geralmente uma distribuição normal. Todas as observações devem ser provenientes de uma população que segue uma distribuição normal. Grupos de observações devem ser provenientes de populações que tenham a mesma variância ou desvio padrão. Transformações que normalizam uma distribuição normalmente tornam a variância mais uniforme e vice-versa.

Se uma população com distribuição normal é amostrada aleatoriamente, então as médias das amostras não serão correlacionadas com os desvios padrão das amostras. Isto explica parcialmente porque a normalização das transformações também torna as variâncias uniformes. O Teorema do Limite Central (as médias de um grande número de amostras seguem uma distribuição normal) é a chave para entender esta situação.

Muitas observações biomédicas serão produto de diferentes influências, por exemplo, a resistência dos vasos sanguíneos e o débito do coração são duas das influências mais estreitamente relacionadas com a pressão arterial. Em termos matemáticos estas influências geralmente se multiplicam juntas para dar uma influência global, portanto, se tomarmos o logaritmo da influência global então esta é a soma das influências individuais . O Teorema do Limite Central assim dita que o logaritmo do produto de várias influências segue uma distribuição normal.

Outra regra geral é que qualquer relação entre média e variância é geralmente simples; variância proporcional à média do grupo, quadrado médio, média à potência x etc. Uma transformação é usada para cancelar esta relação e assim tornar a média independente da variância. A situação mais comum é que a variância seja proporcional ao quadrado da média (ou seja, o desvio padrão é proporcional à média), aqui é usada a transformação em log (por exemplo, colesterol sérico). A transformação da raiz quadrada é usada quando a variância é proporcional à média, por exemplo, com dados distribuídos por Poisson. Observações que são contadas no tempo e/ou espaço (por exemplo, casos de meningite meningocócica em uma cidade em um ano) frequentemente seguem uma distribuição de Poisson; aqui a média é igual à variância. Com quantidades altamente variáveis, como creatinina sérica, então a variância é frequentemente proporcional ao quadrado do desvio padrão (ou seja, média à potência de 4); aqui é usada a transformação recíproca (1/X).

Transformações que cancelam a relação entre variância e média, normalmente também normalizam a distribuição dos dados. Métodos estatísticos comuns podem então ser usados sobre os dados transformados. Apenas alguns dos resultados de tais testes, no entanto, podem ser convertidos de volta à escala original de medição dos dados, o resto deve ser expresso em termos da(s) variável(s) transformada(s) (por exemplo, log(triglicérido sérico) como um preditor em um modelo de regressão). Um exemplo de uma estatística retro-transformada é a média geométrica e seu intervalo de confiança; a antilog da média dos dados log-transformados é a média geométrica e seu intervalo de confiança é a antilog do intervalo de confiança para a média dos dados log-transformados.

Deixe uma resposta

O seu endereço de email não será publicado.