Transformarea datelor

Probleme practice

  • Definiție: transformarea este o operație matematică care schimbă scara de măsurare a unei variabile.
  • Stabilizarea varianței: de exemplu, logaritmul, rădăcina pătrată.
  • Normalizarea: de exemplu, rădăcina pătrată pentru datele Poisson, logaritmul pentru șanse.
  • Reducerea efectului valorilor aberante: de exemplu, reciproca.
  • Facerea unei scări de măsurare mai semnificative: de exemplu, numărul necesar pentru a trata din reducerea absolută a riscului.
  • Liniarizarea unei relații: de exemplu, greutatea proporțională cu lungimea la cub, rezistența osoasă proporțională cu lungimea la pătrat.
  • Valorile negative sunt o problemă cu transformările log și rădăcină pătrată. Pentru a depăși această problemă, se poate adăuga o constantă adecvată la valoarea originală înainte de a face o transformare logaritmică sau rădăcină pătrată; cel mai bine este să solicitați sfatul unui statistician cu privire la alegerea constantei.
  • Ranalizarea datelor este o tehnică puternică de normalizare, deoarece atrage ambele cozi ale unei distribuții, dar astfel se pot pierde informații importante.
  • Punctele de tăiere sunt o alternativă la transformare în cazul datelor asimetrice: de exemplu, utilizarea mediei ± 3 deviații standard sau a medianei ± 1,5 * interval interquartil, în locul unei transformări cum ar fi log/medie geometrică.
  • Scala de puteri a transformărilor (1/x², 1/x, ln(x), sqr(x), x²) are un efect crescător de atragere a cozii drepte a unei distribuții.
  • Selectarea celei mai bune transformări poate fi o problemă complexă; poate fi necesară o combinație de tehnici exploratorii, cum ar fi Box-Cox, Manley, indicele de asimetrie și diagramele QQ; cel mai bine este să implicați un statistician în acest sens.

Bazele

Transformarea este o operație matematică care schimbă scara de măsurare a unei variabile. Aceasta se face de obicei pentru a face un set de valori utilizabile cu un anumit test sau metodă statistică.

Multe metode statistice necesită date care urmează un anumit tip de distribuție, de obicei o distribuție normală. Toate observațiile trebuie să provină dintr-o populație care urmează o distribuție normală. Grupurile de observații trebuie să provină din populații care au aceeași varianță sau deviație standard. Transformările care normalizează o distribuție fac de obicei ca varianța să fie mai uniformă și invers.

Dacă o populație cu o distribuție normală este eșantionată la întâmplare, atunci mediile eșantioanelor nu vor fi corelate cu abaterile standard ale eșantioanelor. Acest lucru explică parțial de ce transformările normalizatoare fac și ele ca varianțele să fie uniforme. Teorema limitei centrale (mediile unui număr mare de eșantioane urmează o distribuție normală) este o cheie pentru înțelegerea acestei situații.

Multe observații biomedicale vor fi produsul unor influențe diferite, de exemplu, rezistența vaselor de sânge și ieșirea din inimă sunt două dintre influențele cele mai strâns legate de tensiunea arterială. În termeni matematici, aceste influențe se înmulțesc de obicei împreună pentru a da o influență globală, astfel, dacă luăm logaritmul influenței globale, atunci aceasta este suma influențelor individuale . Teorema limitei centrale dictează astfel că logaritmul produsului mai multor influențe urmează o distribuție normală.

O altă regulă generală este că orice relație între medie și varianță este de obicei simplă; varianța este proporțională cu media grupului, cu media pătrată, cu media la puterea x etc.. O transformare este utilizată pentru a anula această relație și a face astfel media independentă de varianță. Cea mai frecventă situație este ca varianța să fie proporțională cu pătratul mediei (adică abaterea standard este proporțională cu media), aici se folosește transformarea logaritmică (de exemplu, colesterolul seric). Transformarea rădăcinii pătrate se utilizează atunci când varianța este proporțională cu media, de exemplu în cazul datelor distribuite Poisson. Observațiile care sunt numărate în timp și/sau spațiu (de exemplu, cazurile de meningită meningococică dintr-un oraș într-un an) urmează adesea o distribuție Poisson; aici media este egală cu varianța. În cazul unor cantități foarte variabile, cum ar fi creatinina serică, atunci varianța este adesea proporțională cu pătratul abaterii standard (de exemplu, media la puterea 4); aici se folosește transformarea reciprocă (1/X).

Transformările care anulează relația dintre varianță și medie, de asemenea, normalizează de obicei distribuția datelor. Metodele statistice obișnuite pot fi apoi folosite pe datele transformate. Cu toate acestea, numai unele dintre rezultatele unor astfel de teste pot fi convertite înapoi la scara de măsurare originală a datelor, restul trebuie să fie exprimate în termenii variabilei (variabilelor) transformate (de exemplu, log(trigliceridele serice) ca predictor într-un model de regresie). Un exemplu de statistică retrotransformată este media geometrică și intervalul său de încredere; antilogul mediei datelor transformate în logaritm este media geometrică, iar intervalul său de încredere este antilogul intervalului de încredere pentru media datelor transformate în logaritm.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.