Aineiston muuntaminen

Käytännön asioita

  • Määritelmä: Muunnos on matemaattinen operaatio, joka muuttaa muuttujan mitta-asteikkoa.
  • Vakioiva varianssi: esim. log, neliöjuuri.
  • Normalisoiva: esim. neliöjuuri Poissonin aineistolle, log kertoimille.
  • Poikkeamien vaikutuksen vähentäminen: esim. käänteisluku.
  • Mitta-asteikon tekeminen mielekkäämmäksi: esim. hoitoon tarvittava määrä absoluuttisesta riskin pienenemisestä.
  • Suhteen linearisoiminen: esim. paino verrannollinen pituuteen kuutioina, luunlujuus verrannollinen pituuteen neliöinä.
  • Negatiiviset arvot ovat ongelma log- ja neliöjuurimuunnosten kanssa. Tämän ongelman voittamiseksi alkuperäiseen arvoon voidaan lisätä sopiva vakio ennen log- tai neliöjuurimuunnosta; vakion valinnassa kannattaa kysyä neuvoa tilastotieteilijältä.
  • Ranking-data on tehokas normalisointitekniikka, koska se vetää mukaan jakauman molemmat hännät, mutta samalla voidaan menettää tärkeää tietoa.
  • Trimmipisteet ovat vaihtoehto muunnokselle vinossa aineistossa: esim. keskiarvon ± 3 keskihajontaa tai mediaanin ± 1,5 * kvartiilivälien välinen vaihteluväli käyttäminen muunnoksen, kuten log/geometrisen keskiarvon, sijasta.
  • Muunnosten (1/x², 1/x, ln(x), sqr(x), x²) potenssien tikapuilla on kasvava vaikutus jakauman oikeanpuoleisen hännän vetämiseen.
  • Parhaan muunnoksen valinta voi olla monimutkainen asia; voidaan tarvita yhdistelmä tutkivia tekniikoita, kuten Box-Cox-, Manley-, skewness-indeksi- ja QQ-diagrammeja; tähän kannattaa ottaa mukaan tilastotieteilijä.

PERUSTIETOJA

Muunnos on matemaattinen operaatio, joka muuttaa muuttujan mitta-asteikkoa. Tämä tehdään yleensä, jotta joukko saadaan käyttökelpoiseksi tietyllä tilastollisella testillä tai menetelmällä.

Monet tilastolliset menetelmät vaativat tietoja, jotka noudattavat tietynlaista jakaumaa, yleensä normaalijakaumaa. Kaikkien havaintojen on oltava peräisin perusjoukosta, joka noudattaa normaalijakaumaa. Havaintoryhmien on oltava peräisin populaatioista, joilla on sama varianssi tai keskihajonta. Muunnokset, jotka normalisoivat jakauman, tekevät yleensä varianssista tasaisemman ja päinvastoin.

Jos normaalijakauman omaavasta populaatiosta otetaan satunnaisotanta, otosten keskiarvot eivät korreloi otosten keskihajontojen kanssa. Tämä selittää osittain, miksi normalisoivat muunnokset tekevät myös variansseista yhdenmukaisia. Central Limit Theorem (suuren joukon otosten keskiarvot noudattavat normaalijakaumaa) on avain tämän tilanteen ymmärtämiseen.

Monet biolääketieteelliset havainnot ovat erilaisten vaikutusten tulosta, esimerkiksi verisuonten vastus ja sydämen ulostulo ovat kaksi vaikutuksista, jotka liittyvät läheisimmin verenpaineeseen. Matemaattisesti ilmaistuna nämä vaikutukset yleensä kertautuvat keskenään kokonaisvaikutukseksi, joten jos otamme kokonaisvaikutuksen logaritmin, tämä on yksittäisten vaikutusten summa . Central Limit Theorem määrää siis, että useiden vaikutusten tulon logaritmi noudattaa normaalijakaumaa.

Toinen yleissääntö on, että kaikki keskiarvon ja varianssin väliset suhteet ovat yleensä yksinkertaisia; varianssi on verrannollinen ryhmän keskiarvoon, neliökeskiarvoon, keskiarvon potenssiin x jne. Transformaatiota käytetään kumoamaan tämä suhde ja siten tekemään keskiarvo riippumattomaksi varianssista. Yleisin tilanne on, että varianssi on verrannollinen keskiarvon neliöön (eli keskihajonta on verrannollinen keskiarvoon), jolloin käytetään log-muunnosta (esim. seerumin kolesteroli). Neliöjuurimuunnosta käytetään, kun varianssi on verrannollinen keskiarvoon, esimerkiksi Poisson-jakautuneissa tiedoissa. Havainnot, jotka lasketaan ajassa ja/tai tilassa (esim. meningokokkimeningiittitapaukset kaupungissa vuodessa), noudattavat usein Poisson-jakaumaa; tällöin keskiarvo on yhtä suuri kuin varianssi. Erittäin vaihtelevilla suureilla, kuten seerumin kreatiniinilla, varianssi on usein verrannollinen keskihajonnan neliöön (eli keskiarvo potenssiin 4); tällöin käytetään käänteismuunnosta (1/X).

Muunnokset, jotka kumoavat varianssin ja keskiarvon välisen suhteen, myös yleensä normalisoivat tietojen jakauman. Tämän jälkeen muunnettuihin tietoihin voidaan käyttää tavanomaisia tilastollisia menetelmiä. Vain osa tällaisten testien tuloksista voidaan kuitenkin muuntaa takaisin datan alkuperäiseen mitta-asteikkoon, loput on ilmaistava muunnetun muuttujan (muunnettujen muuttujien) suhteen (esim. log(seerumin triglyseridi) ennustajana regressiomallissa). Esimerkki takaisin muunnetusta tilastosta on geometrinen keskiarvo ja sen luottamusväli; log-muunnetun datan keskiarvon antilogi on geometrinen keskiarvo ja sen luottamusväli on log-muunnetun datan keskiarvon luottamusvälin antilogi.

Vastaa

Sähköpostiosoitettasi ei julkaista.