Tilastolliset merkitsevyystestit koneoppimisalgoritmien vertailuun

Twiittaa Jaa Jaa

Viimeisin päivitetty 8.8.2019

Koneoppimismenetelmien vertailu ja lopullisen mallin valitseminen on yleinen operaatio soveltavassa koneoppimisessa.

Mallit arvioidaan yleisesti käyttämällä resampling-menetelmiä, kuten k-kertaista ristiinvalidoinnin menetelmää, jonka avulla lasketaan keskimääräiset taitoarvot ja niitä verrataan keskenään suoraan. Vaikka tämä lähestymistapa on yksinkertainen, se voi olla harhaanjohtava, koska on vaikea tietää, onko keskimääräisten taitoarvojen välinen ero todellinen vai seurausta tilastollisesta sattumasta.

Tilastolliset merkitsevyystestit on suunniteltu puuttumaan tähän ongelmaan ja kvantifioimaan todennäköisyyttä, että taitoarvojen otokset ovat havaittuja, kun oletetaan, että ne on poimittu samasta jakaumasta. Jos tämä oletus eli nollahypoteesi hylätään, se viittaa siihen, että taitoarvojen ero on tilastollisesti merkitsevä.

Vaikkei tilastollinen hypoteesitestaus olekaan idioottivarma, se voi parantaa sekä luottamusta tulosten tulkintaan että niiden esittämiseen mallien valinnan aikana.

Tässä opetusohjelmassa tutustut tilastollisen hypoteesitestin valinnan tärkeyteen ja haasteeseen koneoppimismallien vertailussa.

Tämän opetusohjelman suoritettuasi tiedät:

  • Tilastolliset hypoteesitestit voivat auttaa koneoppimismallien vertailussa ja lopullisen mallin valinnassa.
  • Tilastollisten hypoteesitestien naiivi soveltaminen voi johtaa harhaanjohtaviin tuloksiin.
  • Tilastollisten testien oikea käyttö on haastavaa, ja jonkin verran yhteisymmärrystä vallitsee McNemarin testin tai 5×2 ristiinvalidoinnin käyttämisestä modifioidun parittaisen Studentin t-testin kanssa.

Käynnistä projektisi uudella kirjallani Statistics for Machine Learning, joka sisältää vaiheittaiset opetusohjelmat ja Python-lähdekooditiedostot kaikille esimerkeille.

Aloitetaan.

  • Päivitys loka/2018: Lisätty linkki esimerkkiin McNemarin testin käytöstä.
Statistical Significance Tests for Comparing Machine Learning Algorithms

Statistical Significance Tests for Comparing Machine Learning Algorithms
Photo by Fotografías de Javier, some rights reserved.

Oppikirjan yleiskatsaus

Tämä opetusohjelma on jaettu viiteen osaan; ne ovat:

  1. Mallien valinnan ongelma
  2. Tilastolliset hypoteesitestit
  3. Hypoteesitestin valinnan ongelma
  4. Yhteenveto joistakin havainnoista
  5. Suositukset

Tarvitsetko apua tilastotieteeseen koneoppimisessa?

Osta nyt ilmainen 7 päivän sähköpostin pikakurssini (esimerkkikoodilla).

Klikkaa ilmoittautuaksesi ja saat myös ilmaisen PDF-kirjaversion kurssista.

Lataa itsellesi ILMAINEN minikurssi

Mallien valinnan ongelma

Mallien valitseminen on iso osa soveltavaa koneoppimista.

Voidaan kuvata tämä yksinkertaisimmillaan:

Jos arvioidaan kahta koneoppimismenetelmää aineistolla, minkä mallin valitset?

Valitaan malli, jolla on paras taito.

Tämä tarkoittaa mallia, jonka estimoitu taito ennusteiden tekemisessä ennusteiden tekemisessä näkymättömän datan perusteella on paras. Tämä voi olla maksimitarkkuus tai minimivirhe vastaavasti luokittelu- ja regressio-ongelmissa.

Haasteena parhaan taidon omaavan mallin valinnassa on sen määrittäminen, kuinka paljon voit luottaa kunkin mallin estimoituun taitoon. Yleisemmin:

Onko kahden koneoppimismallin välinen taitoero todellinen vai johtuuko se tilastollisesta sattumasta?

Voidaan käyttää tilastollista hypoteesitestausta tämän kysymyksen ratkaisemiseen.

Tilastolliset hypoteesitestit

Yleisesti otosten vertailuun tarkoitettu tilastollinen hypoteesitesti kvantifioi, kuinka todennäköistä on havaita kaksi datanäytettä, kun oletetaan, että otoksilla on sama jakauma.

Tilastollisen testin oletusta kutsutaan nollahypoteesiksi, ja voimme laskea tilastollisia mittareita ja tulkita niitä päättäessämme, hyväksytäänkö vai hylätäänkö nollahypoteesi.

Valittaessa malleja niiden estimoidun taidon perusteella meitä kiinnostaa, onko kahden mallin välillä todellinen tai tilastollisesti merkitsevä ero.

  • Jos testin tulos viittaa siihen, että nollahypoteesin hylkäämiseen ei ole riittävästi todisteita, kaikki havaitut erot mallien taidossa johtuvat todennäköisesti tilastollisesta sattumasta.
  • Jos testin tulos viittaa siihen, että nollahypoteesin hylkäämiseen on riittävästi evidenssiä, mikä tahansa havaittu ero mallien pätevyydessä johtuu todennäköisesti mallien välisestä erosta.

Testin tulokset ovat todennäköisyyteen perustuvia, mikä tarkoittaa, että on mahdollista tulkita tulos oikein ja että tulos voi olla väärässä tyypin I tai tyypin II virheen myötä. Lyhyesti sanottuna väärä positiivinen tai väärä negatiivinen tulos.

Koneoppimismallien vertailu tilastollisten merkitsevyystestien avulla asettaa joitakin odotuksia, jotka puolestaan vaikuttavat siihen, minkä tyyppisiä tilastollisia testejä voidaan käyttää; esimerkiksi:

  • Skill Estimate. Mallin taidolle on valittava tietty mittari. Tämä voi olla luokittelutarkkuus (osuus) tai keskimääräinen absoluuttinen virhe (yhteenvetotilasto), mikä rajoittaa käytettävien testien tyyppiä.
  • Toistuvat estimaatit. Tilastojen laskemiseksi tarvitaan otos taitoarvoista. Tietyn mallin toistuva harjoittelu ja testaaminen samalla tai eri aineistolla vaikuttaa siihen, minkä tyyppistä testiä voidaan käyttää.
  • Estimaattien jakauma. Taitopistearvioiden estimaattien otoksella on jakauma, ehkä Gaussin jakauma tai ehkä ei. Tämä määrittää, voidaanko käyttää parametrisia vai ei-parametrisia testejä.
  • Keskisuuntaus. Mallin taitoa kuvataan ja verrataan usein käyttämällä yhteenvetotilastoa, kuten keskiarvoa tai mediaania, riippuen taitopisteiden jakaumasta. Testi voi ottaa tai olla ottamatta tätä suoraan huomioon.

Tilastollisen testin tulokset ovat usein testistatistiikka ja p-arvo, joita molempia voidaan tulkita ja käyttää tulosten esittelyssä, jotta voidaan kvantifioida mallien välisen eron luottamus- tai merkitsevyystaso. Tämä mahdollistaa vahvempien väitteiden esittämisen osana mallien valintaa kuin se, että tilastollisia hypoteesitestejä ei käytettäisi.

Kun otetaan huomioon, että tilastollisten hypoteesitestien käyttäminen vaikuttaa suotavalta osana mallien valintaa, miten valitset testin, joka soveltuu nimenomaiseen käyttötapaukseesi?

Hypoteesitestin valinnan ongelma

Katsotaanpa tavallista malliesimerkkiä, jonka avulla voidaan arvioida ja vertailla luokittelijoita tasapainoisen binäärisen luokittelun ongelmaan.

Yleinen käytäntö on arvioida luokittelumenetelmiä luokittelutarkkuuden avulla, arvioida kutakin mallia käyttäen 10-kertaista ristiinvalidointia, olettaa Gaussin jakauma 10 mallin taitoestimaatin otokselle ja käyttää otoksen keskiarvoa mallin taidon yhteenvetona.

Voisimme vaatia, että jokainen tällä menettelyllä arvioitu luokittelija on arvioitava täsmälleen samoilla osuuksilla tietokokonaisuudesta 10-kertaisen ristiinvalidoinnin avulla. Näin saataisiin kahden luokittelijan välisiä paritettuja paritettuja mittaustuloksia, jotka ovat paritettuja, koska kumpikin luokittelija arvioitiin samoilla 10 testijoukolla.

Voisimme sitten valita ja käyttää paritettua Studentin t-testiä tarkistaaksemme, onko ero kahden mallin keskimääräisessä tarkkuudessa tilastollisesti merkitsevä, esim. hylätä nollahypoteesin, jossa oletetaan, että kahdella otoksella on sama jakauma.

Tämä on itse asiassa yleinen tapa verrata luokittelijoita, ja tätä menetelmää on käytetty ehkä sadoissa julkaistuissa artikkeleissa.

Ongelmana on, että parittaisen Studentin t-testin keskeistä oletusta on rikottu.

Nimittäin, kummankin otoksen havainnot eivät ole riippumattomia. Osana k-kertaista ristiinvalidointimenettelyä tiettyä havaintoa käytetään harjoitusaineistossa (k-1) kertaa. Tämä tarkoittaa sitä, että estimoidut taitoarvot ovat riippuvaisia, eivät riippumattomia, ja tämä puolestaan tarkoittaa sitä, että t-statistiikan laskeminen testissä on harhaanjohtavasti väärä, samoin kuin tilastojen ja p-arvon mahdolliset tulkinnat.

Tämä havainto vaatii huolellista ymmärrystä sekä käytetystä uudelleennäytteenottomenetelmästä, tässä tapauksessa k-kertaisesta ristiinvalidoinnista, että valitun hypoteesitestin odotuksista, tässä tapauksessa parittaisesta Studentin t-testistä. Ilman tätä taustatietoa testi vaikuttaa sopivalta, tulos lasketaan ja tulkitaan, ja kaikki näyttää hyvältä.

Epäonnekseen sopivan tilastollisen hypoteesitestin valitseminen mallinvalintaa varten soveltavassa koneoppimisessa on haastavampaa kuin miltä se aluksi näyttää. Onneksi on olemassa kasvava joukko tutkimuksia, jotka auttavat osoittamaan naiivien lähestymistapojen puutteet ja ehdottavat korjauksia ja vaihtoehtoisia menetelmiä.

Yhteenveto joistakin havainnoista

Tässä osiossa tarkastellaan joitakin tutkimuksia, jotka koskevat sopivien tilastollisten merkitsevyystestien valintaa mallien valintaa varten koneoppimisessa.

Käyttäkää McNemarin testiä tai 5×2 Cross-Validationia

Perinteinen teos aiheesta on ehkä Thomas Dietterichin vuonna 1998 julkaisema artikkeli ”Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms”

Se on erinomainen artikkeli aiheesta ja suositeltava luettava. Se kattaa ensin loistavan viitekehyksen, jonka avulla voidaan miettiä niitä kohtia koneoppimisprojektin aikana, joissa tilastollista hypoteesitestiä saatetaan tarvita, siinä käsitellään odotuksia tilastollisten testien yleisistä rikkomuksista, jotka ovat merkityksellisiä luokittelevien koneoppimismenetelmien vertailun kannalta, ja se päättyy menetelmien empiiriseen arviointiin tulosten vahvistamiseksi.

Tässä artikkelissa tarkastellaan viittä likimääräistä tilastollista testiä, joiden avulla voidaan määrittää, päihittääkö yksi oppimisalgoritmi toisen oppimisalgoritmin tietyssä oppimistehtävässä.

Työssä keskitytään tilastollisten hypoteesitestien valinnassa ja empiirisessä arvioinnissa siihen, että kalibroidaan tyypin I virheitä eli vääriä positiivisia tuloksia. Toisin sanoen sellaisen testin valitseminen, joka minimoi sen tapauksen, jossa oletetaan merkitsevä ero, vaikka sellaista eroa ei ole olemassa.

Paperissa on useita tärkeitä havaintoja.

Ensimmäinen havainto on se, että parittaisen Studentin t-testin käyttämistä harjoittelutietokannan satunnaisten uusintanäytteiden avulla estimoidun taidon tuloksiin ei pitäisi koskaan tehdä.

… voimme luottavaisin mielin päätellä, että uudelleen otettujen näytteiden t-testiä ei pitäisi koskaan käyttää.

Parittaisen t-testin oletuksia rikotaan satunnaisen uudelleen otannan ja k-kertaisen ristiinvalidoinnin tapauksessa (kuten edellä todettiin). Kuitenkin k-kertaisen ristiinvalidoinnin tapauksessa t-testi on optimistinen, mikä johtaa suurempaan tyypin I virheeseen, mutta vain vaatimattomaan tyypin II virheeseen. Tämä tarkoittaa, että tätä yhdistelmää voitaisiin käyttää tapauksissa, joissa tyypin II virheiden välttäminen on tärkeämpää kuin tyypin I virheeseen sortuminen.

Kymmenkertaisen ristiinvalidoidun t-testin tyypin I virhe on suuri. Sillä on kuitenkin myös suuri teho, ja siksi sitä voidaan suositella niissä tapauksissa, joissa II-tyypin virhe (epäonnistuminen todellisen eron havaitsemisessa algoritmien välillä) on tärkeämpi.

Dietterich suosittelee McNemarin tilastollista hypoteesitestiä tapauksissa, joissa aineiston määrä on rajallinen ja kukin algoritmi voidaan arvioida vain kerran.

McNemarin testi on kuin Khiin neliö -testi, ja tässä tapauksessa sitä käytetään sen määrittämiseen, eroavatko algoritmin kontingenssitaulukossa havaitut osuudet merkittävästi odotetuista osuuksista. Tämä on hyödyllinen havainto, kun kyseessä ovat suuret syväoppivat neuroverkot, joiden kouluttaminen voi kestää päiviä tai viikkoja.

Kokeidemme perusteella suosittelemme McNemarin testiä tilanteisiin, joissa oppimisalgoritmit voidaan ajaa vain kerran.

Dietterich suosittelee myös itse keksimäänsä uudelleennäytteenottomenetelmää nimeltä 5×2 cross-validation, joka käsittää 5 kertaa toistetun 2-kertaisen cross-validation.

Kaksi kertausta valitaan sen varmistamiseksi, että kukin havainto esiintyy vain train- tai testitietokannassa mallin kyvykkyyden yhden ainoan estimaatin saamiseksi. Tuloksiin käytetään parittaista Studentin t-testiä, jota päivitetään vastaamaan paremmin rajoitettuja vapausasteita, kun otetaan huomioon estimoitujen taitoarvojen välinen riippuvuus.

Kokeidemme perusteella suosittelemme 5 x 2cv t-testiä tilanteissa, joissa oppimisalgoritmit ovat riittävän tehokkaita ajettavaksi kymmenen kertaa

Refinements on 5×2 Cross-Validation

Joko McNemarin testin tai 5×2 cross-validationin käytöstä on tullut perussuositus suurimmaksi osaksi 20 vuotta artikkelin julkaisun jälkeen.

Lisäparannuksia on kuitenkin tehty parittaisen Studentin t-testin korjaamiseksi paremmin toistuvasta k-kertaisesta ristiinvalidoinnista johtuvan riippumattomuusolettaman rikkomisen osalta.

Kaksi tärkeää artikkelia monien joukossa ovat:

Claude Nadeau ja Yoshua Bengio ehdottavat lisäkorjausta vuonna 2003 ilmestyneessä artikkelissaan ”Inference for the Generalization Error”. Se on tiheä paperi, eikä sitä suositella heikkohermoisille.

Tämän analyysin avulla pystyimme rakentamaan kaksi varianssiestimaattia, jotka ottavat huomioon sekä harjoittelusarjojen valinnasta että testiesimerkkien valinnasta johtuvan vaihtelun. Toinen ehdotetuista estimaattoreista näyttää samankaltaiselta kuin cv-menetelmä (Dietterich, 1998), ja se on erityisesti suunniteltu yliarvioimaan varianssia konservatiivisen päättelyn aikaansaamiseksi.

Remco Bouckaert ja Eibe Frank ottavat vuonna 2004 ilmestyneessä artikkelissaan ”Evaluating the Replicability of Significance Tests for Comparing Learning Algorithms” erilaisen näkökulman ja pitävät tulosten toistettavuutta tärkeämpänä kuin tyypin I tai tyypin II virheitä.

Tässä artikkelissa väitämme, että myös testin toistettavuus on tärkeää. Sanomme, että testin toistettavuus on heikko, jos sen tulos riippuu vahvasti tietystä satunnaisesta datan osioinnista, jota käytetään testin suorittamiseen

Yllättäen he suosittelevat hyvän toistettavuuden saavuttamiseksi joko 100 satunnaista uusintanäytteenottokierrosta tai 10×10-kertaista ristiinvalidointia Nadeaun ja Bengion korjauksen kanssa parittaiseen Student-t-testiin.

Viimeistä lähestymistapaa suositellaan Ian Wittenin ja Eibe Frankin kirjassa ja heidän avoimen lähdekoodin tiedonlouhinta-alustassaan Weka, jossa viitataan Nadeaun ja Bengion korjaukseen nimellä ”corrected resampled t-test”.

Tämän ongelman kiertämiseksi on ehdotettu erilaisia muunnelmia tavallisesta t-testistä, kaikki heuristisia, ja niiltä puuttuvat vankat teoreettiset perustelut. Yksi käytännössä hyvin toimivista testeistä on korjattu t-testi. Samaa muokattua tilastoa voidaan käyttää toistuvan ristiinvalidoinnin kanssa, joka on vain toistuvan pidon erikoistapaus, jossa yhden ristiinvalidoinnin yksittäiset testijoukot eivät ole päällekkäisiä.

– Sivu 159, luku 5, Uskottavuus: Evaluating What’s Been Learned, Data Mining: Practical Machine Learning Tools and Techniques, Third Edition, 2011.

Suositukset

Ei ole olemassa hopealuoteja, kun on kyse tilastollisen merkitsevyystestin valitsemisesta mallin valintaa varten sovelletussa koneoppimisessa.

Katsotaanpa viittä lähestymistapaa, joita voit käyttää koneoppimisprojektissasi luokittelijoiden vertailuun.

Riippumattomat datanäytteet

Jos sinulla on lähes rajattomasti dataa, kerää k erillistä train- ja testidataa, jotta voit laskea 10 aidosti riippumatonta taitepistemäärää kummallekin menetelmälle.

Voit sitten soveltaa oikein parittaista Studentin t-testiä. Tämä on hyvin epätodennäköistä, koska työskentelemme usein pienten datanäytteiden kanssa.

… oletus, että dataa on periaatteessa rajattomasti, joten voidaan käyttää useita oikean kokoisia, toisistaan riippumattomia datasettejä. Käytännössä on yleensä vain yksi rajallisen kokoinen aineisto. Mitä voidaan tehdä?

– Sivu 158, luku 5, Uskottavuus: Evaluating What’s Been Learned, Data Mining: Practical Machine Learning Tools and Techniques, Third Edition, 2011.

Accept the Problems of 10-fold CV

Naiivia 10-kertaista ristiinvalidointia voidaan käyttää muokkaamattomalla parittaisella Studentin t-testillä.

Sen toistettavuus on hyvä suhteessa muihin menetelmiin ja tyypin II virhe on vaatimaton, mutta sen tyypin I virheen tiedetään olevan suuri.

Kokeet viittaavat myös varovaisuuteen 10-kertaisen ristiinvalidoidun t-testin tulosten tulkinnassa. Tällä testillä on kohonnut tyypin I virheen todennäköisyys (jopa kaksinkertainen tavoitetasoon nähden), vaikka se ei ole läheskään yhtä vakava kuin uudelleen näytteenotetun t-testin ongelma.

– Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms, 1998.

Se on vaihtoehto, mutta sitä suositellaan hyvin heikosti.

Käytä McNemarin testiä tai 5×2-kertaista CV:tä

Kahden vuosikymmenen ajan voimassa olleet suositukset McNemarin testistä luokittelutarkkuuden tuloksille, jotka on tehty yhdellä ajokerralla, ja 5×2-kertaisesta ristiinvalidoinnista modifioidulla parittaisella Studentin t-testillä yleisesti ottaen.

Lisäksi Nadeaun ja Bengion lisäkorjausta testistatistiikkaan voidaan käyttää 5×2-kertaisen ristiinvalidoinnin tai 10×10-kertaisen ristiinvalidoinnin kanssa, kuten Wekan kehittäjät suosittelevat.

Haasteena modifioidun t-statistiikan käyttämisessä on se, että siitä ei ole olemassa valmista toteutusta (esimerkiksi SciPy:ssä), mikä edellyttää kolmannen osapuolen koodin käyttämistä ja sen aiheuttamia riskejä. Saatat joutua toteuttamaan sen itse.

Valittavan tilastollisen menetelmän saatavuus ja monimutkaisuus on tärkeä näkökohta, jonka Gitte Vanwinckelen ja Hendrik Blockeel sanovat hyvin vuoden 2012 artikkelissaan ”On Estimating Model Accuracy with Repeated Cross-Validation”:

Vaikka nämä menetelmät on suunniteltu huolellisesti, ja niiden on osoitettu parantavan aiempia menetelmiä monin tavoin, ne kärsivät samasta riskistä kuin aiemmatkin menetelmät, nimittäin siitä, että mitä monimutkaisempi menetelmä on, sitä suurempi on riski, että tutkijat käyttävät sitä väärin tai tulkitsevat tuloksen väärin.

Tässä on esimerkki McNemarin testin käytöstä:

  • How to Calculate McNemar’s Test to Compare Two Machine Learning Classifiers

Käytä ei-parametrista parittaista testiä

Voidaan käyttää ei-parametrista testiä, joka tekee vähemmän olettamuksia, kuten se, että ei oleteta, että taitoarvojen jakauma on Gaussin.

Yksi esimerkki on Wilcoxonin signed-rank-testi, joka on parittaisen Studentin t-testin ei-parametrinen versio. Tällä testillä on vähemmän tilastollista tehoa kuin parittaisella t-testillä, joskin enemmän tehoa silloin, kun t-testin odotuksia rikotaan, kuten riippumattomuutta.

Tätä tilastollista hypoteesitestiä suosittelee Janez Demsar vuonna 2006 julkaisemassaan artikkelissa ”Statistical Comparisons of Classifiers over Multiple Data Sets” algoritmien vertailemiseen eri aineistoissa.

Suosittelemme siis Wilcoxonin testin käyttöä, elleivät t-testin oletukset täyty, joko siksi, että meillä on monia datasarjoja, tai siksi, että meillä on syytä uskoa, että suorituskyvyn mittari datasarjojen välillä jakautuu normaalisti.

Vaikka testi on ei-parametrinen, se olettaa silti, että kunkin otoksen sisällä olevat havainnot ovat riippumattomia (esim. iid), ja k-kertaisen ristiinvalidoinnin käyttäminen loisi riippuvaisia otoksia ja rikkoisi tätä oletusta.

Käytä estimointitilastoja sen sijaan

Tilastollisten hypoteesitestien sijaan voidaan laskea estimointitilastoja, kuten luottamusvälejä. Nämä kärsisivät samankaltaisista ongelmista, joissa riippumattomuusolettamaa rikotaan, kun otetaan huomioon uudelleennäytteenottomenetelmät, joilla malleja arvioidaan.

Tom Mitchell antaa samankaltaisen suosituksen kirjassaan vuonna 1997, jossa hän ehdottaa, että tilastollisten hypoteesitestien tuloksia pidetään heuristisina estimaatteina ja etsitään luottamusväliä mallin kyvykkyyttä kuvaavien estimaattien ympärille:

Yhteenvetona voidaan todeta, että yksikään yksittäinen menettely rajoitettuun data-aineistoon perustuvien oppimistyön menetelmien vertailemiseksi ei tyydytä kaikkia haluamiamme rajoituksia. On viisasta pitää mielessä, että tilastolliset mallit harvoin sopivat täydellisesti käytännön rajoitteisiin oppimisalgoritmien testaamisessa, kun käytettävissä oleva data on rajallista. Ne tarjoavat kuitenkin likimääräisiä luottamusvälejä, joista voi olla paljon apua oppimismenetelmien kokeellisten vertailujen tulkinnassa.

– Page 150, Chapter 5, Evaluating Hypotheses, Machine Learning, 1997.

Statistisia menetelmiä, kuten bootstrap-menetelmää (bootstrap = käynnistysvyöhyke), voidaan käyttää puolustettavien ei-parametristen luottamusvälien laskemiseen, joita voidaan käyttää sekä tulosten esittelyyn että luokittelijoiden vertailuun. Tämä on yksinkertainen ja tehokas lähestymistapa, johon voi aina turvautua ja jota suosittelen yleisesti.

Varmuusvälejä on itse asiassa tutkittu teoreettisesti eniten kaikista bootstrap-aiheista.

– Sivu 321, An Introduction to the Bootstrap, 1994.

Laajennukset

Tässä osiossa on lueteltu joitain ideoita tutoriaalin laajentamiseksi, joita voit halutessasi tutkia.

  • Find and list three research papers that incorrectly use the unmodified paired Student’s t-test to compare and choose a machine learning model.
  • Summarize the framework for using statistical hypothesis tests in a machine learning project presented in Thomas Dietterich’s 1998 paper.
  • Find and list three research papers that correctly use either the McNemar’s test or 5×2 Cross-Validation for comparison and choose a machine learning model.

Jos tutkit jotakin näistä laajennuksista, haluaisin tietää.

Lisälukemista

Tässä osiossa on lisää resursseja aiheesta, jos haluat mennä syvemmälle.

Paperit

  • Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms (approksimatiiviset tilastolliset testit valvotun luokittelun oppimisalgoritmien vertailemiseksi), 1998.
  • Evaluating the Replicability of Significance Tests for Comparing Learning Algorithms, 2004.
  • On estimating model accuracy with repeated cross-validation, 2012.
  • Statistical Comparisons of Classifiers over Multiple Data Sets, 2006.

Books

  • Chapter 5, Evaluating Hypotheses, Machine Learning, 1997.
  • Chapter 5, Credibility: Evaluating What’s Been Learned, Data Mining: Practical Machine Learning Tools and Techniques, Third Edition, 2011.
  • An Introduction to the Bootstrap, 1994.

Artikkelit

  • Student’s t-test Wikipediassa
  • Cross-validation (statistics) Wikipediassa
  • McNemarin testi Wikipediassa
  • Wilcoxonin signed-rank-testi Wikipediassa

Keskustelut

  • Mallien valintaan/vertailuun, millaista testiä minun tulisi käyttää?
  • Miten suoritetaan hypoteesitestausta eri luokittelijoiden vertailua varten
  • Wilcoxonin rank-summatestin menetelmä
  • Miten valita t-testin tai ei-parametrisen testin välillä esim. Wilcoxon pienissä otoksissa

Yhteenveto

Tässä opetusohjelmassa tutustuit tilastollisen hypoteesitestin valinnan tärkeyteen ja haasteeseen koneoppimismallien vertailussa.

Kohtaisesti opit:

  • Tilastolliset hypoteesitestit voivat olla avuksi koneoppimismallien vertailemisessa ja lopullisen mallin valinnassa.
  • Tilastollisten hypoteesitestien naiivi soveltaminen voi johtaa harhaanjohtaviin tuloksiin.
  • Tilastollisten testien oikea käyttö on haastavaa, ja jonkin verran yhteisymmärrystä vallitsee McNemarin testin tai 5×2 ristiinvalidoinnin käyttämisestä modifioidun parittaisen Studentin t-testin kanssa.

Onko sinulla kysyttävää?
Kysy kysymyksesi alla olevissa kommenteissa, niin teen parhaani vastatakseni.

Ota haltuun tilastoja koneoppimista varten!

Statistical Methods for Machine Learning

Kehitä toimiva ymmärrys tilastoista

…kirjoittamalla rivejä koodia pythonissa

Tutustu siihen uudessa Ebookissani:
Statistical Methods for Machine Learning

Se tarjoaa itseopiskeluoppaita muun muassa seuraavista aiheista:
Hypoteesitestit, korrelaatio, ei-parametrinen tilastotiede, uudelleennäytteenotto ja paljon muuta…

Tutustu siihen, miten muunnat datan tietämykseksi

Läpsäise akateemiset opinnot. Just Results.

See What’s Inside

Tweet Share Share Share

Vastaa

Sähköpostiosoitettasi ei julkaista.