Statistical Significance Tests for Comparing Machine Learning Algorithms

Tweet Share Share

Last Bijgewerkt op 8 augustus 2019

Comparing machine learning methods and selecting a final model is a common operation in applied machine learning.

Modellen worden gewoonlijk geëvalueerd met behulp van resampling-methoden zoals k-fold cross-validation waaruit gemiddelde vaardigheidsscores worden berekend en direct worden vergeleken. Hoewel eenvoudig, kan deze aanpak misleidend zijn, omdat het moeilijk is om te weten of het verschil tussen de gemiddelde vaardigheidsscores echt is of het resultaat van een statistische toevalstreffer.

Statistische significantietests zijn ontworpen om dit probleem aan te pakken en kwantificeren de waarschijnlijkheid dat de steekproeven van vaardigheidsscores worden waargenomen, gegeven de aanname dat ze uit dezelfde verdeling zijn getrokken. Als deze veronderstelling, of nulhypothese, wordt verworpen, suggereert dit dat het verschil in vaardigheidsscores statistisch significant is.

Hoewel niet foolproof, kan statistische hypothesetoetsing zowel uw vertrouwen in de interpretatie als de presentatie van resultaten tijdens modelselectie verbeteren.

In deze tutorial ontdekt u het belang en de uitdaging van het selecteren van een statistische hypothesetest voor het vergelijken van machine learning-modellen.

Na het voltooien van deze tutorial weet u:

  • Statistische hypothesetests kunnen helpen bij het vergelijken van machine learning-modellen en het kiezen van een definitief model.
  • De naïeve toepassing van statistische hypothesetests kan leiden tot misleidende resultaten.
  • Het juiste gebruik van statistische tests is een uitdaging, en er is enige consensus voor het gebruik van de McNemar’s-test of 5×2 kruisvalidatie met een aangepaste gepaarde Student t-test.

Kick-start je project met mijn nieuwe boek Statistics for Machine Learning, inclusief stap-voor-stap tutorials en de Python-broncodebestanden voor alle voorbeelden.

Let’s get started.

  • Update okt/2018: Link toegevoegd naar een voorbeeld van het gebruik van McNemar’s test.
Statistical Significance Tests for Comparing Machine Learning Algorithms

Statistical Significance Tests for Comparing Machine Learning Algorithms
Photo by Fotografías de Javier, enkele rechten voorbehouden.

Tutorial Overview

Deze tutorial is onderverdeeld in 5 delen; deze zijn:

  1. Het probleem van modelselectie
  2. Statistische hypothesetests
  3. Het probleem van het kiezen van een hypothesetest
  4. Samenvatting van enkele bevindingen
  5. Aanbevelingen

Hulp nodig bij Statistiek voor Machine Leren?

Doe nu mijn gratis 7-daagse e-mail spoedcursus (met voorbeeldcode).

Klik om u aan te melden en ontvang ook een gratis PDF Ebook-versie van de cursus.

Download Uw GRATIS Mini-Cursus

Het probleem van modelselectie

Een groot deel van toegepast machinaal leren is modelselectie.

Dit kunnen we in zijn eenvoudigste vorm beschrijven:

Gezien de evaluatie van twee machine-leermethoden op een dataset, welk model kies je?

Je kiest het model met de beste vaardigheid.

Dat wil zeggen, het model waarvan de geschatte vaardigheid bij het doen van voorspellingen op ongeziene gegevens het beste is. Dit kan de maximale nauwkeurigheid of de minimale fout zijn in het geval van respectievelijk classificatie- en regressieproblemen.

De uitdaging bij het selecteren van het model met de beste vaardigheid is te bepalen in hoeverre u de geschatte vaardigheid van elk model kunt vertrouwen. Meer in het algemeen:

Is het verschil in vaardigheid tussen twee modellen voor machinaal leren reëel, of het gevolg van een statistisch toeval?

We kunnen statistische hypothesetests gebruiken om deze vraag te beantwoorden.

Statistische hypothesetests

In het algemeen kwantificeert een statistische hypothesetest voor het vergelijken van steekproeven hoe waarschijnlijk het is dat twee gegevenssteekproeven worden waargenomen, gegeven de aanname dat de steekproeven dezelfde verdeling hebben.

De aanname van een statistische test wordt de nulhypothese genoemd en we kunnen statistische maten berekenen en interpreteren om te beslissen of we de nulhypothese al dan niet moeten accepteren of verwerpen.

In het geval van de selectie van modellen op basis van hun geschatte vaardigheid, zijn wij geïnteresseerd om te weten of er een reëel of statistisch significant verschil is tussen de twee modellen.

  • Als het resultaat van de test suggereert dat er onvoldoende bewijs is om de nulhypothese te verwerpen, dan is elk waargenomen verschil in modelvaardigheid waarschijnlijk te wijten aan statistisch toeval.
  • Als het resultaat van de test suggereert dat er voldoende bewijs is om de nulhypothese te verwerpen, dan is elk waargenomen verschil in modelvaardigheid waarschijnlijk te wijten aan een verschil in de modellen.

De resultaten van de test zijn probabilistisch, wat betekent dat het mogelijk is om het resultaat correct te interpreteren en dat het resultaat fout is met een type I- of type II-fout. Kortom, een vals-positieve of vals-negatieve bevinding.

Het vergelijken van machinaal lerende modellen via statistische significantietests legt een aantal verwachtingen op die op hun beurt een invloed zullen hebben op de soorten statistische tests die kunnen worden gebruikt; bijvoorbeeld:

  • Skill Estimate. Er moet een specifieke maatstaf voor de vaardigheid van het model worden gekozen. Dit kan de nauwkeurigheid van de classificatie zijn (een percentage) of de gemiddelde absolute fout (samenvattende statistiek), hetgeen het type tests dat kan worden gebruikt, zal beperken.
  • Herhaalde schattingen. Voor de berekening van statistieken is een steekproef van vaardigheidsscores nodig. Het herhaald trainen en testen van een bepaald model op dezelfde of andere gegevens heeft gevolgen voor het type test dat kan worden gebruikt.
  • Verdeling van schattingen. De steekproef van vaardigheidsscoreschattingen zal een verdeling hebben, misschien Gaussisch of misschien niet. Dit zal bepalen of parametrische of niet-parametrische tests kunnen worden gebruikt.
  • Centrale tendens. De modelvaardigheid zal vaak worden beschreven en vergeleken met behulp van een samenvattende statistiek, zoals een gemiddelde of een mediaan, afhankelijk van de verdeling van de vaardigheidsscores. De test kan hier al dan niet rechtstreeks rekening mee houden.

De resultaten van een statistische test zijn vaak een teststatistiek en een p-waarde, die beide kunnen worden geïnterpreteerd en gebruikt in de presentatie van de resultaten om de mate van vertrouwen of significantie in het verschil tussen modellen te kwantificeren. Hierdoor kunnen sterkere beweringen worden gedaan als onderdeel van modelselectie dan wanneer geen statistische hypothesetests worden gebruikt.

Gezien het feit dat het gebruik van statistische hypothesetests wenselijk lijkt als onderdeel van modelselectie, hoe kies je dan een test die geschikt is voor je specifieke use case?

Probleem van het kiezen van een hypothesetest

Laten we eens kijken naar een veelvoorkomend voorbeeld voor het evalueren en vergelijken van classifiers voor een gebalanceerd binair classificatieprobleem.

Het is gebruikelijk om classificatiemethoden te evalueren met behulp van classificatienauwkeurigheid, om elk model te evalueren met behulp van 10-voudige kruisvalidatie, om een Gaussische verdeling aan te nemen voor de steekproef van 10 modelvaardigheidsschattingen, en om het gemiddelde van de steekproef te gebruiken als een samenvatting van de vaardigheid van het model.

We zouden kunnen eisen dat elke classificeerder die met deze procedure wordt geëvalueerd, via 10-voudige kruisvalidatie op precies dezelfde splitsingen van de dataset wordt geëvalueerd. Dit zou steekproeven opleveren van gematchte gepaarde metingen tussen twee classifiers, gematcht omdat elke classifier op dezelfde 10 testsets werd geëvalueerd.

We zouden dan de gepaarde Student’s t-test kunnen selecteren en gebruiken om te controleren of het verschil in gemiddelde nauwkeurigheid tussen de twee modellen statistisch significant is, d.w.z.

In feite is dit een gebruikelijke manier om classifiers te vergelijken, met misschien wel honderden gepubliceerde artikelen waarin deze methode wordt gebruikt.

Het probleem is dat een belangrijke aanname van de gepaarde Student’s t-test is geschonden.

Namelijk zijn de waarnemingen in elke steekproef niet onafhankelijk. Als onderdeel van de k-voudige kruisvalidatieprocedure wordt een bepaalde waarneming (k-1) keer in de opleidingsdataset gebruikt. Dit betekent dat de geschatte vaardigheidsscores afhankelijk zijn, en niet onafhankelijk, en dat de berekening van de t-statistiek in de test misleidend onjuist zal zijn, samen met eventuele interpretaties van de statistiek en de p-waarde.

Deze observatie vereist een zorgvuldig begrip van zowel de gebruikte resampling-methode, in dit geval k-voudige kruisvalidatie, en de verwachtingen van de gekozen hypothesetoets, in dit geval de gepaarde Student’s t-test. Zonder deze achtergrond lijkt de test geschikt, wordt een resultaat berekend en geïnterpreteerd, en ziet alles er prima uit.

Het selecteren van een geschikte statistische hypothesetoets voor modelselectie bij toegepast machinaal leren is helaas uitdagender dan het op het eerste gezicht lijkt. Gelukkig is er een groeiende hoeveelheid onderzoek dat helpt om te wijzen op de gebreken van de naïeve benaderingen, en suggesties voor correcties en alternatieve methoden.

Samenvatting van enkele bevindingen

In deze sectie, laten we eens kijken naar een aantal van het onderzoek naar de selectie van geschikte statistische significantie tests voor modelselectie in machine learning.

Gebruik McNemar’s test of 5×2 kruisvalidatie

Het baanbrekende werk over dit onderwerp is misschien wel het artikel uit 1998 met de titel “Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms” van Thomas Dietterich.

Het is een uitstekend artikel over dit onderwerp en een aanrader om te lezen. Het behandelt eerst een geweldig kader om na te denken over de punten tijdens een machine learning-project waar een statistische hypothesetest nodig kan zijn, bespreekt de verwachting over veelvoorkomende schendingen van statistische tests die relevant zijn voor het vergelijken van classifier machine learning-methoden, en eindigt met een empirische evaluatie van methoden om de bevindingen te bevestigen.

Dit artikel bespreekt vijf statistische tests bij benadering om te bepalen of een leeralgoritme beter presteert dan een ander op een bepaalde leertaak.

De focus van de selectie en empirische evaluatie van statistische hypothesetests in het artikel is die kalibratie van Type I-fouten of vals-positieven. Dat wil zeggen, het selecteren van een test die het geval van het suggereren van een significant verschil wanneer een dergelijk verschil niet bestaat minimaliseert.

Er zijn een aantal belangrijke bevindingen in deze paper.

De eerste bevinding is dat het gebruik van gepaarde Student’s t-test op de resultaten van vaardigheid geschat via willekeurige resamples van een training dataset nooit moet worden gedaan.

… kunnen we met zekerheid concluderen dat de resampled t-test nooit mag worden gebruikt.

De veronderstellingen van de gepaarde t-test worden geschonden in het geval van random resampling en in het geval van k-voudige kruisvalidatie (zoals hierboven opgemerkt). Niettemin zal de t-test in het geval van k-voudige kruisvalidatie optimistisch zijn, wat resulteert in een hogere Type I-fout, maar slechts een bescheiden Type II-fout. Dit betekent dat deze combinatie zou kunnen worden gebruikt in gevallen waarin het vermijden van Type II-fouten belangrijker is dan het bezwijken onder een Type I-fout.

De 10-voudige kruisvalidatie t-test heeft een hoge Type I-fout. Hij heeft echter ook een hoge power en kan dus worden aanbevolen in gevallen waarin een type II-fout (het niet detecteren van een echt verschil tussen algoritmen) belangrijker is.

Dietterich beveelt de statistische hypothesetest van McNemar aan in gevallen waarin er een beperkte hoeveelheid gegevens is en elk algoritme slechts eenmaal kan worden geëvalueerd.

De McNemar’s test lijkt op de Chi-kwadraat toets, en wordt in dit geval gebruikt om te bepalen of het verschil in waargenomen verhoudingen in de contingentietabel van het algoritme significant verschilt van de verwachte verhoudingen. Dit is een nuttige bevinding in het geval van grote neurale netwerken met diep leren, waarvan het dagen of weken kan duren om ze te trainen.

Op grond van onze experimenten bevelen wij de McNemar-toets aan, voor situaties waarin de leeralgoritmen slechts eenmaal kunnen worden uitgevoerd.

Dietterich beveelt ook een door hemzelf bedachte methode voor herbemonstering aan, genaamd 5×2 kruisvalidatie, waarbij 5 keer een 2-voudige kruisvalidatie wordt herhaald.

Twee vouwen worden gekozen om ervoor te zorgen dat elke waarneming alleen in de train- of testdataset voorkomt voor een enkele schatting van de modelvaardigheid. Er wordt een gepaarde Student’s t-test gebruikt op de resultaten, bijgewerkt om de beperkte vrijheidsgraden beter weer te geven gezien de afhankelijkheid tussen de geschatte vaardigheidsscores.

Op basis van onze experimenten bevelen we een 5x2cv t-test aan, voor situaties waarin de leeralgoritmen efficiënt genoeg zijn om tien keer te draaien

Refinements on 5×2 Cross-Validation

Het gebruik van McNemar’s test of 5×2 kruisvalidatie is in de 20 jaar sinds de publicatie van dit artikel een veelgebruikte aanbeveling geworden.

Niettemin zijn er verdere verbeteringen aangebracht om de gepaarde Student’s t-test beter te corrigeren voor de schending van de onafhankelijkheidshypothese van herhaalde k-voudige kruisvalidatie.

Twee belangrijke papers onder vele zijn:

Claude Nadeau en Yoshua Bengio stellen een verdere correctie voor in hun paper uit 2003 getiteld “Inference for the Generalization Error”. Het is een omvangrijke paper en niet aan te bevelen voor de zwakkeren onder ons.

Deze analyse stelde ons in staat twee variantieschattingen te construeren die rekening houden met zowel de variabiliteit als gevolg van de keuze van de trainingssets als de keuze van de testvoorbeelden. Een van de voorgestelde schatters lijkt op de cv-methode (Dietterich, 1998) en is speciaal ontworpen om de variantie te overschatten en zo een conservatieve gevolgtrekking te maken.

Remco Bouckaert en Eibe Frank nemen in hun paper uit 2004 getiteld “Evaluating the Replicability of Significance Tests for Comparing Learning Algorithms” een ander standpunt in en beschouwen de mogelijkheid om resultaten te repliceren als belangrijker dan Type I- of Type II-fouten.

In dit paper stellen wij dat de repliceerbaarheid van een test ook van belang is. Wij zeggen dat een test een lage repliceerbaarheid heeft als de uitkomst sterk afhangt van de specifieke willekeurige partitionering van de gegevens die wordt gebruikt om de test uit te voeren

Verrassend genoeg bevelen zij het gebruik aan van ofwel 100 runs van willekeurige resampling ofwel 10×10-voudige kruisvalidatie met de Nadeau- en Bengio-correctie voor de gepaarde Student-t-test om een goede repliceerbaarheid te bereiken.

De laatste aanpak wordt aanbevolen in het boek van Ian Witten en Eibe Frank en in hun open-source dataminingplatform Weka, waarbij naar de Nadeau en Bengio-correctie wordt verwezen als de “corrected resampled t-test”.

Er zijn diverse modificaties van de standaard t-test voorgesteld om dit probleem te omzeilen, die allemaal heuristisch zijn en geen deugdelijke theoretische rechtvaardiging hebben. Een die in de praktijk goed blijkt te werken is de gecorrigeerde resampled t-test. Dezelfde aangepaste statistiek kan worden gebruikt bij herhaalde kruisvalidatie, wat gewoon een speciaal geval is van herhaalde holdout waarbij de afzonderlijke testsets voor één kruisvalidatie elkaar niet overlappen.

– Bladzijde 159, hoofdstuk 5, Geloofwaardigheid: Evaluating What’s Been Learned, Data Mining: Practical Machine Learning Tools and Techniques, Third Edition, 2011.

Aanbevelingen

Er zijn geen wondermiddelen als het gaat om het selecteren van een statistische significantietest voor modelselectie in toegepast machine-leren.

Laten we eens kijken naar vijf benaderingen die u op uw machine-learningproject kunt gebruiken om classifiers te vergelijken.

Onafhankelijke datasamples

Als u bijna onbeperkte gegevens hebt, verzamelt u k afzonderlijke train- en testdatasets om 10 echt onafhankelijke vaardigheidsscores voor elke methode te berekenen.

U kunt dan de gepaarde Student’s t-test correct toepassen. Dit is hoogst onwaarschijnlijk omdat we vaak met kleine datasamples werken.

… de veronderstelling dat er in wezen onbeperkte gegevens zijn, zodat meerdere onafhankelijke datasets van de juiste omvang kunnen worden gebruikt. In de praktijk is er meestal slechts één dataset van beperkte omvang. Wat kan er worden gedaan?

– Bladzijde 158, hoofdstuk 5, Geloofwaardigheid: Evaluating What’s Been Learned, Data Mining: Practical Machine Learning Tools and Techniques, Third Edition, 2011.

Accept the Problems of 10-fold CV

De naïeve 10-voudige kruisvalidatie kan worden gebruikt met een ongewijzigde gepaarde Student t-test kan worden gebruikt.

Het heeft een goede herhaalbaarheid ten opzichte van andere methoden en een bescheiden type II-fout, maar het is bekend dat het een hoge type I-fout heeft.

De experimenten suggereren ook voorzichtigheid bij het interpreteren van de resultaten van de 10-voudige kruisgevalideerde t-toets. Deze test heeft een verhoogde kans op type I-fouten (tot wel twee keer het streefniveau), hoewel dit lang niet zo ernstig is als het probleem met de geresamplede t-test.

– Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms, 1998.

Het is een optie, maar het wordt zeer zwak aanbevolen.

Gebruik McNemar’s test of 5×2 CV

De twee decennia lange aanbevelingen van McNemar’s test voor single-run classificatienauwkeurigheidsresultaten en 5×2-voudige kruisvalidatie met een aangepaste gepaarde Student’s t-test in het algemeen blijven overeind.

Daarnaast kan de verdere correctie van de teststatistiek door Nadeau en Bengio worden gebruikt met de 5×2-voudige kruisvalidatie of 10×10-voudige kruisvalidatie, zoals aanbevolen door de ontwikkelaars van Weka.

Een uitdaging bij het gebruik van de gemodificeerde t-statistiek is dat er geen kant-en-klare implementatie is (bijvoorbeeld in SciPy), waardoor het gebruik van code van derden nodig is en de risico’s die dit met zich meebrengt. U zult het wellicht zelf moeten implementeren.

De beschikbaarheid en complexiteit van een gekozen statistische methode is een belangrijke overweging, goed verwoord door Gitte Vanwinckelen en Hendrik Blockeel in hun paper uit 2012 getiteld “On Estimating Model Accuracy with Repeated Cross-Validation”:

Hoewel deze methoden zorgvuldig zijn ontworpen, en op een aantal manieren aantoonbaar beter zijn dan eerdere methoden, lijden ze aan hetzelfde risico als eerdere methoden, namelijk dat hoe complexer een methode is, hoe groter het risico dat onderzoekers deze verkeerd zullen gebruiken, of het resultaat verkeerd zullen interpreteren.

Ik heb hier een voorbeeld van het gebruik van McNemar’s test:

  • Hoe McNemar’s Test berekenen om twee Machine Learning Classifiers te vergelijken

Gebruik een niet-parametrische gepaarde test

We kunnen een niet-parametrische test gebruiken die minder aannamen doet, zoals niet aannemen dat de verdeling van de vaardigheidsscores Gaussisch is.

Een voorbeeld is de Wilcoxon signed-rank test, de niet-parametrische versie van de gepaarde Student’s t-test. Deze test heeft minder statistische kracht dan de gepaarde t-toets, hoewel meer kracht wanneer de verwachtingen van de t-toets worden geschonden, zoals onafhankelijkheid.

Deze statistische hypothesetoets wordt aanbevolen voor het vergelijken van algoritmen verschillende datasets door Janez Demsar in zijn 2006 paper “Statistical Comparisons of Classifiers over Multiple Data Sets”.

Wij raden daarom aan de Wilcoxon-test te gebruiken, tenzij aan de veronderstellingen van de t-test wordt voldaan, hetzij omdat we veel datasets hebben, hetzij omdat we redenen hebben om aan te nemen dat de maatstaf voor de prestaties over de datasets normaal is verdeeld.

Hoewel de test niet-parametrisch is, gaat hij er nog steeds van uit dat de waarnemingen binnen elke steekproef onafhankelijk zijn (b.v. iid), en het gebruik van k-voudige kruisvalidatie zou afhankelijke steekproeven creëren en deze veronderstelling schenden.

Gebruik in plaats daarvan schattingsstatistieken

In plaats van statistische hypothesetests kunnen schattingsstatistieken worden berekend, zoals betrouwbaarheidsintervallen. Deze zouden soortgelijke problemen ondervinden wanneer de veronderstelling van onafhankelijkheid wordt geschonden gezien de resampling-methoden waarmee de modellen worden geëvalueerd.

Tom Mitchell doet een soortgelijke aanbeveling in zijn boek uit 1997, waarin hij voorstelt de resultaten van statistische hypothesetests te beschouwen als heuristische schattingen en te zoeken naar betrouwbaarheidsintervallen rond schattingen van modelvaardigheid:

Samenvattend voldoet geen enkele procedure voor het vergelijken van leermethoden op basis van beperkte gegevens aan alle beperkingen die we zouden willen. Het is raadzaam voor ogen te houden dat statistische modellen zelden perfect beantwoorden aan de praktische beperkingen voor het testen van leeralgoritmen wanneer de beschikbare gegevens beperkt zijn. Niettemin leveren ze bij benadering betrouwbaarheidsintervallen op die van groot nut kunnen zijn bij het interpreteren van experimentele vergelijkingen van leermethoden.

– Pagina 150, Hoofdstuk 5, Evaluating Hypotheses, Machine Learning, 1997.

Statistische methoden zoals de bootstrap kunnen worden gebruikt om verdedigbare niet-parametrische betrouwbaarheidsintervallen te berekenen die kunnen worden gebruikt om zowel resultaten te presenteren als classifiers te vergelijken. Dit is een eenvoudige en effectieve aanpak waarop u altijd kunt terugvallen en die ik in het algemeen aanbeveel.

In feite hebben betrouwbaarheidsintervallen de meeste theoretische studie gekregen van alle onderwerpen op het gebied van bootstrap.

– Pagina 321, An Introduction to the Bootstrap, 1994.

Uitbreidingen

In dit gedeelte staan enkele ideeën voor uitbreiding van de tutorial die u misschien wilt onderzoeken.

  • Vind en noem drie onderzoekspapers die ten onrechte de ongewijzigde gepaarde Student’s t-test gebruiken voor het vergelijken en kiezen van een machine learning model.
  • Samenvat het kader voor het gebruik van statistische hypothesetests in een machine learning project dat wordt gepresenteerd in Thomas Dietterich’s paper uit 1998.
  • Vind en noem drie onderzoekspapers die ten onrechte ofwel de McNemar’s test of 5×2 Cross-Validation gebruiken voor het vergelijken en kiezen van een machine learning model.

Als u een van deze uitbreidingen onderzoekt, zou ik dat graag willen weten.

Verder lezen

Deze sectie biedt meer bronnen over het onderwerp als u op zoek bent om dieper te gaan.

Papers

  • Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms, 1998.
  • Inference for the Generalization Error, 2003.
  • Evaluating the Replicability of Significance Tests for Comparing Learning Algorithms, 2004.
  • On estimating model accuracy with repeated cross-validation, 2012.
  • Statistical Comparisons of Classifiers over Multiple Data Sets, 2006.

Books

  • Hoofdstuk 5, Evaluating Hypotheses, Machine Learning, 1997.
  • Hoofdstuk 5, Credibility: Evaluating What’s Been Learned, Data Mining: Practical Machine Learning Tools and Techniques, Third Edition, 2011.
  • An Introduction to the Bootstrap, 1994.

Artikelen

  • Student’s t-test op Wikipedia
  • Cross-validation (statistiek) op Wikipedia
  • McNemar’s test op Wikipedia
  • Wilcoxon signed-rank test op Wikipedia

Discussies

  • Voor modelselectie/vergelijking, wat voor soort test moet ik gebruiken?
  • Hoe hypothesetests uit te voeren voor het vergelijken van verschillende classifiers
  • Wilcoxon rank sum test methodologie
  • Hoe te kiezen tussen t-test of niet-parametrische test, bijv. Wilcoxon in kleine steekproeven

Samenvatting

In deze tutorial ontdekte u het belang en de uitdaging van het selecteren van een statistische hypothesetest voor het vergelijken van machine learning-modellen.

Specifiek leerde u:

  • Statistische hypothesetests kunnen helpen bij het vergelijken van machine learning-modellen en het kiezen van een definitief model.
  • De naïeve toepassing van statistische hypothesetests kan leiden tot misleidende resultaten.
  • Het juiste gebruik van statistische tests is een uitdaging, en er is enige consensus voor het gebruik van de McNemar’s-test of 5×2 kruisvalidatie met een aangepaste gepaarde Student t-test.

Heeft u nog vragen?
Stel uw vragen in de commentaren hieronder en ik zal mijn best doen om ze te beantwoorden.

Krijg grip op statistiek voor Machine Learning!

Statistische methoden voor machinaal leren

Ontwikkel een goed begrip van statistiek

…door het schrijven van regels code in python

Ontdek hoe in mijn nieuwe Ebook:
Statistical Methods for Machine Learning

Het biedt zelfstudie tutorials over onderwerpen als:
Hypothese Tests, Correlatie, Nonparametric Stats, Resampling, en nog veel meer…

Ontdek hoe je gegevens om te zetten in kennis

Skip de academici. Alleen resultaten.

Bekijk de inhoud

Tweet Share Share

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.