Statistische Signifikanztests für den Vergleich von Algorithmen des maschinellen Lernens

Tweet Share Share

Letztes Update am 8. August 2019

Der Vergleich von Methoden des maschinellen Lernens und die Auswahl eines endgültigen Modells ist ein gängiger Vorgang im angewandten maschinellen Lernen.

Modelle werden üblicherweise mit Resampling-Methoden wie der k-fachen Kreuzvalidierung bewertet, aus denen die mittleren Skill Scores berechnet und direkt verglichen werden. Obwohl dieser Ansatz einfach ist, kann er irreführend sein, da es schwierig ist, festzustellen, ob der Unterschied zwischen den mittleren Kompetenzwerten real oder das Ergebnis eines statistischen Zufalls ist.

Statistische Signifikanztests sollen dieses Problem lösen und quantifizieren die Wahrscheinlichkeit, dass die Stichproben der Kompetenzwerte unter der Annahme, dass sie aus der gleichen Verteilung gezogen wurden, beobachtet werden. Wenn diese Annahme oder Nullhypothese abgelehnt wird, deutet dies darauf hin, dass der Unterschied in den Kompetenzwerten statistisch signifikant ist.

Obwohl die statistischen Hypothesentests nicht narrensicher sind, können sie sowohl das Vertrauen in die Interpretation als auch die Darstellung der Ergebnisse bei der Modellauswahl verbessern.

In diesem Tutorium lernen Sie die Bedeutung und die Herausforderung der Auswahl eines statistischen Hypothesentests für den Vergleich von Modellen für maschinelles Lernen kennen.

Nach Abschluss dieses Tutoriums wissen Sie:

Statistische Hypothesentests können beim Vergleich von Modellen für maschinelles Lernen und bei der Auswahl eines endgültigen Modells helfen.
Die naive Anwendung statistischer Hypothesentests kann zu irreführenden Ergebnissen führen.
Die korrekte Anwendung statistischer Tests ist eine Herausforderung, und es gibt einen gewissen Konsens für die Verwendung des McNemar-Tests oder der 5×2-Kreuzvalidierung mit einem modifizierten gepaarten Student t-Test.

Starten Sie Ihr Projekt mit meinem neuen Buch Statistics for Machine Learning, das schrittweise Anleitungen und die Python-Quellcodedateien für alle Beispiele enthält.

Lassen Sie uns anfangen.

Update Okt/2018: Link zu einem Beispiel für die Verwendung des McNemar-Tests hinzugefügt.

Statistische Signifikanztests für den Vergleich von Algorithmen des maschinellen Lernens
Photo by Fotografías de Javier, some rights reserved.

Übersicht über das Tutorial

Dieses Tutorial ist in 5 Teile unterteilt; sie sind:

Das Problem der Modellauswahl
Statistische Hypothesentests
Problem der Auswahl eines Hypothesentests
Zusammenfassung einiger Ergebnisse
Empfehlungen

Brauchen Sie Hilfe bei Statistik für maschinelles Lernen?

Machen Sie jetzt meinen kostenlosen 7-tägigen E-Mail-Crashkurs (mit Beispielcode).

Klicken Sie, um sich anzumelden und auch eine kostenlose PDF-Ebook-Version des Kurses zu erhalten.

Laden Sie Ihren KOSTENLOSEN Mini-Kurs herunter

Das Problem der Modellauswahl

Ein großer Teil des angewandten maschinellen Lernens ist die Modellauswahl.

Wir können dies in seiner einfachsten Form beschreiben:

Welches Modell wählen Sie, wenn Sie zwei Methoden des maschinellen Lernens für einen Datensatz bewerten?

Sie wählen das Modell mit der besten Fähigkeit.

Das heißt, das Modell, dessen geschätzte Fähigkeit bei der Erstellung von Vorhersagen für ungesehene Daten am besten ist. Bei Klassifizierungs- und Regressionsproblemen kann dies die maximale Genauigkeit oder der minimale Fehler sein.

Die Herausforderung bei der Auswahl des Modells mit der besten Fähigkeit besteht darin, festzustellen, wie sehr man der geschätzten Fähigkeit jedes Modells vertrauen kann. Allgemeiner ausgedrückt:

Ist der Unterschied in der Fähigkeit zwischen zwei Modellen für maschinelles Lernen real oder auf einen statistischen Zufall zurückzuführen?

Wir können statistische Hypothesentests verwenden, um diese Frage zu klären.

Statistische Hypothesentests

Im Allgemeinen quantifiziert ein statistischer Hypothesentest zum Vergleich von Stichproben, wie wahrscheinlich es ist, zwei Datenstichproben zu beobachten, wenn man annimmt, dass die Stichproben die gleiche Verteilung haben.

Die Annahme eines statistischen Tests wird als Nullhypothese bezeichnet, und wir können statistische Maße berechnen und sie interpretieren, um zu entscheiden, ob wir die Nullhypothese annehmen oder ablehnen.

Bei der Auswahl von Modellen auf der Grundlage ihrer geschätzten Fähigkeit interessiert uns, ob es einen realen oder statistisch signifikanten Unterschied zwischen den beiden Modellen gibt.

Wenn das Ergebnis des Tests darauf hindeutet, dass es keine ausreichenden Beweise gibt, um die Nullhypothese zurückzuweisen, dann ist jeder beobachtete Unterschied in der Modellfähigkeit wahrscheinlich auf einen statistischen Zufall zurückzuführen.
Wenn das Ergebnis des Tests darauf hindeutet, dass es genügend Beweise gibt, um die Nullhypothese abzulehnen, dann ist jeder beobachtete Unterschied in der Modellfähigkeit wahrscheinlich auf einen Unterschied in den Modellen zurückzuführen.

Die Ergebnisse des Tests sind probabilistisch, d.h. es ist möglich, das Ergebnis richtig zu interpretieren und dass das Ergebnis mit einem Fehler vom Typ I oder Typ II falsch ist. Kurz gesagt, ein falsch positives oder falsch negatives Ergebnis.

Der Vergleich von Modellen des maschinellen Lernens über statistische Signifikanztests bringt einige Erwartungen mit sich, die sich wiederum auf die Arten von statistischen Tests auswirken, die verwendet werden können; zum Beispiel:

Schätzung der Fähigkeit. Es muss ein spezifisches Maß für die Modellfähigkeit gewählt werden. Dabei kann es sich um die Klassifizierungsgenauigkeit (ein Anteil) oder den mittleren absoluten Fehler (zusammenfassende Statistik) handeln, was die Art der verwendbaren Tests einschränkt.
Wiederholte Schätzungen. Für die Berechnung von Statistiken ist eine Stichprobe von Fertigkeitswerten erforderlich. Das wiederholte Trainieren und Testen eines bestimmten Modells mit denselben oder anderen Daten wirkt sich auf die Art des Tests aus, der verwendet werden kann.
Verteilung der Schätzungen. Die Stichprobe der Schätzungen der Kompetenzwerte wird eine Verteilung haben, vielleicht eine Gaußsche Verteilung, vielleicht auch nicht. Daraus ergibt sich, ob parametrische oder nichtparametrische Tests verwendet werden können.
Zentrale Tendenz. Die Fähigkeit eines Modells wird oft mit Hilfe einer zusammenfassenden Statistik beschrieben und verglichen, z. B. mit einem Mittelwert oder Median, je nach Verteilung der Fähigkeitswerte. Der Test kann dies direkt berücksichtigen oder auch nicht.

Die Ergebnisse eines statistischen Tests sind oft eine Teststatistik und ein p-Wert, die beide interpretiert und bei der Präsentation der Ergebnisse verwendet werden können, um den Grad des Vertrauens oder der Signifikanz des Unterschieds zwischen den Modellen zu quantifizieren. Auf diese Weise können im Rahmen der Modellauswahl stärkere Aussagen gemacht werden als ohne die Verwendung statistischer Hypothesentests.

Angesichts der Tatsache, dass die Verwendung statistischer Hypothesentests im Rahmen der Modellauswahl wünschenswert erscheint, stellt sich die Frage, wie man einen Test auswählt, der für den jeweiligen Anwendungsfall geeignet ist?

Problem der Auswahl eines Hypothesentests

Betrachten wir ein gängiges Beispiel für die Bewertung und den Vergleich von Klassifikatoren für ein ausgeglichenes binäres Klassifikationsproblem.

Es ist gängige Praxis, Klassifizierungsmethoden anhand der Klassifizierungsgenauigkeit zu bewerten, jedes Modell mittels 10-facher Kreuzvalidierung zu evaluieren, eine Gaußsche Verteilung für die Stichprobe von 10 Modellfähigkeitsschätzungen anzunehmen und den Mittelwert der Stichprobe als Zusammenfassung der Modellfähigkeit zu verwenden.

Wir könnten verlangen, dass jeder Klassifizierer, der mit diesem Verfahren evaluiert wird, auf genau denselben Teilen des Datensatzes mittels 10-facher Kreuzvalidierung evaluiert wird. Dies würde Stichproben von gepaarten Messwerten zwischen zwei Klassifikatoren ergeben, die übereinstimmen, weil jeder Klassifikator auf denselben 10 Testdatensätzen evaluiert wurde.

Wir könnten dann den gepaarten Student’s t-Test auswählen und verwenden, um zu prüfen, ob der Unterschied in der mittleren Genauigkeit zwischen den beiden Modellen statistisch signifikant ist, z. B.

In der Tat ist dies eine gängige Methode zum Vergleich von Klassifizierern mit vielleicht Hunderten von veröffentlichten Arbeiten, die diese Methodik verwenden.

Das Problem ist, dass eine Schlüsselannahme des gepaarten Student’s t-Tests verletzt wurde.

Nämlich, dass die Beobachtungen in jeder Stichprobe nicht unabhängig sind. Im Rahmen des k-fachen Kreuzvalidierungsverfahrens wird eine bestimmte Beobachtung (k-1) Mal im Trainingsdatensatz verwendet. Das bedeutet, dass die geschätzten Skill Scores nicht unabhängig, sondern abhängig sind, was wiederum dazu führt, dass die Berechnung der t-Statistik im Test irreführend falsch ist, ebenso wie jegliche Interpretationen der Statistik und des p-Wertes.

Diese Beobachtung erfordert ein sorgfältiges Verständnis sowohl der verwendeten Resampling-Methode, in diesem Fall der k-fachen Kreuzvalidierung, als auch der Erwartungen des gewählten Hypothesentests, in diesem Fall des gepaarten Student’s t-Tests. Ohne diesen Hintergrund erscheint der Test angemessen, ein Ergebnis wird berechnet und interpretiert, und alles sieht gut aus.

Leider ist die Auswahl eines geeigneten statistischen Hypothesentests für die Modellauswahl beim angewandten maschinellen Lernen schwieriger, als es zunächst scheint. Glücklicherweise gibt es eine wachsende Zahl von Forschungsarbeiten, die auf die Schwächen der naiven Ansätze hinweisen und Korrekturen und alternative Methoden vorschlagen.

Zusammenfassung einiger Ergebnisse

In diesem Abschnitt wollen wir einen Blick auf einige der Forschungsarbeiten zur Auswahl geeigneter statistischer Signifikanztests für die Modellauswahl beim maschinellen Lernen werfen.

Verwenden Sie den McNemar-Test oder die 5×2-Kreuzvalidierung

Die bahnbrechende Arbeit zu diesem Thema ist vielleicht die Abhandlung von Thomas Dietterich aus dem Jahr 1998 mit dem Titel „Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms“

Es ist eine ausgezeichnete Abhandlung zu diesem Thema und eine empfehlenswerte Lektüre. Es umfasst zunächst einen großartigen Rahmen für das Nachdenken über die Punkte während eines maschinellen Lernprojekts, an denen ein statistischer Hypothesentest erforderlich sein könnte, erörtert die Erwartung an häufige Verstöße gegen statistische Tests, die für den Vergleich von Methoden des maschinellen Klassifizierungslernens relevant sind, und schließt mit einer empirischen Bewertung von Methoden zur Bestätigung der Ergebnisse.

In diesem Artikel werden fünf ungefähre statistische Tests besprochen, mit denen festgestellt werden kann, ob ein Lernalgorithmus einen anderen bei einer bestimmten Lernaufgabe übertrifft.

Der Schwerpunkt der Auswahl und empirischen Bewertung statistischer Hypothesentests in diesem Artikel ist die Kalibrierung von Fehlern vom Typ I oder falsch positiven Ergebnissen. Das heißt, es wird ein Test ausgewählt, der den Fall minimiert, dass ein signifikanter Unterschied suggeriert wird, obwohl kein solcher Unterschied besteht.

Es gibt eine Reihe von wichtigen Erkenntnissen in diesem Papier.

Die erste Erkenntnis ist, dass die Verwendung von gepaarten Student’s t-Tests auf die Ergebnisse von Fähigkeiten, die über zufällige Wiederholungsstichproben eines Trainingsdatensatzes geschätzt wurden, niemals durchgeführt werden sollte.

… können wir mit Sicherheit schlussfolgern, dass der t-Test mit Wiederholungsstichproben niemals verwendet werden sollte.

Die Annahmen des gepaarten t-Tests werden im Fall der zufälligen Wiederholungsstichproben und im Fall der k-fachen Kreuzvalidierung (wie oben erwähnt) verletzt. Im Falle der k-fachen Kreuzvalidierung wird der t-Test jedoch optimistisch sein, was zu einem höheren Fehler vom Typ I, aber nur zu einem geringen Fehler vom Typ II führt. Das bedeutet, dass diese Kombination in Fällen verwendet werden könnte, in denen die Vermeidung von Fehlern vom Typ II wichtiger ist als ein Fehler vom Typ I.

Der 10-fach kreuzvalidierte t-Test hat einen hohen Fehler vom Typ I. Er hat jedoch auch eine hohe Aussagekraft und kann daher in den Fällen empfohlen werden, in denen der Fehler vom Typ II (das Versagen, einen echten Unterschied zwischen den Algorithmen zu erkennen) wichtiger ist.

Dietterich empfiehlt den statistischen McNemar-Hypothesentest in Fällen, in denen eine begrenzte Datenmenge vorliegt und jeder Algorithmus nur einmal bewertet werden kann.

Der McNemar-Test ähnelt dem Chi-Quadrat-Test und wird in diesem Fall verwendet, um festzustellen, ob sich die Differenz der beobachteten Proportionen in der Kontingenztabelle des Algorithmus signifikant von den erwarteten Proportionen unterscheidet. Dies ist ein nützliches Ergebnis im Fall von großen neuronalen Netzwerken mit tiefem Lernen, deren Training Tage oder Wochen dauern kann.

Unsere Experimente veranlassen uns, den McNemar-Test für Situationen zu empfehlen, in denen die Lernalgorithmen nur einmal ausgeführt werden können.

Dietterich empfiehlt auch eine von ihm entwickelte Resampling-Methode, die 5×2-Kreuzvalidierung, bei der die 2-fache Kreuzvalidierung fünfmal wiederholt wird.

Zwei Faltungen werden gewählt, um sicherzustellen, dass jede Beobachtung nur im Trainings- oder Testdatensatz für eine einzige Schätzung der Modellfähigkeit erscheint. Für die Ergebnisse wird ein gepaarter Student’s t-Test verwendet, der aktualisiert wird, um die begrenzten Freiheitsgrade angesichts der Abhängigkeit zwischen den geschätzten Kompetenzwerten besser widerzuspiegeln.

Unsere Experimente führen dazu, dass wir den 5×2cv t-Test für Situationen empfehlen, in denen die Lernalgorithmen effizient genug sind, um zehnmal ausgeführt zu werden

Verfeinerungen der 5×2-Kreuzvalidierung

Die Verwendung entweder des McNemar-Tests oder der 5×2-Kreuzvalidierung ist in den 20 Jahren seit der Veröffentlichung dieses Papiers zu einer festen Empfehlung geworden.

Allerdings wurden weitere Verbesserungen vorgenommen, um den gepaarten Student’s t-Test besser auf die Verletzung der Unabhängigkeitsannahme durch wiederholte k-fache Kreuzvalidierung zu korrigieren.

Zwei wichtige Arbeiten unter vielen sind:

Claude Nadeau und Yoshua Bengio schlagen in ihrer Arbeit von 2003 mit dem Titel „Inference for the Generalization Error“ eine weitere Korrektur vor. Es handelt sich um eine sehr umfangreiche Arbeit, die nichts für schwache Nerven ist.

Diese Analyse ermöglichte es uns, zwei Varianzschätzer zu konstruieren, die sowohl die Variabilität aufgrund der Auswahl der Trainingsmengen als auch die Auswahl der Testbeispiele berücksichtigen. Einer der vorgeschlagenen Schätzer ähnelt der cv-Methode (Dietterich, 1998) und ist speziell darauf ausgelegt, die Varianz zu überschätzen, um eine konservative Inferenz zu erzielen.

Remco Bouckaert und Eibe Frank nehmen in ihrer 2004 veröffentlichten Arbeit mit dem Titel „Evaluating the Replicability of Significance Tests for Comparing Learning Algorithms“ eine andere Perspektive ein und betrachten die Fähigkeit, Ergebnisse zu replizieren, als wichtiger als Fehler vom Typ I oder Typ II.

In dieser Arbeit argumentieren wir, dass die Replizierbarkeit eines Tests ebenfalls von Bedeutung ist. Wir sagen, dass ein Test eine geringe Replizierbarkeit hat, wenn sein Ergebnis stark von der speziellen zufälligen Partitionierung der Daten abhängt, die zur Durchführung des Tests verwendet wird

Überraschenderweise empfehlen sie, entweder 100 Läufe mit zufälligem Resampling oder 10×10-fache Kreuzvalidierung mit der Nadeau- und Bengio-Korrektur für den gepaarten Student-t-Test zu verwenden, um eine gute Replizierbarkeit zu erreichen.

Der letztgenannte Ansatz wird im Buch von Ian Witten und Eibe Frank und in ihrer Open-Source-Data-Mining-Plattform Weka empfohlen, wobei die Nadeau- und Bengio-Korrektur als „korrigierter t-Test mit Wiederholungsstichproben“ bezeichnet wird.

Um dieses Problem zu umgehen, wurden verschiedene Modifikationen des Standard-t-Tests vorgeschlagen, die alle heuristisch sind und keine solide theoretische Begründung haben. Eine, die in der Praxis gut zu funktionieren scheint, ist der korrigierte t-Test mit wiederholter Stichprobe. Dieselbe modifizierte Statistik kann bei wiederholter Kreuzvalidierung verwendet werden, die nur ein Spezialfall der wiederholten Vorenthaltung ist, bei der sich die einzelnen Testgruppen für eine Kreuzvalidierung nicht überschneiden.

– Seite 159, Kapitel 5, Glaubwürdigkeit: Evaluating What’s Been Learned, Data Mining: Practical Machine Learning Tools and Techniques, Third Edition, 2011.

Empfehlungen

Es gibt keine Patentrezepte, wenn es um die Auswahl eines statistischen Signifikanztests für die Modellauswahl beim angewandten maschinellen Lernen geht.

Lassen Sie uns fünf Ansätze betrachten, die Sie bei Ihrem maschinellen Lernprojekt zum Vergleich von Klassifikatoren verwenden können.

Unabhängige Datenstichproben

Wenn Sie über nahezu unbegrenzte Daten verfügen, sammeln Sie k separate Trainings- und Testdatensätze, um 10 wirklich unabhängige Skill Scores für jede Methode zu berechnen.

Sie können dann den gepaarten Student’s t-Test korrekt anwenden. Dies ist sehr unwahrscheinlich, da wir oft mit kleinen Datenstichproben arbeiten.

… die Annahme, dass es im Wesentlichen unbegrenzte Daten gibt, so dass mehrere unabhängige Datensätze in der richtigen Größe verwendet werden können. In der Praxis gibt es meist nur einen einzigen Datensatz von begrenzter Größe. Was kann man tun?

– Seite 158, Kapitel 5, Glaubwürdigkeit: Evaluating What’s Been Learned, Data Mining: Practical Machine Learning Tools and Techniques, Third Edition, 2011.

Akzeptieren Sie die Probleme der 10-fachen CV

Die naive 10-fache Kreuzvalidierung kann mit einem unveränderten gepaarten Student t-Test verwendet werden.

Er hat eine gute Wiederholbarkeit im Vergleich zu anderen Methoden und einen bescheidenen Typ-II-Fehler, aber bekanntermaßen einen hohen Typ-I-Fehler.

Die Experimente legen auch eine gewisse Vorsicht bei der Interpretation der Ergebnisse des 10-fach kreuzvalidierten t-Tests nahe. Dieser Test weist eine erhöhte Wahrscheinlichkeit eines Fehlers vom Typ I auf (bis zum Zweifachen des Zielwertes), obwohl er nicht annähernd so schwerwiegend ist wie das Problem mit dem neu abgetasteten t-Test.

– Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms, 1998.

Es ist eine Option, aber sie wird nur sehr schwach empfohlen.

Verwenden Sie McNemar’s Test oder 5×2 CV

Die zwei Jahrzehnte langen Empfehlungen von McNemar’s Test für die Ergebnisse der Klassifizierungsgenauigkeit in einem Durchgang und 5×2-fold cross-validation mit einem modifizierten gepaarten Student’s t-test haben im Allgemeinen Bestand.

Außerdem kann die weitere Korrektur von Nadeau und Bengio für die Teststatistik mit der 5×2-Fach-Kreuzvalidierung oder der 10×10-Fach-Kreuzvalidierung verwendet werden, wie von den Entwicklern von Weka empfohlen.

Eine Herausforderung bei der Verwendung der modifizierten t-Statistik ist, dass es keine Standardimplementierung (z. B. in SciPy) gibt, was die Verwendung von Drittanbietercode und die damit verbundenen Risiken erfordert. Sie müssen es möglicherweise selbst implementieren.

Die Verfügbarkeit und Komplexität einer gewählten statistischen Methode ist eine wichtige Überlegung, die von Gitte Vanwinckelen und Hendrik Blockeel in ihrem 2012 erschienenen Papier mit dem Titel „On Estimating Model Accuracy with Repeated Cross-Validation“ gut beschrieben wird:

Auch wenn diese Methoden sorgfältig konzipiert sind und nachweislich frühere Methoden in vielerlei Hinsicht verbessern, leiden sie unter demselben Risiko wie frühere Methoden, nämlich dass, je komplexer eine Methode ist, desto höher das Risiko ist, dass Forscher sie falsch anwenden oder das Ergebnis falsch interpretieren.

Ich habe hier ein Beispiel für die Verwendung des McNemar-Tests:

Wie man den McNemar-Test berechnet, um zwei Klassifikatoren für maschinelles Lernen zu vergleichen

Verwenden Sie einen nichtparametrischen gepaarten Test

Wir können einen nichtparametrischen Test verwenden, der weniger Annahmen trifft, wie z. B. nicht anzunehmen, dass die Verteilung der Kompetenzwerte gaußförmig ist.

Ein Beispiel ist der Wilcoxon-Signed-Rank-Test, der die nichtparametrische Version des gepaarten Student’s t-Tests ist. Dieser Test hat eine geringere statistische Aussagekraft als der gepaarte t-Test, jedoch eine höhere Aussagekraft, wenn die Erwartungen des t-Tests verletzt werden, wie z. B. die Unabhängigkeit.

Dieser statistische Hypothesentest wird von Janez Demsar in seinem 2006 erschienenen Aufsatz „Statistical Comparisons of Classifiers over Multiple Data Sets“ für den Vergleich von Algorithmen verschiedener Datensätze empfohlen.

Wir empfehlen daher die Verwendung des Wilcoxon-Tests, es sei denn, die Annahmen des t-Tests sind erfüllt, entweder weil wir viele Datensätze haben oder weil wir Grund zu der Annahme haben, dass das Maß der Leistung über die Datensätze hinweg normal verteilt ist.

Obwohl der Test nichtparametrisch ist, setzt er immer noch voraus, dass die Beobachtungen innerhalb jeder Stichprobe unabhängig sind (z. B. iid), und die Verwendung der k-fachen Kreuzvalidierung würde abhängige Stichproben erzeugen und diese Annahme verletzen.

Verwenden Sie stattdessen Schätzstatistiken

Anstelle von statistischen Hypothesentests können Schätzstatistiken berechnet werden, wie z. B. Konfidenzintervalle. Diese würden unter ähnlichen Problemen leiden, wenn die Annahme der Unabhängigkeit angesichts der Resampling-Methoden, mit denen die Modelle evaluiert werden, verletzt wird.

Tom Mitchell gibt in seinem Buch von 1997 eine ähnliche Empfehlung, indem er vorschlägt, die Ergebnisse der statistischen Hypothesentests als heuristische Schätzungen zu betrachten und Konfidenzintervalle um die Schätzungen der Modellfähigkeit herum zu suchen:

Zusammenfassend lässt sich sagen, dass kein einzelnes Verfahren zum Vergleich von Lernmethoden auf der Grundlage begrenzter Daten alle Einschränkungen erfüllt, die wir uns wünschen. Es ist ratsam zu bedenken, dass statistische Modelle selten perfekt die praktischen Einschränkungen beim Testen von Lernalgorithmen erfüllen, wenn die verfügbaren Daten begrenzt sind. Dennoch liefern sie ungefähre Konfidenzintervalle, die bei der Interpretation experimenteller Vergleiche von Lernmethoden sehr hilfreich sein können.

– Seite 150, Kapitel 5, Evaluating Hypotheses, Machine Learning, 1997.

Statistische Methoden wie der Bootstrap können verwendet werden, um vertretbare nichtparametrische Konfidenzintervalle zu berechnen, die sowohl zur Darstellung von Ergebnissen als auch zum Vergleich von Klassifikatoren verwendet werden können. Dies ist ein einfacher und effektiver Ansatz, auf den man immer wieder zurückgreifen kann und den ich generell empfehle.

In der Tat sind Konfidenzintervalle von allen Themen im Bootstrap-Bereich am meisten theoretisch untersucht worden.

– Seite 321, An Introduction to the Bootstrap, 1994.

Erweiterungen

Dieser Abschnitt listet einige Ideen zur Erweiterung des Tutorials auf, die Sie vielleicht erforschen möchten.

Finden und listen Sie drei Forschungsarbeiten auf, die fälschlicherweise den unmodifizierten gepaarten Student’s t-Test zum Vergleich und zur Auswahl eines maschinellen Lernmodells verwenden.
Zusammenfassen Sie den Rahmen für die Verwendung statistischer Hypothesentests in einem maschinellen Lernprojekt, der in Thomas Dietterichs Arbeit von 1998 vorgestellt wird.
Finden und listen Sie drei Forschungsarbeiten auf, die entweder den McNemar-Test oder die 5×2-Kreuzvalidierung zum Vergleich und zur Auswahl eines maschinellen Lernmodells korrekt verwenden.

Wenn Sie eine dieser Erweiterungen erforschen, würde ich das gerne wissen.

Weitere Lektüre

In diesem Abschnitt finden Sie weitere Ressourcen zum Thema, wenn Sie tiefer einsteigen wollen.

Papers

Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms, 1998.
Inference for the Generalization Error, 2003.
Evaluating the Replicability of Significance Tests for Comparing Learning Algorithms, 2004.
On estimating model accuracy with repeated cross-validation, 2012.
Statistical Comparisons of Classifiers over Multiple Data Sets, 2006.

Books

Chapter 5, Evaluating Hypotheses, Machine Learning, 1997.
Chapter 5, Credibility: Evaluating What’s Been Learned, Data Mining: Practical Machine Learning Tools and Techniques, Third Edition, 2011.
An Introduction to the Bootstrap, 1994.

Artikel

Student’s t-test auf Wikipedia
Cross-Validation (Statistik) auf Wikipedia
McNemar’s test auf Wikipedia
Wilcoxon signed-rank test auf Wikipedia

Diskussionen

Für Modellauswahl/Vergleich, welche Art von Test sollte ich verwenden?
Wie führt man Hypothesentests für den Vergleich verschiedener Klassifikatoren durch
Wilcoxon-Rangsummentest-Methodik
Wie wählt man zwischen t-Test oder nichtparametrischem Test z.B. Wilcoxon bei kleinen Stichproben

Zusammenfassung

In diesem Tutorial haben Sie die Bedeutung und die Herausforderung der Auswahl eines statistischen Hypothesentests für den Vergleich von Modellen für maschinelles Lernen kennengelernt.

Insbesondere haben Sie gelernt:

Statistische Hypothesentests können beim Vergleich von Modellen für maschinelles Lernen und bei der Auswahl eines endgültigen Modells helfen.
Die naive Anwendung statistischer Hypothesentests kann zu irreführenden Ergebnissen führen.
Die korrekte Anwendung statistischer Tests ist eine Herausforderung, und es gibt einen gewissen Konsens für die Verwendung des McNemar-Tests oder der 5×2-Kreuzvalidierung mit einem modifizierten gepaarten Student t-Test.

Sind noch Fragen offen?
Stellen Sie Ihre Fragen in den Kommentaren unten und ich werde mein Bestes tun, um sie zu beantworten.

Get a Handle on Statistics for Machine Learning!

Statistische Methoden für maschinelles Lernen

Entwickeln Sie ein funktionierendes Verständnis von Statistik

…indem Sie Codezeilen in Python schreiben

Entdecken Sie in meinem neuen Ebook:
Statistische Methoden für maschinelles Lernen

Es bietet Tutorials zum Selbststudium zu Themen wie:
Hypothesentests, Korrelation, nichtparametrische Statistiken, Resampling und vieles mehr…

Entdecken Sie, wie Sie Daten in Wissen umwandeln können

Skip the Academics. Just Results.

See What’s Inside