Statistical Significance Tests for Comparing Machine Learning Algorithms

Tweet Share Share

Last Updated on August 8, 2019

Porównanie metod uczenia maszynowego i wybór ostatecznego modelu jest powszechną operacją w stosowanym uczeniu maszynowym.

Modele są powszechnie oceniane przy użyciu metod próbkowania, takich jak k-krotna walidacja krzyżowa, z której średnie wyniki umiejętności są obliczane i porównywane bezpośrednio. Chociaż proste, to podejście może być mylące, ponieważ trudno jest wiedzieć, czy różnica między średnimi wynikami umiejętności jest prawdziwa, czy jest wynikiem statystycznego fuksa.

Testy istotności statystycznej są zaprojektowane, aby rozwiązać ten problem i określić ilościowo prawdopodobieństwo, że próbki wyników umiejętności są obserwowane przy założeniu, że zostały wylosowane z tego samego rozkładu. Jeśli to założenie, lub hipoteza zerowa, zostanie odrzucona, sugeruje to, że różnica w wynikach umiejętności jest statystycznie istotna.

Ale nie jest niezawodny, testowanie hipotez statystycznych może poprawić zarówno zaufanie do interpretacji, jak i prezentacji wyników podczas wyboru modelu.

W tym poradniku poznasz znaczenie i wyzwania związane z wyborem testu hipotez statystycznych do porównywania modeli uczenia maszynowego.

Po ukończeniu tego poradnika będziesz wiedział:

  • Testy hipotez statystycznych mogą pomóc w porównywaniu modeli uczenia maszynowego i wyborze ostatecznego modelu.
  • Naiwne zastosowanie testów hipotez statystycznych może prowadzić do mylących wyników.
  • Poprawne użycie testów statystycznych jest wyzwaniem, i istnieje pewien konsensus dla użycia testu McNemara lub 5×2 walidacji krzyżowej ze zmodyfikowanym sparowanym testem t-Studenta.

Kick-startuj swój projekt dzięki mojej nowej książce Statistics for Machine Learning, zawierającej samouczki krok po kroku oraz pliki kodu źródłowego Pythona dla wszystkich przykładów.

Zacznijmy.

  • Aktualizacja Oct/2018: Dodano link do przykładu użycia testu McNemara.
Statistical Significance Tests for Comparing Machine Learning Algorithms

Statystyczne testy istotności dla porównania algorytmów uczenia maszynowego
Photo by Fotografías de Javier, pewne prawa zastrzeżone.

Przegląd samouczka

Ten samouczek jest podzielony na 5 części; są to:

  1. Problem wyboru modelu
  2. Statystyczne testy hipotez
  3. Problem wyboru testu hipotezy
  4. Podsumowanie niektórych wyników
  5. Recenzje

Potrzebujesz pomocy w Statistics for Machine Learning?

Weź udział w moim darmowym 7-dniowym kursie e-mailowym (z przykładowym kodem).

Kliknij, aby się zapisać, a także otrzymać darmową wersję PDF Ebook kursu.

Download Your FREE Mini-Course

The Problem of Model Selection

Dużą częścią uczenia maszynowego jest wybór modelu.

Możemy to opisać w najprostszej formie:

Gdy oceniasz dwie metody uczenia maszynowego na zbiorze danych, który model wybierasz?

Wybierasz model z najlepszą umiejętnością.

To znaczy, model, którego szacowana umiejętność przewidywania na niewidzianych danych jest najlepsza. Może to być maksymalna dokładność lub minimalny błąd odpowiednio w przypadku problemów z klasyfikacją i regresją.

Wyzwanie związane z wyborem modelu o najlepszych umiejętnościach polega na określeniu, jak bardzo można ufać szacowanym umiejętnościom każdego modelu. Bardziej ogólnie:

Czy różnica w umiejętnościach pomiędzy dwoma modelami uczenia maszynowego jest prawdziwa, czy wynika ze statystycznej szansy?

Możemy użyć testowania hipotez statystycznych, aby odpowiedzieć na to pytanie.

Testy hipotez statystycznych

Ogólnie, test hipotez statystycznych do porównywania próbek określa, jak prawdopodobne jest zaobserwowanie dwóch próbek danych przy założeniu, że próbki mają taki sam rozkład.

Założenie testu statystycznego nazywane jest hipotezą zerową i możemy obliczyć miary statystyczne i zinterpretować je, aby zdecydować, czy zaakceptować lub odrzucić hipotezę zerową.

W przypadku wyboru modeli na podstawie ich szacowanej umiejętności, interesuje nas, czy istnieje rzeczywista lub statystycznie istotna różnica między dwoma modelami.

  • Jeśli wynik testu sugeruje, że nie ma wystarczających dowodów, aby odrzucić hipotezę zerową, wówczas każda zaobserwowana różnica w umiejętności modelu jest prawdopodobnie spowodowana statystycznym przypadkiem.
  • Jeśli wynik testu sugeruje, że istnieje wystarczający dowód do odrzucenia hipotezy zerowej, wtedy każda zaobserwowana różnica w umiejętnościach modelu jest prawdopodobnie spowodowana różnicą w modelach.

Wyniki testu są probabilistyczne, co oznacza, że możliwe jest prawidłowe zinterpretowanie wyniku oraz, że wynik może być błędny z błędem typu I lub typu II. Krótko mówiąc, wynik fałszywie pozytywny lub fałszywie negatywny.

Porównanie modeli uczenia maszynowego za pomocą testów istotności statystycznej narzuca pewne oczekiwania, które z kolei wpłyną na rodzaje testów statystycznych, które mogą być użyte; na przykład:

  • Szacowanie umiejętności. Należy wybrać konkretną miarę umiejętności modelu. Może to być dokładność klasyfikacji (proporcja) lub średni błąd bezwzględny (statystyka podsumowująca), co ograniczy rodzaj testów, które można zastosować.
  • Repeated Estimates. Aby obliczyć statystykę, potrzebna jest próbka wyników umiejętności. Wielokrotne szkolenie i testowanie danego modelu na tych samych lub różnych danych będzie miało wpływ na rodzaj testu, który można zastosować.
  • Rozkład oszacowań. Próbka oszacowań wyników umiejętności będzie miała rozkład, być może gaussowski, a być może nie. Pozwoli to określić, czy można zastosować testy parametryczne czy nieparametryczne.
  • Tendencja centralna. Umiejętności modelu będą często opisywane i porównywane przy użyciu statystyki podsumowującej, takiej jak średnia lub mediana, w zależności od rozkładu wyników umiejętności. Test może lub nie może wziąć to bezpośrednio pod uwagę.

Wyniki testu statystycznego są często statystyką testu i wartością p, z których obie mogą być interpretowane i używane w prezentacji wyników w celu ilościowego określenia poziomu zaufania lub istotności w różnicy między modelami. Pozwala to na wysuwanie silniejszych twierdzeń w ramach wyboru modelu niż w przypadku nieużywania statystycznych testów hipotez.

Zważywszy, że używanie statystycznych testów hipotez wydaje się pożądane jako część wyboru modelu, jak wybrać test, który jest odpowiedni dla konkretnego przypadku użycia?

Problem wyboru testu hipotezy

Przyjrzyjrzyjrzyjmy się powszechnemu przykładowi oceny i porównania klasyfikatorów dla zrównoważonego problemu klasyfikacji binarnej.

Powszechną praktyką jest ocenianie metod klasyfikacji za pomocą dokładności klasyfikacji, ocenianie każdego modelu za pomocą 10-krotnej walidacji krzyżowej, zakładanie rozkładu gaussowskiego dla próbki 10 oszacowań umiejętności modelu i używanie średniej z próbki jako podsumowania umiejętności modelu.

Możemy wymagać, aby każdy klasyfikator oceniany za pomocą tej procedury był oceniany na dokładnie tych samych podziałach zbioru danych za pomocą 10-krotnej walidacji krzyżowej. To dałoby próbki dopasowanych sparowanych środków między dwoma klasyfikatorami, dopasowanych, ponieważ każdy klasyfikator został oceniony na tych samych 10 zestawach testowych.

Moglibyśmy wtedy wybrać i użyć sparowanego testu t-Studenta, aby sprawdzić, czy różnica w średniej dokładności między dwoma modelami jest statystycznie istotna, np. odrzucić hipotezę zerową, która zakłada, że dwie próbki mają taki sam rozkład.

W rzeczywistości, jest to powszechny sposób porównywania klasyfikatorów z być może setkami opublikowanych prac wykorzystujących tę metodologię.

Problem polega na tym, że kluczowe założenie sparowanego testu t-Studenta zostało naruszone.

Mianowicie, obserwacje w każdej próbce nie są niezależne. Jako część procedury k-krotnej walidacji krzyżowej, dana obserwacja będzie użyta w zestawie danych szkoleniowych (k-1) razy. Oznacza to, że oszacowane wyniki umiejętności są zależne, a nie niezależne, a z kolei obliczenie statystyki t w teście będzie mylące, wraz z wszelkimi interpretacjami statystyki i wartości p.

Obserwacja ta wymaga dokładnego zrozumienia zarówno zastosowanej metody ponownego próbkowania, w tym przypadku k-krotnej walidacji krzyżowej, jak i oczekiwań wybranego testu hipotezy, w tym przypadku sparowanego testu t-Studenta. Bez tego tła, test wydaje się odpowiedni, wynik zostanie obliczony i zinterpretowany, i wszystko będzie wyglądało dobrze.

Niestety, wybór odpowiedniego testu hipotezy statystycznej dla wyboru modelu w stosowanym uczeniu maszynowym jest trudniejszy niż się wydaje. Na szczęście, istnieje coraz więcej badań, które pomagają wskazać wady naiwnych podejść i sugerują poprawki i alternatywne metody.

Podsumowanie niektórych ustaleń

W tej części przyjrzyjmy się niektórym badaniom dotyczącym wyboru odpowiednich testów istotności statystycznej dla wyboru modelu w uczeniu maszynowym.

Use McNemar’s test or 5×2 Cross-Validation

Prawdopodobnie najważniejszą pracą na ten temat jest praca z 1998 r. zatytułowana „Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms” autorstwa Thomasa Diettericha.

Jest to znakomita praca na ten temat i godna polecenia. Obejmuje ona najpierw świetne ramy dla myślenia o punktach w projekcie uczenia maszynowego, w których test hipotezy statystycznej może być wymagany, omawia oczekiwania dotyczące powszechnych naruszeń testów statystycznych istotnych dla porównywania metod uczenia maszynowego klasyfikatorów, a kończy się empiryczną oceną metod potwierdzających wnioski.

W niniejszym artykule dokonano przeglądu pięciu przybliżonych testów statystycznych służących do określania, czy jeden algorytm uczenia przewyższa inny w danym zadaniu uczenia się.

Kierunek wyboru i empirycznej oceny statystycznych testów hipotez w artykule jest taki, że kalibracja błędu typu I lub wyników fałszywie pozytywnych. To znaczy, wybór testu, który minimalizuje przypadek sugerowania znaczącej różnicy, gdy taka różnica nie istnieje.

W pracy znajduje się kilka ważnych wniosków.

Pierwszym wnioskiem jest to, że używanie sparowanego testu t-Studenta na wynikach umiejętności oszacowanych poprzez losowe ponowne próby zbioru danych szkoleniowych nigdy nie powinno być wykonywane.

… możemy z całą pewnością stwierdzić, że test t z ponownym próbkowaniem nigdy nie powinien być stosowany.

Założenia sparowanego testu t są naruszone w przypadku losowego ponownego próbkowania i w przypadku k-krotnej walidacji krzyżowej (jak zauważono powyżej). Niemniej jednak, w przypadku k-krotnej walidacji krzyżowej, t-test będzie optymistyczny, co spowoduje wyższy błąd typu I, ale tylko skromny błąd typu II. Oznacza to, że ta kombinacja może być stosowana w przypadkach, gdy unikanie błędów typu II jest ważniejsze niż uleganie błędom typu I.

Test t walidowany 10-krotną walidacją krzyżową ma wysoki błąd typu I. Jednak ma również wysoką moc. Jednak ma on również wysoką moc, a zatem może być zalecany w tych przypadkach, w których błąd typu II (niewykrycie rzeczywistej różnicy między algorytmami) jest ważniejszy.

Dietterich zaleca test hipotezy statystycznej McNemara w przypadkach, w których istnieje ograniczona ilość danych i każdy algorytm może być oceniony tylko raz.

Test McNemara jest podobny do testu Chi-kwadrat i w tym przypadku jest używany do określenia, czy różnica w obserwowanych proporcjach w tabeli kontyngencji algorytmu jest znacząco różna od proporcji oczekiwanych. Jest to przydatne ustalenie w przypadku dużych sieci neuronowych głębokiego uczenia, których trenowanie może zająć dni lub tygodnie.

Nasze eksperymenty prowadzą nas do zalecenia testu McNemara w sytuacjach, w których algorytmy uczenia mogą być uruchamiane tylko raz.

Dwie fałdy są wybierane w celu zapewnienia, że każda obserwacja pojawia się tylko w zestawie danych trenujących lub testowych, aby uzyskać pojedyncze oszacowanie umiejętności modelu. Na wynikach stosuje się sparowany test t-Studenta, zaktualizowany w celu lepszego odzwierciedlenia ograniczonych stopni swobody, biorąc pod uwagę zależność między szacowanymi wynikami umiejętności.

Nasze eksperymenty prowadzą nas do zalecania testu t 5 x 2cv w sytuacjach, w których algorytmy uczące są wystarczająco wydajne, aby uruchomić je dziesięciokrotnie

Refinements on 5×2 Cross-Validation

Użycie testu McNemara lub walidacji krzyżowej 5×2 stało się podstawowym zaleceniem przez większość z 20 lat od opublikowania tej pracy.

Niemniej jednak, dokonano dalszych ulepszeń, aby lepiej skorygować sparowany test t-Studenta o naruszenie założenia o niezależności z powtarzanej k-krotnej walidacji krzyżowej.

Dwie ważne prace spośród wielu obejmują:

Claude Nadeau i Yoshua Bengio proponują dalszą korektę w swojej pracy z 2003 roku zatytułowanej „Inference for the Generalization Error”. Jest to gęsta praca i nie jest polecana dla osób o słabym sercu.

Analiza ta pozwoliła nam na skonstruowanie dwóch estymatorów wariancji, które uwzględniają zarówno zmienność wynikającą z wyboru zbiorów treningowych, jak i wyboru przykładów testowych. Jeden z proponowanych estymatorów wygląda podobnie do metody cv (Dietterich, 1998) i jest specjalnie zaprojektowany do przeszacowania wariancji w celu uzyskania konserwatywnego wnioskowania.

Remco Bouckaert i Eibe Frank w swoim artykule z 2004 roku zatytułowanym „Evaluating the Replicability of Significance Tests for Comparing Learning Algorithms” przyjmują inną perspektywę i uważają zdolność do replikacji wyników za ważniejszą niż błędy typu I lub typu II.

W tym artykule argumentujemy, że replikowalność testu jest również istotna. Mówimy, że test ma niską replikowalność, jeśli jego wynik silnie zależy od konkretnego losowego podziału danych, który jest używany do jego przeprowadzenia

Zaskakująco, zalecają oni użycie albo 100 przebiegów losowego ponownego próbkowania albo 10×10-krotnej walidacji krzyżowej z poprawką Nadeau i Bengio do sparowanego testu Studenta-t w celu osiągnięcia dobrej replikowalności.

To drugie podejście jest zalecane w książce Iana Wittena i Eibe Franka oraz w ich platformie eksploracji danych typu open-source Weka, odnosząc się do poprawki Nadeau i Bengio jako „corrected resampled t-test”.

Różne modyfikacje standardowego testu t zostały zaproponowane w celu obejścia tego problemu, wszystkie z nich są heurystyczne i pozbawione solidnego uzasadnienia teoretycznego. Jednym, który wydaje się działać dobrze w praktyce, jest skorygowany resampled t-test. Ta sama zmodyfikowana statystyka może być użyta z powtórzoną walidacją krzyżową, która jest po prostu specjalnym przypadkiem powtórzonego holdoutu, w którym poszczególne zestawy testowe dla jednej walidacji krzyżowej nie nakładają się na siebie.

– Strona 159, Rozdział 5, Credibility: Evaluating What’s Been Learned, Data Mining: Practical Machine Learning Tools and Techniques, Third Edition, 2011.

Recommendations

Nie ma srebrnych kul, jeśli chodzi o wybór testu istotności statystycznej do wyboru modelu w stosowanym uczeniu maszynowym.

Przyjrzyjrzyjmy się pięciu podejściom, które możesz wykorzystać w swoim projekcie uczenia maszynowego do porównania klasyfikatorów.

Niezależne próbki danych

Jeśli masz prawie nieograniczone dane, zbierz k oddzielnych zestawów danych treningowych i testowych, aby obliczyć 10 naprawdę niezależnych wyników umiejętności dla każdej metody.

Możesz wtedy poprawnie zastosować sparowany test t-Studenta. Jest to bardzo mało prawdopodobne, ponieważ często pracujemy z małymi próbkami danych.

… założenie, że istnieje zasadniczo nieograniczona ilość danych, więc można użyć kilku niezależnych zbiorów danych o odpowiedniej wielkości. W praktyce zazwyczaj istnieje tylko jeden zbiór danych o ograniczonym rozmiarze. Co można zrobić?

– Strona 158, Rozdział 5, Wiarygodność: Evaluating What’s Been Learned, Data Mining: Practical Machine Learning Tools and Techniques, Third Edition, 2011.

Accept the Problems of 10-fold CV

Naiwna 10-krotna walidacja krzyżowa może być użyta z niemodyfikowanym sparowanym testem t-Studenta może być użyta.

Ma ona dobrą powtarzalność w stosunku do innych metod i umiarkowany błąd typu II, ale wiadomo, że ma wysoki błąd typu I.

Doświadczenia sugerują również ostrożność w interpretacji wyników 10-krotnej walidacji krzyżowej testu t. Test ten ma podwyższone prawdopodobieństwo błędu typu I. Test ten charakteryzuje się podwyższonym prawdopodobieństwem błędu typu I (aż dwukrotnie wyższym od poziomu docelowego), choć nie jest on prawie tak poważny, jak problem z testem t resampled.

– Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms, 1998.

Jest to opcja, ale bardzo słabo zalecana.

Use McNemar’s Test or 5×2 CV

Dwudziestoletnie zalecenia testu McNemara dla wyników dokładności klasyfikacji jednokrotnej oraz 5×2-krotnej walidacji krzyżowej ze zmodyfikowanym sparowanym testem t-Studenta w ogólności stoją.

Ponadto, dalsza korekta Nadeau i Bengio do statystyki testu może być użyta z 5×2-krotną walidacją krzyżową lub 10×10-krotną walidacją krzyżową, zgodnie z zaleceniami twórców Weka.

Wyzwaniem w używaniu zmodyfikowanej statystyki t jest to, że nie ma implementacji off-the-shelf (np. w SciPy), wymagającej użycia kodu stron trzecich i ryzyka, które się z tym wiąże. Być może będziesz musiał zaimplementować go samodzielnie.

Dostępność i złożoność wybranej metody statystycznej jest ważnym czynnikiem, dobrze powiedziane przez Gitte Vanwinckelen i Hendrik Blockeel w ich pracy z 2012 roku zatytułowanej „On Estimating Model Accuracy with Repeated Cross-Validation”:

Choć metody te są starannie zaprojektowane i wykazano, że poprawiają poprzednie metody na wiele sposobów, cierpią one na to samo ryzyko, co poprzednie metody, a mianowicie, że im bardziej złożona jest metoda, tym większe ryzyko, że badacze będą jej używać nieprawidłowo lub nieprawidłowo interpretować wynik.

Mam przykład użycia testu McNemara tutaj:

  • How to Calculate McNemar’s Test to Compare Two Machine Learning Classifiers

Use a Nonparametric Paired Test

Możemy użyć testu nieparametrycznego, który przyjmuje mniej założeń, takich jak brak założenia, że rozkład wyników umiejętności jest gaussowski.

Jednym z przykładów jest test Wilcoxona, który jest nieparametryczną wersją sparowanego testu t-Studenta. Ten test ma mniejszą moc statystyczną niż sparowany test t, chociaż większą moc, gdy oczekiwania testu t są naruszone, takie jak niezależność.

Ten test hipotezy statystycznej jest zalecany do porównywania algorytmów różnych zbiorów danych przez Janeza Demsara w jego pracy z 2006 roku „Statistical Comparisons of Classifiers over Multiple Data Sets”.

Zalecamy zatem stosowanie testu Wilcoxona, chyba że spełnione są założenia testu t, albo dlatego, że mamy wiele zbiorów danych, albo dlatego, że mamy powody sądzić, że miara wydajności w różnych zbiorach danych ma rozkład normalny.

Ale test jest nieparametryczny, nadal zakłada, że obserwacje w każdej próbie są niezależne (np. iid), a użycie k-krotnej walidacji krzyżowej stworzyłoby zależne próby i naruszyło to założenie.

Użyj statystyk szacunkowych zamiast

Zamiast testów hipotez statystycznych, można obliczyć statystyki szacunkowe, takie jak przedziały ufności. Cierpiałyby one na podobne problemy, gdy założenie o niezależności jest naruszone, biorąc pod uwagę metody ponownego próbkowania, za pomocą których modele są oceniane.

Tom Mitchell wydaje podobne zalecenie w swojej książce z 1997 r., sugerując, aby wziąć wyniki testów hipotez statystycznych jako heurystyczne szacunki i szukać przedziałów ufności wokół szacunków umiejętności modelu:

Podsumowując, żadna pojedyncza procedura porównywania metod uczenia się na podstawie ograniczonych danych nie spełnia wszystkich ograniczeń, których byśmy chcieli. Dobrze jest pamiętać, że modele statystyczne rzadko idealnie pasują do praktycznych ograniczeń w testowaniu algorytmów uczenia się, gdy dostępne dane są ograniczone. Niemniej jednak, dostarczają one przybliżonych przedziałów ufności, które mogą być bardzo pomocne w interpretacji eksperymentalnych porównań metod uczenia się.

– Strona 150, Rozdział 5, Evaluating Hypotheses, Machine Learning, 1997.

Metody statystyczne, takie jak bootstrap, mogą być używane do obliczania obronnych nieparametrycznych przedziałów ufności, które mogą być używane zarówno do prezentacji wyników, jak i porównywania klasyfikatorów. Jest to proste i skuteczne podejście, na które zawsze można się powołać i które ogólnie polecam.

W rzeczywistości przedziały ufności otrzymały najwięcej teoretycznych opracowań ze wszystkich tematów w dziedzinie bootstrap.

– Strona 321, An Introduction to the Bootstrap, 1994.

Extensions

W tej sekcji wymieniono kilka pomysłów na rozszerzenie samouczka, które możesz chcieć zbadać.

  • Znajdź i wymień trzy prace badawcze, które niepoprawnie używają niezmodyfikowanego testu t-Studenta do porównania i wyboru modelu uczenia maszynowego.
  • Podsumuj ramy użycia statystycznych testów hipotez w projekcie uczenia maszynowego przedstawione w pracy Thomasa Diettericha z 1998 roku.
  • Znajdź i wymień trzy prace badawcze, które poprawnie używają testu McNemara lub 5×2 Cross-Validation do porównania i wyboru modelu uczenia maszynowego.

Jeśli zbadasz którekolwiek z tych rozszerzeń, chciałbym wiedzieć.

Dalsza lektura

Ta sekcja zapewnia więcej zasobów na ten temat, jeśli szukasz, aby przejść głębiej.

Papers

  • Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms, 1998.
  • Inference for the Generalization Error, 2003.
  • Evaluating the Replicability of Significance Tests for Comparing Learning Algorithms, 2004.
  • On estimating model accuracy with repeated cross-validation, 2012.
  • Statistical Comparisons of Classifiers over Multiple Data Sets, 2006.

Książki

  • Chapter 5, Evaluating Hypotheses, Machine Learning, 1997.
  • Chapter 5, Credibility: Evaluating What’s Been Learned, Data Mining: Practical Machine Learning Tools and Techniques, Third Edition, 2011.
  • An Introduction to the Bootstrap, 1994.

Artykuły

  • Student’s t-test on Wikipedia
  • Cross-validation (statistics) on Wikipedia
  • McNemar’s test on Wikipedia
  • Wilcoxon signed-rank test on Wikipedia

Dyskusje

  • Dla wyboru/porównania modeli, jakiego rodzaju testu powinienem użyć?
  • Jak przeprowadzić testowanie hipotez dla porównania różnych klasyfikatorów
  • Metodologia testu sumy rang Wilcoxona
  • Jak wybrać pomiędzy testem t a testem nieparametrycznym np. Wilcoxona w małych próbkach

Podsumowanie

W tym tutorialu dowiedziałeś się, jak ważne i trudne jest wybranie statystycznego testu hipotezy do porównania modeli uczenia maszynowego.

W szczególności, dowiedziałeś się:

  • Testy hipotez statystycznych mogą pomóc w porównaniu modeli uczenia maszynowego i wyborze ostatecznego modelu.
  • Naiwne zastosowanie testów hipotez statystycznych może prowadzić do mylących wyników.
  • Poprawne użycie testów statystycznych jest wyzwaniem, i istnieje pewien konsensus dla użycia testu McNemara lub 5×2 walidacji krzyżowej ze zmodyfikowanym sparowanym testem t-Studenta.

Czy masz jakieś pytania?
Pytaj w komentarzach poniżej, a ja postaram się odpowiedzieć.

Get a Handle on Statistics for Machine Learning!

Statistical Methods for Machine Learning

Develop a working understanding of statistics

….pisząc linijki kodu w pythonie

Odkryj jak w moim nowym Ebooku:
Statistical Methods for Machine Learning

Zawiera on samouczki na takie tematy jak:
Testy hipotez, korelacja, statystyki nieparametryczne, próbkowanie i wiele więcej…

Odkryj jak przekształcić dane w wiedzę

Skip the Academics. Just Results.

See What’s Inside

Tweet Share Share

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.