Statisztikai szignifikancia tesztek a gépi tanulási algoritmusok összehasonlításához

Tweet Share Share Share

Last Updated on August 8, 2019

A gépi tanulási módszerek összehasonlítása és a végleges modell kiválasztása gyakori művelet az alkalmazott gépi tanulásban.

A modelleket általában újramintavételezési módszerekkel értékelik, például k-szoros keresztvalidálással, amelyből az átlagos készségpontszámokat kiszámítják és közvetlenül összehasonlítják. Bár egyszerű, ez a megközelítés félrevezető lehet, mivel nehéz eldönteni, hogy az átlagos készségpontszámok közötti különbség valós-e vagy egy statisztikai véletlen eredménye.

A statisztikai szignifikancia tesztek ezt a problémát hivatottak kezelni, és számszerűsítik, hogy a készségpontszámok mintái milyen valószínűséggel figyelhetők meg, ha feltételezzük, hogy azokat ugyanabból az eloszlásból húzták. Ha ez a feltételezés, vagy nullhipotézis elutasításra kerül, az arra utal, hogy a készségpontszámok közötti különbség statisztikailag szignifikáns.

A statisztikai hipotézisvizsgálat – bár nem bolondbiztos – javíthatja mind az értelmezésbe vetett bizalmat, mind az eredmények bemutatását a modellválasztás során.

Ezzel a bemutatóval megismerheti a statisztikai hipotézisteszt kiválasztásának fontosságát és kihívását a gépi tanulási modellek összehasonlításához.

A bemutató elvégzése után tudni fogja:

  • A statisztikai hipotézistesztek segíthetnek a gépi tanulási modellek összehasonlításában és a végleges modell kiválasztásában.
  • A statisztikai hipotézistesztek naiv alkalmazása félrevezető eredményekhez vezethet.
  • A statisztikai tesztek helyes alkalmazása kihívást jelent, és van némi konszenzus a McNemar-teszt vagy az 5×2 kereszt-validáció használata mellett, módosított párosított Student t-teszttel.

Kezdje el projektjét új könyvemmel, a Statistics for Machine Learning című könyvvel, amely lépésről lépésre bemutató útmutatókat és az összes példa Python forráskódfájlját tartalmazza.

Kezdjük el.

  • Frissítés 2018. okt: Hozzáadva a McNemar-teszt használatára vonatkozó példa linkje.
Statisztikai szignifikancia tesztek a gépi tanulási algoritmusok összehasonlításához

Statisztikai szignifikancia tesztek a gépi tanulási algoritmusok összehasonlításához
Photo by Fotografías de Javier, some rights reserved.

Tananyag áttekintése

Ez a tananyag 5 részre oszlik; ezek a következők:

  1. A modellválasztás problémája
  2. Statisztikai hipotézisvizsgálatok
  3. A hipotézisvizsgálat megválasztásának problémája
  4. Néhány megállapítás összefoglalása
  5. Javaslatok

Segítségre van szüksége a gépi tanulás statisztikájához?

Vegye fel most a 7 napos ingyenes e-mailes gyorstalpaló tanfolyamomat (mintakóddal).

Kattintson a feliratkozáshoz, és kapja meg a tanfolyam ingyenes PDF Ebook változatát is.

Töltse le az INGYENES minitanfolyamát

A modellválasztás problémája

Az alkalmazott gépi tanulás nagy része a modellválasztás.

Ezt a legegyszerűbben így írhatjuk le:

Megadva két gépi tanulási módszer kiértékelését egy adathalmazon, melyik modellt választjuk?

A legjobb készséggel rendelkező modellt választjuk.

Azt a modellt, amelynek becsült készsége a legjobb, amikor nem látott adatokon előrejelzéseket készít. Ez osztályozási, illetve regressziós problémák esetén a maximális pontosság vagy a minimális hiba lehet.

A legjobb készséggel rendelkező modell kiválasztásának kihívása annak meghatározása, hogy mennyire lehet megbízni az egyes modellek becsült készségében. Általánosabban:

A két gépi tanulási modell közötti készségkülönbség valós, vagy statisztikai véletlen eredménye?

A kérdés megválaszolására statisztikai hipotézisvizsgálatot használhatunk.

Statisztikai hipotézisvizsgálatok

A minták összehasonlítására szolgáló statisztikai hipotézisvizsgálat általában azt számszerűsíti, hogy milyen valószínűséggel figyelhetünk meg két adatmintát, ha feltételezzük, hogy a minták eloszlása megegyezik.

A statisztikai teszt feltételezését nullhipotézisnek nevezzük, és statisztikai mértékeket számolhatunk ki és értelmezhetünk annak érdekében, hogy eldöntsük, elfogadjuk vagy elutasítjuk-e a nullhipotézist.

A modellek becsült jártasságuk alapján történő kiválasztása esetén arra vagyunk kíváncsiak, hogy van-e valós vagy statisztikailag szignifikáns különbség a két modell között.

  • Ha a teszt eredménye arra utal, hogy nincs elegendő bizonyíték a nullhipotézis elutasításához, akkor a modellek jártasságában megfigyelt különbség valószínűleg a statisztikai véletlen következménye.
  • Ha a teszt eredménye azt sugallja, hogy elegendő bizonyíték áll rendelkezésre a nullhipotézis elutasításához, akkor a modellkészségben megfigyelt bármely különbség valószínűleg a modellek közötti különbségnek köszönhető.

A teszt eredményei valószínűségi jellegűek, ami azt jelenti, hogy lehetséges az eredmény helyes értelmezése és az is, hogy az eredmény I. vagy II. típusú hibával téves. Röviden: hamis pozitív vagy hamis negatív eredmény.

A gépi tanulási modellek statisztikai szignifikancia teszteken keresztül történő összehasonlítása bizonyos elvárásokat támaszt, amelyek viszont hatással vannak az alkalmazható statisztikai tesztek típusaira; például:

  • Skill Estimate. A modell készségének egy konkrét mértékét kell kiválasztani. Ez lehet osztályozási pontosság (egy arány) vagy átlagos abszolút hiba (összefoglaló statisztika), ami korlátozza az alkalmazható tesztek típusát.
  • Ismételt becslések. A statisztikák kiszámításához a készségértékek mintájára van szükség. Egy adott modell ismételt képzése és tesztelése ugyanazon vagy különböző adatokon befolyásolja a használható tesztek típusát.
  • A becslések eloszlása. A készségpontszám-becslések mintája eloszlással rendelkezik, talán Gauss-eloszlással, talán nem. Ez fogja meghatározni, hogy parametrikus vagy nem parametrikus tesztek használhatók-e.
  • Központi tendencia. A modell készségét gyakran egy összefoglaló statisztika, például egy átlag vagy medián segítségével írják le és hasonlítják össze, a készségértékek eloszlásától függően. A teszt ezt közvetlenül figyelembe veheti vagy nem veheti figyelembe.

A statisztikai teszt eredményei gyakran egy tesztstatisztika és egy p-érték, amelyek mindkettő értelmezhető és felhasználható az eredmények bemutatásakor annak érdekében, hogy számszerűsítsük a modellek közötti különbség bizalmi szintjét vagy szignifikanciáját. Ez lehetővé teszi, hogy a modellkiválasztás részeként erősebb állításokat tegyünk, mintha nem használnánk statisztikai hipotézisteszteket.

Mivel a statisztikai hipotézistesztek használata kívánatosnak tűnik a modellkiválasztás részeként, hogyan válasszuk ki a konkrét felhasználási esethez megfelelő tesztet?

A hipotézisteszt kiválasztásának problémája

Nézzünk egy gyakori példát egy kiegyensúlyozott bináris osztályozási probléma osztályozóinak értékelésére és összehasonlítására.

Az általános gyakorlat szerint az osztályozási módszereket osztályozási pontossággal értékeljük, minden modellt 10-szeres keresztvalidálással értékelünk, a 10 modell készségbecsléséből álló mintához Gauss-eloszlást feltételezünk, és a minta átlagát használjuk a modell készségének összefoglalójaként.

Megkövetelhetjük, hogy minden ilyen eljárással értékelt osztályozót pontosan az adathalmaz ugyanazon felosztásain értékeljünk 10-szeres keresztvalidálással. Ez a két osztályozó közötti párosított mérőszámok illesztett mintáit adná, amelyek azért illesztettek, mert mindegyik osztályozót ugyanazon a 10 tesztkészleten értékeltük ki.

Ezután kiválaszthatnánk és használhatnánk a párosított Student’s t-tesztet annak ellenőrzésére, hogy a két modell közötti átlagos pontosságbeli különbség statisztikailag szignifikáns-e. Pl. elutasítani a nullhipotézist, amely azt feltételezi, hogy a két minta eloszlása azonos.

Tény, hogy ez az osztályozók összehasonlításának gyakori módja, talán több száz publikált cikk használja ezt a módszert.

A probléma az, hogy a párosított Student’s t-teszt egyik legfontosabb feltételezése sérült.

Nem, az egyes mintákban a megfigyelések nem függetlenek. A k-szoros keresztvalidálási eljárás részeként egy adott megfigyelés (k-1) alkalommal kerül felhasználásra a képzési adathalmazban. Ez azt jelenti, hogy a becsült készségpontszámok függőek, nem függetlenek, és ez viszont azt jelenti, hogy a t-statisztika kiszámítása a tesztben félrevezető módon téves lesz, a statisztika és a p-érték bármilyen értelmezésével együtt.

Ez a megfigyelés mind az alkalmazott újramintavételezési módszer, ebben az esetben a k-szoros kereszt-validálás, mind a választott hipotézisteszt, ebben az esetben a párosított Student-féle t-próba elvárásainak gondos megértését igényli. E háttér nélkül a teszt megfelelőnek tűnik, az eredményt kiszámítjuk és értelmezzük, és minden rendben lesz.

Az alkalmazott gépi tanulásban a modellválasztáshoz megfelelő statisztikai hipotézisteszt kiválasztása sajnos nagyobb kihívást jelent, mint amilyennek elsőre tűnik. Szerencsére egyre több kutatás segít rámutatni a naiv megközelítések hibáira, valamint korrekciókat és alternatív módszereket javasol.

Egyes eredmények összefoglalása

Ebben a részben tekintsünk át néhány kutatást a gépi tanulásban a modellválasztáshoz használt megfelelő statisztikai szignifikancia tesztek kiválasztásával kapcsolatban.

A McNemar-teszt vagy az 5×2 kereszt-Validáció használata

A témában talán a Thomas Dietterich által 1998-ban írt “Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms” című tanulmány az alapvető munka.

Ez egy kiváló tanulmány a témában, és ajánlott olvasmány. Először egy nagyszerű keretrendszerrel foglalkozik a gépi tanulási projekt azon pontjainak átgondolásához, ahol statisztikai hipotézisvizsgálatra lehet szükség, tárgyalja az osztályozó gépi tanulási módszerek összehasonlítása szempontjából releváns statisztikai tesztek gyakori megsértésével kapcsolatos elvárásokat, és a megállapítások megerősítésére szolgáló módszerek empirikus értékelésével zárul.

Ez a cikk öt közelítő statisztikai tesztet tekint át annak megállapítására, hogy egy tanulási algoritmus felülmúlja-e egy másik algoritmus teljesítményét egy adott tanulási feladatban.

A statisztikai hipotézistesztek kiválasztásának és empirikus értékelésének középpontjában a cikkben az I. típusú hiba vagy hamis pozitív eredmények kalibrálása áll. Vagyis olyan teszt kiválasztása, amely minimalizálja azt az esetet, amikor szignifikáns különbséget sugall, amikor ilyen különbség nem létezik.

Ez a dolgozat számos fontos megállapítást tartalmaz.

Az első megállapítás az, hogy soha nem szabad párosított Student’s t-tesztet használni a képzési adathalmaz véletlenszerű újramintáin keresztül becsült készség eredményein.

… bátran megállapíthatjuk, hogy az újramintázott t-tesztet soha nem szabad alkalmazni.

A páros t-próba feltételezései sérülnek a véletlenszerű újramintázás és a k-szoros keresztvalidálás esetén (amint azt fentebb megjegyeztük). Mindazonáltal k-szoros keresztvalidálás esetén a t-próba optimista lesz, ami magasabb I. típusú hibát eredményez, de csak szerény II. típusú hibát. Ez azt jelenti, hogy ez a kombináció olyan esetekben használható, amikor a II. típusú hibák elkerülése fontosabb, mint az I. típusú hibának való behódolás.

A 10-szeres kereszt-validált t-próba magas I. típusú hibával rendelkezik. Ugyanakkor nagy ereje is van, ezért ajánlható azokban az esetekben, amikor a II. típusú hiba (az algoritmusok közötti valós különbség nem észlelése) fontosabb.

Dietterich a McNemar-féle statisztikai hipotézistesztet ajánlja olyan esetekben, amikor korlátozott mennyiségű adat áll rendelkezésre, és minden algoritmus csak egyszer értékelhető.

A McNemar-teszt olyan, mint a Chi-négyzet teszt, és ebben az esetben annak megállapítására szolgál, hogy az algoritmus kontingenciatáblájában a megfigyelt arányok különbsége szignifikánsan eltér-e a várt arányoktól. Ez hasznos megállapítás a nagyméretű mélytanuló neurális hálózatok esetében, amelyek betanítása napokig vagy hetekig is eltarthat.

Kísérleteink alapján a McNemar-tesztet ajánljuk olyan helyzetekben, amikor a tanulási algoritmusok csak egyszer futtathatók.

Dietterich egy saját maga által kitalált, 5×2 kereszt-validálásnak nevezett újramintázási módszert is ajánl, amely a 2-szeres kereszt-validálás 5 ismétlését foglalja magában.

A két hajtást úgy választjuk meg, hogy minden megfigyelés csak a modellkészség egyetlen becsléséhez szükséges train vagy teszt adathalmazban jelenjen meg. Az eredményekre párosított Student’s t-próbát alkalmazunk, amelyet frissítünk, hogy jobban tükrözze a korlátozott szabadságfokokat, tekintettel a becsült készségértékek közötti függőségre.

Kísérleteink alapján az 5 x 2cv t-tesztet javasoljuk olyan helyzetekben, amikor a tanulási algoritmusok elég hatékonyak ahhoz, hogy tízszer futtassuk őket

Az 5×2 kereszt-validálás pontosítása

A McNemar-teszt vagy az 5×2 kereszt-validálás használata a cikk megjelenése óta eltelt 20 év nagy részében alapvető ajánlássá vált.

Mindezek ellenére további fejlesztések történtek, hogy a párosított Student’s t-tesztet jobban korrigálják az ismételt k-szoros kereszt-validálásból származó függetlenségi feltételezés megsértése miatt.

A sok közül két fontos dolgozat a következő:

Claude Nadeau és Yoshua Bengio 2003-as, “Inference for the Generalization Error” című munkájukban további korrekciót javasolnak. Ez egy sűrű írás, és nem ajánlott a gyengébb idegzetűeknek.

Ez az elemzés lehetővé tette, hogy két olyan varianciabecslést konstruáljunk, amelyek figyelembe veszik mind a gyakorlóhalmazok, mind a tesztpéldák kiválasztásából adódó változékonyságot. Az egyik javasolt becslő hasonlít a cv-módszerhez (Dietterich, 1998), és kifejezetten úgy van kialakítva, hogy túlbecsülje a varianciát, hogy konzervatív következtetést adjon.

Remco Bouckaert és Eibe Frank 2004-es “Evaluating the Replicability of Significance Tests for Comparing Learning Algorithms” című tanulmányukban más szemléletet képviselnek, és az eredmények megismételhetőségét fontosabbnak tartják, mint az I. vagy II. típusú hibákat.

Ebben a tanulmányban amellett érvelünk, hogy a teszt megismételhetősége is fontos. Azt mondjuk, hogy egy teszt replikálhatósága alacsony, ha az eredménye erősen függ az adatok adott véletlenszerű felosztásától, amelyet az elvégzéséhez használunk

Meglepő, hogy a jó replikálhatóság eléréséhez vagy 100 véletlenszerű újramintavételezést vagy 10×10-szeres kereszt-validálást javasolnak a Nadeau és Bengio korrekcióval a párosított Student-t teszthez.

Az utóbbi megközelítést ajánlja Ian Witten és Eibe Frank könyve és a nyílt forráskódú adatbányászati platformjuk, a Weka is, a Nadeau és Bengio korrekcióra “korrigált újramintázott t-próba” néven hivatkozva.

A standard t-próba különböző módosításait javasolták e probléma megkerülésére, amelyek mindegyike heurisztikus és nem rendelkezik szilárd elméleti indoklással. Az egyik, amely a gyakorlatban jól működik, a korrigált, újramintázott t-próba. Ugyanez a módosított statisztika használható ismételt keresztvalidálás esetén is, ami csak egy speciális esete az ismételt holdoutnak, amelyben az egy keresztvalidáláshoz tartozó egyes tesztkészletek nem fedik egymást.

– 159. oldal, 5. fejezet, Hitelesség: A tanultak értékelése, Adatbányászat: Practical Machine Learning Tools and Techniques, Third Edition, 2011.

Recommendations

Nincsenek csodafegyverek, amikor az alkalmazott gépi tanulásban a modellválasztáshoz szükséges statisztikai szignifikancia teszt kiválasztásáról van szó.

Lássunk öt megközelítést, amelyet a gépi tanulási projektünkben használhatunk az osztályozók összehasonlítására.

Független adatminták

Ha közel korlátlan adatmennyiséggel rendelkezik, gyűjtsön k külön train és teszt adathalmazt, hogy minden módszerhez 10 valóban független képességértéket számoljon ki.

Ezután helyesen alkalmazhatja a párosított Student’s t-tesztet. Ez a legvalószínűtlenebb, mivel gyakran kis adatmintákkal dolgozunk.

…a feltételezés, hogy lényegében korlátlan mennyiségű adat áll rendelkezésre, így több, egymástól független, megfelelő méretű adathalmaz használható. A gyakorlatban általában csak egyetlen, korlátozott méretű adathalmaz áll rendelkezésre. Mit lehet tenni?

– 158. oldal, 5. fejezet, Hitelesség: A tanultak értékelése, adatbányászat: Practical Machine Learning Tools and Techniques, Third Edition, 2011.

A 10-szeres CV problémái

A naiv 10-szeres kereszt-validálás használható egy nem módosított párosított Student t-próbával.

Ez más módszerekhez képest jó ismételhetőséggel és szerény II. típusú hibával rendelkezik, de ismert, hogy magas az I. típusú hibája.

A kísérletek is óvatosságra intenek a 10-szeres kereszt-validált t-próba eredményeinek értelmezésében. Ennek a tesztnek megemelkedett az I. típusú hiba valószínűsége (akár a célérték kétszerese), bár ez a probléma közel sem olyan súlyos, mint az újramintázott t-teszt esetében.

– Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms, 1998.

Ez egy lehetőség, de nagyon gyengén ajánlott.

Use McNemar’s Test or 5×2 CV

A McNemar-teszt két évtizedes ajánlása az egyfutásos osztályozási pontossági eredményekre és az 5×2-szeres keresztvalidálás egy módosított párosított Student’s t-teszttel általában megállja a helyét.

Ezeken túlmenően a Nadeau és Bengio-féle további korrekció a tesztstatisztikára használható 5×2-szeres keresztvalidálással vagy 10×10-szeres keresztvalidálással, ahogy azt a Weka fejlesztői ajánlják.

A módosított t-statisztika használatának kihívása, hogy nincs kész implementáció (pl. SciPy-ben), ami harmadik féltől származó kód használatát és az ezzel járó kockázatokat igényli. Lehet, hogy magadnak kell implementálnod.

A választott statisztikai módszer elérhetősége és bonyolultsága fontos szempont, amit Gitte Vanwinckelen és Hendrik Blockeel 2012-es “On Estimating Model Accuracy with Repeated Cross-Validation” című tanulmányában jól megfogalmazott:

Míg ezeket a módszereket gondosan megtervezték, és számos módon javítják a korábbi módszereket, ugyanolyan kockázatot szenvednek, mint a korábbi módszerek, nevezetesen, hogy minél összetettebb egy módszer, annál nagyobb a kockázata annak, hogy a kutatók helytelenül használják, vagy helytelenül értelmezik az eredményt.

Itt van egy példa a McNemar-teszt használatára:

  • How to Calculate McNemar’s Test to Compare Two Machine Learning Classifiers

Use a Nonparametric Paired Test

Egy nemparametrikus tesztet használhatunk, amely kevesebb feltételezést tesz, például nem feltételezi, hogy a képességpontszámok eloszlása Gauss eloszlása.

Egy példa erre a Wilcoxon előjeles rangsor teszt, amely a párosított Student’s t-próba nemparametrikus változata. Ennek a tesztnek kisebb a statisztikai ereje, mint a páros t-tesztnek, bár nagyobb az ereje, ha a t-teszt elvárásai sérülnek, például a függetlenség.

Ezt a statisztikai hipotézistesztet Janez Demsar 2006-ban megjelent “Statistical Comparisons of Classifiers over Multiple Data Sets” című cikkében ajánlja különböző adathalmazok algoritmusainak összehasonlítására.

Ezért javasoljuk a Wilcoxon-teszt használatát, kivéve, ha a t-próba feltételezései teljesülnek, vagy azért, mert sok adathalmazunk van, vagy azért, mert okunk van feltételezni, hogy az adathalmazok közötti teljesítménymérő normális eloszlású.

Bár a teszt nem parametrikus, mégis feltételezi, hogy az egyes mintákon belüli megfigyelések függetlenek (pl. iid), és a k-szoros keresztvalidálás használata függő mintákat hozna létre, és megsértené ezt a feltételezést.

Használjunk becslési statisztikákat helyette

A statisztikai hipotézistesztek helyett becslési statisztikák is kiszámíthatók, például konfidenciaintervallumok. Ezek hasonló problémákkal küzdenének, ahol a függetlenség feltételezése sérül, tekintettel azokra az újramintázási módszerekre, amelyekkel a modelleket értékelik.

Tom Mitchell hasonló ajánlást tesz 1997-es könyvében, azt javasolva, hogy a statisztikai hipotézistesztek eredményeit tekintsük heurisztikus becsléseknek, és keressünk konfidenciaintervallumokat a modellkészség becslései körül:

Összefoglalva, nincs egyetlen olyan eljárás a korlátozott adatokon alapuló tanulási módszerek összehasonlítására, amely minden olyan korlátozásnak megfelelne, amit szeretnénk. Bölcs dolog szem előtt tartani, hogy a statisztikai modellek ritkán felelnek meg tökéletesen a tanulási algoritmusok tesztelésére vonatkozó gyakorlati megkötéseknek, amikor a rendelkezésre álló adatok korlátozottak. Mindazonáltal közelítő konfidenciaintervallumokat adnak, amelyek nagy segítséget jelenthetnek a tanulási módszerek kísérleti összehasonlításainak értelmezésében.

– 150. oldal, 5. fejezet, A hipotézisek értékelése, Machine Learning, 1997.

A statisztikai módszerek, mint például a bootstrap, védhető nemparametrikus konfidenciaintervallumok kiszámítására használhatók, amelyek mind az eredmények bemutatására, mind az osztályozók összehasonlítására alkalmasak. Ez egy egyszerű és hatékony megközelítés, amelyhez mindig vissza lehet nyúlni, és amelyet általánosságban ajánlok.

A bizalmi intervallumok kapták a legtöbb elméleti tanulmányt a bootstrap témakörök közül.

– 321. oldal, An Introduction to the Bootstrap, 1994.

Extensions

Ez a rész felsorol néhány ötletet a bemutató bővítésére, amelyeket érdemes megvizsgálni.

  • Kereszen meg és soroljon fel három olyan kutatási cikket, amelyek helytelenül használják a nem módosított párosított Student’s t-tesztet egy gépi tanulási modell összehasonlítására és kiválasztására.
  • Foglalja össze a Thomas Dietterich 1998-as cikkében bemutatott keretrendszert a statisztikai hipotézistesztek használatára egy gépi tanulási projektben.
  • Kereszen meg és soroljon fel három olyan kutatási cikket, amelyek helyesen használják a McNemar-tesztet vagy az 5×2 Cross-Validationt egy gépi tanulási modell összehasonlítására és kiválasztására.

Ha bármelyik kiterjesztést felfedezed, örülnék, ha tudnád.

Further Reading

Ez a rész további forrásokat tartalmaz a témában, ha mélyebbre szeretnél menni.

Papers

  • Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms, 1998.
  • Inference for the Generalization Error, 2003.
  • Evaluating the Replicability of Significance Tests for Comparing Learning Algorithms, 2004.
  • On estimating model accuracy with repeated cross-validation, 2012.
  • Statistical Comparisons of Classifiers over Multiple Data Sets, 2006.

Books

  • Chapter 5, Evaluating Hypotheses, Machine Learning, 1997.
  • Chapter 5, Credibility: Evaluating What’s Been Learned, Adatbányászat: Practical Machine Learning Tools and Techniques, Third Edition, 2011.
  • An Introduction to the Bootstrap, 1994.

Cikkek

  • Student’s t-test a Wikipedián
  • Cross-validation (statisztika) a Wikipedián
  • McNemar teszt a Wikipedián
  • Wilcoxon signed-rank test a Wikipedián

Discussions

  • Modellkiválasztáshoz/összehasonlításhoz, milyen tesztet használjak?
  • Hogyan végezzünk hipotézisvizsgálatot különböző osztályozók összehasonlítására
  • Wilcoxon rangösszeg teszt módszertana
  • Hogyan válasszunk t-teszt vagy nem parametrikus teszt között pl. Wilcoxon kis minták esetén

Összefoglaló

Ezzel a bemutatóval felfedezte a statisztikai hipotézisteszt kiválasztásának fontosságát és kihívását a gépi tanulási modellek összehasonlításához.

Közelebbről megtanulta:

  • A statisztikai hipotézistesztek segíthetnek a gépi tanulási modellek összehasonlításában és a végleges modell kiválasztásában.
  • A statisztikai hipotézistesztek naiv alkalmazása félrevezető eredményekhez vezethet.
  • A statisztikai tesztek helyes alkalmazása kihívást jelent, és van némi konszenzus a McNemar-teszt vagy az 5×2 kereszt-validáció használata mellett, módosított párosított Student t-teszttel.

Kérdése van?
Tegye fel kérdéseit az alábbi megjegyzésekben, és én igyekszem válaszolni.

Kezdje meg a statisztikát a gépi tanuláshoz!

Statisztikai módszerek a gépi tanuláshoz

Develop a working understanding of statistics

…kódsorok írásával pythonban

Fedezd fel, hogyan az új Ebookomban:
Statisztikai módszerek a gépi tanuláshoz

Ez önképző tananyagot nyújt olyan témákban, mint:
Hypothesis Tests, Correlation, Nonparametric Stats, Resampling, and much more…

Discovery how to Transform Data into Knowledge

Spip the Academics. Just Results.

See What’s Inside

Tweet Share Share Share

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.