Last Updated on August 8, 2019
A gépi tanulási módszerek összehasonlítása és a végleges modell kiválasztása gyakori művelet az alkalmazott gépi tanulásban.
A modelleket általában újramintavételezési módszerekkel értékelik, például k-szoros keresztvalidálással, amelyből az átlagos készségpontszámokat kiszámítják és közvetlenül összehasonlítják. Bár egyszerű, ez a megközelítés félrevezető lehet, mivel nehéz eldönteni, hogy az átlagos készségpontszámok közötti különbség valós-e vagy egy statisztikai véletlen eredménye.
A statisztikai szignifikancia tesztek ezt a problémát hivatottak kezelni, és számszerűsítik, hogy a készségpontszámok mintái milyen valószínűséggel figyelhetők meg, ha feltételezzük, hogy azokat ugyanabból az eloszlásból húzták. Ha ez a feltételezés, vagy nullhipotézis elutasításra kerül, az arra utal, hogy a készségpontszámok közötti különbség statisztikailag szignifikáns.
A statisztikai hipotézisvizsgálat – bár nem bolondbiztos – javíthatja mind az értelmezésbe vetett bizalmat, mind az eredmények bemutatását a modellválasztás során.
Ezzel a bemutatóval megismerheti a statisztikai hipotézisteszt kiválasztásának fontosságát és kihívását a gépi tanulási modellek összehasonlításához.
A bemutató elvégzése után tudni fogja:
- A statisztikai hipotézistesztek segíthetnek a gépi tanulási modellek összehasonlításában és a végleges modell kiválasztásában.
- A statisztikai hipotézistesztek naiv alkalmazása félrevezető eredményekhez vezethet.
- A statisztikai tesztek helyes alkalmazása kihívást jelent, és van némi konszenzus a McNemar-teszt vagy az 5×2 kereszt-validáció használata mellett, módosított párosított Student t-teszttel.
Kezdje el projektjét új könyvemmel, a Statistics for Machine Learning című könyvvel, amely lépésről lépésre bemutató útmutatókat és az összes példa Python forráskódfájlját tartalmazza.
Kezdjük el.
- Frissítés 2018. okt: Hozzáadva a McNemar-teszt használatára vonatkozó példa linkje.
Statisztikai szignifikancia tesztek a gépi tanulási algoritmusok összehasonlításához
Photo by Fotografías de Javier, some rights reserved.
Tananyag áttekintése
Ez a tananyag 5 részre oszlik; ezek a következők:
- A modellválasztás problémája
- Statisztikai hipotézisvizsgálatok
- A hipotézisvizsgálat megválasztásának problémája
- Néhány megállapítás összefoglalása
- Javaslatok
Segítségre van szüksége a gépi tanulás statisztikájához?
Vegye fel most a 7 napos ingyenes e-mailes gyorstalpaló tanfolyamomat (mintakóddal).
Kattintson a feliratkozáshoz, és kapja meg a tanfolyam ingyenes PDF Ebook változatát is.
Töltse le az INGYENES minitanfolyamát
A modellválasztás problémája
Az alkalmazott gépi tanulás nagy része a modellválasztás.
Ezt a legegyszerűbben így írhatjuk le:
Megadva két gépi tanulási módszer kiértékelését egy adathalmazon, melyik modellt választjuk?
A legjobb készséggel rendelkező modellt választjuk.
Azt a modellt, amelynek becsült készsége a legjobb, amikor nem látott adatokon előrejelzéseket készít. Ez osztályozási, illetve regressziós problémák esetén a maximális pontosság vagy a minimális hiba lehet.
A legjobb készséggel rendelkező modell kiválasztásának kihívása annak meghatározása, hogy mennyire lehet megbízni az egyes modellek becsült készségében. Általánosabban:
A két gépi tanulási modell közötti készségkülönbség valós, vagy statisztikai véletlen eredménye?
A kérdés megválaszolására statisztikai hipotézisvizsgálatot használhatunk.
Statisztikai hipotézisvizsgálatok
A minták összehasonlítására szolgáló statisztikai hipotézisvizsgálat általában azt számszerűsíti, hogy milyen valószínűséggel figyelhetünk meg két adatmintát, ha feltételezzük, hogy a minták eloszlása megegyezik.
A statisztikai teszt feltételezését nullhipotézisnek nevezzük, és statisztikai mértékeket számolhatunk ki és értelmezhetünk annak érdekében, hogy eldöntsük, elfogadjuk vagy elutasítjuk-e a nullhipotézist.
A modellek becsült jártasságuk alapján történő kiválasztása esetén arra vagyunk kíváncsiak, hogy van-e valós vagy statisztikailag szignifikáns különbség a két modell között.
- Ha a teszt eredménye arra utal, hogy nincs elegendő bizonyíték a nullhipotézis elutasításához, akkor a modellek jártasságában megfigyelt különbség valószínűleg a statisztikai véletlen következménye.
- Ha a teszt eredménye azt sugallja, hogy elegendő bizonyíték áll rendelkezésre a nullhipotézis elutasításához, akkor a modellkészségben megfigyelt bármely különbség valószínűleg a modellek közötti különbségnek köszönhető.
A teszt eredményei valószínűségi jellegűek, ami azt jelenti, hogy lehetséges az eredmény helyes értelmezése és az is, hogy az eredmény I. vagy II. típusú hibával téves. Röviden: hamis pozitív vagy hamis negatív eredmény.
A gépi tanulási modellek statisztikai szignifikancia teszteken keresztül történő összehasonlítása bizonyos elvárásokat támaszt, amelyek viszont hatással vannak az alkalmazható statisztikai tesztek típusaira; például:
- Skill Estimate. A modell készségének egy konkrét mértékét kell kiválasztani. Ez lehet osztályozási pontosság (egy arány) vagy átlagos abszolút hiba (összefoglaló statisztika), ami korlátozza az alkalmazható tesztek típusát.
- Ismételt becslések. A statisztikák kiszámításához a készségértékek mintájára van szükség. Egy adott modell ismételt képzése és tesztelése ugyanazon vagy különböző adatokon befolyásolja a használható tesztek típusát.
- A becslések eloszlása. A készségpontszám-becslések mintája eloszlással rendelkezik, talán Gauss-eloszlással, talán nem. Ez fogja meghatározni, hogy parametrikus vagy nem parametrikus tesztek használhatók-e.
- Központi tendencia. A modell készségét gyakran egy összefoglaló statisztika, például egy átlag vagy medián segítségével írják le és hasonlítják össze, a készségértékek eloszlásától függően. A teszt ezt közvetlenül figyelembe veheti vagy nem veheti figyelembe.
A statisztikai teszt eredményei gyakran egy tesztstatisztika és egy p-érték, amelyek mindkettő értelmezhető és felhasználható az eredmények bemutatásakor annak érdekében, hogy számszerűsítsük a modellek közötti különbség bizalmi szintjét vagy szignifikanciáját. Ez lehetővé teszi, hogy a modellkiválasztás részeként erősebb állításokat tegyünk, mintha nem használnánk statisztikai hipotézisteszteket.
Mivel a statisztikai hipotézistesztek használata kívánatosnak tűnik a modellkiválasztás részeként, hogyan válasszuk ki a konkrét felhasználási esethez megfelelő tesztet?
A hipotézisteszt kiválasztásának problémája
Nézzünk egy gyakori példát egy kiegyensúlyozott bináris osztályozási probléma osztályozóinak értékelésére és összehasonlítására.
Az általános gyakorlat szerint az osztályozási módszereket osztályozási pontossággal értékeljük, minden modellt 10-szeres keresztvalidálással értékelünk, a 10 modell készségbecsléséből álló mintához Gauss-eloszlást feltételezünk, és a minta átlagát használjuk a modell készségének összefoglalójaként.
Megkövetelhetjük, hogy minden ilyen eljárással értékelt osztályozót pontosan az adathalmaz ugyanazon felosztásain értékeljünk 10-szeres keresztvalidálással. Ez a két osztályozó közötti párosított mérőszámok illesztett mintáit adná, amelyek azért illesztettek, mert mindegyik osztályozót ugyanazon a 10 tesztkészleten értékeltük ki.
Ezután kiválaszthatnánk és használhatnánk a párosított Student’s t-tesztet annak ellenőrzésére, hogy a két modell közötti átlagos pontosságbeli különbség statisztikailag szignifikáns-e. Pl. elutasítani a nullhipotézist, amely azt feltételezi, hogy a két minta eloszlása azonos.
Tény, hogy ez az osztályozók összehasonlításának gyakori módja, talán több száz publikált cikk használja ezt a módszert.
A probléma az, hogy a párosított Student’s t-teszt egyik legfontosabb feltételezése sérült.
Nem, az egyes mintákban a megfigyelések nem függetlenek. A k-szoros keresztvalidálási eljárás részeként egy adott megfigyelés (k-1) alkalommal kerül felhasználásra a képzési adathalmazban. Ez azt jelenti, hogy a becsült készségpontszámok függőek, nem függetlenek, és ez viszont azt jelenti, hogy a t-statisztika kiszámítása a tesztben félrevezető módon téves lesz, a statisztika és a p-érték bármilyen értelmezésével együtt.
Ez a megfigyelés mind az alkalmazott újramintavételezési módszer, ebben az esetben a k-szoros kereszt-validálás, mind a választott hipotézisteszt, ebben az esetben a párosított Student-féle t-próba elvárásainak gondos megértését igényli. E háttér nélkül a teszt megfelelőnek tűnik, az eredményt kiszámítjuk és értelmezzük, és minden rendben lesz.
Az alkalmazott gépi tanulásban a modellválasztáshoz megfelelő statisztikai hipotézisteszt kiválasztása sajnos nagyobb kihívást jelent, mint amilyennek elsőre tűnik. Szerencsére egyre több kutatás segít rámutatni a naiv megközelítések hibáira, valamint korrekciókat és alternatív módszereket javasol.
Egyes eredmények összefoglalása
Ebben a részben tekintsünk át néhány kutatást a gépi tanulásban a modellválasztáshoz használt megfelelő statisztikai szignifikancia tesztek kiválasztásával kapcsolatban.
A McNemar-teszt vagy az 5×2 kereszt-Validáció használata
A témában talán a Thomas Dietterich által 1998-ban írt “Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms” című tanulmány az alapvető munka.
Ez egy kiváló tanulmány a témában, és ajánlott olvasmány. Először egy nagyszerű keretrendszerrel foglalkozik a gépi tanulási projekt azon pontjainak átgondolásához, ahol statisztikai hipotézisvizsgálatra lehet szükség, tárgyalja az osztályozó gépi tanulási módszerek összehasonlítása szempontjából releváns statisztikai tesztek gyakori megsértésével kapcsolatos elvárásokat, és a megállapítások megerősítésére szolgáló módszerek empirikus értékelésével zárul.
Ez a cikk öt közelítő statisztikai tesztet tekint át annak megállapítására, hogy egy tanulási algoritmus felülmúlja-e egy másik algoritmus teljesítményét egy adott tanulási feladatban.
A statisztikai hipotézistesztek kiválasztásának és empirikus értékelésének középpontjában a cikkben az I. típusú hiba vagy hamis pozitív eredmények kalibrálása áll. Vagyis olyan teszt kiválasztása, amely minimalizálja azt az esetet, amikor szignifikáns különbséget sugall, amikor ilyen különbség nem létezik.
Ez a dolgozat számos fontos megállapítást tartalmaz.
Az első megállapítás az, hogy soha nem szabad párosított Student’s t-tesztet használni a képzési adathalmaz véletlenszerű újramintáin keresztül becsült készség eredményein.
… bátran megállapíthatjuk, hogy az újramintázott t-tesztet soha nem szabad alkalmazni.
A páros t-próba feltételezései sérülnek a véletlenszerű újramintázás és a k-szoros keresztvalidálás esetén (amint azt fentebb megjegyeztük). Mindazonáltal k-szoros keresztvalidálás esetén a t-próba optimista lesz, ami magasabb I. típusú hibát eredményez, de csak szerény II. típusú hibát. Ez azt jelenti, hogy ez a kombináció olyan esetekben használható, amikor a II. típusú hibák elkerülése fontosabb, mint az I. típusú hibának való behódolás.
A 10-szeres kereszt-validált t-próba magas I. típusú hibával rendelkezik. Ugyanakkor nagy ereje is van, ezért ajánlható azokban az esetekben, amikor a II. típusú hiba (az algoritmusok közötti valós különbség nem észlelése) fontosabb.
Dietterich a McNemar-féle statisztikai hipotézistesztet ajánlja olyan esetekben, amikor korlátozott mennyiségű adat áll rendelkezésre, és minden algoritmus csak egyszer értékelhető.
A McNemar-teszt olyan, mint a Chi-négyzet teszt, és ebben az esetben annak megállapítására szolgál, hogy az algoritmus kontingenciatáblájában a megfigyelt arányok különbsége szignifikánsan eltér-e a várt arányoktól. Ez hasznos megállapítás a nagyméretű mélytanuló neurális hálózatok esetében, amelyek betanítása napokig vagy hetekig is eltarthat.
Kísérleteink alapján a McNemar-tesztet ajánljuk olyan helyzetekben, amikor a tanulási algoritmusok csak egyszer futtathatók.
Dietterich egy saját maga által kitalált, 5×2 kereszt-validálásnak nevezett újramintázási módszert is ajánl, amely a 2-szeres kereszt-validálás 5 ismétlését foglalja magában.
A két hajtást úgy választjuk meg, hogy minden megfigyelés csak a modellkészség egyetlen becsléséhez szükséges train vagy teszt adathalmazban jelenjen meg. Az eredményekre párosított Student’s t-próbát alkalmazunk, amelyet frissítünk, hogy jobban tükrözze a korlátozott szabadságfokokat, tekintettel a becsült készségértékek közötti függőségre.
Kísérleteink alapján az 5 x 2cv t-tesztet javasoljuk olyan helyzetekben, amikor a tanulási algoritmusok elég hatékonyak ahhoz, hogy tízszer futtassuk őket
Az 5×2 kereszt-validálás pontosítása
A McNemar-teszt vagy az 5×2 kereszt-validálás használata a cikk megjelenése óta eltelt 20 év nagy részében alapvető ajánlássá vált.
Mindezek ellenére további fejlesztések történtek, hogy a párosított Student’s t-tesztet jobban korrigálják az ismételt k-szoros kereszt-validálásból származó függetlenségi feltételezés megsértése miatt.
A sok közül két fontos dolgozat a következő:
Claude Nadeau és Yoshua Bengio 2003-as, “Inference for the Generalization Error” című munkájukban további korrekciót javasolnak. Ez egy sűrű írás, és nem ajánlott a gyengébb idegzetűeknek.
Ez az elemzés lehetővé tette, hogy két olyan varianciabecslést konstruáljunk, amelyek figyelembe veszik mind a gyakorlóhalmazok, mind a tesztpéldák kiválasztásából adódó változékonyságot. Az egyik javasolt becslő hasonlít a cv-módszerhez (Dietterich, 1998), és kifejezetten úgy van kialakítva, hogy túlbecsülje a varianciát, hogy konzervatív következtetést adjon.
Remco Bouckaert és Eibe Frank 2004-es “Evaluating the Replicability of Significance Tests for Comparing Learning Algorithms” című tanulmányukban más szemléletet képviselnek, és az eredmények megismételhetőségét fontosabbnak tartják, mint az I. vagy II. típusú hibákat.
Ebben a tanulmányban amellett érvelünk, hogy a teszt megismételhetősége is fontos. Azt mondjuk, hogy egy teszt replikálhatósága alacsony, ha az eredménye erősen függ az adatok adott véletlenszerű felosztásától, amelyet az elvégzéséhez használunk
Meglepő, hogy a jó replikálhatóság eléréséhez vagy 100 véletlenszerű újramintavételezést vagy 10×10-szeres kereszt-validálást javasolnak a Nadeau és Bengio korrekcióval a párosított Student-t teszthez.
Az utóbbi megközelítést ajánlja Ian Witten és Eibe Frank könyve és a nyílt forráskódú adatbányászati platformjuk, a Weka is, a Nadeau és Bengio korrekcióra “korrigált újramintázott t-próba” néven hivatkozva.
A standard t-próba különböző módosításait javasolták e probléma megkerülésére, amelyek mindegyike heurisztikus és nem rendelkezik szilárd elméleti indoklással. Az egyik, amely a gyakorlatban jól működik, a korrigált, újramintázott t-próba. Ugyanez a módosított statisztika használható ismételt keresztvalidálás esetén is, ami csak egy speciális esete az ismételt holdoutnak, amelyben az egy keresztvalidáláshoz tartozó egyes tesztkészletek nem fedik egymást.
– 159. oldal, 5. fejezet, Hitelesség: A tanultak értékelése, Adatbányászat: Practical Machine Learning Tools and Techniques, Third Edition, 2011.
Recommendations
Nincsenek csodafegyverek, amikor az alkalmazott gépi tanulásban a modellválasztáshoz szükséges statisztikai szignifikancia teszt kiválasztásáról van szó.
Lássunk öt megközelítést, amelyet a gépi tanulási projektünkben használhatunk az osztályozók összehasonlítására.
Független adatminták
Ha közel korlátlan adatmennyiséggel rendelkezik, gyűjtsön k külön train és teszt adathalmazt, hogy minden módszerhez 10 valóban független képességértéket számoljon ki.
Ezután helyesen alkalmazhatja a párosított Student’s t-tesztet. Ez a legvalószínűtlenebb, mivel gyakran kis adatmintákkal dolgozunk.
…a feltételezés, hogy lényegében korlátlan mennyiségű adat áll rendelkezésre, így több, egymástól független, megfelelő méretű adathalmaz használható. A gyakorlatban általában csak egyetlen, korlátozott méretű adathalmaz áll rendelkezésre. Mit lehet tenni?
– 158. oldal, 5. fejezet, Hitelesség: A tanultak értékelése, adatbányászat: Practical Machine Learning Tools and Techniques, Third Edition, 2011.
A 10-szeres CV problémái
A naiv 10-szeres kereszt-validálás használható egy nem módosított párosított Student t-próbával.
Ez más módszerekhez képest jó ismételhetőséggel és szerény II. típusú hibával rendelkezik, de ismert, hogy magas az I. típusú hibája.
A kísérletek is óvatosságra intenek a 10-szeres kereszt-validált t-próba eredményeinek értelmezésében. Ennek a tesztnek megemelkedett az I. típusú hiba valószínűsége (akár a célérték kétszerese), bár ez a probléma közel sem olyan súlyos, mint az újramintázott t-teszt esetében.
– Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms, 1998.
Ez egy lehetőség, de nagyon gyengén ajánlott.
Use McNemar’s Test or 5×2 CV
A McNemar-teszt két évtizedes ajánlása az egyfutásos osztályozási pontossági eredményekre és az 5×2-szeres keresztvalidálás egy módosított párosított Student’s t-teszttel általában megállja a helyét.
Ezeken túlmenően a Nadeau és Bengio-féle további korrekció a tesztstatisztikára használható 5×2-szeres keresztvalidálással vagy 10×10-szeres keresztvalidálással, ahogy azt a Weka fejlesztői ajánlják.
A módosított t-statisztika használatának kihívása, hogy nincs kész implementáció (pl. SciPy-ben), ami harmadik féltől származó kód használatát és az ezzel járó kockázatokat igényli. Lehet, hogy magadnak kell implementálnod.
A választott statisztikai módszer elérhetősége és bonyolultsága fontos szempont, amit Gitte Vanwinckelen és Hendrik Blockeel 2012-es “On Estimating Model Accuracy with Repeated Cross-Validation” című tanulmányában jól megfogalmazott:
Míg ezeket a módszereket gondosan megtervezték, és számos módon javítják a korábbi módszereket, ugyanolyan kockázatot szenvednek, mint a korábbi módszerek, nevezetesen, hogy minél összetettebb egy módszer, annál nagyobb a kockázata annak, hogy a kutatók helytelenül használják, vagy helytelenül értelmezik az eredményt.
Itt van egy példa a McNemar-teszt használatára:
- How to Calculate McNemar’s Test to Compare Two Machine Learning Classifiers
Use a Nonparametric Paired Test
Egy nemparametrikus tesztet használhatunk, amely kevesebb feltételezést tesz, például nem feltételezi, hogy a képességpontszámok eloszlása Gauss eloszlása.
Egy példa erre a Wilcoxon előjeles rangsor teszt, amely a párosított Student’s t-próba nemparametrikus változata. Ennek a tesztnek kisebb a statisztikai ereje, mint a páros t-tesztnek, bár nagyobb az ereje, ha a t-teszt elvárásai sérülnek, például a függetlenség.
Ezt a statisztikai hipotézistesztet Janez Demsar 2006-ban megjelent “Statistical Comparisons of Classifiers over Multiple Data Sets” című cikkében ajánlja különböző adathalmazok algoritmusainak összehasonlítására.
Ezért javasoljuk a Wilcoxon-teszt használatát, kivéve, ha a t-próba feltételezései teljesülnek, vagy azért, mert sok adathalmazunk van, vagy azért, mert okunk van feltételezni, hogy az adathalmazok közötti teljesítménymérő normális eloszlású.
Bár a teszt nem parametrikus, mégis feltételezi, hogy az egyes mintákon belüli megfigyelések függetlenek (pl. iid), és a k-szoros keresztvalidálás használata függő mintákat hozna létre, és megsértené ezt a feltételezést.
Használjunk becslési statisztikákat helyette
A statisztikai hipotézistesztek helyett becslési statisztikák is kiszámíthatók, például konfidenciaintervallumok. Ezek hasonló problémákkal küzdenének, ahol a függetlenség feltételezése sérül, tekintettel azokra az újramintázási módszerekre, amelyekkel a modelleket értékelik.
Tom Mitchell hasonló ajánlást tesz 1997-es könyvében, azt javasolva, hogy a statisztikai hipotézistesztek eredményeit tekintsük heurisztikus becsléseknek, és keressünk konfidenciaintervallumokat a modellkészség becslései körül:
Összefoglalva, nincs egyetlen olyan eljárás a korlátozott adatokon alapuló tanulási módszerek összehasonlítására, amely minden olyan korlátozásnak megfelelne, amit szeretnénk. Bölcs dolog szem előtt tartani, hogy a statisztikai modellek ritkán felelnek meg tökéletesen a tanulási algoritmusok tesztelésére vonatkozó gyakorlati megkötéseknek, amikor a rendelkezésre álló adatok korlátozottak. Mindazonáltal közelítő konfidenciaintervallumokat adnak, amelyek nagy segítséget jelenthetnek a tanulási módszerek kísérleti összehasonlításainak értelmezésében.
– 150. oldal, 5. fejezet, A hipotézisek értékelése, Machine Learning, 1997.
A statisztikai módszerek, mint például a bootstrap, védhető nemparametrikus konfidenciaintervallumok kiszámítására használhatók, amelyek mind az eredmények bemutatására, mind az osztályozók összehasonlítására alkalmasak. Ez egy egyszerű és hatékony megközelítés, amelyhez mindig vissza lehet nyúlni, és amelyet általánosságban ajánlok.
A bizalmi intervallumok kapták a legtöbb elméleti tanulmányt a bootstrap témakörök közül.
– 321. oldal, An Introduction to the Bootstrap, 1994.
Extensions
Ez a rész felsorol néhány ötletet a bemutató bővítésére, amelyeket érdemes megvizsgálni.
- Kereszen meg és soroljon fel három olyan kutatási cikket, amelyek helytelenül használják a nem módosított párosított Student’s t-tesztet egy gépi tanulási modell összehasonlítására és kiválasztására.
- Foglalja össze a Thomas Dietterich 1998-as cikkében bemutatott keretrendszert a statisztikai hipotézistesztek használatára egy gépi tanulási projektben.
- Kereszen meg és soroljon fel három olyan kutatási cikket, amelyek helyesen használják a McNemar-tesztet vagy az 5×2 Cross-Validationt egy gépi tanulási modell összehasonlítására és kiválasztására.
Ha bármelyik kiterjesztést felfedezed, örülnék, ha tudnád.
Further Reading
Ez a rész további forrásokat tartalmaz a témában, ha mélyebbre szeretnél menni.
Papers
- Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms, 1998.
- Inference for the Generalization Error, 2003.
- Evaluating the Replicability of Significance Tests for Comparing Learning Algorithms, 2004.
- On estimating model accuracy with repeated cross-validation, 2012.
- Statistical Comparisons of Classifiers over Multiple Data Sets, 2006.
Books
- Chapter 5, Evaluating Hypotheses, Machine Learning, 1997.
- Chapter 5, Credibility: Evaluating What’s Been Learned, Adatbányászat: Practical Machine Learning Tools and Techniques, Third Edition, 2011.
- An Introduction to the Bootstrap, 1994.
Cikkek
- Student’s t-test a Wikipedián
- Cross-validation (statisztika) a Wikipedián
- McNemar teszt a Wikipedián
- Wilcoxon signed-rank test a Wikipedián
Discussions
- Modellkiválasztáshoz/összehasonlításhoz, milyen tesztet használjak?
- Hogyan végezzünk hipotézisvizsgálatot különböző osztályozók összehasonlítására
- Wilcoxon rangösszeg teszt módszertana
- Hogyan válasszunk t-teszt vagy nem parametrikus teszt között pl. Wilcoxon kis minták esetén
Összefoglaló
Ezzel a bemutatóval felfedezte a statisztikai hipotézisteszt kiválasztásának fontosságát és kihívását a gépi tanulási modellek összehasonlításához.
Közelebbről megtanulta:
- A statisztikai hipotézistesztek segíthetnek a gépi tanulási modellek összehasonlításában és a végleges modell kiválasztásában.
- A statisztikai hipotézistesztek naiv alkalmazása félrevezető eredményekhez vezethet.
- A statisztikai tesztek helyes alkalmazása kihívást jelent, és van némi konszenzus a McNemar-teszt vagy az 5×2 kereszt-validáció használata mellett, módosított párosított Student t-teszttel.
Kérdése van?
Tegye fel kérdéseit az alábbi megjegyzésekben, és én igyekszem válaszolni.
Kezdje meg a statisztikát a gépi tanuláshoz!
Develop a working understanding of statistics
…kódsorok írásával pythonban
Fedezd fel, hogyan az új Ebookomban:
Statisztikai módszerek a gépi tanuláshoz
Ez önképző tananyagot nyújt olyan témákban, mint:
Hypothesis Tests, Correlation, Nonparametric Stats, Resampling, and much more…
Discovery how to Transform Data into Knowledge
Spip the Academics. Just Results.
See What’s Inside