A logisztikus regresszió az egyik leggyakrabban használt gépi tanulási algoritmus, amelyet olyan bináris változó modellezésére használnak, amely csak 2 értéket – 0 és 1 – vesz fel. A logisztikus regresszió célja egy olyan matematikai egyenlet kidolgozása, amely egy 0 és 1 közötti pontszámot tud adni. Ez a pontszám adja meg annak a valószínűségét, hogy a változó 1 értéket vesz fel.
Itt van néhány népszerűen tanulmányozott logisztikus regressziós példa:
Logisztikus regressziós példa:
A spam-felismerés egy bináris osztályozási probléma, ahol kapunk egy e-mailt, és azt kell osztályoznunk, hogy az spam-e vagy sem. Ha az e-mail spam, akkor 1-gyel jelöljük; ha nem spam, akkor 0-val jelöljük. Ahhoz, hogy a logisztikus regressziót a spam-felismerési problémára alkalmazzuk, az e-mail következő jellemzőit vonjuk ki:
- Az e-mail feladója
- A gépelési hibák száma az e-mailben
- Az olyan szavak/mondatok előfordulása, mint “ajánlat”, “díj”, “ingyenes ajándék” stb.
A kapott jellemzővektort ezután egy logisztikus osztályozó képzésére használjuk, amely egy 0 és 1 közötti pontszámot ad ki. Ha a pontszám nagyobb, mint 0,5, akkor az e-mailt spamnek címkézzük. Ellenkező esetben nem címkézzük spamnek.
Logisztikus regresszió példa: Hitelkártyacsalás
A hitelkártyacsalások felderítésének problémája jelentős jelentőséggel bír a bankszektor számára, mivel a bankok évente több százmillió dollárt költenek a csalások miatt. Amikor egy hitelkártya-tranzakció történik, a bank több tényezőt is feljegyez. Például a tranzakció dátumát, összegét, helyét, a vásárlás típusát stb. E tényezők alapján egy logisztikus regressziós modellt alakítanak ki arra vonatkozóan, hogy a tranzakció csalás-e vagy sem.
Ha például az összeg túl magas, és a bank tudja, hogy az érintett személy soha nem vásárol ilyen magas összegben, akkor csalásnak bélyegezheti a tranzakciót.
Logisztikus regressziós példa: Daganat előrejelzés
Egy logisztikus regressziós osztályozó használható annak megállapítására, hogy egy daganat rosszindulatú vagy jóindulatú. Számos orvosi képalkotó eljárást használnak a daganatok különböző jellemzőinek kinyerésére. Például a daganat mérete, az érintett testterület stb. Ezeket a jellemzőket aztán egy logisztikus regressziós osztályozóba táplálják, hogy megállapítsák, hogy a daganat rosszindulatú vagy jóindulatú-e.
Logisztikus regresszió példa: Minden nap, amikor a Facebook hírfolyamát böngészi, a háttérben futó nagy teljesítményű algoritmusok megjósolják, hogy érdekli-e Önt egy bizonyos tartalom (ami lehet például egy hirdetés). Az ilyen algoritmusok a Logisztikus regressziós algoritmusok összetett változatainak tekinthetők, ahol a megválaszolandó kérdés egyszerű – tetszeni fog-e a felhasználónak ez a bizonyos hirdetés a hírfolyamában?
Ez volt néhány példa a Logisztikus regresszióra, amelyből megismerhette a felhasználási eseteket. A gépi tanulás egy hatalmas terület, és a Logistic Regression csak egy kis része. Tanuljon tovább, és maradjon a Magoosh-on az adattudományról szóló további blogokért!