Co znamená neovládané strojové učení?
Algoritmy neovládaného strojového učení odvozují vzory ze souboru dat bez odkazu na známé nebo označené výsledky. Na rozdíl od strojového učení pod dohledem nelze metody strojového učení bez dohledu přímo použít na regresní nebo klasifikační problém, protože netušíte, jaké mohou být hodnoty výstupních dat, což vám znemožňuje trénovat algoritmus běžným způsobem. Místo toho lze neřízené učení použít k odhalení základní struktury dat.
Proč je neřízené strojové učení důležité?
Neřízené strojové učení má za cíl odhalit dosud neznámé vzory v datech, ale většinou jsou tyto vzory špatnou aproximací toho, čeho lze dosáhnout pomocí řízeného strojového učení. Navíc, protože nevíte, jaké by měly být výsledky, neexistuje způsob, jak určit, jak jsou přesné, což činí strojové učení pod dohledem použitelnějším pro reálné problémy.
Nejvhodnější doba pro použití strojového učení bez dohledu je, když nemáte k dispozici data o požadovaných výsledcích, například při určování cílového trhu pro zcela nový produkt, který vaše firma nikdy předtím neprodávala. Pokud se však snažíte lépe porozumět stávající spotřebitelské základně, je optimální technikou učení pod dohledem.
Mezi některé aplikace technik strojového učení bez dohledu patří:
- Shlukování umožňuje automaticky rozdělit soubor dat do skupin podle podobnosti. Shluková analýza však často přeceňuje podobnost mezi skupinami a nezachází s datovými body jako s jednotlivci. Z tohoto důvodu je shluková analýza špatnou volbou pro aplikace, jako je segmentace a cílení na zákazníky.
- Detekce anomálií může automaticky odhalit neobvyklé datové body v datové sadě. To je užitečné pro přesné určení podvodných transakcí, odhalení vadných kusů hardwaru nebo identifikaci odlehlých hodnot způsobených lidskou chybou při zadávání dat.
- Vyhledávání asociací identifikuje sady položek, které se v souboru dat často vyskytují společně. Maloobchodníci ji často používají pro analýzu spotřebního koše, protože umožňuje analytikům odhalit zboží, které se často nakupuje současně, a vyvinout efektivnější marketingové a merchandisingové strategie.
- Modely latentních proměnných se běžně používají pro předzpracování dat, například pro snížení počtu rysů v datové sadě (redukce dimenzionality) nebo rozklad datové sady na více komponent.
Vzorce, které odhalíte pomocí metod strojového učení bez dohledu, se mohou později hodit i při implementaci metod strojového učení s dohledem. Například můžete pomocí neřízené techniky provést shlukovou analýzu dat a poté použít shluk, do kterého patří každý řádek, jako další příznak v modelu řízeného učení (viz částečně řízené strojové učení). Dalším příkladem je model pro detekci podvodů, který používá skóre detekce anomálií jako dodatečný rys.
Neřízené strojové učení + DataRobot
Platforma automatizovaného strojového učení DataRobot vyžaduje „cílový“ sloupec – to znamená, že potřebuje znát výstupní proměnnou, aby mohla odhalit vzory ve vašich datech. Mnoho jejích modelových plánů však využívá učení bez dohledu k automatizaci složitých technik inženýrství příznaků, které je obtížné a časově náročné implementovat bez automatizace.
.