Hvad betyder Unsupervised Machine Learning?
Usupervised Machine Learning-algoritmer udleder mønstre fra et datasæt uden henvisning til kendte eller mærkede resultater. I modsætning til overvåget maskinlæring kan uovervågede maskinlæringsmetoder ikke anvendes direkte på et regressions- eller klassifikationsproblem, fordi du ikke har nogen idé om, hvad værdierne for uddataene kan være, hvilket gør det umuligt for dig at træne algoritmen på den måde, som du normalt ville gøre det. Uovervåget læring kan i stedet bruges til at opdage den underliggende struktur i dataene.
Hvorfor er uovervåget maskinlæring vigtig?
Uovervåget maskinlæring foregiver at afdække tidligere ukendte mønstre i data, men for det meste er disse mønstre dårlige tilnærmelser af, hvad overvåget maskinlæring kan opnå. Da du desuden ikke ved, hvad resultaterne skal være, er der ingen måde at afgøre, hvor nøjagtige de er, hvilket gør overvåget maskinlæring mere anvendelig til problemer i den virkelige verden.
Det bedste tidspunkt at bruge uovervåget maskinlæring er, når du ikke har data om de ønskede resultater, f.eks. når du skal bestemme et målmarked for et helt nyt produkt, som din virksomhed aldrig har solgt før. Hvis du derimod forsøger at få en bedre forståelse af dit eksisterende forbrugergrundlag, er overvåget læring den optimale teknik.
Nogle anvendelser af uovervågede maskinlæringsteknikker omfatter:
- Clustering giver dig mulighed for automatisk at opdele datasættet i grupper efter lighed. Ofte overvurderer klyngeanalysen imidlertid ligheden mellem grupperne og behandler ikke datapunkter som individer. Af denne grund er klyngeanalyse et dårligt valg til applikationer som kundesegmentering og målretning.
- Anomaliedetektion kan automatisk opdage usædvanlige datapunkter i dit datasæt. Dette er nyttigt til at udpege svigagtige transaktioner, opdage defekte stykker hardware eller identificere en outlier forårsaget af en menneskelig fejl under indtastning af data.
- Association mining identificerer sæt af elementer, der ofte forekommer sammen i dit datasæt. Detailhandlere bruger det ofte til kurvanalyse, fordi det giver analytikere mulighed for at opdage varer, der ofte købes samtidig, og udvikle mere effektive markedsførings- og merchandisingstrategier.
- Latente variabelmodeller bruges ofte til forbehandling af data, f.eks. til at reducere antallet af funktioner i et datasæt (dimensionalitetsreduktion) eller dekomponere datasættet i flere komponenter.
De mønstre, du afdækker med uovervågede maskinlæringsmetoder, kan også være nyttige, når du senere implementerer overvågede maskinlæringsmetoder. Du kan f.eks. bruge en uovervåget teknik til at udføre klyngeanalyse på dataene og derefter bruge den klynge, som hver række tilhører, som en ekstra funktion i den overvågede læringsmodel (se semiovervåget maskinlæring). Et andet eksempel er en model til afsløring af svindel, der bruger scorer for anomaliedetektion som en ekstra funktion.
Usupervised Machine Learning + DataRobot
DataRobot-platformen til automatiseret maskinlæring kræver en “mål”-kolonne – dvs. den skal kende outputvariablen for at kunne afdække mønstre i dine data. Mange af dens modelblåtryk anvender imidlertid uovervåget læring til at automatisere komplicerede feature engineering-teknikker, som er vanskelige og tidskrævende at implementere uden automatisering.