What does Unsupervised Machine Learning Mean?
Unsupervised machine learning algoritmen leiden patronen af uit een dataset zonder verwijzing naar bekende, of gelabelde, uitkomsten. In tegenstelling tot machine learning onder supervisie kunnen niet-supervised machine learning-methoden niet rechtstreeks worden toegepast op een regressie- of classificatieprobleem, omdat je geen idee hebt wat de waarden voor de outputgegevens kunnen zijn, waardoor je het algoritme niet kunt trainen zoals je dat normaal zou doen. Unsupervised learning kan in plaats daarvan worden gebruikt om de onderliggende structuur van de gegevens te ontdekken.
Waarom is Unsupervised Machine Learning belangrijk?
Unsupervised machine learning pretendeert voorheen onbekende patronen in gegevens bloot te leggen, maar meestal zijn deze patronen slechte benaderingen van wat supervised machine learning kan bereiken. Bovendien, omdat u niet weet wat de uitkomsten zouden moeten zijn, is er geen manier om te bepalen hoe nauwkeurig ze zijn, waardoor supervised machine learning beter toepasbaar is op problemen in de echte wereld.
Het beste moment om unsupervised machine learning te gebruiken is wanneer u geen gegevens hebt over gewenste uitkomsten, zoals het bepalen van een doelmarkt voor een geheel nieuw product dat uw bedrijf nog nooit eerder heeft verkocht. Als u echter een beter inzicht probeert te krijgen in uw bestaande consumentenbestand, is supervised learning de optimale techniek.
Enkele toepassingen van unsupervised machine learning-technieken zijn:
- Clustering stelt u in staat de dataset automatisch in groepen te verdelen op basis van gelijkenis. Vaak overschat clusteranalyse echter de gelijkenis tussen groepen en behandelt datapunten niet als individuen. Daarom is clusteranalyse een slechte keuze voor toepassingen als klantsegmentatie en targeting.
- Anomaliedetectie kan automatisch ongebruikelijke gegevenspunten in uw dataset ontdekken. Dit is nuttig bij het lokaliseren van frauduleuze transacties, het ontdekken van defecte hardware, of het identificeren van een uitschieter veroorzaakt door een menselijke fout bij het invoeren van gegevens.
- Associatie mining identificeert sets van items die vaak samen voorkomen in uw dataset. Detailhandelaren gebruiken het vaak voor mandjesanalyse, omdat analisten hiermee goederen kunnen ontdekken die vaak tegelijkertijd worden gekocht en effectievere marketing- en merchandisingstrategieën kunnen ontwikkelen.
- Latente-variabelenmodellen worden vaak gebruikt voor data preprocessing, zoals het verminderen van het aantal kenmerken in een dataset (dimensiereductie) of het ontleden van de dataset in meerdere componenten.
De patronen die u blootlegt met machine-leermethoden zonder toezicht kunnen later ook van pas komen bij het implementeren van machine-leermethoden met toezicht. U kunt bijvoorbeeld een techniek zonder toezicht gebruiken om een clusteranalyse op de gegevens uit te voeren, en vervolgens het cluster waartoe elke rij behoort, gebruiken als een extra kenmerk in het model voor gesuperviseerd leren (zie semi-gesuperviseerd machinaal leren). Een ander voorbeeld is een fraudedetectiemodel dat anomaliedetectiescores als extra kenmerk gebruikt.
Unsupervised Machine Learning + DataRobot
Het DataRobot-platform voor geautomatiseerd machinaal leren vereist een “doel”-kolom – dat wil zeggen, het moet de uitvoervariabele kennen om patronen in uw gegevens bloot te leggen. Veel van de modelblauwdrukken maken echter gebruik van leren zonder toezicht om gecompliceerde technieken voor feature engineering te automatiseren, wat moeilijk en tijdrovend is om zonder automatisering uit te voeren.