Was bedeutet unüberwachtes maschinelles Lernen?
Unüberwachte Algorithmen für maschinelles Lernen leiten Muster aus einem Datensatz ab, ohne auf bekannte oder markierte Ergebnisse Bezug zu nehmen. Im Gegensatz zum überwachten maschinellen Lernen können Methoden des unüberwachten maschinellen Lernens nicht direkt auf ein Regressions- oder Klassifizierungsproblem angewandt werden, da man keine Ahnung hat, wie die Werte für die Ausgabedaten aussehen könnten, so dass es unmöglich ist, den Algorithmus auf die übliche Weise zu trainieren. Unüberwachtes Lernen kann stattdessen verwendet werden, um die zugrundeliegende Struktur der Daten zu entdecken.
Warum ist unüberwachtes maschinelles Lernen wichtig?
Unüberwachtes maschinelles Lernen gibt vor, bisher unbekannte Muster in Daten aufzudecken, aber meistens sind diese Muster schlechte Annäherungen an das, was überwachtes maschinelles Lernen erreichen kann. Da man nicht weiß, wie die Ergebnisse aussehen sollen, kann man auch nicht feststellen, wie genau sie sind, so dass das überwachte maschinelle Lernen besser auf reale Probleme anwendbar ist.
Unüberwachtes maschinelles Lernen eignet sich am besten, wenn keine Daten über die gewünschten Ergebnisse vorliegen, z. B. bei der Bestimmung eines Zielmarktes für ein völlig neues Produkt, das Ihr Unternehmen noch nie verkauft hat. Wenn Sie jedoch versuchen, ein besseres Verständnis Ihres bestehenden Kundenstamms zu erlangen, ist überwachtes Lernen die optimale Technik.
Einige Anwendungen von nicht überwachten maschinellen Lerntechniken sind:
- Clustering ermöglicht es Ihnen, den Datensatz automatisch in Gruppen nach Ähnlichkeit aufzuteilen. Häufig überschätzt die Clusteranalyse jedoch die Ähnlichkeit zwischen den Gruppen und behandelt die Datenpunkte nicht als Individuen. Aus diesem Grund ist die Clusteranalyse für Anwendungen wie Kundensegmentierung und Targeting nicht geeignet.
- Mit der Anomalieerkennung können Sie automatisch ungewöhnliche Datenpunkte in Ihrem Datensatz entdecken. Dies ist nützlich, um betrügerische Transaktionen zu erkennen, fehlerhafte Hardware zu entdecken oder einen Ausreißer zu identifizieren, der durch einen menschlichen Fehler bei der Dateneingabe verursacht wurde.
- Association Mining identifiziert Gruppen von Elementen, die in Ihrem Datensatz häufig zusammen auftreten. Einzelhändler verwenden es häufig für Warenkorbanalysen, da es Analysten ermöglicht, Waren zu entdecken, die häufig gleichzeitig gekauft werden, und effektivere Marketing- und Merchandising-Strategien zu entwickeln.
- Latente Variablenmodelle werden häufig für die Datenvorverarbeitung verwendet, z. B. zur Reduzierung der Anzahl von Merkmalen in einem Datensatz (Dimensionalitätsreduktion) oder zur Zerlegung des Datensatzes in mehrere Komponenten.
Die Muster, die Sie mit unüberwachten maschinellen Lernmethoden aufdecken, können sich auch als nützlich erweisen, wenn Sie später überwachte maschinelle Lernmethoden einsetzen. Sie könnten zum Beispiel eine unüberwachte Technik verwenden, um eine Clusteranalyse der Daten durchzuführen, und dann den Cluster, zu dem jede Zeile gehört, als zusätzliches Merkmal im überwachten Lernmodell verwenden (siehe halbüberwachtes maschinelles Lernen). Ein weiteres Beispiel ist ein Betrugserkennungsmodell, das die Ergebnisse der Anomalieerkennung als zusätzliches Merkmal verwendet.
Unüberwachtes maschinelles Lernen + DataRobot
Die DataRobot-Plattform für automatisiertes maschinelles Lernen benötigt eine „Ziel“-Spalte, d. h. sie muss die Ausgangsvariable kennen, um Muster in Ihren Daten zu erkennen. Viele der Modellentwürfe verwenden jedoch unüberwachtes Lernen, um komplizierte Feature-Engineering-Techniken zu automatisieren, die ohne Automatisierung schwierig und zeitaufwändig zu implementieren sind.