An in-depth guide to supervised machine learning classification

Machine learning is the science (and art) of programming computers so they can learn from data.

field of study that gives computers the ability to learn without being explicitly programmed. – Arthur Samuel, 1959

Eine bessere Definition:

Ein Computerprogramm lernt aus Erfahrung E in Bezug auf eine Aufgabe T und ein Leistungsmaß P, wenn sich seine Leistung bei T, gemessen an P, mit der Erfahrung E verbessert. – Tom Mitchell, 1997

Zum Beispiel ist Ihr Spam-Filter ein maschinelles Lernprogramm, das lernen kann, Spam zu kennzeichnen, nachdem ihm Beispiele von Spam-E-Mails, die von Benutzern gekennzeichnet wurden, und Beispiele von normalen Nicht-Spam-E-Mails (auch „Schinken“ genannt) vorgelegt wurden. Die Beispiele, aus denen das System lernt, werden als Trainingsmenge bezeichnet. In diesem Fall besteht die Aufgabe (T) darin, neue E-Mails als Spam zu kennzeichnen, die Erfahrung (E) sind die Trainingsdaten, und das Leistungsmaß (P) muss definiert werden. Dieses besondere Leistungsmaß wird als Genauigkeit bezeichnet und häufig bei Klassifizierungsaufgaben verwendet, da es sich um einen überwachten Lernansatz handelt.

Tiefer eintauchenEine Einführung in das maschinelle Lernen für Anfänger

Überwachtes Lernen

Beim überwachten Lernen lernen die Algorithmen von markierten Daten. Nachdem der Algorithmus die Daten verstanden hat, bestimmt er, welche Bezeichnung den neuen Daten gegeben werden sollte, indem er den neuen, nicht bezeichneten Daten Muster zuordnet.

Überwachtes Lernen kann in zwei Kategorien unterteilt werden: Klassifizierung und Regression.

Die Klassifizierung sagt die Kategorie voraus, zu der die Daten gehören.

Zu den Beispielen für die Klassifizierung gehören die Erkennung von Spam, die Vorhersage von Abwanderung, die Stimmungsanalyse, die Erkennung von Hunderassen und so weiter.

Die Regression sagt einen numerischen Wert auf der Grundlage zuvor beobachteter Daten voraus.

Zu den Beispielen für die Regression gehören die Vorhersage von Hauspreisen, Aktienkursen, Größe und Gewicht usw.

Tiefer eintauchenEin Überblick über die 10 besten Algorithmen für Neulinge im maschinellen Lernen

Klassifizierung

Die Klassifizierung ist eine Technik zur Bestimmung der Klasse, zu der die abhängigen Daten gehören, anhand einer oder mehrerer unabhängiger Variablen.

Die Klassifizierung wird zur Vorhersage diskreter Antworten verwendet.

Überwachtes maschinelles Lernen

Logistische Regression

Die logistische Regression ist ähnlich wie die lineare Regression, wird aber verwendet, wenn die abhängige Variable keine Zahl, sondern etwas anderes ist (z.B., eine „Ja/Nein“-Antwort). Sie heißt Regression, führt aber eine Klassifizierung auf der Grundlage der Regression durch und klassifiziert die abhängige Variable in eine der beiden Klassen.

Überwachtes maschinelles Lernen - logistische Regression

Die logistische Regression wird für die Vorhersage von Ausgaben verwendet, die, wie oben erwähnt, binär sind. Wenn beispielsweise ein Kreditkartenunternehmen ein Modell erstellt, um zu entscheiden, ob es einem Kunden eine Kreditkarte ausstellt oder nicht, wird es modellieren, ob der Kunde mit seiner Karte „in Verzug“ oder „nicht in Verzug“ geraten wird.

Überwachtes maschinelles Lernen - lineare Regression — Lineare Regression

Zunächst wird eine lineare Regression für die Beziehung zwischen Variablen durchgeführt, um das Modell zu erhalten. Der Schwellenwert für die Klassifizierungslinie wird mit 0,5 angenommen.

Überwachte Maschine Logistische Sigmoidfunktion — Logistische Sigmoidfunktion

Überwachtes maschinelles Lernen log — Logistische Sigmoidfunktion

K-Nächste Nachbarn (K-NN)

Der K-NN-Algorithmus ist einer der einfachsten Klassifizierungsalgorithmen und wird verwendet, um die Datenpunkte zu identifizieren, die in mehrere Klassen unterteilt sind, um die Klassifizierung eines neuen Probenpunkts vorherzusagen. K-NN ist ein nichtparametrischer, träger Lernalgorithmus. Er klassifiziert neue Fälle auf der Grundlage eines Ähnlichkeitsmaßes (d. h., Distanzfunktionen).

Überwachtes maschinelles Lernen Klassifizierung knn 1

K-NN funktioniert gut mit einer kleinen Anzahl von Eingabevariablen (p), hat aber Schwierigkeiten, wenn die Anzahl der Eingaben sehr groß ist.

Support Vector Machine (SVM)

Support Vector wird sowohl für Regression als auch für Klassifizierung verwendet. Sie basiert auf dem Konzept der Entscheidungsebenen, die Entscheidungsgrenzen festlegen. Eine Entscheidungsebene (Hyperebene) ist eine Ebene, die eine Menge von Objekten mit unterschiedlichen Klassenzugehörigkeiten voneinander trennt.

Überwachtes maschinelles Lernen - Support Vectors

Es führt eine Klassifizierung durch, indem es die Hyperebene findet, die die Spanne zwischen den beiden Klassen mit Hilfe von Support Vectors maximiert.

Überwachtes maschinelles Lernen Klassifizierung svc

Das Lernen der Hyperebene in SVM erfolgt durch Transformation des Problems mit Hilfe von linearer Algebra (d.h., das obige Beispiel ist ein linearer Kernel, der eine lineare Trennbarkeit zwischen den einzelnen Variablen aufweist).

Für höherdimensionale Daten werden andere Kernel als Punkte verwendet und können nicht einfach klassifiziert werden. Sie werden im nächsten Abschnitt spezifiziert.

Kernel SVM

Kernel SVM nimmt eine Kernel-Funktion in den SVM-Algorithmus auf und transformiert sie in die erforderliche Form, die Daten auf eine höhere Dimension abbildet, die separierbar ist.

Typen von Kernel-Funktionen sind:

Überwachtes maschinelles Lernen Klassifizierung Kernel-Funktions-Typen — Typ von Kernel-Funktionen

Lineare SVM ist die, die wir bereits besprochen haben.
In Polynom-Kernel, sollte der Grad des Polynoms angegeben werden. Er ermöglicht gekrümmte Linien im Eingaberaum.
Der RBF-Kernel (Radial Basis Function) wird für nichtlinear trennbare Variablen verwendet. Als Abstand wird der metrische quadrierte euklidische Abstand verwendet. Die Verwendung eines typischen Wertes für den Parameter kann zu einer Überanpassung unserer Daten führen. Er wird standardmäßig in sklearn verwendet.
Sigmoid-Kernel, ähnlich der logistischen Regression, wird für die binäre Klassifizierung verwendet.

Überwachtes maschinelles Lernen Klassifizierung Kernel-Trick

Radial Basis Function (RBF) Kernel

Der RBF-Kernel SVM Entscheidungsbereich ist eigentlich auch ein linearer Entscheidungsbereich. Die RBF-Kernel-SVM erzeugt nichtlineare Merkmalskombinationen, um die Proben in einen höherdimensionalen Merkmalsraum zu heben, in dem eine lineare Entscheidungsgrenze zur Klassentrennung verwendet werden kann.

Überwachtes maschinelles Lernen Klassifizierung Radialbasisfunktion

Die Faustregel lautet also: Verwenden Sie lineare SVMs für lineare Probleme und nichtlineare Kernel wie den RBF-Kernel für nichtlineare Probleme.

Naive Bayes

Der naive Bayes-Klassifikator basiert auf dem Bayes-Theorem mit den Unabhängigkeitsannahmen zwischen Prädiktoren (d.h., er geht davon aus, dass das Vorhandensein eines Merkmals in einer Klasse unabhängig von einem anderen Merkmal ist). Selbst wenn diese Merkmale voneinander oder vom Vorhandensein der anderen Merkmale abhängen, sind alle diese Eigenschaften unabhängig. Daher der Name Naive Bayes.

Überwachtes maschinelles Lernen Klassifizierung Bayes-Theorem

Auf der Grundlage von Naive Bayes wird Gaussian Naive Bayes für die Klassifizierung auf der Grundlage der Binomialverteilung (Normalverteilung) von Daten verwendet.

Überwachtes maschinelles Lernen Klassifizierung Gaussian Naive Bayes

P(Klasse|Daten) ist die posteriore Wahrscheinlichkeit der Klasse (Ziel) bei gegebenem Prädiktor (Attribut). Die Wahrscheinlichkeit, dass ein Datenpunkt einer der beiden Klassen angehört, wenn der Datenpunkt gegeben ist. Dies ist der Wert, den wir berechnen wollen.
P(class) ist die vorherige Wahrscheinlichkeit der Klasse.
P(data|class) ist die Wahrscheinlichkeit, also die Wahrscheinlichkeit des Prädiktors bei gegebener Klasse.
P(Daten) ist die Vorwahrscheinlichkeit des Prädiktors oder die marginale Wahrscheinlichkeit.

Überwachtes maschinelles Lernen Klassifizierung nb

1. Berechnen der Prioritätswahrscheinlichkeit

P(Klasse) = Anzahl der Datenpunkte in der Klasse/Gesamtanzahl der Beobachtungen

P(gelb) = 10/17

P(grün) = 7/17

2. Berechne die marginale Wahrscheinlichkeit

P(Daten) = Anzahl der Datenpunkte, die der Beobachtung ähnlich sind/Gesamtzahl der Beobachtungen

P(?) = 4/17

Der Wert ist bei der Überprüfung beider Wahrscheinlichkeiten vorhanden.

3. berechne die Wahrscheinlichkeit

P(Daten/Klasse) = Anzahl der ähnlichen Beobachtungen in der Klasse/Gesamtanzahl der Punkte in der Klasse.

P(?/gelb) = 1/7

P(?/grün) = 3/10

4. Posteriorwahrscheinlichkeit für jede Klasse

Überwachtes maschinelles Lernen Klassifizierung Posteriorwahrscheinlichkeit

5. Klassifizierung

Überwachtes maschinelles Lernen Klassifizierung

Multinomial, Bernoulli naive Bayes sind die anderen Modelle, die zur Berechnung der Wahrscheinlichkeiten verwendet werden. Ein naives Bayes-Modell ist einfach zu erstellen, ohne komplizierte iterative Parameterschätzung, was es besonders für sehr große Datensätze nützlich macht.

Entscheidungsbaum-Klassifikation

Der Entscheidungsbaum erstellt Klassifikations- oder Regressionsmodelle in Form einer Baumstruktur. Dabei wird ein Datensatz in immer kleinere Teilmengen zerlegt, während gleichzeitig ein zugehöriger Entscheidungsbaum schrittweise entwickelt wird. Das Endergebnis ist ein Baum mit Entscheidungsknoten und Blattknoten. Es folgt der Struktur des Iterative Dichotomiser 3(ID3)-Algorithmus zur Bestimmung der Aufteilung.

Überwachte Klassifizierungsentscheidungsbäume des maschinellen Lernens

Entropie und Informationsgewinn werden zur Konstruktion eines Entscheidungsbaums verwendet.

Entropie

Entropie ist der Grad oder die Menge der Unsicherheit in der Zufälligkeit von Elementen. Mit anderen Worten, sie ist ein Maß für die Unreinheit.

Überwachtes maschinelles Lernen Klassifikationsentropie

Intuitiv sagt sie uns etwas über die Vorhersagbarkeit eines bestimmten Ereignisses. Die Entropie berechnet die Homogenität einer Stichprobe. Wenn die Stichprobe völlig homogen ist, ist die Entropie gleich Null, und wenn die Stichprobe gleichmäßig verteilt ist, hat sie eine Entropie von Eins.

Informationsgewinn

Der Informationsgewinn misst die relative Veränderung der Entropie in Bezug auf das unabhängige Attribut. Er versucht, die in jedem Attribut enthaltene Information zu schätzen. Bei der Konstruktion eines Entscheidungsbaums geht es darum, das Attribut zu finden, das den höchsten Informationsgewinn liefert (d.h.,

Überwachtes maschinelles Lernen Klassifizierung Informationsgewinn

Wobei Gain(T, X) der Informationsgewinn durch Anwendung des Merkmals X ist. Entropie(T) ist die Entropie des gesamten Satzes, während der zweite Term die Entropie nach Anwendung des Merkmals X berechnet.

Informationsgewinn ordnet Attribute für die Filterung an einem bestimmten Knoten im Baum. Die Rangfolge basiert auf der höchsten Informationsgewinn-Entropie in jedem Split.

Der Nachteil eines Entscheidungsbaummodells ist die Überanpassung, da es versucht, das Modell anzupassen, indem es tiefer in den Trainingssatz eindringt und dadurch die Testgenauigkeit verringert.

Überwachtes maschinelles Lernen, Klassifizierung, Overfitting

Overfitting bei Entscheidungsbäumen kann durch Beschneiden von Knoten minimiert werden.

Ensemble-Methoden für die Klassifizierung

Ein Ensemble-Modell ist ein Team von Modellen. Technisch gesehen bestehen Ensemble-Modelle aus mehreren überwachten Lernmodellen, die einzeln trainiert werden und deren Ergebnisse auf verschiedene Weise zusammengeführt werden, um die endgültige Vorhersage zu erreichen. Dieses Ergebnis hat eine höhere Vorhersagekraft als die Ergebnisse jedes einzelnen Lernalgorithmus.

Ensemble-Methoden des überwachten maschinellen Lernens

Random-Forest-Klassifikation

Der Random-Forest-Klassifikator ist ein Ensemble-Algorithmus, der auf Bagging, d.h. Bootstrap-Aggregation, basiert. Ensemble-Methoden kombinieren mehr als einen Algorithmus der gleichen oder einer anderen Art zur Klassifizierung von Objekten (z.B.,

Überwachtes maschinelles Lernen Klassifizierung Bagging

Die allgemeine Idee ist, dass eine Kombination von Lernmodellen das ausgewählte Gesamtergebnis erhöht.

Überwachtes maschinelles Lernen Klassifizierung Random Forrest

Tiefe Entscheidungsbäume können unter Überanpassung leiden, aber Random Forests verhindern eine Überanpassung, indem sie Bäume auf zufälligen Teilmengen erstellen. Der Hauptgrund dafür ist, dass der Durchschnitt aller Vorhersagen genommen wird, was die Verzerrungen ausgleicht.

Random Forest fügt dem Modell zusätzliche Zufälligkeit hinzu, während die Bäume wachsen. Anstatt bei der Aufteilung eines Knotens nach dem wichtigsten Merkmal zu suchen, wird das beste Merkmal aus einer zufälligen Teilmenge von Merkmalen gesucht. Dies führt zu einer großen Vielfalt, die im Allgemeinen zu einem besseren Modell führt.

Gradient Boosting Classification

Gradient Boosting Classifier ist eine Boosting-Ensemblemethode. Boosting ist eine Möglichkeit, schwache Lerner zu kombinieren (Ensemble), in erster Linie um Vorhersageverzerrungen zu reduzieren. Anstatt einen Pool von Prädiktoren zu erstellen, wie beim Bagging, wird beim Boosting eine Kaskade von Prädiktoren erzeugt, wobei jede Ausgabe die Eingabe für den folgenden Lerner ist. Bei einem Bagging-Algorithmus werden in der Regel Bäume parallel gezüchtet, um die durchschnittliche Vorhersage für alle Bäume zu erhalten, wobei jeder Baum auf einer Stichprobe von Originaldaten basiert. Beim Gradient Boosting hingegen wird ein sequenzieller Ansatz zur Gewinnung von Vorhersagen verfolgt, anstatt den Baumbildungsprozess zu parallelisieren. Beim Gradient Boosting sagt jeder Entscheidungsbaum den Fehler des vorhergehenden Entscheidungsbaums voraus – dadurch wird der Fehler (Gradient) verstärkt (verbessert).

Überwachtes maschinelles Lernen Klassifikations-Boosting

Arbeitsweise des Gradient Boosting

Initialisieren Sie die Vorhersagen mit einem einfachen Entscheidungsbaum.
Berechnen Sie den Restwert (tatsächliche Vorhersage).
Erstellen Sie einen weiteren flachen Entscheidungsbaum, der den Restwert auf der Grundlage aller unabhängigen Werte vorhersagt.
Aktualisieren Sie die ursprüngliche Vorhersage mit der neuen Vorhersage multipliziert mit der Lernrate.
Wiederholen Sie die Schritte zwei bis vier für eine bestimmte Anzahl von Iterationen (die Anzahl der Iterationen entspricht der Anzahl der Bäume).

Überwachtes maschinelles Lernen Klassifizierung rf gb

Leistungen von Klassifizierungsmodellen

Konfusionsmatrix

Eine Konfusionsmatrix ist eine Tabelle, die häufig verwendet wird, um die Leistung eines Klassifizierungsmodells bei einem Satz von Testdaten zu beschreiben, für die die wahren Werte bekannt sind. Es handelt sich um eine Tabelle mit vier verschiedenen Kombinationen von vorhergesagten und tatsächlichen Werten im Falle eines binären Klassifizierers.

Überwachtes maschinelles Lernen Klassifizierung Mehrklassenmatrix

Die Konfusionsmatrix für ein Mehrklassen-Klassifizierungsproblem kann Ihnen helfen, Fehlermuster zu bestimmen.

Für einen binären Klassifizierer:

Überwachtes maschinelles Lernen Klassifizierung binäre Konfusionsmatrix

Ein wahres Positiv ist ein Ergebnis, bei dem das Modell die positive Klasse korrekt vorhersagt. Entsprechend ist ein wahres Negativ ein Ergebnis, bei dem das Modell die negative Klasse korrekt vorhersagt.

Falsch Positiv & Falsch Negativ

Die Begriffe Falsch Positiv und Falsch Negativ werden verwendet, um zu bestimmen, wie gut das Modell in Bezug auf die Klassifizierung vorhersagt. Ein falsches Positiv ist ein Ergebnis, bei dem das Modell fälschlicherweise die positive Klasse vorhersagt. Ein falsches negatives Ergebnis ist ein Ergebnis, bei dem das Modell die negative Klasse falsch vorhersagt. Je mehr Werte in der Hauptdiagonale, desto besser das Modell, während die andere Diagonale das schlechteste Ergebnis für die Klassifizierung liefert.

Falsch positiv

Ein Beispiel, bei dem das Modell fälschlicherweise die positive Klasse vorhergesagt hat. So hat das Modell z. B. aus einer bestimmten E-Mail-Nachricht gefolgert, dass es sich um Spam handelt (die positive Klasse), aber diese E-Mail-Nachricht war tatsächlich kein Spam. Es ist wie ein Warnzeichen, dass der Fehler korrigiert werden sollte, da er im Vergleich zu falsch-negativen Fehlern kein großes Problem darstellt.

Falsch-positiv (Typ-I-Fehler) – wenn eine wahre Nullhypothese zurückgewiesen wird

Überwachte maschinelle Lernklassifikation falsch-positiv

Falsch-negativ

Ein Beispiel, bei dem das Modell fälschlicherweise die negative Klasse vorhergesagt hat. Das Modell hat zum Beispiel gefolgert, dass eine bestimmte E-Mail-Nachricht kein Spam ist (die negative Klasse), aber diese E-Mail-Nachricht war tatsächlich Spam. Das ist wie ein Gefahrenzeichen, dass der Fehler frühzeitig korrigiert werden sollte, da er schwerwiegender ist als ein falsches Positiv.

Falsches Negativ (Fehler vom Typ II) – wenn man eine falsche Nullhypothese annimmt.

Überwachte maschinelle Lernklassifikation falsch negativ

Dieses Bild veranschaulicht die obigen Metriken ganz einfach. Die Testergebnisse des Mannes sind ein falsches Positiv, da ein Mann nicht schwanger sein kann. Die Testergebnisse der Frau sind falsch-negativ, da sie eindeutig schwanger ist.

Aus der Konfusionsmatrix lassen sich Genauigkeit, Präzision, Wiedererkennung und F-1-Score ableiten.

Genauigkeit

Genauigkeit ist der Anteil der Vorhersagen, bei denen unser Modell richtig lag.

Klassifizierungsgenauigkeit bei überwachtem maschinellem Lernen

Die Genauigkeit kann auch geschrieben werden als

$Klassifizierungsgenauigkeit bei überwachtem maschinellem Lernen math$

Die Genauigkeit allein ist nicht aussagekräftig, wenn man mit einem klassenungleichen Datensatz arbeitet, bei dem ein erhebliches Ungleichgewicht zwischen der Anzahl positiver und negativer Kennzeichnungen besteht. Präzision und Rückruf sind bessere Metriken für die Bewertung klassenungleicher Probleme.

Präzision

Die Präzision gibt an, wie viel von allen Klassen wir richtig vorhergesagt haben.

Überwachtes maschinelles Lernen Klassifizierung Präzision

Die Präzision sollte so hoch wie möglich sein.

Rückruf

Der Rückruf gibt an, wie viel von allen positiven Klassen wir richtig vorhergesagt haben. Sie wird auch als Sensitivität oder True-Positive-Rate (TPR) bezeichnet.

Überwachtes maschinelles Lernen Klassifizierung Recall

Recall sollte so hoch wie möglich sein.

F-1 Score

Es ist oft praktisch, Präzision und Recall in einer einzigen Metrik, dem F-1 Score, zu kombinieren, insbesondere wenn man eine einfache Möglichkeit zum Vergleich zweier Klassifikatoren benötigt. Der F-1-Score ist der harmonische Mittelwert von Präzision und Recall.

Überwachtes maschinelles Lernen Klassifizierung f1-Score

Der reguläre Mittelwert behandelt alle Werte gleich, während der harmonische Mittelwert niedrige Werte viel stärker gewichtet und damit die Extremwerte stärker bestraft. Infolgedessen erhält der Klassifikator nur dann einen hohen F-1-Score, wenn sowohl Recall als auch Precision hoch sind.

Receiver Operator Curve (ROC) & Area Under the Curve (AUC)

Die ROC-Kurve ist eine wichtige Klassifizierungsbewertungsmetrik. Sie gibt Aufschluss darüber, wie gut das Modell Vorhersagen getroffen hat. Die ROC-Kurve zeigt die Sensitivität des Klassifizierers, indem sie die Rate der richtig positiven Ergebnisse mit der Rate der falsch positiven Ergebnisse vergleicht. Wenn der Klassifikator hervorragend ist, steigt die Rate der echten Positiven, und die Fläche unter der Kurve liegt nahe bei eins. Wenn der Klassifikator dem zufälligen Raten ähnelt, steigt die Rate der richtigen positiven Ergebnisse linear mit der Rate der falschen positiven Ergebnisse. Je besser das AUC-Maß, desto besser das Modell.

Überwachtes maschinelles Lernen Klassifizierung roc

Kumulative Accuracy Profile Curve

Die CAP eines Modells stellt die kumulative Anzahl positiver Ergebnisse auf der y-Achse im Vergleich zur entsprechenden kumulativen Anzahl der klassifizierenden Parameter auf der x-Achse dar. Die CAP unterscheidet sich von der Receiver-Operating-Characteristic (ROC), die die Rate der wahr-positiven Ergebnisse gegen die Rate der falsch-positiven Ergebnisse aufträgt. Die CAP-Kurve wird im Vergleich zur ROC-Kurve seltener verwendet.

Überwachtes maschinelles Lernen Klassifizierung Cap-Kurve

Betrachten wir ein Modell, das vorhersagt, ob ein Kunde ein Produkt kaufen wird. Wenn ein Kunde zufällig ausgewählt wird, besteht eine 50%ige Chance, dass er das Produkt kauft. Die kumulative Anzahl der Elemente, für die der Kunde kauft, würde linear auf einen Maximalwert ansteigen, der der Gesamtzahl der Kunden entspricht. Diese Verteilung wird als „zufällige“ GAP bezeichnet. Sie ist die blaue Linie im obigen Diagramm. Bei einer perfekten Vorhersage hingegen wird genau bestimmt, welcher Kunde das Produkt kaufen wird, so dass das Maximum an Kunden, die die Eigenschaft kaufen, mit einer minimalen Anzahl von Kunden erreicht wird, die unter den Elementen ausgewählt werden. Daraus ergibt sich eine steile Linie auf der GAP-Kurve, die nach Erreichen des Maximums flach bleibt, das ist die „perfekte“ GAP. Sie wird auch als „ideale“ Linie bezeichnet und ist die graue Linie in der obigen Abbildung.

Endlich sollte ein Modell dort vorhersagen, wo es die korrekten Vorhersagen maximiert und sich einer perfekten Modelllinie annähert.