Classification par apprentissage automatique supervisé : Un guide approfondi

L’apprentissage automatique est la science (et l’art) de programmer des ordinateurs pour qu’ils puissent apprendre à partir de données.

domaine d’étude qui donne aux ordinateurs la capacité d’apprendre sans être explicitement programmés. – Arthur Samuel, 1959

Une meilleure définition:

On dit qu’un programme informatique apprend de l’expérience E en ce qui concerne une certaine tâche T et une certaine mesure de performance P, si sa performance sur T, telle que mesurée par P, s’améliore avec l’expérience E. – Tom Mitchell, 1997

Par exemple, votre filtre anti-spam est un programme d’apprentissage automatique qui peut apprendre à signaler les spams après avoir reçu des exemples d’emails de spam qui sont signalés par les utilisateurs, et des exemples d’emails réguliers non spam (également appelés « ham »). Les exemples utilisés par le système pour apprendre sont appelés l’ensemble d’apprentissage. Dans ce cas, la tâche (T) est de signaler les spams pour les nouveaux e-mails, l’expérience (E) est les données d’apprentissage et la mesure de performance (P) doit être définie. Par exemple, vous pouvez utiliser le ratio d’emails correctement classés comme P. Cette mesure de performance particulière est appelée précision et elle est souvent utilisée dans les tâches de classification car il s’agit d’une approche d’apprentissage supervisé.

Dive DeeperAn Introduction to Machine Learning for Beginners

Supervised Learning

Dans l’apprentissage supervisé, les algorithmes apprennent à partir de données étiquetées. Après avoir compris les données, l’algorithme détermine quelle étiquette doit être donnée aux nouvelles données en associant des modèles aux nouvelles données non étiquetées.

L’apprentissage supervisé peut être divisé en deux catégories : la classification et la régression.

La classification prédit la catégorie à laquelle les données appartiennent.

Certains exemples de classification incluent la détection du spam, la prédiction du churn, l’analyse des sentiments, la détection des races de chiens, etc.

La régression prédit une valeur numérique sur la base de données observées précédemment.

Certains exemples de régression incluent la prédiction du prix des maisons, la prédiction du prix des actions, la prédiction de la taille et du poids, etc.

Dive DeeperA Tour of the Top 10 Algorithms for Machine Learning Newbies

Classification

La classification est une technique pour déterminer à quelle classe appartient le dépendant sur la base d’une ou plusieurs variables indépendantes.

La classification est utilisée pour prédire des réponses discrètes.

Illustration de l'apprentissage automatique supervisé

Régression logistique

La régression logistique est un peu comme la régression linéaire, mais elle est utilisée lorsque la variable dépendante n’est pas un nombre mais autre chose (par ex, une réponse « oui/non »). Elle est appelée régression mais effectue une classification basée sur la régression et elle classe la variable dépendante dans l’une ou l’autre des classes.

supervised machine learning logistic regression

La régression logistique est utilisée pour la prédiction de sortie qui est binaire, comme indiqué ci-dessus. Par exemple, si une société de cartes de crédit construit un modèle pour décider d’émettre ou non une carte de crédit à un client, elle modélisera pour savoir si le client va « faire défaut » ou « ne pas faire défaut » sur sa carte.

supervised machine learning linear regression — Linear Regression

D’abord, une régression linéaire est effectuée sur la relation entre les variables pour obtenir le modèle. Le seuil de la ligne de classification est supposé être à 0,5.

machine supervisée fonction sigmoïde logistique — Fonction sigmoïde logistique

l'apprentissage automatique supervisé log — Fonction sigmoïde logistique

K-Nearest Neighbors (K-NN)

L’algorithme K-NN est l’un des algorithmes de classification les plus simples et il est utilisé pour identifier les points de données qui sont séparés en plusieurs classes afin de prédire la classification d’un nouveau point d’échantillon. K-NN est un algorithme d’apprentissage non paramétrique et paresseux. Il classe les nouveaux cas en se basant sur une mesure de similarité (ex, fonctions de distance).

classification d'apprentissage automatique supervisé knn 1

K-NN fonctionne bien avec un petit nombre de variables d’entrée (p), mais lutte lorsque le nombre d’entrées est très grand.

Machine à vecteur de support (SVM)

Le vecteur de support est utilisé à la fois pour la régression et la classification. Il est basé sur le concept de plans de décision qui définissent les frontières de décision. Un plan de décision (hyperplan) est celui qui sépare entre un ensemble d’objets ayant des appartenances de classe différentes.

apprentissage automatique supervisé vecteurs de support

Il effectue la classification en trouvant l’hyperplan qui maximise la marge entre les deux classes avec l’aide des vecteurs de support.

apprentissage automatique supervisé classification svc

L’apprentissage de l’hyperplan dans SVM est fait en transformant le problème en utilisant un peu d’algèbre linéaire (c’est-à-dire, l’exemple ci-dessus est un noyau linéaire qui a une séparabilité linéaire entre chaque variable).

Pour les données de plus grande dimension, d’autres noyaux sont utilisés comme points et ne peuvent pas être classés facilement. Ils sont spécifiés dans la section suivante.

SVM à noyau

Le SVM à noyau prend une fonction noyau dans l’algorithme SVM et la transforme dans la forme requise qui met en correspondance les données sur une dimension supérieure qui est séparable.

Les types de fonction noyau sont:

supervised machine learning classification kernel function types — Type de fonctions noyau

Le SVM linéaire est celui que nous avons discuté précédemment.
Dans le noyau polynomial, le degré du polynôme doit être spécifié. Il permet d’obtenir des lignes courbes dans l’espace d’entrée.
Dans le noyau à fonction de base radiale (RBF), il est utilisé pour les variables non linéairement séparables. Pour la distance, on utilise la distance euclidienne métrique au carré. L’utilisation d’une valeur typique du paramètre peut conduire à un ajustement excessif de nos données. Il est utilisé par défaut dans sklearn.
Le noyau sigmoïde, similaire à la régression logistique est utilisé pour la classification binaire.

supervised machine learning classification kernel trick

Noyau RBF (Radial Basis Function)

La région de décision du SVM à noyau RBF est en fait aussi une région de décision linéaire. Ce que fait en fait le SVM à noyau RBF, c’est créer des combinaisons non linéaires de caractéristiques pour élever les échantillons sur un espace de caractéristiques de plus haute dimension où une frontière de décision linéaire peut être utilisée pour séparer les classes.

Classification par apprentissage automatique supervisé fonction de base radiale

Donc, la règle empirique est la suivante : utiliser les SVM linéaires pour les problèmes linéaires, et les noyaux non linéaires tels que le noyau RBF pour les problèmes non linéaires.

Naive Bayes

Le classificateur naïf de Bayes est basé sur le théorème de Bayes avec les hypothèses d’indépendance entre les prédicteurs (c’est-à-dire, il suppose que la présence d’une caractéristique dans une classe n’est liée à aucune autre caractéristique). Même si ces caractéristiques dépendent les unes des autres, ou de l’existence des autres caractéristiques, toutes ces propriétés sont indépendantes. D’où le nom de Bayes naïf.

supervised machine learning classification bayes theorem

Basé sur Bayes naïf, Bayes naïf gaussien est utilisé pour la classification basée sur la distribution binomiale (normale) des données.

supervised machine learning classification gaussian naive bayes

P(class|data) est la probabilité postérieure de la classe(cible) étant donné le prédicteur(attribut). La probabilité qu’un point de données ait l’une ou l’autre classe, étant donné le point de données. C’est la valeur que l’on cherche à calculer.
P(class) est la probabilité antérieure de la classe.
P(data|class) est la vraisemblance, c’est-à-dire la probabilité du prédicteur étant donné la classe.
P(data) est la probabilité antérieure du prédicteur ou la vraisemblance marginale.

classification par apprentissage automatique supervisé nb

1. Calculer la probabilité antérieure

P(classe) = Nombre de points de données dans la classe/Nombre total d’observations

P(jaune) = 10/17

P(vert) = 7/17

2. Calculer la vraisemblance marginale

P(données) = Nombre de points de données similaires à l’observation/Nombre total d’observations

P( ?) = 4/17

La valeur est présente dans la vérification des deux probabilités.

3. Calcul de la vraisemblance

P(données/classe) = Nombre d’observations similaires à la classe/Nombre total de points dans la classe.

P( ? /jaune) = 1/7

P( ?/vert) = 3/10

4. Probabilité postérieure pour chaque classe

supervised machine learning classification posterior probability

5. Classification

supervised machine learning classification

Multinomial, Bernoulli naïf Bayes sont les autres modèles utilisés pour calculer les probabilités. Ainsi, un modèle Bayes naïf est facile à construire, sans estimation itérative compliquée des paramètres, ce qui le rend particulièrement utile pour les très grands ensembles de données.

Classification par arbre de décision

L’arbre de décision construit des modèles de classification ou de régression sous la forme d’une structure arborescente. Il décompose un ensemble de données en sous-ensembles de plus en plus petits alors que dans le même temps un arbre de décision associé est développé de manière incrémentale. Le résultat final est un arbre avec des nœuds de décision et des nœuds feuilles. Il suit la structure de l’algorithme Iterative Dichotomiser 3(ID3) pour déterminer la division.

Arbres de décision de classification par apprentissage automatique supervisé

L’entropie et le gain d’information sont utilisés pour construire un arbre de décision.

Entropie

L’entropie est le degré ou la quantité d’incertitude dans le caractère aléatoire des éléments. En d’autres termes, c’est une mesure de l’impureté.

Entropie de classification par apprentissage automatique supervisé

Intuitivement, elle nous renseigne sur la prévisibilité d’un certain événement. L’entropie calcule l’homogénéité d’un échantillon. Si l’échantillon est complètement homogène, l’entropie est nulle, et si l’échantillon est également divisé, il a une entropie de un.

Gain d’information

Le gain d’information mesure la variation relative de l’entropie par rapport à l’attribut indépendant. Il tente d’estimer l’information contenue par chaque attribut. La construction d’un arbre de décision consiste à trouver l’attribut qui renvoie le gain d’information le plus élevé (c’est-à-dire, les branches les plus homogènes).

Gain d'information de la classification par apprentissage automatique supervisé

Où Gain(T, X) est le gain d’information en appliquant la caractéristique X. L’entropie(T) est l’entropie de l’ensemble entier, tandis que le deuxième terme calcule l’entropie après avoir appliqué la caractéristique X.

Le gain d’information classe les attributs pour le filtrage à un nœud donné de l’arbre. Le classement est basé sur l’entropie de gain d’information la plus élevée dans chaque fractionnement.

L’inconvénient d’un modèle d’arbre de décision est le surajustement, car il essaie d’ajuster le modèle en allant plus profondément dans l’ensemble d’apprentissage et en réduisant ainsi la précision du test.

Supervised machine learning classification overfitting

L’overfitting dans les arbres de décision peut être minimisé en élaguant les nœuds.

Méthodes d’ensemble pour la classification

Un modèle d’ensemble est une équipe de modèles. Techniquement, les modèles d’ensemble comprennent plusieurs modèles d’apprentissage supervisé qui sont formés individuellement et dont les résultats sont fusionnés de diverses manières pour obtenir la prédiction finale. Ce résultat a un pouvoir prédictif plus élevé que les résultats de n’importe lequel des algorithmes d’apprentissage qui le constituent indépendamment.

méthodes d'ensemble de classification par apprentissage automatique supervisé

Classification Random Forest

Le classificateur Random forest est un algorithme d’ensemble basé sur le bagging c’est-à-dire l’agrégation bootstrap. Les méthodes d’ensemble combinent plus d’un algorithme de même type ou de type différent pour classer des objets (ex, un ensemble de SVM, de Bayes naïfs ou d’arbres de décision, par exemple.)

supervised machine learning classification bagging

L’idée générale est qu’une combinaison de modèles d’apprentissage augmente le résultat global sélectionné.

supervised machine learning classification random forrest

Les arbres de décision profonds peuvent souffrir de surajustement, mais les forêts aléatoires empêchent le surajustement en créant des arbres sur des sous-ensembles aléatoires. La raison principale est qu’elle prend la moyenne de toutes les prédictions, ce qui annule les biais.

La forêt aléatoire ajoute un caractère aléatoire supplémentaire au modèle pendant la croissance des arbres. Au lieu de rechercher la caractéristique la plus importante lors de la division d’un nœud, elle recherche la meilleure caractéristique parmi un sous-ensemble aléatoire de caractéristiques. Il en résulte une grande diversité qui se traduit généralement par un meilleur modèle.

Classification par boosting de gradient

Le classificateur par boosting de gradient est une méthode d’ensemble de boosting. Le boosting est un moyen de combiner (ensemble) des apprenants faibles, principalement pour réduire le biais de prédiction. Au lieu de créer un pool de prédicteurs, comme dans le bagging, le boosting en produit une cascade, où chaque sortie est l’entrée de l’apprenant suivant. En général, dans un algorithme de mise en sac, les arbres sont développés en parallèle pour obtenir la prédiction moyenne de tous les arbres, où chaque arbre est construit sur un échantillon de données originales. Le boosting de gradient, quant à lui, adopte une approche séquentielle pour obtenir des prédictions au lieu de paralléliser le processus de construction des arbres. Dans le boosting de gradient, chaque arbre de décision prédit l’erreur de l’arbre de décision précédent – boostant ainsi (améliorant) l’erreur (gradient).

supervised machine learning classification boosting

Working of Gradient Boosting

Initialiser les prédictions avec un arbre de décision simple.
Calculer la valeur résiduelle (réel-prédiction).
Construire un autre arbre de décision peu profond qui prédit le résidu en fonction de toutes les valeurs indépendantes.
Mettre à jour la prédiction originale avec la nouvelle prédiction multipliée par le taux d’apprentissage.
Répétez les étapes deux à quatre pour un certain nombre d’itérations (le nombre d’itérations sera le nombre d’arbres).

apprentissage automatique supervisé classification rf gb

Performances des modèles de classification

Matrice de confusion

Une matrice de confusion est un tableau qui est souvent utilisé pour décrire les performances d’un modèle de classification sur un ensemble de données de test pour lesquelles les vraies valeurs sont connues. C’est un tableau avec quatre combinaisons différentes de valeurs prédites et réelles dans le cas d’un classificateur binaire.

matrice de confusion pour l'apprentissage automatique supervisé

La matrice de confusion pour un problème de classification multi-classes peut vous aider à déterminer les modèles d’erreur.

Pour un classificateur binaire :

matrice de confusion binaire pour l'apprentissage automatique supervisé

Un vrai positif est un résultat où le modèle prédit correctement la classe positive. De même, un vrai négatif est un résultat où le modèle prédit correctement la classe négative.

Faux positif &Faux négatif

Les termes faux positif et faux négatif sont utilisés pour déterminer la qualité de la prédiction du modèle en matière de classification. Un faux positif est un résultat où le modèle prédit incorrectement la classe positive. Et un faux négatif est un résultat où le modèle prédit de manière incorrecte la classe négative. Plus il y a de valeurs dans la diagonale principale, meilleur est le modèle, tandis que l’autre diagonale donne le pire résultat pour la classification.

Faux positif

Un exemple dans lequel le modèle a prédit par erreur la classe positive. Par exemple, le modèle a déduit qu’un message électronique particulier était un spam (la classe positive), mais ce message électronique n’était en fait pas un spam. C’est comme un signe d’avertissement que l’erreur doit être rectifiée, car ce n’est pas très préoccupant par rapport au faux négatif.

Faux positif (erreur de type I) – lorsque vous rejetez une vraie hypothèse nulle

classification par apprentissage automatique supervisé faux positif

Faux négatif

Un exemple dans lequel le modèle a prédit par erreur la classe négative. Par exemple, le modèle a déduit qu’un message électronique particulier n’était pas un spam (la classe négative), mais ce message électronique était en fait un spam. C’est comme un signe de danger que l’erreur doit être rectifiée rapidement car elle est plus grave qu’un faux positif.

Faux négatif (erreur de type II) – lorsque vous acceptez une fausse hypothèse nulle.

classification par apprentissage automatique supervisé faux négatif

Cette image illustre parfaitement facilement la métrique ci-dessus. Les résultats du test de l’homme sont un faux positif puisqu’un homme ne peut pas être enceinte. Les résultats du test de la femme sont un faux négatif car elle est clairement enceinte.

À partir de la matrice de confusion, nous pouvons déduire l’exactitude, la précision, le rappel et le score F-1.

Accuracy

L’exactitude est la fraction de prédictions que notre modèle a eu raison.

Exactitude de la classification de l'apprentissage automatique supervisé

L’exactitude peut également être écrite comme

$exactitude de la classification de l'apprentissage automatique supervisé math$

L’exactitude seule ne raconte pas toute l’histoire lorsque vous travaillez avec un ensemble de données à classe déséquilibrée, où il y a une disparité significative entre le nombre d’étiquettes positives et négatives. La précision et le rappel sont de meilleures métriques pour évaluer les problèmes de classes déséquilibrées.

Précision

Sur toutes les classes, la précision est la quantité que nous avons prédite correctement.

supervised machine learning classification precision

La précision devrait être aussi élevée que possible.

Recall

Sur toutes les classes positives, le rappel est la quantité que nous avons prédite correctement. Il est également appelé sensibilité ou taux de vrais positifs (TPR).

supervised machine learning classification recall

Le rappel doit être aussi élevé que possible.

F-1 Score

Il est souvent pratique de combiner la précision et le rappel en une seule métrique appelée le score F-1, en particulier si vous avez besoin d’un moyen simple de comparer deux classificateurs. Le score F-1 est la moyenne harmonique de la précision et du rappel.

supervised machine learning classification f1 score

La moyenne régulière traite toutes les valeurs de manière égale, tandis que la moyenne harmonique donne beaucoup plus de poids aux valeurs faibles, punissant ainsi davantage les valeurs extrêmes. Par conséquent, le classificateur n’obtiendra un score F-1 élevé que si le rappel et la précision sont tous deux élevés.

Courbe d’opérateur de réception (ROC) &Aire sous la courbe (AUC)

La courbe ROC est une importante métrique d’évaluation de la classification. Elle nous indique dans quelle mesure le modèle a prédit avec précision. La courbe ROC montre la sensibilité du classificateur en traçant le taux de vrais positifs par rapport au taux de faux positifs. Si le classificateur est exceptionnel, le taux de vrais positifs augmentera, et l’aire sous la courbe sera proche de un. Si le classificateur est similaire à une supposition aléatoire, le taux de vrais positifs augmentera linéairement avec le taux de faux positifs. Plus la mesure de l’AUC est bonne, plus le modèle est performant.

Classification par apprentissage automatique supervisé roc

Courbe de profil d’exactitude cumulative

Le CAP d’un modèle représente le nombre cumulatif de résultats positifs sur l’axe des y par rapport au nombre cumulatif correspondant d’un paramètre de classification sur l’axe des x. La CAP est distincte de la caractéristique d’exploitation du récepteur (ROC), qui trace le taux de vrais positifs par rapport au taux de faux positifs. La courbe CAP est rarement utilisée par rapport à la courbe ROC.

courbe cap de classification de l'apprentissage automatique supervisé

Considérez un modèle qui prédit si un client va acheter un produit. Si un client est sélectionné au hasard, il y a 50% de chances qu’il achète le produit. Le nombre cumulé d’éléments pour lesquels le client achète augmenterait linéairement vers une valeur maximale correspondant au nombre total de clients. Cette distribution est appelée le CAP « aléatoire ». C’est la ligne bleue dans le diagramme ci-dessus. Une prédiction parfaite, en revanche, détermine exactement quel client achètera le produit, de sorte que le maximum de clients achetant le bien sera atteint avec un minimum de choix de clients parmi les éléments. Cela produit une ligne raide sur la courbe CAP qui reste plate une fois le maximum atteint, ce qui est le CAP « parfait ». On l’appelle aussi la ligne « idéale » et c’est la ligne grise dans la figure ci-dessus.

En fin de compte, un modèle devrait prédire là où il maximise les prédictions correctes et se rapproche d’une ligne de modèle parfaite.

Un guide approfondi de la classification par apprentissage automatique supervisé