Que signifie l’apprentissage automatique non supervisé ?
Les algorithmes d’apprentissage automatique non supervisé infèrent des modèles à partir d’un ensemble de données sans référence à des résultats connus, ou étiquetés. Contrairement à l’apprentissage automatique supervisé, les méthodes d’apprentissage automatique non supervisé ne peuvent pas être appliquées directement à un problème de régression ou de classification, car vous n’avez aucune idée de ce que pourraient être les valeurs des données de sortie, ce qui vous empêche d’entraîner l’algorithme comme vous le feriez normalement. L’apprentissage non supervisé peut plutôt être utilisé pour découvrir la structure sous-jacente des données.
Pourquoi l’apprentissage automatique non supervisé est-il important ?
L’apprentissage automatique non supervisé prétend découvrir des modèles précédemment inconnus dans les données, mais la plupart du temps, ces modèles sont de mauvaises approximations de ce que l’apprentissage automatique supervisé peut réaliser. De plus, puisque vous ne savez pas quels devraient être les résultats, il n’y a aucun moyen de déterminer leur exactitude, ce qui rend l’apprentissage automatique supervisé plus applicable aux problèmes du monde réel.
Le meilleur moment pour utiliser l’apprentissage automatique non supervisé est lorsque vous n’avez pas de données sur les résultats souhaités, comme la détermination d’un marché cible pour un produit entièrement nouveau que votre entreprise n’a jamais vendu auparavant. Cependant, si vous essayez de mieux comprendre votre base de consommateurs existante, l’apprentissage supervisé est la technique optimale.
Certaines applications des techniques d’apprentissage automatique non supervisé comprennent :
- Le clustering vous permet de diviser automatiquement l’ensemble de données en groupes selon la similarité. Souvent, cependant, l’analyse en cluster surestime la similarité entre les groupes et ne traite pas les points de données comme des individus. Pour cette raison, l’analyse en cluster est un mauvais choix pour des applications telles que la segmentation et le ciblage des clients.
- La détection des anomalies peut découvrir automatiquement des points de données inhabituels dans votre ensemble de données. Cela est utile pour repérer les transactions frauduleuses, découvrir des pièces de matériel défectueuses ou identifier une valeur aberrante causée par une erreur humaine lors de la saisie des données.
- L’exploration d’associations identifie des ensembles d’éléments qui apparaissent fréquemment ensemble dans votre ensemble de données. Les détaillants l’utilisent souvent pour l’analyse des paniers, car elle permet aux analystes de découvrir les biens souvent achetés en même temps et de développer des stratégies de marketing et de merchandising plus efficaces.
- Les modèles de variables latentes sont couramment utilisés pour le prétraitement des données, comme la réduction du nombre de caractéristiques dans un ensemble de données (réduction de la dimensionnalité) ou la décomposition de l’ensemble de données en plusieurs composants.
Les modèles que vous découvrez avec des méthodes d’apprentissage automatique non supervisées peuvent également être utiles lors de la mise en œuvre ultérieure de méthodes d’apprentissage automatique supervisées. Par exemple, vous pouvez utiliser une technique non supervisée pour effectuer une analyse de cluster sur les données, puis utiliser le cluster auquel chaque ligne appartient comme une caractéristique supplémentaire dans le modèle d’apprentissage supervisé (voir apprentissage automatique semi-supervisé). Un autre exemple est un modèle de détection des fraudes qui utilise les scores de détection des anomalies comme caractéristique supplémentaire.
Apprentissage automatique non supervisé + DataRobot
La plateforme d’apprentissage automatique DataRobot nécessite une colonne « cible » – c’est-à-dire qu’elle doit connaître la variable de sortie afin de découvrir des modèles dans vos données. Cependant, beaucoup de ses plans de modèles utilisent l’apprentissage non supervisé pour automatiser des techniques compliquées d’ingénierie des caractéristiques, qui sont difficiles et longues à mettre en œuvre sans automatisation.
.