Ce tutoriel sur le processus d’extraction de données couvre les modèles d’extraction de données, les étapes et les défis impliqués dans le processus d’extraction de données:
Les techniques d’extraction de données ont été expliquées en détail dans notre tutoriel précédent dans cette formation complète sur l’extraction de données pour tous. Le Data Mining est un domaine prometteur dans le monde de la science et de la technologie.
Le Data Mining, qui est également connu sous le nom de découverte de connaissances dans les bases de données, est un processus de découverte d’informations utiles à partir de grands volumes de données stockées dans des bases de données et des entrepôts de données. Cette analyse est faite pour les processus de prise de décision dans les entreprises.
Le Data Mining est effectué en utilisant diverses techniques telles que le clustering, l’association, et l’analyse de modèles séquentiels & arbre de décision.
Qu’est-ce que le Data Mining?
Le Data Mining est un processus de découverte de modèles intéressants et de connaissances à partir de grandes quantités de données. Les sources de données peuvent inclure des bases de données, des entrepôts de données, le web et d’autres dépôts d’informations ou des données qui sont diffusées dans le système de manière dynamique.
Pourquoi les entreprises ont-elles besoin de l’extraction de données ?
Avec l’avènement du Big Data, l’extraction de données est devenue plus prévalente. Les Big data sont des ensembles de données extrêmement volumineux qui peuvent être analysés par des ordinateurs pour révéler certains modèles, associations et tendances qui peuvent être compris par les humains. Les big data ont des informations étendues sur des types variés et des contenus variés.
Ainsi, avec cette quantité de données, de simples statistiques avec une intervention manuelle ne fonctionneraient pas. Ce besoin est comblé par le processus de data mining. Cela conduit à passer de simples statistiques de données à des algorithmes complexes de data mining.
Le processus de data mining va extraire des informations pertinentes à partir de données brutes telles que des transactions, des photos, des vidéos, des fichiers plats et traiter automatiquement les informations pour générer des rapports utiles aux entreprises pour prendre des mesures.
Donc, le processus d’exploration de données est crucial pour les entreprises pour prendre de meilleures décisions en découvrant des modèles & tendances dans les données, en résumant les données et en sortant des informations pertinentes.
L’extraction de données en tant que processus
Tout problème commercial examinera les données brutes pour construire un modèle qui décrira les informations et fera ressortir les rapports à utiliser par l’entreprise. La construction d’un modèle à partir des sources et des formats de données est un processus itératif car les données brutes sont disponibles dans de nombreuses sources différentes et sous de nombreuses formes.
Les données augmentent de jour en jour, donc quand une nouvelle source de données est trouvée, cela peut changer les résultats.
Voici le schéma du processus.
Modèles d’exploration de données
De nombreuses industries telles que la fabrication, le marketing, la chimie et l’aérospatiale tirent profit de l’exploration de données. Ainsi, la demande de processus d’exploration de données standard et fiables est augmentée de façon drastique.
Les modèles d’exploration de données importants comprennent :
#1) Processus standard inter-industrie pour l’exploration de données (CRISP-DM)
CRISP-DM est un modèle d’exploration de données fiable composé de six phases. C’est un processus cyclique qui fournit une approche structurée du processus d’exploration de données. Les six phases peuvent être mises en œuvre dans n’importe quel ordre mais cela nécessiterait parfois de revenir sur les étapes précédentes et de répéter les actions.
Les six phases de CRISP-DM comprennent :
#1) Compréhension de l’entreprise : Dans cette étape, les objectifs des entreprises sont fixés et les facteurs importants qui aideront à atteindre l’objectif sont découverts.
#2) Compréhension des données : Cette étape permet de collecter l’ensemble des données et de les renseigner dans l’outil (si on utilise un outil). Les données sont répertoriées avec leur source, leur emplacement, leur mode d’acquisition et les éventuels problèmes rencontrés. Les données sont visualisées et interrogées pour vérifier leur exhaustivité.
#3) Préparation des données : Cette étape consiste à sélectionner les données appropriées, à les nettoyer, à construire des attributs à partir des données, à intégrer les données de plusieurs bases de données.
#4) Modélisation : La sélection de la technique d’exploration de données telle que l’arbre de décision, la génération d’une conception de test pour évaluer le modèle sélectionné, la construction de modèles à partir de l’ensemble de données et l’évaluation du modèle construit avec des experts pour discuter du résultat est faite dans cette étape.
#5) Évaluation : Cette étape permet de déterminer dans quelle mesure le modèle obtenu répond aux besoins de l’entreprise. L’évaluation peut se faire en testant le modèle sur des applications réelles. Le modèle est examiné pour détecter les erreurs ou les étapes qui devraient être répétées.
#6) Déploiement : Dans cette étape, un plan de déploiement est fait, la stratégie pour surveiller et maintenir les résultats du modèle d’exploration de données pour vérifier son utilité est formée, les rapports finaux sont faits et l’examen de tout le processus est fait pour vérifier toute erreur et voir si une étape est répétée.
#2) SEMMA (Sample, Explore, Modify, Model, Assess)
SEMMA est une autre méthodologie d’exploration de données développée par SAS Institute. L’acronyme SEMMA signifie sample, explore, modify, model, assess.
SEMMA permet d’appliquer facilement des techniques statistiques exploratoires et de visualisation, de sélectionner et de transformer les variables prédites significatives, de créer un modèle à l’aide des variables pour sortir le résultat, et de vérifier son exactitude. SEMMA est également conduit par un cycle hautement itératif.
Étapes de SEMMA
- Échantillon : Dans cette étape, un grand ensemble de données est extrait et un échantillon qui représente l’ensemble des données est prélevé. L’échantillonnage permet de réduire les coûts de calcul et le temps de traitement.
- Explorer : Les données sont explorées à la recherche de toute valeur aberrante et d’anomalies pour une meilleure compréhension des données. Les données sont vérifiées visuellement pour découvrir les tendances et les regroupements.
- Modifier : Dans cette étape, la manipulation des données comme le regroupement, et le sous-groupement est faite en gardant en vue le modèle à construire.
- Modèle : Sur la base des explorations et des modifications, les modèles qui expliquent les schémas dans les données sont construits.
- Évaluer : L’utilité et la fiabilité du modèle construit sont évaluées dans cette étape. Le test du modèle contre des données réelles est effectué ici.
L’approche SEMMA et CRISP fonctionnent toutes deux pour le processus de découverte de connaissances. Une fois que les modèles sont construits, ils sont déployés pour les entreprises et les travaux de recherche.
Étapes du processus d’exploration des données
Le processus d’exploration des données est divisé en deux parties à savoir le prétraitement des données et l’exploration des données. Le prétraitement des données implique le nettoyage des données, l’intégration des données, la réduction des données et la transformation des données. La partie d’exploration des données effectue l’exploration des données, l’évaluation des motifs et la représentation des connaissances des données.
Pourquoi pré-traite-t-on les données ?
Il existe de nombreux facteurs qui déterminent l’utilité des données comme l’exactitude, l’exhaustivité, la cohérence, l’actualité. Les données doivent être de qualité si elles répondent à l’objectif visé. Ainsi, le prétraitement est crucial dans le processus d’exploration de données. Les principales étapes du prétraitement des données sont expliquées ci-dessous.
#1) Nettoyage des données
Le nettoyage des données est la première étape du data mining. Il détient l’importance que les données sales si elles sont utilisées directement dans l’exploitation minière peuvent causer la confusion dans les procédures et produire des résultats inexacts.
Basiquement, cette étape implique la suppression des données bruyantes ou incomplètes de la collection. De nombreuses méthodes qui nettoient généralement les données par elles-mêmes sont disponibles mais elles ne sont pas robustes.
Cette étape effectue le travail de nettoyage de routine en :
(i) Remplissant les données manquantes :
Les données manquantes peuvent être remplies par des méthodes telles que :
- Ignorer le tuple.
- Remplir la valeur manquante manuellement.
- Utiliser la mesure de la tendance centrale, la médiane ou
- Remplir la valeur la plus probable.
(ii) Supprimer les données bruitées : L’erreur aléatoire est appelée donnée bruyante.
Les méthodes pour éliminer le bruit sont :
Le binning : Les méthodes de binning sont appliquées en triant les valeurs dans des seaux ou des bacs. Le lissage est effectué en consultant les valeurs voisines.
Le binning est effectué par un lissage par bac c’est-à-dire que chaque bac est remplacé par la moyenne du bac. Lissage par une médiane c’est-à-dire que chaque valeur de la bin est remplacée par la médiane de la bin. Lissage par les limites de la bin, c’est-à-dire que les valeurs minimales et maximales de la bin sont les limites de la bin et chaque valeur de la bin est remplacée par la valeur limite la plus proche.
- Identification des valeurs aberrantes
- Résolution des incohérences
#2) Intégration des données
Lorsque plusieurs sources de données hétérogènes telles que des bases de données, des cubes de données ou des fichiers sont combinées pour être analysées, ce processus est appelé intégration des données. Cela peut aider à améliorer la précision et la vitesse du processus d’exploration de données.
Des bases de données différentes ont des conventions de dénomination différentes des variables, en provoquant des redondances dans les bases de données. Un nettoyage supplémentaire des données peut être effectué pour supprimer les redondances et les incohérences de l’intégration des données sans affecter la fiabilité des données.
L’intégration des données peut être effectuée à l’aide d’outils de migration de données tels que Oracle Data Service Integrator et Microsoft SQL etc.
#3) Réduction des données
Cette technique est appliquée pour obtenir des données pertinentes pour l’analyse à partir de la collection de données. La taille de la représentation est beaucoup plus petite en volume tout en maintenant l’intégrité. La réduction des données est effectuée en utilisant des méthodes telles que Naive Bayes, les arbres de décision, le réseau neuronal, etc.
Certaines stratégies de réduction des données sont :
- Réduction de la dimensionnalité : Réduire le nombre d’attributs dans l’ensemble de données.
- Réduction de la numération : Remplacement du volume de données original par des formes plus petites de représentation des données.
- Compression des données : Représentation comprimée des données originales.
#4) Transformation des données
Dans ce processus, les données sont transformées en une forme adaptée au processus d’exploration des données. Les données sont consolidées afin que le processus d’exploration soit plus efficace et que les modèles soient plus faciles à comprendre. La transformation des données implique le mappage des données et le processus de génération de code.
Les stratégies de transformation des données sont :
- Lissage : élimination du bruit des données en utilisant le regroupement, les techniques de régression, etc.
- Agrégation : Des opérations de synthèse sont appliquées aux données.
- Normalisation : Mise à l’échelle des données pour qu’elles se situent dans une plage plus petite.
- Discrétisation : Les valeurs brutes des données numériques sont remplacées par des intervalles. Par exemple, l’âge.
#5) Data Mining
Le Data Mining est un processus visant à identifier des modèles intéressants et des connaissances à partir d’une grande quantité de données. Dans ces étapes, des modèles intelligents sont appliqués pour extraire les modèles de données. Les données sont représentées sous forme de motifs et les modèles sont structurés à l’aide de techniques de classification et de regroupement.
#6) Évaluation des motifs
Cette étape consiste à identifier les motifs intéressants représentant les connaissances en fonction des mesures d’intérêt. Des méthodes de résumé et de visualisation des données sont utilisées pour rendre les données compréhensibles par l’utilisateur.
#7) Représentation des connaissances
La représentation des connaissances est une étape où des outils de visualisation des données et de représentation des connaissances sont utilisés pour représenter les données exploitées. Les données sont visualisées sous forme de rapports, de tableaux, etc.
Processus d’extraction de données dans le SGBD Oracle
Le SGBD représente les données sous forme de tableaux avec des lignes et des colonnes. On peut accéder aux données en écrivant des requêtes de base de données.
Les systèmes de gestion de bases de données relationnelles comme Oracle prennent en charge le Data mining en utilisant CRISP-DM. Les installations de la base de données Oracle sont utiles pour la préparation et la compréhension des données. Oracle prend en charge l’exploration de données par le biais de l’interface java, de l’interface PL/SQL, de l’exploration de données automatisée, des fonctions SQL et des interfaces graphiques.
Processus d’exploration de données dans un entrepôt de données
Un entrepôt de données est modélisé pour une structure de données multidimensionnelle appelée cube de données. Chaque cellule d’un cube de données stocke la valeur de certaines mesures agrégées.
L’exploration de données dans l’espace multidimensionnel effectuée dans le style OLAP (Online Analytical Processing) où elle permet l’exploration de multiples combinaisons de dimensions à différents niveaux de granularité.
Quelles sont les applications de l’extraction de données ?
La liste des domaines où l’exploration de données est largement utilisée comprend :
#1) L’analyse de données financières : L’extraction de données est largement utilisée dans les services bancaires, les investissements, les services de crédit, les prêts hypothécaires, les prêts automobiles et les services d’investissement en actions d’assurance &. Les données collectées à partir de ces sources sont complètes, fiables et de haute qualité. Cela facilite l’analyse systématique des données et le data mining.
#2) Industries du commerce de détail et des télécommunications : Le secteur de la vente au détail collecte d’énormes quantités de données sur les ventes, l’historique des achats des clients, le transport des marchandises, la consommation et le service. L’exploration de données de détail aide à identifier les comportements d’achat des clients, les habitudes d’achat des clients et les tendances, à améliorer la qualité du service à la clientèle, à mieux fidéliser les clients et à les satisfaire.
#3) Science et ingénierie : L’exploration de données en informatique et en ingénierie peut aider à surveiller l’état du système, à améliorer ses performances, à isoler les bogues logiciels, à détecter le plagiat de logiciels et à reconnaître les dysfonctionnements du système.
#4) Détection et prévention des intrusions : L’intrusion est définie comme tout ensemble d’actions qui menacent l’intégrité, la confidentialité ou la disponibilité des ressources du réseau. Les méthodes d’exploration de données peuvent aider le système de détection et de prévention des intrusions à améliorer ses performances.
#5) Systèmes de recommandation : Les systèmes de recommandation aident les consommateurs en faisant des recommandations de produits qui sont d’intérêt pour les utilisateurs.
Data Mining Challenges
Enumérés ci-dessous sont les différents défis impliqués dans le Data Mining.
- Data Mining a besoin de grandes bases de données et la collecte de données qui sont difficiles à gérer.
- Le processus d’exploration de données nécessite des experts du domaine qui sont à nouveau difficiles à trouver.
- L’intégration à partir de bases de données hétérogènes est un processus complexe.
- Les pratiques au niveau organisationnel doivent être modifiées pour utiliser les résultats de l’exploration de données. La restructuration du processus nécessite des efforts et des coûts.
Conclusion
Le Data Mining est un processus itératif où le processus d’extraction peut être affiné, et de nouvelles données peuvent être intégrées pour obtenir des résultats plus efficaces. Le Data Mining répond à l’exigence d’une analyse des données efficace, évolutive et flexible.
Il peut être considéré comme une évaluation naturelle de la technologie de l’information. En tant que processus de découverte de connaissances, les tâches de préparation et d’exploration de données complètent le processus d’exploration de données.
Les processus d’exploration de données peuvent être effectués sur n’importe quel type de données telles que les données de base de données et les bases de données avancées telles que les séries chronologiques, etc. Le processus d’exploration de données vient avec ses propres défis aussi.
Rester à l’écoute de notre prochain tutoriel pour en savoir plus sur les exemples d’exploration de données !!
PREV Tutorial | NEXT Tutorial
.