Data Mining Prozess: Models, Process Steps & Challenges Involved

Dieses Tutorial über Data Mining Process umfasst Data Mining Models, Steps and Challenges Involved in the Data Extraction Process:

Data Mining Techniques were explained in detail in our previous tutorial in this Complete Data Mining Training for All. Data Mining ist ein vielversprechender Bereich in der Welt der Wissenschaft und Technologie.

Data Mining, das auch als Knowledge Discovery in Datenbanken bekannt ist, ist ein Prozess der Entdeckung nützlicher Informationen aus großen Mengen von Daten, die in Datenbanken und Data Warehouses gespeichert sind. Diese Analyse wird für die Entscheidungsfindung in den Unternehmen durchgeführt.

Data Mining wird mit verschiedenen Techniken wie Clustering, Assoziation und sequentieller Musteranalyse & Entscheidungsbaum durchgeführt.

Data Mining Prozess

Was ist Data Mining?

Data Mining ist ein Prozess der Entdeckung von interessanten Mustern und Wissen aus großen Datenmengen. Zu den Datenquellen können Datenbanken, Data Warehouses, das Internet und andere Informationsspeicher oder Daten gehören, die dynamisch in das System einfließen.

Warum brauchen Unternehmen Datenextraktion?

Mit dem Aufkommen von Big Data hat Data Mining an Bedeutung gewonnen. Big Data sind extrem große Datensätze, die von Computern analysiert werden können, um bestimmte Muster, Assoziationen und Trends zu erkennen, die von Menschen verstanden werden können. Big Data enthält umfangreiche Informationen unterschiedlicher Art und unterschiedlichen Inhalts.

Bei dieser Menge an Daten würden einfache Statistiken mit manuellen Eingriffen nicht funktionieren. Diese Notwendigkeit wird durch das Data-Mining-Verfahren erfüllt. Dies führt zu einem Wechsel von einfachen Datenstatistiken zu komplexen Data-Mining-Algorithmen.

Der Data-Mining-Prozess extrahiert relevante Informationen aus Rohdaten wie Transaktionen, Fotos, Videos, flachen Dateien und verarbeitet die Informationen automatisch, um Berichte zu erstellen, die für Unternehmen nützlich sind, um Maßnahmen zu ergreifen.

Das Data-Mining-Verfahren ist daher für Unternehmen von entscheidender Bedeutung, um bessere Entscheidungen zu treffen, indem es Muster &Trends in den Daten aufdeckt, die Daten zusammenfasst und relevante Informationen herausfiltert.

Datenextraktion als Prozess

Bei jedem Geschäftsproblem werden die Rohdaten untersucht, um ein Modell zu erstellen, das die Informationen beschreibt und die Berichte für das Unternehmen erstellt. Der Aufbau eines Modells aus Datenquellen und Datenformaten ist ein iterativer Prozess, da die Rohdaten in vielen verschiedenen Quellen und in vielen Formen vorliegen.

Die Datenmenge wächst von Tag zu Tag, und wenn eine neue Datenquelle gefunden wird, kann dies die Ergebnisse verändern.

Nachfolgend ein Überblick über den Prozess.

Überblick über den Data-Mining-Prozess

Data-Mining-Modelle

Viele Branchen wie Fertigung, Marketing, Chemie und Luft- und Raumfahrt nutzen die Vorteile des Data-Mining. Dadurch steigt die Nachfrage nach standardisierten und zuverlässigen Data-Mining-Prozessen drastisch an.

Zu den wichtigen Data-Mining-Modellen gehören:

#1) Cross-Industry Standard Process for Data Mining (CRISP-DM)

CRISP-DM ist ein zuverlässiges Data-Mining-Modell, das aus sechs Phasen besteht. Es handelt sich um einen zyklischen Prozess, der einen strukturierten Ansatz für den Data-Mining-Prozess bietet. Die sechs Phasen können in beliebiger Reihenfolge implementiert werden, erfordern jedoch manchmal ein Zurückgehen auf die vorherigen Schritte und eine Wiederholung von Aktionen.

Die sechs Phasen von CRISP-DM umfassen:

#1) Geschäftsverständnis: In diesem Schritt werden die Ziele des Unternehmens festgelegt und die wichtigen Faktoren, die zur Erreichung des Ziels beitragen, ermittelt.

#2) Datenverständnis: In diesem Schritt werden die gesamten Daten gesammelt und in das Tool eingepflegt (falls ein Tool verwendet wird). Die Daten werden mit ihrer Datenquelle, ihrem Speicherort, der Art ihrer Erfassung und eventuellen Problemen aufgelistet. Die Daten werden visualisiert und abgefragt, um ihre Vollständigkeit zu überprüfen.

#3) Datenaufbereitung: Dieser Schritt umfasst die Auswahl geeigneter Daten, die Bereinigung, die Konstruktion von Attributen aus Daten und die Integration von Daten aus mehreren Datenbanken.

#4) Modellierung: Auswahl der Data-Mining-Technik wie z.B. Entscheidungsbaum, Erstellung eines Testdesigns zur Bewertung des ausgewählten Modells, Erstellung von Modellen aus dem Datensatz und Bewertung des erstellten Modells mit Experten, um das Ergebnis zu diskutieren.

#5) Bewertung: In diesem Schritt wird ermittelt, inwieweit das resultierende Modell die Geschäftsanforderungen erfüllt. Die Bewertung kann durch Testen des Modells an realen Anwendungen erfolgen. Das Modell wird auf Fehler oder Schritte, die wiederholt werden sollten, überprüft.

#6) Einsatz: In diesem Schritt wird ein Einsatzplan erstellt, eine Strategie zur Überwachung und Pflege der Ergebnisse des Data-Mining-Modells entwickelt, um seine Nützlichkeit zu prüfen, Abschlussberichte erstellt und der gesamte Prozess überprüft, um etwaige Fehler zu erkennen und zu sehen, ob ein Schritt wiederholt werden muss.

CRISP - DM Model

#2) SEMMA (Sample, Explore, Modify, Model, Assess)

SEMMA ist eine weitere Data-Mining-Methode, die von SAS Institute entwickelt wurde. Das Akronym SEMMA steht für Sample, Explore, Modify, Model, Assess

SEMMA erleichtert die Anwendung von explorativen statistischen und Visualisierungstechniken, die Auswahl und Transformation signifikanter vorhergesagter Variablen, die Erstellung eines Modells unter Verwendung der Variablen, um das Ergebnis zu erhalten, und die Überprüfung seiner Genauigkeit. SEMMA wird auch durch einen hochgradig iterativen Zyklus angetrieben.

SEMMA

Schritte in SEMMA

  1. Probe: In diesem Schritt wird ein großer Datensatz extrahiert und eine Stichprobe, die die gesamten Daten repräsentiert, entnommen. Die Stichprobenbildung reduziert die Rechenkosten und die Verarbeitungszeit.
  2. Erkunden: Die Daten werden auf Ausreißer und Anomalien untersucht, um ein besseres Verständnis der Daten zu ermöglichen. Die Daten werden visuell überprüft, um die Trends und Gruppierungen herauszufinden.
  3. Modifizieren: In diesem Schritt werden die Daten manipuliert, z. B. durch Gruppierung und Untergruppenbildung, wobei das zu erstellende Modell im Mittelpunkt steht.
  4. Modell: Auf der Grundlage der Untersuchungen und Änderungen werden die Modelle konstruiert, die die Muster in den Daten erklären.
  5. Bewerten: In diesem Schritt wird die Nützlichkeit und Zuverlässigkeit des konstruierten Modells bewertet. Hier wird das Modell anhand realer Daten getestet.

Beide Ansätze, SEMMA und CRISP, eignen sich für den Knowledge Discovery Process. Sobald die Modelle erstellt sind, werden sie für Unternehmen und Forschungsarbeiten eingesetzt.

Schritte im Data-Mining-Prozess

Der Data-Mining-Prozess ist in zwei Teile unterteilt, nämlich die Datenvorverarbeitung und das Data Mining. Die Datenvorverarbeitung umfasst Datenbereinigung, Datenintegration, Datenreduktion und Datentransformation. Der Data-Mining-Teil führt Data-Mining, Musterauswertung und Wissensrepräsentation von Daten durch.

Data-Mining-Prozess - Schritte

Verschiedene Schritte im Data-Mining-Prozess

Warum werden die Daten vorverarbeitet?

Es gibt viele Faktoren, die den Nutzen von Daten bestimmen, wie Genauigkeit, Vollständigkeit, Konsistenz und Aktualität. Die Daten müssen qualitativ hochwertig sein, wenn sie den beabsichtigten Zweck erfüllen. Daher ist die Vorverarbeitung von entscheidender Bedeutung für den Data-Mining-Prozess. Die wichtigsten Schritte der Datenvorverarbeitung werden im Folgenden erläutert.

#1) Datenbereinigung

Die Datenbereinigung ist der erste Schritt im Data Mining. Er ist wichtig, da schmutzige Daten, wenn sie direkt für das Data Mining verwendet werden, zu Verwirrung bei den Verfahren führen und ungenaue Ergebnisse liefern können.

Grundlegend beinhaltet dieser Schritt die Entfernung von verrauschten oder unvollständigen Daten aus der Sammlung. Es gibt viele Methoden, die Daten im Allgemeinen selbst bereinigen, aber sie sind nicht robust.

Dieser Schritt führt die routinemäßigen Bereinigungsarbeiten durch:

(i) Füllen der fehlenden Daten:

Fehlende Daten können durch Methoden wie folgende gefüllt werden:

  • Ingnieren des Tupels.
  • Manuelles Auffüllen des fehlenden Wertes.
  • Verwendung des Maßes der zentralen Tendenz, Median oder
  • Auffüllen des wahrscheinlichsten Wertes.

(ii) Entfernen der verrauschten Daten: Zufällige Fehler werden als verrauschte Daten bezeichnet.

Methoden zur Entfernung von Rauschen sind:

Binning: Binning-Methoden werden angewendet, indem Werte in Bereiche oder Bins sortiert werden. Die Glättung erfolgt durch Heranziehen der benachbarten Werte.

Binning erfolgt durch Glättung nach Bins, d.h. jedes Bin wird durch den Mittelwert des Bins ersetzt. Glättung durch einen Median, d.h. jeder Bin-Wert wird durch einen Bin-Median ersetzt. Glättung durch Bin-Grenzen, d.h. die Minimal- und Maximalwerte im Bin sind Bin-Grenzen, und jeder Bin-Wert wird durch den nächstgelegenen Grenzwert ersetzt.

  • Identifizierung der Ausreißer
  • Auflösung von Inkonsistenzen

#2) Datenintegration

Wenn mehrere heterogene Datenquellen wie Datenbanken, Datenwürfel oder Dateien für die Analyse kombiniert werden, wird dieser Prozess als Datenintegration bezeichnet. Dies kann dazu beitragen, die Genauigkeit und Geschwindigkeit des Data-Mining-Prozesses zu verbessern.

Die verschiedenen Datenbanken haben unterschiedliche Namenskonventionen für Variablen, was zu Redundanzen in den Datenbanken führt. Eine zusätzliche Datenbereinigung kann durchgeführt werden, um die Redundanzen und Inkonsistenzen aus der Datenintegration zu entfernen, ohne die Zuverlässigkeit der Daten zu beeinträchtigen.

Die Datenintegration kann mit Datenmigrationswerkzeugen wie Oracle Data Service Integrator und Microsoft SQL usw. durchgeführt werden.

#3) Datenreduktion

Diese Technik wird angewandt, um aus der Datensammlung relevante Daten für die Analyse zu erhalten. Der Umfang der Darstellung wird unter Beibehaltung der Integrität deutlich verringert. Die Datenreduktion wird mit Methoden wie Naive Bayes, Entscheidungsbäumen, neuronalen Netzen usw. durchgeführt.

Einige Strategien der Datenreduktion sind:

  • Dimensionalitätsreduktion: Verringerung der Anzahl der Attribute im Datensatz.
  • Numerositätsreduktion: Ersetzen der ursprünglichen Datenmenge durch kleinere Formen der Datendarstellung.
  • Datenkompression: Komprimierte Darstellung der Originaldaten.

#4) Datentransformation

In diesem Prozess werden die Daten in eine für den Data-Mining-Prozess geeignete Form gebracht. Die Daten werden konsolidiert, so dass der Mining-Prozess effizienter wird und die Muster leichter zu verstehen sind. Die Datentransformation umfasst das Data Mapping und den Codegenerierungsprozess.

Strategien für die Datentransformation sind:

  • Glätten: Entfernen von Rauschen aus den Daten durch Clustering, Regressionstechniken usw.
  • Aggregation: Zusammenfassende Operationen werden auf Daten angewendet.
  • Normalisierung: Skalierung von Daten, damit sie in einen kleineren Bereich fallen.
  • Diskretisierung: Rohwerte von numerischen Daten werden durch Intervalle ersetzt. Beispiel: Alter.

#5) Data Mining

Data Mining ist ein Prozess zur Identifizierung interessanter Muster und Erkenntnisse aus einer großen Datenmenge. In diesen Schritten werden intelligente Muster angewendet, um die Datenmuster zu extrahieren. Die Daten werden in Form von Mustern dargestellt, und die Modelle werden mithilfe von Klassifizierungs- und Clustering-Techniken strukturiert.

#6) Musterauswertung

In diesem Schritt werden interessante Muster identifiziert, die das Wissen auf der Grundlage von Interessantheitsmaßen darstellen. Es werden Methoden zur Datenzusammenfassung und -visualisierung verwendet, um die Daten für den Benutzer verständlich zu machen.

#7) Wissensrepräsentation

Die Wissensrepräsentation ist ein Schritt, bei dem Datenvisualisierungs- und Wissensrepräsentationstools verwendet werden, um die gewonnenen Daten darzustellen. Die Daten werden in Form von Berichten, Tabellen usw. visualisiert.

Data-Mining-Prozess in Oracle DBMS

RDBMS stellt Daten in Form von Tabellen mit Zeilen und Spalten dar. Auf die Daten kann durch das Schreiben von Datenbankabfragen zugegriffen werden.

Relationale Datenbankmanagementsysteme wie Oracle unterstützen Data Mining mit CRISP-DM. Die Möglichkeiten der Oracle-Datenbank sind für die Datenaufbereitung und das Datenverständnis nützlich. Oracle unterstützt Data Mining durch eine Java-Schnittstelle, eine PL/SQL-Schnittstelle, automatisiertes Data Mining, SQL-Funktionen und grafische Benutzeroberflächen.

Data Mining Process In Datawarehouse

Ein Data Warehouse ist für eine multidimensionale Datenstruktur modelliert, die Data Cube genannt wird. Jede Zelle in einem Datenwürfel speichert den Wert einiger aggregierter Maße.

Data Mining im multidimensionalen Raum wird im OLAP-Stil (Online Analytical Processing) durchgeführt, wo es die Erkundung mehrerer Kombinationen von Dimensionen auf verschiedenen Granularitätsebenen ermöglicht.

Was sind die Anwendungen der Datenextraktion?

Die Liste der Bereiche, in denen Data Mining häufig verwendet wird, umfasst:

#1) Finanzdatenanalyse: Data Mining ist weit verbreitet im Bankwesen, bei Investitionen, Krediten, Hypotheken, Autokrediten und Versicherungen & Aktienanlagen. Die aus diesen Quellen gesammelten Daten sind vollständig, zuverlässig und von hoher Qualität. Dies erleichtert die systematische Datenanalyse und das Data Mining.

#2) Einzelhandel und Telekommunikationsbranche: Der Einzelhandelssektor sammelt riesige Datenmengen über Verkäufe, das Kaufverhalten der Kunden, den Warentransport, den Verbrauch und den Service. Data Mining im Einzelhandel hilft dabei, das Kaufverhalten der Kunden, ihre Einkaufsmuster und Trends zu erkennen, die Qualität des Kundendienstes zu verbessern und die Kundenbindung und -zufriedenheit zu erhöhen.

#3) Wissenschaft und Technik: Data Mining in der Informatik und im Ingenieurwesen kann helfen, den Systemstatus zu überwachen, die Systemleistung zu verbessern, Softwarefehler zu isolieren, Softwareplagiate zu erkennen und Systemfehlfunktionen zu erkennen.

#4) Intrusion Detection and Prevention: Intrusion wird definiert als eine Reihe von Aktionen, die die Integrität, Vertraulichkeit oder Verfügbarkeit von Netzwerkressourcen bedrohen. Data-Mining-Methoden können bei der Erkennung und Verhinderung von Eindringlingen helfen, die Leistung des Systems zu verbessern.

#5) Recommender Systems: Empfehlungssysteme helfen den Verbrauchern, indem sie Produktempfehlungen geben, die für die Benutzer von Interesse sind.

Herausforderungen des Data Mining

Nachfolgend sind die verschiedenen Herausforderungen aufgeführt, die mit Data Mining verbunden sind.

  1. Data Mining erfordert große Datenbanken und Datensammlungen, die schwer zu verwalten sind.
  2. Der Data-Mining-Prozess erfordert Fachleute, die wiederum schwer zu finden sind.
  3. Die Integration von heterogenen Datenbanken ist ein komplexer Prozess.
  4. Die organisatorischen Abläufe müssen geändert werden, um die Data-Mining-Ergebnisse zu nutzen. Die Umstrukturierung des Prozesses erfordert Aufwand und Kosten.

Fazit

Data Mining ist ein iterativer Prozess, bei dem der Mining-Prozess verfeinert und neue Daten integriert werden können, um effizientere Ergebnisse zu erzielen. Data Mining erfüllt die Anforderung einer effektiven, skalierbaren und flexiblen Datenanalyse.

Es kann als eine natürliche Auswertung der Informationstechnologie betrachtet werden. Als Wissensentdeckungsprozess vervollständigen Datenaufbereitung und Data-Mining-Aufgaben den Data-Mining-Prozess.

Data-Mining-Prozesse können mit jeder Art von Daten durchgeführt werden, z. B. mit Datenbankdaten und erweiterten Datenbanken wie Zeitreihen usw. Der Data-Mining-Prozess bringt auch seine eigenen Herausforderungen mit sich.

Bleiben Sie dran für unser nächstes Tutorial, um mehr über Data-Mining-Beispiele zu erfahren!!!

PREV Tutorial | NEXT Tutorial

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.