Data Mining Proces: Modellen, processtappen en uitdagingen

Deze tutorial over datamining behandelt dataminingmodellen, -stappen en -uitdagingen in het gegevensextractieproces:

Dataminingtechnieken werden in detail uitgelegd in onze vorige tutorial in deze volledige dataminingopleiding voor iedereen. Data Mining is een veelbelovend gebied in de wereld van wetenschap en technologie.

Data Mining, die ook bekend staat als Knowledge Discovery in Databases is een proces van het ontdekken van nuttige informatie uit grote hoeveelheden gegevens die zijn opgeslagen in databases en data warehouses. Deze analyse wordt uitgevoerd voor besluitvormingsprocessen in de bedrijven.

Data Mining wordt uitgevoerd met behulp van verschillende technieken, zoals clustering, associatie, en sequentiële patroonanalyse & beslisboom.

Data Mining Proces

Wat is Data Mining?

Data Mining is een proces van het ontdekken van interessante patronen en kennis uit grote hoeveelheden gegevens. De gegevensbronnen kunnen databases, data warehouses, het web, en andere informatie repositories of gegevens die worden gestreamd in het systeem dynamisch.

Why Do Businesses Need Data Extraction?

Met de komst van Big Data, is datamining meer gangbaar geworden. Big data zijn extreem grote gegevensverzamelingen die door computers kunnen worden geanalyseerd om bepaalde patronen, verbanden en trends te onthullen die door mensen kunnen worden begrepen. Big data bevatten uitgebreide informatie over uiteenlopende soorten en gevarieerde inhoud.

Dus met deze hoeveelheid gegevens zou eenvoudige statistiek met handmatige tussenkomst niet werken. Deze behoefte wordt vervuld door het dataminingproces. Dit leidt tot verandering van eenvoudige datastatistieken in complexe datamining-algoritmen.

Het dataminingproces zal relevante informatie extraheren uit ruwe gegevens zoals transacties, foto’s, video’s, platte bestanden en de informatie automatisch verwerken om rapporten te genereren die nuttig zijn voor bedrijven om actie te ondernemen.

Het dataminingproces is dus van cruciaal belang voor bedrijven om betere beslissingen te nemen door patronen & trends in gegevens te ontdekken, de gegevens samen te vatten en er relevante informatie uit te halen.

Data Extractie Als Een Proces

Elk bedrijfsprobleem zal de ruwe gegevens onderzoeken om een model te bouwen dat de informatie zal beschrijven en de rapporten zal voortbrengen die door het bedrijf kunnen worden gebruikt. Het bouwen van een model uit gegevensbronnen en gegevensformaten is een iteratief proces, omdat de ruwe gegevens beschikbaar zijn in veel verschillende bronnen en vele vormen.

Data neemt toe met de dag, dus wanneer een nieuwe gegevensbron wordt gevonden, kan het de resultaten veranderen.

Hieronder volgt een schets van het proces.

Outline of Data Mining Process

Data Mining Models

Veel industrieën, zoals productie, marketing, chemie en lucht- en ruimtevaart, maken gebruik van datamining. De vraag naar standaard en betrouwbare dataminingprocessen is dan ook drastisch toegenomen.

De belangrijke dataminingmodellen zijn:

#1) Cross-Industry Standard Process for Data Mining (CRISP-DM)

CRISP-DM is een betrouwbaar dataminingmodel dat bestaat uit zes fasen. Het is een cyclisch proces dat een gestructureerde benadering biedt van het dataminingproces. De zes fasen kunnen in elke volgorde worden uitgevoerd, maar soms is het nodig terug te keren naar de vorige stappen en acties te herhalen.

De zes fasen van CRISP-DM omvatten:

#1) Business Understanding: In deze stap worden de doelstellingen van de bedrijven vastgesteld en worden de belangrijke factoren ontdekt die zullen helpen bij het bereiken van het doel.

#2) Data Understanding: Deze stap zal de volledige gegevens verzamelen en de gegevens in het hulpmiddel (als het gebruiken van om het even welk hulpmiddel) bevolken. De gegevens worden vermeld met zijn gegevensbron, plaats, hoe het wordt verworven en als om het even welk probleem tegenkwam. De gegevens worden gevisualiseerd en bevraagd om de volledigheid ervan te controleren.

#3) Gegevensvoorbereiding: Deze stap omvat het selecteren van de juiste gegevens, het opschonen, het construeren van attributen uit gegevens, het integreren van gegevens uit meerdere databases.

#4) Modellering: Selectie van de dataminingtechniek zoals decision-tree, genereren van testontwerp voor evaluatie van het geselecteerde model, bouwen van modellen uit de dataset en beoordelen van het gebouwde model met deskundigen om het resultaat te bespreken, gebeurt in deze stap.

#5) Evaluatie: In deze stap wordt bepaald in welke mate het resulterende model voldoet aan de business requirements. Evaluatie kan worden gedaan door het model op echte toepassingen te testen. Het model wordt beoordeeld op eventuele fouten of stappen die moeten worden herhaald.

#6) Deployment: In deze stap wordt een invoeringsplan gemaakt, een strategie om de resultaten van het dataminingmodel te bewaken en te onderhouden om de bruikbaarheid ervan te controleren, worden eindrapporten gemaakt en wordt het hele proces geëvalueerd om eventuele fouten te controleren en te zien of een stap moet worden herhaald.

CRISP - DM Model

#2) SEMMA (Sample, Explore, Modify, Model, Assess)

SEMMA is een andere dataminingmethodologie die is ontwikkeld door het SAS Institute. Het acroniem SEMMA staat voor sample, explore, modify, model, assess.

SEMMA maakt het eenvoudig om verkennende statistische en visualisatietechnieken toe te passen, de significante voorspelde variabelen te selecteren en te transformeren, een model te maken met behulp van de variabelen om zo tot het resultaat te komen, en de nauwkeurigheid ervan te controleren. SEMMA wordt ook aangestuurd door een zeer iteratieve cyclus.

SEMMA

Stappen in SEMMA

  1. Steekproef: In deze stap wordt een grote dataset geëxtraheerd en wordt een steekproef genomen die de volledige gegevens vertegenwoordigt. Steekproeven verminderen de computerkosten en de verwerkingstijd.
  2. Verkennen: De gegevens worden verkend op eventuele uitbijters en anomalieën voor een beter begrip van de gegevens. De gegevens worden visueel gecontroleerd om de trends en groeperingen te achterhalen.
  3. Modify: In deze stap wordt de manipulatie van de gegevens, zoals groepering en subgroepering, gedaan door het model dat moet worden gebouwd in het oog te houden.
  4. Model: Op basis van de verkenningen en modificaties worden de modellen geconstrueerd die de patronen in de gegevens verklaren.
  5. Beoordelen: De bruikbaarheid en betrouwbaarheid van het geconstrueerde model worden in deze stap beoordeeld. Hier wordt het model aan de hand van reële gegevens getest.

Zowel de SEMMA- als de CRISP-benadering werken voor het Knowledge Discovery Process. Als de modellen eenmaal zijn gebouwd, worden ze ingezet voor het bedrijfsleven en voor onderzoekswerk.

Stappen in het dataminingproces

Het dataminingproces bestaat uit twee delen, namelijk data preprocessing en data mining. Bij data preprocessing worden gegevens opgeschoond, geïntegreerd, gereduceerd en getransformeerd. Het dataminingdeel voert datamining, patroonevaluatie en kennisrepresentatie van gegevens uit.

Dataminingproces - Stappen

Verschillende stappen in het dataminingproces

Waarom worden de gegevens voorbewerkt?

Er zijn veel factoren die de bruikbaarheid van gegevens bepalen, zoals nauwkeurigheid, volledigheid, consistentie, tijdigheid. De gegevens moeten van goede kwaliteit zijn als ze aan het beoogde doel beantwoorden. Voorbewerking is dus cruciaal in het dataminingsproces. De belangrijkste stappen in het voorbewerken van gegevens worden hieronder toegelicht.

#1) Gegevens opschonen

Gegevens opschonen is de eerste stap in datamining. Het is een belangrijke stap omdat vuile gegevens, indien rechtstreeks gebruikt voor mijnbouw, verwarring kunnen veroorzaken in de procedures en onnauwkeurige resultaten kunnen opleveren.

Basically, this step involves the removal of noisy or incomplete data from the collection. Veel methoden die in het algemeen gegevens schoon te maken door zelf beschikbaar zijn, maar ze zijn niet robuust.

Deze stap voert de routine schoonmaak werk door:

(i) Vul De ontbrekende gegevens:

De ontbrekende gegevens kunnen worden gevuld door methoden zoals:

  • Ignoring de tuple.
  • De ontbrekende waarde handmatig invullen.
  • De mate van centrale tendens gebruiken, de mediaan of
  • de meest waarschijnlijke waarde invullen.

(ii) De ruisende gegevens verwijderen: Willekeurige fouten noemt men ruisachtige gegevens.

Methoden om ruis te verwijderen zijn :

Binning: Binning methoden worden toegepast door het sorteren van waarden in emmers of bins. Afvlakking wordt uitgevoerd door het raadplegen van de aangrenzende waarden.

Binning wordt gedaan door afvlakking per bin, d.w.z. elke bin wordt vervangen door het gemiddelde van de bin. Afvlakken met een mediaan, waarbij elke bin-waarde wordt vervangen door een bin-mediaan. Smoothing by bin boundaries, d.w.z. de minimum- en maximumwaarden in de bin zijn bin boundaries en elke bin waarde wordt vervangen door de dichtstbijzijnde boundary value.

  • Identifying the Outliers
  • Resolving Inconsististenties

#2) Data Integration

Wanneer meerdere heterogene gegevensbronnen zoals databases, data cubes of bestanden worden gecombineerd voor analyse, wordt dit proces data integratie genoemd. Dit kan helpen bij het verbeteren van de nauwkeurigheid en snelheid van het dataminingproces.

Verschillende databases hebben verschillende naamgevingsconventies van variabelen, waardoor redundanties in de databases ontstaan. Extra Data Cleaning kan worden uitgevoerd om de redundanties en inconsistenties uit de data-integratie te verwijderen zonder de betrouwbaarheid van de gegevens aan te tasten.

Data Integratie kan worden uitgevoerd met behulp van Data Migratie Tools zoals Oracle Data Service Integrator en Microsoft SQL etc.

#3) Data Reduction

Deze techniek wordt toegepast om relevante gegevens voor analyse te verkrijgen uit de verzameling van gegevens. De omvang van de representatie is veel kleiner in volume met behoud van integriteit. Gegevensreductie wordt uitgevoerd met methoden als Naive Bayes, Beslisbomen, Neuraal netwerk, enz.

Enkele strategieën van gegevensreductie zijn:

  • Vermindering van de dimensionaliteit: Vermindering van het aantal attributen in de dataset.
  • Numerositeitsreductie: Vervanging van het oorspronkelijke gegevensvolume door kleinere vormen van gegevensrepresentatie.
  • Gegevenscompressie: Gecomprimeerde weergave van de oorspronkelijke gegevens.

#4) Datatransformatie

In dit proces worden de gegevens getransformeerd in een vorm die geschikt is voor het dataminingproces. De gegevens worden geconsolideerd, zodat het ontginningsproces efficiënter verloopt en de patronen beter te begrijpen zijn. Datatransformatie omvat het proces van datamapping en het genereren van codes.

Strategieën voor datatransformatie zijn:

  • Afvlakken: het verwijderen van ruis uit gegevens met behulp van clustering, regressietechnieken, enz.
  • Aggregatie: Samenvattende bewerkingen worden toegepast op gegevens.
  • Normalisatie: Schaling van gegevens om binnen een kleiner bereik te vallen.
  • Discretisering: Ruwe waarden van numerieke gegevens worden vervangen door intervallen. Bijvoorbeeld, Leeftijd.

#5) Data Mining

Data Mining is een proces om interessante patronen en kennis te identificeren uit een grote hoeveelheid gegevens. In deze stappen worden intelligente patronen toegepast om de gegevenspatronen te extraheren. De gegevens worden voorgesteld in de vorm van patronen en modellen worden gestructureerd met behulp van classificatie- en clusteringstechnieken.

#6) Patroonevaluatie

In deze stap worden interessante patronen geïdentificeerd die de kennis vertegenwoordigen op basis van interessantheidsmaatstaven. Methoden voor het samenvatten en visualiseren van gegevens worden gebruikt om de gegevens begrijpelijk te maken voor de gebruiker.

#7) Kennisrepresentatie

Kennisrepresentatie is een stap waarbij tools voor datavisualisatie en kennisrepresentatie worden gebruikt om de ontgonnen gegevens te representeren. Gegevens worden gevisualiseerd in de vorm van rapporten, tabellen, enz.

Data Mining Process In Oracle DBMS

RDBMS vertegenwoordigt gegevens in de vorm van tabellen met rijen en kolommen. De gegevens kunnen worden geraadpleegd door database-query’s te schrijven.

Relationele databasemanagementsystemen zoals Oracle ondersteunen datamining met behulp van CRISP-DM. De faciliteiten van de Oracle-database zijn nuttig bij de voorbereiding en het begrip van gegevens. Oracle ondersteunt datamining door middel van java-interface, PL/SQL-interface, geautomatiseerde datamining, SQL-functies en grafische gebruikersinterfaces.

Data Mining Proces In Datawarehouse

Een data warehouse is gemodelleerd voor een multidimensionale gegevensstructuur genaamd data cube. Elke cel in een datakubus slaat de waarde van een aantal geaggregeerde maatregelen.

Data mining in multidimensionale ruimte uitgevoerd in OLAP-stijl (Online Analytical Processing), waar het mogelijk maakt de verkenning van meerdere combinaties van dimensies op verschillende niveaus van granulariteit.

Wat zijn de toepassingen van data extractie?

Lijst van gebieden waar data mining wordt op grote schaal gebruikt omvat:

#1) Financiële data-analyse: Data Mining wordt veel gebruikt in het bankwezen, investeringen, kredietdiensten, hypotheken, autoleningen, en verzekeringen & aandelenbeleggingsdiensten. De uit deze bronnen verzamelde gegevens zijn volledig, betrouwbaar en van hoge kwaliteit. Dit vergemakkelijkt systematische gegevensanalyse en datamining.

#2) Detailhandel en telecommunicatie: De detailhandel verzamelt enorme hoeveelheden gegevens over de verkoop, de winkelgeschiedenis van klanten, het vervoer van goederen, consumptie en service. Retail data mining helpt bij het identificeren van koopgedrag van klanten, winkelpatronen van klanten en trends, het verbeteren van de kwaliteit van de klantenservice, betere klantenbinding en tevredenheid.

#3) Wetenschap en techniek: Data mining computerwetenschap en engineering kan helpen om de systeemstatus te controleren, de systeemprestaties te verbeteren, software bugs te isoleren, software plagiaat op te sporen, en systeemstoringen te herkennen.

#4) Inbraakdetectie en -preventie: Intrusion wordt gedefinieerd als elke reeks handelingen die de integriteit, vertrouwelijkheid of beschikbaarheid van netwerkbronnen bedreigen. Dataminingmethoden kunnen helpen bij inbraakdetectie- en -preventiesystemen om de prestaties ervan te verbeteren.

#5) Aanbevelingssystemen: Recommender systems help consumers by making product recommendations that are of interest to users.

Data Mining Challenges

Enlisted below are the various challenges involved in Data Mining.

  1. Data Mining needs large databases and data collection that are difficult to manage.
  2. Het dataminingproces vereist domeinexperts die weer moeilijk te vinden zijn.
  3. Integratie vanuit heterogene databases is een complex proces.
  4. De werkwijzen op organisatieniveau moeten worden aangepast om de dataminingresultaten te kunnen gebruiken. Het herstructureren van het proces vergt inspanning en kosten.

Conclusie

Datamining is een iteratief proces waarbij het ontginningsproces kan worden verfijnd, en nieuwe gegevens kunnen worden geïntegreerd om efficiëntere resultaten te verkrijgen. Data Mining voldoet aan de eis van effectieve, schaalbare en flexibele gegevensanalyse.

Het kan worden beschouwd als een natuurlijke evaluatie van de informatietechnologie. Als een kennisontdekkingsproces voltooien gegevensvoorbereiding en dataminingtaken het dataminingproces.

Dataminingprocessen kunnen worden uitgevoerd op elk soort gegevens, zoals databasegegevens en geavanceerde databases, zoals tijdreeksen enz. Het dataminingproces brengt ook zijn eigen uitdagingen met zich mee.

Blijf op de hoogte van onze volgende tutorial om meer te weten te komen over Data Mining Voorbeelden!!

VORIGE Tutorial | VOLGENDE Tutorial

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.