Denne tutorial om Data Mining-processen dækker Data Mining-modeller, trin og udfordringer, der er involveret i dataudvindingsprocessen:
Data Mining-teknikker blev forklaret i detaljer i vores tidligere tutorial i denne komplette Data Mining-uddannelse for alle. Data Mining er et lovende område inden for videnskab og teknologi.
Data Mining, som også er kendt som Knowledge Discovery in Databases, er en proces til at opdage nyttige oplysninger fra store mængder data, der er gemt i databaser og datalagre. Denne analyse foretages med henblik på beslutningsprocesser i virksomhederne.
Data Mining udføres ved hjælp af forskellige teknikker såsom clustering, association og sekventiel mønsteranalyse & beslutningstræ.
Hvad er Data Mining?
Data Mining er en proces til at opdage interessante mønstre og viden fra store mængder af data. Datakilderne kan omfatte databaser, datawarehouses, internettet og andre informationslagre eller data, der strømmer dynamisk ind i systemet.
Hvorfor har virksomheder brug for dataudtrækning?
Med fremkomsten af Big Data er data mining blevet mere udbredt. Big data er ekstremt store datasæt, som kan analyseres af computere for at afsløre visse mønstre, sammenhænge og tendenser, som kan forstås af mennesker. Big data har omfattende oplysninger om varierede typer og varieret indhold.
Så med denne mængde data ville simpel statistik med manuel indgriben ikke fungere. Dette behov opfyldes af data mining-processen. Dette fører til en ændring fra simpel datastatistik til komplekse data mining-algoritmer.
Data mining-processen vil udtrække relevante oplysninger fra rå data såsom transaktioner, fotos, videoer, flade filer og automatisk behandle oplysningerne for at generere rapporter, der er nyttige for virksomheder til at træffe foranstaltninger.
Da data mining-processen er således afgørende for, at virksomheder kan træffe bedre beslutninger ved at opdage mønstre & tendenser i data, opsummere dataene og tage relevante oplysninger ud.
Dataudtrækning som proces
Alle forretningsproblemer vil undersøge de rå data for at opbygge en model, der vil beskrive oplysningerne og frembringe de rapporter, der kan bruges af virksomheden. Opbygning af en model fra datakilder og dataformater er en iterativ proces, da de rå data er tilgængelige i mange forskellige kilder og mange former.
Data vokser dag for dag, og derfor kan det ændre resultaterne, når en ny datakilde findes, når der findes en ny datakilde.
Nedenfor er en oversigt over processen.
Data Mining Models
Mange brancher som fremstilling, markedsføring, kemi og luft- og rumfart udnytter data mining. Derfor er efterspørgslen efter standardiserede og pålidelige data mining-processer steget drastisk.
De vigtige data mining-modeller omfatter:
#1) Cross-Industry Standard Process for Data Mining (CRISP-DM)
CRISP-DM er en pålidelig data mining-model, der består af seks faser. Det er en cyklisk proces, der giver en struktureret tilgang til data mining-processen. De seks faser kan gennemføres i en hvilken som helst rækkefølge, men det vil undertiden kræve tilbagesøgning til de tidligere trin og gentagelse af handlinger.
De seks faser i CRISP-DM omfatter:
#1) Forretningsforståelse: I dette trin fastsættes virksomhedens mål, og de vigtige faktorer, der vil bidrage til at nå målet, afdækkes.
#2) Dataforståelse: Dette trin indsamler alle data og udfylder dataene i værktøjet (hvis der anvendes et værktøj). Dataene er opført med deres datakilde, placering, hvordan de er erhvervet, og om der er opstået problemer. Dataene visualiseres og forespørges for at kontrollere, om de er fuldstændige.
#3) Datapræparation: Dette trin omfatter udvælgelse af de relevante data, rensning, konstruktion af attributter fra data, integration af data fra flere databaser.
#4) Modellering: Dette trin omfatter: Valg af data mining-teknik som f.eks. beslutningstræ, generering af testdesign til evaluering af den valgte model, opbygning af modeller fra datasættet og vurdering af den opbyggede model med eksperter for at drøfte resultatet.
#5) Evaluering: Dette trin vil bestemme, i hvilken grad den resulterende model opfylder forretningskravene. Evaluering kan foretages ved at teste modellen på reelle applikationer. Modellen gennemgås for eventuelle fejl eller trin, der bør gentages.
#6) Udrulning: I dette trin udarbejdes en implementeringsplan, der udarbejdes en strategi for overvågning og vedligeholdelse af data mining-modellens resultater for at kontrollere dens anvendelighed, der udarbejdes slutrapporter, og hele processen gennemgås for at kontrollere eventuelle fejl og se, om et trin skal gentages.
#2) SEMMA (Sample, Explore, Modify, Model, Assess)
SEMMA er en anden data mining-metode, der er udviklet af SAS Institute. Akronymet SEMMA står for sample, explore, modify, model, assess.
SEMMA gør det nemt at anvende udforskende statistiske og visualiseringsteknikker, udvælge og transformere de signifikante forudsagte variabler, oprette en model ved hjælp af variablerne for at komme frem til resultatet og kontrollere dens nøjagtighed. SEMMA er også drevet af en meget iterativ cyklus.
Strækninger i SEMMA
- Prøve: I dette trin udtages et stort datasæt, og der udtages en prøve, som repræsenterer alle dataene. Udtagning af stikprøver vil reducere beregningsomkostningerne og behandlingstiden.
- Udforsk: Dataene udforskes for eventuelle outlier og anomalier for at opnå en bedre forståelse af dataene. Dataene kontrolleres visuelt for at finde frem til tendenser og grupperinger.
- Ændre: I dette trin foretages manipulation af data som f.eks. gruppering og undergruppering ved at holde fokus på den model, der skal opbygges.
- Model: På grundlag af udforskningerne og ændringerne konstrueres de modeller, der forklarer mønstrene i dataene.
- Vurdere: I dette trin vurderes anvendeligheden og pålideligheden af den konstruerede model. Test af modellen i forhold til reelle data foretages her.
Både SEMMA- og CRISP-tilgangen fungerer i forbindelse med Knowledge Discovery-processen. Når modellerne er bygget, anvendes de til virksomheder og forskningsarbejde.
Strin i data mining-processen
Data mining-processen er opdelt i to dele, nemlig dataforbehandling og datamining. Forbehandling af data omfatter datarengøring, dataintegration, datareduktion og datatransformation. Data mining-delen udfører data mining, mønstervurdering og vidensrepræsentation af data.
Hvorfor forbehandler vi dataene?
Der er mange faktorer, der bestemmer dataenes anvendelighed, f.eks. nøjagtighed, fuldstændighed, konsistens og aktualitet. Dataene skal have kvalitet, hvis de opfylder det tilsigtede formål. Forbehandling er således afgørende i data mining-processen. De vigtigste trin i forbehandlingen af data er forklaret nedenfor.
#1) Datarengøring
Datarengøring er det første trin i data mining. Det har betydning, da snavsede data, hvis de anvendes direkte i mining, kan skabe forvirring i procedurerne og give unøjagtige resultater.
Grundlæggende indebærer dette trin, at støjende eller ufuldstændige data fjernes fra indsamlingen. Der findes mange metoder, der generelt renser data i sig selv, men de er ikke robuste.
Dette trin udfører det rutinemæssige rensningsarbejde ved:
(i) Fyld de manglende data:
Manglende data kan udfyldes ved hjælp af metoder som:
- Ignorering af tuplen.
- Fylde den manglende værdi manuelt.
- Brug mål for central tendens, median eller
- Fylde den mest sandsynlige værdi.
(ii) Fjern de støjende data: Tilfældige fejl kaldes støjende data.
Metoder til at fjerne støj er :
Binning: Binning-metoder anvendes ved at sortere værdier i spande eller bins. Udglatning udføres ved at konsultere naboværdierne.
Binning sker ved udglatning pr. bin, dvs. at hver bin erstattes af middelværdien for bin’en. Glatning ved en median, hvor hver bin-værdi erstattes af en bin-median. Glatning ved bin-grænser, dvs. minimum- og maksimumværdierne i bin’en er bin-grænser, og hver bin-værdi erstattes af den nærmeste grænseværdi.
#2) Dataintegration
Når flere heterogene datakilder såsom databaser, datakuber eller filer kombineres med henblik på analyse, kaldes denne proces for dataintegration. Dette kan bidrage til at forbedre nøjagtigheden og hastigheden af data mining-processen.
Differente databaser har forskellige navnekonventioner for variabler, ved at forårsage redundans i databaserne. Der kan udføres yderligere datarensning for at fjerne redundanserne og inkonsekvenserne fra dataintegrationen uden at påvirke pålideligheden af dataene.
Dataintegration kan udføres ved hjælp af datamigreringsværktøjer som Oracle Data Service Integrator og Microsoft SQL osv.
#3) Datareduktion
Denne teknik anvendes til at få relevante data til analyse fra indsamlingen af data. Størrelsen af repræsentationen er meget mindre i volumen, samtidig med at integriteten bevares. Datareduktion udføres ved hjælp af metoder som Naive Bayes, beslutningstræer, neurale netværk osv.
Nogle strategier for datareduktion er:
- Dimensionalitetsreduktion: Reduktion af antallet af attributter i datasættet.
- Numerositetsreduktion: Reduktion af antallet af attributter i datasættet:
- Datakomprimering: Erstatning af den oprindelige datamængde med mindre former for datarepræsentation: Komprimeret repræsentation af de oprindelige data.
#4) Datatransformation
I denne proces transformeres data til en form, der er egnet til dataminingprocessen. Data konsolideres, så minedriftsprocessen bliver mere effektiv, og mønstrene bliver lettere at forstå. Datatransformation omfatter datakortlægning og kodegenereringsprocessen.
Strategier til datatransformation er:
- Udglatning: Fjernelse af støj fra data ved hjælp af clustering, regressionsteknikker osv.
- Aggregering:
- Normalisering: Sammenfatningsoperationer anvendes på data.
- Normalisering: Skaleres data, så de falder inden for et mindre interval.
- Diskretisering: Råværdier af numeriske data erstattes af intervaller. For eksempel alder.
#5) Data Mining
Data Mining er en proces til at identificere interessante mønstre og viden fra en stor mængde data. I disse trin anvendes intelligente mønstre til at udtrække datamønstre. Dataene repræsenteres i form af mønstre, og modellerne struktureres ved hjælp af klassifikations- og klyngeteknikker.
#6) Mønstervurdering
Dette trin indebærer identifikation af interessante mønstre, der repræsenterer viden baseret på mål for interessanthed. Datasammenfatning og visualiseringsmetoder anvendes til at gøre dataene forståelige for brugeren.
#7) Vidensrepræsentation
Vidensrepræsentation er et trin, hvor datavisualisering og vidensrepræsentationsværktøjer anvendes til at repræsentere de minede data. Data visualiseres i form af rapporter, tabeller osv.
Data Mining Process In Oracle DBMS
RDBMS repræsenterer data i form af tabeller med rækker og kolonner. Data kan tilgås ved at skrive databaseforespørgsler.
Relationelle databasestyringssystemer som Oracle understøtter Data mining ved hjælp af CRISP-DM. Faciliteterne i Oracle-databasen er nyttige ved forberedelse og forståelse af data. Oracle understøtter data mining via java-interface, PL/SQL-interface, automatiseret data mining, SQL-funktioner og grafiske brugergrænseflader.
Data Mining Process In Datawarehouse
Et datawarehouse er modelleret til en flerdimensional datastruktur kaldet datakube. Hver celle i en datakube gemmer værdien af nogle aggregerede foranstaltninger.
Data mining i flerdimensionale rum udføres i OLAP-stil (Online Analytical Processing), hvor det giver mulighed for at udforske flere kombinationer af dimensioner på forskellige granularitetsniveauer.
Hvad er anvendelserne af dataudvinding?
Listen over områder, hvor data mining er meget anvendt, omfatter:
#1) Finansiel dataanalyse: Data Mining er meget udbredt inden for bankvæsen, investering, kredittjenester, realkreditlån, billån og forsikring & aktieinvesteringstjenester. De data, der indsamles fra disse kilder, er komplette, pålidelige og er af høj kvalitet. Dette letter systematisk dataanalyse og data mining.
#2) Detailhandel og telekommunikationsindustri: Detailsektoren indsamler enorme mængder af data om salg, kundernes indkøbshistorik, varetransport, forbrug og service. Data mining i detailhandlen hjælper med at identificere kundernes købsadfærd, kundemønstre og tendenser, forbedre kvaliteten af kundeservice, bedre kundefastholdelse og tilfredshed.
#3) Videnskab og teknik: Data mining inden for datalogi og teknik kan hjælpe med at overvåge systemstatus, forbedre systemets ydeevne, isolere softwarefejl, opdage softwareplagiat og genkende systemfejl.
#4) Indbrudsdetektering og -forebyggelse: Intrusion defineres som enhver række handlinger, der truer netværksressourcernes integritet, fortrolighed eller tilgængelighed. Data mining-metoder kan bidrage til at forbedre indbrudsdetekterings- og -forebyggelsessystemet med henblik på at forbedre dets ydeevne.
#5) Anbefalingssystemer: Anbefalingssystemer hjælper forbrugerne ved at give produktanbefalinger, der er af interesse for brugerne.
Data Mining Udfordringer
Nedenfor er anført de forskellige udfordringer, der er involveret i Data Mining.
- Data Mining kræver store databaser og dataindsamling, der er vanskelige at administrere.
- Data mining-processen kræver domæneeksperter, som igen er svære at finde.
- Integration fra heterogene databaser er en kompleks proces.
- Den organisatoriske praksis skal ændres for at kunne bruge data mining-resultaterne. Omstrukturering af processen kræver indsats og omkostninger.
Konklusion
Data Mining er en iterativ proces, hvor miningprocessen kan forfines, og nye data kan integreres for at få mere effektive resultater. Data Mining opfylder kravet om effektiv, skalerbar og fleksibel dataanalyse.
Det kan betragtes som en naturlig evaluering af informationsteknologi. Som en videnopdagelsesproces fuldender dataforberedelses- og data mining-opgaver data mining-processen.
Data mining-processer kan udføres på alle former for data såsom databasedata og avancerede databaser som f.eks. tidsserier osv. Data mining-processen kommer også med sine egne udfordringer.
Stay tuned to stay tuned to our upcoming tutorial to know more about Data Mining Examples!!!
PREV Tutorial | NEXT Tutorial