Processo di estrazione dei dati: Modelli, fasi del processo e sfide coinvolte

Questo tutorial sul processo di Data Mining copre i modelli di Data Mining, le fasi e le sfide coinvolte nel processo di estrazione dei dati:

Le tecniche di Data Mining sono state spiegate in dettaglio nel nostro tutorial precedente in questo corso completo di Data Mining per tutti. Data Mining è un campo promettente nel mondo della scienza e della tecnologia.

Data Mining, che è anche conosciuto come Knowledge Discovery in Databases è un processo di scoperta di informazioni utili da grandi volumi di dati memorizzati in database e magazzini di dati. Questa analisi viene fatta per i processi decisionali nelle aziende.

Il Data Mining viene effettuato usando varie tecniche come il clustering, l’associazione e l’analisi sequenziale dei modelli &ad albero decisionale.

Processo di Data Mining

Cosa è il Data Mining?

Il Data Mining è un processo di scoperta di modelli e conoscenze interessanti da grandi quantità di dati. Le fonti di dati possono includere database, magazzini di dati, il web e altri depositi di informazioni o dati che vengono immessi nel sistema in modo dinamico.

Perché le aziende hanno bisogno dell’estrazione dei dati?

Con l’avvento dei Big Data, il data mining è diventato più prevalente. I Big Data sono insiemi di dati estremamente grandi che possono essere analizzati dai computer per rivelare certi modelli, associazioni e tendenze che possono essere compresi dagli umani. I big data hanno informazioni estese su vari tipi e contenuti.

Quindi con questa quantità di dati, la semplice statistica con intervento manuale non funzionerebbe. Questa necessità è soddisfatta dal processo di data mining. Questo porta al cambiamento da semplici statistiche di dati a complessi algoritmi di data mining.

Il processo di data mining estrarrà informazioni rilevanti da dati grezzi come transazioni, foto, video, file piatti ed elaborerà automaticamente le informazioni per generare rapporti utili alle aziende per intraprendere azioni.

Quindi, il processo di data mining è cruciale per le aziende per prendere decisioni migliori scoprendo modelli &tendenze nei dati, riassumendo i dati e tirando fuori informazioni rilevanti.

L’estrazione dei dati come un processo

Ogni problema di business esaminerà i dati grezzi per costruire un modello che descriverà le informazioni e tirerà fuori i rapporti da usare per il business. Costruire un modello da fonti e formati di dati è un processo iterativo, poiché i dati grezzi sono disponibili in molte fonti diverse e in molte forme.

I dati aumentano di giorno in giorno, quindi quando si trova una nuova fonte di dati, può cambiare i risultati.

Di seguito è riportato lo schema del processo.

Schema del processo di Data Mining

Modelli di Data Mining

Molte industrie come la produzione, il marketing, la chimica e l’aerospaziale stanno traendo vantaggio dal data mining. Quindi la richiesta di processi di data mining standard e affidabili è aumentata drasticamente.

I modelli di data mining importanti includono:

#1) Cross-Industry Standard Process for Data Mining (CRISP-DM)

CRISP-DM è un modello di data mining affidabile che consiste di sei fasi. È un processo ciclico che fornisce un approccio strutturato al processo di data mining. Le sei fasi possono essere implementate in qualsiasi ordine, ma a volte richiederebbe il ritorno alle fasi precedenti e la ripetizione delle azioni.

Le sei fasi di CRISP-DM includono:

#1) Comprensione del business: In questa fase, vengono stabiliti gli obiettivi del business e vengono scoperti i fattori importanti che aiuteranno a raggiungere l’obiettivo.

#2) Comprensione dei dati: Questo passo raccoglierà tutti i dati e li popolerà nello strumento (se si usa uno strumento). I dati sono elencati con la loro fonte, la posizione, come sono stati acquisiti e se ci sono problemi incontrati. I dati vengono visualizzati e interrogati per controllarne la completezza.

#3) Preparazione dei dati: Questa fase comporta la selezione dei dati appropriati, la pulizia, la costruzione di attributi dai dati, l’integrazione dei dati da più database.

#4) Modellazione: Selezione della tecnica di data mining come l’albero decisionale, generare un progetto di test per valutare il modello selezionato, costruire modelli dal set di dati e valutare il modello costruito con esperti per discutere il risultato è fatto in questa fase.

#5) Valutazione: Questo passo determina il grado in cui il modello risultante soddisfa i requisiti di business. La valutazione può essere fatta testando il modello su applicazioni reali. Il modello viene rivisto per eventuali errori o passi che dovrebbero essere ripetuti.

#6) Distribuzione: In questa fase si fa un piano di distribuzione, si forma una strategia per monitorare e mantenere i risultati del modello di data mining per controllare la sua utilità, si fanno rapporti finali e si rivede l’intero processo per controllare eventuali errori e vedere se qualche passo va ripetuto.

CRISP - Modello DM

#2) SEMMA (Sample, Explore, Modify, Model, Assess)

SEMMA è un’altra metodologia di data mining sviluppata dal SAS Institute. L’acronimo SEMMA sta per sample, explore, modify, model, assess.

SEMMA facilita l’applicazione di tecniche statistiche esplorative e di visualizzazione, seleziona e trasforma le variabili significative previste, crea un modello utilizzando le variabili per ottenere il risultato e ne controlla la precisione. SEMMA è anche guidato da un ciclo altamente iterativo.

SEMMA

Fasi di SEMMA

  1. Campione: In questo passo, viene estratto un grande set di dati e viene prelevato un campione che rappresenta i dati completi. Il campionamento riduce i costi di calcolo e il tempo di elaborazione.
  2. Esplora: I dati vengono esplorati per trovare eventuali outlier e anomalie per una migliore comprensione dei dati. I dati vengono controllati visivamente per scoprire le tendenze e i raggruppamenti.
  3. Modificare: In questa fase, la manipolazione dei dati come il raggruppamento e il sottogruppo è fatto tenendo a fuoco il modello da costruire.
  4. Modello: Sulla base delle esplorazioni e delle modifiche, si costruiscono i modelli che spiegano i modelli nei dati.
  5. Valutare: L’utilità e l’affidabilità del modello costruito sono valutate in questa fase. Il test del modello contro i dati reali viene fatto qui.

Sia l’approccio SEMMA che CRISP funzionano per il processo di scoperta della conoscenza. Una volta che i modelli sono costruiti, sono distribuiti per le imprese e il lavoro di ricerca.

Fasi nel processo di estrazione dei dati

Il processo di estrazione dei dati è diviso in due parti, cioè la pre-elaborazione dei dati e l’estrazione dei dati. La pre-elaborazione dei dati coinvolge la pulizia dei dati, l’integrazione dei dati, la riduzione dei dati e la trasformazione dei dati. La parte di estrazione dei dati esegue il data mining, la valutazione dei modelli e la rappresentazione della conoscenza dei dati.

Processo di estrazione dei dati - Passi

Vari passi nel processo di estrazione dei dati

Perché pre-elaboriamo i dati?

Ci sono molti fattori che determinano l’utilità dei dati come l’accuratezza, la completezza, la coerenza, la tempestività. I dati devono essere di qualità se soddisfano lo scopo previsto. Quindi la pre-elaborazione è cruciale nel processo di data mining. I passi principali coinvolti nella pre-elaborazione dei dati sono spiegati qui sotto.

#1) Pulizia dei dati

La pulizia dei dati è il primo passo nel data mining. È importante perché i dati sporchi, se usati direttamente nel mining, possono causare confusione nelle procedure e produrre risultati imprecisi.

Fondamentalmente, questo passo comporta la rimozione dei dati rumorosi o incompleti dalla raccolta. Molti metodi che generalmente puliscono i dati da soli sono disponibili, ma non sono robusti.

Questo passo esegue il lavoro di pulizia di routine:

(i) Riempire i dati mancanti:

I dati mancanti possono essere riempiti con metodi come:

  • Ignorare la tupla.
  • Riempire il valore mancante manualmente.
  • Utilizzare la misura di tendenza centrale, mediana o
  • Riempire il valore più probabile.

(ii) Rimuovere i dati rumorosi: L’errore casuale è chiamato dati rumorosi.

I metodi per rimuovere il rumore sono :

Binning: I metodi di binning sono applicati ordinando i valori in bucket o bidoni. Lo smussamento viene eseguito consultando i valori vicini.

Il binning viene fatto smussando per bin, cioè ogni bin viene sostituito dalla media del bin. Smussamento per mediana, dove ogni valore del bin è sostituito da una mediana del bin. Smoothing by bin boundaries cioè i valori minimi e massimi nel bin sono i confini del bin e ogni valore del bin è sostituito dal valore del confine più vicino.

  • Identificare gli outliers
  • Risolvere le incongruenze

#2) Integrazione dei dati

Quando più fonti di dati eterogenei come database, cubi di dati o file sono combinati per l’analisi, questo processo è chiamato integrazione dei dati. Questo può aiutare a migliorare l’accuratezza e la velocità del processo di data mining.

Diversi database hanno diverse convenzioni di denominazione delle variabili, causando ridondanze nei database. Un’ulteriore pulizia dei dati può essere eseguita per rimuovere le ridondanze e le incoerenze dall’integrazione dei dati senza influenzare l’affidabilità dei dati.

L’integrazione dei dati può essere eseguita utilizzando strumenti di migrazione dei dati come Oracle Data Service Integrator e Microsoft SQL ecc.

#3) Riduzione dei dati

Questa tecnica viene applicata per ottenere dati rilevanti per l’analisi dalla raccolta di dati. La dimensione della rappresentazione è molto più piccola in volume pur mantenendo l’integrità. La riduzione dei dati viene eseguita usando metodi come Naive Bayes, Alberi di decisione, Rete neurale, ecc.

Alcune strategie di riduzione dei dati sono:

  • Riduzione della dimensionalità: Riduzione del numero di attributi nel set di dati.
  • Riduzione della numerosità: Sostituzione del volume originale dei dati con forme più piccole di rappresentazione dei dati.
  • Compressione dei dati: Rappresentazione compressa dei dati originali.

#4) Trasformazione dei dati

In questo processo, i dati vengono trasformati in una forma adatta al processo di data mining. I dati vengono consolidati in modo che il processo di estrazione sia più efficiente e i modelli siano più facili da capire. La trasformazione dei dati implica la mappatura dei dati e il processo di generazione del codice.

Le strategie per la trasformazione dei dati sono:

  • Smoothing: rimozione del rumore dai dati utilizzando tecniche di clustering, regressione, ecc.
  • Aggregazione: Operazioni di sintesi sono applicate ai dati.
  • Normalizzazione: Scalatura dei dati per farli rientrare in un intervallo più piccolo.
  • Discretizzazione: I valori grezzi dei dati numerici sono sostituiti da intervalli. Per esempio, l’età.

#5) Data Mining

Data Mining è un processo per identificare modelli e conoscenze interessanti da una grande quantità di dati. In queste fasi, vengono applicati modelli intelligenti per estrarre i modelli di dati. I dati sono rappresentati sotto forma di modelli e i modelli sono strutturati usando tecniche di classificazione e clustering.

#6) Pattern Evaluation

Questa fase comporta l’identificazione di modelli interessanti che rappresentano la conoscenza basata su misure di interessamento. I metodi di riepilogo e visualizzazione dei dati sono usati per rendere i dati comprensibili all’utente.

#7) Rappresentazione della conoscenza

La rappresentazione della conoscenza è una fase in cui la visualizzazione dei dati e gli strumenti di rappresentazione della conoscenza sono usati per rappresentare i dati estratti. I dati vengono visualizzati sotto forma di rapporti, tabelle, ecc.

Processo di estrazione dei dati nel DBMS Oracle

RDBMS rappresenta i dati sotto forma di tabelle con righe e colonne. Si può accedere ai dati scrivendo query al database.

I sistemi di gestione di database relazionali come Oracle supportano il Data mining usando CRISP-DM. Le strutture del database Oracle sono utili nella preparazione e comprensione dei dati. Oracle supporta il data mining attraverso l’interfaccia java, l’interfaccia PL/SQL, il data mining automatizzato, le funzioni SQL e le interfacce grafiche dell’utente.

Processo di data mining nel Datawarehouse

Un data warehouse è modellato per una struttura di dati multidimensionale chiamata data cube. Ogni cella in un cubo di dati memorizza il valore di alcune misure aggregate.

Il data mining nello spazio multidimensionale viene effettuato in stile OLAP (Online Analytical Processing) dove permette l’esplorazione di combinazioni multiple di dimensioni a vari livelli di granularità.

Quali sono le applicazioni dell’estrazione dei dati?

L’elenco delle aree dove il data mining è ampiamente usato include:

#1) Analisi dei dati finanziari: Il Data Mining è ampiamente utilizzato nel settore bancario, degli investimenti, dei servizi di credito, dei mutui, dei prestiti automobilistici e dei servizi di assicurazione &investimento azionario. I dati raccolti da queste fonti sono completi, affidabili e di alta qualità. Questo facilita l’analisi sistematica dei dati e il data mining.

#2) Industrie al dettaglio e delle telecomunicazioni: Il settore della vendita al dettaglio raccoglie enormi quantità di dati sulle vendite, la storia degli acquisti dei clienti, il trasporto delle merci, il consumo e il servizio. Il data mining al dettaglio aiuta a identificare i comportamenti di acquisto dei clienti, i modelli di acquisto dei clienti e le tendenze, a migliorare la qualità del servizio clienti, la fidelizzazione dei clienti e la soddisfazione.

#3) Scienza e ingegneria: La scienza e l’ingegneria informatica del data mining possono aiutare a monitorare lo stato del sistema, migliorare le prestazioni del sistema, isolare i bug del software, rilevare il plagio del software e riconoscere i malfunzionamenti del sistema.

#4) Rilevamento e prevenzione delle intrusioni: L’intrusione è definita come qualsiasi insieme di azioni che minacciano l’integrità, la riservatezza o la disponibilità delle risorse di rete. I metodi di data mining possono aiutare il sistema di rilevamento e prevenzione delle intrusioni a migliorare le sue prestazioni.

#5) Sistemi di raccomandazione: I sistemi di raccomandazione aiutano i consumatori facendo raccomandazioni di prodotti che sono di interesse per gli utenti.

Data Mining Challenges

Di seguito sono elencate le varie sfide coinvolte nel Data Mining.

  1. Data Mining ha bisogno di grandi banche dati e raccolta dati che sono difficili da gestire.
  2. Il processo di data mining richiede esperti di dominio che sono di nuovo difficili da trovare.
  3. L’integrazione da database eterogenei è un processo complesso.
  4. Le pratiche a livello organizzativo devono essere modificate per utilizzare i risultati del data mining. Ristrutturare il processo richiede sforzi e costi.

Conclusione

Il Data Mining è un processo iterativo dove il processo di estrazione può essere raffinato, e nuovi dati possono essere integrati per ottenere risultati più efficienti. Il Data Mining soddisfa il requisito di un’analisi dei dati efficace, scalabile e flessibile.

Può essere considerato come una valutazione naturale della tecnologia dell’informazione. Come un processo di scoperta della conoscenza, la preparazione dei dati e i compiti di data mining completano il processo di data mining.

I processi di data mining possono essere eseguiti su qualsiasi tipo di dati come i dati del database e database avanzati come le serie temporali ecc. Il processo di data mining ha anche le sue sfide.

Stai sintonizzato sul nostro prossimo tutorial per saperne di più sul Data Mining Esempi!!!

PREV Tutorial | NEXT Tutorial

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.