Proces dolování dat:

Tento tutoriál o procesu dolování dat zahrnuje modely dolování dat, kroky a výzvy spojené s procesem získávání dat:

Techniky dolování dat byly podrobně vysvětleny v našem předchozím tutoriálu v tomto Kompletním školení dolování dat pro všechny. Data Mining je perspektivní obor ve světě vědy a techniky.

Data Mining, který je také známý jako Knowledge Discovery in Databases, je proces objevování užitečných informací z velkých objemů dat uložených v databázích a datových skladech. Tato analýza se provádí pro rozhodovací procesy ve firmách.

Data Mining se provádí pomocí různých technik, jako je shlukování, asociace a analýza sekvenčních vzorů &rozhodovací strom.

Proces Data Mining

Co je Data Mining?

Data Mining je proces objevování zajímavých vzorů a znalostí z velkého množství dat. Zdrojem dat mohou být databáze, datové sklady, web a další informační úložiště nebo data, která do systému proudí dynamicky.

Proč podniky potřebují data mining?

S příchodem velkých objemů dat se data mining rozšířil. Big data jsou extrémně velké soubory dat, které mohou být analyzovány počítači, aby odhalily určité vzorce, asociace a trendy, které mohou být pochopeny člověkem. Velká data obsahují rozsáhlé informace různého typu a rozmanitého obsahu.

Při takovém množství dat by jednoduchá statistika s ručním zásahem nefungovala. Tuto potřebu naplňuje proces dolování dat. To vede ke změně od jednoduché statistiky dat ke komplexním algoritmům dolování dat.

Proces dolování dat získá relevantní informace ze surových dat, jako jsou transakce, fotografie, videa, ploché soubory, a automaticky je zpracuje tak, aby vytvořil zprávy užitečné pro podniky k přijetí opatření.

Proces dolování dat je tedy pro podniky zásadní, aby mohly činit lepší rozhodnutí tím, že objeví vzory & trendů v datech, shrnou data a vyjmou z nich relevantní informace.

Data Extraction As A Process

Každý obchodní problém bude zkoumat surová data, aby vytvořil model, který popíše informace a přinese zprávy, které podnik využije. Sestavení modelu z datových zdrojů a datových formátů je iterativní proces, protože surová data jsou k dispozici v mnoha různých zdrojích a mnoha formách.

Dat den ode dne přibývá, a proto když se objeví nový zdroj dat, může to změnit výsledky.

Níže je uveden nástin tohoto procesu.

Nárys procesu dolování dat

Modely dolování dat

Mnoho průmyslových odvětví, například výrobní, marketingové, chemické a letecké, využívá dolování dat. Poptávka po standardních a spolehlivých procesech dolování dat se tak prudce zvyšuje.

Mezi důležité modely dolování dat patří:

#1) Cross-Industry Standard Process for Data Mining (CRISP-DM)

CRISP-DM je spolehlivý model dolování dat sestávající ze šesti fází. Jedná se o cyklický proces, který poskytuje strukturovaný přístup k procesu dolování dat. Šest fází lze realizovat v libovolném pořadí, ale někdy by to vyžadovalo návrat k předchozím krokům a opakování činností.

Šest fází CRISP-DM zahrnuje:

#1) Porozumění podnikání:

#2) Porozumění datům: V této fázi se stanoví cíle podniků a zjistí se důležité faktory, které napomohou dosažení cíle.

#2) Porozumění datům: V této fázi se stanoví cíle podniků a zjistí se důležité faktory, které napomohou dosažení cíle: V tomto kroku se shromáždí veškerá data a vyplní se údaje v nástroji (pokud se nějaký nástroj používá). U dat se uvede jejich zdroj, umístění, způsob získání a případný problém. Data se vizualizují a dotazují se na jejich úplnost.

#3) Příprava dat: Tento krok zahrnuje výběr vhodných dat, čištění, konstrukci atributů z dat, integraci dat z více databází.

#4) Modelování:

#5) Vyhodnocení: V tomto kroku se provádí výběr techniky dolování dat, jako je rozhodovací strom, vytvoření návrhu testů pro vyhodnocení vybraného modelu, sestavení modelů ze souboru dat a vyhodnocení sestaveného modelu s odborníky za účelem diskuse o výsledku.

#5) Vyhodnocení: V tomto kroku se určí, do jaké míry výsledný model splňuje obchodní požadavky. Vyhodnocení lze provést testováním modelu na reálných aplikacích. Model se přezkoumá, zda v něm nejsou chyby nebo kroky, které by se měly opakovat.

#6) Nasazení: V tomto kroku se sestaví plán nasazení, vytvoří se strategie sledování a udržování výsledků data miningového modelu, aby se ověřila jeho užitečnost, vypracují se závěrečné zprávy a provede se přezkoumání celého procesu, aby se ověřila případná chyba a zjistilo se, zda je třeba některý krok opakovat.

CRISP - DM Model

#2) SEMMA (Sample, Explore, Modify, Model, Assess)

SEMMA je další metodika data miningu vyvinutá společností SAS Institute. Zkratka SEMMA znamená sample, explore, modify, model, assess.

SEMMA usnadňuje použití průzkumných statistických a vizualizačních technik, výběr a transformaci významných predikovaných proměnných, vytvoření modelu pomocí proměnných, ze kterého vyjde výsledek, a kontrolu jeho přesnosti. SEMMA se také řídí vysoce iteračním cyklem.

SEMMA

Kroky v SEMMA

  1. Vzorek: V tomto kroku se získá rozsáhlý soubor dat a vybere se vzorek, který reprezentuje úplná data. Výběr vzorku sníží výpočetní náklady a dobu zpracování.
  2. Prozkoumat: Pro lepší pochopení dat se zkoumají případné odlehlé hodnoty a anomálie. Data se vizuálně zkontrolují, aby se zjistily trendy a seskupení.
  3. Upravit:
  4. Model: V tomto kroku se provádí manipulace s daty, jako je seskupování a podskupinování, s ohledem na model, který má být vytvořen.
  5. Model:
  6. Vyhodnocení: Na základě zkoumání a modifikací jsou zkonstruovány modely, které vysvětlují vzorce v datech.
  7. Vyhodnocení: Na základě zkoumání a modifikací jsou vytvořeny modely, které vysvětlují vzorce v datech: V tomto kroku se posuzuje užitečnost a spolehlivost zkonstruovaného modelu. Zde se provádí testování modelu na reálných datech.

Pro proces objevování znalostí funguje jak přístup SEMMA, tak CRISP. Jakmile jsou modely sestaveny, jsou nasazeny pro podniky a výzkumné práce.

Kroky v procesu dolování dat

Proces dolování dat se dělí na dvě části, tj. na předběžné zpracování dat a dolování dat. Předzpracování dat zahrnuje čištění dat, integraci dat, redukci dat a jejich transformaci. Část dolování dat provádí dolování dat, vyhodnocování vzorů a reprezentaci znalostí dat.

Proces dolování dat - kroky

Různé kroky v procesu dolování dat

Proč data předzpracováváme?

Existuje mnoho faktorů, které určují užitečnost dat, jako je přesnost, úplnost, konzistence, aktuálnost. Data musí být kvalitní, pokud splňují zamýšlený účel. Předzpracování je tedy v procesu dolování dat klíčové. Hlavní kroky spojené s předzpracováním dat jsou vysvětleny níže.

#1) Čištění dat

Čištění dat je prvním krokem při dolování dat. Má svůj význam, protože špinavá data, pokud jsou použita přímo při dolování, mohou způsobit zmatek v postupech a přinést nepřesné výsledky.

Základem tohoto kroku je odstranění zašuměných nebo neúplných dat ze souboru. Existuje mnoho metod, které obecně čistí data samy o sobě, ale nejsou robustní.

Tento krok provádí rutinní čisticí práce:

(i) Doplnění chybějících dat:

Chybějící data lze doplnit metodami, jako jsou:

  • Ignorace tuplu.
  • Doplnění chybějící hodnoty ručně.
  • Použít míru centrální tendence, medián nebo
  • Doplnit nejpravděpodobnější hodnotu.

(ii) Odstranit rušivá data: Náhodná chyba se nazývá zašuměná data.

Metody pro odstranění šumu jsou :

Zdrobení: Metody binování se používají tak, že se hodnoty roztřídí do kbelíků nebo binů. Vyhlazení se provádí konzultací sousedních hodnot.

Binning se provádí vyhlazením po koších, tj. každý koš je nahrazen průměrem koše. Vyhlazení mediánem, kdy je každá hodnota binů nahrazena mediánem binů. Vyhlazení hranicemi binů, tj. minimální a maximální hodnoty v binů jsou hranicemi binů a každá hodnota binů je nahrazena nejbližší hodnotou hranice.

  • Identifikace odlehlých hodnot
  • Řešení nekonzistencí

#2) Integrace dat

Když se pro analýzu kombinuje více heterogenních zdrojů dat, jako jsou databáze, datové kostky nebo soubory, nazývá se tento proces integrace dat. To může pomoci zlepšit přesnost a rychlost procesu dolování dat.

Různé databáze mají různé konvence pojmenování proměnných, čímž v databázích vznikají redundance. K odstranění redundancí a nekonzistencí z integrace dat lze provést dodatečné čištění dat, aniž by byla ovlivněna spolehlivost dat.

Integraci dat lze provést pomocí nástrojů pro migraci dat, jako jsou Oracle Data Service Integrator a Microsoft SQL atd.

#3) Redukce dat

Tato technika se používá k získání relevantních dat pro analýzu ze souboru dat. Velikost reprezentace je mnohem menší co do objemu při zachování integrity. Redukce dat se provádí pomocí metod, jako jsou Naive Bayes, rozhodovací stromy, neuronové sítě atd.

Některé strategie redukce dat jsou:

  • Redukce dimenzionality: Snížení počtu atributů v datové sadě.
  • Redukce početnosti:
  • Komprese dat: Nahrazení původního objemu dat menšími formami reprezentace dat:

#4) Transformace dat

V tomto procesu se data transformují do podoby vhodné pro proces dolování dat. Data jsou konsolidována tak, aby byl proces dolování efektivnější a vzory byly snáze pochopitelné. Transformace dat zahrnuje proces mapování dat a generování kódu.

Strategie pro transformaci dat jsou:

  • Vyhlazení: Odstranění šumu z dat pomocí shlukování, regresních technik apod.
  • Agregace:
  • Normalizace: Na data se aplikují souhrnné operace: Normalizace: Škálování dat tak, aby spadala do menšího rozsahu.
  • Diskretizace: Surové hodnoty číselných dat jsou nahrazeny intervaly. Například věk.

#5) Data Mining

Data Mining je proces identifikace zajímavých vzorců a znalostí z velkého množství dat. V těchto krocích se k získání datových vzorů používají inteligentní vzory. Data jsou reprezentována ve formě vzorů a modely jsou strukturovány pomocí technik klasifikace a shlukování.

#6) Vyhodnocení vzorů

Tento krok zahrnuje identifikaci zajímavých vzorů reprezentujících znalosti na základě míry zajímavosti. K tomu, aby byla data srozumitelná uživateli, se používají metody sumarizace a vizualizace dat.

#7) Reprezentace znalostí

Prezentace znalostí je krok, ve kterém se k reprezentaci vytěžených dat používají nástroje pro vizualizaci dat a reprezentaci znalostí. Data jsou vizualizována ve formě sestav, tabulek atd.

Proces dolování dat v DBMS Oracle

RDBMS reprezentuje data ve formě tabulek s řádky a sloupci. K datům lze přistupovat psaním databázových dotazů.

Relační systémy pro správu databází, jako je Oracle, podporují Data mining pomocí CRISP-DM. Vybavení databáze Oracle je užitečné při přípravě a pochopení dat. Oracle podporuje data mining prostřednictvím rozhraní java, rozhraní PL/SQL, automatizovaného data miningu, funkcí SQL a grafických uživatelských rozhraní.

Proces data miningu v datovém skladu

Datový sklad je modelován pro vícerozměrnou datovou strukturu zvanou datová kostka. Každá buňka v datové kostce uchovává hodnoty některých agregovaných měr.

Data mining ve vícerozměrném prostoru prováděný ve stylu OLAP (Online Analytical Processing), kde umožňuje zkoumat více kombinací dimenzí na různých úrovních granularity.

Jaké jsou aplikace data miningu?

Seznam oblastí, kde se data mining široce využívá, zahrnuje:

#1) Analýza finančních dat: Data Mining se široce používá v bankovnictví, investicích, úvěrových službách, hypotékách, automobilových půjčkách a pojišťovacích &službách investování do akcií. Data získaná z těchto zdrojů jsou úplná, spolehlivá a kvalitní. To usnadňuje systematickou analýzu dat a dolování dat.

#2) Maloobchodní a telekomunikační odvětví: Maloobchodní odvětví shromažďuje obrovské množství údajů o prodeji, historii nákupů zákazníků, přepravě zboží, spotřebě a službách. Dolování dat v maloobchodě pomáhá identifikovat nákupní chování zákazníků, jejich nákupní zvyklosti a trendy, zlepšit kvalitu zákaznických služeb, lépe si udržet zákazníky a zvýšit jejich spokojenost.

#3) Věda a technika: Maloobchodní odvětví:

#4) Detekce a prevence narušení: Data mining v oblasti informatiky a inženýrství může pomoci sledovat stav systému, zlepšit jeho výkonnost, izolovat softwarové chyby, odhalit plagiátorství softwaru a rozpoznat poruchy systému.

#4) Detekce a prevence narušení: Data mining v oblasti informatiky a inženýrství může pomoci sledovat stav systému, zlepšit jeho výkonnost, izolovat softwarové chyby, odhalit plagiátorství softwaru a rozpoznat poruchy systému: Narušení je definováno jako jakýkoli soubor akcí, které ohrožují integritu, důvěrnost nebo dostupnost síťových zdrojů. Metody dolování dat mohou pomoci v systému detekce a prevence narušení zvýšit jeho výkonnost.

#5) Systémy doporučování: Doporučovací systémy pomáhají spotřebitelům tím, že jim doporučují produkty, které jsou pro uživatele zajímavé.

Výzvy při dolování dat

Níže jsou uvedeny různé výzvy spojené s dolováním dat.

  1. Data Mining vyžaduje rozsáhlé databáze a sběr dat, které je obtížné spravovat.
  2. Proces data miningu vyžaduje experty na danou oblast, které je opět obtížné najít.
  3. Integrace z heterogenních databází je složitý proces.
  4. Pro využití výsledků data miningu je třeba upravit postupy na úrovni organizace. Restrukturalizace procesu vyžaduje úsilí a náklady.

Závěr

Data mining je iterativní proces, při kterém lze proces dolování zdokonalovat a integrovat nová data, aby se získaly efektivnější výsledky. Data Mining splňuje požadavek efektivní, škálovatelné a flexibilní analýzy dat.

Může být považován za přirozené hodnocení informačních technologií. Jako proces objevování znalostí doplňují proces dolování dat úlohy přípravy dat a dolování dat.

Procesy dolování dat lze provádět na jakémkoli druhu dat, například na databázových datech a pokročilých databázích, jako jsou časové řady atd. Proces dolování dat s sebou přináší i své vlastní výzvy.

Sledujte náš nadcházející tutoriál a dozvíte se více o příkladech dolování dat!!!

PŘEDCHOZÍ tutoriál | DALŠÍ tutoriál

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.