Ez az oktatóanyag az adatbányászati folyamatról az adatbányászati modelleket, lépéseket és kihívásokat foglalja magában az adatkivonási folyamatban:
Az adatbányászati technikákat részletesen elmagyaráztuk az előző oktatóanyagunkban ebben a Teljes adatbányászati képzés mindenkinek. Az adatbányászat ígéretes terület a tudomány és a technológia világában.
Az adatbányászat, amelyet adatbázisokban történő tudásfelfedezésnek is neveznek, az adatbázisokban és adattárházakban tárolt nagy mennyiségű adatból származó hasznos információk felfedezésének folyamata. Ezt az elemzést a vállalatok döntéshozatali folyamataihoz végzik.
Az adatbányászat különböző technikák alkalmazásával történik, például klaszterezés, asszociáció és szekvenciális mintaelemzés & döntési fa.
Mi az adatbányászat?
Az adatbányászat olyan folyamat, amelynek során nagy mennyiségű adatból érdekes mintákat és tudást fedeznek fel. Az adatforrások lehetnek adatbázisok, adattárházak, a web és más információs tárak vagy a rendszerbe dinamikusan beáramló adatok.
Miért van szükségük a vállalkozásoknak adatbányászatra?
A Big Data megjelenésével az adatbányászat egyre elterjedtebbé vált. A big data rendkívül nagy adathalmazok, amelyeket számítógépek elemezhetnek, hogy bizonyos mintákat, asszociációkat és trendeket tárjanak fel, amelyek az emberek számára is értelmezhetőek. A big data kiterjedt információkkal rendelkezik változatos típusokról és változatos tartalmakról.
Ezzel az adatmennyiséggel az egyszerű, kézi beavatkozással végzett statisztika nem működne. Ezt az igényt az adatbányászati eljárás elégíti ki. Ez az egyszerű adatstatisztikákról az összetett adatbányászati algoritmusokra való áttéréshez vezet.
Az adatbányászati folyamat a nyers adatokból, például tranzakciókból, fényképekből, videókból, síkfájlokból vonja ki a releváns információkat, és automatikusan feldolgozza az információkat, hogy a vállalkozások számára hasznos jelentéseket hozzon létre a cselekvéshez.
Az adatbányászati folyamat tehát kulcsfontosságú a vállalkozások számára, hogy jobb döntéseket hozzanak az adatokban található minták & trendek felfedezésével, az adatok összegzésével és a releváns információk kiemelésével.
Az adatkitermelés mint folyamat
Minden üzleti probléma megvizsgálja a nyers adatokat, hogy olyan modellt építsen, amely leírja az információkat és kihozza a vállalkozások által felhasználható jelentéseket. A modell felépítése az adatforrásokból és adatformátumokból iteratív folyamat, mivel a nyers adatok sok különböző forrásból és sokféle formában állnak rendelkezésre.
Az adatok száma napról napra nő, ezért ha új adatforrást találunk, az megváltoztathatja az eredményeket.
Az alábbiakban a folyamat vázlata olvasható.
Adatbányászati modellek
Sok iparág, például a feldolgozóipar, a marketing, a vegyipar és a repülőgépipar használja ki az adatbányászat előnyeit. Így drasztikusan megnőtt az igény a szabványos és megbízható adatbányászati folyamatok iránt.
A fontos adatbányászati modellek közé tartoznak:
#1) Cross-Industry Standard Process for Data Mining (CRISP-DM)
A CRISP-DM egy megbízható adatbányászati modell, amely hat fázisból áll. Ez egy ciklikus folyamat, amely strukturált megközelítést biztosít az adatbányászati folyamathoz. A hat fázis tetszőleges sorrendben megvalósítható, de ez néha szükségessé tenné az előző lépésekhez való visszalépést és a műveletek megismétlését.
A CRISP-DM hat fázisa a következő:
#1) Üzleti megértés: Ebben a lépésben meghatározzák a vállalkozások céljait, és feltárják azokat a fontos tényezőket, amelyek segítenek a cél elérésében.
#2) Adatmegértés: Ebben a lépésben összegyűjtjük az összes adatot, és feltöltjük az adatokat az eszközbe (ha bármilyen eszközt használunk). Az adatok felsorolásra kerülnek az adatforrással, az elhelyezkedéssel, az adatszerzés módjával és azzal, hogy felmerült-e bármilyen probléma. Az adatok vizualizálása és lekérdezése a teljesség ellenőrzése érdekében.
#3) Adatelőkészítés: Ez a lépés magában foglalja a megfelelő adatok kiválasztását, tisztítását, az attribútumok felépítését az adatokból, több adatbázisból származó adatok integrálását.
#4) Modellezés: Az adatbányászati technika, például a döntési fa kiválasztása, tesztterv létrehozása a kiválasztott modell értékeléséhez, modellek építése az adathalmazból és a felépített modell értékelése szakértőkkel az eredmény megvitatása céljából ebben a lépésben történik.
#5) Értékelés: Ebben a lépésben meghatározzuk, hogy a kapott modell milyen mértékben felel meg az üzleti követelményeknek. Az értékelést a modell valós alkalmazásokon történő tesztelésével lehet elvégezni. A modellt felülvizsgálják, hogy vannak-e hibák vagy olyan lépések, amelyeket meg kell ismételni.
#6) Telepítés: Ebben a lépésben elkészül egy telepítési terv, kialakul egy stratégia az adatbányászati modell eredményeinek nyomon követésére és karbantartására, hogy ellenőrizzék annak hasznosságát, elkészülnek a végső jelentések és az egész folyamat felülvizsgálata, hogy ellenőrizzék az esetleges hibákat és megnézzék, hogy meg kell-e ismételni valamelyik lépést.
#2) SEMMA (Sample, Explore, Modify, Model, Assess)
A SEMMA egy másik adatbányászati módszertan, amelyet a SAS Institute fejlesztett ki. A SEMMA rövidítés a sample, explore, modify, model, assess (minta, feltárás, módosítás, modell, értékelés) rövidítése.
A SEMMA megkönnyíti a feltáró statisztikai és vizualizációs technikák alkalmazását, a jelentős előrejelzett változók kiválasztását és átalakítását, a változók felhasználásával egy modell létrehozását, hogy kijöjjön az eredmény, és ellenőrizze annak pontosságát. A SEMMA-t egy erősen iteratív ciklus is vezérli.
Lépések a SEMMA-ban
- Minta: Ebben a lépésben egy nagy adathalmazból kivonunk egy mintát, amely a teljes adatot reprezentálja. A mintavételezés csökkenti a számítási költségeket és a feldolgozási időt.
- Explore: Az adatok jobb megértése érdekében az adatokat feltárják az esetleges kiugró értékek és anomáliák szempontjából. Az adatokat vizuálisan ellenőrzik a tendenciák és csoportosítások megállapítása érdekében.
- Módosítás: Ebben a lépésben az adatok manipulálása, például csoportosítás és alcsoportosítás történik a felépítendő modell szem előtt tartásával.
- Modell: A feltárások és módosítások alapján megépülnek az adatokban lévő mintázatokat magyarázó modellek.
- Értékelés: Ebben a lépésben a megépített modell hasznosságát és megbízhatóságát értékelik. A modell tesztelése valós adatokkal szemben itt történik.
A SEMMA és a CRISP megközelítés egyaránt működik a tudásfeltárási folyamatban. Miután a modellek felépültek, azokat az üzleti és a kutatómunkában alkalmazzák.
Az adatbányászati folyamat lépései
Az adatbányászati folyamat két részre, azaz az adatok előfeldolgozására és az adatbányászatra oszlik. Az adatelőfeldolgozás magában foglalja az adattisztítást, az adatintegrációt, az adatcsökkentést és az adattranszformációt. Az adatbányászati rész az adatok adatbányászatát, a minták kiértékelését és a tudás reprezentálását végzi.
Miért dolgozzuk fel az adatokat?
Az adatok hasznosságát számos tényező határozza meg, mint például a pontosság, teljesség, konzisztencia, időszerűség. Az adatnak akkor van minősége, ha megfelel a tervezett célnak. Így az előfeldolgozás döntő fontosságú az adatbányászati folyamatban. Az adatelőfeldolgozás főbb lépéseit az alábbiakban ismertetjük.
#1) Adattisztítás
Az adattisztítás az adatbányászat első lépése. Fontos szerepet tölt be, mivel a piszkos adatok, ha közvetlenül a bányászatban használjuk fel, zavart okozhatnak az eljárásokban, és pontatlan eredményeket produkálhatnak.
Ez a lépés alapvetően a zajos vagy hiányos adatok eltávolítását jelenti a gyűjteményből. Számos olyan módszer áll rendelkezésre, amely általában önmagában megtisztítja az adatokat, de ezek nem robusztusak.
Ez a lépés a rutinszerű tisztítási munkát a következőkkel végzi:
(i) A hiányzó adatok kitöltése:
A hiányzó adatokat olyan módszerekkel lehet kitölteni, mint:
- Ignorálás a tuple.
- A hiányzó érték manuális kitöltése.
- A központi tendencia mértékének, a mediánnak a használata vagy
- A legvalószínűbb érték kitöltése.
(ii) A zajos adatok eltávolítása: A véletlenszerű hibát zajos adatnak nevezzük.
A zaj eltávolításának módszerei :
Binning: A binning módszereket úgy alkalmazzák, hogy az értékeket vödrökbe vagy tárolókba sorolják. A simítás a szomszédos értékek lekérdezésével történik.
A binning a binenkénti simítással történik, azaz minden egyes bin helyébe a bin átlaga lép. Simítás mediánnal, ahol minden egyes bin értéket a bin mediánjával helyettesítünk. Simítás bin-határokkal, azaz a binben lévő minimális és maximális értékek a bin-határok, és minden egyes bin-értéket a legközelebbi határértékkel helyettesítünk.
- A kiugró értékek azonosítása
- Inkonzisztenciák feloldása
#2) Adatintegráció
Ha több heterogén adatforrást, például adatbázisokat, adatkockákat vagy fájlokat kombinálunk elemzés céljából, ezt a folyamatot adatintegrációnak nevezzük. Ez segíthet az adatbányászati folyamat pontosságának és sebességének javításában.
A különböző adatbázisok különböző elnevezési konvenciókkal rendelkeznek a változókra vonatkozóan, redundanciákat okozva az adatbázisokban. További adattisztítás végezhető a redundanciák és következetlenségek eltávolítására az adatintegrációból anélkül, hogy az adatok megbízhatóságát befolyásolná.
Az adatintegráció elvégezhető adatmigrációs eszközökkel, például az Oracle Data Service Integrator és a Microsoft SQL stb. segítségével.
#3) Adatcsökkentés
Ezt a technikát arra alkalmazzák, hogy az adatgyűjtésből az elemzéshez releváns adatokat nyerjenek. A reprezentáció mérete az integritás megőrzése mellett sokkal kisebb volumenű. Az adatredukciót olyan módszerekkel végzik, mint a Naive Bayes, a döntési fák, a neurális hálózat stb.
Az adatredukció néhány stratégiája:
- Dimenziócsökkentés: Az attribútumok számának csökkentése az adathalmazban.
- Számosságcsökkentés: Az eredeti adatmennyiség helyettesítése az adatreprezentáció kisebb formáival.
- Adattömörítés: Az eredeti adatok tömörített reprezentációja.
#4) Adattranszformáció
Ebben a folyamatban az adatokat az adatbányászat számára alkalmas formába alakítjuk át. Az adatokat konszolidálják, hogy a bányászati folyamat hatékonyabb legyen, és a mintákat könnyebb legyen megérteni. Az adattranszformáció magában foglalja az adattérképezési és kódgenerálási folyamatot.
Az adattranszformáció stratégiái a következők:
- Simítás: A zaj eltávolítása az adatokból klaszterezés, regressziós technikák stb. segítségével.
- Összesítés: Összefoglaló műveletek alkalmazása az adatokon.
- Normalizálás: Az adatok méretezése, hogy egy kisebb tartományba essenek.
- Diszkretizálás: A numerikus adatok nyers értékeit intervallumokkal helyettesítjük. Például életkor.
#5) Adatbányászat
Az adatbányászat olyan folyamat, amelynek során nagy mennyiségű adatból érdekes mintákat és ismereteket azonosítunk. Ezekben a lépésekben intelligens mintákat alkalmaznak az adatminták kinyerésére. Az adatokat minták formájában reprezentálják, és a modelleket osztályozási és klaszterezési technikák segítségével strukturálják.
#6) Mintaértékelés
Ez a lépés magában foglalja a tudást reprezentáló érdekes minták azonosítását az érdekességi mértékek alapján. Az adatok összegzését és vizualizációs módszereket használnak, hogy az adatokat a felhasználó számára érthetővé tegyék.
#7) Tudás reprezentációja
A tudás reprezentációja egy olyan lépés, ahol adatvizualizációs és tudásreprezentációs eszközöket használnak a bányászott adatok reprezentálására. Az adatokat jelentések, táblázatok stb. formájában vizualizálják.
Adatbányászati folyamat az Oracle DBMS-ben
A RDBMS az adatokat sorokkal és oszlopokkal ellátott táblázatok formájában reprezentálja. Az adatokhoz adatbázis-lekérdezések írásával lehet hozzáférni.
A relációs adatbázis-kezelő rendszerek, mint például az Oracle, támogatják az adatbányászatot a CRISP-DM segítségével. Az Oracle adatbázis szolgáltatásai hasznosak az adatok előkészítésében és megértésében. Az Oracle támogatja az adatbányászatot java interfészen, PL/SQL interfészen, automatizált adatbányászaton, SQL függvényeken és grafikus felhasználói felületeken keresztül.
Adatbányászati folyamat az adattárházban
Az adattárházat egy többdimenziós adatszerkezetre, az úgynevezett adatkockára modellezik. Az adatkocka minden egyes cellája néhány aggregált mérőszám értékét tárolja.
Az adatbányászat a többdimenziós térben OLAP stílusban (Online Analytical Processing) történik, ahol lehetővé teszi a dimenziók több kombinációjának feltárását különböző szemcseméretességi szinteken.
Melyek az adatbányászat alkalmazásai?
Az adatbányászat széles körben használt területeinek listája a következő:
#1) Pénzügyi adatelemzés: Az adatbányászatot széles körben használják a banki, befektetési, hitelezési, jelzálog, autóhitel és biztosítási & részvénybefektetési szolgáltatásokban. Az ezekből a forrásokból gyűjtött adatok teljes körűek, megbízhatóak és kiváló minőségűek. Ez megkönnyíti a szisztematikus adatelemzést és adatbányászatot.
#2) Kiskereskedelmi és távközlési iparágak: A kiskereskedelmi ágazat hatalmas mennyiségű adatot gyűjt az értékesítésről, a vásárlói vásárlási előzményekről, az áruszállításról, a fogyasztásról és a szolgáltatásról. A kiskereskedelmi adatbányászat segít a vásárlói vásárlási magatartás, a vásárlói vásárlási szokások és trendek azonosításában, az ügyfélkiszolgálás minőségének javításában, a jobb ügyfélmegtartásban és elégedettségben.
#3) Tudomány és műszaki tudományok: Az adatbányászati informatika és mérnöki tudomány segíthet a rendszer állapotának nyomon követésében, a rendszer teljesítményének javításában, a szoftverhibák elkülönítésében, a szoftverplagizálás felderítésében és a rendszerhibák felismerésében.
#4) Behatolásfelismerés és -megelőzés: Behatolás alatt a hálózati erőforrások integritását, bizalmas jellegét vagy rendelkezésre állását veszélyeztető cselekmények összességét értjük. Az adatbányászati módszerek segíthetnek a behatolásfelismerő és -megelőző rendszerben, hogy növeljék annak teljesítményét.
#5) Ajánló rendszerek: Az ajánlórendszerek a fogyasztókat segítik azáltal, hogy a felhasználók számára érdekes termékajánlásokat tesznek.
Az adatbányászat kihívásai
Az alábbiakban felsoroljuk az adatbányászat különböző kihívásait.
- Az adatbányászat nagy adatbázisokat és adatgyűjtést igényel, amelyeket nehéz kezelni.
- Az adatbányászati folyamathoz domain szakértőkre van szükség, akiket ismét nehéz megtalálni.
- A heterogén adatbázisokból történő integráció összetett folyamat.
- A szervezeti szintű gyakorlatokat módosítani kell az adatbányászati eredmények felhasználásához. A folyamat átalakítása erőfeszítést és költségeket igényel.
Következtetés
Az adatbányászat egy iteratív folyamat, ahol a bányászati folyamat finomítható, és új adatok integrálhatók a hatékonyabb eredmények elérése érdekében. Az adatbányászat megfelel a hatékony, skálázható és rugalmas adatelemzés követelményének.
Az információs technológia természetes értékelésének tekinthető. Mint tudásfeltárási folyamat, az adatelőkészítési és adatbányászati feladatok teszik teljessé az adatbányászati folyamatot.
Az adatbányászati folyamatok bármilyen típusú adaton, például adatbázis-adatokon és fejlett adatbázisokon, például idősorokon stb. végezhetők. Az adatbányászati folyamatnak is megvannak a maga kihívásai.
Kapcsolódjon a következő bemutatóhoz, hogy többet tudjon meg az adatbányászati példákról!!!
ELŐZETI bemutató | NEXT bemutató