Tämä opetusohjelma tiedonlouhintaprosessista kattaa tiedonlouhintamallit, vaiheet ja haasteet, jotka liittyvät tiedonlouhintaprosessiin:
Datanlouhintatekniikat selitettiin yksityiskohtaisesti edellisessä opetusohjelmassamme tässä Complete Data Mining Training for All. Tiedonlouhinta on lupaava ala tieteen ja teknologian maailmassa.
Datanlouhinta, joka tunnetaan myös nimellä Knowledge Discovery in Databases (tiedon löytäminen tietokannoissa), on prosessi, jossa löydetään hyödyllistä tietoa suurista tietomääristä, jotka on tallennettu tietokantoihin ja tietovarastoihin. Tämä analyysi tehdään yritysten päätöksentekoprosesseja varten.
Datanlouhinta suoritetaan käyttämällä erilaisia tekniikoita, kuten klusterointia, assosiaatioanalyysiä ja peräkkäisten mallien analyysiä & päätöksentekopuuta.
Mitä on datanlouhinta?
Datanlouhintaprosessi on prosessi, jonka avulla voidaan löytää kiinnostavia kuvioita ja tietoa suurista tietomääristä. Tietolähteitä voivat olla tietokannat, tietovarastot, verkko ja muut tietovarastot tai dynaamisesti järjestelmään virtaavat tiedot.
Miksi yritykset tarvitsevat tiedonlouhintaa?
Big-datan tulon myötä tiedonlouhinnasta on tullut yhä yleisempää. Big data on erittäin suuria tietokokonaisuuksia, joita tietokoneet voivat analysoida paljastaakseen tiettyjä kuvioita, assosiaatioita ja trendejä, joita ihmiset voivat ymmärtää. Big datassa on laajalti tietoa erityyppisistä ja sisällöltään vaihtelevista aineistoista.
Tällaisella tietomäärällä pelkkä tilastointi manuaalisilla toimenpiteillä ei siis onnistuisi. Tämän tarpeen täyttää tiedonlouhintaprosessi. Tämä johtaa muutokseen yksinkertaisista datatilastoista monimutkaisiin tiedonlouhinta-algoritmeihin.
Datanlouhintaprosessi poimii asiaankuuluvaa tietoa raakadatasta, kuten tapahtumista, valokuvista, videoista ja litteistä tiedostoista, ja käsittelee tiedot automaattisesti tuottaakseen raportteja, jotka ovat hyödyllisiä yrityksille toimia varten.
Datanlouhintaprosessi on siis ratkaisevan tärkeä yrityksille, jotta ne voivat tehdä parempia päätöksiä havaitsemalla datasta &malleja &trendejä, tiivistämällä dataa ja ottamalla esiin merkityksellistä tietoa.
Datanlouhinta prosessina
Jokainen liiketoimintaongelma tutkii raakadataa rakentaakseen mallin, joka kuvaa tietoa ja tuo esiin raportteja, joita liiketoiminta voi käyttää. Mallin rakentaminen tietolähteistä ja tietomuodoista on iteratiivinen prosessi, koska raakadataa on saatavilla monista eri lähteistä ja monissa eri muodoissa.
Data lisääntyy päivä päivältä, joten uuden tietolähteen löytyminen voi muuttaa tuloksia.
Alhaalla on hahmotelma prosessista.
Datanlouhintamallit
Monilla teollisuudenaloilla, kuten valmistusteollisuudessa, markkinoinnissa, kemianteollisuudessa ja ilmailu- ja avaruusteollisuudessa hyödynnetään tiedonlouhintaa. Näin ollen standardoitujen ja luotettavien tiedonlouhintaprosessien kysyntä on kasvanut voimakkaasti.
Tärkeitä tiedonlouhintamalleja ovat:
#1) Cross-Industry Standard Process for Data Mining (CRISP-DM)
CRISP-DM on luotettava tiedonlouhintamalli, joka koostuu kuudesta vaiheesta. Se on syklinen prosessi, joka tarjoaa jäsennellyn lähestymistavan tiedonlouhintaprosessiin. Kuusi vaihetta voidaan toteuttaa missä tahansa järjestyksessä, mutta se edellyttäisi joskus palaamista edellisiin vaiheisiin ja toimien toistamista.
CRISP-DM:n kuusi vaihetta ovat:
#1) Liiketoiminnan ymmärtäminen: Tässä vaiheessa asetetaan yritysten tavoitteet ja selvitetään tärkeät tekijät, jotka auttavat tavoitteen saavuttamisessa.
#2) Tietojen ymmärtäminen: Tässä vaiheessa kerätään kaikki tiedot ja täytetään tiedot työkaluun (jos käytetään jotain työkalua). Tiedot luetellaan tietolähteineen, sijaintinsa, miten ne on hankittu ja jos on ilmennyt ongelmia. Tiedot visualisoidaan ja niitä kysytään niiden täydellisyyden tarkistamiseksi.
#3) Tietojen valmistelu: Tähän vaiheeseen kuuluu sopivien tietojen valinta, puhdistus, attribuuttien rakentaminen tiedoista, tietojen yhdistäminen useista tietokannoista.
#4) Mallintaminen: Tässä vaiheessa valitaan tiedonlouhintatekniikka, kuten päätöspuu, luodaan testisuunnitelma valitun mallin arvioimiseksi, rakennetaan mallit tietokokonaisuudesta ja arvioidaan rakennettu malli asiantuntijoiden kanssa, jotta tuloksista voidaan keskustella.
#5) Arviointi: Tässä vaiheessa määritetään, missä määrin tuloksena syntyvä malli vastaa liiketoimintavaatimuksia. Arviointi voidaan tehdä testaamalla mallia todellisilla sovelluksilla. Malli tarkistetaan mahdollisten virheiden tai toistettavien vaiheiden varalta.
#6) Käyttöönotto: Tässä vaiheessa tehdään käyttöönottosuunnitelma, muodostetaan strategia, jolla seurataan ja ylläpidetään tiedonlouhintamallin tuloksia sen hyödyllisyyden tarkistamiseksi, laaditaan loppuraportit ja tarkastellaan koko prosessia virheiden tarkistamiseksi ja sen selvittämiseksi, onko jokin vaihe toistettava.
#2) SEMMA-menetelmä (Sample, Explore, Modify, Model, Assess)
SEMMA on toinen SAS-instituutin kehittämä tiedonlouhintamenettely. Lyhenne SEMMA tulee sanoista sample (näyte), explore (tutki), modify (muuta), model (mallinna), assess (arvioi).
SEMMA:n avulla on helppo soveltaa eksploratiivisia tilasto- ja visualisointitekniikoita, valita ja muuntaa merkittävät ennustettavat muuttujat, luoda muuttujien avulla malli, jonka avulla saadaan tulos, ja tarkistaa sen tarkkuus. SEMMAa ohjaa myös erittäin iteratiivinen sykli.
SEMMAn vaiheet
- Näyte: Tässä vaiheessa poimitaan suuri aineisto ja otetaan otos, joka edustaa koko aineistoa. Näytteenotto vähentää laskentakustannuksia ja käsittelyaikaa.
- Tutki: Tietoja tutkitaan mahdollisten poikkeamien ja poikkeavuuksien varalta, jotta tietoja voidaan ymmärtää paremmin. Tiedot tarkistetaan visuaalisesti trendien ja ryhmittelyjen selvittämiseksi.
- Muokkaa: Tässä vaiheessa datan manipulointi, kuten ryhmittely ja alaryhmittely, tehdään keskittyen rakennettavaan malliin.
- Malli: Tutkimusten ja muokkausten perusteella rakennetaan mallit, jotka selittävät datan malleja.
- Arvioi: Tässä vaiheessa arvioidaan rakennetun mallin hyödyllisyys ja luotettavuus. Mallin testaaminen todellista dataa vasten tehdään tässä vaiheessa.
Sekä SEMMA- että CRISP-lähestymistapa toimivat tiedonhakuprosessissa. Kun mallit on rakennettu, ne otetaan käyttöön yrityksissä ja tutkimustyössä.
Tiedonlouhintaprosessin vaiheet
Tiedonlouhintaprosessi jaetaan kahteen osaan eli tietojen esikäsittelyyn ja tiedonlouhintaan. Tietojen esikäsittelyyn kuuluu tietojen puhdistus, tietojen integrointi, tietojen vähentäminen ja tietojen muuntaminen. Tiedonlouhintaosassa suoritetaan tiedon louhinta, mallien arviointi ja tiedon esittäminen.
Miksi esikäsittelemme datan?
Datan hyödyllisyyteen vaikuttavat monet tekijät, kuten tarkkuus, täydellisyys, johdonmukaisuus ja ajantasaisuus. Tiedon on oltava laadukasta, jos se täyttää aiotun tarkoituksen. Näin ollen esikäsittely on ratkaisevan tärkeää tiedonlouhintaprosessissa. Datan esikäsittelyn tärkeimmät vaiheet selitetään seuraavassa.
#1) Datan puhdistus
Datan puhdistus on tiedonlouhinnan ensimmäinen vaihe. Se on tärkeää, koska likaiset tiedot, jos niitä käytetään suoraan tiedonlouhinnassa, voivat aiheuttaa sekaannusta menettelyissä ja tuottaa epätarkkoja tuloksia.
Periaatteessa tähän vaiheeseen kuuluu meluisten tai epätäydellisten tietojen poistaminen kokoelmasta. Saatavilla on monia menetelmiä, jotka yleensä puhdistavat datan itsestään, mutta ne eivät ole vankkoja.
Tässä vaiheessa suoritetaan rutiininomainen puhdistustyö:
(i) Puuttuvan datan täyttäminen:
Puuttuva data voidaan täyttää esimerkiksi seuraavilla menetelmillä:
- Ignorointi tuplasta.
- Puuttuvan arvon täyttäminen manuaalisesti.
- Käytä keskitrendin mittaria, mediaania tai
- Täytä todennäköisin arvo.
(ii) Poista kohinainen data: Satunnaisvirheestä käytetään nimitystä kohinainen data.
Menetelmiä kohinan poistamiseksi ovat :
Binning: Binning-menetelmiä sovelletaan lajittelemalla arvot kauhoihin tai binsseihin. Tasoitus suoritetaan kuulemalla viereisiä arvoja.
Binning tehdään tasoittamalla bineittäin eli jokainen bin korvataan binin keskiarvolla. Tasoitus mediaanilla, jolloin jokainen bin-arvo korvataan binin mediaanilla. Tasoitus bin-rajoilla eli binin minimi- ja maksimiarvot ovat bin-rajoja, ja kukin bin-arvo korvataan lähimmällä raja-arvolla.
- Poikkeamien tunnistaminen
- Epäjohdonmukaisuuksien ratkaiseminen
#2) Tietojen integrointi
Kun analyysia varten yhdistetään useita heterogeenisia tietolähteitä, kuten tietokantoja, datakuutioita tai tiedostoja, prosessia nimitetään tietojen integroinniksi. Tämä voi auttaa parantamaan tiedonlouhintaprosessin tarkkuutta ja nopeutta.
Eri tietokannoilla on erilaiset muuttujien nimeämiskäytännöt, mikä aiheuttaa tietokantoihin redundanssia. Tietojen lisäpuhdistus voidaan suorittaa, jotta redundanssit ja epäjohdonmukaisuudet voidaan poistaa tietojen integroinnista vaikuttamatta tietojen luotettavuuteen.
Tietojen integrointi voidaan suorittaa käyttämällä tiedonsiirtotyökaluja, kuten Oracle Data Service Integrator ja Microsoft SQL jne.
#3) Tietojen pelkistäminen
Tätäkin tekniikkaa sovelletaan, jotta saadaan analyysin kannalta olennaiset tiedot kerätyistä tiedoista. Esityksen koko on määrältään paljon pienempi säilyttäen kuitenkin eheyden. Tiedon vähentäminen suoritetaan käyttämällä menetelmiä, kuten Naive Bayes, päätöspuut, neuroverkko jne.
Joitakin tiedon vähentämisen strategioita ovat:
- Dimensioiden vähentäminen: Tietoaineiston attribuuttien määrän vähentäminen.
- Numeerisuuden vähentäminen: Alkuperäisen tietomäärän korvaaminen pienemmillä tiedon esitysmuodoilla.
- Tiedon pakkaaminen: Alkuperäisen datan pakattu esitys.
#4) Datan muuntaminen
Tässä prosessissa data muunnetaan tiedonlouhintaprosessiin sopivaan muotoon. Data konsolidoidaan, jotta tiedonlouhintaprosessi on tehokkaampi ja kuviot ovat helpommin ymmärrettävissä. Datan muuntamiseen liittyy datakartoitus ja koodinmuodostusprosessi.
Datan muuntamisen strategiat ovat:
- Tasoittaminen: Kohinan poistaminen datasta käyttämällä klusterointia, regressiotekniikoita jne.
- Aggregointi: Tietoihin sovelletaan yhteenveto-operaatioita.
- Normalisointi: Datan skaalaus pienemmälle alueelle.
- Diskretisointi: Numeeristen tietojen raa’at arvot korvataan intervalleilla. Esimerkiksi ikä.
#5) Data Mining
Data Mining on prosessi, jolla tunnistetaan mielenkiintoisia kuvioita ja tietoa suuresta tietomäärästä. Näissä vaiheissa sovelletaan älykkäitä malleja datakuvioiden poimimiseksi. Tiedot esitetään kuvioina ja mallit jäsennetään käyttämällä luokittelu- ja klusterointitekniikoita.
#6) Kuvioiden arviointi
Tässä vaiheessa tunnistetaan kiinnostavia kuvioita, jotka edustavat tietoa kiinnostavuuden mittojen perusteella. Datan tiivistämis- ja visualisointimenetelmiä käytetään tekemään datasta ymmärrettävää käyttäjälle.
#7) Tietämyksen esittäminen
Tietämyksen esittäminen on vaihe, jossa datan visualisointi- ja tietämyksen esittämistyökaluja käytetään louhitun datan esittämiseen. Tieto visualisoidaan raporttien, taulukoiden jne. muodossa.
Datanlouhintaprosessi Oraclen DBMS:ssä
RDBMS esittää tiedot taulukoiden muodossa, joissa on rivejä ja sarakkeita. Tietoja voidaan käyttää kirjoittamalla tietokantakyselyjä.
Relationaaliset tietokannan hallintajärjestelmät, kuten Oracle, tukevat tiedonlouhintaa CRISP-DM:n avulla. Oraclen tietokannan toiminnot ovat hyödyllisiä tietojen valmistelussa ja ymmärtämisessä. Oracle tukee tiedonlouhintaa java-rajapinnan, PL/SQL-rajapinnan, automaattisen tiedonlouhinnan, SQL-funktioiden ja graafisten käyttöliittymien avulla.
Datanlouhintaprosessi tietovarastossa
Tietovarasto on mallinnettu moniulotteiselle tietorakenteelle, jota kutsutaan datakuutioksi. Tietokuution jokainen solu tallentaa joidenkin aggregaattimittojen arvon.
Tiedonlouhinta moniulotteisessa avaruudessa suoritetaan OLAP-tyylillä (Online Analytical Processing), jossa se mahdollistaa useiden ulottuvuuksien yhdistelmien tutkimisen eri rakeisuustasoilla.
Mitä ovat tiedonlouhinnan sovellukset?
Luettelo aloista, joilla tiedonlouhintaa käytetään laajalti, käsittää seuraavat:
#1) Taloudellisen datan analysointi: Tiedonlouhintaa käytetään laajalti pankki-, investointi-, luottopalveluissa, asuntolainoissa, autolainoissa ja vakuutus- & osakesijoituspalveluissa. Näistä lähteistä kerätyt tiedot ovat täydellisiä, luotettavia ja korkealaatuisia. Tämä helpottaa systemaattista tietojen analysointia ja tiedonlouhintaa.
#2) Vähittäiskauppa ja televiestintä: Vähittäiskaupan ala kerää valtavia määriä tietoja myynnistä, asiakkaiden ostohistoriasta, tavaroiden kuljetuksesta, kulutuksesta ja palvelusta. Vähittäiskaupan tiedonlouhinta auttaa tunnistamaan asiakkaiden ostokäyttäytymistä, asiakkaiden ostokäyttäytymismalleja ja trendejä, parantamaan asiakaspalvelun laatua, parantamaan asiakkaiden sitoutumista ja tyytyväisyyttä.
#3) Tiede ja tekniikka: Tiedonlouhinta tietojenkäsittelytieteessä ja tekniikassa voi auttaa seuraamaan järjestelmän tilaa, parantamaan järjestelmän suorituskykyä, eristämään ohjelmistovirheitä, havaitsemaan ohjelmistoplagiointia ja tunnistamaan järjestelmän toimintahäiriöitä.
#4) Tunkeutumisen havaitseminen ja estäminen: Tunkeutumisella tarkoitetaan kaikkia toimia, jotka uhkaavat verkkoresurssien eheyttä, luottamuksellisuutta tai saatavuutta. Tiedonlouhintamenetelmät voivat auttaa tunkeutumisen havaitsemis- ja estämisjärjestelmässä parantamaan sen suorituskykyä.
#5) Suosittelujärjestelmät: Suosittelujärjestelmät auttavat kuluttajia tekemällä käyttäjiä kiinnostavia tuotesuosituksia.
Datanlouhinnan haasteet
Alhaalla on lueteltu erilaisia tiedonlouhintaan liittyviä haasteita.
- Datanlouhinta vaatii suuria tietokantoja ja tiedonkeruuta, joita on vaikea hallita.
- Datanlouhintaprosessi vaatii toimialan asiantuntijoita, joita on taas vaikea löytää.
- Heterogeenisten tietokantojen integrointi on monimutkainen prosessi.
- Organisaatiotason toimintatapoja on muutettava, jotta tiedonlouhinnan tuloksia voidaan hyödyntää. Prosessin uudelleenjärjestely vaatii vaivaa ja kustannuksia.
Johtopäätös
Datanlouhinta on iteratiivinen prosessi, jossa tiedonlouhintaprosessia voidaan tarkentaa ja integroida uutta dataa tehokkaampien tulosten saamiseksi. Data Mining vastaa tehokkaan, skaalautuvan ja joustavan data-analyysin vaatimukseen.
Sitä voidaan pitää tietotekniikan luonnollisena arviointina. Tietämyksen löytämisprosessina tietojen valmistelu- ja tiedonlouhintatehtävät viimeistelevät tiedonlouhintaprosessin.
Tiedonlouhintaprosessit voidaan suorittaa kaikenlaisille tiedoille, kuten tietokantatiedoille ja kehittyneille tietokannoille, kuten aikasarjoille jne. Tiedonlouhintaprosessiin liittyy myös omat haasteensa.
Pysy kuulolla tulevassa opetusohjelmassamme, jotta tiedät lisää tiedonlouhintaesimerkkejä!!!
PREV opetusohjelma | NEXT opetusohjelma