Proces Wydobywania Danych: Models, Process Steps & Challenges Involved

This Tutorial on Data Mining Process Covers Data Mining Models, Steps and Challenges Involved in the Data Extraction Process:

Techniki Data Mining zostały szczegółowo wyjaśnione w naszym poprzednim tutorialu w tym Kompletnym Szkoleniu Data Mining dla Wszystkich. Data Mining jest obiecującą dziedziną w świecie nauki i technologii.

Data Mining, który jest również znany jako Knowledge Discovery in Databases jest procesem odkrywania użytecznych informacji z dużych ilości danych przechowywanych w bazach danych i hurtowniach danych. Analiza ta jest wykonywana na potrzeby procesów decyzyjnych w firmach.

Data Mining jest przeprowadzany przy użyciu różnych technik, takich jak klastrowanie, asocjacja i sekwencyjna analiza wzorców &drzewo decyzyjne.

Proces Data Mining

What Is Data Mining?

Data Mining jest procesem odkrywania interesujących wzorców i wiedzy z dużych ilości danych. Źródła danych mogą obejmować bazy danych, hurtownie danych, sieć i inne repozytoria informacji lub dane, które są dynamicznie przesyłane do systemu.

Dlaczego firmy potrzebują ekstrakcji danych?

Wraz z pojawieniem się Big Data, eksploracja danych stała się bardziej powszechna. Big data to niezwykle duże zbiory danych, które mogą być analizowane przez komputery w celu ujawnienia pewnych wzorców, skojarzeń i trendów, które mogą być zrozumiane przez ludzi. Big data posiada obszerne informacje o zróżnicowanych typach i zróżnicowanej zawartości.

W związku z tym, przy takiej ilości danych, proste statystyki z ręczną interwencją nie będą działać. Potrzebę tę spełnia proces eksploracji danych. Prowadzi to do zmiany z prostych statystyk danych na złożone algorytmy eksploracji danych.

Proces eksploracji danych wyodrębni istotne informacje z surowych danych, takich jak transakcje, zdjęcia, filmy, pliki płaskie i automatycznie przetworzy te informacje w celu wygenerowania raportów przydatnych dla przedsiębiorstw do podjęcia działań.

Tak więc, proces eksploracji danych jest kluczowy dla przedsiębiorstw w celu podejmowania lepszych decyzji poprzez odkrywanie wzorców & trendów w danych, podsumowywanie danych i wyciąganie istotnych informacji.

Data Extraction As A Process

Każdy problem biznesowy będzie badał surowe dane w celu zbudowania modelu, który będzie opisywał informacje i wydobywał raporty do wykorzystania przez przedsiębiorstwo. Budowanie modelu ze źródeł danych i formatów danych jest procesem iteracyjnym, ponieważ surowe dane są dostępne w wielu różnych źródłach i wielu formach.

Danych przybywa z dnia na dzień, stąd też, gdy zostanie znalezione nowe źródło danych, może to zmienić wyniki.

Poniżej przedstawiono zarys procesu.

Outline of Data Mining Process

Modele Data Mining

Wiele branż, takich jak produkcyjna, marketingowa, chemiczna i lotnicza, korzysta z eksploracji danych. Dlatego zapotrzebowanie na standardowe i niezawodne procesy eksploracji danych drastycznie wzrosło.

Do ważnych modeli eksploracji danych należą:

#1) Cross-Industry Standard Process for Data Mining (CRISP-DM)

CRISP-DM to niezawodny model eksploracji danych składający się z sześciu faz. Jest to cykliczny proces, który zapewnia uporządkowane podejście do procesu eksploracji danych. Sześć faz może być realizowanych w dowolnej kolejności, ale czasami wymagałoby to cofnięcia się do poprzednich kroków i powtórzenia działań.

Sześć faz CRISP-DM obejmuje:

#1) Zrozumienie biznesu: W tym kroku ustalane są cele przedsiębiorstw oraz odkrywane są ważne czynniki, które pomogą w osiągnięciu celu.

#2) Zrozumienie danych: W tym kroku zbiera się wszystkie dane i umieszcza się je w narzędziu (jeśli używa się jakiegokolwiek narzędzia). Dane są wyszczególnione wraz z ich źródłem, lokalizacją, sposobem ich pozyskania i ewentualnymi napotkanymi problemami. Dane są wizualizowane i odpytywane w celu sprawdzenia ich kompletności.

#3) Przygotowanie danych: Ten krok obejmuje wybór odpowiednich danych, czyszczenie, konstruowanie atrybutów z danych, integrowanie danych z wielu baz danych.

#4) Modelowanie: Wybór techniki eksploracji danych, takiej jak drzewo decyzyjne, wygenerowanie projektu testu do oceny wybranego modelu, budowanie modeli ze zbioru danych i ocena zbudowanego modelu z ekspertami w celu omówienia wyniku odbywa się w tym kroku.

#5) Ocena: Ten krok pozwoli określić stopień, w jakim wynikowy model spełnia wymagania biznesowe. Ocena może być przeprowadzona poprzez testowanie modelu na rzeczywistych aplikacjach. Model jest przeglądany pod kątem ewentualnych błędów lub kroków, które powinny być powtórzone.

#6) Wdrożenie: W tym kroku tworzony jest plan wdrożenia, strategia monitorowania i utrzymywania wyników modelu eksploracji danych w celu sprawdzenia jego użyteczności, tworzone są raporty końcowe oraz dokonywany jest przegląd całego procesu w celu sprawdzenia wszelkich błędów i sprawdzenia, czy któryś z kroków należy powtórzyć.

CRISP - DM Model

#2) SEMMA (Sample, Explore, Modify, Model, Assess)

SEMMA jest kolejną metodologią eksploracji danych opracowaną przez SAS Institute. Akronim SEMMA oznacza sample, explore, modify, model, assess.

SEMMA ułatwia stosowanie technik statystyki eksploracyjnej i wizualizacji, wybieranie i przekształcanie istotnych zmiennych przewidywanych, tworzenie modelu z wykorzystaniem zmiennych w celu uzyskania wyniku oraz sprawdzanie jego dokładności. SEMMA jest również napędzana przez wysoce iteracyjny cykl.

SEMMA

Kroki w SEMMA

  1. Próbka: W tym kroku wyodrębniany jest duży zbiór danych i pobierana jest próbka, która reprezentuje pełne dane. Próbkowanie zmniejszy koszty obliczeniowe i czas przetwarzania.
  2. Eksploracja: Dane są badane pod kątem wszelkich wartości odstających i anomalii w celu lepszego zrozumienia danych. Dane są sprawdzane wizualnie, aby znaleźć trendy i groupings.
  3. Modyfikuj: W tym kroku, manipulacji danych, takich jak grupowanie, i podgrupowanie jest wykonywana przez utrzymanie w centrum uwagi modelu do zbudowania.
  4. Model: Na podstawie eksploracji i modyfikacji konstruowane są modele, które wyjaśniają wzorce w danych.
  5. Ocena: W tym kroku oceniana jest użyteczność i wiarygodność skonstruowanego modelu. Testowanie modelu na rzeczywistych danych jest tutaj przeprowadzane.

Oba podejścia SEMMA i CRISP sprawdzają się w procesie odkrywania wiedzy. Po zbudowaniu modeli są one wdrażane w przedsiębiorstwach i pracach badawczych.

Kroki w procesie eksploracji danych

Proces eksploracji danych jest podzielony na dwie części, tj. przetwarzanie wstępne danych i eksplorację danych. Wstępne przetwarzanie danych obejmuje czyszczenie danych, integrację danych, redukcję danych i transformację danych. Część eksploracji danych wykonuje eksplorację danych, ocenę wzorców i reprezentację wiedzy o danych.

Proces eksploracji danych - etapy

Różne kroki w procesie eksploracji danych

Dlaczego wstępnie przetwarzamy dane?

Istnieje wiele czynników, które decydują o użyteczności danych, takich jak dokładność, kompletność, spójność, aktualność. Dane mają jakość, jeśli spełniają zamierzony cel. Dlatego też wstępne przetwarzanie danych jest kluczowe w procesie eksploracji danych. Główne kroki związane ze wstępnym przetwarzaniem danych są wyjaśnione poniżej.

#1) Czyszczenie danych

Czyszczenie danych jest pierwszym krokiem w eksploracji danych. Ma on znaczenie, ponieważ brudne dane, jeśli są wykorzystywane bezpośrednio w eksploracji, mogą powodować zamieszanie w procedurach i dawać niedokładne wyniki.

Podstawowo, krok ten polega na usunięciu z kolekcji zaszumionych lub niekompletnych danych. Wiele metod, które ogólnie czyszczą dane same w sobie są dostępne, ale nie są one solidne.

Ten krok wykonuje rutynową pracę czyszczenia przez:

(i) Fill The Missing Data:

Brakujące dane mogą być wypełnione przez metody takie jak:

  • Ignorowanie tuple.
  • Wypełnienie brakującej wartości ręcznie.
  • Użycie miary tendencji centralnej, mediany lub
  • Wypełnienie najbardziej prawdopodobnej wartości.

(ii) Usunięcie zaszumionych danych: Błąd losowy nazywany jest zaszumionymi danymi.

Metody usuwania szumu to :

Binning: Binning metody są stosowane przez sortowanie wartości do wiader lub binów. Wygładzanie jest wykonywane przez konsultowanie sąsiednich wartości.

Binning jest wykonywany przez wygładzanie przez bin, tj. każdy bin jest zastępowany przez średnią z bin. Wygładzanie przez medianę, gdzie każda wartość binu jest zastąpiona przez medianę binu. Smoothing by bin boundaries i.e. The minimum and maximum values in the bin are bin boundaries and each bin value is replaced by the closest boundary value.

  • Identifying the Outliers
  • Resolving Inconsistencies

#2) Data Integration

Gdy wiele heterogenicznych źródeł danych, takich jak bazy danych, kostki danych lub pliki są łączone do analizy, proces ten nazywany jest integracją danych. Może to pomóc w poprawie dokładności i szybkości procesu eksploracji danych.

Różne bazy danych mają różne konwencje nazewnictwa zmiennych, powodując redundancję w bazach danych. Dodatkowe czyszczenie danych może być wykonane w celu usunięcia nadmiarowości i niespójności z integracji danych bez wpływu na wiarygodność danych.

Integracja danych może być wykonana przy użyciu narzędzi do migracji danych, takich jak Oracle Data Service Integrator i Microsoft SQL itp.

#3) Redukcja danych

Technikę tę stosuje się w celu uzyskania odpowiednich danych do analizy ze zbioru danych. Rozmiar reprezentacji jest znacznie mniejszy objętościowo przy zachowaniu integralności. Redukcja danych jest wykonywana przy użyciu takich metod jak Naive Bayes, Decision Trees, Neural network, etc.

Niektóre strategie redukcji danych to:

  • Redukcja wymiarowości: Zmniejszanie liczby atrybutów w zbiorze danych.
  • Redukcja liczności: Zastąpienie oryginalnej objętości danych przez mniejsze formy reprezentacji danych.
  • Kompresja danych: Skompresowana reprezentacja oryginalnych danych.

#4) Transformacja danych

W tym procesie dane są przekształcane do postaci odpowiedniej dla procesu eksploracji danych. Dane są konsolidowane tak, aby proces eksploracji był bardziej efektywny, a wzorce łatwiejsze do zrozumienia. Transformacja danych obejmuje mapowanie danych i proces generowania kodu.

Strategie transformacji danych to:

  • Wygładzanie: Usuwanie szumu z danych za pomocą klastrowania, technik regresji itp.
  • Agregacja: Operacje sumowania są stosowane do danych.
  • Normalizacja: Skalowanie danych, aby mieściły się w mniejszym zakresie.
  • Dyskretyzacja: Surowe wartości danych liczbowych są zastępowane przedziałami. Na przykład, Wiek.

#5) Data Mining

Data Mining jest procesem identyfikacji interesujących wzorców i wiedzy z dużej ilości danych. W tych krokach, inteligentne wzorce są stosowane w celu wydobycia wzorców danych. Dane są reprezentowane w postaci wzorców, a modele są strukturyzowane przy użyciu technik klasyfikacji i klastrowania.

#6) Ocena wzorców

Ten krok obejmuje identyfikację interesujących wzorców reprezentujących wiedzę w oparciu o miary interesowności. Metody podsumowania i wizualizacji danych są wykorzystywane w celu uczynienia danych zrozumiałymi dla użytkownika.

#7) Reprezentacja wiedzy

Reprezentacja wiedzy jest krokiem, w którym narzędzia wizualizacji danych i reprezentacji wiedzy są wykorzystywane do reprezentacji wydobytych danych. Dane są wizualizowane w postaci raportów, tabel, itp.

Proces Data Mining w Oracle DBMS

RDBMS reprezentuje dane w postaci tabel z wierszami i kolumnami. Dostęp do danych można uzyskać poprzez pisanie zapytań do bazy danych.

Relacyjne systemy zarządzania bazami danych, takie jak Oracle, wspierają eksplorację danych przy użyciu CRISP-DM. Udogodnienia bazy danych Oracle są przydatne w przygotowaniu i zrozumieniu danych. Oracle wspiera eksplorację danych poprzez interfejs java, interfejs PL/SQL, automatyczną eksplorację danych, funkcje SQL i graficzne interfejsy użytkownika.

Proces eksploracji danych w hurtowni danych

Hurtownia danych jest modelowana dla wielowymiarowej struktury danych zwanej kostką danych. Każda komórka w kostce danych przechowuje wartość pewnych zagregowanych miar.

Data mining w przestrzeni wielowymiarowej przeprowadzany jest w stylu OLAP (Online Analytical Processing), gdzie pozwala na eksplorację wielu kombinacji wymiarów na różnych poziomach ziarnistości.

What Are The Applications of Data Extraction?

Lista obszarów, w których data mining jest szeroko stosowany obejmuje:

#1) Analiza danych finansowych: Data Mining jest szeroko stosowana w bankowości, inwestycjach, usługach kredytowych, kredytach hipotecznych, samochodowych i ubezpieczeniowych & usługach inwestowania w akcje. Dane zebrane z tych źródeł są kompletne, wiarygodne i są wysokiej jakości. Ułatwia to systematyczną analizę danych i eksplorację danych.

#2) Handel detaliczny i przemysł telekomunikacyjny: Sektor detaliczny gromadzi ogromne ilości danych na temat sprzedaży, historii zakupów klientów, transportu towarów, konsumpcji i usług. Eksploracja danych w handlu detalicznym pomaga zidentyfikować zachowania zakupowe klientów, ich wzorce zakupowe i trendy, poprawić jakość obsługi klienta, zwiększyć jego utrzymanie i zadowolenie.

#3) Nauka i inżynieria: Eksploracja danych informatyki i inżynierii może pomóc w monitorowaniu stanu systemu, poprawie wydajności systemu, izolowaniu błędów w oprogramowaniu, wykrywaniu plagiatów oprogramowania i rozpoznawaniu awarii systemu.

#4) Intrusion Detection and Prevention: Intruz definiowany jest jako dowolny zestaw działań, które zagrażają integralności, poufności lub dostępności zasobów sieciowych. Metody eksploracji danych mogą pomóc w systemie wykrywania i zapobiegania włamaniom w celu zwiększenia jego wydajności.

#5) Systemy rekomendacyjne: Systemy rekomendujące pomagają konsumentom poprzez dokonywanie rekomendacji produktów, które są interesujące dla użytkowników.

Wyzwania związane z Data Mining

Poniżej wymieniono różne wyzwania związane z Data Mining.

  1. Data Mining wymaga dużych baz danych i gromadzenia danych, które są trudne do zarządzania.
  2. Proces eksploracji danych wymaga ekspertów dziedzinowych, których również trudno znaleźć.
  3. Integracja z heterogenicznych baz danych jest procesem złożonym.
  4. Praktyki na poziomie organizacyjnym muszą zostać zmodyfikowane w celu wykorzystania wyników eksploracji danych. Restrukturyzacja procesu wymaga wysiłku i kosztów.

Wniosek

Data Mining jest procesem iteracyjnym, w którym proces eksploracji może być udoskonalany, a nowe dane mogą być integrowane w celu uzyskania bardziej efektywnych wyników. Data Mining spełnia wymóg efektywnej, skalowalnej i elastycznej analizy danych.

Można ją uznać za naturalną ocenę technologii informacyjnych. Jako proces odkrywania wiedzy, przygotowanie danych i zadania eksploracji danych uzupełniają proces eksploracji danych.

Procesy eksploracji danych mogą być wykonywane na każdym rodzaju danych, takich jak dane bazodanowe i zaawansowane bazy danych, takie jak szeregi czasowe itp. Proces eksploracji danych wiąże się również z własnymi wyzwaniami.

Zostań na bieżąco z naszym nadchodzącym samouczkiem, aby dowiedzieć się więcej o przykładach Data Mining!!!

PREV Tutorial | NEXT Tutorial

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.