Nadzorowane uczenie maszyn

Co oznacza nienadzorowane uczenie maszyn?

Algorytmy nienadzorowanego uczenia maszyn wnioskują o wzorcach ze zbioru danych bez odniesienia do znanych lub oznaczonych wyników. W przeciwieństwie do nadzorowanego uczenia maszynowego, metody nienadzorowanego uczenia maszynowego nie mogą być bezpośrednio stosowane do regresji lub klasyfikacji, ponieważ nie wiadomo, jakie mogą być wartości dla danych wyjściowych, co uniemożliwia trenowanie algorytmu w normalny sposób. Uczenie nienadzorowane może być natomiast użyte do odkrycia struktury danych.

Dlaczego nienadzorowane uczenie maszyn jest ważne?

Nienadzorowane uczenie maszyn ma na celu odkrycie nieznanych wcześniej wzorców w danych, ale w większości przypadków wzorce te są słabym przybliżeniem tego, co może osiągnąć nadzorowane uczenie maszyn. Dodatkowo, ponieważ nie wiesz, jakie powinny być wyniki, nie ma sposobu, aby określić, jak dokładne są, co sprawia, że nadzorowane uczenie maszyn ma większe zastosowanie w rzeczywistych problemach.

Najlepszym momentem na wykorzystanie nienadzorowanego uczenia maszyn jest sytuacja, w której nie masz danych na temat pożądanych wyników, takich jak określenie rynku docelowego dla zupełnie nowego produktu, którego Twoja firma nigdy wcześniej nie sprzedawała. Jeśli jednak próbujesz lepiej zrozumieć istniejącą bazę konsumentów, optymalną techniką jest uczenie nadzorowane.

Niektóre zastosowania nienadzorowanych technik uczenia maszynowego obejmują:

  1. Klasteryzacja pozwala automatycznie podzielić zbiór danych na grupy według podobieństwa. Często jednak analiza skupień przeszacowuje podobieństwo między grupami i nie traktuje punktów danych jako jednostek. Z tego powodu analiza skupień jest złym wyborem dla zastosowań takich jak segmentacja klientów i targetowanie.
  2. Wykrywanie anomalii może automatycznie wykrywać nietypowe punkty danych w zbiorze danych. Jest to przydatne przy wskazywaniu oszukańczych transakcji, wykrywaniu wadliwych części sprzętu lub identyfikowaniu wartości odstających spowodowanych błędem ludzkim podczas wprowadzania danych.
  3. Eksploracja asocjacyjna identyfikuje zestawy elementów, które często występują razem w zbiorze danych. Detaliści często używają jej do analizy koszyka, ponieważ pozwala ona analitykom odkryć towary często kupowane w tym samym czasie i opracować bardziej efektywne strategie marketingowe i merchandisingowe.
  4. Modele zmiennych latentnych są powszechnie używane do wstępnego przetwarzania danych, takiego jak redukcja liczby cech w zbiorze danych (redukcja wymiarowości) lub dekompozycja zbioru danych na wiele komponentów.

Wzorce, które odkrywasz za pomocą nienadzorowanych metod uczenia maszynowego, mogą również przydać się podczas późniejszego wdrażania nadzorowanych metod uczenia maszynowego. Na przykład, możesz użyć techniki nienadzorowanej do przeprowadzenia analizy skupień na danych, a następnie użyć skupienia, do którego należy każdy wiersz jako dodatkowej cechy w modelu uczenia nadzorowanego (patrz półnadzorowane uczenie maszynowe). Innym przykładem może być model wykrywania oszustw, który wykorzystuje wyniki wykrywania anomalii jako dodatkową cechę.

Nadzorowane uczenie maszynowe + DataRobot

Platforma DataRobot do automatycznego uczenia maszynowego wymaga kolumny „cel” – to znaczy, że musi znać zmienną wyjściową, aby odkryć wzorce w danych. Jednak wiele z jej projektów modeli wykorzystuje uczenie nienadzorowane do automatyzacji skomplikowanych technik inżynierii cech, które są trudne i czasochłonne do wdrożenia bez automatyzacji.

Wynieś uczenie maszynowe bez nadzoru na wyższy poziom dzięki DataRobot

Zacznij już teraz

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.