Cosa significa apprendimento automatico non supervisionato?
Gli algoritmi di apprendimento automatico non supervisionato deducono modelli da un set di dati senza riferimento a risultati noti o etichettati. A differenza dell’apprendimento automatico supervisionato, i metodi di apprendimento automatico non supervisionato non possono essere applicati direttamente a un problema di regressione o classificazione perché non si ha idea di quali possano essere i valori dei dati in uscita, rendendo impossibile addestrare l’algoritmo come si farebbe normalmente. L’apprendimento non supervisionato può invece essere usato per scoprire la struttura sottostante dei dati.
Perché è importante l’apprendimento automatico non supervisionato?
L’apprendimento automatico non supervisionato pretende di scoprire modelli precedentemente sconosciuti nei dati, ma la maggior parte delle volte questi modelli sono approssimazioni povere di ciò che l’apprendimento automatico supervisionato può raggiungere. Inoltre, poiché non si conoscono i risultati, non c’è modo di determinare quanto siano accurati, rendendo l’apprendimento automatico supervisionato più applicabile ai problemi del mondo reale.
Il momento migliore per usare l’apprendimento automatico non supervisionato è quando non si hanno dati sui risultati desiderati, come determinare un mercato target per un prodotto completamente nuovo che la vostra azienda non ha mai venduto prima. Tuttavia, se state cercando di ottenere una migliore comprensione della vostra base di consumatori esistente, l’apprendimento supervisionato è la tecnica ottimale.
Alcune applicazioni di tecniche di apprendimento automatico non supervisionato includono:
- Il clustering vi permette di dividere automaticamente il dataset in gruppi in base alla somiglianza. Spesso, tuttavia, la cluster analysis sovrastima la somiglianza tra i gruppi e non tratta i punti dati come individui. Per questo motivo, la cluster analysis è una scelta povera per applicazioni come la segmentazione e il targeting dei clienti.
- Il rilevamento delle anomalie può scoprire automaticamente punti di dati insoliti nel vostro set di dati. Questo è utile per individuare transazioni fraudolente, scoprire pezzi di hardware difettosi, o identificare un outlier causato da un errore umano durante l’inserimento dei dati.
- L’Association mining identifica gruppi di elementi che si verificano frequentemente insieme nel vostro set di dati. I rivenditori spesso lo usano per l’analisi del paniere, perché permette agli analisti di scoprire beni acquistati spesso nello stesso momento e sviluppare strategie di marketing e merchandising più efficaci.
- I modelli di variabili latenti sono comunemente usati per la pre-elaborazione dei dati, come la riduzione del numero di caratteristiche in un set di dati (riduzione della dimensionalità) o la decomposizione del set di dati in più componenti.
I modelli che scopri con metodi di apprendimento automatico non supervisionati possono anche tornare utili quando si implementano metodi di apprendimento automatico supervisionati in seguito. Per esempio, si potrebbe usare una tecnica non supervisionata per eseguire l’analisi dei cluster sui dati, poi usare il cluster a cui appartiene ogni riga come una caratteristica extra nel modello di apprendimento supervisionato (vedi apprendimento automatico semi-supervisionato). Un altro esempio è un modello di rilevamento delle frodi che usa i punteggi di rilevamento delle anomalie come una caratteristica extra.
Apprendimento automatico non supervisionato + DataRobot
La piattaforma di apprendimento automatico DataRobot richiede una colonna “target” – cioè, ha bisogno di conoscere la variabile di output al fine di scoprire i modelli nei vostri dati. Tuttavia, molti dei suoi modelli utilizzano l’apprendimento non supervisionato per automatizzare complicate tecniche di ingegneria delle caratteristiche, che sono difficili e dispendiose in termini di tempo da implementare senza automazione.