¿Qué significa el aprendizaje automático no supervisado?
Los algoritmos de aprendizaje automático no supervisado infieren patrones de un conjunto de datos sin referencia a resultados conocidos, o etiquetados. A diferencia del aprendizaje automático supervisado, los métodos de aprendizaje automático no supervisado no pueden aplicarse directamente a un problema de regresión o clasificación porque no se sabe cuáles son los valores de los datos de salida, por lo que es imposible entrenar el algoritmo como se haría normalmente. En cambio, el aprendizaje no supervisado puede utilizarse para descubrir la estructura subyacente de los datos.
¿Por qué es importante el aprendizaje automático no supervisado?
El aprendizaje automático no supervisado pretende descubrir patrones previamente desconocidos en los datos, pero la mayoría de las veces estos patrones son aproximaciones pobres de lo que puede lograr el aprendizaje automático supervisado. Además, como no se sabe cuáles deberían ser los resultados, no hay forma de determinar su exactitud, lo que hace que el aprendizaje automático supervisado sea más aplicable a los problemas del mundo real.
El mejor momento para utilizar el aprendizaje automático no supervisado es cuando no se tienen datos sobre los resultados deseados, como determinar un mercado objetivo para un producto totalmente nuevo que su empresa nunca ha vendido antes. Sin embargo, si se trata de conocer mejor la base de consumidores existente, el aprendizaje supervisado es la técnica óptima.
Algunas aplicaciones de las técnicas de aprendizaje automático no supervisado son:
- La agrupación permite dividir automáticamente el conjunto de datos en grupos según su similitud. Sin embargo, a menudo el análisis de clústeres sobreestima la similitud entre los grupos y no trata los puntos de datos como individuos. Por esta razón, el análisis de cluster es una mala elección para aplicaciones como la segmentación de clientes y la focalización.
- La detección de anomalías puede descubrir automáticamente puntos de datos inusuales en su conjunto de datos. Esto es útil para localizar transacciones fraudulentas, descubrir piezas de hardware defectuosas o identificar un valor atípico causado por un error humano durante la introducción de datos.
- La minería de asociación identifica conjuntos de elementos que aparecen juntos con frecuencia en su conjunto de datos. Los minoristas lo utilizan a menudo para el análisis de la cesta de la compra, ya que permite a los analistas descubrir los productos que se compran a menudo al mismo tiempo y desarrollar estrategias de marketing y comercialización más eficaces.
- Los modelos de variables latentes se utilizan comúnmente para el preprocesamiento de datos, como la reducción del número de características en un conjunto de datos (reducción de la dimensionalidad) o la descomposición del conjunto de datos en múltiples componentes.
Los patrones que se descubren con los métodos de aprendizaje automático no supervisado también pueden ser útiles cuando se implementan los métodos de aprendizaje automático supervisado más adelante. Por ejemplo, podría utilizar una técnica no supervisada para realizar un análisis de clústeres en los datos y, a continuación, utilizar el clúster al que pertenece cada fila como una característica adicional en el modelo de aprendizaje automático supervisado (véase aprendizaje automático semisupervisado). Otro ejemplo es un modelo de detección de fraudes que utiliza las puntuaciones de detección de anomalías como característica adicional.
Aprendizaje automático no supervisado + DataRobot
La plataforma de aprendizaje automático DataRobot requiere una columna «objetivo», es decir, necesita conocer la variable de salida para descubrir patrones en sus datos. Sin embargo, muchos de sus modelos utilizan el aprendizaje no supervisado para automatizar las complicadas técnicas de ingeniería de características, que son difíciles de implementar y consumen mucho tiempo sin automatización.
.