[Azure Machine Learning] Sobreajuste y subajuste (Overﬁtting and Underﬁtting)

Se le llama inducción al aprendizaje de conceptos generales a partir de ejemplos específicos. Esto es contrario a la deducción que busca aprender conceptos específicos a partir de reglas generales.

Considerando lo anterior, podemos deducir que una inducción eficiente es clave para el desarrollo de modelos predictivos en el aprendizaje automático supervisado.

Generalización en Machine Learning

La capacidad de generalización nos indica qué tan bien los conceptos aprendidos por un modelo de aprendizaje automático se aplican a ejemplos específicos que el modelo no vio cuando estaba aprendiendo. El objetivo de un buen modelo de aprendizaje automático es generalizar bien los datos de entrenamiento. Esto nos permite hacer predicciones en el futuro sobre los datos que el modelo nunca ha visto. Sobreajuste y subajuste son terminologías empleados en el aprendizaje automático para hacer referencia a qué tan bien un modelo generaliza nuevos datos ya que el ajuste excesivo y el ajuste insuficiente son las dos causas principales del rendimiento deficiente de los algoritmos de aprendizaje automático.

Sobreajuste

El sobreajuste hace referencia a un modelo que se sobre-entrena considerando cada mínimo detalle de los datos de entrenamiento. Esto significa que el ruido o las fluctuaciones aleatorias en los datos de entrenamiento son recogidos y aprendidos como conceptos por el modelo. El problema es que estos conceptos no se aplican a nuevos datos y tienen un impacto negativo en la capacidad de los modelos para generalizar.

Este sobre-entrenamiento suele darse con mayor probabilidad en modelos no lineales, por ello muchos de estos algoritmos de aprendizaje automático también incluyen parámetros o técnicas para limitar y restringir la cantidad de detalles que aprende. Algunos ejemplos de algoritmos no lineales son los siguientes:

Decision Trees
Naive Bayes
Support Vector Machines
Neural Networks

Sobreajuste y subajuste en problemas de clasificación

Subajuste

El subajuste hace referencia a un modelo que no puede modelar los datos de entrenamiento ni generalizar a nuevos datos. Un modelo de aprendizaje automático insuficiente no es un modelo adecuado. Las estrategias para mitigar un ajuste insuficiente son variadas y dependen del contexto.

Como puede deducirse, el subajuste suele darse con mayor probabilidad en modelos lineales, como por ejemplo:

Logistic Regression
Linear Discriminant Analysis
Perceptron

Sobreajuste y subajuste en problemas de regresión

¿Cómo detectarlos?

Tanto el sobreajuste como el subajuste perjudican el rendimiento de un modelo. Lo bueno es que existen algunas técnicas que se pueden utilizar para evaluar los algoritmos de aprendizaje automático:

Retención de conjunto de datos de validación.
Validación cruzada dejando uno fuera (Leave-one-out cross-validation or LOOCV).
Validación cruzada basada en remuestreo por grupos o pliegos (K-fold cross-validation)
Bootstrapping o remuestreo de Bradley Efron

La técnica de remuestreo más popular es la validación cruzada de k-fold, el cual permite entrenar y probar el modelo k-veces con diferentes subconjuntos de datos de entrenamiento y construir una estimación más objetiva del rendimiento de un modelo de aprendizaje automático cuando trabaja con datos invisibles.

En el caso del bootstrapping, la idea básica es dado un conjunto datos de entrenamiento extraer de esta tabla aleatoriamente y con reemplazo nuevas tablas de datos, cada una de la cuales deberá tener el mismo tamaño que la tabla original. Entonces modelo se estima en cada una de estas nuevas tablas (boostraps) y luego las predicciones se hacen para la tabla original de datos o conjunto de entranamiento.