[Azure Machine Learning] Tipos de problemas en Machine Learning

A medida que profundizamos en las ciencias de los datos detrás de Machine Learning, debemos tomar en cuenta que existen varios algoritmos de aprendizaje automático y que cada uno de ellos tiene sus particularidades y ventajas.

Estos algoritmos pueden agruparse en las siguientes categorias:

Algoritmos de clasificación Estos se usan para clasificar los datos en diferentes categorías que luego se pueden usar para predecir una o más variables discretas, basado en otros atributos en el conjunto de datos.
Algoritmos de regresión Estos se utilizan para predecir una o más variables continuas, como ganancias o pérdidas, basado en otros atributos en el conjunto de datos.
Algoritmos de agrupamiento Estos determinan los agrupamientos y patrones naturales en los conjuntos de datos y se utilizan para predecir las clasificaciones de agrupamiento para una variable determinada.

Para el correcto uso de estos algoritmos en Machine Learning, es importante resaltar los conceptos de aprendizaje supervisado, aprendizaje no supervisado y aprendizaje por refuerzo. Con el aprendizaje supervisado, el modelo de predicción se "entrena" al proporcionar entradas y salidas conocidas. Este método de entrenamiento crea un modelo que luego puede predecir resultados futuros cuando se proporciona solo entradas nuevas. El aprendizaje no supervisado, por otro lado, se basa en el sistema para auto-analizar los datos e inferir patrones y estructuras comunes para crear un modelo predictivo. Y el aprendizaje por refuerzo que se desarrolla y mejora su desempeño a partir de la interacción con su entorno.

Aprendizaje supervisado

El aprendizaje supervisado es un tipo de algoritmo de aprendizaje automático que utiliza conjuntos de datos conocidos para crear un modelo que luego puede hacer predicciones. Los conjuntos de datos conocidos son llamados "conjuntos de datos de entrenamiento" e incluyen elementos de datos de entrada junto con valores de respuesta conocidos. A partir de estos conjuntos de datos de entrenamiento, los algoritmos de aprendizaje supervisado intentan construir un nuevo modelo que puede hacer predicciones basadas en nuevos valores de entrada junto con resultados conocidos. El aprendizaje supervisado se puede separar en dos categorías generales de algoritmos:

Clasificación Estos algoritmos se usan para predecir respuestas que pueden tener solo unos pocos valores conocidos, como casado, soltero o divorciado, según las otras columnas del conjunto de datos.
Regresión Estos algoritmos pueden predecir una o más variables continuas, como ganancias o pérdidas, en base a otras columnas en el conjunto de datos.

La siguiente imagen ilustra la idea general de creación de nuevos modelos de predicción basados en el uso de aprendizaje supervisado:

Uno de los conceptos clave que hay que entender sobre el uso del enfoque de aprendizaje supervisado, es que el uso de los datos de entrada conocidos y los elementos de datos de resultados conocidos se han "etiquetado". Para cada fila de datos de entrada, los elementos de datos están designados en cuanto a su uso para hacer una predicción.

Básicamente, cada fila de datos de entrenamiento contiene elementos de entrada de datos junto con un resultado conocido para esas entradas de datos. Normalmente, la mayoría de las columnas de entrada están etiquetadas como entidades o variables vectoriales. Este etiquetado indica que las columnas deben ser consideradas por los algoritmos predictivos como elementos de entrada elegibles, lo que podría tener un impacto en hacer una predicción más precisa.

Lo más importante es que, para cada fila de entradas de datos de entrenamiento, también hay una columna que denota los resultados conocidos basados en la combinación de características de entrada de datos o vectores. Las columnas de entrada de datos restantes se considerarían no utilizadas, pero podrían utilizarse más adelante según la relevancia del impacto que causa sobre el resultado o según se considere conveniente.

Para resumir, los conjuntos de datos de entrenamiento requieren que cada columna de entrada pueda tener solo una de las tres designaciones siguientes:

Características o vectores Datos conocidos que se utilizan como elemento de entrada para hacer una predicción.
Etiquetas o señal de supervisión Representa los resultados conocidos de las características correspondientes para el registro de entrada.
No usados (predeterminado) No se usa por los algoritmos predictivos para inferir un nuevo modelo predictivo.

En la siguiente figura se ilustra cómo se verían los elementos de datos de entrada conocidos y los resultados conocidos para uno de los conjuntos de datos guardados de Azure Machine Learning de muestra para la "clasificación binaria de ingresos del censo de adultos":

El conjunto de datos de clasificación binaria de ingresos del censo de adultos sería un ejemplo de un conjunto de datos de capacitación que se podría usar para crear un nuevo modelo para predecir si el nivel de ingresos de una persona sería 1) menor o igual a $ 50,000 al año o 2) el ingreso es mayor a $ 50,000 al año. Esta predicción se basa en las variables de entrada conocidas, como edad, educación, tipo de trabajo, estado civil, raza y número de horas trabajadas por semana.

Una vez generado, un nuevo modelo puede ser validado para la precisión mediante el uso de conjuntos de datos de prueba. Aquí es donde todo se vuelve realmente interesante: al usar conjuntos de datos de "entrenamiento" más grandes y más diversos, los modelos predictivos pueden mejorarse de forma incremental y seguir aprendiendo.

Aprendizaje no supervisado

En el caso de aprendizaje automático no supervisado, la tarea de hacer predicciones se vuelve mucho más difícil. En este escenario, no contamos con datos de entrada o de salida conocidos para generar un nuevo modelo predictivo y el éxito del nuevo modelo predictivo depende completamente de la capacidad de inferir e identificar patrones, estructuras y relaciones en el conjunto de datos entrantes.

Un enfoque básico del aprendizaje no supervisado es el análisis de conglomerados y se utiliza para encontrar patrones ocultos o agrupaciones dentro de conjuntos de datos, algunos ejemplos comunes de clasificaciones de análisis de conglomerados incluirían lo siguiente:

Niveles socioeconómicos Ingresos, educación, profesión, edad, número de hijos, tamaño de la ciudad o residencia, etc.
Datos psicográficos Intereses personales, estilo de vida, motivación, valores, implicación.
Gráficos de redes sociales Grupos de personas relacionadas con usted por familia, amigos, trabajo, escuelas, asociaciones profesionales, etc.
Patrones de compra Rango de precios, tipo de medios utilizados, intensidad de uso, elección de punto de venta, fidelidad, comprador o no comprador, intensidad de compra.

Aprendizaje por esfuerzo

Las recompensas positivas y negativas se utilizan para proporcionar retroalimentación al modelo predictivo. La clave del éxito en la implementación de este modelo es permitir que el nuevo modelo realice sus predicciones basándose únicamente en recompensas y castigos anteriores por predicciones similares realizadas en conjuntos de datos similares.

Este enfoque puede ser un activo poderoso cuando hay una manera fácil de asignar valores de retroalimentación a las acciones. La agrupación en clústeres puede ser útil cuando hay suficientes datos para formar agrupaciones para delinear lógicamente los datos. Los datos delineados luego hacen inferencias sobre los grupos y los individuos en el grupo.

ENLACES DE INTERES

Machine Learning en 5 minutos
https://www.youtube.com/watch?v=YUoP5Te5wBk

Ad unit

Eventos

Populares