¿Cuál es el proceso de aprendizaje automático?

Esta es una pregunta amplia, por lo que mi respuesta será una descripción general del proceso en lugar de un tutorial específico sobre cómo implementar cualquier algoritmo de aprendizaje automático específico.

1. Reúna sus datos

Representa tus datos en forma de matriz porque esta es una forma práctica de manipular grandes cantidades de datos cuando aplicas algoritmos de aprendizaje automático. Decida cómo se verán sus vectores de entrada en términos de dimensiones (es decir, cómo pueden ser las características con las que está tratando), cómo se verá su salida (es decir, ¿está tratando con un valor numérico o tiene un problema de clasificación de varias clases a la mano? ) Pregúntese si la relación de características a la cantidad de puntos de datos es relativamente grande, pequeña o intermedia, porque esto tiene una gran influencia en el mejor algoritmo de ML para el problema en cuestión.

2. ¿Es este un problema de aprendizaje automático?

Un escenario ideal para usar ML es un caso en el que tiene un conjunto de entradas de buen tamaño que se puede clasificar, agrupar o asignar un valor de salida en un patrón reconocible que no es necesariamente representable como una fórmula matemática simple. Pregúntese si este problema puede / debe abordarse mediante el aprendizaje supervisado o algoritmos de aprendizaje no supervisados. La respuesta a esto depende de los datos disponibles. Más específicamente, piense en las fortalezas y debilidades de algunos algoritmos de aprendizaje automático comúnmente implementados, como la regresión logística, las redes neuronales y las máquinas de vectores de soporte, y decida qué algoritmo es el más apropiado.

3. Dividiendo sus datos

La mayor parte de su conjunto de datos se utilizará como un conjunto de entrenamiento para generar parámetros utilizando algoritmos como el descenso de gradiente o la ecuación normal. Los datos restantes serán parte del subconjunto de validación cruzada o del conjunto de prueba. Decida qué datos usará para cada subconjunto.

4. Primera implementación

Su objetivo aquí es simplemente hacer que su algoritmo de elección funcione, más o menos. No tiene que funcionar bien en este momento. Este paso se centrará en qué tan bien está representando sus datos y qué biblioteca está utilizando para encontrar los mínimos de la función de costo.

5. Optimización

Esta es la etapa en la que utiliza las curvas de aprendizaje para determinar si tiene problemas de sesgo o variación y refinar la cantidad / calidad de sus características, así como el tamaño de su conjunto de datos. Esto también le indicará si recopilar más datos mejorará sus resultados, lo cual es importante porque no desea perder tiempo extrayendo datos si no mejora sus resultados. Diferentes algoritmos de ML son adecuados para diferentes proporciones de características a puntos de datos.

Existen diferentes tipos de aprendizaje automático:

Aprendizaje supervisado

Básicamente, en el aprendizaje supervisado, los datos se componen de 2 elementos, el vector de características (es decir, [peso, altura, edad]) y la etiqueta (obeso o no obeso), y según los ejemplos, su clasificador aprende a diferenciar un obeso de un no obeso.

Hay muchas formas de hacerlo, le sugiero que comience con el vecino más cercano, que KNN, Adaptive-KNN, Decision Tree, GMM, HMM, Neural Networks (…)

Mira esta respuesta
¿Cuáles son las mejores maneras de predecir conjuntamente la clase, subclase, subclase de una muestra en un conjunto de datos que es compuesto?

Aprendizaje sin supervisión

En el aprendizaje no supervisado, los datos de entrenamiento están compuestos por muchos vectores (características), pero la etiqueta es desconocida. Con eso, se utilizan algunas técnicas de agrupación para identificar grupos en los datos. Con eso, un nuevo patrón se puede clasificar como uno de los grupos representados.

Comience con K-means y modelos de mezcla.

PD: Esta es una respuesta muy sumergida. Si usted es serio sobre el aprendizaje automático, le sugiero que lea un libro sobre inteligencia artificial para tener un conocimiento básico, que comience a leer documentos de resumen sobre el tema.