Esta es una pregunta amplia, por lo que mi respuesta será una descripción general del proceso en lugar de un tutorial específico sobre cómo implementar cualquier algoritmo de aprendizaje automático específico.
1. Reúna sus datos
Representa tus datos en forma de matriz porque esta es una forma práctica de manipular grandes cantidades de datos cuando aplicas algoritmos de aprendizaje automático. Decida cómo se verán sus vectores de entrada en términos de dimensiones (es decir, cómo pueden ser las características con las que está tratando), cómo se verá su salida (es decir, ¿está tratando con un valor numérico o tiene un problema de clasificación de varias clases a la mano? ) Pregúntese si la relación de características a la cantidad de puntos de datos es relativamente grande, pequeña o intermedia, porque esto tiene una gran influencia en el mejor algoritmo de ML para el problema en cuestión.
- ¿Puedo completar la preparación para hacer una maestría en ingeniería civil de las mejores universidades como MIT en un año?
- ¿Cuál es la mejor manera de preguntarle a un profesor sobre la disponibilidad de pasantías / proyectos de verano?
- Cómo convertirse en astronauta si soy ingeniero aeronáutico
- ¿La ingeniería estructural morirá en el futuro cercano?
- ¿Cómo es un día promedio para un ingeniero de perforación / perforadores de petróleo?
2. ¿Es este un problema de aprendizaje automático?
Un escenario ideal para usar ML es un caso en el que tiene un conjunto de entradas de buen tamaño que se puede clasificar, agrupar o asignar un valor de salida en un patrón reconocible que no es necesariamente representable como una fórmula matemática simple. Pregúntese si este problema puede / debe abordarse mediante el aprendizaje supervisado o algoritmos de aprendizaje no supervisados. La respuesta a esto depende de los datos disponibles. Más específicamente, piense en las fortalezas y debilidades de algunos algoritmos de aprendizaje automático comúnmente implementados, como la regresión logística, las redes neuronales y las máquinas de vectores de soporte, y decida qué algoritmo es el más apropiado.
3. Dividiendo sus datos
La mayor parte de su conjunto de datos se utilizará como un conjunto de entrenamiento para generar parámetros utilizando algoritmos como el descenso de gradiente o la ecuación normal. Los datos restantes serán parte del subconjunto de validación cruzada o del conjunto de prueba. Decida qué datos usará para cada subconjunto.
4. Primera implementación
Su objetivo aquí es simplemente hacer que su algoritmo de elección funcione, más o menos. No tiene que funcionar bien en este momento. Este paso se centrará en qué tan bien está representando sus datos y qué biblioteca está utilizando para encontrar los mínimos de la función de costo.
5. Optimización
Esta es la etapa en la que utiliza las curvas de aprendizaje para determinar si tiene problemas de sesgo o variación y refinar la cantidad / calidad de sus características, así como el tamaño de su conjunto de datos. Esto también le indicará si recopilar más datos mejorará sus resultados, lo cual es importante porque no desea perder tiempo extrayendo datos si no mejora sus resultados. Diferentes algoritmos de ML son adecuados para diferentes proporciones de características a puntos de datos.