¿Qué debe saber todo científico de datos sobre el aprendizaje automático?

¡Evaluación!

Hablaré principalmente sobre modelado predictivo / aprendizaje supervisado porque aquí es donde está mi experiencia. Además, estoy analizando esta pregunta desde la perspectiva de un científico de datos ‘práctico’ que busca resolver un problema específico utilizando el aprendizaje automático, no alguien que está tratando de desarrollar nuevos algoritmos de aprendizaje automático, aunque sería bueno saberlo también.

En la práctica, la evaluación correcta es increíblemente difícil, y ni siquiera estoy hablando dentro o fuera de la muestra o validación versus conjunto de pruebas. Esas son las apuestas de la mesa, pero no lo que más importa en las aplicaciones. Casi cualquier persona puede construir cientos, si no miles de modelos en un conjunto de datos dado, ¡pero estar seguro de que el que eligió es realmente el mejor para el trabajo es un arte! Por lo general, la pregunta no es qué algoritmo (regresión logística, SVM, árbol de decisión, aprendizaje profundo), sino más bien toda la tubería desde el muestreo de un conjunto de capacitación, preprocesamiento, representación de características, etiquetado, etc. Nada de esto tiene nada que ver con solo evaluación ‘fuera de muestra’. Así que aquí está tu brújula para hacerlo bien:

Su configuración de evaluación debe ser lo más cercana posible al USO previsto de su modelo.

Básicamente, desea acercarse lo más que pueda a simular tener ese modelo en producción y realizar un seguimiento del impacto lo más posible hasta el resultado final. Eso significa que en un mundo perfecto necesitas simular la decisión que tu modelo va a influir. Esto a menudo no es del todo posible.

Aquí hay un ejemplo: desea evaluar un nuevo modelo para predecir la probabilidad de que una persona haga clic en un anuncio. El primer problema que tiene es que casi seguramente no tiene ni la capacitación adecuada ni los datos de evaluación … Porque hasta que no muestre los anuncios no tiene nada de qué aprender. Así que bienvenidos a la parte del mundo del huevo y la gallina con mucha literatura sobre exploración vs explotación. Entonces, obtener un conjunto de datos decente para usar para la evaluación es difícil. Por supuesto, puede considerar algunas ideas del aprendizaje de transferencia y construir su modelo en alguna otra campaña publicitaria y esperar lo mejor, lo cual está bien para aprender pero realmente agrega solo una pregunta más a su evaluación, qué conjunto de datos alternativo es el más adecuado y, por supuesto Aún no tiene datos para la evaluación.

Pero supongamos por el momento que tiene un conjunto de datos algo correcto. Ahora, por supuesto, puede calcular todo tipo de cosas. Pero nuevamente, solo agregó a las muchas preguntas: ¿qué debe mirar: Probabilidad, AUC, Elevación (en qué porcentaje), Costo por clic? Y aunque hay algunos argumentos estadísticos para uno sobre el otro, no hay una respuesta correcta.

Lo que importa es lo que va a hacer con el modelo: ¿Lo está utilizando para seleccionar la creatividad en el 100% de los casos? ¿Lo está utilizando para seleccionar solo el n por ciento superior de las oportunidades más probables? ¿Desea cambiar el precio de oferta en una subasta en línea basada en esta predicción? ¿O quieres entender qué hace que las personas hagan clic en los anuncios en general? Todas esas preguntas pueden responderse con más o menos la misma tarea predictiva: predecir si alguien hará clic. Pero debe observar diferentes métricas en cada caso (de hecho, existe cierta correspondencia entre las 4 métricas anteriores y las 4 preguntas aquí) y apostaría a que debe seleccionar modelos muy diferentes para cada uno de estos usos.

Finalmente, ¡ten una línea de base! Una cosa es saber cuándo lo está haciendo mejor o peor. Pero aún queda la pregunta: ¿vale la pena o hay una solución simple que te acerque? Tener una solución simple para comparar es un componente fundamental de una buena evaluación. En IBM siempre usamos ‘Willie Sutton’. Él era un ladrón de bancos y cuando se le preguntó por qué lo hizo, la respuesta fue porque es “donde estaba el dinero”. Cualquier modelo de ventas que creamos siempre se comparó con Willie Sutton, solo clasifique las empresas por ingresos. ¿Cuánto mejor obtiene tu modelo elegante que eso?

  1. No hay balas de plata en el aprendizaje automático: a menudo necesita probar varios métodos, pero esto se vuelve más fácil con más experiencia
  2. El aprendizaje automático cubre mucho terreno, como la agrupación, clasificación y regresión.
  3. Debe comprender los métodos que planea usar y cómo no aplicarlos incorrectamente. La mayoría de las implementaciones vienen con algunos datos de prueba: ejecute los métodos sobre eso y juegue con los parámetros para tener una idea de cómo ajustar los mandos
  4. Lo más importante: el aprendizaje automático se trata de generalización : desea que su hipótesis se generalice para probar los datos, por lo que no siempre tiene sentido adaptar sus datos de entrenamiento a la perfección. Una hipótesis que obtiene una precisión del 99% en sus datos de entrenamiento pero luego una precisión del 61% en sus datos de prueba no es una hipótesis muy buena.

La matemática detrás de los métodos. Esto guía la aplicación adecuada y la inferencia de técnicas. La mayoría de los paquetes recibirán casi cualquier cosa y darán salida; esto no significa que el problema esté resuelto correctamente. Conocer las matemáticas puede alertarlo sobre las limitaciones y suposiciones, así como sobre los posibles “puntos atascados” para los algoritmos subyacentes a un método de aprendizaje automático (por ejemplo, una mayor regresión y puntos de apoyo).

Si necesita algo para ayudar a construir la intuición, intente: https://www.slideshare.net/Colle

El primero y más importante es “No todos los problemas de datos pueden resolverse mediante el aprendizaje automático”. Es importante tener esta claridad usted mismo y transmitirla al resto de las partes interesadas.

La mayoría de los científicos de datos tienen una comprensión decente sobre las técnicas de aprendizaje supervisado. Pero pocos tienen la habilidad de obtener el mejor modelo basado en los matices y los datos. La capacidad para desarrollar una conexión más profunda con los modelos (una buena manera de comenzar es conocer los supuestos subyacentes y su debilidad) es la clave para un ingeniero de ML.

El siguiente es un conocimiento sólido sobre el aprendizaje no supervisado que es igualmente crítico. La mayoría de los científicos de datos deberían poder aplicar técnicas como Agrupación, PCA, etc. Las buenas habilidades de ingeniería de características son lo que separa a un científico de datos experimentado de uno en ciernes.

Pocos obvios son los conceptos sobre capacitación, pruebas, validación cruzada. Y por último, pero no menos importante, el científico de datos debe estar bien versado en medidas de precisión (precisión, precisión, recuperación, puntaje F, matriz de confusión) para poder responderlas a las 4 a.m. 🙂

Ningún enfoque único puede reclamar una superioridad inherente sobre los demás, sobre todas las clases de problemas. – El teorema “Sin almuerzo gratis” (Wolpert y McReady).

Todos asesorarán sobre modelos (poco profundos frente a profundos, etc.), enfoques de exploración de datos, evaluación y generalización, etc. Al final del día, creo firmemente que no existe el mejor modelo, la mejor caja de herramientas o la mejor tecnología o enfoque curricular para convertirse en un buen científico de datos.

En lo que sí creo firmemente es que cada científico de datos debe desarrollar gradualmente un quinto sentido (o “presentimiento” si lo desea) sobre los datos y el proceso real que se está analizando para fines predictivos de inferencia.

Recuerde que SI no hay forma de que un humano (científico de datos o similar) pueda hacer una inferencia sobre un fenómeno ENTONCES es poco probable que un algoritmo de aprendizaje automático pueda aprender algo útil. Incluso si dominas decir solo un enfoque de modelo de aprendizaje superficial, realmente creo que es suficiente (teóricamente) para generar resultados buenos, factibles y comerciales. Eso, por supuesto, si combina sus conocimientos de aprendizaje automático con una comprensión decente del proceso físico / natural detrás de los datos, y desarrolla gradualmente el llamado “presentimiento”.

Primero comencemos con la herramienta que tienes que tener conocimiento. SAS.R y si es posible Python. La comprensión de las estadísticas básicas es imprescindible, debe estar a su alcance.

Modeling▪ Regresión. Regresión logística. AIRMA. Árbol de decisión. Oreja. Bosque al azar. Probabilidad. Teorema de Bayes.

Y deberías comenzar a sentir los datos … nunca duerme.

En esta era dinámica, el logro de las organizaciones depende de cuán rápida y productivamente puedan resolver las elecciones correctas. Esto ofrece ascender a la necesidad de las aplicaciones o instrumentos que podrían recopilar los datos y tomar las actividades en la premisa de eso. Una rama de la capacidad intelectual artificial que instruye a las máquinas a mejorar los rendimientos en vista de la comprensión del pasado, se denomina aprendizaje automático.

Apache Mahout es una biblioteca de código abierto escrita en Java destinada a crear cálculos adaptables en cuestión de momentos. Se utiliza para descubrir ejemplos importantes y educativos en las complejas colecciones informativas enormes. Esta aplicación es una expansión de la idea actual de realizar máquinas que es un campo en desarrollo de razonamiento computarizado. Se ejecuta fundamentalmente sobre el grupo Hadoop con la ayuda de MapReduce.

El aprendizaje automático no es nada sin los datos. El conjunto correcto de datos se convierte en un catalizador. Obtenga los datos correctos primero y el algoritmo se simplifica. Primero obtenga los datos incorrectos y ningún algoritmo funcionará. Básicamente, sé brillante en lo básico.

More Interesting

Como científico de datos, ¿puedo crear empleo en lugar de trabajar para algún empleador?

¿Qué piensan los científicos de datos sobre el uso de la raíz de C ++, en comparación con R o Python? Me preocupa el rendimiento y la flexibilidad.

¿Cómo se promueven los científicos de datos en Facebook?

¿Cómo detectan los científicos de datos los cambios estructurales que pueden socavar las predicciones?

¿Debería hacer una pasantía como ingeniero de software o como científico de datos si quisiera trabajar en IA? ¿Cuál sería más útil para mi carrera?

¿Debería esperarse que los científicos de datos se enfrenten al cliente?

Tengo un título en ingeniería, pero quiero convertirme en científico de datos. ¿Merece la pena obtener una maestría o simplemente ampliar mis habilidades de programación, estadística y matemática?

Cómo comparar el pasante científico de datos en Airbnb versus el pasante científico de datos de infraestructura en Facebook

¿Cuáles son las desventajas de trabajar como científico de datos?

Cómo convertirse en científico de datos después de hacer ingeniería civil

¿Debería considerar cambiar mi carrera de desarrollador de Informatica ETL a científico de datos?

Cómo comenzar mi carrera como científico de datos desde un gerente de TI (implementación de ERP)

Si pudieras diseñar tu propio trabajo en ciencia de datos, ¿cómo sería el perfil del trabajo?

¿Debo obtener una certificación PMP (Project Management Professional) si estoy interesado en una carrera en ciencia de datos y, a largo plazo, liderar un equipo de científicos de datos?

¿Debería quedarme en India y apurarme para comenzar mi empresa o ir a Silicon Valley para trabajar como científico de datos?