¡Evaluación!
Hablaré principalmente sobre modelado predictivo / aprendizaje supervisado porque aquí es donde está mi experiencia. Además, estoy analizando esta pregunta desde la perspectiva de un científico de datos ‘práctico’ que busca resolver un problema específico utilizando el aprendizaje automático, no alguien que está tratando de desarrollar nuevos algoritmos de aprendizaje automático, aunque sería bueno saberlo también.
En la práctica, la evaluación correcta es increíblemente difícil, y ni siquiera estoy hablando dentro o fuera de la muestra o validación versus conjunto de pruebas. Esas son las apuestas de la mesa, pero no lo que más importa en las aplicaciones. Casi cualquier persona puede construir cientos, si no miles de modelos en un conjunto de datos dado, ¡pero estar seguro de que el que eligió es realmente el mejor para el trabajo es un arte! Por lo general, la pregunta no es qué algoritmo (regresión logística, SVM, árbol de decisión, aprendizaje profundo), sino más bien toda la tubería desde el muestreo de un conjunto de capacitación, preprocesamiento, representación de características, etiquetado, etc. Nada de esto tiene nada que ver con solo evaluación ‘fuera de muestra’. Así que aquí está tu brújula para hacerlo bien:
- Como científico de datos o consultor de análisis, ¿cómo explica su trabajo a los padres mayores que nunca habían usado computadoras?
- ¿Cuál es mi primer paso para convertirme en un científico de datos sin conocimiento académico?
- ¿Qué hacen los científicos de datos mientras entrenan a sus modelos?
- ¿Puede un científico de datos fingirlo hasta que lo logre?
- ¿Debería unirme a una startup como 'analista de datos' o 'especialista en análisis' con la esperanza de tener el título de científico de datos?
Su configuración de evaluación debe ser lo más cercana posible al USO previsto de su modelo.
Básicamente, desea acercarse lo más que pueda a simular tener ese modelo en producción y realizar un seguimiento del impacto lo más posible hasta el resultado final. Eso significa que en un mundo perfecto necesitas simular la decisión que tu modelo va a influir. Esto a menudo no es del todo posible.
Aquí hay un ejemplo: desea evaluar un nuevo modelo para predecir la probabilidad de que una persona haga clic en un anuncio. El primer problema que tiene es que casi seguramente no tiene ni la capacitación adecuada ni los datos de evaluación … Porque hasta que no muestre los anuncios no tiene nada de qué aprender. Así que bienvenidos a la parte del mundo del huevo y la gallina con mucha literatura sobre exploración vs explotación. Entonces, obtener un conjunto de datos decente para usar para la evaluación es difícil. Por supuesto, puede considerar algunas ideas del aprendizaje de transferencia y construir su modelo en alguna otra campaña publicitaria y esperar lo mejor, lo cual está bien para aprender pero realmente agrega solo una pregunta más a su evaluación, qué conjunto de datos alternativo es el más adecuado y, por supuesto Aún no tiene datos para la evaluación.
Pero supongamos por el momento que tiene un conjunto de datos algo correcto. Ahora, por supuesto, puede calcular todo tipo de cosas. Pero nuevamente, solo agregó a las muchas preguntas: ¿qué debe mirar: Probabilidad, AUC, Elevación (en qué porcentaje), Costo por clic? Y aunque hay algunos argumentos estadísticos para uno sobre el otro, no hay una respuesta correcta.
Lo que importa es lo que va a hacer con el modelo: ¿Lo está utilizando para seleccionar la creatividad en el 100% de los casos? ¿Lo está utilizando para seleccionar solo el n por ciento superior de las oportunidades más probables? ¿Desea cambiar el precio de oferta en una subasta en línea basada en esta predicción? ¿O quieres entender qué hace que las personas hagan clic en los anuncios en general? Todas esas preguntas pueden responderse con más o menos la misma tarea predictiva: predecir si alguien hará clic. Pero debe observar diferentes métricas en cada caso (de hecho, existe cierta correspondencia entre las 4 métricas anteriores y las 4 preguntas aquí) y apostaría a que debe seleccionar modelos muy diferentes para cada uno de estos usos.
Finalmente, ¡ten una línea de base! Una cosa es saber cuándo lo está haciendo mejor o peor. Pero aún queda la pregunta: ¿vale la pena o hay una solución simple que te acerque? Tener una solución simple para comparar es un componente fundamental de una buena evaluación. En IBM siempre usamos ‘Willie Sutton’. Él era un ladrón de bancos y cuando se le preguntó por qué lo hizo, la respuesta fue porque es “donde estaba el dinero”. Cualquier modelo de ventas que creamos siempre se comparó con Willie Sutton, solo clasifique las empresas por ingresos. ¿Cuánto mejor obtiene tu modelo elegante que eso?