Como científico de datos, ¿cómo puede ‘oler’ un modelo demasiado ajustado?

Para problemas de clasificación, si las probabilidades predictivas para los casos de prueba están muy cerca de 0 o 1, entonces esto “huele” a exceso de equipamiento.

El modelo ajustado, en este caso, dice que es casi 100% seguro de las asignaciones de clase para todos los casos de prueba.

¿Por qué “huele” a exceso de equipamiento? El modelo es potencialmente demasiado confiado . Imagine a un médico especializado tratando de clasificar una enfermedad rara para un paciente. Incluso él / ella no puede decir con confianza “Puedo decir con casi 100% de certeza que una persona tiene la enfermedad”. Por otro lado, este modelo demasiado confiado cree que sabe mejor; ¡Es casi 100% seguro de que el paciente tiene la enfermedad!

Tenga en cuenta que esta respuesta aquí proporciona un “olor” particular de sobreajuste, es decir, un signo de sobreajuste potencial. Este “olor” por sí solo no sustituye los procedimientos formales de prueba como la validación cruzada (como ya se señaló).

Pregunta respondida: “Como científico de datos, ¿cómo puede” oler “un modelo demasiado ajustado?”

La forma más confiable (suponiendo que la distribución de datos no haya cambiado durante su experimento de ML) es guardar un conjunto de datos de prueba y calificar su modelo entrenado una vez que se haya completado la fase de entrenamiento (incluyendo el ajuste de hiperparámetros).

Como está solicitando una forma de “oler” un modelo que se ajusta demasiado, supongo que desea otras alternativas más rápidas.

Aquí hay algunas señales de que su modelo podría estar sobreajustado (nuevamente, la mejor manera es evaluar el conjunto de datos de prueba):

  • El modelo que está probando es complejo (por ejemplo, un árbol de aumento de gradiente [1]) y no tiene ninguna regularización [2]
  • No tienes muchos datos y tu modelo es complejo
  • El error de entrenamiento es sospechosamente demasiado bajo

Espero que esto ayude.

Notas al pie

[1] Aumento de gradiente – Wikipedia

[2] Regularización (matemáticas) – Wikipedia

En un sentido conceptual, puede equilibrar dos objetivos. Primero, ha asumido un modelo de variables para predecir la respuesta. El criterio para la predicción efectiva sigue un error entre la predicción de su modelo y las respuestas observadas. Segundo, un modelo debe ser interpretable y alinearse con los procesos que generaron los datos. Esto significa que para una tolerancia similar al error de predicción, un modelo favorece la simplicidad sobre la complejidad. Y solo retiene variables que tienen sentido con el proceso, o en la mayoría de los casos de uso, el negocio subyacente. Por lo tanto, para maximizar el error de predicción se requiere una cuidadosa selección de variables. Esto se basa en un fondo suficiente de un proceso.

Este enfoque tiene una segunda condición menos precisa, que se puede implementar a través de un algoritmo. Pero no implementa el mismo problema y solución de optimización que uno para regresión lineal u otro modelo que logre el objetivo. En este caso, un modelo minimiza el error de predicción para el objetivo. Debido a que los modelos de predicción funcionan en un conjunto de datos asumido, no consideran el proceso de selección de variables, la base de datos subyacente, y podrían no analizar posibles conjuntos de datos de acuerdo con los procesos en el negocio. Esto significa que resolver la primera condición bajo optimización resuelve un problema local, y ciertamente temporal, dada una solicitud de predicción.

Un buen criterio para el uso repetido de un modelo de predicción requiere un desempeño satisfactorio a largo plazo. Si alguien reutiliza el modelo en el mismo conjunto de datos con diferentes observaciones, aún debe recuperar el error de predicción durante un primer ajuste. Tiene sentido como un proceso de adaptación, que un modelo de predicción sigue siendo flexible para el reacondicionamiento, tiene sentido independientemente de un problema de optimización técnica y recombina variables y conjuntos de datos con facilidad. La regularidad primaria en este caso significa que las personas quieren predecir la respuesta de los conjuntos de datos.

Además de todas las buenas respuestas aquí: una primera prueba de “olor” es con los datos. Cualquier modelo es tan bueno como los datos de los que aprende. La relación característica / muestras (p / n) tiene un impacto matemático directo en cualquier medida de precisión: los datos pueden ser de baja calidad o la muestra no es representativa de la población, etc. El conocimiento del dominio es siempre el primer paso.

Esto no es un sobreajuste per se, más una verificación de la configuración general. Si comienza con datos problemáticos y aún agrega flexibilidad para mejorar la precisión de todos modos , el sobreajuste es casi un hecho.

Como otros dijeron, el procedimiento estándar consiste en ajustar los parámetros y la validación cruzada k-fold. Luego traza el resultado inicial frente a los resultados de validación cruzada, junto con la flexibilidad del modelo. Ese gráfico confirmará su “instinto” (versión de la servilleta a continuación …)

Validación cruzada. Si está sobreajustando, le irá muy bien con los datos entrenados, pero no muy bien con los datos que se han retenido. Desde la perspectiva de la intuición, si eres demasiado granular o específico, probablemente estés demasiado ajustado. Esta es una razón por la cual es mejor evolucionar modelos. Comience de manera simple y aumente, tomando nota de cómo están cambiando las cosas. Si tira el fregadero de la cocina desde el principio, no se está haciendo ningún favor. Simple es mejor que Complex por muchas razones. A veces hay que volverse más complejo, pero esas razones deben estar justificadas.

Utilice un conjunto de prueba y entrenamiento o validación cruzada. Si un conjunto de entrenamiento tiene un 100% de precisión pero el conjunto de prueba solo tiene un 80% de precisión, está sobreajustado. En general, si tiene un gran conjunto de datos de entrenamiento, muchos algoritmos se adaptarán en exceso.

Un AUROC> 0.95 sin aprendizaje profundo.

En salud, hagámoslo 0,90.