- Ser muy escéptico de los resultados, incluido el propio. Las estadísticas (más allá del punto de introducción al campo) es conocer todas las formas en que se pueden extraer inferencias erróneas.
- No quedar impresionado con la pesada maquinaria matemática (también conocida como aprendizaje automático académico) que conduce a mejoras derivadas y no proporciona grandes saltos en las ideas sobre el problema.
Como ejemplo del segundo punto, permítame señalarle un artículo que acabo de leer: Zou, James Y., et al. “Aprendizaje contrastante utilizando métodos espectrales”. Avances en los sistemas de procesamiento de información neuronal . 2013. NIPS es una conferencia de ML codiciada, y los autores de este artículo son de Harvard (3) y Columbia (1). Sin embargo, en mi opinión personal, es un papel pobre respaldado por muchas matemáticas. El documento dice que “las palabras en el documento se dibujan independientemente de la distribución especificada por el vector de probabilidad [matemática] \ mu_t \ en R ^ D [/ matemática]”. Otra joya: “suponemos que [math] \ mu_1, \ mu_2, …, \ mu_K [/ math] son vectores de probabilidad linealmente independientes en [math] R ^ D [/ math]”. Se supone que el aprendizaje automático es la base. de la ciencia de datos, pero carece del énfasis en la corrección y la estética que tiene la estadística. A menudo, las personas harán suposiciones extrañas que definitivamente no están satisfechas en el mundo real solo para hacer que las matemáticas “se realicen”. Por lo tanto, los científicos de datos deben apoyarse en el aprendizaje automático para obtener una base sólida, pero saben dónde termina el temple y dónde comienza la mierda académica.