Como Peter Flom mencionó, creo que las líneas no son tan claras en este momento.
Dos cosas que sé que separan a mis profesores de estadística académica, de los científicos de datos con los que interactúo aquí en Quora, son:
- Cómo hablan de su objetivo. Existe una división clara, muy clara entre la academia y la industria, donde los académicos realmente hablan sobre la comprensión (descubrimiento, desarrollo, publicación), y los industriales hablan sobre el impacto (mejora, producto, necesidades comerciales). Siento que en este momento, las estadísticas probablemente estén más asociadas con la comprensión que con el impacto. Lo que significa que sus productos finales podrían ser diferentes en algunos casos.
- El segundo es, como lo expresó Ricardo Vladimiro, los productos de datos son casi con toda seguridad diferentes. No muchos estadísticos académicos necesitarán usar Java o .Net o Node.js para producir un tablero llamativo y elegante; Del mismo modo, no muchos científicos de datos orientados a los negocios deben preocuparse por la escritura de subvenciones, su racha de publicaciones, otros autores que impugnan su investigación, enseñanza / tutoría, etc.
Por supuesto, esto no es una regla difícil y rápida; Solo estoy especulando sobre lo que he leído, y todavía no soy estadístico ni científico de datos. Además, considere que hay estadísticos que trabajan en la industria y científicos de datos que trabajan en la academia. Entonces, de nuevo, no es una regla, sino una generalización.
Lo último que mencionaré es quizás la diferencia entre el aprendizaje automático y el modelado estadístico. Por lo general , son utilizados por informáticos y estadísticos, respectivamente, lo que significa que los científicos de datos fuera de la ciencia de la computación están orientados al aprendizaje automático y los científicos de datos fuera de las estadísticas están orientados al modelado.
¿Qué significa esto para la pregunta?
Bueno, considere que el aprendizaje automático a menudo prioriza la predicción sobre la inferencia. Y viceversa para modelar. Un académico puede informar que un modelo en particular tiene un MSE malo, inferir por qué y explicarlo en detalle, y luego publicar ese resultado a medida que se agrega al conocimiento y la literatura. Si un científico de datos en una gran empresa produce un modelo que no encaja y simplemente realiza su presentación explicando por qué … bueno, eso no es realmente útil para sus gerentes o el equipo, ¿verdad? Lo morderán porque la compañía está perdiendo dinero mientras explica cosas que a nadie le importan realmente.
Esta es probablemente la razón por la cual Kaggle existe y lo está haciendo tan bien como motor de reclutamiento; Algunas compañías solo quieren que clasifiques a sus clientes correctamente, sin preguntas, sin excusas. Si su distribución de Poisson no es teóricamente adecuada para modelar un comportamiento en particular, pero ha diseñado sus características para compensar y el modelo es adecuadamente preciso, entonces se le pagará.
El aprendizaje automático, por lo tanto, podría estar más relacionado con la mejora del resultado que con la comprensión del proceso; mientras que el aprendizaje estadístico podría estar más relacionado con la comprensión del proceso que con la mejora del resultado. Los científicos de datos pueden caer probablemente en el primero, y los estadísticos pueden caer en el segundo.