¿Qué hacen los científicos de datos que no hace un estadístico?

La respuesta típica sería: “DS sabe más sobre informática que un estadístico y las estadísticas más que una informática”.

Eso fue cierto al comienzo de la difusión de este término.
Hoy, este término se refiere a muchos trabajos diferentes desde TI hasta especialistas en marketing.

En mi opinión, un verdadero científico de datos, tiene una mentalidad de fondo de Estadística / Matemáticas. Le apasiona el análisis de datos en todos los pasos.
Entonces puede obtener datos de diferentes fuentes (estructuradas y no estructuradas), puede escribir consultas similares a SQL, puede ensamblar un conjunto de datos limpio y legible. Conoce al menos un lenguaje de programación entre R, Python, SPSS, SAS, donde puede realizar algoritmos de aprendizaje automático.

Para competir con el conjunto de habilidades, un buen DS debe poder presentar su trabajo de una manera clara / creativa. Así que también tiene algún tipo de gusto y habilidad en visualizaciones y gráficos. Por lo menos, pero no por último, debe ser capaz de describir modelos basados ​​en términos estadísticos difíciles para una audiencia no estadística.

Pero la mejor habilidad es la curiosidad y la voluntad de aprender y descubrir.

En pocas palabras, crear productos de datos. Un ejemplo ayudará a ilustrarlo. Trabajé en un producto de datos LTV hace unos meses. El objetivo era tener una aplicación que permitiera a los usuarios comerciales visualizar el valor de vida previsto de cohortes de usuarios que fueron adquiridos por campañas de marketing.

Estoy bastante seguro de que la mayoría de los estadísticos podrán consultar los datos que consulté y construir los modelos que construí. Si el objetivo fuera hacer predicciones y presentar informes, mi producción y la de un estadístico probablemente serían muy similares.

Sin embargo, creo dos conjuntos de código, en cierto modo, dos aplicaciones separadas:

  1. Una aplicación web creada en Shiny donde los usuarios comerciales pueden filtrar por campaña, país, plataforma y fecha. Cada vez que el usuario comercial filtraba uno de los campos, todos los demás campos reaccionarían minimizando la cantidad de opciones posibles solo a las que generaban resultados. Inmediatamente después, la aplicación ejecutaría las predicciones de LTV en tiempo real y las mostraría correctamente. Las predicciones tenían que ejecutarse en tiempo real porque había diferentes agregaciones disponibles, por ejemplo, por mes, por plataforma, por país, etc. También había una opción para descargar el conjunto de datos final con datos filtrados y predichos para que pudieran hacer sus propios informes. En el pico, la aplicación web ejecutaría cientos de miles de predicciones en unos minutos.
  2. Una rutina programada que preparó los datos para el consumo de la aplicación web. El tiempo de consulta de la aplicación fue enorme, así que escribí una pequeña tubería de datos que consultaba los datos fuera de línea y los hacía disponibles, ya preprocesados, para la aplicación. Esto hizo que la aplicación web fuera utilizable, ya que simplemente cargaba la carga diaria de datos que, si bien era grande, tomaba mucho menos tiempo cargarla que si consultaba las bases de datos directamente.

Estas dos cosas no están en la descripción del trabajo de un estadístico o un analista de datos. Sin embargo, tengo la convicción de que todos ellos son estadísticos con diferentes especializaciones.

Como Peter Flom mencionó, creo que las líneas no son tan claras en este momento.

Dos cosas que sé que separan a mis profesores de estadística académica, de los científicos de datos con los que interactúo aquí en Quora, son:

  1. Cómo hablan de su objetivo. Existe una división clara, muy clara entre la academia y la industria, donde los académicos realmente hablan sobre la comprensión (descubrimiento, desarrollo, publicación), y los industriales hablan sobre el impacto (mejora, producto, necesidades comerciales). Siento que en este momento, las estadísticas probablemente estén más asociadas con la comprensión que con el impacto. Lo que significa que sus productos finales podrían ser diferentes en algunos casos.
  2. El segundo es, como lo expresó Ricardo Vladimiro, los productos de datos son casi con toda seguridad diferentes. No muchos estadísticos académicos necesitarán usar Java o .Net o Node.js para producir un tablero llamativo y elegante; Del mismo modo, no muchos científicos de datos orientados a los negocios deben preocuparse por la escritura de subvenciones, su racha de publicaciones, otros autores que impugnan su investigación, enseñanza / tutoría, etc.

Por supuesto, esto no es una regla difícil y rápida; Solo estoy especulando sobre lo que he leído, y todavía no soy estadístico ni científico de datos. Además, considere que hay estadísticos que trabajan en la industria y científicos de datos que trabajan en la academia. Entonces, de nuevo, no es una regla, sino una generalización.

Lo último que mencionaré es quizás la diferencia entre el aprendizaje automático y el modelado estadístico. Por lo general , son utilizados por informáticos y estadísticos, respectivamente, lo que significa que los científicos de datos fuera de la ciencia de la computación están orientados al aprendizaje automático y los científicos de datos fuera de las estadísticas están orientados al modelado.

¿Qué significa esto para la pregunta?

Bueno, considere que el aprendizaje automático a menudo prioriza la predicción sobre la inferencia. Y viceversa para modelar. Un académico puede informar que un modelo en particular tiene un MSE malo, inferir por qué y explicarlo en detalle, y luego publicar ese resultado a medida que se agrega al conocimiento y la literatura. Si un científico de datos en una gran empresa produce un modelo que no encaja y simplemente realiza su presentación explicando por qué … bueno, eso no es realmente útil para sus gerentes o el equipo, ¿verdad? Lo morderán porque la compañía está perdiendo dinero mientras explica cosas que a nadie le importan realmente.

Esta es probablemente la razón por la cual Kaggle existe y lo está haciendo tan bien como motor de reclutamiento; Algunas compañías solo quieren que clasifiques a sus clientes correctamente, sin preguntas, sin excusas. Si su distribución de Poisson no es teóricamente adecuada para modelar un comportamiento en particular, pero ha diseñado sus características para compensar y el modelo es adecuadamente preciso, entonces se le pagará.

El aprendizaje automático, por lo tanto, podría estar más relacionado con la mejora del resultado que con la comprensión del proceso; mientras que el aprendizaje estadístico podría estar más relacionado con la comprensión del proceso que con la mejora del resultado. Los científicos de datos pueden caer probablemente en el primero, y los estadísticos pueden caer en el segundo.

No creo que las divisiones entre estos dos trabajos estén firmemente establecidas todavía, pero mi impresión es que un científico de datos también será experto en obtener datos de la web usando una variedad de programación, tal vez usando Python.