¿Cuál es la diferencia entre un científico de datos y un estadístico?

Sasha Mikheev agregó mi definición concisa de Twitter en una respuesta a continuación:

“Un científico de datos es alguien que es mejor en estadística que cualquier ingeniero de software y mejor en ingeniería de software que cualquier estadístico”. [1]

Déjame expandirme un poco en eso. La gran mayoría de los estadísticos que he visto en mi vida son bastante malos para escribir software. Específicamente, el código que escriben nunca está diseñado para ser utilizado por alguien además de ellos . A menudo es un guión grande y desordenado. Las funciones son raras; las pruebas unitarias son inexistentes. Si nunca ha escrito código para uso de otra persona o ha mejorado una biblioteca que comparte con otras personas, no es un científico de datos.

La gran mayoría de los ingenieros de software con los que he trabajado saben un poco acerca de las estadísticas, pero rutinariamente arruinan sus análisis aplicando técnicas a los problemas sin comprender los supuestos detrás de esas técnicas. Un ejemplo común de esto que he visto es aplicar una prueba t o un modelo de regresión a observaciones que no son independientes e idénticamente distribuidas. [2] Si no puedes saber si un conjunto de observaciones es iid, no eres un científico de datos.

Tenga en cuenta que esta definición no contiene nada sobre visualización o comunicación. La visualización y comunicación de los resultados de los datos es necesaria para los estadísticos, los científicos de datos y, básicamente, cualquier otra persona que trabaje con datos. No pienso en esto como una característica distintiva de los científicos de datos. Tampoco es MapReduce, Hadoop o cualquier otra cosa de Big Data. Un científico de datos está en una mejor posición que la mayoría para aprovechar un clúster de Hadoop, pero eso no significa que el uso de Hadoop lo convierta en un científico de datos.

Últimamente he pensado mucho sobre cómo remediar esta situación y, por lo tanto, crear más científicos de datos. Según mi definición, enseñar a los estadísticos cómo codificar no es suficiente para convertirlos en científicos de datos; tenemos que enseñarles a codificar bien. Creo que es manejable, pero lleva tiempo, y necesitaríamos los incentivos y los requisitos del curso para que los estadísticos en la academia cambien un poco para ayudar a las cosas.

La posibilidad más intrigante para mí es encontrar formas de enseñar estadísticas a los ingenieros de software. Sospecho que enseñamos a las personas estadísticas avanzadas de una manera que tiende a asustar a los científicos informáticos al enfocarse en modelos paramétricos que requieren mucho cálculo en lugar de modelos no paramétricos que son principalmente computacionales. [3] Creo que este tipo de curso se puede hacer y sería útil; si alguien ha tomado algo así, hágamelo saber en los comentarios.

[1] josh_wills: Científico de datos (n.): Persona …
[2] Variables aleatorias independientes e idénticamente distribuidas
[3] Estadísticas no paramétricas

Un científico de datos es un estadístico que vive en San Francisco.

(Escuché esto de Josh Wills pero creo que se lo atribuyó a otra persona. ¿Josh?)


Nota: esto no es del todo una respuesta de broma. Intenta señalar que los científicos de datos en realidad son estadísticos, pero hay algunos matices culturales en la forma en que el término se aplica en la escena tecnológica actual, particularmente (pero no exclusivamente) en el Área de la Bahía de SF.

Destaqué algunas diferencias en este hilo similar: la respuesta de Adrian Olszewski a ¿Por qué tantos estadísticos no quieren convertirse en científicos de datos? ¿Por qué no están interesados ​​en Big Data?

Una de las diferencias es el tamaño de los datos que generalmente se analizan. Un estadístico típico no juega con millones de registros, ya que no requiere inferencia estadística (bueno, sería una tontería desde una perspectiva práctica) o un modelo complejo conocido, por ejemplo, de bioestadística o econometría. Un estadístico típico se centra en un conjunto completamente diferente de problemas, métodos, problemas.

Los científicos de datos saben cómo manejar grandes conjuntos de datos con millones de registros con miles de variables.

Los estadísticos saben cómo obtener información útil (si es posible) de conjuntos de datos pequeños (a veces extremadamente), donde muchos métodos fallan debido a supuestos violados y baja potencia. Sin mencionar el hecho de que los métodos multidimensionales requieren mucho más de 30 observaciones por conjunto de datos 😉

Los científicos de datos entienden las cosas desde una perspectiva de datos. Es necesario comprender qué características tienen los datos: ¿son escasos? ¿Tiene cierta estructura? ¿podemos aprovechar cierta información ortogonal de otras fuentes de datos? ¿Qué dicen los científicos de dominio sobre las propiedades de los datos? entre varios otros temas similares. La otra diferencia es que los científicos de datos son principalmente informáticos, desarrollan soluciones algorítmicas para problemas del mundo real, teniendo en cuenta las restricciones informáticas, que podrían ser causadas por el tamaño de los datos que contienen requisitos de espacio y tiempo. Para garantizar esto, un científico de datos puede necesitar conocer tecnologías como la computación paralela que pueden ayudarlo a abordar estos problemas. Dependiendo de los requisitos computacionales de la tarea en cuestión, especialmente en las aplicaciones que requieren cálculos sobre la marcha, es posible que desee realizar una parte de su procesamiento en la nube, alguna poderosa máquina de computación a la que se pueda acceder en la red, esto trae en el problema adicional de qué procesar en la nube, teniendo en cuenta que esto requeriría el envío continuo de datos en la red, aumentando el tiempo requerido. Esto es sólo la punta del iceberg. Hay una gran cantidad de otros problemas, como los que vienen con el procesamiento de datos en bruto, que dependiendo de la aplicación, pueden provenir de una variedad de fuentes, desde cámaras de monitoreo de tráfico hasta sensores montados en satélites que monitorean las condiciones climáticas en nuestro planeta.
El punto que estoy tratando de hacer es que, si bien un científico de datos requiere un conocimiento estadístico sólido, no es la única herramienta en su arsenal.

Los científicos de datos son estadísticos que se hacen llamar científicos de datos para conseguir un trabajo.

Un estadístico piensa primero en la inferencia, que es construir y estimar un modelo subyacente para los procesos que generaron los datos que ven.

Un científico de datos tradicionalmente no hace esto, piensa en patrones y predicciones. Históricamente provienen de la informática.

Esta distinción se podía ver muy fácilmente en los primeros días de la bioinformática, que era un esfuerzo impulsado por los datos sin ninguna idea estadística subyacente real, los biólogos y los informáticos que tenían muchos datos comenzaron a hacer cosas interesantes y útiles con ellos sin ningún marco de referencia. Luego, los estadísticos se involucraron (yo era uno de ellos) y agregaron un cierto rigor teórico a la inferencia, pero aún confiaron mucho en la magia computacional de los científicos de datos. Ahora es en gran medida un esfuerzo conjunto.

También puede pensar en la distinción en cómo abordan el ajuste del modelo.

Un modelo que maximiza la precisión de la predicción es una forma inherentemente de pensar de “científico de datos”. Maximizar la probabilidad (o similar) es una forma estadística de pensar. Diferentes respuestas son importantes en diferentes situaciones. Por supuesto, hay mucha superposición.

Un estadístico debe conocer más estadísticas para poder llevar ese término pesado. Simplemente saber cómo encontrar correlaciones, calcular diferentes tipos de regresión y comprender solo las distribuciones de probabilidad no es suficiente. El mayor conocimiento de las estadísticas podría ser arbitrariamente complejo. Ambos deben comprender estadísticas básicas y presentar resultados significativos de una manera visual que sea interesante e informativa.

Un científico de datos debe ser capaz de formar su propia hipótesis y probarla, de la A a la Z. Deben descubrir los requisitos de hardware y software, y también poder codificarlo todo. Parece que map-reduce es realmente común. Al menos en algunos casos tienen que convertirse en administradores de servidores, e incluso podrían estar ejecutando sistemas distribuidos.

El científico de datos es un programador más fuerte y quizás un matemático un poco más débil.

La siguiente es la mejor definición para un científico de datos que he visto hasta ahora (descubierto a través del tweet de Jeremy Jarvis). Espero que responda tu pregunta 🙂

Sin más preámbulos, un científico de datos es

“alguien que es mejor en estadística que cualquier ingeniero de software y mejor en ingeniería de software que cualquier estadístico”.

Volviendo a lo que se suponía que era el término en lugar de lo que la búsqueda de empleo y otras formas de trompeta lo han hecho, esto escribe desde 2010 ¿Qué es la ciencia de datos? lo resume razonablemente bien. Usted viene de una ciencia difícil (por lo que todo lo demás es fácil) y sabe cómo dividir un problema difícil en partes manejables. Has trabajado para dar algo de sentido inicial a las masas de datos (más mentalidad que necesariamente ser estadístico). Puede hackear visualizaciones para facilitar la creación de sentido, incluso si los datos no son completamente convincentes. Y tienes una gran cantidad de vendedor de autos (¡aceite de serpiente!) En ti para que puedas contar una variedad de historias (apócrifas o de otro tipo) en torno a los datos

Un científico de datos suele ser mejor para recopilar , almacenar , aumentar y preparar datos.

Un estadístico suele ser mejor para diseñar un nuevo procedimiento estadístico y analizar resultados estadísticos.

“Data Scientist” es más preferible al segmento de Informática / Programación que dominar el tipo de datos como entero, cadena, booleano, etc. para obtener la LÓGICA en el propósito principal.

¿Qué pasa con los “estadísticos”? probablemente excepto / no se usa booleano (sí o no, verdadero o falso, 1 o 0) porque el objetivo principal del trabajo es obtener VALOR

Mejor puesto por BigDataBorat!
BigDataBorat: Data Science es estadísticas en una Mac.

Abordo esto en la respuesta de Michael Hochster a ¿Qué es la ciencia de datos?

¿Cuál es la diferencia entre un estadístico y un científico de datos? Hora. Inicialmente, los estadísticos eran el título, mientras que ahora, como todo lo demás, ha evolucionado (para bien o para mal). El título tiene un alcance muy amplio, pero todo se reduce a números o datos crujientes para que todo tenga sentido. Eso es lo que hace SAS … la información correcta para la persona adecuada en el momento adecuado. Hay una gran demanda y eso continuará …

Los científicos de datos limpian y mezclan datos heterogéneos, aplicando métodos ad-hoc que buscan cualquier tipo de valor comercial.

Los estadísticos (censo, compañía farmacéutica, actuarios) tratan las preguntas fijas de manera más metódica.

“Científico de datos: persona que es mejor en estadística que cualquier ingeniero de software y mejor en ingeniería de software que cualquier estadístico”.

Por Josh Wills

More Interesting

¿Es la industria de la ciencia de datos / aprendizaje automático propensa al espectáculo y a los charlatanes? ¿Existen roles en la industria que sean adecuados para personas que no creen que tengan buenas habilidades sociales o de presentación / presentación (pero buenas habilidades técnicas)?

¿Cuántos algoritmos de aprendizaje automático, y a qué profundidad, debo saber para entrevistar con confianza para un puesto de científico de datos de nivel de entrada?

¿Vale la pena dejar un trabajo de desarrollador web a tiempo completo por valor de $ 65,000 para un pasante de ciencia de datos?

¿El programa de ciencia / análisis de datos se limita solo a graduados de ingeniería y TI, o puede un tipo con experiencia en comercio también convertirlo en una carrera?

¿Puedo ser un científico de datos? ¿Cómo hago para ser un científico de datos?

¿En qué consiste el trabajo de un científico de datos en las principales empresas de tecnología?

¿Cuál es su historia para encontrar un trabajo de ciencia de datos como recién graduado?

¿Es la especialización de la ciencia de datos o big data suficiente para unirse al mercado como científico de datos?

¿Qué conecta a los científicos / analistas de datos y al Internet de las cosas?

¿Vale la pena tomar una clase en Matlab en pregrado si quiero ser un Científico de Datos?

Cómo encontrar la regresión adecuada para el modelo dado

¿Los científicos de datos son buenos gerentes de producto?

¿Con qué frecuencia hacen presentaciones los científicos de datos?

Cómo construir una cartera de ciencia de datos sin experiencia laboral

Como científico de datos, ¿cuáles son las cosas que puedo aprender de los desarrolladores de stack completo para poder crear aplicaciones web interesantes para la ciencia de datos?