Sasha Mikheev agregó mi definición concisa de Twitter en una respuesta a continuación:
“Un científico de datos es alguien que es mejor en estadística que cualquier ingeniero de software y mejor en ingeniería de software que cualquier estadístico”. [1]
Déjame expandirme un poco en eso. La gran mayoría de los estadísticos que he visto en mi vida son bastante malos para escribir software. Específicamente, el código que escriben nunca está diseñado para ser utilizado por alguien además de ellos . A menudo es un guión grande y desordenado. Las funciones son raras; las pruebas unitarias son inexistentes. Si nunca ha escrito código para uso de otra persona o ha mejorado una biblioteca que comparte con otras personas, no es un científico de datos.
- ¿Puedo aplicar los algoritmos de aprendizaje automático sin saber cómo funcionan realmente para resolver el problema de la ciencia de datos y convertirme en científico de datos?
- Soy un graduado en ciencias de la computación. ¿Puedo convertirme en un científico de datos?
- ¿Cuántos científicos de datos trabajan para United Health Group?
- ¿Cómo resolvería un científico de datos este problema comercial?
- ¿Dónde puedo trabajar con datos y usar Python, Node.js o JavaScript, y bases de datos y aprender sobre ellos?
La gran mayoría de los ingenieros de software con los que he trabajado saben un poco acerca de las estadísticas, pero rutinariamente arruinan sus análisis aplicando técnicas a los problemas sin comprender los supuestos detrás de esas técnicas. Un ejemplo común de esto que he visto es aplicar una prueba t o un modelo de regresión a observaciones que no son independientes e idénticamente distribuidas. [2] Si no puedes saber si un conjunto de observaciones es iid, no eres un científico de datos.
Tenga en cuenta que esta definición no contiene nada sobre visualización o comunicación. La visualización y comunicación de los resultados de los datos es necesaria para los estadísticos, los científicos de datos y, básicamente, cualquier otra persona que trabaje con datos. No pienso en esto como una característica distintiva de los científicos de datos. Tampoco es MapReduce, Hadoop o cualquier otra cosa de Big Data. Un científico de datos está en una mejor posición que la mayoría para aprovechar un clúster de Hadoop, pero eso no significa que el uso de Hadoop lo convierta en un científico de datos.
Últimamente he pensado mucho sobre cómo remediar esta situación y, por lo tanto, crear más científicos de datos. Según mi definición, enseñar a los estadísticos cómo codificar no es suficiente para convertirlos en científicos de datos; tenemos que enseñarles a codificar bien. Creo que es manejable, pero lleva tiempo, y necesitaríamos los incentivos y los requisitos del curso para que los estadísticos en la academia cambien un poco para ayudar a las cosas.
La posibilidad más intrigante para mí es encontrar formas de enseñar estadísticas a los ingenieros de software. Sospecho que enseñamos a las personas estadísticas avanzadas de una manera que tiende a asustar a los científicos informáticos al enfocarse en modelos paramétricos que requieren mucho cálculo en lugar de modelos no paramétricos que son principalmente computacionales. [3] Creo que este tipo de curso se puede hacer y sería útil; si alguien ha tomado algo así, hágamelo saber en los comentarios.
[1] josh_wills: Científico de datos (n.): Persona …
[2] Variables aleatorias independientes e idénticamente distribuidas
[3] Estadísticas no paramétricas