Descargo de responsabilidad: yo, como todos los demás, tengo ciertos prejuicios. Esto, especialmente la lista de tres puntos al final de esta respuesta, es solo mi opinión. Pero creo que es bastante bueno, los puntos en particular. Seguirlos me ha ayudado mucho, y he visto a otros que han ignorado estos aspectos hacer trabajos terribles.
La respuesta comienza:
Hay muchos insultos implícitos en algunas discusiones como esta. Especialmente odio el término “científico de datos falsos”, especialmente cuando es aplicado por ciertas personas a las que no mencionaré, diciendo que, por ejemplo, los estadísticos que se hacen llamar científicos de datos son “falsos” de alguna manera.
- ¿Los bioestadísticos son científicos de datos?
- ¿Cómo es ser un científico de datos?
- ¿Desde dónde empezar a aprender a convertirse en un científico de datos?
- Cómo conseguir un trabajo en Google o Facebook como científico de datos en 6 meses
- ¿Qué clases debo tomar si quiero ser un científico de datos?
Luego están aquellos en el lado de las estadísticas que se burlan completamente de la ciencia de datos y el aprendizaje automático, aunque eso se calmó un poco, dados algunos de los fabulosos éxitos que se han tenido.
Juntos, estos dos grupos han causado alguna duda en el valor de las estadísticas.
El pensamiento estadístico es a menudo un componente necesario de la ciencia de datos. En realidad, siempre es necesario, aunque hay algunos científicos de datos bastante buenos que no tienen una gran cantidad de capacitación estadística.
Las buenas habilidades de programación y la comprensión de al menos algo de ingeniería de datos son necesarias para la ciencia de datos.
Al final del día, sin embargo, cortando todo el BS extendido por todos los lados (y hay muchos “lados” que presentan BS sobre esto, incluidos aquellos que piensan que el ML es algún tipo de magia), un científico de datos es alguien quién puede resolver problemas de datos de manera coherente con principios .
Tienen que saber lo que están haciendo al menos de 3 maneras:
- Comprenda los supuestos que están haciendo al aplicar sus algoritmos. La comprensión teórica completa de todo no es completamente necesaria, pero debes conocer las reglas.
- Comprenda el problema que están resolviendo y los datos con los que lo están resolviendo. Por lo tanto, tienen que hacer coincidir los supuestos del punto 1 con los datos y el problema en cuestión.
- Esto viene con tiempo y capacitación, por lo que no es necesario para un científico de datos “joven” (en términos de capacitación / experiencia), pero probablemente deberían ser conscientes de ello: hay momentos en los que puede “romper las reglas” mencionadas en 1 A veces, el problema debe resolverse rápidamente y aproximadamente. Una vez que haya tenido cierta experiencia, especialmente si aprende a pensar de cierta manera, sabe cómo y cuándo puede hacerlo de manera segura. (Cabe señalar que a menudo esto puede abordarse teóricamente / matemáticamente, pero la mayoría de las personas que he conocido lo hacen mejor a través de la experiencia en lugar de la teoría).