Me gustaría comenzar diciendo que cualquiera de las habilidades que estoy a punto de enumerar no tiene sentido como una habilidad superior en sí misma. Estas habilidades no son algo que por sí solas sean significativas para un científico de datos.
Programación # 1
Como otros han mencionado, la programación es la habilidad número uno. Todas las aplicaciones de ciencia de datos están codificadas. No codificar limita las opciones a un grado en el que personalmente no puedo considerar que sea ciencia de datos.
- Como ingeniero de datos / científico de datos, ¿qué tan importante es tener un conocimiento profundo de algoritmos y estructuras de datos? ¿No son las funciones de ingeniería de software e ingeniería de datos / ciencia diferentes por una razón y corresponden a diferentes conjuntos de habilidades?
- ¿Cuáles son los diferentes tipos de científicos de datos?
- ¿Cuál es el primer libro que comienza para comenzar mi viaje en el camino de convertirme en un científico de datos?
- ¿Cómo es ser analista de datos y científico de datos en Airbnb?
- Como científico de datos, ¿debería concentrarme en un conocimiento más profundo de Python o Java?
En la expresión “ciencia de datos”, la programación es la parte de “datos”. Saber cómo manejar cualquier cuerpo de datos implica programación.
# 2 Matemáticas, estadísticas y probabilidad
He escrito esto tantas veces que debería tatuarme esto (pero no lo haré) o arriesgarme a recibir una advertencia de Quora por no citar mis propias publicaciones anteriores:
Estadísticas y probabilidad, cuantos más mejor.
En la expresión “ciencia de datos”, las matemáticas, las estadísticas y la probabilidad son la parte de “ciencia”. Esto puede ser muchas cosas, pero para mí la parte más importante es el diseño y análisis de experimentos que permite evaluar los productos de datos que creamos.
# 3 aprendizaje automático
Aislé el aprendizaje automático del punto anterior porque el proceso de crear un producto de datos basado en aprendizaje automático es un mundo en sí mismo. Conocer la programación y conocer las estadísticas, incluso si uno sabe cómo ajustar modelos estadísticos, no es suficiente para crear un producto de datos de este tipo.
Es cierto que, en esencia, los algoritmos de aprendizaje automático no son fundamentalmente diferentes de muchos de los algoritmos utilizados en estadística. Sin embargo, la aplicación difiere, es decir, las preocupaciones con el rendimiento, especialmente en aplicaciones en tiempo real e ingeniería de características.
# 4 escepticismo
Cuanto más trabajo en ciencia de datos, más escéptico me vuelvo. Creo que el escepticismo está subestimado y subvalorado. Según Wikipedia, el escepticismo científico es:
El escepticismo científico (también escepticismo) es la práctica de cuestionar si las afirmaciones están respaldadas por investigaciones empíricas y tienen reproducibilidad, como parte de una norma metodológica que persigue “la extensión del conocimiento certificado”.
Siempre, SIEMPRE, SIEMPRE sea escéptico. Nuestro quid es la evidencia y nada más.
# 5 comunicación
La comunicación es mucho más de lo que la mayoría de la gente dice. La mayoría de las personas piensan en la comunicación como la forma en que el científico de datos puede mostrar sus hallazgos a otras personas, lo que lleva a que las habilidades de visualización y presentación sean altas en listas como esta. Creo que eso es tremendamente miope.
La comunicación es mucho más que eso:
- Son sus productos de datos que se comunican con otras piezas de software.
- Es su capacidad para explicar conceptos complejos a los tomadores de decisiones que son laicos en lo que respecta a los datos
- Es su código legible por otros profesionales de datos, con comentarios claros, buena estructura e ingeniería.
- Es su capacidad comprender que el negocio no mejorará simplemente porque tiene un modelo “perfecto”
La comunicación está, por un lado, sobrevalorada, por otro lado, subestimada. Puede crear los mejores mazos del mundo para mostrarle al CEO, pero si codifica para sí mismo o sus productos de datos no se comportan en sistemas en vivo, es una comunicación horrible.