‘Científico de datos’ es una designación amplia y confusa. Es un campo profesional que todavía está evolucionando. Como tal, no existe un “científico de datos” canónico singular, sino varias orientaciones, conjuntos de habilidades y roles funcionales asociados.
‘Analizando a los analizadores’ de O’Reilley (Analizar a los analizadores es una encuesta breve, hasta el punto del dominio, y divide a los científicos de datos en varias categorías: personas de negocios de datos, creativos de datos, desarrolladores de datos e investigadores de datos. Cada uno tiene habilidades diferentes conjuntos.
Con respecto a la suposición de ‘más … sin datos’, ¿quizás surge la pregunta? ¿Tendré la hipótesis de que has tenido algunas experiencias locales y estás frustrado con algunas personas en particular?
- ¿Alguien puede ser un buen científico / ingeniero de datos si está más orientado a los resultados que al proceso?
- ¿Cuál es la hoja de ruta para aprender Java como analista de datos?
- ¿Cómo va a afectar el avance en el aprendizaje automático a los trabajos de futuros científicos de datos?
- ¿Los científicos de datos utilizan el aprendizaje por refuerzo?
- ¿Qué puedo hacer para conseguir un trabajo exitoso en ciencia de datos? ¿Obtener la certificación como CAP ayuda?
No puedo ayudar con esas frustraciones o desafíos particulares. Todo lo que puedo hacer es empatizar y contar mi propia historia, tratando de simpatizar por qué un desarrollador / profesional de TI más joven podría tener esta opinión, y como tal, cerrar la brecha de comprensión (en el espíritu de la paz mundial, etc.).
Mi historia como científico de datos: he trabajado con computadoras durante aproximadamente 30 años. Hubo un tiempo, hace mucho tiempo, cuando uno podía ser un verdadero experto en todas las cosas de TI. Esos días han pasado resueltamente (de manera exponencial): ahora hay muchas tecnologías y reinos diferentes. Ninguna persona puede mantenerse al día con todo.
Durante mi carrera, hice una rotación de todas las partes principales de la típica organización de TI. Construí mis propias computadoras desde cero, programé en varios idiomas diferentes, construí y administré bases de datos, configuré redes, administré a personas de TI para hacer todas estas cosas, etc.
Hace ocho años comencé a centrarme en el análisis de datos / ciencia de datos principalmente porque el campo personalmente me pareció muy interesante. Además, las cosas que había querido hacer hace 15 años que requerían un servidor potente o mainframe ahora eran posibles en una computadora portátil y / o en la nube. Cosas como simulaciones masivas de Monte Carlo, análisis de conglomerados en muchas variables, análisis de datos de transmisión, ya sabes, todas las cosas interesantes ahora posibles …
Para comprender cómo analizar y administrar datos grandes, rápidos e inteligentes (datos de un gran conjunto que se ha reducido a factores clave utilizando diversas técnicas estadísticas), pasé muchas, muchas horas estudiando y desconectando. Esto me llevó a ámbitos como las estadísticas, el aprendizaje automático, las matemáticas avanzadas, etc., fuera de mi zona de confort de TI.
También comencé a centrarme en lenguajes de programación y herramientas centradas en estadísticas y aprendizaje automático: SAS, R, Python, MatLab, Haskell. Además, invertí mucho tiempo entendiendo y trabajando con tecnologías en la nube (Hadoop y todo su ecosistema, incluida la implementación comercial y sus implicaciones, Docker, etc.). Además, realicé un recorrido por las estructuras y tecnologías de NOSQL …
Como resultado, diría que algunas de mis habilidades de programación se han quedado atrás: solía programar en Java y C ++, pero no he trabajado mucho durante varios años. Además, conozco nuevos lenguajes emergentes, como Ruby, Groovy, etc., pero he decidido dejar que alguien más se preocupe por ellos … De hecho, cualquier nuevo chico de TI que acaba de salir de la universidad probablemente me supere en uno o dos cosas que entiendo y que he escuchado, pero que no he seguido.
Francamente, el dominio de la experiencia en el que se espera que me mantenga actualizado en este momento es tan amplio que simplemente no busco nuevos lenguajes o tecnologías ‘calientes’. A lo largo de los años, he aprendido que la industria de TI está plagada de cambios y perturbaciones: se puede correr fácilmente en círculos rabiosos (cayendo en espiral, espumando en la boca) persiguiendo la tecnología más reciente y mejor. Me he vuelto bastante práctico: evaluar las tecnologías cuidadosamente y adoptarlas con cuidado cuando se imponen sobre mí, no porque exista una exageración o hipérbole detrás de ellas.
Entonces, de nuevo, siento tu dolor y lamento escuchar que estás pasando por la frustración con quien te está molestando en este momento. Todo lo que puedo dar es mi propia historia y explicar por qué es posible que un científico de datos parezca estar atrasado en un nicho de tecnología o dominio. Las expectativas exageradas son que el científico de datos lo sabe todo y lo ve todo, y eso no es realista.
Solo algunas de las cosas en las que un científico de datos debe estar actualizado, cada una de las cuales son campos exigentes, algunos de los cuales son dominios académicos independientes en los que uno puede obtener un doctorado:
• Algoritmos
• Programación de back-end
• estadísticas bayesianas
• Datos grandes y distribuidos
• Experiencia en el dominio del negocio (los principales: ventas / marketing, finanzas, operaciones, recursos humanos)
• Manipulación de datos
• Programación frontal
• Modelos gráficos
• Aprendizaje automático
• Matemáticas
• Optimización
• Probabilidad
• Ciencia (método científico / proceso experimental)
• simulación
• Estadísticas
• Estadísticas espaciales
• Datos estructurados
• Metodologías de encuestas.
• Administración de sistemas
• Estadísticas temporales
• Datos no estructurados
• visualización
Esto explica por qué es posible que no parezca estar al día con el nuevo lenguaje de secuencias de comandos nuevo, ya que se espera que continúe y hable de manera inteligente sobre un conjunto bastante amplio de disciplinas. Por lo general, se espera que pueda reunir soluciones técnicas que combinen varios de estos dominios. Y el próximo mes, otro set más …
Entonces, alguien que habla conmigo podría escuchar mis historias sobre los 90, pero mi cabeza definitivamente está en el aquí y el ahora, pero no necesariamente en el lenguaje de secuencias de comandos del día que alguien decidió que es lo mejor desde el pan rebanado.
Esta publicación podría proporcionar más antecedentes y detalles para explicar el desafío: Cómo convertirse en un científico de datos