¿Cómo se mantienen al día los científicos de datos con diferentes herramientas?

Creo que la mayor parte de mantenerse al día es orgánico. En el trabajo, siempre puede tener algo más apremiante para aprender sobre nuevas tecnologías, marcos o herramientas. Muy a menudo, esto significará que obtendrá muy buenos en una tecnología (por ejemplo, tensorflow o scikit-learn).

Dicho esto, gran parte del nuevo aprendizaje vendrá cuando estés más relajado. Para mí, eso ha venido históricamente de proyectos paralelos los fines de semana. De hecho, aprender nuevas herramientas para hacerte más eficiente no es muy fácil cuando tienes un día lleno de trabajo.

Dicho esto, durante la mayor parte del tiempo que he estado trabajando en proyectos de datos, siempre pensé que podría haber una mejor manera de rastrear mi trabajo y compartirlo con mis colegas. Desafortunadamente, nunca pude encontrar una herramienta así. Entonces, a veces si te das la oportunidad, incluso podrías encontrar que las herramientas no existen

En este caso particular, mi colega y yo nos dimos cuenta de que la herramienta que más necesitaban los científicos de datos era su propio sistema de seguimiento y uso compartido, pero no existía.

Como nos enfrentamos a los mismos problemas que otros científicos de datos, sabíamos que decidimos construir Datmo para resolver nuestros propios problemas y rastrear una instantánea significativa de nuestro trabajo. Principalmente necesitábamos tener una herramienta que pudiera hacer un seguimiento de

  • código : archivos fuente que contienen el código ejecutable de los análisis
  • entornos : los entornos de hardware y software que se requieren
  • archivos grandes :
    • datos : datos de entrada para el análisis guardados como archivos grandes o directamente canalizados desde varias bases de datos u obtenidos con una herramienta como Quilt. Si está extrayendo funciones, otra gran herramienta es DVC
    • visualizaciones : grandes representaciones de sus datos o resultados de análisis
    • archivos de pesos: representaciones de modelos entrenados que le gustaría almacenar
  • configuraciones : estos son parámetros que se utilizaron para obtener los resultados. Estos pueden consistir en los tipos de modelos que ejecutó, las características que utilizó, los hiperparámetros para el entrenamiento, etc.
  • métricas de rendimiento : variables numéricas o cualitativas que representan qué tan bueno fue su análisis.

Esencialmente, si pudiéramos tener una instantánea que refleje lo que es un commit para el código, entonces siempre podríamos asegurarnos de que haya una reproducibilidad perfecta. Para hacerlo mas simple :

Commits: Code :: Instantáneas : Proyectos

Al igual que con los commits, las instantáneas tienen ventajas similares:

  • Seguimiento : a medida que se desarrolla, nunca tendrá que preocuparse por perder el trabajo cuando realiza un experimento o sobrescribe archivos. Siempre tienes una forma de recuperar tu trabajo
  • Diferencias: encontrar la diferencia entre 2 instantáneas garantiza que haya una clara transparencia sobre quién hizo qué y cómo se puede utilizar un análisis.
  • Control de versiones : el control de versiones semántico se ha vuelto crítico en los flujos de trabajo de desarrollo de software adecuados, pero hoy es incipiente para la ciencia de datos. Con las versiones, los modelos que funcionan correctamente son los únicos que llegan a producción
  • Integración continua : un método consistente para probar análisis que se implementará de manera continua para garantizar que funcione a un nivel lo suficientemente alto como para permitir buenos resultados en la producción
  • Implementación (empresarial): etiquete las instantáneas y póngalas en producción

Entonces, para mí y mi colega, buscamos herramientas y aprendimos todo lo que pudimos en nuestro tiempo libre. Cuando descubrimos que no existía, lo construimos nosotros mismos. Dado que la ciencia de datos es tan nueva, muchas personas a menudo se encuentran construyendo sus propias tuberías, con suerte con Datmo, ese ya no tendrá que ser el caso :). Si estás buscando probar nuestra herramienta de seguimiento por ti mismo, no dudes en registrarte en Datmo.

Esto es para mantenerse al día con las últimas herramientas.

Espero que esto ayude 🙂

A2A
No soy un científico de datos, pero siento que puedo responder esta pregunta de manera algo satisfactoria. La mayoría de los científicos de datos usan solo un puñado de estas herramientas, especialmente R y Python o algunos prefieren hacer análisis de datos con solo uno de estos. Y usan estas herramientas todos los días, por lo que se convierte en un hábito para ellos. Creo que su dificultad surge del hecho de que su empresa usa solo Excel. Y si no utiliza las otras herramientas que ha aprendido, en el trabajo o en sus proyectos de análisis de datos personales, tenderá a olvidarlas. También para el análisis de datos, creo que es mejor ser un experto en el uso de una o dos herramientas y poder abordar cualquier tipo de problema en lugar de ser un novato en muchas herramientas.

En cuanto a descubrirlos: es importante mantenerse conectado con “la comunidad”, sea lo que sea que eso signifique. Muchas formas de hacer esto:

  1. Sitios de noticias de nerds para nerds. Hacker News, Reddit, Quora, tus bloggers favoritos, etc. Aunque no puedo programar una lamida de Haskell o Rust en este momento, están en mi radar únicamente debido a una combinación ponderada de este tipo de fuentes.
  2. Explore herramientas y paquetes de código abierto en su idioma favorito. Por ejemplo, si usted es solo un programador de Python … “Hmm, este paquete de Python dice que implementa ggplot2 de R … tal vez debería revisar R. Bokeh es d3 en Python … ¿qué es d3?” etcétera etcétera.
  3. Meetups Si vas a hackatones o reuniones relacionadas con programación / tecnología / análisis, aprenderás un montón de cosas nuevas.

Ahora, en cuanto a en qué invertir tiempo? Una pregunta importante sin una respuesta clara. No puedes aprender todo a nivel experto, no hay suficientes horas en el día. Saber dónde invertir su tiempo de aprendizaje es solo una de esas cosas que “hace”.

Con respecto a su pregunta específica: ¿Hay alguna posibilidad de que pueda mover parte de ese procesamiento de Excel a algunos reemplazos basados ​​en R? Habría muchas ventajas: no más copiar y pegar en hojas de cálculo, compartir código desacoplado del intercambio de datos, 0 $ costo para la empresa … si puede convencer a otros para que sigan, por supuesto.

Si enfoca sus esfuerzos en dominar las habilidades de programación y análisis de datos, aprenderá rápidamente que ponerse al día con otro lenguaje de programación es principalmente una cuestión de acostumbrarse a la nueva sintaxis.

Me sorprende que una compañía contrate a un científico de datos y los obligue a usar VBA (o cualquier idioma, en realidad). La forma en que se obtienen los datos es una cosa, pero la persona que analiza e interpreta los datos debe poder hacerlo con el idioma que elija.

Yo no. Simplemente uso la herramienta cuando siento que la necesito. En algunos casos, también escojo una herramienta aleatoria para calmar la curiosidad. Al igual que cualquier herramienta informática. Recógelo cuando sea necesario .

Es exactamente contradictorio con lo que estaba discutiendo con un amigo. Creo que en realidad tiene menos herramientas para un trabajo típico de Data Science, a pesar de que este campo ha estado allí durante muchos años.

Lo bueno es que la industria ha mostrado mucho interés en este aspecto y muchas herramientas se han iniciado en los últimos años. En los próximos 5 años, supongo que tendremos mejores herramientas como bibliotecas y mejores marcos como la expansión en Deep Learning, se anticipa que Spark será el núcleo de la computación, Dockers para ser ampliamente utilizado, etc.

En mi experiencia como científico de datos, uno necesita dominar las técnicas en lugar de las herramientas. Si está familiarizado con una o dos herramientas, otras no deberían ser tan difíciles de aprender según la necesidad.

¿Por qué quieres dominarlos? Creo que una trampa en la que a menudo me caigo es pensar “si hago esto, lo entiendo”. Y se siente como un lastre, me estresa. Por otro lado, dominar una habilidad para mi curiosidad personal es una historia completamente diferente. Es divertido La buena noticia es que los puntos se conectan en el tiempo y, tarde o temprano, utilizará su conocimiento, pero dudo que si no lo adquiere desde una perspectiva de disfrute ahora, lo disfrutará más tarde.

More Interesting

¿Debería un científico de datos que conoce Python aprender R también?

¿Cómo trabajan juntos los científicos de datos y los ingenieros de aprendizaje automático en una aplicación industrial ML / NLP / CV de extremo a extremo en una gran empresa tecnológica?

¿Cuáles son las mejores charlas de ciencia de datos (por ejemplo, Pydata, seminarios, etc.)?

¿Qué debo hacer para cambiar de un ingeniero de big data a un científico de datos?

¿Saama Technologies es bueno para comenzar una carrera en ciencia de datos?

Con un interés en la codificación y los antecedentes en ciencias matemáticas, ¿es posible que me convierta en un científico de datos?

¿Puedo convertirme en un científico de datos sin experiencia?

Recién salido de una universidad de ingeniería, ¿cuál es una mejor opción de trabajo a largo plazo, una carrera en análisis de datos o una carrera en consultoría?

¿Hay demasiada gente entrenando para convertirse en científicos de datos?

¿Cuáles son las mejores prácticas para la colaboración entre científicos de datos?

¿Qué campo tiene mejores trabajos en general: minería de datos, manufactura esbelta o cadena de suministro?

¿Qué nuevas contribuciones puede aportar Microsoft R Server en el campo Análisis de Big Data?

Como científico de datos junior de fin de estudios en París, ¿qué tan difícil será encontrar oportunidades de trabajo en los Estados Unidos?

¿Es preferible o bueno tener certificaciones en análisis predictivo y aprendizaje automático para que un científico de datos permanezca en la competencia?

¿Qué tienen en común los mejores científicos de datos de plomo?