Creo que la mayor parte de mantenerse al día es orgánico. En el trabajo, siempre puede tener algo más apremiante para aprender sobre nuevas tecnologías, marcos o herramientas. Muy a menudo, esto significará que obtendrá muy buenos en una tecnología (por ejemplo, tensorflow o scikit-learn).
Dicho esto, gran parte del nuevo aprendizaje vendrá cuando estés más relajado. Para mí, eso ha venido históricamente de proyectos paralelos los fines de semana. De hecho, aprender nuevas herramientas para hacerte más eficiente no es muy fácil cuando tienes un día lleno de trabajo.
Dicho esto, durante la mayor parte del tiempo que he estado trabajando en proyectos de datos, siempre pensé que podría haber una mejor manera de rastrear mi trabajo y compartirlo con mis colegas. Desafortunadamente, nunca pude encontrar una herramienta así. Entonces, a veces si te das la oportunidad, incluso podrías encontrar que las herramientas no existen
- ¿Qué startups en Singapur están buscando actualmente científicos de datos?
- ¿Qué roles específicos en ciencia de datos tienen actualmente una gran demanda en Silicon Valley?
- ¿Por qué tantos ingenieros se convierten en científicos de datos?
- ¿Debería considerar cambiar mi carrera de desarrollador de Informatica ETL a científico de datos?
- ¿Qué edad, experiencia, métrica de grado son mejores para ser llamado científico de datos?
En este caso particular, mi colega y yo nos dimos cuenta de que la herramienta que más necesitaban los científicos de datos era su propio sistema de seguimiento y uso compartido, pero no existía.
Como nos enfrentamos a los mismos problemas que otros científicos de datos, sabíamos que decidimos construir Datmo para resolver nuestros propios problemas y rastrear una instantánea significativa de nuestro trabajo. Principalmente necesitábamos tener una herramienta que pudiera hacer un seguimiento de
- código : archivos fuente que contienen el código ejecutable de los análisis
- entornos : los entornos de hardware y software que se requieren
- archivos grandes :
- datos : datos de entrada para el análisis guardados como archivos grandes o directamente canalizados desde varias bases de datos u obtenidos con una herramienta como Quilt. Si está extrayendo funciones, otra gran herramienta es DVC
- visualizaciones : grandes representaciones de sus datos o resultados de análisis
- archivos de pesos: representaciones de modelos entrenados que le gustaría almacenar
- configuraciones : estos son parámetros que se utilizaron para obtener los resultados. Estos pueden consistir en los tipos de modelos que ejecutó, las características que utilizó, los hiperparámetros para el entrenamiento, etc.
- métricas de rendimiento : variables numéricas o cualitativas que representan qué tan bueno fue su análisis.
Esencialmente, si pudiéramos tener una instantánea que refleje lo que es un commit para el código, entonces siempre podríamos asegurarnos de que haya una reproducibilidad perfecta. Para hacerlo mas simple :
Commits: Code :: Instantáneas : Proyectos
Al igual que con los commits, las instantáneas tienen ventajas similares:
- Seguimiento : a medida que se desarrolla, nunca tendrá que preocuparse por perder el trabajo cuando realiza un experimento o sobrescribe archivos. Siempre tienes una forma de recuperar tu trabajo
- Diferencias: encontrar la diferencia entre 2 instantáneas garantiza que haya una clara transparencia sobre quién hizo qué y cómo se puede utilizar un análisis.
- Control de versiones : el control de versiones semántico se ha vuelto crítico en los flujos de trabajo de desarrollo de software adecuados, pero hoy es incipiente para la ciencia de datos. Con las versiones, los modelos que funcionan correctamente son los únicos que llegan a producción
- Integración continua : un método consistente para probar análisis que se implementará de manera continua para garantizar que funcione a un nivel lo suficientemente alto como para permitir buenos resultados en la producción
- Implementación (empresarial): etiquete las instantáneas y póngalas en producción
Entonces, para mí y mi colega, buscamos herramientas y aprendimos todo lo que pudimos en nuestro tiempo libre. Cuando descubrimos que no existía, lo construimos nosotros mismos. Dado que la ciencia de datos es tan nueva, muchas personas a menudo se encuentran construyendo sus propias tuberías, con suerte con Datmo, ese ya no tendrá que ser el caso :). Si estás buscando probar nuestra herramienta de seguimiento por ti mismo, no dudes en registrarte en Datmo.
Esto es para mantenerse al día con las últimas herramientas.
Espero que esto ayude 🙂