¿Cómo debería ser la cuenta de GitHub de un científico de datos?

Actualmente, diría que muchos científicos de datos puros, particularmente aquellos que provienen de un contexto más estadístico, a menudo no tienen Github. No creo que sea una buena práctica, pero al mismo tiempo, Github a menudo tiene un propósito diferente.

La ciencia de datos se trata de la experimentación, por lo que hacer un seguimiento de los tipos de experimentos que realizó, junto con sus procesos de pensamiento detrás de cada uno, es más importante que rastrear solo el código. Dicho esto, Github también puede ser un lugar efectivo para documentar procesos (por ejemplo, con los cuadernos Jupyter y los extensos archivos README). Un aspecto importante también es asegurar que cualquier experimento al que se haga referencia en Github sea ejecutable y utilizable por otra persona. Esto a menudo implica incluir un Dockerfile para reproducir el entorno en el que realizaron sus experimentos.

En pocas palabras, Github es un gran lugar para alojar archivos estáticos, pero el código y los archivos estáticos son solo el comienzo.

Principalmente necesitamos hacer un seguimiento de todo lo siguiente:

código : archivos fuente que contienen el código ejecutable de los análisis
entornos : los entornos de hardware y software que se requieren
archivos grandes :

datos : datos de entrada para el análisis guardados como archivos grandes o directamente canalizados desde varias bases de datos u obtenidos con una herramienta como Quilt. Si está extrayendo funciones, otra gran herramienta es DVC
visualizaciones : grandes representaciones de sus datos o resultados de análisis
archivos de pesos: representaciones de modelos entrenados que le gustaría almacenar

configuraciones : estos son parámetros que se utilizaron para obtener los resultados. Estos pueden consistir en los tipos de modelos que ejecutó, las características que utilizó, los hiperparámetros para el entrenamiento, etc.
métricas de rendimiento : variables numéricas o cualitativas que representan qué tan bueno fue su análisis.

Esencialmente, Github es una excelente manera de almacenar confirmaciones, pero si pudiéramos tener una instantánea con los elementos anteriores que refleje lo que es una confirmación para el código, siempre podríamos garantizar una reproducibilidad perfecta de los experimentos. Para hacerlo mas simple :

Commits: Code :: Instantáneas : Proyectos

Al igual que con los commits, estas instantáneas tendrían ventajas similares:

Seguimiento : a medida que se desarrolla, nunca tendrá que preocuparse por perder el trabajo cuando realiza un experimento o sobrescribe archivos. Siempre tienes una forma de recuperar tu trabajo
Diferencias: encontrar la diferencia entre 2 instantáneas garantiza que haya una clara transparencia sobre quién hizo qué y cómo se puede utilizar un análisis.
Control de versiones : el control de versiones semántico se ha vuelto crítico en los flujos de trabajo de desarrollo de software adecuados, pero hoy es incipiente para la ciencia de datos. Con las versiones, los modelos que funcionan correctamente son los únicos que llegan a producción
Integración continua : un método consistente para probar análisis que se implementará de manera continua para garantizar que funcione a un nivel lo suficientemente alto como para permitir buenos resultados en la producción
Implementación (empresarial): etiquete las instantáneas y póngalas en producción

Cuando se trata de Github, los científicos de datos definitivamente deberían usarlo para compartir el código asociado con sus experimentos. Sin embargo, si desean realizar un seguimiento de todo el experimento, el uso de una herramienta como Datmo, que se integra con Github, garantiza una reproducibilidad perfecta. Si estás buscando probar nuestra herramienta de seguimiento por ti mismo, no dudes en registrarte en Datmo.

Espero que esto ayude 🙂