Actualmente, diría que muchos científicos de datos puros, particularmente aquellos que provienen de un contexto más estadístico, a menudo no tienen Github. No creo que sea una buena práctica, pero al mismo tiempo, Github a menudo tiene un propósito diferente.
La ciencia de datos se trata de la experimentación, por lo que hacer un seguimiento de los tipos de experimentos que realizó, junto con sus procesos de pensamiento detrás de cada uno, es más importante que rastrear solo el código. Dicho esto, Github también puede ser un lugar efectivo para documentar procesos (por ejemplo, con los cuadernos Jupyter y los extensos archivos README). Un aspecto importante también es asegurar que cualquier experimento al que se haga referencia en Github sea ejecutable y utilizable por otra persona. Esto a menudo implica incluir un Dockerfile para reproducir el entorno en el que realizaron sus experimentos.
En pocas palabras, Github es un gran lugar para alojar archivos estáticos, pero el código y los archivos estáticos son solo el comienzo.
- ¿Es bueno el trabajo de un científico de datos?
- Siempre que busco solicitar un trabajo de científico de datos, todo lo que veo es una solicitud de un mínimo de 2 años de experiencia. ¿Qué pasa con los DS sin experiencia?
- ¿La experiencia laboral en PHP te ayudará cuando realices una maestría en ciencia de datos o aprendizaje automático?
- Me encantan las matemáticas y el aprendizaje automático, pero las empresas esperan que sepa algunas cosas que no me apasionan, como Hadoop spark, etc. ¿Qué debo hacer?
- ¿Cuáles son las razones por las que algunos ingenieros son considerados científicos?
Principalmente necesitamos hacer un seguimiento de todo lo siguiente:
- código : archivos fuente que contienen el código ejecutable de los análisis
- entornos : los entornos de hardware y software que se requieren
- archivos grandes :
- datos : datos de entrada para el análisis guardados como archivos grandes o directamente canalizados desde varias bases de datos u obtenidos con una herramienta como Quilt. Si está extrayendo funciones, otra gran herramienta es DVC
- visualizaciones : grandes representaciones de sus datos o resultados de análisis
- archivos de pesos: representaciones de modelos entrenados que le gustaría almacenar
- configuraciones : estos son parámetros que se utilizaron para obtener los resultados. Estos pueden consistir en los tipos de modelos que ejecutó, las características que utilizó, los hiperparámetros para el entrenamiento, etc.
- métricas de rendimiento : variables numéricas o cualitativas que representan qué tan bueno fue su análisis.
Esencialmente, Github es una excelente manera de almacenar confirmaciones, pero si pudiéramos tener una instantánea con los elementos anteriores que refleje lo que es una confirmación para el código, siempre podríamos garantizar una reproducibilidad perfecta de los experimentos. Para hacerlo mas simple :
Commits: Code :: Instantáneas : Proyectos
Al igual que con los commits, estas instantáneas tendrían ventajas similares:
- Seguimiento : a medida que se desarrolla, nunca tendrá que preocuparse por perder el trabajo cuando realiza un experimento o sobrescribe archivos. Siempre tienes una forma de recuperar tu trabajo
- Diferencias: encontrar la diferencia entre 2 instantáneas garantiza que haya una clara transparencia sobre quién hizo qué y cómo se puede utilizar un análisis.
- Control de versiones : el control de versiones semántico se ha vuelto crítico en los flujos de trabajo de desarrollo de software adecuados, pero hoy es incipiente para la ciencia de datos. Con las versiones, los modelos que funcionan correctamente son los únicos que llegan a producción
- Integración continua : un método consistente para probar análisis que se implementará de manera continua para garantizar que funcione a un nivel lo suficientemente alto como para permitir buenos resultados en la producción
- Implementación (empresarial): etiquete las instantáneas y póngalas en producción
Cuando se trata de Github, los científicos de datos definitivamente deberían usarlo para compartir el código asociado con sus experimentos. Sin embargo, si desean realizar un seguimiento de todo el experimento, el uso de una herramienta como Datmo, que se integra con Github, garantiza una reproducibilidad perfecta. Si estás buscando probar nuestra herramienta de seguimiento por ti mismo, no dudes en registrarte en Datmo.
Espero que esto ayude 🙂