DVC (Data Version Control) es una herramienta de código abierto para proyectos de ciencia de datos. Hace que sus proyectos de ciencia de datos sean reproducibles y aparece cada vez que un científico de datos comienza a buscar instrumentos DevOps-for-Analytics efectivos:
DVC gestiona los siguientes problemas de DevOps en las rutinas diarias de Data Scientist y llena estos vacíos entre las prácticas clásicas de ciencia de datos y las demandas comerciales de las empresas para construir procesos sólidos de DevOps: Control de versiones de datos en análisis Paradigma de DevOps
- ¿Cómo fue su experiencia de aprendizaje de Data Scientist con Simplilearn?
- ¿Las nuevas tecnologías ya están matando a los científicos de datos?
- ¿Qué tipo de cartera debe tener un científico de datos de nivel de entrada?
- ¿Tiene sentido que un Six Sigma Black Belt tenga un subconjunto más pequeño de habilidades de científicos de datos?
- ¿Cómo va un científico de datos mediocre al siguiente nivel para convertirse en un gran científico de datos?
1. Extraiga todo tipo de datos necesarios de una variedad de fuentes . Una vez que configure y escriba sus trabajos de extracción de datos con DVC, será persistente y operable en toda su infraestructura de datos y servicios
2. Extraer, transformar y cargar los datos . ETL será fácil y repetible una vez que lo configure con secuencias de comandos DVC. Se convertirá en una tubería sólida para operar sin un gran esfuerzo de apoyo. Además, rastreará todos los cambios y activará una alerta de actualizaciones en los pasos de la tubería a través de DAG.
3. Facilitar el aprendizaje automático continuo y la toma de decisiones. La parte de la tubería facilitada a través de secuencias de comandos DVC puede ser trabajos para cargar datos de nuevo a cualquier sistema transaccional (como ERP, ERM, CRM, etc.), almacén o data mart. Luego estará expuesto a las partes interesadas del negocio para tomar decisiones inteligentes basadas en datos.
4. Comparta sus algoritmos y datos . El modelado de Machine Learning es un proceso iterativo y es extremadamente importante realizar un seguimiento de sus pasos, dependencias entre los pasos, dependencias entre su código y archivos de datos y todos los argumentos de ejecución de código. Esto se vuelve aún más importante y complicado en un entorno de equipo donde la colaboración de los científicos de datos requiere una gran cantidad de esfuerzo del equipo. DVC será el brazo para ayudarlo con esto.