Uno de los mayores desafíos de ser un científico de datos es fácilmente el “procesamiento” de datos, los pasos que se requieren para que un algoritmo de aprendizaje automático utilice un conjunto de datos. Incluso en sitios como Kaggle que se especializan en concursos de ciencia de datos, los datos vienen ‘preprocesados’ en gran medida, lo que facilita el acceso a la parte de ‘análisis’.
Pero la limpieza de datos es un trabajo muy grande, lento e ingrato. La mayoría de los usuarios finales creen que los datos están ‘limpios’ para empezar, independientemente del estado real de los datos. Una vez que ingresa, hay cientos de pequeños problemas que pueden aparecer, desde datos nulos (donde no debería haber datos nulos), etiquetado incorrecto de datos, tipos de datos no coincidentes, definiciones de datos inconsistentes y, mi favorito personal, errores tipográficos
Hay muchas herramientas que los científicos de datos pueden aprovechar para resolver estos problemas, pero todas requieren tiempo y energía para ejecutarse. Yo diría que para la mayoría de los nuevos proyectos de ciencia de datos, del 80% al 90% del esfuerzo de trabajo total se gasta en tareas de preprocesamiento como la limpieza de datos.
- ¿Cuál es el certificado científico de datos más fácil de obtener?
- Cómo convertirse en un científico de datos sin hacer Mtech en Compute Science
- Cómo presentar su investigación de doctorado en una entrevista con un científico de datos, especialmente si su tema de investigación se encuentra en un campo muy específico (no relevante)
- ¿Cómo es ser un científico de datos en un banco de inversión?
- ¿Cuáles son algunas carreras en big data, aprendizaje automático e inferencias causales?