¿Qué tiene de difícil ser un científico de datos?

Uno de los mayores desafíos de ser un científico de datos es fácilmente el “procesamiento” de datos, los pasos que se requieren para que un algoritmo de aprendizaje automático utilice un conjunto de datos. Incluso en sitios como Kaggle que se especializan en concursos de ciencia de datos, los datos vienen ‘preprocesados’ en gran medida, lo que facilita el acceso a la parte de ‘análisis’.

Pero la limpieza de datos es un trabajo muy grande, lento e ingrato. La mayoría de los usuarios finales creen que los datos están ‘limpios’ para empezar, independientemente del estado real de los datos. Una vez que ingresa, hay cientos de pequeños problemas que pueden aparecer, desde datos nulos (donde no debería haber datos nulos), etiquetado incorrecto de datos, tipos de datos no coincidentes, definiciones de datos inconsistentes y, mi favorito personal, errores tipográficos

Hay muchas herramientas que los científicos de datos pueden aprovechar para resolver estos problemas, pero todas requieren tiempo y energía para ejecutarse. Yo diría que para la mayoría de los nuevos proyectos de ciencia de datos, del 80% al 90% del esfuerzo de trabajo total se gasta en tareas de preprocesamiento como la limpieza de datos.

Para mí, una de las partes más desafiantes de ser un científico de datos es elegir enfocarse en el proyecto correcto: saber qué y cuándo hacer las cosas que realmente importan, tener una buena mentalidad de producto.

Escribir modelos de aprendizaje automático, lidiar con grandes datos, hacer análisis estadísticos son cosas que puedes aprender de un libro o de algunos cursos en línea.

Tener una buena mentalidad de producto es algo que requiere experiencias de trabajo en diversas funciones, industrias y con diferentes tipos de personas. Requiere que te caigas, que aprendas y que siempre pienses mucho de antemano para tomar la decisión correcta.

Al final del día, los proyectos geniales de ciencia de datos que no agregan ningún valor al negocio no tienen valor.

Solo algo sarcásticamente, “definiendo qué es un científico de datos”.

El término está sobrecargado y parece significar lo que la persona que lo usa quiere que signifique. Puede ser un poco como decir “Soy un físico”. Esa es una categoría general sobre subespecialidades (y sub-sub-sub-nicho-specialties). Lo mismo puede decirse del “científico de datos”. Una variedad desarrolla algoritmos. Otro trata los temas relacionados con la escala. Otro aplica el trabajo de los dos primeros. Otro más puede centrarse en el abastecimiento de datos y ETL.

Lo que me lleva a la verdadera dificultad de “ser un científico de datos”: comprender dónde están sus propias fortalezas y cuándo aprovechar el trabajo de los demás. Puede ser tentador querer “construir y controlar toda la pila” todo el tiempo.

More Interesting

Cómo prepararse para trabajos de ingeniero de datos en Amazon / Google / Facebook / Quora

¿Qué es un científico de datos?

¿Debo pasar del actuario de la salud al científico de datos?

Cómo convertirse en un científico de datos después de tener una licenciatura en Ciencias de la Computación en la India

Cuando los científicos de datos tienen su propio equipo, ¿cómo las empresas les ayudan efectivamente a comunicarse y contribuir a los equipos de características y productos?

Como analista de datos, ¿qué pasos debo seguir para convertirme en científico de datos?

Cómo aprender R para ciencia de datos / aprendizaje automático en 50 horas

¿Cuáles son algunos algoritmos avanzados que usan los científicos de datos para limpiar y dar sentido a los datos?

¿Son dos años suficientes para que un graduado no informático se convierta en un científico de datos? Sé un poco de Java y Hadoop. ¿Donde debería empezar?

¿Hay trabajos de analista de datos en deportes? Me encantaría trabajar con datos relacionados con el fútbol u otros deportes.

¿Qué distingue a un científico de datos?

¿Qué libros debe dominar un gran programador para convertirse en un científico de datos respetado?

¿Con qué propósito un científico de datos pone scripts de shell en el trabajo?

Como científico de datos, ¿recuerda todo lo que estaba en sus libros de texto? ¿Utiliza la técnica más óptima para procesar datos la mayor parte del tiempo?

¿Puede la creciente cultura de la toma de decisiones basada en datos en la industria tecnológica fusionar los roles de gerente de producto y científico de datos?