Después de haber trabajado y gestionado científicos de datos “reales” en Gaming, IoT y Ad Tech, esta es mi percepción.
- 50% Consulta de datos / disputas / control de calidad
- Esto implica escribir SQL / Hive / Pig ect. extraer los datos para ponerlos en modelos y poder hacer análisis. Por lo general, es necesario mirar los datos solo para comprender qué significan todos los campos y cuándo se recopilan … si hay lagunas o errores. Puede implicar consultar con el ingeniero de datos. También podría incluir alguna optimización de métodos para obtener datos dadas las limitaciones de recursos de los ecosistemas. Puede incluir navegar por Internet mientras espera que finalice su consulta.
- 15–20% de reuniones
- Discusión con los gerentes sobre el caso de uso y el alcance del proyecto. Limitando los objetivos y las preguntas que intentan ser respondidas. Priorizando. Comprender las limitaciones del modelo / infraestructura / datos.
- 10-15% de modelado
- Escribir código para aplicar modelos estadísticos o algoritmos de aprendizaje automático. Ver los resultados. Investigar cuál es la mejor técnica para usar. Ver tutoriales o investigaciones en línea. Tener conversaciones informales con otros científicos de datos sobre técnicas.
- 20–25% “Productizing” El modelo o el análisis.
- Convertir el análisis en un informe automatizado si es necesario. Trabajando con ingenieros para construir el modelo en un producto existente. Optimización y creación de una tubería de datos a modelo.
- 5-10% de contratación
- Los científicos de datos legítimos son difíciles de encontrar y siempre hay una demanda