¿Qué hace realmente un científico de datos en tiempo real dentro de una empresa?

Después de haber trabajado y gestionado científicos de datos “reales” en Gaming, IoT y Ad Tech, esta es mi percepción.

  1. 50% Consulta de datos / disputas / control de calidad
    1. Esto implica escribir SQL / Hive / Pig ect. extraer los datos para ponerlos en modelos y poder hacer análisis. Por lo general, es necesario mirar los datos solo para comprender qué significan todos los campos y cuándo se recopilan … si hay lagunas o errores. Puede implicar consultar con el ingeniero de datos. También podría incluir alguna optimización de métodos para obtener datos dadas las limitaciones de recursos de los ecosistemas. Puede incluir navegar por Internet mientras espera que finalice su consulta.
  2. 15–20% de reuniones
    1. Discusión con los gerentes sobre el caso de uso y el alcance del proyecto. Limitando los objetivos y las preguntas que intentan ser respondidas. Priorizando. Comprender las limitaciones del modelo / infraestructura / datos.
  3. 10-15% de modelado
    1. Escribir código para aplicar modelos estadísticos o algoritmos de aprendizaje automático. Ver los resultados. Investigar cuál es la mejor técnica para usar. Ver tutoriales o investigaciones en línea. Tener conversaciones informales con otros científicos de datos sobre técnicas.
  4. 20–25% “Productizing” El modelo o el análisis.
    1. Convertir el análisis en un informe automatizado si es necesario. Trabajando con ingenieros para construir el modelo en un producto existente. Optimización y creación de una tubería de datos a modelo.
  5. 5-10% de contratación
    1. Los científicos de datos legítimos son difíciles de encontrar y siempre hay una demanda

Data Scientist es un término vago, por lo que realmente depende de la posición específica. Esto es lo que hago en “tiempo real”:

  • Comunicación (50%) : hable mucho sobre problemas comerciales, objetivos, su valor / costo, los procesos necesarios para implementar y cómo los análisis pueden ayudar. Estoy lidiando con problemas conceptuales espinosos como “¿Qué es el éxito?”, “¿Es este realmente nuestro objetivo?”, “¿Quién debe participar?”, “¿Qué funciones deben cumplirse?”, “¿Qué nuevos procesos de negocio necesitan? estar en su lugar para apoyar estos análisis? “. Estoy explicando, pidiendo aclaraciones, defendiendo / vendiendo una idea, o criticando esa misma idea (generalmente de mí o de nuestro equipo).

    Yo diría que la mayor parte del trabajo duro se resuelve con esta actividad: sin código, sin matemáticas, solo discusiones profundas y enfocadas por personas seriamente interesadas en resolver el problema comercial .

  • Diagramación (10%) : desarrolle modelos de datos, UML y otros elementos visuales de ingeniería de sistemas para determinar cómo combinar conjuntos de datos, análisis de tuberías y comunicar planes de diseño de software.
  • Creación de prototipos (10%) : Realmente investigue e implemente una analítica en un conjunto de datos y determine si puede escalar (todas mis matemáticas y Python, R, Java utilizados aquí)
  • Coordinación (30%) : trabaje con ingenieros de software y TI para configurar e implementar bases de datos y análisis (para asegurarse de que podamos escalar nuestras ideas).

Esto variará mucho de una organización a otra. En mi trabajo como científico de datos, hablo con muchas personas de negocios para asegurarme de que lo que nuestro equipo está haciendo esté alineado con los objetivos de las empresas y también para aprender sobre el negocio de ellos. Me reúno con nuestros desarrolladores de software para mantenerme al día con lo que están haciendo y darles su opinión y, a veces, incluso contribuir, si es necesario. Soy mentor de mis colegas, les enseño, aprendo de ellos, trabajo en proyectos exploratorios, trabajo en pequeños proyectos de desarrollo de software para uso interno. Trabajo para obtener y limpiar datos (esto toma MUCHO tiempo inicialmente), construir y validar modelos, hacer presentaciones, escribir documentos y artículos. Asista a las reuniones de ciencia de datos para establecer contactos y aprender. Siempre que sea posible, estudio para mantener actualizadas mis habilidades técnicas. También leo libros de texto, trabajos de investigación, blogs y artículos de noticias extensamente. Así que sí, muchas, muchas cosas diferentes.