¿Qué trabajo hace un científico de datos el 80% de su tiempo? Para ser más específicos, ¿cuál es la tarea más importante que se espera de un científico de datos?

Los científicos de datos son el puente entre la programación y la implementación de la ciencia de datos, la teoría de la ciencia de datos y las implicaciones comerciales de los datos.

Un científico de datos construye análisis sobre los datos. Esto puede venir en forma de un análisis único para un equipo que intenta comprender mejor el comportamiento del cliente, o un algoritmo de aprendizaje automático que luego se implementa en la base del código por ingenieros de software e ingenieros de datos.

El trabajo incluye:

  • Modelado de datos
  • Aprendizaje automático
  • Algoritmos
  • Tableros de inteligencia empresarial

¿Qué hace un científico de datos?

Los científicos de datos son grandes expertos en datos. Toman una enorme cantidad de puntos de datos desordenados (no estructurados y estructurados) y usan sus formidables habilidades en matemáticas, estadísticas y programación para limpiarlos, masajearlos y organizarlos. Luego aplican todos sus poderes analíticos: conocimiento de la industria, comprensión contextual, escepticismo de los supuestos existentes, para descubrir soluciones ocultas a los desafíos comerciales.

En cualquier día, se puede requerir que un científico de datos:

  • Realizar investigaciones no dirigidas y formular preguntas abiertas a la industria
  • Extrae grandes volúmenes de datos de múltiples fuentes internas y externas.
  • Emplee sofisticados programas de análisis, aprendizaje automático y métodos estadísticos para preparar datos para su uso en modelos predictivos y prescriptivos.
  • Limpie y pode a fondo los datos para descartar información irrelevante
  • Explore y examine datos desde una variedad de ángulos para determinar las debilidades, tendencias y / u oportunidades ocultas.
  • Diseñe soluciones basadas en datos para los desafíos más apremiantes.
  • Inventar nuevos algoritmos para resolver problemas y crear nuevas herramientas para automatizar el trabajo.
  • Comunique predicciones y hallazgos a los departamentos de administración y TI a través de visualizaciones e informes efectivos
  • Recomendar cambios rentables en los procedimientos y estrategias existentes.

Cada empresa tendrá una visión diferente de las tareas laborales. Algunos tratan a sus científicos de datos como analistas de datos glorificados o combinan sus deberes con ingenieros de datos; otros necesitan expertos en análisis de alto nivel capacitados en aprendizaje automático intenso y visualizaciones de datos.

A medida que los científicos de datos alcanzan nuevos niveles de experiencia o cambian de trabajo, sus responsabilidades cambian invariablemente. Por ejemplo, una persona que trabaja sola en una empresa mediana puede pasar una buena parte del día en la limpieza de datos y munging. Se le puede pedir a un empleado de alto nivel en una empresa que ofrece servicios basados ​​en datos que estructurar proyectos de big data o crear nuevos productos.

La ciencia de datos es una amalgama de comprensión empresarial adecuada, matemáticas, estadísticas, programación y habilidades de comunicación. Por lo tanto, se espera que uno muestre todas las habilidades mencionadas anteriormente en el papel de un científico de datos.

Se espera que un científico de datos comprenda el problema comercial, construya una hipótesis, comprenda el tipo de datos requeridos, realice la limpieza de datos y el análisis preliminar de datos, construya modelos estadísticos para dar solución y finalmente comunicar de manera efectiva las ideas al cliente. Por lo tanto, el trabajo de un científico de datos abarca varios roles y funciones.

Descargo de responsabilidad: soy cofundador de @GreyAtom y ayudo a los talentos de ingeniería a iniciar su carrera en tecnologías emergentes.

El programa insignia altamente selectivo de GreyAtom tiene como objetivo orientar a los profesionales que trabajan y los más novedosos en el inicio de su carrera de ciencia de datos. Los estudiantes construyeron proyectos sobre el conjunto de datos REAL y las declaraciones de problemas proporcionadas por nuestra industria y socios de contratación. El programa se basa en el aula y se basa en la práctica. GreyAtom es un ecosistema donde los estudiantes pueden aprovechar lo mejor de la academia, profesionales de la industria y personas influyentes.

Algunos enlaces rápidos

  • Programa – http://www.greyatom.com/full-sta…
  • Chatee con un consejero académico: le invitamos a compartir todas sus dudas e inseguridades, a las que haremos todo lo posible para guiarlo hacia su camino profesional hacia el éxito. https://calendly.com/greyatom/co…

Los científicos de datos utilizan sus habilidades para obtener información valiosa y procesable de los datos recopilados y organizados. El rol de trabajo de un científico de datos típico gira en torno a las siguientes actividades mencionadas a continuación:

1. Hacer las preguntas correctas.

2. Recopilación y estructuración de datos.

3. Explorando los datos

4. Modelando los datos

5. Comunicar los datos.

6. Implementación de la solución.

Los científicos de datos son expertos en saber qué, cuándo y cómo las cosas, que, por cierto, es el conjunto de habilidades que tienen todos los científicos de datos exitosos.

Lea más sobre los científicos de datos y sus responsabilidades aquí: http://bit.ly/2haJyda

Un científico de datos pasa el 80% de su tiempo preparando datos de entrada para algoritmos de aprendizaje automático. El proceso involucra:

  • Definición de características predictivas basadas en la intuición y la lógica del negocio : esta tarea debe hacerse sin pensar en ninguna restricción. La lista se puede refinar si algunas características requieren datos que no son accesibles o no están disponibles, o si se puede generar una alternativa cercana. También se puede considerar explorar conjuntos de datos disponibles públicamente (por ejemplo, registros de propiedades) que podrían predecir el resultado
  • Búsqueda de fuente de datos : por lo general, los datos históricos se utilizan para ejecutar problemas convencionales como la detección de transacciones fraudulentas en tarjetas de crédito. Sin embargo, si los datos no están disponibles, se pueden generar datos utilizando experimentos en una muestra de población (prueba A / B de una página web)
  • Mezcla y transformación de datos : antes de alimentar los datos a un algoritmo, es crucial eliminar las características con valores faltantes, tratar los valores atípicos y transformar las variables en. Esto se puede hacer usando rangos y gráficos, agrupando características continuas.

Sin embargo, como se ha publicado en las respuestas anteriores, la tarea más importante es realmente definir las variables predictivas.

Mi tiempo generalmente incluye obtener datos (10-20%), explorar datos (20%), crear modelos (20%), hacer trabajo de I + D (20%) y dar presentaciones / reuniones con las partes interesadas (20-30%).

Las tareas más importantes son asegurarse de que los datos y los análisis sean correctos y se ajusten al problema; el siguiente más importante es comunicar los resultados a los clientes que solicitan los análisis.

Estás haciendo dos preguntas diferentes. Entiendo de dónde vienes, pero es importante que te des cuenta de que lo que haces el 80% de tu tiempo no es lo más importante.

Lo que pasa más tiempo haciendo

Es posible que haya escuchado que la mayor parte del tiempo de un científico de datos se dedica a realizar tareas de intercambio de datos, y eso es en gran medida cierto. Eso es especialmente importante de entender porque muchos jóvenes científicos de datos recién salidos de la escuela solo han tenido experiencia aplicando técnicas de aprendizaje automático a conjuntos de datos agradables y ordenados. El mundo real no es así en absoluto (y eso es incluso cuando tienes la suerte de obtener acceso a los datos que necesitas). Siempre aconsejo a los jóvenes científicos de datos que practiquen proyectos en los que tienen que lidiar con conjuntos de datos del mundo real, de lo contrario, nadie los tomará en serio cuando soliciten trabajo.

¿Qué es realmente lo más importante?

Ahora, esto es diferente de “cuál es la tarea más importante que se espera de un científico de datos”. Lo más importante es poder comunicarse con claridad. Esto implica comunicación escrita, oral y lo que yo llamo comunicación “bidireccional”. Esto también implica comunicarse con colegas, así como con gerentes no técnicos y otras partes interesadas. Si no puede comunicarse de manera clara y convincente, realmente no importa qué tan hábil sea.

Caso en cuestión: ayer informé a una gran peluca en el departamento de ventas de la empresa para la que trabajo. No es muy técnico en absoluto, pero es un importante “cliente interno” de los modelos que estoy desarrollando. No me llevó mucho tiempo crear la plataforma de diapositivas, y la reunión real solo duró una hora. Ciertamente, esto no tomó el 80% de mi tiempo. Pero si no lo convenzo del valor de lo que estoy haciendo, perderá interés y / o confianza y eso esencialmente matará mi proyecto.

Consejos para principiantes científicos de datos

Como ha etiquetado esto con “Empleos y carreras en ciencia de datos”, supongo que está preguntando porque es un científico de datos junior que busca información sobre cómo conseguir un buen trabajo. Si bien tengo un curso completo de 40 videos sobre eso, las partes más relevantes para su pregunta son:

  • Adquiera destreza en el munging de datos. La mayoría de las empresas con las que se entrevista le proporcionarán un problema para llevar a casa que debe completar en un corto período de tiempo (generalmente de 3 a 6 horas). La mayor parte del tiempo se dedicará a preparar los datos. Cuanto más rápido sea en esto, más tiempo tendrá para modelar y escribir sus resultados.
  • Se bueno en la comunicación. Nadie quiere trabajar con alguien a quien no pueda entender. Esto puede hacer que realmente se destaque de otros solicitantes, ya que la mayoría de las personas se centran casi por completo en las técnicas de aprendizaje automático. De hecho, aconsejo a los científicos de datos que se ofrezcan como voluntarios para dar una charla si lo invitan a una entrevista en el sitio. Incluso si se niegan, estarán muy impresionados de que haya tenido la confianza suficiente para sugerirlo.
  • Descubra qué necesita su (futuro) jefe y la empresa en general, y luego colóquese como la solución a esa necesidad. Investigar sobre la empresa (¡y sobre quienes lo entrevistarán!) Es un tiempo bien invertido. ¿Qué tiene esto que ver con ser un científico de datos? Debido a que este ejercicio no solo lo contratará, lo capacitará para pensar desde la perspectiva de otras personas. Demasiados, demasiados científicos de datos viven en su propia cabeza y luego se sorprenden cuando su proyecto es asesinado. “¡Malditos idiotas!”, Murmurarán. “¡No entienden la importancia de mi trabajo!” Sí, eso es cierto. ¿Pero de quién es la culpa?

Espero que esto ayude,

-Marca

La tarea más importante de un científico de datos es la gestión de datos, y esa verificación de datos para la cordura, corrección et al.
La construcción y optimización de modelos son importantes, pero esa no es la tarea que más tiempo consume en general.
Si el paso 1 es incorrecto, todo el análisis posterior es inútil.

¿Cuál es la tarea más importante que se espera de un científico de datos?

A // Sea bastante crítico en cada paso que realice (e intente no equivocarse). Debe ser lo suficientemente crítico para saber si lo que está haciendo tiene sentido o no. Los resultados y conclusiones de sus experimentos se basaron en todos los pasos anteriores que realizó. Desde la recopilación de datos, hipótesis, la elección de la métrica correcta para evaluar, el diseño de su experimentación, la presentación de sus resultados y conclusiones. resultar en malas consecuencias.

Como científico de datos, debe tener especial cuidado con cada paso que realice, y verificar y repetir si cree que algo salió mal.

Segundo, buena comunicación.

Data Scientist: como perfil de trabajo tiene una base bastante amplia y el perfil de trabajo se puede interpretar de la forma que se considere conveniente. La premisa básica de un rol de trabajo de Data Science es que un Data Scientist trabaja para dar sentido al caos de big data. Esta es la visión genérica de lo que hace un científico de datos. Pero creo que el objetivo de esta pregunta era comprender: qué tipo de tareas realiza un científico de datos en el día a día.

Ahora me gustaría responder a esta pregunta y créame: he investigado mucho para contribuir con un artículo completo sobre esta misma pregunta. Pero quiero permitirle tener el beneficio de aprender de un Científico de Datos Sr. sobre lo que hace un Científico de Datos. Puedes unirte a él mientras habla sobre el tema en este seminario web gratuito en vivo. Haga clic en el enlace para registrarse Registro

La tarea con la que pasamos la mayor parte de nuestro tiempo son los diversos aspectos del munging de datos. Si bien esta no es la parte más crítica de nuestro resultado, es probable que sea la tarea más crítica. Supongo que podría argumentar por hacer las preguntas correctas, pero algunos considerarían que es un aspecto de la mezcla de datos o más una tarea similar a la preventa.