¿Cuáles son las desventajas de ser un científico de datos?

El ciclo de retroalimentación de trabajar con grandes conjuntos de datos es increíblemente lento .

He trabajado ahora en diseño, ingeniería y ciencia de datos. Sinceramente, me encantan los tres, posiblemente los datos más, pero he gravitado hacia el diseño por la siguiente razón.

Con el diseño , la respuesta suele ser instantánea, ya sea que esté jugando con CSS en el inspector de cromo, dibujando con lápiz sobre papel o dibujando cuadros en Sketch o Photoshop. En todos esos casos, tiene una conexión casi inmediata con su trabajo. Piensas en algo, tomas una herramienta e inmediatamente ves el efecto.

En ingeniería , no es tan bueno pero tampoco tan malo. Depende de tu caja de herramientas. Hay muchas cosas que puede hacer al instante, utilizando un shell interactivo o depurador. Pero luego tiene que escribir bloques de código más grandes, o peor, su trabajo implica actualizar un navegador web.

Ahora hay aproximadamente 5 segundos entre que pones tu idea en código y veas si funciona. Esto es realmente un gran problema, porque reduce enormemente tu capacidad de jugar , hacer pequeños cambios y ver sus efectos.

En su charla Inventing on Principle, Bret Victor hace un gran negocio acerca de cómo los creadores necesitan una conexión instantánea con su trabajo. Aquí hay un extracto de ese video que muestra cuánto una conexión instantánea puede potenciar la construcción de un excelente software:

Mire el video si no lo ha hecho, en serio, es uno de los 100 segundos más asombrosos de programación en un video de YouTube.

Data Science tiene el mismo problema que la ingeniería, pero amplificó otro orden de magnitud.

Como campo, hemos valorado hacer el trabajo antes que hacerlo instantáneamente. Esto tiene mucho sentido comercial, porque es razonablemente difícil crear sistemas distribuidos de latencia ultra baja para manejar conjuntos de datos gigantes, y solo estamos dando pequeños pasos al problema.

Recuerdo ejecutar consultas de Hive que tardaron 20 segundos en cargar Hadoop, antes de que el motor de ejecución de consultas verificara si mi consulta era sintácticamente correcta. Los resultados tardaron minutos en volver.

Esto cambia fundamentalmente su forma de pensar, ya que solo tiene una inyección cada 20 segundos más o menos, su cerebro automáticamente se vuelve mucho más conservador en la exploración y hay dimensiones enteras en las que elige no explorar porque no puede interactuar.

A veces, si no estaba seguro de una clave en una combinación, activaba 2-3 consultas ligeramente modificadas y esperaba que una de ellas volviera correctamente, porque estos sistemas están muy optimizados para el rendimiento sobre la latencia.

Cosas como Presto y Redshift han mejorado enormemente la velocidad, hasta el punto de que trabajar con un subconjunto muestreado de un gran conjunto de datos es del orden de 5-10 segundos, un código de cambio similar y una actualización de una aplicación web, pero aún no es instantánea. Pero esa sed de velocidad ha demostrado que se puede ganar dinero con baja latencia, gran procesamiento de datos, y otros están abordando el problema sin incluir empresas bien financiadas como Trifacta.

Agregue a esto que los científicos de datos generalmente provienen de un fondo matemático y están básicamente acostumbrados a escribir y procesar tan rápido como pueden pensar. Las matemáticas han construido un rico vocabulario de símbolos para expresar una amplia gama de ideas. Los informáticos aún no están allí.

Otras veces, estás limitado por el algoritmo con un cuello de botella y no hay nada que la infraestructura pueda hacer al respecto, pero mejoraremos en esto, lenta pero segura, luego mira hacia atrás y te preguntas por qué vivimos en la edad de piedra.

Estoy bastante entusiasmado con las velocidades casi instantáneas para la manipulación de grandes conjuntos de datos en el futuro cercano porque permitirá a los científicos de datos explorar mucho más un orden de magnitud más rápido.

Esto es lo que creo que son las desventajas de ser un científico de datos. Supongo que la ciencia de datos se refiere al papel de científico de datos de “encontrar ideas y analizar experimentos”, no el aprendizaje automático, que clasifico bajo ingeniería.

1. Existe una gran posibilidad de que su gerente de ciencia de datos sea incompetente. Ciertamente no es cierto que los gerentes de ingeniería de software se conviertan en gerentes porque son los mejores técnicamente en su campo, pero casi todos los gerentes de ingeniería de software que conozco han tenido al menos más de 5 años de experiencia trabajando como ingenieros de software reales, y han trabajado en Proyectos de software grandes y sofisticados. Por el contrario, conozco a muchos gerentes de ciencia de datos en Google, Yahoo, Uber, LinkedIn, Twitter y muchas startups menos conocidas que se convirtieron en gerentes con menos de 1 año de experiencia laboral en cualquier lugar. Muchas de estas personas saben muy poco sobre estadísticas, aprendizaje automático, visualización o programación, y sé que algunas de estas personas ni siquiera pueden explicar la probabilidad condicional y nunca han escrito un trabajo de MapReduce.

Hay al menos dos razones para esto. 1. La ciencia de datos es un campo nuevo, por lo que las empresas no tienen más remedio que poner a los empleados junior incompetentes en roles gerenciales. 2. La ciencia de datos es muy fácil de jugar (más sobre esto a continuación).

2. Nadie va a saber si estás inventando una mierda. En muy pocas empresas, los científicos observan y revisan el código de los demás. Dicen que lleva demasiado tiempo, su código no pretende ser de calidad de producción porque no son ingenieros, se extiende por todo el lugar, etc. Por lo que todos saben, ese científico de datos de aspecto ocupado puede estar inventando muchos de sus datos. He visto casos en los que se falsificaron los números para que se vieran mejor, y casos en los que se recopilaron datos porque era más fácil a pesar de que las suposiciones incluidas en esos datos eran incorrectas, y conclusiones que harían llorar a una revista científica.

3. Esto se debe, en parte, al hecho de que, irónicamente, la producción de un científico de datos no es medible. Los ingenieros de aprendizaje automático se pueden medir en experimentos reales por sus mejoras en el CTR, los ingenieros de infraestructura se pueden medir por sus mejoras en la latencia, etc. Esto no es cierto en la refactorización u otros casos, pero en muchos casos la producción de un ingeniero es muy fácil ver. ¿Cómo se mide a un científico de datos, por la cantidad de gráficos que producen?

4. Las personas están muy impresionadas por las declaraciones que suenan bonitas, incluso si son tonterías estadísticas, especialmente si las declaraciones validan lo que quieren creer. Por ejemplo, si usted es el líder de ingeniería para la aplicación móvil de su empresa, le ENCANTARÁ si llega un científico de datos y le dice que los usuarios que instalan su aplicación móvil hacen clic en los anuncios 10 veces más. Wowwee, es IMPRESIONANTE que les dirás a ellos y a tu CEO, qué idea más fascinante, y utilizarás esta información para argumentar que tu equipo móvil debería contratar 10 veces más personas. Eso es, por supuesto, lo incorrecto, ya que los usuarios móviles son, naturalmente, sus usuarios más comprometidos porque, en primer lugar, querían instalar su aplicación móvil. *** La correlación no es causalidad, todos los buenos datos los científicos le dirán, ¡pero estos son los resultados que pasan todo el día presentando de todos modos!

Un ejemplo concreto: hace un año, un vicepresidente de ingeniería me dijo cuánto impacto tuvo el científico de datos Bob en la empresa, porque Bob descubrió que nuestros usuarios más pesados ​​estaban haciendo XXX, y eso convenció al CEO de que deberíamos fabricar nuestro producto. centrarse exclusivamente en XXX. De esta manera, todos nuestros usuarios se convertirían en usuarios muy pesados ​​de nuestro producto y, por supuesto, lo usarían todos los días. Pero adivina qué, lanzamos este nuevo producto y fracasó por completo, porque el análisis de Bob no fue causal. A la mayoría de los usuarios simplemente no les importaba XXX. Era como decir que debido a que las personas que comen productos orgánicos gastan mucho dinero, McDonald’s debería cambiar su menú a alimentos orgánicos caros. Pero Bob sigue siendo elogiado por el análisis de lanzamiento de ese producto hasta el día de hoy.

Además, muchos de ustedes seguramente están familiarizados con la paradoja de Simpson y el ejemplo de sesgo de género de Berkeley. Un científico de datos en cualquier compañía sería elogiado hasta el cielo por descubrir e informar que las mujeres en Berkeley están siendo discriminadas, ¡aunque ese es el hallazgo equivocado!

Por lo tanto, los científicos de datos descuidados que dedican muy poco tiempo a ser rigurosos, o se preocupan muy poco al respecto, es muy probable que produzcan resultados asombrosos y se vean más productivos que sus pares más cuidadosos y rigurosos.

5. No es un campo muy técnico, y el rigor es malo para tu carrera. La mayoría de la gente le dirá que Big Data Insights no requiere estadísticas sofisticadas. La mayoría de lo que la gente hace es escribir guiones de Hadoop y contar cosas. Entonces, ¿qué habilidades necesitan los científicos de datos en realidad? No mucho. Solo hablen y un poco de R. En contraste, es difícil creer que un ingeniero junior pueda construir Google o Facebook desde cero, o que un diseñador junior pueda construir Apple. ¿Pero inventar historias interesantes? Contrata a ese experto en artes creativas y dales Tableau.

En la misma línea, realizar estadísticas rigurosas con frecuencia es malo para los científicos de datos, porque si es más riguroso, eso significa que el análisis es más complicado, lo que dificulta la comprensión y la obtención de resultados interesantes, lo que dificulta obtener esos productos. gerentes y clientes potenciales que no saben nada sobre estadísticas interesadas. Por lo tanto, debe pasar por alto las sutilezas de la causalidad y presentar los datos como claros, en blanco y negro. ¡Evita las advertencias y muestra los absolutos!

6. Es un hoyo infernal de política. Todos dicen que el resultado final de la ciencia de datos es comunicar lo que descubres a otras personas. Esto significa que mucha gente coquetea, y esto termina donde los científicos de datos dicen muchas cosas solo para sonar inteligentes, y dado que las estadísticas son 90% de mentiras (mentiras, malditas mentiras y estadísticas), los resultados se inventan fácilmente o retorcido.

Sin embargo, para un aspecto positivo, no estoy de acuerdo con la respuesta de Abhinav Sharma. Creo que el ciclo de retroalimentación de la ciencia de datos es más rápido que el ciclo de retroalimentación del diseño y la ingeniería. La mayoría de las veces, el objetivo de un proyecto de ciencia de datos es hablar sobre sus hallazgos, y es rápido configurar una presentación y obtener comentarios sobre lo que ha encontrado. Y extraer datos puede ser lento a veces, pero generalmente está iterando en conjuntos de datos más pequeños que ha resumido de Hadoop, y extraer esos conjuntos de datos de Hadoop en primer lugar suele ser O (días o semanas).

Por el contrario, si eres ingeniero, a menudo lleva meses que la infraestructura en la que estás trabajando se envíe y se ejecute como un experimento antes de que puedas ver su impacto, y lo mismo para los diseñadores.

Aunque el impacto es menor. Si eres ingeniero o diseñador, construyes cosas. Si eres un científico de datos, hablas al respecto y convences a otras personas para que hagan cosas, y la mayoría de las veces, ya tienen un plan y nada de lo que puedas hacer lo cambiará de ninguna manera.

Creo que hay 3 inconvenientes que vale la pena mencionar, dos de ellos ya han sido abordados por otras respuestas.

1. El juego de la espera
El primer problema es que, en muchos casos, hay que esperar. Mucho. Pero nunca mucho. Claro, hay muchas tareas que solo demoran segundos en ejecutarse. Esos no son un gran problema.

También hay tareas en algunos casos, que pueden tardar horas en finalizar. En realidad, tampoco son tan malos, porque puedes trabajar en otra cosa. Suponiendo que tenga otras partes en las que pueda trabajar, por supuesto.

Pero lo peor son aquellas tareas en las que solo toma entre tres y diez minutos ejecutarlas antes de poder continuar. Es lo suficientemente largo como para sentirse aburrido y perder tiempo, por un lado, pero no es lo suficientemente largo como para cambiar mentalmente el enfoque a otra cosa. (¡y de regreso!)

2. Jack-of-all-trades, maestro de ninguno
El segundo inconveniente a tener en cuenta es que, muy probablemente, usted no es experto en nada. Al menos para mí, eso significa que constantemente me siento estúpido. 🙂

Cuando hablas con personas estadísticas puras (y hábiles), probablemente conocen mejor su tema que tú. Cuando hablas con desarrolladores (buenos), generalmente conocen su campo mejor que tú. * Por supuesto, deberías (superar) a las estadísticas de las personas en desarrollo y a los ingenieros de software en estadísticas. Pero generalmente las estadísticas de las personas no están interesadas en el desarrollo. (aunque a la gente del software generalmente le gusta hablar / aprender sobre el aprendizaje automático)

Por supuesto, también hay una gran ventaja en todo esto: es muy estimulante / desafiante hablar con ellos sobre su campo y es una motivación ininterrumpida para la superación personal. (y tienes la gran oportunidad de aprender de esas personas, una y otra vez)

3. Estimación y compromiso con los resultados.
Por último, diría que las estimaciones y la gestión de expectativas en ciencia de datos son muy difíciles. Especialmente si trabajas como consultor o por proyecto y esto por dos razones.

  1. Limpieza de datos , que garantiza la mayor parte de su tiempo y esfuerzo. Y cuánto depende exactamente de qué tan sucios estén los datos. (no hablemos de datos limpios, no existe tal cosa;)) A menos que haya trabajado con los mismos datos durante mucho tiempo y / o trabaje para Unicorns & Rainbows, donde la calidad de los datos es de primera categoría, no No sé de antemano qué tan malo será y, por lo tanto, cuánto tiempo necesitará para resolverlo y fijarlo en niveles aceptables. Pero la gerencia aún quiere obtener buenas estimaciones para presupuestar o por alguna otra razón.
  2. Incertidumbre de los resultados / resultados. Por supuesto, para determinar si vale la pena el presupuesto, la gerencia / los clientes desean tener las ganancias esperadas de antemano. Claro, puede ser que su modelo sea asombroso al predecir las ventas de artículos de stock individuales. Pero también podría terminar con la conclusión de que las reglas generales actuales son superiores.

Sin embargo, aún podría usar algunos buenos consejos para esas cortas esperas. Solo hay tantos correos electrónicos para responder todos los días. 😉

* Cuando trabajas con una pila de Big Data, también tiendes a necesitar algunas habilidades allí y pasas tiempo hablando con los administradores de sistemas.

  • Primero, estoy de acuerdo con Michael Hochster. Tal como está, la definición también pierde.

    Vi gente excelente con Matlab, pero rehuía a Spark y viceversa. Vi personas que son excelentes para trazar y visualizar, pero eso era más o menos lo que podría decir sobre ellos. Vi personas que solo calcularon agregados con mapreduce. También vi personas tratando de inventar (sin éxito) una prueba de probabilidad de registro por su cuenta con una falta total de habilidades de estudio de literatura.

    Todas estas personas trabajaron bajo el título oficial de “científico de datos”.

    Del mismo modo, las expectativas o descripciones en el lado de la contratación oscilaron igualmente. La mayoría de las veces, los vicepresidentes contratantes ni siquiera producen una descripción que diga mucho más que “científico de datos”.

  • En segundo lugar, y es un hecho mucho más triste que el primero, esté preparado para que, a menos que trabaje en una gran organización o academia de “laboratorios”, la mayoría de la gente no tenga idea de lo que está hablando todo el tiempo. Se quedarán dormidos cuando comente sobre la “naturaleza bimodal de la distribución”, y lo despreciarán en secreto cuando mencione “optimización bayesiana”.

    Su mejor apuesta para ser entendido es probablemente escribir documentos. Pero esto no es para todos.

    Lo peor de todo es que sus supervisores directos probablemente no tengan antecedentes para discutir su trabajo con usted. Si ese es el caso (y es probable que sea el caso si trabaja para una startup o una empresa mediana con poca o ninguna dedicación a una inversión mínima en investigación aplicada), es probable que sienta que su trabajo es poco apreciado en de forma continua En extremo, puede quedar completamente marginado con los ingenieros y los jefes por igual y comenzar a buscar otro proyecto que probablemente sea tan erróneo para usted.

    En pocas palabras, serás un inadaptado para muchas empresas.

    Si realmente quieres hacer lo que sospecho que quieres hacer, el mejor lugar para ti es la academia. El siguiente mejor lugar, un laboratorio en una gran empresa. Eso es. Lo más probable es que ambas situaciones impliquen una compensación menor en comparación con lo que puede ganar un informático igualmente inteligente.

    La mejor manera de abordar el problema de compensación es probablemente la propia empresa. Pero eso es riesgo, una vez más, y lo más probable es que si vales algo en ciencia, no serás tan bueno en los aspectos comerciales de la misma. (YMMV) Y estarías entrando en un espacio muy concurrido (y quiero decir, un espacio MUY concurrido).

No te hagas una mala impresión. Es un papel maravilloso que desempeñar, suponiendo que las desventajas estén cuidadosamente optimizadas. Pero esta pregunta era sobre desventajas específicamente. Conocer los peligros más probables es quizás el primer paso para evitarlos.

Una de las mayores desventajas es cumplir con las expectativas poco realistas de ciertos clientes que están atrapados en la exageración de la ciencia de datos y big data. Esto es especialmente cierto cuando el cliente no tiene experiencia técnica y poca experiencia en proyectos de análisis avanzados. Estos clientes creen que la ciencia de datos es una bala de plata que resolverá todos sus problemas. Recuerdan con cariño escuchar historias de cómo la ciencia de datos tuvo un gran impacto en alguna empresa y esperan que usted haga lo mismo. De lo que no se dan cuenta es que por cada proyecto exitoso, probablemente haya varios más cuyos resultados sean mediocres o francamente malos. Tampoco comprenden la importancia de tener muchos datos buenos. Como resultado, cuando no cumple con esas altas expectativas, los clientes se sienten decepcionados.

Otro inconveniente es tratar con clientes que ni siquiera saben lo que quieren. Nuevamente, esto ocurre típicamente con clientes no técnicos e inexpertos. Al comienzo del proyecto, dictan con confianza sus requisitos. Pero después de entregar con éxito lo que pidieron, su cliente se da cuenta de que en realidad no es lo que quería. Peor aún, te culpan por no ayudarlos a descubrir su error, como si de alguna manera pudieras leer su mente. Al final, no estás contento y tus clientes no están contentos.

Si te encuentras trabajando para alguien que tiene una agenda, puede ser una destrucción del alma. Es decir, lo han contratado para buscar datos que respalden su opinión en lugar de explorar la verdad. Hay un excelente libro sobre este tema. Se llama “Cómo mentir con las estadísticas” por Darrell Huff. Si lo lees, mientras navegas por los ejemplos, imagínate a ti mismo siendo la persona que investigó los datos de buena fe y luego observó cómo otros hacían todo lo posible para exagerar o tergiversar tu arduo trabajo. Peor aún, hacer que su empleador insista en que apruebe y certifique que fue el autor.

Trabajar para personas que llegan rápidamente a conclusiones y no entienden los matices de la significación estadística puede ser estresante. Especialmente, si están más interesados ​​en encontrar chivos expiatorios que en comprender lo que realmente está sucediendo.

Trabajar para personas que ven eventos correlacionados simples como una prueba positiva de causa y efecto también puede ser frustrante. (“La mayoría de los accidentes ocurrieron cuando los conductores estaban sobrios. Por lo tanto, si promulgamos que todos los que conducen deben estar borrachos, ¡el problema está resuelto!”)

Trabajar para personas que insisten en que trabajas con un conjunto limitado de herramientas puede ser más frustrante que todo lo anterior. Especialmente, si eres un programador informático experimentado. Por ejemplo, una vez fui entrevistado para un trabajo donde el jefe insistía en que todo el trabajo se hiciera usando una hoja de cálculo y archivos de entrada CSV solos. Conociendo SQL, varios lenguajes de programación y algunas poderosas herramientas analíticas, acorté la entrevista.

Habiendo dicho todo lo anterior, tengo que decir que la ventaja todavía supera la desventaja. Es fascinante ver información real y útil que emerge de una montaña de números. No importa cuántos años haga esto.

Hay habilidades fundamentales que un científico de datos requerirá para obtener los trabajos mejor pagados. Ellos son: las habilidades de ciencia de datos más valiosas de 2016

O’Reilly Media – Libros de tecnología, conferencias tecnológicas, cursos de TI, noticias

  • Normalización de la información para corregir los valores de datos para la uniformidad.
  • Conocimientos esenciales de codificación en R o Python.
  • Habilidades estadísticas necesarias.
  • Crear gráficos y también vallas publicitarias, por lo tanto, debe saber visualizar datos.
  • Métodos de aprendizaje automático que se pueden implementar en R o Python.

Y para obtener los roles mejor pagados, estos antecedentes son imprescindibles. Junto con esto, otras habilidades requeridas son:

  • Hadoop

Hadoop es un marco popular que florece bajo demanda en este mundo de big data. Las personas que son bien conocidas con los elementos centrales de Hadoop como HDFS, MapReduce, Hive, Oozie, HBase Pig, YARN y Flume tienen una gran demanda.

  • Visualización de datos

Comience a aprender herramientas como Tableau y Qlikview para la visualización de datos, que describe el resumen de la información y, sin embargo, revela toda la información invisible que revoluciona la forma en que continúa trabajando con los datos. Y si desea convertirse en un profesional de la ciencia de datos, dominar varias tecnologías de visualización es básicamente un requisito previo.

· Lenguajes de programación de amplio alcance

Tener una comprensión adecuada de los lenguajes de uso general como, C, Scala, Java o Python le ofrecerá el marco sobre las personas anteriores cuyas especialidades se limitan a la analítica.

  • Análisis estadístico y razonable

Una formación en matemáticas siempre es imprescindible para convertirse en un científico de datos. Tener conocimiento en razonamiento aumentará en última instancia su posibilidad de obtener el trabajo en ciencia de datos.

  • Chispa – chispear

Las tecnologías Spark tienen enormes oportunidades con trabajos de alto salario para candidatos que tienen experiencia en lenguajes de programación.

  • Lenguaje de máquina

Los trabajadores de Big Data que tienen conocimiento en tecnología de aprendizaje automático pueden construir e instruir fácilmente aplicaciones analíticas proyectadas, como la disposición y aprobación de sistemas, que tienen un mando fabuloso y elevado y pueden exigir el alto salario que merecen.

  • SQL

SQL es famoso por su simplicidad de comprensión. SQL se considera la nueva vida para la próxima generación de almacenes de datos a escala Hadoop.

  • NoSQL

Las bases de datos NoSQL son con frecuencia la base de los datos surgidos en Hadoop. En esta era de big data, tanto Hadoop como NoSQL residen en superficies competidoras de la misma fase.

  • Creatividad y capacidad de análisis

Con el tiempo, las tecnologías se actualizarán y cambiarán, pero su capacidad de pensamiento y creatividad siempre lo sostendrán. Cuanta tecnología se actualice con la ayuda de su creatividad y análisis, siempre encontrará una salida para obtener el mejor trabajo que se merece.

Un título superior en ciencia de datos será una guinda del pastel

Tener una base matemática y volverse competente con las herramientas particulares que están en tendencia en el mercado a través de la capacitación y la certificación es la solución definitiva para obtener los mejores trabajos mejor pagados de la industria. Pero tener un título avanzado en ciencia de datos es un ajuste directo para compensar la demanda de cualquiera de las empresas. Una persona con una maestría en análisis de datos será la mejor y más adecuada para estar en el trabajo de ciencia de datos. Porque junto con sus antecedentes relacionados con los datos, incluso obtuvo su educación avanzada y superior relacionada solo con datos.

Si uno sigue el camino resaltado en este artículo, definitivamente tendrá éxito en llegar al destino donde podrá obtener los trabajos de científico de datos mejor pagados en este mundo de big data totalmente lleno de gente.

Bueno, el principal desafío de ser un científico de datos es la novedad de esta carrera. Es difícil determinar el conjunto de habilidades correcto que uno necesita tener para ser un buen científico de datos, o lo que se espera de un científico de datos. Aparte de eso, debe tener en cuenta que para ser un científico de datos legítimo debe tener estadísticas sólidas, ML y programación en su haber. Por supuesto, puedes sobrevivir si eres fuerte en al menos dos de estas áreas.

Debido a que este trabajo no está muy bien definido, puede verse fácilmente agotado por las solicitudes de varias divisiones dentro de una empresa (algunas personas podrían considerarlo el analista de datos que desearían tener) y tener que trabajar en todos los departamentos para hacer el trabajo. . Solo piense en un científico de datos como el mago que es súper inteligente y omnisciente al mismo tiempo.

Y, por supuesto, ser un científico de datos implica que habrá pocas personas que hablen el mismo idioma en una empresa, y en general pasarán tiempo frente a un monitor diseñando algs y escribiendo código.

En orden de importancia

  1. Mala calidad de los datos. Esto ha sido ampliado por casi todos los demás aquí, por lo que es suficiente decir que es probable que sea el problema número uno al abordar un nuevo análisis.
  2. Para ampliar lo anterior, debido a la forma en que las organizaciones suelen almacenar datos en una serie de sistemas dispares, unir los datos en realidad puede ser poco confiable si no casi imposible (entrar en el escenario dejó a alguien sugiriendo ‘solo unirse por nombre’ o algún otro no identificador único)
  3. El factor tiempo, nuevamente esto ha sido notado por otras respuestas, pero para ampliar desde mi experiencia personal. El análisis no es algo que pueda detener y comenzar, requiere concentración y estar en la zona. Entrar en la zona toma alrededor de 15-20 minutos, por lo que si configura una consulta para que se ejecute, espere una hora antes de analizar los datos, cambie la consulta y luego vuelva a ejecutarla, constantemente está rompiendo su línea de pensamiento y tiene que ‘seguir adelante los engranajes para volver a donde estabas. Puede ser agotador.
  4. Desconfianza en los resultados. Los gerentes a veces tratarán de desacreditar el análisis cuando los resultados no los iluminen bien y, por lo general, barrerán esos hallazgos debajo de la alfombra.
  5. No ver una mejora en el mundo real basada en su análisis. Es muy raro que un análisis provoque un cambio de dirección, y si lo hace, es probable que no esté involucrado en presenciar los resultados.

A menos que se “relaje”, nunca será un alto ejecutivo en una empresa convencional.

Seré sincero: un científico de datos con cierta experiencia en liderazgo empresarial, una personalidad gregaria y un buen ojo para los negocios, podría hacer lo que cualquier ejecutivo superior de cualquier corporación importante podría hacer, pero lo contrario no es cierto.

Por esa razón, y quizás algunas otras, siempre habrá barreras para que los científicos de datos (entendidos solo como “personas realmente inteligentes” por todos los demás) tomen las riendas del poder corporativo. La gente creerá que analizas demasiado todo, no entiendes el mundo real, no puedes trabajar con clientes, partes interesadas, etc. Nada de eso podría estar más lejos de la realidad.

Aconsejo a los consejos de las principales empresas de todo el mundo para ganarse la vida. También ayudo a los ejecutivos a ver cómo la analítica de datos puede integrarse sin problemas con la estrategia corporativa y cómo la estrategia comercial puede beneficiarse realmente de la ciencia de datos. Sin embargo, nunca he tenido una oferta para venir a “dirigir el negocio” por nosotros (a pesar de haber gestionado un equipo de 400 miembros y 5 países antes). Parecería que a menos que comience de nuevo y “suavice” (o “tontee”) mis credenciales, nunca se me verá más allá de un líder de quants.

Por lo tanto, como científicos de datos, otros en la jerarquía ejecutiva parecen amenazados por alguien que puede entender, en profundidad, lo que está sucediendo o no quieren a alguien que entienda lo que está sucediendo.

Hago algo de ingeniería de datos y algo de aprendizaje automático, pero hago muchas de las mismas cosas que hacen los científicos de datos.

Solo hay un gran inconveniente … datos sucios.

La limpieza de datos es un fastidio.

Construir modelos es divertido, pero solo representa aproximadamente el 10% de su trabajo. Hice este comentario hace unos años y alguien de Kaggle dijo que no creía que ese porcentaje fuera correcto.

Recientemente, tomaron una muestra muy grande de científicos de datos del mundo real sobre cuánto tiempo dedican a cada actividad durante el transcurso de un día normal y el número con el que regresaron para modelar la construcción fue … 10%.

Aparte de eso, el campo es increíblemente emocionante.

Estamos al borde de una revolución de datos y va a converger con una en el aprendizaje profundo. Eso hace que este espacio sea el más emocionante del mundo, en mi opinión.

Echa un vistazo a este curso gratuito sobre los algos básicos utilizados en el aprendizaje automático.

Una introducción al aprendizaje automático para ingenieros de datos

Para mí, el mayor problema al trabajar en ciencia de datos es que los clientes, especialmente los clientes de consultoría, generalmente no están bien entrenados en estadística y tienden a que sus resultados estén sesgados en lo que creen que deberían decir los datos y también tienden a hacer las preguntas equivocadas entonces el científico de datos les da la respuesta que desean (normalmente: “Lo siento, mi análisis está equivocado”).

Eso es algo que a veces las personas dispuestas a hacer una carrera en ciencia de datos no entienden. Para ser un buen científico de datos, debe estar bien orientado al cliente y ser muy convincente, porque la mayoría de las empresas y profesionales están acostumbrados a trabajar sin datos, solo por intuición, y piensan que su intuición es mejor que cualquier cosa que los datos puedan decir. y, como máximo, un científico de datos puede confirmar lo que ya sabía.

Primero, y esto se ha mencionado en otras respuestas, el ciclo de retroalimentación es dolorosamente lento . Es muy fácil distraerse cuando simplemente cambia a un navegador web para llenar el tiempo mientras se ejecuta el código. Tienes que aprender a organizar tu trabajo en torno a estos retrasos.

En segundo lugar, es difícil saber si ha alcanzado los límites de lo que es posible con un conjunto de datos o si sus algoritmos no son lo suficientemente buenos . Con la codificación más convencional, si funciona, entonces funciona. Puede hacerlo más rápido o más eficiente en memoria, pero sabe cuándo es lo suficientemente bueno.

Tercero, la depuración de algoritmos de aprendizaje automático es una molestia . Realmente tienes que conocer muchos de ellos en detalle y tener mucha experiencia para entender por qué fallan.

Te diré una desventaja personal (¿o tal vez es una ventaja?) De aprender análisis estadístico mientras estaba en Intel, y esa desventaja (?) Se ha mantenido.

No puedo simplemente sentarme y escuchar las estadísticas de cualquiera. Cuando alguien saca una estadística en una discusión, como un debate político o un debate sobre la rentabilidad del tratamiento médico o cualquier otra cosa, no puedo tomar la estadística al pie de la letra. Corro automáticamente un montón de preguntas en mi cabeza y ya no puedo escuchar el resto del argumento hasta que rompo la estadística y me aseguro de que sea realmente válida. Es inconsciente, automático, y absolutamente siento que me está destrozando el alma si solo sonrío y asiento. Arrgh! Y ni siquiera puedo hacerlo cuando ya estoy de acuerdo con una discusión.

Sí, el hecho de que tuve que esperar la recolección de datos, y al hacer algo grande tuve que esperar a que la computadora se pusiera al día con los movimientos de mi mouse antes de ver la visualización que quería ver, pero eso no es tan frustrante como escuchar a Paul Krugman defendiendo una posición predeterminada basada en datos obviamente seleccionados.

Jack de todos los oficios, maestro de ninguno (en comparación con personas de igual habilidad).

Puede que le resulte difícil hacer la transición a roles de desarrollo puro, porque una parte importante de su experiencia de software estará en scripts, prototipos y otro código ‘desechable’; puede escribir código de producción dependiendo de su marca particular de ciencia de datos, pero en general no como un gran porcentaje de su codificación.

Del mismo modo, algunas de las aplicaciones estadísticas más avanzadas pueden estar más allá de su día a día.

Por supuesto, crecerá técnicamente a lo largo de su carrera, pero en general estará menos enfocado en comparación con una disciplina más ‘pura’.

También hay un gran valor agregado de nuestro conocimiento de dominio, lo que podría dificultar el cambio entre industrias (en comparación, por ejemplo, con el desarrollo web).

Eres el mago rojo de Final Fantasy: desde el principio tu habilidad para hacer todo es invaluable; A medida que avanzas en el juego, existe el riesgo de quedarse atrás en comparación con los especialistas, y es posible que encuentres varias de las magias más poderosas fuera de tu alcance.

Una de las mayores desventajas de ser un científico de datos es también una de las mayores desventajas de trabajar con científicos de datos, que es: nadie sabe exactamente qué es un científico de datos.

En consecuencia, todos proyectan en el papel lo que quieren que sea:

  • “Estoy interesado en el aprendizaje automático con conjuntos de datos masivos. ¡Solicitaré un trabajo como científico de datos!”
  • Mientras tanto: “Necesito que alguien me diga por qué no hay páginas vistas. ¡Iré a preguntarle a un científico de datos!”

Todos entienden que el papel no es demasiado claro y la gente bromea al respecto. Pero es una fuente real de problemas.

iteración sin fin.

no solo se espera que produzca sus algoritmos subyacentes, sino que genere aquellos algoritmos que se han aprendido de cantidades potencialmente masivas de datos, ajuste de selección de parámetros, validación cruzada, empuje de la estructura del modelo a HBase, redis o MySQL (sea cual sea el almacén de datos) primer paso….

Dado que la mayoría de las aplicaciones necesitan que su (s) modelo (s) esté (n) integrado (s) en la pila, es probable que esté a cargo del segundo paso: crear una aplicación sobre su estructura de modelo potencialmente muy complicada que tiene restricciones de latencia de tiempo de ejecución.

Entonces, los pasos antes de “ser ingeniero” son extremadamente iterativos. Para paysa.com que aprovecha AI / ML / NLP / IR, consultas a almacenes de datos adyacentes, muestreo bayesiano y un montón de cosas bajo nuestras API principales (que cae en mi regazo), la iteración para llegar allí toma mucho más tiempo que si tuviera que extraer algún analizador de texto ETL que vive aislado.

Dicen 1 imagen que vale 1,000 palabras (+ -7).
Creo que la caricatura de abajo es divertida y perspicaz.
Como científico de datos, a veces siento que las desventajas son que:

  1. Podría haber hecho modelos mucho más sofisticados, pero no hay tiempo.
  2. Otras personas realmente no saben lo que estoy haciendo, incluido mi gerente de producto, lo que puede conducir a una subvaloración.
  3. En la vida real, un científico de datos necesita luchar con la búsqueda de datos, las tuberías, el almacenamiento, el análisis, etc., hasta que llegue al lugar de trabajo donde sabe dónde puede comenzar a hacer su magia.

La ciencia de datos es cognitivamente exigente e implica retroalimentación retardada. Como resultado, los científicos de datos a menudo son muy cerebrales, ya que el trabajo realmente requiere resolver las cosas primero, incluso más que los trabajos de programación tradicionales. La consecuencia de ser tan cerebral es que puede obstaculizar las interacciones sociales en tiempo real.

Se podría argumentar que las personas cerebrales se sienten atraídas por la ciencia de datos. No estoy muy seguro; Puede haber un problema de endogeneidad.

Para acelerar el proceso, rápidamente vendrán nuevas herramientas que realmente ayudarán a descubrir algo nuevo en lugar de juntar bases de datos.

Aquí hay un ejemplo para analizar las patentes de 90 millones para el tema de “Internet de las cosas” para obtener una idea rápida de las tendencias / agrupaciones actuales en esta área.

Todo hecho mediante un clic en 100 segundos por una nueva herramienta llamada Noggle.

Ver ejemplo aquí:

Por lo tanto, un científico de datos necesita usar nuevas herramientas para el descubrimiento en lugar de unir cables y bases de datos.

More Interesting

¿Se requiere conocer el cálculo para convertirse en climatólogo / climatólogo? ¿Puede él / ella manejar sin el conocimiento de ello?

¿Debo aprender más sobre algoritmos (en general, no sobre aprendizaje automático) para convertirme en un buen científico de datos?

¿Qué tan difícil es obtener una pasantía de científico de datos con el estado F-1?

¿Qué hace realmente un científico de datos en tiempo real dentro de una empresa?

¿Cuáles son las mejores certificaciones de científicos de datos?

¿Cuáles son las empresas de análisis en India que trabajan en Python, R utilizando técnicas como GBM, RF en sus proyectos? ¿Cuál tiene más trabajo orientado a la investigación?

¿Es posible trabajar como científico de datos o como programador cuantitativo si NO tiene un doctorado o antecedentes académicos en STEM?

Después de tener una experiencia en ciencia de datos por menos de un año, ¿qué compañías me llevarían y cuál sería mi paquete?

¿Cómo me convierto en un científico de datos del analista de datos junior con una licenciatura en matemáticas?

¿Cómo es ser un científico de datos?

Cómo lidiar con la advertencia, 'ADVERTENCIA: la corrección no ha podido mejorar la probabilidad de registro' en la regresión logística a través de SAS

¿Cuáles son las materias básicas para la ciencia de datos?

¿Cuáles deberían ser las habilidades básicas de un científico de datos?

¿Cómo ha sido la inflación salarial para los científicos de datos en 2015 y continuará en el corto plazo?

¿Cuánto tiempo lleva convertirse en científico de datos?