¿Cuáles son las mayores ineficiencias que enfrentan los científicos de datos hoy en día?

Primero, permítanme decir lo que creo que NO es el problema: el hecho de que los científicos de datos pasan el 80% de su tiempo con la preparación de datos. Ese es su TRABAJO! Si no eres bueno en la preparación de datos, NO eres un buen científico de datos. No es un problema de conserje como Steve Lohr provocó. La validez de cualquier análisis se basa casi por completo en la preparación. El algoritmo que terminas usando es casi irrelevante. Quejarse sobre la preparación de datos es lo mismo que ser un agricultor y quejarse de tener que hacer otra cosa que cosechar y que alguien más se ocupe del riego molesto, la fertilización, el deshierbe, etc.

Dicho esto, la preparación de datos puede ser difícil por el proceso de recopilación de datos sin procesar. Diseñar un sistema que recolecte datos en una forma que sea útil y fácilmente digerible por la ciencia de datos es un gran arte. Proporcionar total transparencia a DS cómo exactamente fluyen los datos al sistema es otra. Implica procesos que consideran el muestreo, la anotación de datos, la coincidencia, etc. No incluye cosas como reemplazar el valor perdido y la normalización excesiva. La creación de un entorno de datos efectivo para DS debe involucrar a DS y no puede ser propiedad exclusiva de la ingeniería. DS a menudo NO puede especificar tales requisitos del sistema con suficiente detalle para permitir una transferencia limpia.

Pero en la imagen más grande, hay cosas más importantes a considerar. El problema más grande que veo es la ciencia de datos que resuelve problemas irrelevantes. Esta es una gran pérdida de tiempo y energía. Por lo general, la razón es que quien tiene el problema carece de la comprensión de la ciencia de datos para incluso expresar el problema y los científicos de datos terminan resolviendo lo que entendieron que podría ser el problema, creando una solución que no es realmente útil (y a menudo demasiado complicada) Una categoría típica son las tareas ‘poco definidas’: “¡Encuentre información procesable en este conjunto de datos!”. Bueno, la mayoría de los científicos de datos no saben qué acciones se pueden tomar. Tampoco saben qué ideas son triviales versus interesantes. Así que realmente no tiene sentido enviarlos a una persecución salvaje.

La “solución del problema equivocado” es generalizada en parte porque la ciencia de datos no está suficientemente involucrada en el proceso de decisión (gracias a Meta por pedirme que aclare). Ahora, no TODOS los científicos de datos pueden y deberían poder resolver el problema, así como la solución (volviendo al problema del unicornio), pero al menos un científico de datos del equipo debería hacerlo. Sin embargo, el problema más grande no es la falta de capacidad / voluntad del lado de la ciencia de datos (aunque de hecho hay muchos a quienes les gusta resolver un problema lindo, sin importar cuán relevante sea), sino a menudo una cultura corporativa donde el análisis, la TI, etc. considerado una función de “ejecución”. La gerencia decide lo que se necesita y todos los demás van y lo hacen.

A nivel individual y un problema dado (que vale la pena), culparía a la falta de comprensión de datos, intuición de datos y, finalmente, escepticismo como los factores más limitantes para la eficiencia. Lo que hace que estos factores contribuyan a la ineficiencia NO es que lleve más tiempo llegar a una respuesta (de hecho, la falta de los tres generalmente conduce a resultados mucho más rápidamente) sino más bien cuánto tiempo lleva una respuesta (casi) correcta.

La lista es larga, pero la primera incluye una amplitud de datos limitada, baja calidad de datos y falta de experiencia en el tema.

Un estudiante de B + después de un curso de estadísticas básicas con un conjunto de datos de alta calidad, variables altamente predictivas, construirá modelos que superen a un científico de datos de clase mundial que tiene un conjunto de datos limitado que tiene muy pocas variables predictivas de calidad.

Las limitaciones en la combinación de fuentes de datos dispares en un punto de vista uniforme dan como resultado una pérdida considerable de tiempo tratando de conectar las “tuberías”.

La mala calidad de los datos es parte del juego. La preparación de datos es absolutamente necesaria y puede proporcionar información sobre los problemas con las propias fuentes de datos, pero si tiene que pasar la mayor parte de su tiempo limpiando sus datos, su tiempo se está gastando mal (considero que el 80% es demasiado tiempo para gastar preparación del conjunto de datos).

Mi mayor preocupación es la falta de experiencia en el tema que resulta en la creación de modelos ineficientes. Si el tema es nuevo para usted y no está familiarizado con lo que ya se sabe, tómese un tiempo para leer y / o hablar con personas que han trabajado en el área. No se meta primero en el conjunto de datos disponible, suponiendo que sus excelentes algoritmos resuelvan el problema.

Por ejemplo, el mayor impulso que tuve en un modelo predictivo de fraude se realizó al pasar un tiempo con los propios investigadores. Observé su comportamiento y los elementos clave que buscaron en una investigación. Hablaron conmigo sobre sus observaciones, los patrones que buscan y lo que creen que no se ha explorado en los modelos actuales. Esto me llevó a combinar dos fuentes de datos que ninguno de los modeladores había considerado combinar antes. Sí, apliqué algunas buenas técnicas de modelado al trabajo, pero la idea clave provino de las personas que habían vivido y respirado este trabajo durante décadas, pero nunca antes alguien con experiencia en ciencia de datos trabajó estrechamente con ellos.

Bueno, estoy de acuerdo aquí con Claudia Perlich, en que la preparación de datos y la gestión de la calidad de los datos son los grandes desafíos en estos días. Incluso en el futuro y con las herramientas de análisis de datos más innovadoras disponibles, los científicos de datos dedicarán una buena cantidad de tiempo a la preparación de datos. Por cierto, los datos de baja calidad son la causa principal del fracaso de muchas iniciativas de datos y tecnología, lo que representa una pérdida anual estimada de $ 600 mil millones de dólares para las empresas estadounidenses.

Sin embargo, creo que una buena estrategia de gestión de calidad de datos corporativos (DQM) puede ayudar mucho aquí a disminuir la cantidad de tiempo que los científicos de datos dedican a la preparación de datos. Implementar en compañías más grandes un gerente de programa DQM tiene sentido.

Puedo recomendar leer esta publicación de blog sobre la gestión moderna de la calidad de los datos:

http://www.datapine.com/blog/dat

Le brinda una excelente visión general sobre:

a) los costos de mala calidad de datos

b) los beneficios de los datos con integridad

c) los cinco pilares de la gestión eficaz de la calidad de los datos

d) cómo medir la calidad de los datos

e) las 3 principales fuentes de error de datos

El exceso de enfoque en la enseñanza de las habilidades TÉCNICAS mientras se descuida el conocimiento del dominio. Como señaló Claudia, hacer la pregunta correcta es un gran problema, y ​​capacitar a los científicos de datos como programadores estadísticos descuida por completo las habilidades necesarias para hacerlo.

El corolario es enseñar a los expertos en dominios que solo uno de esos “científicos de datos” puede hacer este tipo de proyectos. Los expertos en dominios necesitan aprender suficiente conocimiento y terminología de la ciencia de datos para comunicarse con los técnicos que los títulos de maestría y bootcamps están produciendo. En cambio, nuestro uso de la jerga y el énfasis en las cosas que los asustan (código, matemáticas) hace que se escapen.

Hacemos un mal trabajo al explicar lo que hacemos, haciendo que parezca misterioso e imposible. Pero un producto de calidad requiere AMBOS grupos: los expertos en el dominio Y las habilidades técnicas. Si no podemos crear más unicornios, al menos tenemos que trabajar para mejorar la comunicación y la comprensión entre los dos grupos para que los proyectos resuelvan los problemas CORRECTOS.

Los trabajos de Data Scientist han aumentado en los últimos tiempos. Ha habido un aumento óptimo en su demanda. Esto se remonta al hecho de que cada vez más empresas utilizan sus datos. Están comenzando a explotar sus datos para maximizar.

Y a pesar de todo esto, a medida que Data Science Jobs se está volviendo cada vez más lucrativo, con excelentes paquetes de pago y lleno de oportunidades, también existen ciertas ineficiencias que también deben tenerse en cuenta.

Primero, los trabajos de Data Science implican largas horas de trabajo duro. Además, no se puede garantizar resultados significativos incluso después de largas horas de arduo trabajo.

En segundo lugar, aunque se han desarrollado varias herramientas y técnicas en este campo, todavía están en sus etapas iniciales.

Finalmente, los trabajos de Data Science deben ser asumidos por personas solo si tienen la mentalidad adecuada. De lo contrario, podrían terminar aburriéndose. Al igual que en todos los demás sectores, también existen ineficiencias en los trabajos de Data Science. Sin embargo, es el interés personal de un individuo en el campo lo que lo mantiene activo todo el tiempo a pesar de los obstáculos.

Yo trabajo para COSO IT . Somos consultores y formadores de Data Science, Big Data, Inteligencia Artificial, Aprendizaje automático y análisis . Después de trabajar con varios proyectos en varias tecnologías más recientes , también compartimos nuestro conocimiento a través de la capacitación en varias tecnologías más recientes. Nuestra capacitación es casi en tiempo real con desafíos reales que enfrentamos mientras trabajamos en el proyecto.

¡La mejor de las suertes!

Mi voto va al cerebro humano, evolucionado en el entorno ancestral con desafíos bastante diferentes a los que enfrenta un científico de datos: Lista de sesgos cognitivos.

Diría que toneladas de datos que carecen de diversidad, con la falta de diversidad, hacen que las tendencias atípicas sean difíciles de detectar e identificar.

Cuando se trata de datos, los mendigos no eligen y, como mendigos, no podemos elegir los datos con los que trabajamos.

La investigación científica es costosa. Dada la escasez de fondos de investigación, demasiados científicos se ven influenciados de manera inadecuada por aquellos proyectos para los cuales obtuvieron fondos.

Hay una salida a esta situación: la ciencia ciudadana. Un estudiante de secundaria dedicado que presta atención a las instrucciones es mucho más efectivo que un lavador de tubos de ensayo profesional que no le importa una mierda.

Los mayores opositores de la comunidad científica son los jodidos luditas que viven en la comodidad posible gracias a los descubrimientos de la comunidad científica y, sin embargo, hacen todo lo posible para interferir con el proceso de descubrimiento.

Necesitamos más iniciativas de datos abiertos, especialmente del gobierno. Necesitamos ciencia ciudadana: el lobby de armas ha hecho todo lo posible para garantizar que no se realice la investigación de control de armas. El lobby de las armas no puede detener la ciencia ciudadana.