Primero, permítanme decir lo que creo que NO es el problema: el hecho de que los científicos de datos pasan el 80% de su tiempo con la preparación de datos. Ese es su TRABAJO! Si no eres bueno en la preparación de datos, NO eres un buen científico de datos. No es un problema de conserje como Steve Lohr provocó. La validez de cualquier análisis se basa casi por completo en la preparación. El algoritmo que terminas usando es casi irrelevante. Quejarse sobre la preparación de datos es lo mismo que ser un agricultor y quejarse de tener que hacer otra cosa que cosechar y que alguien más se ocupe del riego molesto, la fertilización, el deshierbe, etc.
Dicho esto, la preparación de datos puede ser difícil por el proceso de recopilación de datos sin procesar. Diseñar un sistema que recolecte datos en una forma que sea útil y fácilmente digerible por la ciencia de datos es un gran arte. Proporcionar total transparencia a DS cómo exactamente fluyen los datos al sistema es otra. Implica procesos que consideran el muestreo, la anotación de datos, la coincidencia, etc. No incluye cosas como reemplazar el valor perdido y la normalización excesiva. La creación de un entorno de datos efectivo para DS debe involucrar a DS y no puede ser propiedad exclusiva de la ingeniería. DS a menudo NO puede especificar tales requisitos del sistema con suficiente detalle para permitir una transferencia limpia.
Pero en la imagen más grande, hay cosas más importantes a considerar. El problema más grande que veo es la ciencia de datos que resuelve problemas irrelevantes. Esta es una gran pérdida de tiempo y energía. Por lo general, la razón es que quien tiene el problema carece de la comprensión de la ciencia de datos para incluso expresar el problema y los científicos de datos terminan resolviendo lo que entendieron que podría ser el problema, creando una solución que no es realmente útil (y a menudo demasiado complicada) Una categoría típica son las tareas ‘poco definidas’: “¡Encuentre información procesable en este conjunto de datos!”. Bueno, la mayoría de los científicos de datos no saben qué acciones se pueden tomar. Tampoco saben qué ideas son triviales versus interesantes. Así que realmente no tiene sentido enviarlos a una persecución salvaje.
- ¿Qué hay de hacer una maestría en ciencia de datos versus trabajar en una multinacional en India? ¿Cómo varía el salario si quiero volver a la India versus un salario después de 2 años en una multinacional?
- Soy un científico de datos con 15 años de experiencia en el campo. Siempre clavo las estadísticas y la parte de aprendizaje automático de las entrevistas, pero fallo miserablemente con CS y preguntas de algoritmos. ¿Cuál es un buen punto de partida para ser decente?
- Como científico de datos, ¿te acaban de dar los datos? En caso afirmativo, ¿en qué formato se suele dar? Si no se le proporcionan los datos, ¿cómo los recupera? ¿Cuáles son sus primeros pasos cuando se adquieren los datos?
- ¿Cuál es el mejor curso de trabajo en línea preparado para un científico de datos?
- ¿Qué tan buenas son las perspectivas de carrera, después de hacer un MSC en Estadística del Reino Unido? ¿Volver a la India después del curso es la elección correcta?
La “solución del problema equivocado” es generalizada en parte porque la ciencia de datos no está suficientemente involucrada en el proceso de decisión (gracias a Meta por pedirme que aclare). Ahora, no TODOS los científicos de datos pueden y deberían poder resolver el problema, así como la solución (volviendo al problema del unicornio), pero al menos un científico de datos del equipo debería hacerlo. Sin embargo, el problema más grande no es la falta de capacidad / voluntad del lado de la ciencia de datos (aunque de hecho hay muchos a quienes les gusta resolver un problema lindo, sin importar cuán relevante sea), sino a menudo una cultura corporativa donde el análisis, la TI, etc. considerado una función de “ejecución”. La gerencia decide lo que se necesita y todos los demás van y lo hacen.
A nivel individual y un problema dado (que vale la pena), culparía a la falta de comprensión de datos, intuición de datos y, finalmente, escepticismo como los factores más limitantes para la eficiencia. Lo que hace que estos factores contribuyan a la ineficiencia NO es que lleve más tiempo llegar a una respuesta (de hecho, la falta de los tres generalmente conduce a resultados mucho más rápidamente) sino más bien cuánto tiempo lleva una respuesta (casi) correcta.