Como científico de datos, ¿qué desafíos tiene que enfrentar todos los días?

No practico la ciencia de datos a diario (es más una habilidad adicional en este momento), por lo que otros pueden tener respuestas más sabias … pero cuando lo hago, la mayor frustración que tengo es obtener buenos datos. A menudo, mi tarea implica el descubrimiento de variables particularmente importantes cuando se trata de cierto tipo de problema, para que esos problemas puedan resolverse. Personalmente, he estado tratando de recopilar datos, por ejemplo, sobre accidentes automovilísticos en un esfuerzo por determinar si el tipo de vehículos involucrados es o no un factor importante. En mi caso, no todos los estados recopilan suficientes datos, mientras que algunos se niegan a divulgarlos, e incluso cuando lo hacen, y son los mismos datos, hay poca o ninguna estandarización sobre cómo esos datos se etiquetan, almacenan, codifican, etc. puede ser una pesadilla ponerlos a todos en el mismo formato y no tener brechas gigantescas que podrían sesgar los resultados para que sean completamente erróneos. Otro tema de importancia nacional sería sobre la violencia armada … y la NRA ha presionado mucho para evitar el estudio de la violencia armada. Entonces, nuevamente, la FALTA de datos significa que no podemos hacer un análisis bueno o significativo y descubrir cuál es la verdad del asunto.

Entonces, TL; DR: Mi mayor motivo favorito es no tener acceso a buenos datos.

Gracias A2A

  1. Uno de los mayores desafíos que enfrentará en la ciencia de datos se refiere a la calidad de sus datos. Como científico de datos, esa es una de mis mayores preocupaciones cuando se trata de datos. La buena calidad de los datos es una gran parte de la precisión / garantía de calidad de su análisis.
  2. Suponiendo que tiene la suerte de obtener una calidad buena / aceptable de sus datos, otro desafío que enfrentará es qué herramientas de análisis y qué algoritmos debe usar. Eso es muy desafiante.
  3. Asumiendo que hiciste un gran análisis usando una gran información. Lo MÁS importante es cómo puede convertir su análisis en información procesable.
    Es posible que a su cliente no le importe la complejidad de su análisis. No les importa si usó la red neuronal o la regresión lineal para analizar los datos. Lo más importante para sus clientes es cómo sus ideas son útiles para tomar decisiones.

Estos son uno de los principales desafíos que creo que muchos científicos de datos enfrentarían durante su trabajo. Espero que ayude.