¿Qué parte de su trabajo odian más los analistas de datos y los científicos de datos?

Que yo sepa,

RECOPILACIÓN DE DATOS !! & LIMPIEZA DE DATOS !! – Me encanta odiar estos.

Cuál es una parte crítica del análisis. Si sus datos no están limpios o no están en un formato que se pueda usar para aplicar diferentes técnicas usando diferentes herramientas, debe sentarse y mirar cada variable y verificar los datos y hacerlos utilizables. Esto es a veces un trabajo manual que lleva tiempo llevar a Job, sin embargo, un paso que no se puede ignorar.

¡ UN PROBLEMA MÁS GRANDE es DEFINIR EL PROBLEMA!

¡Si eres bueno para definir la pregunta correcta! Entonces, estás a mitad de camino para dominar al compañero de habilidad.

(¡La capacidad de hacer la PREGUNTA CORRECTA es más de la mitad de la batalla para encontrar la RESPUESTA! – Thomas. J. Watson)

(Descargo de responsabilidad: mis respuestas se limitan a mi conocimiento de ciencia de datos. Se pueden agregar muchas respuestas a esta pregunta. Como el 90% del tiempo, los científicos de datos dedican su tiempo a enfrentar problemas que SOLUCIONAR problemas).

Sin dudas, limpieza y validación de datos.

En mi primer trabajo tuvimos que pasar horas y horas solo para limpiar los datos y realizar validaciones comerciales básicas. por ejemplo, la cartera del Banco consta de diferentes columnas que hablan sobre género, tipo de negocio, tipo de préstamo o edad de ocupación. Aunque consideramos diferentes posibilidades, pero a veces no tiene el menor sentido comercial, ¿qué haces entonces? revise la observación histórica y, lo más importante, reemplace esos valores que tienen algún tipo de sentido comercial o en línea con la cartera.

En empresas más grandes (en algunos casos, empresas más pequeñas / medianas también), esperando durante semanas para obtener “acceso” a los datos: he estado en situaciones en las que he esperado más de 4 semanas después de obtener las aprobaciones / papeleo para obtener acceso a un conjunto de datos que se rige por un equipo / unidad de negocio diferente. Entiendo por qué necesita procesos relacionados con el acceso a los datos, especialmente si los datos son confidenciales, ¡pero no es divertido esperar mucho por eso!

Recopilación de datos, limpieza de datos, preparación de datos.

Puede tomar hasta 80% -90% del tiempo y estar totalmente fuera de su control. Sin embargo, es una parte crítica del proceso. Recuerda que la basura entra, la basura sale .