Bueno, esta es la pregunta que todos hicieron y por qué no este proceso (limpieza de datos) toma casi el 80% de todo el proyecto de ciencia de datos.
Así que ahora pasaré por mis experiencias.
- No hay algo predefinido para la limpieza de datos. Moslty depende de su intuición y su experiencia con datos anteriores. (Para esto sugeriría hacer una o dos compilaciones de kaggle).
- De alguna manera cruda, uno puede limpiar fácilmente los datos y completar los valores faltantes, como si cualquiera de las dos características en un multieje de datos dependiera colinealmente y luego la regresión lineal se puede usar para completar los datos faltantes (nuevamente aquí la intuición entrará en juego significa que debe verificar relación lineal entre características).
- Algunas veces, la limpieza de datos también se creó para crear nuevas funciones, como la función desactualizada que se puede crear entre semana, días, mes, año, etc. (Intuición y exp nuevamente aquí)
- Con el tamaño de datos actual (aquí lo que quise decir con tamaño es columnas / características en el multiset de datos) secnario uno necesita reducir el tamaño de datos y encontrar los importantes. Ahora, para esto, puede usar PCA o puede ir con un experto en el dominio que variables (características) son importantes.
- La limpieza de datos también depende de qué tipo de problema está resolviendo, como el problema de detección de fraude, en el que las personas generalmente recurrirán a técnicas de detección atípicas y luego etiquetarán esos puntos con la etiqueta requerida y luego realizarán el análisis.
Bueno, estas cosas son más bien cosas de prueba y éxito que tienes que hacer de una manera y luego validar si no funcionan, hacerlo de otra manera y luego validar de nuevo y esto continúa hasta que obtengas el resultado requerido.
- Cómo conseguir un trabajo de ciencia de datos en Python en India
- ¿Qué clases debo tomar si quiero ser un científico de datos?
- ¿Cuáles son los dominios más populares para las carreras de ciencia de datos?
- ¿Habrá algún aumento en los salarios de los ingenieros y científicos de Big Data?
- ¿Por qué tantos científicos de datos actuales suponen que los futuros estudiantes están en esto por el dinero?
Los puntos anteriores son algunos de los procedimientos más utilizados para limpiar datos. Algunas personas llaman a la limpieza de datos como una magia oscura de la ciencia de datos, por lo que si un científico de datos domina esta magia oscura, entonces él / ella puede impresionar a cualquiera con los resultados, pero como se dijo, no hay atajos ni algoritmos predefinidos para esto, tiene que actuar. y practicar y practicar.