¿Cuáles son algunos algoritmos avanzados que usan los científicos de datos para limpiar y dar sentido a los datos?

Bueno, esta es la pregunta que todos hicieron y por qué no este proceso (limpieza de datos) toma casi el 80% de todo el proyecto de ciencia de datos.

Así que ahora pasaré por mis experiencias.

  1. No hay algo predefinido para la limpieza de datos. Moslty depende de su intuición y su experiencia con datos anteriores. (Para esto sugeriría hacer una o dos compilaciones de kaggle).
  2. De alguna manera cruda, uno puede limpiar fácilmente los datos y completar los valores faltantes, como si cualquiera de las dos características en un multieje de datos dependiera colinealmente y luego la regresión lineal se puede usar para completar los datos faltantes (nuevamente aquí la intuición entrará en juego significa que debe verificar relación lineal entre características).
  3. Algunas veces, la limpieza de datos también se creó para crear nuevas funciones, como la función desactualizada que se puede crear entre semana, días, mes, año, etc. (Intuición y exp nuevamente aquí)
  4. Con el tamaño de datos actual (aquí lo que quise decir con tamaño es columnas / características en el multiset de datos) secnario uno necesita reducir el tamaño de datos y encontrar los importantes. Ahora, para esto, puede usar PCA o puede ir con un experto en el dominio que variables (características) son importantes.
  5. La limpieza de datos también depende de qué tipo de problema está resolviendo, como el problema de detección de fraude, en el que las personas generalmente recurrirán a técnicas de detección atípicas y luego etiquetarán esos puntos con la etiqueta requerida y luego realizarán el análisis.

Bueno, estas cosas son más bien cosas de prueba y éxito que tienes que hacer de una manera y luego validar si no funcionan, hacerlo de otra manera y luego validar de nuevo y esto continúa hasta que obtengas el resultado requerido.

Los puntos anteriores son algunos de los procedimientos más utilizados para limpiar datos. Algunas personas llaman a la limpieza de datos como una magia oscura de la ciencia de datos, por lo que si un científico de datos domina esta magia oscura, entonces él / ella puede impresionar a cualquiera con los resultados, pero como se dijo, no hay atajos ni algoritmos predefinidos para esto, tiene que actuar. y practicar y practicar.

More Interesting

¿Dónde puedo encontrar mi primer trabajo como científico de datos con Python?

¿Qué tiene de difícil ser un científico de datos?

¿La experiencia laboral en PHP te ayudará cuando realices una maestría en ciencia de datos o aprendizaje automático?

Tengo 45 años, no tengo un título técnico, pero he tomado algunas clases de informática. Comenzaría con una pizarra en blanco, pero estoy dispuesto a volver a la escuela. ¿Hay trabajos de nivel de entrada para alguien como yo? ¿Soy demasiado viejo para convertirme en científico de datos?

¿Cuál es el papel de un científico de datos en una industria?

¿El trabajo de un asociado de tecnología de negocios de zs asociado está relacionado con la ciencia de datos?

A pesar del gran éxito de la ciencia de datos en diferentes campos, ¿por qué no hay muchos trabajos / nuevas empresas de ciencia de datos en el campo del petróleo y el gas?

¿Qué es la ciencia de datos, y su alcance y trabajos?

¿Qué se requiere para ser un científico de datos en India?

¿Es el mejor camino para convertirse en un ingeniero de ML / Data Scientist para enfocarse en convertirse primero en un desarrollador de software (para alguien sin experiencia en estadísticas o programación)?

¿Puedo convertirme en analista de datos después de convertirme en CPA?

¿Cuáles son las habilidades necesarias para convertirse en un buen científico de datos? ¿Qué cursos debe dominar uno?

Estoy haciendo un doctorado en aprendizaje automático. ¿Podría ser considerado como un científico de datos después?

¿Qué maestría sería la mejor para un aspirante a científico de datos?

¿Qué tan bueno tienes que ser en matemáticas para ser un buen científico de datos?