¿Cuáles son algunas falacias comunes que todo científico de datos debe evitar? ¿Qué es un concepto socavado en ciencia de datos y para un científico de datos? ¿Dónde puedo encontrar recursos que me ayuden a descifrar una entrevista de ciencia de datos?

Me pregunto cuántas de las llamadas falacias son percepciones erróneas. Como ya señalaron algunos, pasará la mayor parte de su tiempo limpiando datos. Sin embargo, eso no es solo para ML. Es imprescindible en cualquier trabajo intensivo basado en datos.

Una regla general: el 90% de su tiempo lo pasará limpiando o manejando datos y solo el 10% haciendo lo que aprendió en libros, escuela, etc., por ejemplo, modelado, etc.

¿Por qué? Si piensas un poco más, te darás cuenta de que es de sentido común. Por ejemplo, suponga que recibe una muestra de una población y un conjunto de preguntas para responder. Primero debe verificar si los datos contienen lo que le han preguntado y si esa muestra representa las poblaciones, los valores faltantes, etc. Es una realidad con la que tiene que lidiar. Eso lleva tiempo, mucho tiempo. Debe conocer el tema relacionado con los datos. Es por eso que los empleadores quieren, por ejemplo, en relación con la atención médica, quieren personas con conocimiento de los datos de salud si es posible, y así sucesivamente. Cada dato tiene sus propios problemas, según el tema, etc.

Con respecto a la entrevista: Ummmm … si no tienes experiencia en un dato particular (salud, financiero, etc.) sobre el que te preguntarían, lo detectarán en el acto. Confía en mí, no mientas si no conoces esos datos. No hay ningún libro que pueda aprender sobre esos datos. Incluso las personas con experiencia que trabajan durante 30 años en el tema aprenden todos los días. Incluso he visto muchos trabajos publicados de revisión por pares de investigación con suposiciones erróneas con respecto a los datos, es decir, ni siquiera (todas) las personas en la academia conocen los detalles intrínsecos que se encuentran en los datos de un tema en particular. Es por eso que muchas personas tienen dificultades para cambiar de sucursal.

Buena suerte

Te puedo decir la mayor falacia en todo el aprendizaje automático.

Cuando obtenga un trabajo como ingeniero de aprendizaje automático o incluso como científico de datos, pasará todo su tiempo construyendo modelos geniales en Python.

No. No, no lo harás.

En realidad, pasarás todo tu tiempo limpiando datos. La razón por la que nadie te dice eso es porque los datos de limpieza son una mierda.

Para empeorar las cosas para los novatos, cuando consigas tu primer trabajo, no estarás construyendo modelos la mayor parte del tiempo, independientemente de la habilidad que creas que tienes.

Verás, como el chico de nivel superior necesitarás limpiar mis datos para ganar tu franja y así poder pasar tiempo construyendo modelos.

Siempre recomiendo que los estudiantes nuevos en el campo se sientan muy cómodos con las herramientas de limpieza de datos.

Si es nuevo en este espacio, consulte mi curso sobre aprendizaje automático para ingenieros de datos.

Una introducción al aprendizaje automático para ingenieros de datos