¿Cuáles son algunas cosas que debe saber como científico de datos pero que la mayoría descuida?

Recopilación de datos.

Uno de los mayores problemas en las estadísticas es descubrir cómo obtener datos que sean realmente representativos de la población en general y que no se contaminen de alguna manera que haga imposible responder la pregunta que le interesa. Los estadísticos hemos pasado mucho tiempo desarrollando métodos de muestreo y diseños experimentales que aborden estos problemas. Es probablemente nuestra contribución más valiosa a la disciplina de la ciencia de datos.

En cada curso introductorio de ciencia de datos que he visto, estos problemas se ignoran por completo más allá de una introducción superficial a las pruebas A / B. Las personas pasan mucho tiempo aprendiendo qué hacer con los datos que tienen, y nunca aprenden que la forma en que se recopilan esos datos puede hacer o deshacer su análisis. Simplemente no se considera tan importante como la regresión, aparentemente.

Debe saber que la solución más simple aplicable es casi siempre la mejor.

La mayoría de los científicos de datos descuidan esto, ya sea porque no se dan cuenta o porque no quieren darse cuenta.

Todos sabemos que desea mostrar su conocimiento detallado de las últimas tendencias de aprendizaje profundo, pero muchos problemas se resuelven mejor con soluciones vergonzosamente simples como una línea de regresión lineal o un buen panel de visualización.

Los científicos de datos tienen una tendencia a usar un mazo para romper una tuerca al implementar soluciones demasiado complicadas, pero eso no sirve de nada excepto agregar palabras elegantes al currículum del científico de datos.

Iba a agregar esto como un comentario a la fantástica respuesta de Justin Rising (+1), pero comenzó a ser demasiado largo:

Estadística. Las estadísticas se ignoran.

Mi predicción es que las estadísticas, y por extensión la recopilación de datos, volverán a estar de moda pronto. ML se abstraerá en gran medida en APIs agradables para la mayoría de las aplicaciones industriales, y el esfuerzo volverá a asegurarse de que los datos de capacitación en los que nos ajustamos a esos modelos ML se recopilen correctamente, que hayamos validado nuestros resultados de forma adecuada y se hayan tenido en cuenta estacionariedad, etc. O enfóquese en áreas fuera del aprendizaje automático, como simulación, inferencia bayesiana, modelado causal, métodos econométricos como SEM, etc.

En este momento hay tanta emoción en torno a ML, todo el foco está en todos los algoritmos geniales que podemos aplicar a los datos, una vez que ya los hemos recopilado (como señala Justin Rising).

More Interesting

¿Cuáles son los mejores programas de maestría en ciencias de datos?

¿Cómo puede alguien sin experiencia previa construir un buen currículum como científico de datos?

¿Cómo debo prepararme para programar preguntas en una entrevista de ciencia de datos?

¿Cómo debo comenzar a construir un clasificador de texto para adultos usando el aprendizaje automático?

Quiero trabajar como científico de datos y hacer del mundo un lugar mejor. Tengo un doctorado en ingeniería y estoy casi parcialmente calificado como contador público. ¿Qué podría hacer y dónde puedo encontrar trabajos interesantes?

¿Se inundará el mercado con demasiados científicos de datos en unos pocos años?

¿Usaría un científico de datos una plataforma automatizada de ciencia de datos?

Con las nuevas tecnologías y el aumento de Hadoop, ¿se volverán obsoletos los científicos de datos?

Como analista de datos, ¿qué pasos debo seguir para convertirme en científico de datos?

¿Cómo es ser un científico de datos en Dropbox?

¿Cómo comenzar una carrera en Machine Learning en India? ¿Cuáles son las perspectivas de ML en India? En qué OSS es mejor trabajar para obtener una buena experiencia en ML

¿Qué clases debo tomar si quiero ser un científico de datos?

¿Qué especialidad debería elegir si quiero ser un científico de datos?

Cómo convertirse en un científico de datos como ingeniero de almacenamiento de datos con habilidades matemáticas y estadísticas pobres

Siempre que busco solicitar un trabajo de científico de datos, todo lo que veo es una solicitud de un mínimo de 2 años de experiencia. ¿Qué pasa con los DS sin experiencia?