La ciencia de datos es una de esas fases de negocio que surgen de vez en cuando. En la práctica, muchas empresas emplean monos de datos que escriben SQL solo para la extracción de datos y los llaman científicos de datos.
Si tuviera que generalizar, diría que la ciencia de datos tiende a enfatizar la convergencia y la velocidad en lugar de la inferencia significativa y el buen diseño experimental. Es una vista muy unidimensional.
Considere que hay tres razones por las cuales podríamos construir un modelo:
- Estoy en datawarehouse y perfil ETL. Quiero convertirme en científico de datos. ¿Cómo puedo cambiar el perfil?
- ¿Alguien puede ilustrar los seis algoritmos (con diagramas de flujo si es posible) que un científico de datos debe saber?
- ¿Necesito una computadora bastante poderosa para analizar grandes conjuntos de datos si tengo la intención de establecer un negocio de consultoría como científico de datos y experto en Tableau? ¿Sería suficiente una MacBook Air o similar?
- ¿Qué piensan los científicos de datos experimentados sobre 'El proceso de ciencia de datos' descrito en Harvard CS 109 (2013) (ver imagen)?
- ¿Cómo resolvería un científico de datos este problema comercial?
- Predicción
- Explicación
- Evaluación de la hipótesis.
No todos son fácilmente compatibles entre sí. Una vez más, la ciencia de datos generalizada tiende a centrarse en el primero de estos e ignorar a los demás. Esto puede ser problemático si tiene que vender un modelo a las partes interesadas que le preguntan por qué funciona o si una característica en particular es importante.
Entonces, deseo que las personas que se llaman a sí mismas científicos de datos realmente conozcan el bit de la ciencia, especialmente la ciencia estadística.