La ciencia de los datos no se trata de rigor matemático o de enfoques de análisis reduccionistas profundos. De hecho, aquellos que se centran en tales cosas a menudo son científicos de datos pobres. Esto se debe a que Data Science se trata de crear productos del mundo real que aprovechan el poder del aprendizaje automático para producir los resultados predictivos y explicativos necesarios para impulsar la innovación. El aprendizaje automático que funciona en el “mundo real” no son los algoritmos que exprimen un 1% adicional de precisión predictiva de los datos, o superan a los humanos en los juegos y reconocen cuándo los perros se ríen. El aprendizaje automático del mundo real consiste en incorporar el desarrollo de software y la experiencia de dominio en el flujo de trabajo del aprendizaje automático para convertir datos empresariales imperfectos en un producto que se adapte a su entorno. Se trata de saber cómo obtener su sofisticación a través de la iteración en lugar del diseño inicial y la elegancia matemática.
Escribir ecuaciones en la pizarra o sumergirse sin cesar en revistas académicas es casi siempre un síntoma de poca “conciencia de paquete”, lo que significa que no tiene una comprensión sólida de las herramientas de código abierto necesarias para crear productos de aprendizaje automático. Sin esta educación en herramientas, sus esfuerzos de pizarra están casi garantizados para reinventar la rueda. Hay más de medio siglo de investigación de aprendizaje automático detrás de nosotros, y una gran cantidad de algoritmos y técnicas de validación disponibles a través de herramientas de alto nivel. La ciencia de datos no está perjudicada por la falta de algoritmos. Los grandes científicos de datos no están resolviendo ecuaciones, están utilizando una comprensión conceptual de las matemáticas y los supuestos de sus algoritmos para resolver problemas altamente complejos, no ideales (es decir, no académicos); los que suceden fuera de las torres de marfil idealizadas.
Tienes que entender que la idea de la sociedad de “inteligente” proviene de la revolución industrial, donde las reglas codificadas, el pensamiento matemático y la adhesión a la lógica es lo que ayudó al esfuerzo de guerra. Todas las máquinas hasta ahora dependían de una lógica estricta basada en reglas para producir su comportamiento. Este ya no es el mundo en el que estás . Las máquinas que estamos construyendo tienen su comportamiento emergente de modelos que entienden su entorno a través de los datos. En otras palabras, los humanos no son los que escriben programas de computadora, sino las máquinas. Si te enfocas en reglas y lógica estricta, serás un pobre sustituto de lo que la máquina puede hacer por sí misma. Esta es la era de la información, y las habilidades que necesitamos se ven muy diferentes a las que dominaban en el pasado.
- ¿Qué le pasó a la Academia Zipfian?
- ¿Por qué tantas empresas nuevas en Singapur buscan un científico de datos?
- ¿Cuál es la mejor manera de prepararse para un trabajo como científico de datos a tiempo completo?
- ¿Cómo puede alguien sin experiencia en análisis de datos construir su cartera y reanudar para solicitar un puesto de analista de datos / científico?
- ¿Por qué SAS es insuficiente para convertirme en científico de datos? ¿Por qué necesito aprender Python o R?
Como científico de datos, se espera que usted sepa cómo entrenar computadoras, no programarlas o dotarlas de las llamadas matemáticas sofisticadas. Los científicos de datos con una gran cantidad de “habilidades duras” pero con poca habilidad blanda no logran desempeñarse en el trabajo. Lo he visto muchas veces. La sofisticación que brindan nuestros productos se logra al enfrentar problemas desde muchos ángulos e iterar rápidamente en el flujo de trabajo de aprendizaje automático en concierto con el resto del producto. Esto es 100% imposible si te estás sumergiendo en las matemáticas e ignorando las herramientas de alto nivel que ofrece una increíble comunidad de profesionales del aprendizaje automático. El uso de las bibliotecas de aprendizaje automático es cómo te alejas del enfoque académico ingenuo (diseño inicial) y hacia el descubrimiento más realista que ocurre cuando se intentan múltiples algoritmos rápidamente; donde los datos conducen a la resolución del problema, no la suposición “inteligente” de alguien sobre qué técnica se debe utilizar.
Data Science ha sufrido el frenesí de los medios en torno a los logros que atraen la atención de grandes empresas y departamentos de investigación. Si bien estas hazañas son emocionantes desde un punto de vista académico, tienen poco que ver con el aprendizaje automático del mundo real donde se están construyendo los productos. La industria no necesita una variedad académica de habilidades duras y mejores prácticas de ingeniería obsoletas. Necesitamos de aquellos que puedan adoptar un enfoque más suave y menos ingenuo para comprender los requisitos humanos. Aquellos que pueden superar las malas hierbas técnicas y aprender a trabajar con máquinas, equilibrando la capacidad de la computadora para escribir programas con nuestra capacidad de comprender la estrategia y el valor.
El mundo está a punto de volverse muy diferente y la palabra “inteligente” está a punto de ser redefinida. Las habilidades más suaves y la capacidad de entrenar máquinas como conductistas es la gran habilidad de hoy. Si le encanta este campo, quédese con él y sepa que su confianza en las bibliotecas preempaquetadas de código abierto es la forma inteligente de hacerlo.