¿Las nuevas tecnologías ya están matando a los científicos de datos?

Sí, lo estás leyendo mal. Del artículo:

Amazon Machine Learning se basa en la misma tecnología ML probada y altamente escalable utilizada durante años por la comunidad interna de científicos de datos de Amazon.

Amazon mismo admite que esto no es más que una herramienta para ser utilizada por los científicos de datos, no para reemplazarlos.

Los científicos de datos deben comunicar los resultados a los CxO

Y mientras cito, aquí hay una opción de un destacado líder intelectual que incluí en un documento que escribí recientemente:

“En pocas palabras, no se puede hacer mucho con Big Data sin científicos de datos. Son los magos que transforman una masa incipiente de trozos en un tema adecuado para el análisis. Dios pudo haber sido el primero en producir orden a partir del caos, pero los científicos de datos también lo hacen, ciertamente en menor escala. Pueden extraer datos de un registro del servidor, un archivo de facturación de telecomunicaciones o el alternador de una locomotora y descubrir qué diablos está pasando con eso. Crean nuevos productos y servicios para clientes. También pueden interactuar con formas de vida basadas en el carbono: altos ejecutivos, gerentes de producto, CTO y CIO. Los necesitas.”

– Tom Davenport (catalogado como uno de los “10 mejores maestros de la nueva economía” por la revista CIO), Harvard Business Review Blog Network, 26 de septiembre de 2012

Los científicos de datos no se irán pronto

La ciencia de datos ya es lo suficientemente difícil para los humanos porque es muy complicada y requiere experiencia y una buena “percepción” de los datos. Es poco probable que una máquina pueda replicar eso pronto. Estoy observando de cerca el espacio del “científico de datos automatizado” porque personalmente estoy interesado en lo que están haciendo. Pero hasta ahora lo que he visto son herramientas para ser utilizadas por los científicos de datos, no para reemplazarlas. Y cualquier cosa que pueda facilitar la vida de un científico de datos es bienvenida por mí.

En breve…

No, no estás perdiendo el tiempo. Sigue adelante. La necesidad de científicos de datos va a explotar. Estoy entrevistando en este momento y muchas empresas están comenzando a construir su infraestructura. “Si estuviéramos hablando dentro de unos meses, estaríamos teniendo una conversación muy diferente”, me dijo un CEO recientemente, “Pero la verdad es que no estamos listos para ti en este momento”.

Observe los números de contratación del científico de datos. Este es el año en que va a explotar.

No hiperventilar. Estos servicios que reemplazan a los científicos de datos serían como calculadoras que reemplazan a los estadísticos.

Estas herramientas permiten a los científicos de datos ser más productivos. No los reemplazan. Incluso con ellos, hay mucho trabajo por hacer para descubrir qué problemas resolver, encontrar los datos correctos, limpiarlos, características de ingeniería, … a través de la implementación de una máquina de producción.

Es lo mismo que decir que vendrán muchas computadoras nuevas y todos los trabajos desaparecerán 🙂

Las máquinas no pueden reemplazar a los humanos, las herramientas de ML como las anteriores pueden funcionar con un conjunto definido de algoritmos, su toque humano que se agrega para diferenciar entre el ganador en Kaggle, da el hecho de que todos los competidores usan herramientas del conjunto estándar (R, scikit-learn, etc.)

Con Amazon entrando en ML como modelo de servicio, tenemos una nueva opción para elegir (BigML, Wise.io, etc.), y una opción que es barata y la gente ya se siente cómoda de usar. Muchas compañías ya tienen datos en AWS y no estarán felices de probar ML como servicio y Visualization como servicio.

Los humanos seguirán siendo humanos, es una mejora continua que hacemos en conjunto de cosas que funcionan mejor para nosotros. Así que manténgase enfocado en sus Maestros si ya está inscrito en 🙂

Veo herramientas de aprendizaje automático de Amazon y una miríada de nuevas empresas más pequeñas que comienzan a inundar el mercado. Sin embargo, no veo estas herramientas como reemplazos para la ciencia de datos. Un gran científico de datos se sienta en la intersección tripartita de la matemática, la programación y la experiencia en el dominio en el área del sujeto de datos. Estas herramientas pueden ayudar a simplificar las dos primeras, pero no la tercera.

Esto es similar al aumento de SQL que genera BI empresarial a finales de los 90. Esas herramientas que reemplazaron las consultas manuales para los trabajadores de datos y las hicieron más eficientes y moldearon sus conjuntos de habilidades de una manera diferente, no las desplazaron.