El ciclo de retroalimentación de trabajar con grandes conjuntos de datos es increíblemente lento .
He trabajado ahora en diseño, ingeniería y ciencia de datos. Sinceramente, me encantan los tres, posiblemente los datos más, pero he gravitado hacia el diseño por la siguiente razón.
Con el diseño , la respuesta suele ser instantánea, ya sea que esté jugando con CSS en el inspector de cromo, dibujando con lápiz sobre papel o dibujando cuadros en Sketch o Photoshop. En todos esos casos, tiene una conexión casi inmediata con su trabajo. Piensas en algo, tomas una herramienta e inmediatamente ves el efecto.
- ¿Analista de datos o curso de licenciatura en ciencia de datos para profesionales que trabajan en Delhi NCR?
- ¿Cómo es ser un programador SAS?
- Quiero ser un científico de datos. ¿Qué empresas tienen la mejor reputación?
- El sistema educativo para científicos, ingenieros es todavía bastante tradicional. ¿Qué aprenderé yo como científico específicamente para convertirme en emprendedor?
- Cómo realizar prácticas como científico de datos en startups
En ingeniería , no es tan bueno pero tampoco tan malo. Depende de tu caja de herramientas. Hay muchas cosas que puede hacer al instante, utilizando un shell interactivo o depurador. Pero luego tiene que escribir bloques de código más grandes, o peor, su trabajo implica actualizar un navegador web.
Ahora hay aproximadamente 5 segundos entre que pones tu idea en código y veas si funciona. Esto es realmente un gran problema, porque reduce enormemente tu capacidad de jugar , hacer pequeños cambios y ver sus efectos.
En su charla Inventing on Principle, Bret Victor hace un gran negocio acerca de cómo los creadores necesitan una conexión instantánea con su trabajo. Aquí hay un extracto de ese video que muestra cuánto una conexión instantánea puede potenciar la construcción de un excelente software:
Mire el video si no lo ha hecho, en serio, es uno de los 100 segundos más asombrosos de programación en un video de YouTube.
Data Science tiene el mismo problema que la ingeniería, pero amplificó otro orden de magnitud.
Como campo, hemos valorado hacer el trabajo antes que hacerlo instantáneamente. Esto tiene mucho sentido comercial, porque es razonablemente difícil crear sistemas distribuidos de latencia ultra baja para manejar conjuntos de datos gigantes, y solo estamos dando pequeños pasos al problema.
Recuerdo ejecutar consultas de Hive que tardaron 20 segundos en cargar Hadoop, antes de que el motor de ejecución de consultas verificara si mi consulta era sintácticamente correcta. Los resultados tardaron minutos en volver.
Esto cambia fundamentalmente su forma de pensar, ya que solo tiene una inyección cada 20 segundos más o menos, su cerebro automáticamente se vuelve mucho más conservador en la exploración y hay dimensiones enteras en las que elige no explorar porque no puede interactuar.
A veces, si no estaba seguro de una clave en una combinación, activaba 2-3 consultas ligeramente modificadas y esperaba que una de ellas volviera correctamente, porque estos sistemas están muy optimizados para el rendimiento sobre la latencia.
Cosas como Presto y Redshift han mejorado enormemente la velocidad, hasta el punto de que trabajar con un subconjunto muestreado de un gran conjunto de datos es del orden de 5-10 segundos, un código de cambio similar y una actualización de una aplicación web, pero aún no es instantánea. Pero esa sed de velocidad ha demostrado que se puede ganar dinero con baja latencia, gran procesamiento de datos, y otros están abordando el problema sin incluir empresas bien financiadas como Trifacta.
Agregue a esto que los científicos de datos generalmente provienen de un fondo matemático y están básicamente acostumbrados a escribir y procesar tan rápido como pueden pensar. Las matemáticas han construido un rico vocabulario de símbolos para expresar una amplia gama de ideas. Los informáticos aún no están allí.
Otras veces, estás limitado por el algoritmo con un cuello de botella y no hay nada que la infraestructura pueda hacer al respecto, pero mejoraremos en esto, lenta pero segura, luego mira hacia atrás y te preguntas por qué vivimos en la edad de piedra.
Estoy bastante entusiasmado con las velocidades casi instantáneas para la manipulación de grandes conjuntos de datos en el futuro cercano porque permitirá a los científicos de datos explorar mucho más un orden de magnitud más rápido.