¿Los datos se están volviendo más valiosos que un software?

Los científicos de datos aprenden sobre datos. No aprenden sobre lo grande. Muchos no aprenden sobre el desarrollo, Dios no quiera diseñar software.

Mi experiencia es en (uno de) los mayores campos no comerciales de análisis de datos: LHC y su red informática. Odio explotar una burbuja, pero no confiaría en que la mayoría de nuestra gente maneje más de un servidor a la vez. Estamos capacitados para encontrar respuestas a problemas, no para formular estas respuestas de manera eficiente. Especialmente no de manera distribuida, concurrente, asíncrona, masivamente paralela.

La fracción más grande de ingenieros de datos se las arregla porque no tienen que escalar. No tienen que escalar porque hay algunos desarrolladores competentes que hacen las tareas. Si alguien le da el mapa, reduce la cuadrícula, los recursos de la nube asignados dinámicamente y todas las herramientas y marcos, debe ser un imbécil para desordenar.

Pero debido a que muchos ingenieros de datos funcionan bien, piensan que están calificados para escalar. No lo son, pero su punto de vista es demasiado limitado para darse cuenta. Piensan que los datos son más importantes que el software , sin darse cuenta de que el diseño del software está muy relacionado con la coincidencia de estructuras de datos y algoritmos. Piensan que los datos son más importantes que el software , negando la necesidad de aprender sobre el diseño de software. Piensan que los datos son más importantes que el software , ignorando todo lo que no son datos.

En resumen, son el tipo de personas que se preguntan por qué las cosas se rompen después de enviar miles de trabajos detrás de NAT, cada trabajo usando rsync a una sola máquina que tiene un montaje WAN NFS para almacenamiento en la red. Debido a que no pudieron ser evaluados para acceder a él utilizando un protocolo estándar. Y su prueba local de 10 funcionó bien.

¿Los datos se están volviendo más valiosos que un software?

No. Los datos se están convirtiendo en software.

Después del desarrollo de la aplicación de software … los datos entran en escena … ¿alguna vez has imaginado … por qué se requiere el desarrollo de la aplicación? para facilitar la inserción / visualización / actualización de datos, etc. para que el usuario pueda verlo cambiarlo. Luego, después de la era del desarrollo de la aplicación, ahora se ha iniciado la era de los datos … cómo puede almacenarlo … recuperarlo, etc. Se desarrollaron varias herramientas de gestión de datos y bases de datos por la misma razón. Ahora los datos son el nuevo aceite para todas y cada una de las empresas. Cada organización tiene petabytes de datos … pero cómo procesar esa enorme cantidad de datos con las herramientas tradicionales se convierte en un desafío para las organizaciones, por lo que el nuevo marco de procesamiento y almacenamiento y análisis de la nueva era y se desarrollaron herramientas … por ejemplo, Hadoop (MapReduce / HDFS), Sqoop, Spark, Hive, Pig, Ozie, ZooKeeper, etc.

Para análisis avanzados: implementaciones de algoritmos de aprendizaje automático … Mahout, R, etc.

Para ser breve: no. Esto se debe a que los datos a menudo no son más que un montón de información no relacionada sin algún tipo de software analítico. Sin embargo, diría que los datos se han vuelto tan valiosos como el software, ya que muchos tipos de software, como la inteligencia empresarial, no son nada sin datos de calidad.

Otro ejemplo de esto es una plataforma de datos del cliente, o CDP. Los CDP recopilan datos de múltiples canales y los analizan para ayudar a mejorar la automatización del marketing. Su comercialización no va a mejorar mucho con una gran base de datos de información sin el análisis adecuado. Pero, por otro lado, su comercialización tampoco mejorará con un CDP que incluya una base de datos vacía.

¡Espero que esto ayude!

Los datos masivos se están convirtiendo en un producto valioso, eso es cierto.

Sin embargo, vale la pena señalar que el campo que mejor sabe cómo manejar la escala es la informática, que es el dominio de los ingenieros de software. En mi opinión parcial, todas estas posiciones que mencionas están en cierta medida perjudicadas por la falta de ingenieros de software que sepan cómo escribir aplicaciones de datos escalables.

La demanda de escala de manejo también permite una mayor variedad de casos de uso y aplicaciones que requieren giros inteligentes en las soluciones a los problemas basadas en la informática.

Nunca ha sido un momento más emocionante para ser ingeniero de software ni más oportunidades para ser innovador … es decir, si uno hace de la informática una base.