La Ingeniería de Datos en mi experiencia es solo un subconjunto de Ingeniería de Software, básicamente estás trabajando con muchos datos y es por eso que necesitas usar herramientas específicas y algoritmos específicos.
Como muchas cosas en la vida, solo se trata de practicar. Las herramientas actuales no son tan difíciles hoy en día, cualquiera con una comprensión básica de Java / Python y algo de experiencia en codificación puede codificar un trabajo de Hadoop con bastante facilidad en unos minutos. Entonces necesitarás tiempo para mejorar, por supuesto.
Por lo tanto, le sugiero que elija uno de los grandes marcos / herramientas (o como quiera llamarlos) y comience a codificar:
- Teniendo en cuenta el importante envejecimiento en la industria de la tecnología, ¿hay una gran cantidad de ingenieros de software talentosos de más de 30 años disponibles con salarios más bajos?
- ¿En qué debería especializarme, en ingeniería de software, para poder trabajar para Google?
- ¿Cuál es la escala profesional para los ingenieros de software?
- ¿Cómo es resolver la vida en Pune trabajando como ingeniero de software?
- ¿Cómo es ser ingeniero en BuzzFeed?
- Apache Spark
- Apache Hadoop
Hay otros, por supuesto, pero estos son los grandes hoy en día. Encontrarás muchos ejemplos en la web, libros y tutoriales.
Otra parte importante es la arquitectura, por lo tanto, mientras sus trabajos se ejecutan en su computadora portátil o en un conjunto de máquinas virtuales, eche un vistazo a las arquitecturas típicas de big data, eche un vistazo a las publicaciones de Facebook Engineering, Google y otras compañías de big data (toneladas de ellas hoy en día). Allí verá cómo combinan el procesamiento de datos (hadoop / spark) con otras partes importantes del rompecabezas (por nombrar algunas):
- Ingestión de datos
- Los experimentos
- Servir datos a las interfaces
- Fecha de almacenamiento