Como John Coogan señaló, estos títulos son bastante ambiguos, pero las compañías están haciendo una publicación explícita de estos trabajos / títulos / roles hoy en día.
Considero que es un buen recurso que establece claramente algunas de las tecnologías / habilidades requeridas (o utilizadas) para los roles de ingeniería de datos y de lo que trata esta ciencia / ingeniería de datos se detalla en [1].
Los roles de ingeniería de datos también requieren el siguiente conjunto de habilidades [2] con todas estas fuentes y tipos de datos diferentes:
- ¿Por qué las grandes empresas contratan a grandes ingenieros y les piden que hagan un trabajo mundano? ¿Por qué no pueden automatizarse estas tareas cotidianas, como las operaciones de desarrollo, utilizando IA?
- ¿Cómo comienzas a construir software desde cero? ¿Qué idioma uso? Si quiero que el programa pueda integrarse con otros, ¿qué debo considerar? ¿Dónde puedo aprender todo lo básico?
- ¿Cómo funciona el reloj del software en la computadora cuando la computadora está encendida?
- ¿Podría la tecnología desarrollarse infinitamente más rápido usando una simulación?
- ¿Cómo se puede rediseñar, refactorizar y limpiar una base de código fuente muy grande con una disminución mínima en el ritmo de innovación del producto?
- Experiencia en sistemas distribuidos a gran escala.
- Conocimiento de lenguajes como Java, C ++, Pig Latin y HiveQL
- Modelado predictivo, procesamiento de lenguaje natural y análisis de texto.
- Gestión de datos
- Integración de datos estructurados y no estructurados.
- Una gama de demandas de latencia de datos
- Soporte arquitectónico para escalabilidad y procesamiento de alta velocidad.
Los ingenieros de datos deben tener una inclinación por las estadísticas, la minería de datos, la PNL y el aprendizaje automático.
Sería bueno tener algunas de estas habilidades también:
Hadoop
R
HBase / Cassandra
scikit
Cuidador de elefantes
Escaldado [3]
Cascalog [4]
El rol de ingeniero de software puede variar ampliamente de escribir código de front-end a código de back-end, es bastante diverso. El rol de ingeniero de datos es algo especial.
Esto es lo que creo:
“Un ingeniero de ciencia de datos es un ingeniero de software, pero un ingeniero de software no es necesariamente un ingeniero de ciencia de datos”.
Referencias
[1] http://radar.oreilly.com/2010/06…
[2] http://www.itbusinessedge.com/cm…
[3] https://github.com/twitter/scald…
[4] https://github.com/nathanmarz/ca…