¿Puede describir brevemente el trabajo que realiza como ingeniero de datos en su organización?

Trabajará con cualquier tecnología que almacene datos, relacionales o no relacionales, también conocidos como bases de datos. Vas a mover los datos de un lugar a otro, ya sea desde la web, una API como Salesforce, una aplicación propietaria u otra base de datos (SQL / NoSQL) y vas a crear flujos de trabajo automatizados para hacer esos trabajos. . Vas a escribir un buen código que registre qué datos hay en cada carga y si hay algún error.

Es probable que maneje algunas bases de datos relacionales como:

  • PostgresQL, MySQL, SQL Server, Oracle DB o una solución en la nube como AWS RDS, AWS Redshift o Microsoft SQL Azure.

Es probable que también trabaje con una base de datos NoSQL o dos, como:

  • MongoDB, Cassandra, HBase, Couchbase o Amazon DynamoDB.

Aquí hay una lista del ranking de popularidad de las bases de datos SQL y NoSQL:

Ranking de motores DB

Es probable que deba activar un clúster Spark o Hadoop en un servicio en la nube como AWS EC2. Así que tendrás que saber algo de Bash (un lenguaje de script Unix / Linux). Tendrá que familiarizarse con un editor de texto en línea. Nano es más fácil y hará muchas tareas, puede que necesites aprender Vim o Emacs si pasas más de una cantidad de tiempo trivial en una “caja de Linux” de algún tipo. Lo que significa que probablemente tenga que saber cómo trabajar con algún sistema de archivos, como:

  • Hadoop, o un servicio en la nube como AWS S3 o Google Cloud.

Es probable que necesite conocer algunos lenguajes de secuencias de comandos, en orden de probabilidad:

  • SQL, Bash, Python y Ruby.

Es posible que necesite poder programar al menos en un idioma muy bien, por ejemplo, OOP, clases y programación más avanzada. Las mejores apuestas son:

  • Python, Java.

A partir de ahí, es posible que deba aprender algunos almacenes de datos de almacenamiento en caché o soluciones de memoria en tiempo real como:

  • Redis, chispa.

Por último, deberá comprender el modelado de datos. Desde “modelos basados ​​en hechos” (Kimball, Inmon) hasta la normalización de datos (1NF, 2NF, 3NF) y la realización de marts de datos. También necesitará aprender cómo ‘ajustar’ o ajustar el rendimiento para que esos sistemas funcionen rápido. Realmente ganará su dinero como ingeniero de datos cuando aprenda sobre los sistemas distribuidos y cómo programar para ese tipo de configuración, muy diferente de lo que se le permite hacer en un “nodo único” o máquina. Es posible que haya oído hablar de MapReduce. Cualquiera de los sistemas de ‘Big Data’ tendrá métodos especiales que son más costosos de ejecutar que otros métodos. Aprender a escribir código que sea más eficiente en la memoria lo separará de los demás. Aquí encontrará una miríada de tipos de datos y estructuras de datos con los que normalmente no se encontraría, ya que la “compresión” y la “descompresión” pronto se vuelven muy importantes, por ejemplo .GZ vs LZO vs JSON.

Aquí hay un avance:

  • Compresión Hadoop. Elegir códec de compresión. Parte 2.

Si puede ser realmente bueno en una cosa en cada grupo, será un ingeniero de datos bastante decente. El resto puede ser un tipo de “comercio de todos los oficios”, ya que a menudo buscará en una amplia variedad de idiomas y almacenes de datos que no están a la altura de su timón. Es divertido, si te gusta resolver problemas de datos y servir cosas que las personas pueden usar.

Cada tienda es diferente en la forma en que asignan flujos de trabajo o “estrés”, solo tiene que encontrar un punto dulce donde pueda proporcionar valor para cumplir con las expectativas.

La ingeniería de datos es un título general, como la ciencia de datos, por lo que captura mucho. En mi experiencia, personal y observacionalmente, la ingeniería de datos puede variar desde la plomería ETL hasta el uso más moderno del procesamiento del lenguaje natural y la recuperación de información para estandarizar señales basadas en texto no estándar, etc. Personalmente, paso tiempo en esto último … es divertido, desafiante y en última instancia, el objetivo final es algún documento estructurado canonicalizado que las diferentes aplicaciones de los consumidores usan para construir sus servicios.

More Interesting

¿Dónde trabajan los graduados de la Academia Zipfian en este momento como científicos de datos?

¿Cuánta programación se requiere en ciencia de datos, particularmente análisis estadístico y aprendizaje automático? ¿Debería un científico de datos preocuparse más por el análisis, la interpretación, las matemáticas en lugar de la programación? ¿Qué hay de malo en usar una herramienta basada en GUI?

¿Cómo podemos realmente saber que las vacunas son buenas para la sociedad? ¿Cómo podemos confiar en los datos, los científicos y las personas detrás de nuestros gobiernos?

¿Cuál es una alternativa para la 'Guía de Google para el desarrollo técnico' para científicos de datos?

¿Cuáles son las perspectivas profesionales de una persona que hace una maestría en informática en TU Delft?

¿Cuál es el primer libro que comienza para comenzar mi viaje en el camino de convertirme en un científico de datos?

¿Cuáles son las habilidades necesarias para convertirse en un buen científico de datos? ¿Qué cursos debe dominar uno?

Si seleccionamos científicos de datos al azar, ¿pueden explicar completamente las matemáticas o las estadísticas detrás de los algoritmos de aprendizaje automático que usan a diario?

¿Cómo fue tu viaje como científico de datos? ¿Cómo puedo convertirme en un científico de datos (perplejo, no estudiante de CS)?

Cómo convertirse en un científico de datos o cualquier analista como graduado de estadística

¿Es posible trabajar como científico de datos o como programador cuantitativo si NO tiene un doctorado o antecedentes académicos en STEM?

¿IBM Watson hará que los Data Scientists sean obsoletos?

¿Realmente puede convertirse en un científico de datos sin una matemática / estadística formal o un título en ciencias duras?

Cómo pasar de un programador de computadoras a un científico de datos

Cómo iniciar una empresa de minería de datos