Trabajará con cualquier tecnología que almacene datos, relacionales o no relacionales, también conocidos como bases de datos. Vas a mover los datos de un lugar a otro, ya sea desde la web, una API como Salesforce, una aplicación propietaria u otra base de datos (SQL / NoSQL) y vas a crear flujos de trabajo automatizados para hacer esos trabajos. . Vas a escribir un buen código que registre qué datos hay en cada carga y si hay algún error.
Es probable que maneje algunas bases de datos relacionales como:
- PostgresQL, MySQL, SQL Server, Oracle DB o una solución en la nube como AWS RDS, AWS Redshift o Microsoft SQL Azure.
Es probable que también trabaje con una base de datos NoSQL o dos, como:
- ¿Qué carrera profesional es mejor, científico de datos o profesor de administración?
- Quería ser microbiólogo, con suerte en Cornell. Pero ni siquiera soy tan atractivo. ¿Se enfrenta la materia para convertirse en científico?
- Cómo conseguir un trabajo de científico de datos en LinkedIn
- ¿Cuál es un buen trabajo de nivel de entrada para un aspirante a científico de datos sin experiencia en el campo y con un título en contabilidad?
- ¿Cómo se puede definir la ciencia de datos? ¿Se puede describir como un tema? ¿Cuál es su dominio? ¿Se puede limitar? Como científico de datos, ¿cómo definirá los requisitos previos para convertirse en científico de datos?
- MongoDB, Cassandra, HBase, Couchbase o Amazon DynamoDB.
Aquí hay una lista del ranking de popularidad de las bases de datos SQL y NoSQL:
Ranking de motores DB
Es probable que deba activar un clúster Spark o Hadoop en un servicio en la nube como AWS EC2. Así que tendrás que saber algo de Bash (un lenguaje de script Unix / Linux). Tendrá que familiarizarse con un editor de texto en línea. Nano es más fácil y hará muchas tareas, puede que necesites aprender Vim o Emacs si pasas más de una cantidad de tiempo trivial en una “caja de Linux” de algún tipo. Lo que significa que probablemente tenga que saber cómo trabajar con algún sistema de archivos, como:
- Hadoop, o un servicio en la nube como AWS S3 o Google Cloud.
Es probable que necesite conocer algunos lenguajes de secuencias de comandos, en orden de probabilidad:
- SQL, Bash, Python y Ruby.
Es posible que necesite poder programar al menos en un idioma muy bien, por ejemplo, OOP, clases y programación más avanzada. Las mejores apuestas son:
- Python, Java.
A partir de ahí, es posible que deba aprender algunos almacenes de datos de almacenamiento en caché o soluciones de memoria en tiempo real como:
- Redis, chispa.
Por último, deberá comprender el modelado de datos. Desde “modelos basados en hechos” (Kimball, Inmon) hasta la normalización de datos (1NF, 2NF, 3NF) y la realización de marts de datos. También necesitará aprender cómo ‘ajustar’ o ajustar el rendimiento para que esos sistemas funcionen rápido. Realmente ganará su dinero como ingeniero de datos cuando aprenda sobre los sistemas distribuidos y cómo programar para ese tipo de configuración, muy diferente de lo que se le permite hacer en un “nodo único” o máquina. Es posible que haya oído hablar de MapReduce. Cualquiera de los sistemas de ‘Big Data’ tendrá métodos especiales que son más costosos de ejecutar que otros métodos. Aprender a escribir código que sea más eficiente en la memoria lo separará de los demás. Aquí encontrará una miríada de tipos de datos y estructuras de datos con los que normalmente no se encontraría, ya que la “compresión” y la “descompresión” pronto se vuelven muy importantes, por ejemplo .GZ vs LZO vs JSON.
Aquí hay un avance:
- Compresión Hadoop. Elegir códec de compresión. Parte 2.
Si puede ser realmente bueno en una cosa en cada grupo, será un ingeniero de datos bastante decente. El resto puede ser un tipo de “comercio de todos los oficios”, ya que a menudo buscará en una amplia variedad de idiomas y almacenes de datos que no están a la altura de su timón. Es divertido, si te gusta resolver problemas de datos y servir cosas que las personas pueden usar.
Cada tienda es diferente en la forma en que asignan flujos de trabajo o “estrés”, solo tiene que encontrar un punto dulce donde pueda proporcionar valor para cumplir con las expectativas.