¿Deberían las personas importantes en matemáticas o estadísticas aprender sistemas distribuidos o diseño de bases de datos para ser un buen científico de datos?

Estudié estadística e implementé algoritmos de aprendizaje automático en mi rol como ingeniero de datos. También tomé una clase sobre bases de datos y una clase llamada análisis de big data (aprendí el trabajo insuficiente de Hadoop y sus amigos para el análisis).

Para responder a su pregunta, depende de las necesidades del equipo de análisis para el que trabajará. En general si.

En su mayor parte, creo que definitivamente debería saber cómo manipular los datos dentro de una base de datos en gran medida. Saber cómo diseñar una base de datos sería extremadamente útil para esto porque puede almacenar datos de la manera que desee para un fácil acceso en cualquier análisis.

En su mayor parte, la respuesta es similar para los sistemas distribuidos. Debe saber cómo obtener sus datos de un sistema distribuido y ejecutar algoritmos a través de un sistema distribuido. Es decir, si su empresa incluso utiliza o necesita sistemas distribuidos. Saber cómo funciona un sistema distribuido “bajo el capó” sería extremadamente útil.

Como persona cuantitativa, piense de esta manera: ¿Debería un estudiante que estudia programación o diseño de algoritmos de aprendizaje automático o estadística matemática para ser un buen científico de datos? Sé que no son preguntas paralelas, pero entiendes lo siguiente: comprende la teoría y la aplicación será una segunda naturaleza. El diseño de la base de datos y los sistemas distribuidos no son necesarios para ser un buen científico de datos, pero DEBE estudiarlo si tiene la oportunidad.

Además, se verá mucho más atractivo para los reclutadores si comprende el diseño de bases de datos y los sistemas distribuidos.

Sin duda, debe conocer los conceptos básicos de cómo funcionan los sistemas distribuidos y las bases de datos. Después de todo, los usará todo el tiempo y necesita un nivel mínimo de comprensión para usarlos de manera efectiva.

Pero no creo que necesite saber cómo diseñar e implementar un sistema distribuido para ser un científico de datos exitoso. O que tiene que profundizar especialmente en el diseño de bases de datos. Necesita familiarizarse con estas áreas y fundamentarse en los conceptos básicos. Pero usará estos sistemas para construir sobre ellos, en lugar de construir los sistemas ellos mismos.