¿Hasta qué punto necesita programar o incluso simplemente interactuar con bases de datos como científico de datos?

No puede ser un buen científico de datos sin habilidades de programación sólidas en al menos un lenguaje analítico y uno o dos lenguajes de consulta. Esa es la naturaleza de la bestia.

Aunque gran parte del trabajo de reflexión se realiza en papel, pizarras blancas, llamadas telefónicas y en salas de conferencias con equipos o partes interesadas, la exploración, el análisis y la presentación de informes reales se realizan con código. Puede ser R, Python, Matlab, Julia … C ++ en algunos reinos con solicitudes de datos en algún tipo de SQL o un lenguaje de consulta no relacional para acceder a datos de otras tiendas, como MongoDB.

Hay muchas cosas que puede hacer como analista (e incluso como científico de datos) sin código usando Excel, Access y Tableau. Pero eso significa que tendrá que confiar en otros para que le brinden datos perfectamente preparados para hacer su análisis … y eso limita su capacidad de hacer un trabajo predictivo. (Y pierde su conexión con los datos en sí, cómo debe manejarse y prepararse si va a poner en funcionamiento sus modelos).

La mejor y más rápida manera de trabajar con datos es aprender un lenguaje que admita el análisis de datos, como Python o R, tanto gratis como SQL. Se necesita tiempo, un año para ser útil con los idiomas en un contexto de datos y unos pocos más para convertirse en un científico de datos, pero necesita tener las herramientas si va a hacer el trabajo correctamente.

Incluso entonces, es probable que no codifiques nada como un desarrollador … pero lo harás con tanta frecuencia.

Una extensión considerable. La mayoría de los científicos de datos programan casi tanto como un ingeniero de software. La diferencia es que su codificación implica más análisis de datos y generalmente es de menor escala.

Los científicos de datos trabajan con bases de datos diariamente, ya que es donde se almacenan los datos. En su mayoría, realizan consultas para obtener datos y no tanto para la administración de bases de datos como para la construcción de canalizaciones de datos (esto es ingeniería de datos).