Ashwin Kumar ha señalado muy bien que las matemáticas es donde debe asignar la mayor parte de su cerebro porque va a determinar el camino de su carrera si desea subir o bajar.
Responde a tu pregunta
Los científicos de datos utilizan una variedad de lenguajes de programación y paquetes de software para extraer, limpiar, analizar y visualizar datos de manera flexible y eficiente. Un aspirante a científico de datos querrá estar familiarizado con al menos estos cinco:
- ¿Un título en informática urbana ayuda a encontrar trabajo en ciudades inteligentes?
- Al principio, ¿es más importante aprender técnicas de visualización de datos o aprender la teoría / matemática detrás de las técnicas de análisis?
- ¿Qué tan probable es que los trabajos de los científicos de datos se saturen demasiado en los próximos años?
- ¿Qué tipo de científicos de datos se emplearán siempre, incluso durante las caídas del mercado? ¿Es la única forma de lograr la seguridad laboral en tecnología siendo tan bueno que en el instante en que no esté satisfecho con su trabajo, otra compañía lo recibirá con los brazos abiertos?
- ¿Cómo saben las cosas los científicos?
- R estuvo confinado casi exclusivamente a la academia, pero los servicios de redes sociales, las instituciones financieras y los medios de comunicación ahora usan este lenguaje de programación y entorno de software para el análisis estadístico, la visualización de datos y el modelado predictivo.
- Python, a diferencia de R, no fue diseñado para el análisis de datos. Ahora que las bibliotecas de análisis de datos y procesamiento de datos se han desarrollado para Python, sin embargo, los gustos de Los Alamos National Laboratory, Bank of America y Facebook están usando Python para la ciencia de datos. El lenguaje de programación de alto nivel es potente, rápido, amigable, abierto y fácil de aprender.
- SQL, o lenguaje de consulta estructurado, es un lenguaje de programación de propósito especial para administrar datos almacenados en sistemas de administración de bases de datos relacionales. Algo de lo que puede hacer con SQL (inserción de datos, consultas, actualización y eliminación, creación y modificación de esquemas y control de acceso a datos) también puede lograrlo con R, Python o incluso Excel, pero escribir su propio código SQL es más eficiente y produce guiones fácilmente reproducibles.
- La compañía de software con sede en Seattle, Tableau, ofrece un conjunto de productos que complementan los recursos de ciencia de datos como R y Python. Tableau no es la mejor herramienta para limpiar o remodelar datos, y su modelo relacional no permite cálculos de procedimientos o algoritmos fuera de línea, pero es ideal para la exploración de datos y el análisis interactivo.
- Hadoop es un marco de software de código abierto que permite el procesamiento distribuido de grandes conjuntos de datos en grupos de computadoras utilizando modelos de programación simples. Hadoop ofrece potencia informática, flexibilidad, tolerancia a fallas, bajo costo y escalabilidad.
Habilidades de fuente crítica para científicos de datos – Maestría en ciencia de datos