¿Es necesario que un estadístico aprenda programación para convertirse en un científico de datos? Si es así, ¿cuáles son los idiomas preferidos?

Absolutamente. Una de las habilidades principales que distingue a un estadístico de un científico de datos es la programación. Descubrí que la programación / ciencias de la computación aumentan increíblemente la capacidad de hacer estadísticas, por lo que la combinación de ambas áreas de habilidades es extremadamente valiosa. Algo que los científicos de datos pueden hacer con sus habilidades de programación:

  • Utilice herramientas más especializadas para manipular datos, como Pandas para la manipulación de datos habitual, o Spark para la manipulación de datos personalizados a gran escala con operaciones complejas.
  • Cree tuberías que ejecuten tareas automáticamente, mueva los datos al lugar correcto y alimente cosas como análisis de experimentos y tuberías de tablero.
  • Automatizar el trabajo repetitivo.

Para los lenguajes preferidos, los dos más importantes son Python (lenguaje de programación) y R (lenguaje de programación). R vs Python se ha discutido interminablemente dentro de la comunidad de ciencia de datos, consulte ¿Cuál es mejor para el análisis de datos: R o Python? ¿R sigue siendo un mejor lenguaje de análisis de datos que Python? ¿Alguien más ha usado Python con Pandas, en gran medida, en proyectos de análisis de datos? para más discusión

Para ser un científico de datos, uno debe saber visualizar y analizar grandes cantidades de datos. Con el poder de cálculo actual, ¿no es mejor confiar en las computadoras para realizar tareas de cálculo? Un estadístico puede usar los resultados para hacer inferencias estadísticas con respecto a los datos en lugar de pasar mucho tiempo haciendo los cálculos él mismo. Aquí es donde entra en juego el conocimiento de un lenguaje de programación.

Hay algunos lenguajes de programación que se pueden comprender rápidamente y proporcionan muchos recursos para los entusiastas de la ciencia de datos. Recomendaría buscar en R y Python ya que tienen una gran comunidad de personas que trabajan en dominios de ciencia de datos.

Si desea obtener orientación sobre cómo aprender estos idiomas y utilizarlos para tareas como la minería de datos, se ofrecen MOOC populares en Coursera para R y Python. Me encontré con R a través de un curso de la Universidad Johns Hopkins y realmente me ayudó a explorar el campo de la ciencia de datos.

Sí, debe poder implementar análisis. Sugeriría R, ya que está diseñado para estadísticos, y la mayoría de los documentos estadísticos incluyen un paquete R.