¿Puedo ignorar Scala si quiero ser ingeniero de datos?

Podría, pero no estoy seguro de si es una buena idea:

  • Scala es el nuevo niño dorado
  • La Encuesta de salarios de ciencia de datos de 2016 dice que el 8% de los encuestados respondió que usan Scala
  • Los lenguajes de programación más populares para 2017 | Blog | AppDynamics

Todos estos artículos sugieren que Scala definitivamente está creciendo silenciosamente en la industria de la ciencia de datos, pero también hay otros artículos que dicen lo contrario. Consulte las siguientes preguntas y respuestas para obtener más información:

  • ¿Aprender Scala es útil para un científico de datos?
  • ¿Por qué es tan popular Scala?
  • ¿Por qué Scala se está volviendo tan impopular?

Francamente, soy un gran admirador de usar Scala en ingeniería de datos, simplemente porque definitivamente hay algunos beneficios al usar Scala en un entorno de producción de ingeniería de datos: Scala y Spark son una combinación perfecta y a menudo es más fácil trabajar con Scala cuando quieres usar Spark.

Por supuesto, esto también depende de su objetivo: para la ingeniería de datos, este es definitivamente el caso, pero para la ciencia de datos, Python o R podrían ser mejores opciones. Puede leer más aquí: ¿Es Scala una mejor opción que Python para Apache Spark en términos de rendimiento, curva de aprendizaje y facilidad de uso?

Si lo desea, puede consultar mis respuestas a las siguientes preguntas:

  • La respuesta de Karlijn Willems a ¿Se considera que R no es adecuado para Big Data en comparación con Python? ,
  • La respuesta de Karlijn Willems a ¿Python sigue siendo relevante en ciencia de datos dado el surgimiento de Scala (+ Spark)?

Probablemente. Scala sigue siendo un lenguaje muy especializado. Probablemente necesite usar Spark como ingeniero de datos, pero puede hacerlo de manera bastante eficiente con Python.

La única razón real para aprender Scala es si realmente te gusta la programación funcional y quieres hacer programación funcional en grandes conjuntos de datos.