Para convertirnos en un científico de datos, ¿qué tecnología necesitamos aprender de R, Python, Hadoop, Spark y Scala?

Data Scientist necesita tener habilidades técnicas y no técnicas para realizar su trabajo de manera efectiva. Las habilidades técnicas están involucradas en 3 etapas en Data Science. Incluyen:

  1. Captura de datos y preprocesamiento
  2. Análisis de datos y reconocimiento de patrones
  3. Presentación y visualización

Para realizar las 3 etapas anteriores, se necesitan 3 categorías de herramientas: herramientas para extraer datos, herramientas para analizar los datos y herramientas para presentar los resultados. Estas son las diferentes herramientas disponibles para realizar lo mismo:

  • Herramientas para extracción de datos y preprocesamiento

a. SQL

Esta es una habilidad imprescindible para todos los científicos de datos, independientemente de si está utilizando datos estructurados o no estructurados. Las empresas están utilizando los últimos motores SQL como Apache Hive, Spark-SQL, Flink-SQL, Impala, etc.

si. Tecnologías de Big Data

Esta es la necesidad de las habilidades necesarias para convertirse en un científico de datos. El científico de datos necesita saber sobre las diferentes tecnologías de Big Data: tecnologías de primera generación como Apache Hadoop y su ecosistema (colmena, cerdo, canal, etc.), como Next Gen: Apache Spark y Apache Flink (Apache Flink está reemplazando Apache Spark rápidamente como Flink es un motor de Big Data de propósito general, que también puede manejar transmisiones en tiempo real)

Guía completa de Apache Flink completa

C. UNIX

Como la mayoría de los datos sin procesar se almacenan en un servidor UNIX o Linux antes de ponerlos en un almacén de datos, es bueno poder acceder a los datos sin la dependencia de una base de datos. Entonces, el conocimiento de Unix es bueno para los científicos de datos.

Guía de comandos para practicar comandos de Linux.

re. Pitón

Python es el lenguaje más popular para el científico de datos. Python es un lenguaje de programación orientado a objetos interpretado con semántica dinámica. Es un lenguaje de alto nivel con enlace dinámico y escritura.

  • Herramientas para análisis de datos y coincidencia de patrones

Esto depende de su nivel de conocimiento estadístico. Algunas herramientas se utilizan para estadísticas más avanzadas y otras para estadísticas más básicas.

a. SAS

Muchas empresas usan SAS, por lo que es bueno tener un conocimiento básico de SAS. Puedes manipular ecuaciones fácilmente.

si. R

R es más popular en el mundo estadístico. R es una herramienta de código abierto y un lenguaje orientado a objetos, por lo que puede usarlo en cualquier lugar. Es la primera opción de cualquier científico de datos ya que la mayoría de las cosas se implementan en R.

R vs SAS vs SPSS- Las 3 mejores herramientas de análisis de datos.

C. Máquina inclinada

El aprendizaje automático es la herramienta más exigente y útil que los científicos de datos deben tener. Los algoritmos de aprendizaje automático se utilizan para análisis de datos avanzados, análisis predictivo, coincidencia de patrones avanzada. Hay muchas herramientas de aprendizaje automático disponibles en el mercado, como weka, nltk, etc., pero las herramientas de aprendizaje automático además de las tecnologías de big data están captando la atención de la industria como Mahout (en la parte superior de Hadoop), MLlib (en la parte superior de Spark), FlinkML (encima de Flink).

Lea la Guía completa de habilidades necesarias para convertirse en un Data Scientist exitoso.

Realmente deberías leer ¿Cómo puedo convertirme en científico de datos?

Es la mejor referencia sobre cómo ingresar al campo, especialmente poner las cosas en contexto, que en su caso lo enmarca fuera del aprendizaje de lenguajes de programación, y más hacia qué conceptos debe aprender.

Para Big data, puede elegir Spark y Hadoop y es común para la ciencia de datos ;

Donde Hadoop HDFS se utiliza para el almacenamiento de datos, gran cantidad de datos no estructurados, como peta bytes de datos;
Mientras que Apache Spark se usa para el procesamiento de datos y proporciona un procesamiento de datos 100 veces más rápido que el mapa normal.

La programación R está especialmente creada para la programación estadística que admite muchos paquetes R El 60% de la ciencia de datos usa la programación R

Para la ciencia de datos en Python se usa el 40%

Más detalles lea esta publicación de blog: R vs Python para Data Science: The Winner is …

mira esto y obtendrás la respuesta

Aunque puede obtener un trabajo SAS incluso sin certificación, siempre que conozca los conceptos básicos de la programación SAS. En caso de que esté más fresco, debe estar bien equipado con las habilidades de programación BASE SAS.

El costo de la certificación SAS es alto, por lo tanto, antes de ir a un examen, prepárese.

puedes probar este curso

Programación SAS completa en base profunda con ejemplo de la vida real de la plataforma UDEMY por Saurav Gupta.

Puede usar este cupón para obtener el máximo descuento posible y beneficios adicionales

GETFOR10

Las habilidades de programación como python y r te ayudan.

Los complementos adicionales podrían ser, algoritmos, estructuras de datos, conceptos de aprendizaje automático también serían útiles

More Interesting

¿Qué habilidades de ingeniería de software deberían adquirir los científicos de datos?

¿Cómo puede ayudar la ciencia de datos a mejorar las condiciones de vida de la población rural?

¿Se paga más a los científicos de datos que a los ingenieros de datos?

Como científico de datos en una empresa más grande, ¿es más valioso sentarse con el equipo de productos o con un equipo de científicos de datos?

¿Los científicos de datos son 'parásitos de investigación'?

¿Qué clases debo tomar en el MIT si quiero convertirme en un científico de datos?

¿Cuáles son las mejores reuniones de ciencia de datos / big data en el área de la Bahía de San Francisco?

Cómo convertirse en un científico de datos con una licenciatura en CS

Como científico de datos, ¿puedo crear empleo en lugar de trabajar para algún empleador?

¿Convertirse en un científico de datos es una tarea difícil?

¿Qué recomienda para un estudiante de primer año de EE y CS para poder obtener un trabajo como científico de datos? ¿Y qué hacen realmente los científicos de datos junior?

¿Cómo es un día en la vida de un científico de datos? ¿Por qué es esta la carrera más popular en este momento?

¿Cuánto dinero ganan los científicos de datos y cuál es la trayectoria profesional de los científicos de datos?

¿Cómo convertirse en un científico de datos? ¿Qué campo ofrece más oportunidades de trabajo / investigación? ¿Cómo se relaciona con la automatización de datos?

¿Las empresas contratan científicos de datos con una maestría?