Data Scientist necesita tener habilidades técnicas y no técnicas para realizar su trabajo de manera efectiva. Las habilidades técnicas están involucradas en 3 etapas en Data Science. Incluyen:
- Captura de datos y preprocesamiento
- Análisis de datos y reconocimiento de patrones
- Presentación y visualización
Para realizar las 3 etapas anteriores, se necesitan 3 categorías de herramientas: herramientas para extraer datos, herramientas para analizar los datos y herramientas para presentar los resultados. Estas son las diferentes herramientas disponibles para realizar lo mismo:
- Herramientas para extracción de datos y preprocesamiento
a. SQL
- Cómo aprender de mi red de científicos de datos en LinkedIn
- Como científico de datos, ¿recuerda todo lo que estaba en sus libros de texto? ¿Utiliza la técnica más óptima para procesar datos la mayor parte del tiempo?
- Soy un científico de datos junior sin un título de PHD, mis compañeros de equipo son PHD y más inteligentes que yo, ¿cómo puedo hacer frente y crecer en esta situación?
- Acabo de solicitar estudios de posgrado en CS pero no tengo conocimiento previo. ¿Qué habilidad debo aprender para prepararme para una carrera como científico de datos?
- ¿Cuál es un mejor título: Jefe de Ciencia de Datos o Director de Ciencia de Datos?
Esta es una habilidad imprescindible para todos los científicos de datos, independientemente de si está utilizando datos estructurados o no estructurados. Las empresas están utilizando los últimos motores SQL como Apache Hive, Spark-SQL, Flink-SQL, Impala, etc.
si. Tecnologías de Big Data
Esta es la necesidad de las habilidades necesarias para convertirse en un científico de datos. El científico de datos necesita saber sobre las diferentes tecnologías de Big Data: tecnologías de primera generación como Apache Hadoop y su ecosistema (colmena, cerdo, canal, etc.), como Next Gen: Apache Spark y Apache Flink (Apache Flink está reemplazando Apache Spark rápidamente como Flink es un motor de Big Data de propósito general, que también puede manejar transmisiones en tiempo real)
Guía completa de Apache Flink completa
C. UNIX
Como la mayoría de los datos sin procesar se almacenan en un servidor UNIX o Linux antes de ponerlos en un almacén de datos, es bueno poder acceder a los datos sin la dependencia de una base de datos. Entonces, el conocimiento de Unix es bueno para los científicos de datos.
Guía de comandos para practicar comandos de Linux.
re. Pitón
Python es el lenguaje más popular para el científico de datos. Python es un lenguaje de programación orientado a objetos interpretado con semántica dinámica. Es un lenguaje de alto nivel con enlace dinámico y escritura.
- Herramientas para análisis de datos y coincidencia de patrones
Esto depende de su nivel de conocimiento estadístico. Algunas herramientas se utilizan para estadísticas más avanzadas y otras para estadísticas más básicas.
a. SAS
Muchas empresas usan SAS, por lo que es bueno tener un conocimiento básico de SAS. Puedes manipular ecuaciones fácilmente.
si. R
R es más popular en el mundo estadístico. R es una herramienta de código abierto y un lenguaje orientado a objetos, por lo que puede usarlo en cualquier lugar. Es la primera opción de cualquier científico de datos ya que la mayoría de las cosas se implementan en R.
R vs SAS vs SPSS- Las 3 mejores herramientas de análisis de datos.
C. Máquina inclinada
El aprendizaje automático es la herramienta más exigente y útil que los científicos de datos deben tener. Los algoritmos de aprendizaje automático se utilizan para análisis de datos avanzados, análisis predictivo, coincidencia de patrones avanzada. Hay muchas herramientas de aprendizaje automático disponibles en el mercado, como weka, nltk, etc., pero las herramientas de aprendizaje automático además de las tecnologías de big data están captando la atención de la industria como Mahout (en la parte superior de Hadoop), MLlib (en la parte superior de Spark), FlinkML (encima de Flink).
Lea la Guía completa de habilidades necesarias para convertirse en un Data Scientist exitoso.