¿Qué debo aprender para convertirme en un científico / analista de datos?

Data Science es el estudio de datos para comprender, visualizar, extraer información y predecir resultados para el futuro. Para hacer eso, debes saber / dp siguiendo las siguientes cosas:

  • Comprender los datos
  • Manipulando los datos
  • Visualizando los datos
  • Haciendo hipótesis y probándolas

Ahora, si bien debe tener una buena comprensión de las estadísticas y las matemáticas para comprender completamente los algoritmos de modelado, también necesita potentes herramientas informáticas. Estas herramientas a menudo pueden realizar estos algoritmos utilizando bibliotecas que ya han requerido la codificación realizada para todos los famosos enfoques de modelado / visualización / manipulación. Solo tiene que pasar los parámetros para sus propios datos como desee.

R, Python, SAS son los paquetes / lenguajes de software más comunes que tienen casi todas las capacidades mencionadas anteriormente. Hay diferentes bibliotecas en R y Python que pueden ayudarlo a visualizar mejor los datos, a realizar la limpieza y la disputa de datos, a probar hipótesis y a predecir resultados.

A pesar de que estos paquetes tienen un gran poder de cómputo, la cantidad de datos en estos días es tan grande que necesitamos otras herramientas de administración de datos, como SQL, Hadoop y otros softwares de Big Data, para manejar los datos de manera rápida y eficiente.

Para la pregunta sobre Machine Learning (o signo de interrogación), se trata de un conjunto de algoritmos utilizados para resolver diferentes problemas utilizando una gran cantidad de datos. Estos modelos de aprendizaje automático se pueden construir en R / Python / SAS.

  • Si tiene experiencia en programación, puede usar Python más fácilmente. R es tan bueno pero fue más famoso entre los estadísticos e investigadores. Python tiene un uso más generalizado en la industria de TI. R también ha ganado popularidad en los últimos años en la industria. Tanto R como Python son software de código abierto, que tiene una gran comunidad, sistema de ayuda y soporte.
  • SAS es un paquete de software propietario utilizado por muchas compañías. Si puede acceder a él, es tan bueno como R / Python. El minero de datos de SAS es apuntar y disparar, donde, como en R / Python, debe codificar.
  • Una vez que esté acostumbrado al manejo de datos, la visualización, el modelado matemático y el manejo de datos de gran tamaño, necesitará herramientas de grandes datos. Sugeriría comenzar con SQL, luego Hadoop y otros softwares de Big Data.

Espero que esto ayude. Buena suerte y diviértete aprendiendo.

Puede encontrar más información sobre Machine Learning y Data Science en http://ibm-ml-hub.com/.

Dada la inmensidad de Data Science, siempre recomendó formar una base sólida. Por mi parte, creo firmemente en el dicho. “Más profundas las raíces, más altos crecen los árboles”. Matemáticas, estadísticas y programación forman la base de la ciencia de datos. Por lo tanto, a menudo se recomienda conocer estos temas en profundidad para formar una base sólida. Una vez que tenga suficiente experiencia en estos temas, puede ascender a un instituto para aprender ciencia de datos.

  • Python Básico, Intermedio y Avanzado
  • Estadística, probabilidad y álgebra lineal
  • Regresión lineal, series de tiempo y función de costo
  • Análisis exploratorio de datos
  • Tipos de datos
  • Recopilación, extracción, consulta, limpieza y agregación de datos para análisis
  • Fuentes de datos, limpieza y disputas
  • Raspado web
  • Trabajando con API
  • Regresión y series de tiempo
  • Desarrolle una comprensión profunda de las aplicaciones del mundo real de algoritmos de ML supervisados.
  • Regresión polinómica, cresta y logística
  • Validación cruzada K-fold
  • Árboles de decisión, árboles condicionales y redes neuronales
  • Técnicas de conjunto
  • K vecino más cercano
  • SVM
  • Agrupación, reducción de dimensiones, PNL
  • Desarrolle una comprensión profunda de las aplicaciones del mundo real de algoritmos de ML no supervisados.
  • K- Propagación de medias / afinidad y cambio medio
  • Ward / Agrupación aglomerativa / DBSCAN
  • Bayes ingenuos
  • PNL / Agrupación de texto / NLTK
  • PCA y reducción de dimensiones

Aparte de esto, la ética, la dedicación, la autodisciplina y el compromiso también son importantes.

Descargo de responsabilidad: soy cofundador de @GreyAtom y ayudo a los talentos de ingeniería a encontrar carreras sostenibles en tecnologías emergentes.

El programa insignia altamente selectivo de GreyAtom tiene como objetivo orientar a los profesionales que trabajan y los más novedosos en el inicio de su carrera de ciencia de datos. Los estudiantes construyeron proyectos sobre el conjunto de datos REAL y las declaraciones de problemas proporcionadas por nuestra industria y socios de contratación. El programa se basa en el aula y está fuertemente orientado a la práctica. GreyAtom es un ecosistema donde los estudiantes pueden aprovechar lo mejor de la academia, profesionales de la industria y personas influyentes.

Algunos enlaces rápidos

He respondido a esta pregunta en Quora muchas veces … tantas que escribí una publicación de blog detallada que puedes encontrar aquí:

Los fundamentos de la analítica de datos

Este artículo cubre:

  • tipos de análisis
  • Terminologías comunes utilizadas en análisis de datos
  • Herramientas y requisitos previos básicos para un principiante en análisis de datos
  • Herramientas avanzadas y requisitos previos para el análisis de datos.
  • Flujo de trabajo de análisis de datos
  • Proceso estadístico
  • Estadística descriptiva e inferencial

En K2 Data Science , enseñamos todos los temas mencionados anteriormente en nuestro campamento de análisis de datos en línea . Este es un programa en línea dirigido por un mentor diseñado para principiantes. ¡Compruébalo si te parece interesante!

El científico de datos es una designación elegante, pero para esto debe tener una muy buena experiencia, así como un dominio en un idioma diferente.

No mencionaste que estás más fresco o que estás trabajando en alguna organización.

En caso de que sea más reciente, intente buscar trabajo en análisis y luego comience a dominar la tecnología en la que está trabajando.

Como sé, algunos científicos de datos conocen muchas tecnologías como, por ejemplo, uno de mis amigos, que es científico de datos, conoce R, Python, Spss, Stata, Excel. Ella comienza su viaje con Excel, tiene un objetivo que quiere convertirse en líder del equipo para poder resolver muchas cosas personales.

Los científicos de datos conocen muchas tecnologías, por lo que saben la mejor manera de resolver cualquier problema. Para la visualización de datos utilizaron R.

Entonces, comience con una tecnología y comience a aprender muchas tecnologías que ya conoce. En data scientist necesitamos aprender a diario. Necesitamos prepararnos para poder pensar más allá de nuestra mente porque muchas veces nuestro junior ofrece una nueva forma de trabajo tan abierta para eso también.

Última línea :

Juega duro cuando estás jugando. Trabaja duro cuando trabajas.

Es como este blog en Analytics Leap ha sido escrito solo para su pregunta 🙂

Analista de datos versus científico de datos. ¿En qué se diferencian?

¡El blog detalla las habilidades técnicas requeridas junto con las estadísticas de salario promedio!

Espero que esto ayude.

Mejor,

UNA

Días pasados ​​cuando los trabajos relacionados con el análisis de datos necesitaban una combinación de habilidades de nivel avanzado para ingresar a la industria. Ahora, las herramientas introducidas equipadas con funciones preparadas previamente que implementan algoritmos complejos han permitido que el público recién interesado entre al campo.

Mi consejo es comenzar, entrar en una tarea que involucra datos que implementan herramientas de uso simple con el objetivo de extraer una historia detrás de los datos y si encuentra interesante el viaje, sumérjase en aprender los temas avanzados para obtener más información.

Pero, de nuevo, esta es solo una forma de ingresar al campo.

Debe tener un gran conocimiento en estadística, que es la base de la ciencia de datos.

Todo lo mejor