Data Science es el estudio de datos para comprender, visualizar, extraer información y predecir resultados para el futuro. Para hacer eso, debes saber / dp siguiendo las siguientes cosas:
- Comprender los datos
- Manipulando los datos
- Visualizando los datos
- Haciendo hipótesis y probándolas
Ahora, si bien debe tener una buena comprensión de las estadísticas y las matemáticas para comprender completamente los algoritmos de modelado, también necesita potentes herramientas informáticas. Estas herramientas a menudo pueden realizar estos algoritmos utilizando bibliotecas que ya han requerido la codificación realizada para todos los famosos enfoques de modelado / visualización / manipulación. Solo tiene que pasar los parámetros para sus propios datos como desee.
R, Python, SAS son los paquetes / lenguajes de software más comunes que tienen casi todas las capacidades mencionadas anteriormente. Hay diferentes bibliotecas en R y Python que pueden ayudarlo a visualizar mejor los datos, a realizar la limpieza y la disputa de datos, a probar hipótesis y a predecir resultados.
- ¿Qué habilidades y experiencias debo buscar para convertirme en un profesional de inteligencia empresarial?
- ¿Cuál es el salario de los trabajos de ciencia de datos?
- ¿Los banqueros de inversión o los científicos de datos ganan más dinero?
- Cómo ser un analista de datos profesional (científico) en la comunidad de recomendaciones
- Cómo hacer la transición a un rol de científico de datos dentro de mi empresa actual
A pesar de que estos paquetes tienen un gran poder de cómputo, la cantidad de datos en estos días es tan grande que necesitamos otras herramientas de administración de datos, como SQL, Hadoop y otros softwares de Big Data, para manejar los datos de manera rápida y eficiente.
Para la pregunta sobre Machine Learning (o signo de interrogación), se trata de un conjunto de algoritmos utilizados para resolver diferentes problemas utilizando una gran cantidad de datos. Estos modelos de aprendizaje automático se pueden construir en R / Python / SAS.
- Si tiene experiencia en programación, puede usar Python más fácilmente. R es tan bueno pero fue más famoso entre los estadísticos e investigadores. Python tiene un uso más generalizado en la industria de TI. R también ha ganado popularidad en los últimos años en la industria. Tanto R como Python son software de código abierto, que tiene una gran comunidad, sistema de ayuda y soporte.
- SAS es un paquete de software propietario utilizado por muchas compañías. Si puede acceder a él, es tan bueno como R / Python. El minero de datos de SAS es apuntar y disparar, donde, como en R / Python, debe codificar.
- Una vez que esté acostumbrado al manejo de datos, la visualización, el modelado matemático y el manejo de datos de gran tamaño, necesitará herramientas de grandes datos. Sugeriría comenzar con SQL, luego Hadoop y otros softwares de Big Data.
Espero que esto ayude. Buena suerte y diviértete aprendiendo.
Puede encontrar más información sobre Machine Learning y Data Science en http://ibm-ml-hub.com/.