Intentaré responder a esta pregunta ya que estoy en una posición similar y he realizado algunas mejoras notables en mis habilidades de ciencia de datos desde el final de mi pasantía.
Para empezar, tengo un título de ingeniería general de lo que comúnmente se conoce como “Grande Ecoles” en Francia y también un título de maestría en matemáticas aplicadas que se enfoca en estadísticas de Cambridge.
Comencé mi viaje de Data Science unos meses después de graduarme de Cambridge. Trabajé durante 6 meses en un problema de aprendizaje automático de I + D y me ensucié las manos por primera vez codificando en R y en Python. Antes de eso, tenía una experiencia leve de R y un conocimiento académico muy básico de Python, pero nada más. Mi experiencia en prácticas me enseñó que:
- ¿Cómo organiza su empresa la colaboración entre ingenieros de software y científicos de datos?
- ¿Qué cursos y libros sugiere para convertirse en un buen científico de datos en Python?
- ¿Es un rol de analista de negocios en Apple lo suficientemente desafiante para alguien que es científico de datos en la industria no tecnológica y programas en Python y C ++?
- ¿Hay empresas mecánicas que contraten científicos de datos / analistas de datos / analistas de negocios?
- ¿Puede un analista de datos convertirse en científico de datos?
- Tenía muchas ganas de ser un científico de datos
- Aunque tenía algún tipo de experiencia en estadística, me faltaba el lado práctico de la capacitación de Data Scientist
- Decidí dedicar los próximos 6 o 7 meses a tratar de aprender más habilidades de Data Science
El primer paso que tomé para alcanzar estos objetivos fue registrarme en el curso Coursera de aprendizaje automático de Andrew Ng (https://www.coursera.org/course/ml)
Tomé este curso en línea mientras aún estaba terminando la pasantía.
Esta fue una experiencia muy gratificante. Antes de eso escuché sobre los conceptos de aprendizaje automático (desde una perspectiva estadística) pero aún no he implementado ninguna solución del “mundo real”. Gracias a este curso, aprendí muchos conceptos de aprendizaje automático y algunos trucos prácticos (del gran Andrew) que antes eran misteriosos para mí:
- ML supervisado vs no supervisado
- Cómo detectar y corregir sesgos y / o variaciones para un problema determinado
- La división de entrenamiento / prueba de los datos
- Cómo usar prácticamente la validación cruzada
- Cómo realizar regresión logística
- Y muchos más….
Luego tomé otros cursos de Coursera, principalmente los de la especialización de ciencias de datos de la Universidad Johns Hopkins.
(https://www.coursera.org/specialization/jhudatascience/1?utm_medium=courseDescripBottom). Hasta ahora he logrado terminar su curso de programación introductorio R y ahora estoy haciendo otros dos cursos: la caja de herramientas del científico de datos y la obtención y limpieza de datos .
Al mismo tiempo, asistí a muchas conferencias cercanas, charlas, reuniones (http://www.meetup.com/) sobre aprendizaje automático, visualización de datos, ciencia de datos, programación R, Big Data …
También tuve entrevistas con muchas nuevas empresas (no conseguía el trabajo cada vez), codifiqué con algunas y hablé sobre sus tecnologías cotidianas utilizadas para realizar la Ciencia de Datos.
También tomé otros cursos en línea, principalmente Python en academia de código y la pista de JavaScript en escuela de código. Todavía estoy mejorando mis habilidades en Python. Una buena referencia que me viene es el manual de O’Reilly Leaning Python de Mark Lutz (http://shop.oreilly.com/product/…).
Y finalmente, desde principios de agosto, comencé algunos desafíos de Kaggle (sin mucho éxito hasta ahora). He implementado algunos algoritmos usando R y Python y aprendí mucho sobre Python mientras hacía esto. Esta es probablemente la forma más rápida de aprender.
Creo que este es uno de mis mejores logros hasta ahora en 2014.
Mientras escribo esta larga respuesta, todavía estoy aprendiendo y puliendo mis nuevas habilidades de Data Science. Creo que es un gran trabajo y estoy convencido de que disfrutarás de tu viaje.
TL; DR
Para resumir, aquí hay una lista de los recursos que he usado, estoy usando o tengo la intención de usar:
- Coursera https://www.coursera.org/
- Code academy http://www.codecademy.com/ (principalmente para Python)
- Código escolar https://www.codeschool.com/ (principalmente para la pista JS)
Aquí también hay una lista de las herramientas que he aprendido o planeo aprender en un futuro cercano:
- R
- Pitón
- JavaScript (D3.js en particular)
Para los cursos de Coursera, aquí hay una lista de los más útiles para mí:
- La especialización de ciencia de datos de la Universidad Johns Hopkins
- Andrew Ng Curso de aprendizaje automático
Pruebe también Kaggle (http://www.kaggle.com/) para conocer el aprendizaje automático de la vida real y visite el sitio web D3.js (http://d3js.org/) para obtener una visualización interactiva increíble.
¡Que te diviertas!