¿Cómo puede un estadístico convertirse en un científico de datos?

Intentaré responder a esta pregunta ya que estoy en una posición similar y he realizado algunas mejoras notables en mis habilidades de ciencia de datos desde el final de mi pasantía.

Para empezar, tengo un título de ingeniería general de lo que comúnmente se conoce como “Grande Ecoles” en Francia y también un título de maestría en matemáticas aplicadas que se enfoca en estadísticas de Cambridge.

Comencé mi viaje de Data Science unos meses después de graduarme de Cambridge. Trabajé durante 6 meses en un problema de aprendizaje automático de I + D y me ensucié las manos por primera vez codificando en R y en Python. Antes de eso, tenía una experiencia leve de R y un conocimiento académico muy básico de Python, pero nada más. Mi experiencia en prácticas me enseñó que:

  1. Tenía muchas ganas de ser un científico de datos
  2. Aunque tenía algún tipo de experiencia en estadística, me faltaba el lado práctico de la capacitación de Data Scientist
  3. Decidí dedicar los próximos 6 o 7 meses a tratar de aprender más habilidades de Data Science

El primer paso que tomé para alcanzar estos objetivos fue registrarme en el curso Coursera de aprendizaje automático de Andrew Ng (https://www.coursera.org/course/ml)

Tomé este curso en línea mientras aún estaba terminando la pasantía.

Esta fue una experiencia muy gratificante. Antes de eso escuché sobre los conceptos de aprendizaje automático (desde una perspectiva estadística) pero aún no he implementado ninguna solución del “mundo real”. Gracias a este curso, aprendí muchos conceptos de aprendizaje automático y algunos trucos prácticos (del gran Andrew) que antes eran misteriosos para mí:

  • ML supervisado vs no supervisado
  • Cómo detectar y corregir sesgos y / o variaciones para un problema determinado
  • La división de entrenamiento / prueba de los datos
  • Cómo usar prácticamente la validación cruzada
  • Cómo realizar regresión logística
  • Y muchos más….

Luego tomé otros cursos de Coursera, principalmente los de la especialización de ciencias de datos de la Universidad Johns Hopkins.
(https://www.coursera.org/specialization/jhudatascience/1?utm_medium=courseDescripBottom). Hasta ahora he logrado terminar su curso de programación introductorio R y ahora estoy haciendo otros dos cursos: la caja de herramientas del científico de datos y la obtención y limpieza de datos .

Al mismo tiempo, asistí a muchas conferencias cercanas, charlas, reuniones (http://www.meetup.com/) sobre aprendizaje automático, visualización de datos, ciencia de datos, programación R, Big Data

También tuve entrevistas con muchas nuevas empresas (no conseguía el trabajo cada vez), codifiqué con algunas y hablé sobre sus tecnologías cotidianas utilizadas para realizar la Ciencia de Datos.

También tomé otros cursos en línea, principalmente Python en academia de código y la pista de JavaScript en escuela de código. Todavía estoy mejorando mis habilidades en Python. Una buena referencia que me viene es el manual de O’Reilly Leaning Python de Mark Lutz (http://shop.oreilly.com/product/…).

Y finalmente, desde principios de agosto, comencé algunos desafíos de Kaggle (sin mucho éxito hasta ahora). He implementado algunos algoritmos usando R y Python y aprendí mucho sobre Python mientras hacía esto. Esta es probablemente la forma más rápida de aprender.

Creo que este es uno de mis mejores logros hasta ahora en 2014.

Mientras escribo esta larga respuesta, todavía estoy aprendiendo y puliendo mis nuevas habilidades de Data Science. Creo que es un gran trabajo y estoy convencido de que disfrutarás de tu viaje.

TL; DR

Para resumir, aquí hay una lista de los recursos que he usado, estoy usando o tengo la intención de usar:

  • Coursera https://www.coursera.org/
  • Code academy http://www.codecademy.com/ (principalmente para Python)
  • Código escolar https://www.codeschool.com/ (principalmente para la pista JS)

Aquí también hay una lista de las herramientas que he aprendido o planeo aprender en un futuro cercano:

  • R
  • Pitón
  • JavaScript (D3.js en particular)

Para los cursos de Coursera, aquí hay una lista de los más útiles para mí:

  • La especialización de ciencia de datos de la Universidad Johns Hopkins
  • Andrew Ng Curso de aprendizaje automático

Pruebe también Kaggle (http://www.kaggle.com/) para conocer el aprendizaje automático de la vida real y visite el sitio web D3.js (http://d3js.org/) para obtener una visualización interactiva increíble.

¡Que te diviertas!

1) Intente tomar algunos de los programas matemáticos básicos que omitió. Geometría de línea recta, cálculo innovador, diferencia. Eq., Posibilidad, La investigación es lo más importante. Después de eso, tome algunos programas de Device Study. Estudie algunos de los principales libros de ML y manténgase al día con las publicaciones para tener una idea del área.

2) Infórmese sobre lo que están haciendo las principales organizaciones de información. Después de 1 o 2 programas de aprendizaje automático, debe tener suficientes calificaciones para cumplir con la mayoría de los documentos educativos. Aplique algunos de estos métodos en información real.

3) Si se trata de grandes conjuntos de datos, familiarícese con los métodos y recursos más nuevos (Hadoop, NoSQL, Ignite, etc.) colocándolos en ejercicio en su lugar de trabajo (o fuera del trabajo).

Complete aquí: ¿Cómo puede convertirse en un buen científico de datos?

En términos generales, cambiar su título en su tarjeta de visita suele ser suficiente.

Creamos una infografía que resume los pasos que puede seguir para convertirse en un científico de datos (todos los recursos en línea): Cómo convertirse en un científico de datos en 8 sencillos pasos: la infografía. También asegúrese de consultar nuestra Ciencia de datos de aprendizaje – Infografía, que contiene 8 pasos renovados para aprender ciencia de datos, completa con recursos y herramientas.

More Interesting

Soy un científico de datos que lucha por encontrar trabajo en tecnología. ¿Debería unirme a la banca?

¿Cuál es el rango de salario de un científico de datos o ingeniero de software en Vietnam?

¿Qué busca Google en un candidato para un puesto de científico de datos? ¿Los criterios difieren si alguien obtiene el trabajo internamente?

¿Cuál será el crecimiento del empleo para la ciencia de datos durante los próximos 5-10 años?

Como científico de datos, ¿te importa si estás ayudando a los malos? ¿O simplemente haces tus trucos, coges tu sueldo y no piensas en ello?

¿Debería continuar mejorando mis habilidades de JavaScript y Jquery si estoy interesado en convertirme en un Científico de Datos?

¿Quiero convertirme en un científico de datos desde donde debería comenzar?

Tengo un título en ingeniería, pero quiero convertirme en científico de datos. ¿Merece la pena obtener una maestría o simplemente ampliar mis habilidades de programación, estadística y matemática?

¿Qué nuevas contribuciones puede aportar Microsoft R Server en el campo Análisis de Big Data?

¿Qué es más difícil para el científico de datos promedio, las matemáticas involucradas o la programación requerida? ¿Qué proporción del trabajo de un científico de datos se gasta en matemáticas versus programación?

Cómo convertirse en un científico de datos si soy un graduado de ECE y he estado trabajando para TCS durante 3 meses como probador

¿Cómo es una semana laboral normal promedio real de científico de datos?

Cómo conseguir trabajo de científico de datos en Pune con conocimiento sólido de Python y R

¿Cuánto conocimiento de estadística se necesita para ser un científico de datos?

Planeo cambiar mi carrera de desarrollador de Informatica ETL a científico de datos junior. ¿Cómo debo planificar?