¿Qué debo hacer si quiero convertirme en científico de datos antes de los 35?

Los siguientes son algunos de los pasos que puede seguir. Mi experiencia se basa principalmente en la India, aunque la mayoría de estos puntos son aplicables en todo el mundo:

1) Realice el curso de Machine Learning en Coursera por Andrew Ng. Esta es una necesidad y ofrece una muy buena visión general de los algoritmos de ML

2) Participa en concursos de kaggle (kaggle.com). Elija un concurso por mes, algo que tenga un buen número de participantes. Envíe sus respuestas todos los días y asegúrese de leer las discusiones del foro para realizar un seguimiento de lo que otros concursantes están haciendo para mejorar su puntaje

3) Elija uno de los idiomas: R o Python. Implemente algunos de los algoritmos de aprendizaje automático que aprendió en el Paso (1). Algunos libros a los que me referí para R son: R libro de cocina, R en pocas palabras. Además, el curso de especialización en ciencia de datos de John Hokpins en Coursera ofrece una buena visión general en R

4) Asista a las reuniones de grupos de interés de Data Science / Machine learning. Hay muchos de ellos sucediendo en Chennai y estoy seguro de que también suceden en otras ciudades. Estas reuniones tendrán una mezcla de estudiantes y líderes de opinión de la industria. Será un muy buen lugar para conocerlos y buscar oportunidades de trabajo en Data Science.

5) Otra opción para buscar ofertas de trabajo es a través de LinkedIn. Haga una lista de posibles empresas y busque fundadores / gerentes en LinkedIn. Envíe un mensaje personal presentándose, por qué le gustaría unirse a su empresa y cómo puede acelerar el dominio

6) Certificaciones: para responder a sus preguntas sobre certificaciones, puede tomar certificaciones MOOC (coursera, edX) si siente la necesidad de mantenerse motivado para aprender. Como tal, las certificaciones pueden no tener un gran impacto en el aterrizaje de un trabajo. Sin embargo, la certificación en Hadoop, Spark de Databricks, etc. tiene un buen peso

7) Al tomar un doctorado: no recomendaría el doctorado de inmediato, pero una vez que obtenga una buena experiencia de 3-4 años, puede considerar esta opción. El doctorado será útil si desea realizar una investigación en profundidad en un área de interés particular

Espero haber respondido tu pregunta!

EDITAR: Punto agregado (5).

Hace un tiempo, escribí sobre algunos recursos gratuitos que puedes usar para aprender ciencia de datos por tu cuenta. Esto estaba orientado principalmente a las personas que querían postularse a la Data Science Fellowship gratuita de The Data Incubator como una guía útil para comenzar, pero es un lugar útil para comenzar, independientemente de dónde quieran postularse para ser científicos de datos. Romperé mi respuesta en dos partes:

  1. Recursos gratuitos desglosados ​​por tema: si bien se trata de una experiencia en aprendizaje automático, hay otros aspectos útiles de la ciencia de datos para aprender. La respuesta es de interés más general.
  2. Fuentes de datos gratuitas con las que puede obtener experiencia práctica. Uno de los pilares de nuestra comunidad de ciencia de datos es la construcción de un proyecto final que se utiliza para mostrar sus nuevos conocimientos de ciencia de datos.

# 1: Nuevos temas para aprender [publicación original]

Aquí hay cinco habilidades importantes para desarrollar y algunos recursos sobre cómo ayudarlo a desarrollarlas. Si bien no esperamos que nuestros solicitantes posean todas estas habilidades, la mayoría de los solicitantes ya tienen una sólida formación en muchos de ellos.

  1. Desguace : hay una gran cantidad de datos disponibles, por lo que deberá aprender cómo acceder a ellos. Ya sea JSON, HTML o algún formato homebrew, debería poder manejarlos con facilidad. Los lenguajes de script modernos como Python son ideales para esto. En Python, mire paquetes como urllib2, solicitudes, simplejson, re y beautiful soup para facilitar el manejo de solicitudes web y formatos de datos. Los temas más avanzados incluyen manejo de errores (reintentos) y paralelización (multiprocesamiento).
  2. SQL : una vez que tenga una gran cantidad de datos estructurados, querrá almacenarlos y procesarlos. SQL es el lenguaje de consulta original y su sintaxis es tan frecuente que hay interfaces de consulta SQL para todo, desde sqldf para marcos de datos R hasta Hive para Mapreduce. Normalmente, tendría que pasar por un proceso de instalación doloroso para jugar con SQL. Afortunadamente, hay un buen tutorial interactivo en línea disponible donde puede enviar sus consultas y aprender de forma interactiva. Además, Mode Analytics tiene un gran tutorial dirigido a científicos de datos, aunque no es interactivo. Cuando esté listo para usar SQL localmente, SQLite ofrece una versión de SQL fácil de instalar.
  3. Marcos de datos : SQL es excelente para manejar grandes cantidades de datos, pero desafortunadamente carece de aprendizaje automático y visualización. Por lo tanto, el flujo de trabajo a menudo es utilizar SQL o mapreduce para obtener datos a un tamaño manejable y luego procesarlos usando bibliotecas como los marcos de datos de R o los pandas de Python. Para Pandas, Wes McKinney, quien creó los pandas, tiene un gran video tutorial en youtube. Míralo aquí y sigue leyendo el código de Github.
  4. Aprendizaje automático : se puede hacer mucha ciencia de datos con seleccionar, unir y agrupar (o, de forma equivalente, asignar y reducir), pero a veces es necesario realizar un aprendizaje automático no trivial. Antes de saltar a algoritmos más sofisticados, pruebe algoritmos más simples como Naive Bayes y regresión lineal regularizada. En Python, estos se implementan en scikit learn. En R, se implementan en las bibliotecas glm y gbml. Debes asegurarte de entender los conceptos básicos realmente bien antes de probar algoritmos más sofisticados.
  5. Visualización : la ciencia de datos se trata de comunicar sus hallazgos, y la visualización de datos es una parte increíblemente valiosa de eso. Python ofrece un trazado similar a Matlab a través de matplotlib, que es funcional, incluso si carece ascéticamente. R ofrece ggplot, que es más bonito. Por supuesto, si realmente te tomas en serio las visualizaciones dinámicas, pruebad3.

Estas son algunas de las habilidades fundamentales que serán invaluables para su carrera como científico de datos. Si bien solo cubren un subconjunto de lo que hablamos en The Data Incubator (hay mucho más que cubrir en estadísticas, aprendizaje automático y reducción de mapas), este es un gran comienzo. Para obtener una lista más detallada de temas, puede consultar esta gran infografía:

# 2: Fuentes de datos interesantes: [publicación original]

En The Data Incubator, llevamos a cabo una beca gratuita de seis semanas de ciencia de datos para ayudar a nuestros Fellows a trabajar en la industria de la tierra. A nuestros socios de contratación les encanta considerar a los Fellows a quienes no les importa ensuciarse las manos con los datos. Es por eso que nuestros Fellows trabajan en proyectos geniales que muestran esas habilidades. Uno de los mayores obstáculos para proyectos exitosos ha sido obtener acceso a datos interesantes. Aquí hay algunas fuentes de datos públicos interesantes que puede usar para su próximo proyecto:

Datos económicos:

  1. Datos de mercado negociados públicamente : Quandl es una fuente sorprendente de datos financieros. Google Finance y Yahoo Finance son buenas fuentes adicionales de datos. Las presentaciones corporativas ante la SEC están disponibles en Edgar.
  2. Datos del precio de la vivienda: puede utilizar la API de Trulia o la API de Zillow. En el Reino Unido, puede encontrar el precio pagado en las ventas de viviendas y el precio medio histórico de la vivienda por región (use esta herramienta para traducir entre código postal y lat / long).
  3. Datos de préstamos: puede encontrar los impagos de préstamos estudiantiles por universidad y la colección completa de préstamos entre pares de Lending Club y Prosper, las dos plataformas más grandes en el espacio.
  4. Datos de la hipoteca de la vivienda: la Ley de Divulgación de Hipotecas de Vivienda pone a disposición datos y hay muchos datos de la Agencia Federal de Financiación de la Vivienda disponibles aquí.

Datos de contenido:

  1. Revise el contenido: puede obtener reseñas de restaurantes y lugares físicos de Foursquare y Yelp (ver geodatos). Amazon tiene un gran repositorio de reseñas de productos. Las reseñas de cerveza de Beer Advocate se pueden encontrar aquí. Rotten Tomatoes Los comentarios de películas están disponibles en Kaggle.
  2. Contenido web: ¿ busca contenido web? Wikipedia proporciona volcados de sus artículos. Common Crawl tiene un gran corpus de internet disponible. ArXiv mantiene todos sus datos disponibles a través de la descarga masiva de AWS S3. ¿Quieres saber qué URL son maliciosas? Hay un conjunto de datos para eso. Los datos de música están disponibles en la Base de datos Million Songs. Puede analizar los patrones de preguntas y respuestas en sitios como Stack Exchange (incluido Stack Overflow).
  3. Datos de los medios: hay artículos anotados abiertos del New York Times, Reuters Dataset y el proyecto GDELT (una consolidación de muchas fuentes de noticias diferentes). Google Books ha publicado NGrams para libros que se remontan a 1800.
  4. Datos de comunicaciones: hay acceso a mensajes públicos de Apache Software Foundation y de comunicaciones entre ex ejecutivos de Enron.

Datos del gobierno:

  1. Datos municipales: los datos sobre delitos están disponibles para la ciudad de Chicago y Washington DC. Los datos de inspección del restaurante están disponibles para Chicago y la ciudad de Nueva York.
  2. Datos de transporte: los viajes en taxi de Nueva York en 2013 están disponibles por cortesía de la Ley de Libertad de Información. Hay datos de bicicletas compartidas de Nueva York, Washington DC y SF. También hay datos de retraso de vuelo de la FAA.
  3. Datos del censo: datos del censo japonés. Datos del censo de EE. UU. De 2010, 2000, 1990. De los datos del censo, el gobierno también ha derivado datos sobre el uso del tiempo. Datos del censo de la UE. Vea los nombres populares de bebés masculinos / femeninos que se remontan al siglo XIX de la Administración del Seguro Social.
  4. Banco Mundial: tienen muchos datos disponibles en su sitio web.
  5. Datos electorales: los datos de contribución política de las últimas elecciones estadounidenses se pueden descargar de la FEC aquí y aquí. Los datos de las encuestas están disponibles en Real Clear Politics.
  6. Datos de alimentos, medicamentos y dispositivos: El USDA proporciona información basada en la ubicación sobre el entorno alimentario en su Atlas de alimentos. La FDA también proporciona una serie de conjuntos de datos públicos de alto valor.

Datos con una causa:

  1. Datos ambientales: los datos sobre el uso de energía en el hogar están disponibles, así como los datos climáticos de la NASA.
  2. Datos médicos y biológicos: puede obtener cualquier cosa, desde registros médicos anónimos, lectura remota de sensores para individuos, hasta datos sobre los genomas de 1000 individuos.

Diverso:

  1. Datos geográficos: intente buscar en estos conjuntos de datos de Yelp lugares cercanos a las principales universidades y uno para las principales ciudades del suroeste. La API de Foursquare es otra buena fuente. Open Street Map también tiene datos abiertos sobre lugares.
  2. Datos de Twitter: puede obtener acceso a los Datos de Twitter utilizados para el análisis de sentimientos, los Datos de Twitter de la red y los datos sociales de Twitter, además de su API.
  3. Datos de juegos: se encuentran disponibles conjuntos de datos para juegos, que incluyen un gran conjunto de datos de manos de Poker, un conjunto de datos de Domion Games en línea y conjuntos de datos de Chess Games. Gaming Unplugged Since 2000 también tiene una gran base de datos de juegos, precios, artistas, etc.
  4. Datos de uso de la web : los datos de uso de la web son un conjunto de datos común que las empresas buscan para comprender el compromiso. Los conjuntos de datos disponibles incluyen datos de uso anónimos para MSNBC, el historial de compras de Amazon (también anónimo) y el tráfico de Wikipedia.

Metasources: estas son excelentes fuentes para otras páginas web.

  1. Datos de la red de Stanford: http://snap.stanford.edu/index.html
  2. Cada año, el ACM lleva a cabo una competencia para el aprendizaje automático llamada KDD Cup. Sus datos están disponibles en línea.
  3. UCI mantiene archivos de datos para el aprendizaje automático.
  4. Datos del censo de EE. UU.
  5. Amazon aloja conjuntos de datos públicos en s3.
  6. Kaggle alberga desafíos de aprendizaje automático y muchos de sus conjuntos de datos están disponibles públicamente.
  7. Las ciudades de Chicago, Nueva York, Washington DC y SF mantienen almacenes de datos públicos.
  8. Yahoo mantiene muchos datos sobre sus propiedades web que pueden obtenerse escribiéndolos.
  9. BigML es un blog que mantiene una lista de conjuntos de datos públicos para la comunidad de aprendizaje automático.
  10. GroupLens Research ha recopilado y puesto a disposición conjuntos de datos de calificación del sitio web MovieLens.
  11. Finalmente, si hay un sitio web con datos que le interesen, ¡búsquelo!