Cómo obtener el conjunto de habilidades necesarias para ser un científico de datos profesional con un sólido conocimiento del aprendizaje automático en 6-12 meses

Eso más bien depende de dónde empiezas. Y yendo a.

El problema es que las universidades no reconocen DataScience como una carrera. Entonces, la mayoría de las personas comienzan como matemáticos, estadísticos o informáticos. Ahora hay cursos de diez semanas para convertir a los académicos de estas disciplinas en científicos de datos y aumentar significativamente los salarios acumulables.

Las personas que ya trabajan obtienen información de inteligencia empresarial o de programación, ya sea uno de los lenguajes clave, como Python, o de bases de datos o sistemas complejos, como ERP, M2M o centros de datos.

Todos estos pueden tener una ruta de migración, a menudo ayudada por proveedores de software clave (Mongo, Hadoop, Wolfram, etc. ejecutan una excelente capacitación). Pero a menudo enseñan solo la parte práctica de ser un DataScientist y usted es un especialista en, por ejemplo, bases de datos, en lugar de los principios subyacentes de estadística, aprendizaje automático o algoritmos matemáticos.

El aprendizaje automático y el aprendizaje profundo son los pináculos. Al igual que el ajedrez 4d, estos están creando modelos que cambian con el tiempo. Eso generalmente lleva un poco más de tiempo. 6-12 meses pueden darle la teoría, pero no la experiencia para hacer que tales proyectos funcionen de manera confiable.

Su problema es uno que nos proponemos responder en DataScience Oxford. Con académicos involucrados en proyectos como Deepmind de Google, Oxford está en el pináculo de DataScience y Thinktank para Europa y gran parte del mundo. Las nuevas empresas de datos de San Francisco ya están encontrando mejores DataScientists por salarios más asequibles aquí que en California (por ejemplo, DataSift, Zynga).

Sé de 100 vacantes en este momento y proyectamos que habrá mil en los próximos cinco años, ya que DataScience respalda a cada organización. Es por eso que hemos establecido Oxford DataSpace para mejorar y transferir las habilidades de las personas en el área y traer excelentes científicos de datos y científicos de datos nacientes de fuera del área, proporcionándoles un espacio elegante y un grupo de pares fuerte y diverso, respaldado con poderosos capacitación para desarrollar habilidades, para que puedan satisfacer nuestras necesidades futuras.

Necesitará aprender (muchas) habilidades diferentes.

Cuanto más sepas, mejor es.

Una vez que tenga estas habilidades, también debe mostrar algunos proyectos que haya realizado utilizando estas habilidades.

Estos proyectos podrían ser simples, ya que probablemente comenzará como un Data Scientist de nivel de entrada.

Aquí está la lista de habilidades necesarias:

  1. Almacenamiento y recuperación de datos.
  2. Limpieza y procesamiento de datos.
  3. Aumento de datos
  4. Modelado estadístico
  5. Modelado de aprendizaje automático
  6. Visualización de datos e informes.
  7. Gran procesamiento de datos
  8. Diseño de experimentos (pruebas A / B)

Como puede ver, la lista de habilidades es enorme y muy amplia. Obviamente, esto es solo una pequeña porción.

De hecho, la mayoría de los trabajos modernos de Data Science se están volviendo cada vez más especializados. Además, Data Science se realiza dentro de un equipo de personas diferentes.

Hay personas que son mejores con el almacenamiento y la recuperación de datos (que a menudo se denominan ingenieros de datos ) y otras que son mejores con las visualizaciones.

Por lo tanto, no necesitará dominar tanto conocimiento.

Para ser honesto, creo que podría obtener un trabajo si domina al menos un subtema de la mayoría de los temas principales enumerados anteriormente o menos temas importantes, pero con experiencia en uno de ellos (digamos que es muy bueno con el almacenamiento y recuperación de datos o Muy bueno con el análisis estadístico).

No obstante, debe estar familiarizado con la mayoría de las áreas mencionadas anteriormente.

Esto puede parecer abrumador, pero recuerde que una carrera en ciencia de datos vale la pena el esfuerzo y el tiempo invertido .

Diviértete aprendiendo en los próximos meses.

Déjeme saber si usted necesita más detalles.

En India hay un programa solo para fines de semana de (INSOFE) – Hyderabad que permite a los profesionales obtener una certificación en Big Data Analytics & Optimization (certificado por LTI de la Universidad Carnegie Mellon) sin interrumpir su trabajo. (Los estudiantes internacionales también pueden aplicar)

Algunas de las habilidades que las personas adquirirán de este programa de certificación son:
Experiencia en programación : R, Hadoop y su ecosistema
Experiencia temática : fundamentos estadísticos, modelado estadístico, análisis de datos, aprendizaje automático, minería de texto, optimización, visualización de datos, comunicaciones y cuestiones éticas en análisis
Técnicas: Regresión, Series temporales, Árboles de decisión, Agrupación, Reglas de asociación, Vecinos K-Nearest, Redes neuronales, SVM, Algoritmos genéticos, Simulaciones de Monte Carlo, Programación lineal, Programación cuadrática, etc.

Se imparte solo en un aula durante los fines de semana durante un período de 6 meses y está dirigido a ingenieros en activo. Cada estudiante trabaja en un proyecto de ciencia de datos avanzado del mundo real.

Además de cubrir todos los conceptos y técnicas básicas y avanzadas, el programa también cubre temas extremadamente actuales como aprendizaje profundo, métodos espectrales, técnicas de kernel, BSP, HAMA, SPARK, Pregel / Giraph, NUTCH, Gráficos sociales, Procesamiento de texto grande, Minería de texto utilizando RTM, HaaS (Hadoop como servicio) y Apache MAHOUT a una profundidad adecuada para un ingeniero práctico.

Es muy posible que alguien con el conjunto de habilidades iniciales correcto obtenga un trabajo de nivel de entrada como científico de datos con un esfuerzo concertado en 6 a 12 meses. Escribo esto basado en mi experiencia como científico de datos respetado.

Suponiendo que tiene una formación básica en informática y comodidad general con las matemáticas, que, como sucede, sé que lo tiene, estos son los pasos:

Primero, como mínimo, necesita las habilidades discutidas en este curso popular:
Machine Learning – Universidad de Stanford. Creo que el énfasis en las redes neuronales es un poco exagerado, pero en general es una buena base.

Segundo, para proyectos, enfóquese en hacer los desafíos (y preste atención a las soluciones proporcionadas en los foros) en Kaggle.

Con respecto a la relación entre el curso de Stanford ML y Kaggle, vea: ¿Por qué convertirse en un científico de datos podría ser más fácil de lo que piensa?

Los tiempos han cambiado, ya no ganarás una competencia de Kaggle fácilmente, pero aún puedes desarrollar las habilidades que necesitas rápidamente después de unas 15 competiciones. Si tienes las agallas para proporcionar un esfuerzo independiente en las entradas para tantos con un esfuerzo serio, estás al 75% del camino.

Finalmente, a pesar de que el curso de Stanford ML se enseña usando Octave, familiarícese con scikit-learn para modelado y validación cruzada, pandas, matplotlib y experimente (¡solo experimente!) Con map reduce / Spark y AWS cuando compita en Kaggle.

La visualización de datos con D3 está de moda en este momento, y es una habilidad muy comercializable para un científico de datos principiante (conozco una compañía que lo contrataría en el acto para d3), pero puede ser demasiado para abordar en 6 meses. Si quiere ser un científico de datos y no un experto en visualización de datos, eso podría ser una gran diversión. Sin embargo, es fundamental comprender el poder de la visualización de datos para el argumento.

Practique y comprenda la regresión multivariada, la regresión logística, la agrupación de k-medias, SVM, bosques aleatorios (y GBM) (nuevamente, en concursos sobre Kaggle). Hay algunas otras buenas respuestas sobre los métodos de ML más utilizados en Quora, pero la verdad es que mucha, mucha práctica de la vida real implica una regresión multivariada porque es lo suficientemente buena y los resultados son fáciles de interpretar.

Si tiene más tiempo, realice 2 a 3 proyectos personales que tengan valor económico: predecir el desempeño del mercado de X en función de varios factores. Por ejemplo, (twitter, menciones de periódicos) -> (desempeño de IPO) o (la demanda de los clientes de la temporada pasada reflejada en las ventas de eBay) -> (éxito de nuevas líneas de ropa). Para hacer estos proyectos, intente raspar los datos que necesita.

No es necesario que conozca la Introducción al aprendizaje estadístico por dentro y por fuera. Algunas de sus secciones son mejores que otras. Pero es una referencia buena y respetada para empezar, también, disponible de forma gratuita y legítima en un enlace en esa página. Sería útil comprender los conceptos de análisis de datos bayesianos y los métodos de Monte Carlo. MCMC es especialmente valioso.

Todas estas habilidades se pueden perfeccionar utilizando los videos educativos y el material del curso ampliamente abundantes.

Gracias por el A2A. Inicialmente rechacé por falta de tiempo dar una respuesta completa, pero espero que esto ayude. Buena suerte, y si alguna vez estás en Nueva York, contáctame 😉

Cualquier escolarización realmente te presentaría el tema e idealmente te daría un marco para educarte en un contexto de bricolaje.

Hay quizás 12 campos de estudio relacionados que necesitaría una introducción. Podría hacer una serie de bootcamps en el transcurso de seis meses a un año para una introducción inmersiva que cubra los doce. En cuanto a qué temas y qué campamentos de arranque, tal vez comience con un lugar como AMPLab – UC Berkeley, lea los documentos más citados y siga las pistas desde allí, incluida la pregunta a las personas que han recorrido el camino que desea seguir.

Aprendemos haciendo. Un conocimiento sólido del aprendizaje automático solo vendría con el tipo correcto de hacer durante un período de tiempo significativo. La tutoría en el trabajo ayuda enormemente, lo que implica la necesidad de encontrar empleadores a los que les guste traer nuevos talentos a través de la tutoría.

Estas son las habilidades más necesarias para los puestos de científico de datos basadas en el análisis de miles de puestos de trabajo (priorizados por importancia):

  • Pitón
  • Aprendizaje automático
  • Big data
  • R
  • Hadoop
  • Estadística
  • SQL
  • Java
  • Minería de datos

Puede encontrar una guía personalizada paso a paso para convertirse en un científico de datos aquí, y es completamente gratis.

Registre cursos de especialización en ciencia de datos en Coursera o Udacity, mire los videos, lea los materiales, termine los cuestionarios y escriba programas. Una vez que complete estos, tendrá una base en ciencia de datos y habilidades básicas. No es suficiente.

Dependerá de muchos factores:

1) ¿Qué sabes ahora?
2) ¿En qué eres bueno?
3) ¿En qué no eres tan bueno?
4) ¿Qué es exactamente lo que quieres hacer? (El “científico de datos” es bastante amorfo, y una persona dice “es un estadístico que vive en San Francisco”).

A menos que tenga experiencia en matemática avanzada, programas de análisis y pueda codificar, 12 meses lo dejarán 12 meses más cerca, pero generalmente requiere un grado avanzado.

More Interesting

Análisis de datos, ciencia de datos, análisis web, análisis de negocios: ¿Cuáles son los salarios típicos de los "científicos de datos" para las nuevas empresas en el Área de la Bahía?

¿Por qué tantos ingenieros se convierten en científicos de datos?

¿Puedo aplicar los algoritmos de aprendizaje automático sin saber cómo funcionan realmente para resolver el problema de la ciencia de datos y convertirme en científico de datos?

¿Cuáles son los proyectos más valiosos que puede crear un científico de datos?

¿Es la demanda de científicos de datos lo suficientemente alta en relación con la oferta, como para que los empleadores consideren candidatos menos que ideales?

¿Cómo es ser un científico de datos independiente / independiente?

Yo trabajo como científico de datos. ¿Tiene sentido para mí aprender finanzas cuantitativas por el bien de mis propias inversiones?

¿Cuál es el mejor trabajo para alguien a quien le encanta construir interfaces que interactúan con los sistemas de datos y está en el proceso de adquirir habilidades de ciencia de datos?

Estoy obteniendo un doctorado en ingeniería mecánica. ¿Vale la pena abandonar mi área y seguir una carrera en ciencias de datos?

¿Cómo se conectan los campos del científico de datos, el aprendizaje automático y el procesamiento del lenguaje natural?

¿Alguien puede ilustrar los seis algoritmos (con diagramas de flujo si es posible) que un científico de datos debe saber?

¿Por qué los científicos creen que tienen razón?

Quiero trabajar como analista de datos o científico de datos. ¿Cómo debo comenzar?

¿Puedo ser un buen científico de datos si no soy bueno en programación?

Cómo cambiar mi carrera de incrustado a ciencia de datos