¿Es usted un científico de datos hecho a sí mismo? ¿Cómo lo hiciste?

Aquí hay una pregunta que creo que estoy calificado para responder.

Soy un graduado de Ingeniería Mecánica que no tenía conocimiento previo sobre ciencia de datos o, incluso, codificación cuando dejé mi universidad hace seis años. Ahora estoy trabajando como Científico Principal de Datos en una empresa de renombre y también uno de los 25 principales Científicos de Datos de Kaggle en el mundo.

Aunque no tengo experiencia formal en CS o Estadística o Matemáticas, me apasiona hacer números y encontrar patrones desde mis días escolares. Creo que cualquiera con una buena pasión por los patrones y los números, junto con la cantidad adecuada de trabajo duro, puede convertirse en un científico de datos hecho a sí mismo. Aquí está mi camino:

Cursos MOOC:

Esto jugó un papel importante y es el primer lugar en mi camino de aprendizaje. Los cursos que me ayudaron a comprender los conceptos básicos son

  1. Introducción a la estadística por Edx: este es un muy buen curso introductorio de estadística que me enseñó los conceptos básicos
  2. Curso de aprendizaje automático en Coursera: un curso muy famoso de Andrew NG que la mayoría de la gente conoce
  3. Curso de Analytics Edge en Edx: este es nuevamente un muy buen curso con muchos ejemplos prácticos
  4. Aprendizaje estadístico de Standford Online: este es de nuevo un curso muy bueno por el cual se enseñan los conceptos de modelado predictivo en detalle con códigos R. El plan de estudios del curso sigue de cerca este libro.

Algunos otros cursos en línea agradables que encontré son

  1. Data Science por Harvard Extension: este es un curso muy bueno para las personas que desean aprender los conceptos con Python.
  2. Ciencia e ingeniería de datos con Apache Spark de Edx: este es un curso muy útil para las personas que comienzan con análisis de big data
  3. Aprendiendo de los datos de CalTech: cubre los conceptos básicos del aprendizaje automático
  4. Redes neuronales para el aprendizaje automático de Coursera: interesado en conocer al nuevo niño (aprendizaje profundo) en la ciudad. Este curso es el lugar perfecto para lo impartido por nada menos que el propio Geoff Hinton.

Una vez que obtuve una comprensión justa de los conceptos de DS de estos cursos, tenía ganas de usarlos en algún lugar. Estaba buscando opciones para probar estas habilidades teóricas. Fue entonces cuando me encontré con las competiciones DS / ML.

DS / ML Competiciones:

Conocí a Kaggle cuando estaba buscando conjuntos de datos para aplicar mis conocimientos. Pensé que podía superar las competiciones fácilmente ya que entiendo bien los conceptos básicos. Pobre de mí, no sabía que la práctica es un juego de pelota diferente de la teoría.

Comencé a hacer competencias en Kaggle, pero terminé en la mitad inferior de la mesa a pesar de todos los arduos trabajos. Así que una vez que terminaron las competiciones, comencé a ver cómo otros resolvían los problemas de los foros y el blog de Kaggle. Este es un lugar importante donde la mayor parte de mi aprendizaje tuvo lugar.

También me ayudó a perfeccionar mi pensamiento estructurado al abordar los problemas de DS. También me ayudó a trabajar en diferentes conjuntos de datos del mundo real de diferentes dominios, cada uno desafiando a su manera. Cuando trabajé más profundamente en estos problemas, obtuve nuevos aprendizajes cada vez y me ayudó a mejorar aún más.

Hacer competiciones de Kaggle al primer intento puede ser desalentador en estos días ya que los niveles de competencia son bastante altos. Por lo tanto, uno puede intentar trabajar en problemas de ciencia de datos en otras plataformas como Analytics Vidhya Hackathons, Crowdanalytix, Driven Data, etc. antes de probar Kaggle para ganar algo de confianza.

Otras fuentes:

Además de los concursos MOOC y DS, dos fuentes importantes que me ayudaron con mi aprendizaje y comprensión de este espacio son

  1. KDNuggets
  2. Analytics Vidhya

Sigo estos dos blogs para actualizar mis conocimientos y mantenerme al día con los avances en el campo.

Otros recursos que encontré útiles son

  1. Data Science Central
  2. Blog de WildML
  3. Analytics India Magazine (Para comprender los acontecimientos en India)
  4. Blog de MLWave
  5. Blog FastML

Espero que esto ayude a otros científicos de datos hechos a sí mismos.

Sí, creo que califico para responder esta pregunta. Antes de mi puesto actual en Kabbage, tenía una carrera (exitosa) de 8 años en el diseño de procesadores gráficos, móviles y de servidor. El proceso completo tardó casi un año y el período de mi entrevista duró aproximadamente 2-3 meses. Terminé asistiendo a 5 entrevistas en el sitio y tuve ofertas de 3. Aquí está mi historia.

La Fase de Motivación (1 mes)

Como graduado de ingeniería informática, tuve una exposición mínimamente sorprendente a las estadísticas y ninguna exposición al aprendizaje automático. Inicialmente, el zumbido en torno a la ciencia de datos en los medios tecnológicos me interesó en el área. Busqué en blogs, medios de comunicación y artículos en línea tratando de definirme a mí mismo la idea de un “científico de datos” y lo que hace que uno tenga éxito en el papel. Esto incluyó explorar historias sobre ciencia de datos que marcan la diferencia en diversos campos, desde la atención médica hasta el reclutamiento, el marketing y la educación, y todo lo demás. Poco a poco, la exageración se convirtió en un verdadero potencial en mi mente. Esta fase de establecer la motivación fue muy importante y creó el impulso intrínseco para tener éxito. De lo contrario, habría sido muy probable que hubiera renunciado al esfuerzo antes de llevarlo a cabo hasta el final.

A continuación, me propuse descubrir las habilidades necesarias para ser un científico de datos. La idea más popular en la red es que un científico de datos es un superhumano que se encuentra en la intersección de las habilidades de programación, estadística (y ML), matemáticas, dominio comercial y comunicación. Además, también me gustaría familiarizarme con las herramientas de big data como Hadoop / Spark / AWS a la mezcla según mi experiencia. ¡Solo podía marcar las habilidades de ingeniería de software (habilidades de piratería) en este diagrama de Venn! Una de mis principales quejas con mi trabajo anterior como arquitecto de computadoras fue que sentí que mi curva de aprendizaje estaba saturada. ¡Con un requisito de habilidades tan vasto, sabía que siempre habría algo nuevo que aprender durante mucho tiempo!

La fase del conocimiento (9 meses)

La fase de conocimiento implicó inscribirse y completar una serie de cursos en línea a través de Udacity (U), Coursera (C) y edX (E). Si bien Coursera fue algo seco y teórico y se centró en el formato de conferencia tradicional, tanto Udacity como EdX se centraron en una experiencia de aprendizaje más interactiva con videos cortos y toneladas de cuestionarios y preguntas de programación incorporados para ayudar con el aprendizaje práctico. Si bien esta fase duró mucho tiempo, fue porque había grandes lagunas de conocimiento para llenar. También estaba tomando estas clases principalmente en las tardes o fines de semana después de mis horas de trabajo regulares, también conocido como tiempo libre. Me enfoqué en estadísticas, aprendizaje automático, análisis exploratorio de datos y algunos temas avanzados (ya que tenía las habilidades de programación e ingeniería de software de mi trabajo anterior) .

Lista de clases que tomé, pero no necesariamente en ese orden (no solo descremado, sino que en realidad completé todas las conferencias, tareas y mini proyectos en su mayor parte):

  1. Estadística descriptiva e inferencial (U): crítica
  2. Machine Learning por Sebastian Thrun (U) – Crítico / práctico
  3. Análisis Exploratorio de Datos (U) – Crítico
  4. Pruebas A / B (U): es bueno saberlo
  5. Sistemas de recomendación (C): es bueno saberlo
  6. Minería de texto y análisis (C): desnatado / agradable de saber
  7. Machine Learning por Andrew Ng (C) – Crítico / Teórico
  8. Introducción a Hadoop (U) – Crítico / Agradable saber
  9. Introducción a Big Data (E) – Crítico / Agradable saber
  10. Análisis de Big Data con Apache Spark (E): es bueno saberlo
  11. Algoritmos I y II (C): principalmente para entrevistas

La fase de desarrollo de habilidades (6 meses)

Esta fue una fase súper interesante.

Después de armarme con los fundamentos necesarios y las herramientas prácticas (Python, R, base matemática y estadística), llegó el momento de ponerlos a trabajar. Entra Kaggle. Para aquellos que no lo saben, Kaggle es una plataforma competitiva en línea para científicos de datos en ciernes y experimentados. Es una oportunidad de ensuciarse las manos con conjuntos de datos reales de compañías reales para resolver problemas reales utilizando información obtenida de los datos. Sobre todo, es una comunidad vibrante de personas de ideas afines que se divierten y aprenden unos de otros. Kaggle tuvo éxito sin ayuda en enseñarme los matices del diseño de experimentos, el procesamiento previo de datos, la ingeniería de características, la validación de modelos y la construcción de conjuntos. La gamificación de la tarea en cuestión (tabla de clasificación, clasificaciones, foros, etc.) hizo que la experiencia fuera enormemente gratificante y divertida al mismo tiempo. Sin mencionar que puedes usar tus logros en Kaggle para obtener globos oculares de reclutador. Para obtener más detalles sobre esto, vea: la respuesta de Vijay Sathish a ¿Realmente se preocupan los reclutadores por los logros de Kaggle o los cursos completados con éxito en Coursera?

La segunda fase del desarrollo de habilidades implicó tratar de ensuciarme las manos con proyectos de ciencia de datos del mundo real. Uno de los inconvenientes de Kaggle es que el problema ya está definido, los datos se le proporcionan (y principalmente en formato limpio) y se define el éxito. En el mundo real, traducir un problema empresarial en una tarea de ciencia de datos, identificar fuentes de datos, extraer datos de múltiples fuentes, limpiar datos, definir métricas para el éxito, encontrar la verdad básica o las etiquetas son tareas igualmente críticas. La parte de construcción y validación del modelo es probablemente la tarea más fácil. Identifiqué varias áreas problemáticas en mi campo en Oracle relacionadas con el análisis de la carga de trabajo del procesador, el análisis de la cobertura de rendimiento y el muestreo de la carga de trabajo: definí el problema, identifiqué los conjuntos de datos y las métricas y me puse a trabajar con supervisión. Técnicas de aprendizaje no supervisadas y visualizaciones para abordar los problemas en cuestión. La mayor parte de mi equipo como arquitectos informáticos tenían una experiencia mínima o nula en el aprendizaje automático, por lo que este era un territorio desconocido. Las ideas que traje a la mesa desde una perspectiva diferente fueron enormemente gratificantes y mis colegas me miraron con nuevo respeto. ¡Estaba esencialmente interrumpiendo la arquitectura de la computadora dentro del equipo! Esto también fortaleció aún más mi determinación de dedicarme a la ciencia de datos como un trabajo a tiempo completo.

La fase de entrevista (3 meses)

La fase de entrevista es la fase de señalización. Se trata de indicarle al reclutador que tiene las habilidades requeridas en papel y convencer a su futuro gerente y compañeros de equipo de que puede ejecutar esas habilidades en el trabajo. Los logros de Kaggle (mi perfil: VijaySathish | Kaggle y ver: la respuesta de Vijay Sathish a ¿Cómo puede un principiante entrenar para concursos de aprendizaje automático? ¿Cuáles son las ideas fundamentales, las herramientas y los recursos de información que necesito para comenzar a desarrollar experiencia en el aprendizaje automático?) Y mis proyectos de ciencia de datos en el trabajo ayudaron a atraer la atención de los reclutadores y poner mi pie en la puerta. Mi base teórica del trabajo del curso y toda la experiencia obtenida de la ejecución de los diversos proyectos de ciencia de datos ayudaron a convencer a mis entrevistadores.

Solicité entrevistas en ondas discretas. Esto significa que me postularía a 10–15 empresas por semana y esperaría las respuestas. Si recibiera 2–3 respuestas, dejaría de solicitarlo por algún tiempo, de lo contrario, solicitaría otro puñado la próxima semana. También me concentré en las habilidades requeridas para el trabajo y en la industria específica durante la solicitud porque el trabajo ‘Data Scientist’ puede asumir una gama sorprendentemente amplia de posibilidades dependiendo de la empresa. (Por ejemplo, una descripción del trabajo que incluyera experiencia previa en PNL, aprendizaje profundo o visión por computadora estaría fuera de mi experiencia / habilidades, mientras que un trabajo que principalmente involucraba consultar bases de datos, pruebas A / B o análisis de productos se sentía más como un rol de analista tradicional que no era lo que estaba buscando). Utilicé principalmente AngelList y LinkedIn para postularme a trabajos de ciencia de datos y me enfoqué en startups de etapa media. Las nuevas etapas iniciales generalmente tienen poca o ninguna configuración de infraestructura de software, por lo que pasaría la mayor parte de su tiempo en ingeniería de software en lugar de tareas de ciencia de datos. Esto está bien para algunas personas, pero este no fue mi enfoque principal para mi primer trabajo de ciencia de datos. Las grandes empresas como Google, Facebook, Microsoft, etc. tienen una barra más alta y sería casi imposible superar la etapa de reclutamiento dado su vasto grupo de candidatos.

Data Science es un campo próximo y atrae a profesionales de diversos campos. La habilidad más importante en la entrevista (y quizás también en el trabajo) es contar historias. Eres la mejor persona para promocionarte. Destaque sus competencias, su motivación para el trabajo y lo que puede aportar. Envuelva una narrativa interesante alrededor de su proyecto favorito. En la pantalla de mi teléfono con mi (ser) gerente en Kabbage, comencé con la historia de resolver el problema de los recursos computacionales y el tiempo para la empresa. Le expliqué cómo usé la agrupación de la carga de trabajo para seleccionar y elegir cargas de trabajo representativas de un enorme espacio de carga de trabajo para monitorear las regresiones de rendimiento semanales y reduje los requisitos de cálculo en 10 veces. Le expliqué cómo usé nuestro simulador de rendimiento interno y nuestros registros de experimentos para extraer los datos para este estudio. Me di cuenta de que mi gerente comenzó muy escéptica (porque era nueva en el campo de la arquitectura de computadoras), pero al final, se quedó muy impresionada con mi esfuerzo. Puedo decir que había ganado más del 50% de la batalla en ese momento.


En resumen, la transición a la ciencia de datos desde un campo lateral requirió una paciencia inmensa, pero al final también fue un viaje extremadamente gratificante para mí. (En la transición, ver: la respuesta de Vijay Sathish a ¿Debería comenzar como analista de datos o ingeniero de software para convertirme en científico de datos?)

Finalmente, si usted es un científico de datos autodidacta y cree que tiene lo que se necesita, échele un vistazo y solicite estos roles increíbles: [correo electrónico protegido] y [correo electrónico protegido]

No estoy seguro si estoy calificado para responder esta pregunta, pero aquí está la mía de todos modos.

Me gradué con una maestría en Ciencias de la Computación, hice alrededor de 3 años como más o menos ingeniero de software entre 2011 y 2013 en Singapur. En aquel entonces, Data Science todavía era muy nuevo.

Comencé con Data Science leyendo e intentando mucho solo mientras era ingeniero en mi trabajo diario.

Primero, es el Premio Netflix. Me puse súper curioso y comencé a leer periódicos, explorando Apache Mahout, alrededor de 2011–2012.

A continuación, seguí leyendo y pasando mucho más tiempo en sistemas de recomendación, pruebas A / B y el curso de ML de Andrew, alrededor de 2013.

En el próximo año, 2014, es Pandas, Scikit Learn, y finalmente se unió a mi primera competencia de Kaggle, donde las cosas realmente comenzaron a tener sentido para mí.

2015 fue el año en el que aprendí más sobre Machine Learning, al participar en más desafíos de Kaggle y varias otras competiciones en Singapur. Aprendí sobre cosas como xgboost, ensamblaje, ingeniería de características, ajuste de parámetros, validación cruzada, etc.

Fue entonces cuando finalmente comencé a llamarme científico de datos, aunque todavía no conozco tanto sobre ciencia de datos como me encantaría. De hecho, mi trabajo actual es en Marketing Data Science, que es un campo completamente nuevo e interesante para mí, donde comencé a aprender sobre la atribución multitáctil, la optimización del gasto de marketing, el modelado de mezcla de medios, etc.

A principios de 2012, era ingeniero de software en Atlanta y me frustraba con mi papel. De acuerdo, tenía una amplia experiencia en informática (con un doctorado y todo eso), pero después de 3 años, trabajar como desarrollador ya no era satisfactorio. Quería dar el siguiente paso en mi carrera, pero la única opción para un desarrollador parecía ser convertirse en gerente de proyecto. Y en ese momento conocí a demasiados gerentes de proyecto hastiados y de mediana edad para que pareciera una perspectiva feliz.

Ya me había atrevido con la idea de convertirme en un desarrollador de aplicaciones autodidacta, pero no tenía ningún talento para el desarrollo front-end. Estuve buscando consultoría administrativa por un tiempo, pero no tuve el estómago para dedicar 80-100 horas semanales con toneladas de viajes. Por curiosidad (o tal vez desesperación), me inscribí en el primer producto de una nueva empresa, y eso me puso en el camino de ser un científico de datos.

La startup se llamó Coursera, y el producto fue su primer curso, Machine Learning por Andrew Ng.

Durante los siguientes 2 años, me enseñé ciencia de datos a través de varios recursos en línea (gratuitos y de pago), y terminé en un trabajo de ensueño como Chief Data Scientist en una nueva empresa de ciberseguridad financiada por una de las 3 principales empresas de capital de riesgo en el mundo. Y hoy, soy Director de Educación de Ciencia de Datos en Springboard, ayudando a miles de otros estudiantes a aprender ciencia de datos y tener acceso a este increíble campo. Aquí hay algunas cosas que aprendí en el viaje sobre cómo convertirse en un científico de datos, ¡y algunos de estos consejos probablemente también pueden traducirse en otros tipos de transiciones profesionales!

1] Comience con algo pequeño: con cursos en línea o campamentos de arranque
Comencé tomando (¡y terminando!) Varios cursos en Coursera, generalmente tomando 2 cursos a la vez. En ese momento, Coursera era el único lugar en línea disponible para este tipo de cosas. Hoy en día hay muchas opciones en línea, que van desde cursos gratuitos hasta títulos de maestría muy caros.

Personalmente, soy fanático de los bootcamps en línea, principalmente porque te permiten aprender los fundamentos rápidamente, lo suficiente como para cambiar a un rol más cercano a la ciencia de datos que el anterior. En particular, recomiendo los talleres guiados por mentores de Springboard ( Descargo de responsabilidad: trabajo en Springboard y he diseñado el plan de estudios, por lo que soy parcial ). ¡Cuando comencé este viaje, tener un mentor con el que pudiera conectarme regularmente me habría ahorrado mucho tiempo y esfuerzo!

Prefiero la idea de hacer cursos más cortos o campamentos de arranque en lugar de una maestría costosa y costosa desde el principio. Inicialmente, es posible que no sepa lo que quiere a largo plazo, y un programa más corto le brinda una forma rápida de probar las aguas mientras enseña valiosas habilidades fundamentales.

2] Construya su red uniéndose a una reunión (¡o comience una!)
Unos meses después de comenzar a tomar las clases de Coursera, quería conectarme con otras personas en el espacio de la ciencia de datos. Alguien sugirió revisar Meetup, así que decidí mirar allí. Encontré varias reuniones en Atlanta sobre herramientas específicas, por ejemplo, R, Python, Hadoop, etc., pero nada sobre ciencia de datos como campo. Un amigo y yo decidimos comenzar una reunión llamada Data Science ATL.

Nuestras primeras reuniones se organizaron muy rudimentariamente. Tanto los oradores como la audiencia fueron extraídos de nuestras redes personales. ¡Poco a poco, el grupo creció en popularidad y en los próximos dos años, acumuló más de 2000 miembros!

Los encuentros sobre ciencia de datos existen en todas las ciudades importantes del mundo ahora. Son una forma fantástica de construir rápidamente su red, conocer a profesionales en un campo y aprender sobre las últimas tendencias y la información privilegiada sobre diversos trabajos y empresas. Recomiendo encarecidamente encontrar su reunión de ciencia de datos más cercana e ir a su próximo evento. Es bastante simple:

  1. Vaya a meetup.com y cree una cuenta gratuita.
  2. Busque ‘Ciencia de datos’ cerca de su código postal. Si vives en una ciudad pequeña, amplía la distancia que estás buscando. La gente conducía regularmente en 3–4 horas (desde AL, TN, NC y SC) para nuestras reuniones mensuales en Atlanta.
  3. Confirmar asistencia a un evento
  4. ¡Aparece y diviértete!

3] Haz muchas entrevistas informativas
En el verano de 2012, justo después de que se despertó mi interés en la ciencia de datos, me fui de vacaciones a Washington DC. Esta era una ciudad a la que mi compañero y yo estábamos considerando mudarnos, por lo que queríamos buscar oportunidades de trabajo (eventualmente terminamos mudándonos a SF). A través de una investigación en LinkedIn, encontré a un científico de datos que trabajaba en LivingSocial (las compañías de cupones y negocios eran realmente grandes entonces (¿recuerdas a Groupon?)) Se acercó a él y organizó una breve reunión de café de 30 minutos en un Starbucks cerca del LivingSocial office.

Llegué a la reunión un poco temprano y encontré una mesa cómoda y agradable. Apareció, y resulta que decidió llevar a su jefe para la conversación, dándome dos científicos de datos por el precio de uno. Fui muy directo con ellos; No quería un trabajo con ellos de inmediato, pero les hice dos tipos de preguntas.

  • ¿Qué necesito aprender para convertirme en un científico de datos?
  • ¿Cómo sé que estoy listo?

Tan pronto como se dieron cuenta de que no los estaba lanzando para un trabajo, se relajaron de inmediato y durante los siguientes 90 minutos, me dieron una cantidad increíble de información, hasta capítulos específicos de libros que debería leer y entrevistar trampas que debería evitar . Esta gran cantidad de información me ayudó en los próximos meses a decidir en qué tipo de educación y aprendizaje necesitaba invertir mi tiempo.

Las entrevistas informativas con expertos son los pasos más valiosos (y subestimados) que puede tomar para crear o cambiar carreras. A menudo pueden ahorrarle meses o años de tiempo y esfuerzo. Úsalos bien.

4] Cambiar trabajos a roles de transición
Hacer algunos cursos de Coursera me dio suficiente conocimiento de Machine Learning en ese momento que pude cambiar de trabajo al rol de ingeniero de datos. En ese puesto, trabajé principalmente con tecnologías de big data como Hadoop, Cassandra, HDFS, etc. Mi responsabilidad principal era trabajar con científicos de datos, leer su código y sus trabajos de investigación y descubrir cómo escalar ese trabajo a conjuntos de datos masivos con miles de millones de registros. Si bien este trabajo utilizó principalmente mis habilidades de ingeniería de software, me acercó mucho más a la ciencia de datos, tanto a través de mi trabajo como al trabajar con científicos de datos en el día a día.

5] Haz que tu empleador financie más educación
Después de tomar las clases de Coursera y cambiar al rol de ingeniero de datos, me di cuenta de que quería acercarme aún más a la ciencia de datos y aprender mucho más sobre Machine Learning de una manera rigurosa. Un amigo sugirió tomar clases en Stanford a través de su programa SCPD. Cada clase en Stanford cuesta varios miles de dólares, sin embargo, pude negociar eso con mis empleadores en 2-3 empleos posteriores. Esto es algo que muchas personas dudan en investigar. La mayoría de los empleadores tienen presupuestos educativos que están disponibles para que los empleados los utilicen, pero como empleado, debe presentar un caso, generalmente a su jefe, sobre por qué el curso que planea tomar ayudaría a la empresa. La mayoría de los jefes en mi experiencia están muy contentos de tener empleados que desean subir de nivel sus habilidades y asumir nuevos desafíos.

Así que ahí está mi viaje para convertirme en un científico de datos. Comenzando por un ingeniero de software, tomando clases en Coursera, comenzando una reunión, cambiando a través de un par de roles de ingeniería de datos, tomando clases en Stanford financiadas por mi empleador y finalmente obteniendo el trabajo de mis sueños como Científico Jefe de Datos en una startup de ciberseguridad financiada por Una de las firmas de capital riesgo más importantes del mundo. ¿Y cómo conseguí ese trabajo? Uno de mis mentores, que también fue el primer orador en mi reunión de ciencia de datos, me recomendó al fundador de la compañía. Su red a menudo vale la pena de maneras extrañas e inesperadas.

PD: Con nuestros cursos de ciencia de datos guiados por un mentor en Springboard, hacemos que este viaje sea mucho más fácil para usted. Su mentor no solo le brinda orientación técnica sólida, sino que también funciona como una puerta de entrada al mundo de los científicos de datos. Muchos de nuestros estudiantes exitosos han encontrado sus oportunidades en la ciencia de datos a través de conexiones y orientación de sus mentores.


Raj Bandyopadhyay es el Director de Data Science Education en Springboard . Él es responsable de crear y mantener el plan de estudios de ciencias de datos de Springboard y también brinda apoyo profesional específico para los estudiantes de ciencias de datos. Antes de esto, trabajó como científico de datos durante varios años, principalmente en el sector de ciberseguridad. Tiene una maestría / doctorado en informática de la Universidad de Rice y una licenciatura en informática de IIT Bombay.

Comencé mi carrera como “Analista de Investigación de Operaciones”, pero rápidamente me di cuenta de que solo el 10% de mi trabajo realmente involucraba Investigación de Operaciones.

Para aquellos que no saben qué es eso: Investigación de operaciones u OR es esencialmente la parte de Optimización o Análisis prescriptivo del conjunto de habilidades de Ciencia de datos. El resto de mi trabajo involucró cosas como disputas / manipulación de datos, regresión, modelos estadísticos, agrupación, visualización, etc. En otras palabras, estaba en un trabajo de Data Scientist incluso antes de que se acuñara el término, y solo tenía una fracción de lo requerido conjunto de habilidades para empezar.

Pero también lo estaban todos los demás. De hecho, estaba en una mejor situación que las otras que conocía en roles similares, porque tenía dos maestrías en diferentes campos y sabía cómo aprender .

Mi primera semana en el trabajo, tuve que enseñarme el lenguaje de programación SAS para la manipulación de datos y el análisis estadístico. Poco después, tuve que aprender algunos modelos de elección discreta bastante avanzados que implican Regresión logística multinomial. La primera vez que leí un artículo “introduciendo” modelos de elección discreta, entendí solo el 10%. Tomó unos días de investigación, ramificándose de los documentos y conceptos citados, para comprender los principios básicos y entrenar un modelo.

Volvería a leer ese documento todos los años, y probablemente solo en mi tercer o cuarto año de experiencia laboral pude afirmar con confianza que lo entendí todo. Y probablemente en mi quinto o sexto año que entendí todos o la mayoría de los documentos avanzados sobre el tema.

“¿Cómo lo hiciste?” – La respuesta es la misma para todos y para todos los trabajos.

Estudiar. Práctica. Aprende y mejora.

¡Es solo que para Data Science, hay mucho más que aprender!

La gente me llama uno, está en una tarjeta de presentación, así que supongo que sí.

Tengo experiencia en ciencias sociales y me especialicé en aspectos de teoría y métodos de investigación que ayudaron a construir la base de lo que soy como profesional ahora. Hubo poca codificación más allá de SPSS. Me tomó 3 intentos de pasar trig. Había tomado algunas clases de estadística en pregrado. Mis habilidades de Excel incluían fórmulas muy básicas y en un buen día podría hacer algunas tablas dinámicas muy rudimentarias. La mayor parte de mi trabajo fue muy pertinente y muy específico.

Fui aceptado en dos programas en la escuela de posgrado como doble estudiante de maestría: uno en Relaciones Públicas y otro en Relaciones Internacionales. Acepté la oferta pensando que dos grados es mejor que uno. Como un estudiante doble de maestría, teníamos que llegar durante el verano y tomar cursos de diseño gráfico. Rápidamente descubrí que tenía un don para hacer diseños muy simples y minimalistas que transmitían mucho significado al usuario final, sin embargo, esperaba obtener un trabajo en inteligencia nacional, así que ¿por qué necesitaría poder hacer cosas bonitas en la suite de Adobe? Dejé de pensar que nunca usaría las habilidades, pero en mi tiempo libre rehacería sitios web, logotipos, marcas e imágenes de publicación importantes por diversión.

Al mismo tiempo, dominaría rápidamente un área temática, me aburriría y pasaría a otra. Lo mismo con la metodología. La secuencia tradicional de los cursos de matemáticas de la universidad no funcionaba para mí, así que compré algunos textos de econometría, probabilidad y álgebra lineal en Amazon y comencé a leer, pero más allá de comprender los conceptos y poder completar ejercicios, realmente no vi mucha aplicabilidad el material. Traté de tomar algunos cursos de SQL y R en los primeros días de MOOC, pero nunca logré completarlos. Mientras tanto, estaba un poco aburrido con el trabajo de mi curso y tan pronto como obtuve suficiente experiencia en el tema para convertir razonablemente un proyecto de investigación en una disertación, eventualmente me disuadí de hacerlo porque 4 o 5 años parecían demasiado tiempo. gastar argumentando un argumento que muy pocas personas leerían o les importaría.

Pasaron unos años. Obtuve un trabajo bastante básico, pero requería mucho conocimiento de Excel. Rápidamente me di cuenta de que cada mes básicamente estábamos ingresando información financiera de una hoja de cálculo a otra. Construí algunas macros. Pronto me di cuenta de que podía consultar la misma información de algunos servidores y devolver el resultado como mi hoja de cálculo finalizada con un poco de SQL. En unas pocas semanas, me enseñé suficiente VBA, SQL y Python para automatizar completamente mi trabajo. Me aburrí ya que no había más desafíos y me fui.

En mi próximo trabajo fui el único “analista”. Tuve que tomar problemas comerciales básicos y descubrir cómo podríamos analizar las métricas del producto para crear propuestas de valor para clientes de todas las verticales. Cada prueba A / B, ECA o piloto fue completamente diferente. Los casos de uso requerían todo, desde estadísticas básicas hasta modelos Naive Bayes. Todo ese tiempo cambió las especialidades en la escuela de posgrado, todos los métodos de investigación y un continuo interés en las estadísticas. Finalmente tuve algunos ejemplos de la vida real para aprender R, que en ese momento tenía muy pocos paquetes hoy, como el increíble dplyr o ggplot y ningún IDE como RStudio. Para cuando la compañía se disolvió, había comenzado y gestionado suficientes proyectos para ser competente en estas herramientas y también desempolvé esos viejos álgebra lineal y otros libros de matemáticas. El tipo que no podía entender por qué necesitaba dominar las matemáticas sobre triángulos en la universidad (¡3 veces!) Ahora era bastante hábil en un nivel de matemáticas que le habría llevado otros tres años de universidad. Necesitaba ejemplos de la vida real para aprender, no cientos de problemas que enfatizaban la monotonía sobre la indagación.

Todavía me sentía bastante incompleto. Comencé a buscar en Google temas en los que estaba interesado, buscando datos y sumergiéndome. Muchos trabajos tienen desafíos o pruebas de codificación y encontraba copias de esos y los revisaba continuamente. En este punto, todavía estaba bastante inseguro de mí mismo porque, a diferencia de muchos científicos de datos que no tenía experiencia en informática, mi expediente académico de la universidad tenía un historial de matemáticas bastante triste, la mayoría de las personas parecen pensar que aplicaron econometría y estadísticas sin un título en ninguno de los dos medios que no eras lo suficientemente bueno para pasar el nivel de entrada, y finalmente mi historial de trabajo fue tan variado que fue difícil defender mis habilidades y destrezas.

Para mi sorpresa, en realidad recibí muchas respuestas para los puestos a los que postulé. Al final del día, no existe un conjunto único de habilidades que un Científico de Datos debe poseer, pero DEBE poder obtener datos de donde sea que se encuentren, procesar esos datos para que sean utilizables, realizar análisis de esos datos, y distribuir los resultados a su usuario final de manera procesable. Mi enfoque para aprender munging de datos fue útil ya que no tenía preferencia en el lenguaje de consulta, la estructura de datos o cualquier cosa que alguien con experiencia más formal pudiera tener. Aprendí lo que tenía para obtener los datos que necesitaba, como en el pasado. R había avanzado mucho desde la última vez que lo aprendí y Python ya era una herramienta poderosa, así que aprendí sobre la marcha. Cuando cometí un error, Stack Overflow’d, pero también me tomé el tiempo para aprender qué era lo que estaba haciendo que estaba causando el error. Aprendí a escribir funciones cuando mi trabajo era lo suficientemente consistente como para justificarlo. Comencé a escribir C ++ cuando realmente necesitaba optimizar mi código. Ah, y esas habilidades de diseño gráfico: probablemente sean la parte más útil de mi trabajo, ya que mis usuarios finales no son expertos en datos y necesitan ver resultados de modelos muy complejos de una manera muy clara y comprensible.

Entonces, supongo que soy autodidacta, pero realmente no lo veo así. Realmente me gusta encontrar nuevos desafíos que conozco muy poco al principio y aplicar varias partes de mi experiencia para crear proyectos que combinen todas mis experiencias. De ninguna manera estaría cerca de lo que soy hoy si no tuviera cada uno de estos componentes dispares. He trabajado con muchas personas que son expertas en áreas específicas de Data Science que hacen que mis habilidades en esa área se vean como aficionadas, pero también puedo hacerles lo mismo en otras áreas. Nuestros trabajos son diferentes y aplicamos las habilidades que necesitamos para tener éxito y utilizamos nuestro trabajo y desafíos para mejorar cada vez más.

Todos aprenden de manera diferente y no hay una forma “correcta” de enseñar a ti mismo, pero después de ver que muchas superestrellas de MOOC no pueden hacer mucho con sus “habilidades” cuando no se alimentaron con datos de muestra seleccionados y caminaron a través de los problemas, recomiendo encarecidamente que las personas siga su intuición y motivación interna y aprenda en función de los desafíos que enfrentan en su trabajo y estén motivados para perseguirlos. Sería extremadamente infeliz como diseñador visual o desarrollador y nunca seré un maestro de ninguno de los dos, pero sigo mejorando en esas áreas porque mejora mi trabajo. Encuentre un problema que le interese, acéptelo con las mejores herramientas y métodos para obtener un resultado, ¡repita!

Gracias por el A2A.

No. Creo que hecho a sí mismo es un término demasiado fuerte. No me suscribo a la idea de un hombre hecho a sí mismo. Creo que eso me daría más crédito del que realmente se debe y reduce el papel de las personas y las circunstancias que son parte integral de cada historia.

Sí, ciertamente trabajé duro durante años, pero también lo hacen muchas otras personas. Y sí, cultivé una combinación poco común de habilidades antes de que se llamara ‘ciencia de datos’. Pero es fácil decir que después del hecho: era igual de probable que el mundo haya resultado de una manera diferente, y esta combinación en particular nunca fue reconocida.

Dicho esto, aquí está mi historia:

He tenido problemas para ‘encajar’ en cajas ordenadas a lo largo de mi vida académica y profesional. Todo lo que realmente quería hacer era encontrar trabajo que involucrara a todas las partes diferentes de mí.

Mi primer título fue en TI y mi primer trabajo fue desarrollador en (ahora extinto) ASP y JSP. Bueno, al menos lo codifiqué, hasta ahora todo bien.

Pero … Disfruté escribiendo en inglés tanto como en código, así que cambié al otro extremo y mi segundo papel fue en comunicaciones.

Pero … lo encontré demasiado esponjoso y me horrorizó la forma en que los matices detrás de los números se pasaban por alto con regularidad. También era bueno en matemáticas y provenía de una familia de empresarios que pensaba en dólares, así que decidí cargar los módulos de estadísticas, hacer un MBA cuantitativo y luego unirme a una empresa de consultoría de gestión.

Pero … Estaba frustrado con el bajo uso de la automatización y los sofisticados métodos analíticos y herramientas que sabía que existían y que eran de uso gratuito. Entonces comencé a aprender y usarlos yo mismo y compartirlos con mis compañeros. Una de las herramientas no era otra que una versión inicial de R.

Pero … muy pocas personas estaban interesadas en análisis entonces, y no había nadie para ‘vender’ análisis, así que pasé mi tiempo investigando cómo el análisis podía agregar valor en grandes empresas por mi cuenta. Eventualmente, la demanda de análisis aumentó y, como había hecho la investigación, tuve oportunidades más allá de mi nivel para comunicar análisis avanzados a audiencias no técnicas. Esta es probablemente mi mayor ventaja.

Pero … sin los recursos disponibles hoy, estaba confundido acerca de cómo la gran cantidad de conceptos diferentes colgaban juntos, por lo que busqué un mentor, y me topé con algunos científicos de datos ‘reales’ raros que han estado practicando durante más de un año. década. Dibujaron una hoja de ruta para que yo la siguiera mucho antes de que aparecieran en Internet.

Pero … después de saber cómo encajaba todo, sentí que necesitaba más tiempo para sumergirme en los aspectos técnicos de la ciencia de datos. Para entonces, mis compañeros se estaban mudando a altos cargos bien remunerados y me animaban a “fingir hasta que lo logre”. Sin embargo, rechacé y, en contra de la sabiduría convencional, usé mis ahorros para obtener mi tercer grado en análisis como uno de los estudiantes más antiguos de mi grupo.


… y luego la gente comenzó a hablar sobre el unicornio científico de datos.

Del escurridizo paquete todo en uno de TI, estadísticas, conocimiento de dominio y habilidades de comunicación, todo en uno.

En este momento, sin querer había acumulado honores en TI, una maestría en análisis y un MBA. Había hecho codificación, estadísticas, bases de datos y R. También había trabajado en consultoría de gestión y, por coincidencia, había sido un escritor asalariado.

Solo estaba siendo yo. Pero, de repente, el mundo dejó de mirarme como un desastre no dirigido de un asiático con sobrepeso de mediana edad y, en cambio, como un unicornio con un triunfado triunvirato de habilidades.

En algún momento, se hizo la pregunta en una habitación grande si alguien tenía todas estas habilidades.

Pestañeé mis ojos.

… y levanto mi mano.

Y el resto es historia. A finales de año, tenía cuatro ofertas de trabajo sin hacer una sola solicitud antes de graduarme. Muy, muy lejos de lo que había experimentado a lo largo de mi vida.


Un avance rápido hasta hoy, me siento honrado de trabajar con el equipo inteligente que me rodea. Los nuevos licenciados en informática me vencieron en tecnología, los doctores y economistas puros me ganaron en estadísticas, y los directores senior me golpearon en presencia ejecutiva. Pero sé lo suficiente de todos estos campos para unirlo todo. Y esa es mi contribución al equipo.

Entonces, no, no soy un científico de datos hecho por mí mismo, pero la ciencia de datos es un deporte de equipo, así que soy un equipo integrado. Y mi posición con respecto a cada equipo con el que he trabajado o liderado es: trabajen conmigo y juntos , hagamos cosas increíbles.

Sí lo soy. Obtuve mi primer trabajo como científico de datos después de la escuela de posgrado (en algún momento de 2012), cuando el título del trabajo “científico de datos” era 3-4 de magnitud menos sofisticado de lo que es ahora, y no había tales bootcamps o ninguna ciencia de datos en línea “cursos de certificación, etc., así que tuve que enseñarme a mí mismo por ser un” científico de datos “. Eso es lo que hice y cómo:

  1. Comprende mis antecedentes. Tenía un doctorado importante en STEM, sabía mucho de matemáticas / estadísticas, tenía mucha experiencia en análisis de datos de mi investigación en la escuela de posgrado, sabía codificar principalmente en C ++ porque era el lenguaje de programación más popular en mi campo de investigación, y usé múltiples Técnicas de aprendizaje automático en mi investigación. Pero entendí que no tenía experiencia industrial, ni un profundo conocimiento de aprendizaje automático de posgrado.
  2. Comprender el mercado laboral. El mercado de regreso a 2012 requería un conjunto de habilidades de hadoop (HDFS, Pig, Hive, transmisión de Hadoop, etc.), se necesitaba Java, no C ++, pero a veces veía Python, comprensión de técnicas comunes de aprendizaje automático como SVM, LR, Decision Tree, etc., nunca se mencionó cualquier habilidad de análisis de datos. Al comparar el requisito del mercado laboral con mi conjunto de habilidades, casi no vi ninguna esperanza. Pero tenía la intuición de que la codificación era importante, sin importar el idioma, y ​​el análisis de datos también era esencial, sin importar las herramientas.
  3. Primer punto de acción: fortalecer mi habilidad de codificación y habilidad de análisis. Esta fue la parte más fácil, ya que seguí codificando y analizando datos para mi investigación. Pero entendí que un codificador experimentado no puede pasar la entrevista, lo mismo con la entrevista de análisis de datos, por lo que revisé cuidadosamente los detalles del lenguaje, las dificultades y los algoritmos (aunque participé en ACM-ICPC durante mi licenciatura, aún me olvidé mucho de los algoritmos en detalles), así como estadísticas básicas, por ejemplo, métodos de prueba de hipótesis múltiples, etc.
  4. Segundo punto de acción: revisar la técnica de aprendizaje automático y aprender rápidamente nuevas herramientas de la industria. Tenía una licenciatura en ciencias de la computación además de mi licenciatura en física, y aprendí clases de “aprendizaje automático” e hice algunas investigaciones de pregrado en IA, pero fue hace mucho tiempo y las herramientas de aprendizaje automático habían cambiado mucho, por ejemplo, el aprendizaje de ciencias no lo hizo. existió en 2002 y tuvimos que codificar el árbol de decisión por nosotros mismos. En mi investigación de la escuela de posgrado, utilizamos nuestros propios paquetes de aprendizaje automático TMVA Home, que no era popular en la industria. Así que revisé algunos buenos libros de aprendizaje automático y la mayor parte de los tutoriales de scikit-learn para una revisión rápida, además de mucha codificación en cada ejemplo + tarea de los libros. La matemática fundamental detrás de ellos era la misma que la de mi clase de pregrado, pero necesitaba mucha práctica para la industria.
  5. Tercer punto de acción: seguir aprendiendo. Sucedió después de que conseguí un trabajo. Afortunadamente, mi primer trabajo no requería estrictamente un conjunto de habilidades de hadoop o Java, cuando solo teníamos un grupo de hadoop de bebé y Python y C ++ con análisis de datos estaban bien. En este trabajo, aprendí de mis compañeros de equipo sobre el conjunto de habilidades de Hadoop: cómo funciona hadoop en la vida real ajustando nuestros clústeres de hadoop, cómo escribir un complicado script Pig cuidando la tubería ETL, etc. También aprendí de la gran Internet sobre, cómo configurar el trabajo de transmisión de hadoop en mi conjunto de datos para una tubería complicada, etc. En este trabajo, también tomé algunas clases de MOOC en línea, por ejemplo, construyendo un motor de recomendación, etc., apliqué lo que aprendí de la clase a mi trabajo, y obtuve algunos profundo conocimiento de este sistema
  6. El tercer punto de acción continuó: sí, sigue aprendiendo, es la habilidad más importante para un científico de datos. Lo estoy haciendo todos los días. En los últimos años, salió Spark, el aprendizaje profundo se hizo popular, la informática de GPU estaba en casi todas partes, aparecieron muchas herramientas nuevas en el mercado mientras que las herramientas antiguas se retiraban, por ejemplo, Pig. Los científicos de datos necesitan ponerse al día y seguir aprendiendo. Por lo general, leo reddit, arxiv, quora para debatir sobre la tendencia reciente de la ciencia de datos, y también comparto algunas de mis opiniones sobre algunas técnicas nuevas. La ventaja única de un buen científico de datos puede ser el conocimiento fundamental de Matemáticas, porque muchas técnicas nuevas detrás de la ciencia de datos comparten una idea similar en matemáticas. Creo que los buenos doctorados STEM también pueden ser buenos científicos de datos, porque siempre podemos autoaprender nuevas técnicas usando las matemáticas.

Algunas sugerencias para doctores STEM que quieren ser científicos de datos hechos a sí mismos: la codificación es muy importante, donde python o R es bueno, Matlab no lo es realmente. Matemáticas / Estadísticas es fundamental y esencial, revise su libro de texto de Estadísticas. También hay muchas buenas clases en línea sobre aprendizaje automático, ya sea video clase o tutoriales, me siento celoso porque en mi momento no los tenía.

Hola:

Muchas de las personas que he conocido en mis más de 15 años de carrera en ciencia de datos son personalizadas. En mi opinión, implica cuatro fases:

Fase 1- Aprendiendo las cuerdas

Fase 2- Encontrar un trabajo

Fase 3- Tener éxito en tu carrera de ciencia de datos

Fase 4- Disfrutando de los beneficios de su valor y pasión

Permítanme detallar cada fase a continuación.

Fase 1- Aprendiendo las cuerdas

Sepa si está hecho para ser un científico de datos y luego comience su viaje siguiendo los tres pasos que se detallan a continuación:

Primer paso: autoevalúe si tiene las siguientes habilidades, que en mi opinión son imprescindibles para que pueda lograr el éxito en la vida de Data Science

  1. Amor por los números y las cosas cuantitativas.
  2. Grit para seguir aprendiendo
  3. Alguna experiencia en programación (preferida)
  4. Enfoque de pensamiento estructurado
  5. Pasión por resolver problemas
  6. Voluntad de aprender conceptos estadísticos.

Segundo paso Si cree que demuestra las habilidades y aptitudes anteriores y / o está dispuesto a aprender, continúe con el segundo paso. Esta es una etapa de aprendizaje GRATUITA. ¡Y puedes comenzar este viaje ahora mismo! Le sugiero que visite Coursera, edX, LinkedIn Learming (Lynda.com) y otras plataformas de aprendizaje en línea. Hay varios cursos GRATUITOS disponibles que debes comenzar a aprovechar. Comienza a tomar estos cursos y trata de hacerlo lo mejor posible. Asegúrese de finalizar todas las tareas y cuestionarios para obtener el máximo valor de los cursos en línea.

Además, debido a la democratización de ML / AI, Google, IBM y otras compañías similares han facilitado que todos tengamos acceso y crezcamos nuestro conocimiento sobre Big data, herramientas y técnicas de ML / AI. Algunas de las herramientas gratuitas que debes probar para dar una vuelta son:

o Pila de aprendizaje automático de Google – tensorflow

o Apache Spark

o IBM Watson

o Microsoft Azure

Simplemente haga google y encontrará enlaces para las pilas anteriores. Comencemos con los aprendizajes gratuitos.

Tercer paso: una vez que haya probado algunos cursos gratuitos y decida unirse a un curso de ciencias de datos, aquí encontrará una guía sobre cómo elegir el programa adecuado para usted.

  1. Autodidacta vs Instructor dirigido – Prefiere instructor dirigido ya que esto le dará más oportunidades para aclarar sus dudas. Según una estadística, el 80–90% de los estudiantes no completan su curso a su propio ritmo / basado en videos.
  2. Online vs Class-room- Algunas personas prefieren las aulas para el aprendizaje cara a cara y la interacción con otros estudiantes. Sin embargo, los cursos en línea son igualmente efectivos si estás motivado.
  3. Calidad de los instructores: hay dos tipos de formadores en el mercado. 1- Quienes han realizado algunos cursos y ahora están haciendo la capacitación 2- Profesionales de la industria. Estas son las personas que han trabajado durante años significativos en la industria. Siempre debe preferir aprender de profesionales de la industria con experiencia laboral significativa. Debo advertirle que, desafortunadamente, hay algunas personalidades falsas en esta industria, así que verifique usted mismo el perfil de linkedin del entrenador y vea cuántas personas han respaldado al instructor o al profesorado por las habilidades de ciencia de datos. Si no ve o tiene muy poco respaldo, es una bandera roja.
  4. Asistencia de colocación: verifique si el instituto proporciona asistencia de colocación o no. También solicite estadísticas sobre cuántas personas han sido ubicadas con éxito por ellos . En última instancia, esta es una de las principales razones por las que contemplan tomar un curso después de todo.
  5. Estudios de casos prácticos y tareas: elija el curso que le ofrece varios conjuntos de datos y problemas de la industria del mundo real para trabajar . Prefiere los que tienen Learning Managment System (LMS) además de eso para el aprendizaje complementario.
  6. Ayuda continua : no dominará los temas en 1 o 2 meses, le llevará varios meses construir consuelo en estos temas. Se prefiere un instituto que brinde ayuda a largo plazo con sus necesidades de aprendizaje y responda sus consultas en el futuro.
  7. Certificación: si todo lo demás es igual, una certificación de un instituto reputado será mejor.
  8. Pruebas y tareas: es fundamental evaluar su comprensión periódicamente mediante pruebas y tareas. Un buen instituto dará toneladas de pruebas y tareas y proporcionará la calificación y la retroalimentación .
  9. Precio- ¿Cómo podemos olvidar esto? Evaluar si el curso tiene una buena relación calidad-precio o no. Compara los contenidos y el número de horas. Es mejor un instituto que ofrezca más contenido y más horas de contacto por cada centavo que pague.

Fase 2- Encontrar un trabajo

Esto podría ser complicado, pero aquí hay algunos consejos para ayudarlo:

  1. Si eres más nuevo (0–2 años de experiencia), será más fácil.
  2. Si está haciendo algo similar en su función actual, será mucho más fácil para usted demostrar su idoneidad a un posible empleador. Si estás involucrado en algo totalmente diferente, será un poco más difícil
  3. Necesita conocer los conceptos y la aplicación práctica. Idealmente, debería tener algunos proyectos en los que ya haya aplicado las habilidades.
  4. Si ha participado en alguna competencia (como Kaggle) y lo ha hecho bien, resalte estas actividades en su currículum de manera destacada. Hay empresas que le ofrecerán sus trabajos si puede obtener buenos resultados en estas competencias.
  5. Varios empleadores hoy en día tienen Hackathon y abren desafíos para que cualquiera participe. Si lo haces bien, ¡obtienes un trabajo para ti!
  6. Una cosa que siempre funciona es pasar por una referencia en la empresa.
  7. Complete los cursos GRATUITOS que ofrece Coursera, etc. y mencione eso en su currículum.
  8. Cree visibilidad para usted participando en blogs y foros
  9. No insista en encontrar un papel a tiempo completo desde el principio. Esté abierto a unirse como pasante o trabaje para obtener los beneficios mínimos para construir la experiencia. Más tarde puedes capitalizarlo.
  10. En igualdad de condiciones, las empresas más pequeñas pueden estar más dispuestas a acogerlo, en comparación con MNC, etc.

Por último, pero no menos importante, ¡nunca te rindas! Si realmente lo quieres, lo obtendrás.

Fase 3- Tener éxito en tu carrera de ciencia de datos

Aquí están mis 10 punteros principales para garantizar un éxito duradero.

  1. Aprende tanto como sea posible. Pase de 4 a 5 horas cada semana en el aprendizaje y el desarrollo y conozca lo último en la industria
  2. Desafío del status quo. Nunca suponga que lo que se está haciendo está siguiendo el enfoque más efectivo
  3. Cree que eres igual a todos los demás en la jerarquía. No tengas miedo de decir lo que piensas
  4. Concéntrese en la innovación y salga con la tierra rompiendo ideas en lugar de hacer el negocio como siempre.
  5. Concéntrese en desarrollar excelentes habilidades de comunicación y habilidades blandas, ya que esta es una de las brechas más grandes que he visto en los profesionales de análisis
  6. No te conviertas en un pony de un solo truco. trate de obtener exposición en diferentes industrias y diferentes áreas funcionales.
  7. Participe en competiciones y eventos como Kaggle, para saber cuál es su posición frente a su grupo de compañeros.
  8. Intente escribir libros blancos y blogs sobre su experiencia en el tema.
  9. Desarrollar experiencia en el dominio ya que sin ese análisis no es efectivo.
  10. Finalmente, mantenga siempre una visibilidad clara de su fortaleza y oportunidades y de cualquier punto ciego. Busque activamente comentarios de su grupo de pares y sus superiores.

Fase 4- Disfrutando de los beneficios de su valor y pasión

El futuro de Big Data y Data Analytics es realmente brillante. ¡Según IBM, el 90% de los datos que tenemos en el mundo hoy se han generado en los últimos 2 años! Todos los días estamos generando 2,5 bytes quintilianos (2,500,000 terabytes) de datos. Estos datos provienen de todas partes, como redes sociales, sensores, transacciones, imágenes, videos, etc. Se espera que el crecimiento de estos datos sea aún más rápido en las próximas décadas.

La conclusión es que Big Data está aquí para quedarse y requerirá una gran cantidad de científicos de datos y máquinas para obtener estos datos para obtener información e inteligencia procesables.

¿Qué significa para ti?

  • Si busca empleo con habilidades de ML / AI Big Data, al menos los próximos 10-15 años serán un período de auge para usted, donde gigantes tecnológicos como Google, Facebook, Microsoft, IBM, otras compañías en todos los mercados verticales y nuevas empresas en todo el mundo estarán igualmente interesados ​​en contratar un talento como tú.
  • Si usted es un emprendedor con una buena idea relacionada con Big Data de ML / AI, habrá muchas oportunidades para recaudar dinero para impulsar el crecimiento de su negocio. Según una estadística de Kalaari, ¡las empresas de IA han recaudado $ 6B USD desde 2014!

Aquí hay un fragmento de algunos de los mejores medios:

Espero que esto ayude.

¡Salud!

Gracias por el A2A.

Soy tanto un científico de datos hecho a sí mismo como Mu Sigma. Obtuve mi primer trabajo en Ingeniería como aprendiz de científico de decisiones con Mu Sigma. Fue un trabajo soñado para mí y esperaba ser feliz. Solo para darle un breve contexto, hasta ese momento todo lo que sabía sobre análisis o big data para ese asunto era solo un pequeño ejemplo que Mu Sigma dio sobre un problema de McDonald’s en la presentación de la colocación. Y esa mente tampoco era nada parecido a lo que iba a aprender en los siguientes 2.5 años.

Mu Sigma comenzó con la Universidad Mu Sigma, que es un período de capacitación de 2 meses donde aprendemos los conceptos básicos de Tecnología, Matemáticas y Negocios que necesitaremos en el trabajo y resolveremos un problema comercial falso. Esto fue casi todo el entrenamiento que recibimos. Publique que me asignaron a un equipo donde se suponía que debía aprender todo lo que se necesitaba en el trabajo.

Y chico aprendí. Los siguientes 2 años estuvieron llenos de cosas de aprendizaje como Excel, VBA, SQL, SAS, Tableau, Estadísticas, Regresión, modelado predictivo, análisis de comportamiento del cliente, modelado de efectividad promocional y mucho más.

Y cómo lo hice fue realmente muy simple:

  1. Centrarse en el trabajo
  2. Intenta conseguir nuevos problemas para trabajar
  3. Cuando los recibas, pregunta a la gente cómo resolverlos
  4. Si no conocen Google
  5. Aprender
  6. Hacer
  7. Fallar
  8. Aprender
  9. Hacer
  10. Tener éxito
  11. Repetir

He aprendido todo lo que mencioné anteriormente principalmente a través de Google y al preguntarle a la gente, simplemente acercándome a ellos y pidiéndoles que me expliquen un concepto. Y luego cuestionar mi comprensión hasta que tenga una comprensión infalible de los conceptos. Luego seguí con la capacitación de otras personas en esos temas donde me hicieron preguntas aún más difíciles. Esto me hizo leer más sobre el concepto y fortalecer aún más mi aprendizaje.

Personalmente, creo que la mejor manera de convertirse en un científico de datos es aprender en el trabajo. Eso lo expone a sus contrapartes comerciales reales y lo ayuda a comprender cómo usan sus soluciones en la vida real. Esto a su vez le ayuda a proporcionar mejores soluciones. Y esto se convierte en un ciclo de autoalimentación que le proporciona una mejora continua.

Espero que esto ayude.

Hola !

El hombre vino a esta tierra para vivir una vida totalmente ocupada por la codicia de la felicidad. La codicia por la felicidad significa la codicia por ser cada vez más feliz. Esta codicia no siempre está asociada con el dinero. Pueden ser otras cosas por las que eres codicioso, como la comida, el amor, etc.

Ahora, estarías pensando qué basura estoy escribiendo. La verdadera idea es que a veces puedes ser codicioso por aprender y puedes obtener felicidad de esta codicia y esto es lo único que te promueve.

Aún así, si desea una respuesta adecuada a esto, sugeriría los siguientes pasos:

  1. Comienzo

Esta es la fase en la que necesita comprender la importancia de por qué es importante la ciencia de datos. Créame, lea una serie de libros relacionados con el tema, observe algunos ejemplos de la vida real donde se está utilizando y comenzará a sentir el tema como si fuera el miembro de su familia. Si su corazón recibe una respuesta a esta pregunta, entonces está listo para pasar a la siguiente etapa.

2. Hacer una mentalidad

Este es el momento en que debe conocer la importancia y debe tomar alguna medida en esa dirección. Establezca una mentalidad de que tiene que moverse en esta dirección y tiene que aprender una serie de cosas porque desea transformar sus sentimientos en una aplicación de importancia real.

3. Excavar en terreno profundo para construir rascacielos

Créeme, sentirás que eres consciente de las cosas en la ciencia de datos que se ven más simples desde la parte superior, pero cuando comiences a cavar, encontrarás que hay varias cosas que aprender, incluidas las matemáticas, teoremas, estadísticas, algoritmos, etc. , para comenzar a trabajar en esto, no tome un libro y comience a implementar cosas. Haga una base sólida de las matemáticas y luego aborde las materias de ciencia de datos reales.

4. Salta al océano

Ahora ya estás listo. Simplemente salta al océano para aprender más y más. Te encontrarás con varias cosas en esta fase. Intente comprenderlos, la implementación aún queda. Primero comprenda y luego elija un idioma adecuado en el que pueda implementarlo de una manera más simple. Tenga en cuenta que, a veces, durante la implementación, sentirá que debe dejar estas cosas en el medio, pero solo recuerde que solo es un alumno y no un experto. Mientras más años pases en la fase de aprendizaje, más experto te volverás.

5. Experiencia

Trate de ganar de la gente, únase a grupos, hable con personas que trabajan en el mismo campo, hable con personas con experiencia, sabrá mucho al respecto. Después de todo, la experiencia habla.

Todo lo mejor ! 🙂

No todo se maneja en un camino sistemático y ya pavimentado. Algunas cosas están totalmente impulsadas por la pasión y las formas están hechas de esa pasión.

La ciencia de datos es un campo de números y patrones. Alguien que esté fascinado e inclinado hacia las matemáticas puede ser un buen científico de datos.

Para allanar el propio camino, uno puede tomar orientación e inspiración de alguien que ya ha hecho el suyo.

Así es cómo:

Comience con los cursos básicos disponibles en línea a granel. Pocas opciones para elegir:

1. Curso de aprendizaje automático en Coursera

2. Aprendizaje estadístico de Standford Online: para los conceptos de modelado predictivo en detalle con códigos R. El plan de estudios del curso sigue de cerca este libro.

Algunos cursos más decentes son:

1. Data Science por Harvard Extension: un curso muy bueno para aprender los conceptos con Python.

3. Aprendiendo de los datos de CalTech: cubre los conceptos básicos del aprendizaje automático

4. Redes neuronales para el aprendizaje automático de Coursera

También se puede competir en línea para saber cuál es su posición en este campo. Las competiciones de Kaggle son las mejores y más prestigiosas con emocionantes premios ganadores también. Además de Kaggle, uno puede probar otras plataformas como Analytics Vidhya Hackathons, Crowdanalytix, Driven Data

Otros recursos útiles son:

1. Data Science Central

2. blog de WildML

3. Revista Analytics India (Para comprender los acontecimientos en India)

4. blog de MLWave

5. Blog FastML

Debes ir a los cursos de Digital Vidya para big data y análisis de datos para un programa de capacitación completo. Los cursos que ofrecen estos sitios cubren las técnicas exploratorias esenciales para resumir los datos. Y se centra en los conceptos y las herramientas detrás de la presentación de informes de análisis de datos modernos de manera reproducible. Repase todos estos mencionados una vez y obtendrá los cursos deseados.

Esto me parece una pregunta muy interesante.

La respuesta es simplemente SÍ.

Lo mantendré simple y corto

Cursos online

He tomado varios cursos en línea para adquirir mis habilidades. La lista es la siguiente.

1. Especialización Coursera

2. Análisis de datos con R de Udacity

3. Analytics Edge en EDX

4. Vida y estadísticas con R en Edx

Estos son algunos cursos en línea que he tomado. También he leído muchos libros.

Tuve la suerte de encontrar una pasantía después de estos cursos. Progresé trabajando en datos reales con clientes reales y, por lo tanto, hoy soy casi un científico de datos con buenas habilidades. Todavía no me llamo científico de datos, creo que es un largo viaje.

Por mencionar, también estoy escribiendo un libro sobre ciencia de datos con R 🙂

Yo mismo estoy en un camino de aprendizaje para adquirir algunas habilidades en el dominio de la ciencia de datos. Este es mi plan de aprendizaje actual:

Práctica de programación: tengo conocimientos previos en R y Python, pero aun así, cuando no eres un programador de carrera, necesitarías mucha práctica para estar cómodo codificando. Así que tomé una suscripción anual en Datacamp, que ofrece práctica de codificación R y Python

Estadísticas: es un tema que necesitamos saber cuando aplicar, el mejor material de aprendizaje para las estadísticas está bastante disperso. Son dos fuentes que recomendaría más.

  1. Paquete de estadísticas y probabilidad del DVD del Tutor de matemáticas (cubiertas hasta el tema MLR)
  2. Estadísticas comerciales de Aczel (Enfoque en resolver problemas comerciales)

Visualización de datos : es una habilidad crucial y las herramientas como Tableau y Qlik le permiten trabajar con grandes conjuntos de datos y realizar análisis exploratorios de datos, crear paneles, informes, etc. De hecho, puede comenzar a aprender ciencia de datos a partir de la visualización de datos, ya que no es intimidante con código y comenzará a gustarle trabajar con datos.

Proyectos enfocados: Al aprender inicialmente, tendemos a perder el enfoque en los aspectos técnicos del código de aprendizaje y entender cómo funcionan los algoritmos. En mi experiencia personal, aprender teoría pura no te da ninguna ventaja a largo plazo.

Comencé a trabajar con proyectos básicos de ML utilizando conjuntos de datos clásicos del repositorio de UCI ML. Y para comprender la aplicación de extremo a extremo de los proyectos básicos de ML y Predictive Analytics, recomiendo aprender y hacerlo en Microsoft Azure Machine Learning Studio . (dado que incluso los no programadores podrían comprender todo el proceso (cargar datos → limpiar y transformar datos → dividir datos en trenes y conjuntos de pruebas → seleccionar un algoritmo → entrenarlo → calificarlo y evaluar los resultados), sin tener que aprender codificación, es solo ejercicio de arrastrar y soltar, y mejor es gratis )

Además, el hecho de estar centrado en el proyecto le permite explorar múltiples algoritmos, por lo que puede probar la aplicación de sus conocimientos y comprender sus fortalezas y debilidades, lo que también desarrollaría sus capacidades de resolución de problemas. Además, centrarse en el proyecto ayuda a desarrollar su cartera de proyectos independiente, que puede utilizar para promover sus habilidades.

Una mención especial es perfeccionar sus habilidades con Excel, ya que la mayoría de las empresas todavía trabajan con pequeños conjuntos de datos y Excel es una herramienta útil que permite la limpieza de datos, realizar análisis estadísticos y se usa ampliamente en todos los dominios.

¡Espero que mi plan de aprendizaje ayude con tu comprensión!

Solía ​​ser un científico de datos en una compañía que construía productos analíticos para compañías de energía, y actualmente soy ingeniero de datos en una compañía que hará del mundo un lugar mucho más musical.

No estoy seguro de cuánto de esto es pura suerte o coincidencia, y cuánto es mi esfuerzo, pero traté de desarrollar un hábito para el aprendizaje constante y la actitud positiva y trabajar en mi imagen como especialista.

Originalmente me especialicé en psicología, luego hice un doctorado en neurociencia cognitiva. Llegué al doctorado con conocimiento estadístico OKish y casi cero programación. Como parte de la investigación, tuve que aprender a codificar, tuve que usar el aprendizaje automático para modelar el cerebro, y más tarde incluso desarrollar algunas grandes tuberías de datos para procesar todos mis datos. Creo que ya tengo una columna vertebral para hacer una mezcla de desarrollo de software, minería de datos y estadísticas aplicadas, que a menudo se considera una descripción poco precisa de la ciencia de datos.

Pero cuando me di cuenta de que quería salir de la academia, me di cuenta de que mis habilidades y conocimientos son muy limitados. Revisé algunos artículos sobre las cosas principales que un científico de datos debería tener idea, y revisé las 100 preguntas principales de la entrevista que uno debería saber cómo responder. Aprendí más principios de ingeniería de software y leí mucho sobre cómo se pueden usar los modelos estadísticos para obtener información comercial. En general, me propuse aprovechar mis habilidades científicas y poder “venderlas”, o más precisamente, encontrar una aplicación relevante para ellas en el contexto empresarial .

Nunca quise crear ningún tipo de torre de marfil, o distancia del contexto comercial, y para asegurarme de eso, siempre intenté obtener la máxima información sobre la empresa a la que me postularía. Primero, ayuda a concretar la entrevista, y segundo, ayuda a tener una mejor idea sobre cómo usar sus habilidades para ayudar a la empresa a tener éxito y lo aleja aún más del deseo de practicar el modelado avanzado sin comprender claramente cómo beneficiará a los usuarios de cualquier producto en el que estés trabajando.

Creo que si comprende que las estadísticas no se usan para determinar si alguna diferencia es significativa o no, y el objetivo de la ciencia es responder preguntas relevantes, y tiene el potencial técnico suficiente para poder aprender a programar y comprender qué google le dice cuando pregunta cómo debe tratarse un modelo para lidiar con el sobreajuste: solo necesita comenzar a ir a entrevistas y trabajar en los comentarios que recibe.

Soy. Pero también soy un atípico muy extraño. Recibo muchos elogios por este cambio de carrera, pero la verdad es que estaba en el lugar correcto en el momento correcto. Cómo lo hice es una mezcla extraña.

  1. Antecedentes: gestión de productos, gestión de equipos y programación. También estaba encabezando muchos iniciados de datos en Miniclip.
  2. Aprendizaje: tomé muchos cursos en línea, leí muchos libros, leí muchas preguntas sobre Quora (lo que luego me llevó a responder también). Aunque tomo cada vez menos MOOC, sigo obteniendo libros sobre temas muy específicos, los dos últimos fueron sobre diseño de experimentos y estadísticas bayesianas.
  3. Practicando: tenía datos reales, muchos y problemas difíciles. En mi experiencia, nada hace que un profesional de datos crezca más rápido que los datos reales y los problemas reales. Hasta el día de hoy, casi tres años después, sigo teniendo nuevos problemas para trabajar y aprender.
  4. Personas: a medida que los equipos de datos crecieron en Miniclip, siempre contratamos personas con diferentes experiencias, perspectivas y conocimientos, pero que compartían algunas habilidades. Esta mezcla de personas muy diferentes que hablan el mismo idioma ayudó a todos, sobre todo a mí.

Gracias por A2A. Si su pregunta es saber si tuve un curso formal en ciencia de datos, la respuesta es SÍ. Tuve un curso formal en Maestría y el tema fue Recuperación de información. Desde entonces he estado en el campo de la ciencia de datos. Sin embargo, me ayudó a asegurar un trabajo, pero no es suficiente para mantenerme en la industria actual de TI. Ahora estoy revisando y aprendiendo redes neuronales, conociendo diferentes herramientas en el aprendizaje profundo, etc. Así es como comienza. Por lo tanto, todos están hechos para algo. A menos que una persona esté mejorando sus conocimientos sin su propio deseo, no está hecha a sí misma. También aprendí fotografía a través de pocas personas y me inspiraron a seguir haciendo lo mismo por un tiempo y aún así hacer y cuando el tiempo lo permita. Exhibí mis fotografías en varios lugares. Gracias a quienes se inspiraron en la ciencia de datos y la fotografía.

El conocimiento que obtenemos de nuestra educación nos ayudará a obtener algo y permanecer por un tiempo. Sin embargo, a menos que seas hecho para perseguir tu propio deseo, ¡no puedes ser quien eres …!

Sí, estaba practicando “ciencia de datos” antes de que existiera ese término. Creo que cualquiera con experiencia en estadística aplicada podría convertirse en un científico de datos hecho a sí mismo. Obtuve mi experiencia con una especialización en matemáticas de pregrado. Más tarde, después de años de trabajo en la industria como especialista / desarrollador de bases de datos, volví a la escuela, un Ph.D. programa en informática y estadística matemática. Para todos los efectos, este fue un programa de ciencia de datos. Luego, en 2012, la “ciencia de datos” y el “aprendizaje automático” comenzaron a hacer mucho ruido, así que me cambié de marca como científico de datos. Ha sido genial desde entonces, más trabajo y oportunidades de lo que podría haber imaginado. La conclusión es: no minimice la importancia de las matemáticas / estadísticas para una carrera exitosa en ciencia de datos.

Aunque uno puede unirse a cursos y títulos para aprender al respecto, lo que más importa en Data Science es el conocimiento práctico, la aplicación y la implementación . Necesitamos asegurarnos de que nuestro trabajo sea visible en GitHub, StackOverflow y mostrar nuestro trabajo para aprender, implementar y aumentar nuestro conocimiento. Esto no solo aumenta las posibilidades de mejores trabajos, sino que ayuda a obtener conocimientos prácticos.

En la escuela GreyAtom , alineamos la educación con la realidad . GreyAtom se enfoca en crear ingenieros de ciencia de datos de Full Stack y le brinda todas las herramientas, técnicas y conceptos básicos necesarios para generar un impacto. En solo 14 semanas, aplicará la resolución de problemas y el pensamiento creativo a conjuntos de datos del mundo real, ganando experiencia en toda la pila de ciencia de datos.

Tendrá un historial de contribuciones de código abierto y ayudará a la comunidad más amplia de ingeniería de software (a través de Github, StackOverflow, un blog o similar).

Puede consultar los detalles del curso haciendo clic en este enlace Full Stack Data Science Engineering | Greyatom

Los datos realmente impulsan todo lo que hacemos. Si te apasiona la ciencia de datos y quieres redefinir tu carrera, visítanos en GreyAtom – Immersive Learning

Creemos en “Datos reales – Industria real – Socios de reclutamiento reales – Real Office (Classroom)”

Descargo de responsabilidad: soy cofundador de @GreyAtom y ayudar a las personas a encontrar carreras sostenibles en Data Science es mi pasión.

Trabajé como científico de datos antes de decidir cambiar a investigación y no llegué a eso a través de ninguna de las formas “comunes”.

Comenzó durante mis primeros días en la universidad cuando básicamente lo que estaba buscando era algo genial para trabajar. Preferiblemente involucrando informática y oportunidades ilimitadas. La minería de datos parecía una fusión perfecta de estos dos, así que decidí inscribirme en el programa educativo gratuito organizado en San Petersburgo por varias personas extremadamente motivadas. Esos tipos básicamente querían crear una comunidad donde se pudieran desarrollar proyectos y tecnologías basados ​​en datos y tuve la suerte de convertirme en uno de los primeros en adoptar.

No teníamos un currículo refinado o un conjunto de problemas resuelto. En cambio, asistimos a las conversaciones organizadas para nosotros con expertos invitados de todas las industrias. Almacenamiento de datos, ETL, banca, investigación de ML, publicidad, búsqueda, lo que sea. De vez en cuando recibimos algunos deberes como “resolver una competencia Titanic en Kaggle” o “jugar con el conjunto de datos MNIST e informar sus métodos y resultados”. Estábamos disfrutando de ese curso, sumergiéndonos en el mundo de la analítica y, a veces, de la programación, para aquellos que realmente querían.

Después de mi primer año, cuando el programa terminó, recibí una oferta de uno de nuestros mentores para unirme a su startup como pasante. Y, oh, qué tiempo tan increíble tuve allí. Tuve la oportunidad de aprender de uno de los mejores desarrolladores senior de la ciudad que me pareció omnisciente y nunca dejó de sorprenderme con su capacidad para hacer las cosas, a un ritmo abrumador. Aprendí mucho de él, hice varios proyectos: análisis predictivo, computación distribuida (conceptos básicos, principalmente), desarrollo y lo más importante: pasar de la fase de investigación a la producción. Nunca hemos tocado esa parte antes y fue muy esclarecedor pasar por todo el proceso yo mismo.

Entonces fue Siemens. Trabajé allí como pasante de ingeniería por un corto tiempo después de mi segundo año, me volví adicto a Quora y tomé la firme decisión de mudarme a ML para siempre. Gracias Siemens.

Poco después conseguí un trabajo remoto como científico de datos en una startup. Era mi tercer año en la universidad, conocía un par de algoritmos y quería demostrarme aún más. Esa fue una fase de aprendizaje difícil. No tenía esa guía como antes, solo experimenté implacablemente, absorbiendo el conocimiento donde pude conseguirlo.

Al mismo tiempo, decidí probarme en la investigación. En equipo con personas increíbles de SPb y Moscú, escribió un artículo sobre PNL aplicada, aprendí mucho. ¿Has notado con qué frecuencia menciono esta palabra? Cada persona que he conocido en el transcurso de este viaje me enseñó algo. Una nueva herramienta Un nuevo algoritmo. Un nuevo programa de televisión para aclarar mi mente después de la codificación.

El documento fue aceptado en una conferencia local y ese fue esencialmente el final de mi “fase de ciencia de datos”. Después de eso, me interesé cada vez más en la IA, jugando con los marcos DL, emprendiendo una nueva aventura, que me llevó a casi 7000 kilómetros de casa y me conectó con las personas más increíbles que he conocido.

Pero lo guardaré para otra respuesta.