¿Qué debe hacer después de convertirse en un científico de datos? ¿Cómo te desarrollas como profesional? ¿En qué dirección llevas tu carrera?

Entonces has conseguido tu primer trabajo como científico de datos. ¡Felicidades! ¿Ahora que?

(1) ¿Cómo puede convertirse en un mejor científico de datos ?

Hay varias habilidades que no se enfatizan en la capacitación en ciencia de datos que son valiosas e incluso comunes en la práctica. Éstos incluyen:

¿El amplio conocimiento de Python y sus dependencias podría hacerme un buen científico de datos?
¿Puede uno convertirse en un científico de datos simplemente resolviendo desafíos en Kaggle?
¿Cuáles son las posibilidades de que Australia incluya posiciones relacionadas con la ciencia de datos en SOL en un futuro cercano?
¿Puede un ingeniero de ECE ser un científico de datos?
¿Cuál es la diferencia entre un analista de datos y un científico de datos?

Optimización bajo restricciones . Vea Cómo resolverlo: Heurística moderna por Zbigniew Michalewicz y David B. Fogel and Pulp (paquete Python)

En Squarespace, publicitamos a través de una gran cantidad de diferentes ‘canales’, como TV, radio en línea (como Pandora y Spotify), podcasts y anuncios de visualización en Internet. Cuanto más gastamos, menos eficientes se vuelven la mayoría de los canales. También tenemos diversos grados de certeza acerca de qué tan bien funcionan ciertos canales, y sabemos que algunos canales publicitarios funcionan mejor en combinación con otros. Entonces … ¿cómo distribuimos el gasto a través de estos canales para llegar al público adecuado con el mejor mensaje sobre los productos apropiados? Esta es una mezcla fascinante de aprendizaje automático y optimización.

Algoritmos en línea y procesamiento de datos asíncrono. Consulte Laboratorios de avance rápido (“Métodos probabilísticos para transmisiones en tiempo real”), Apache Kafka y E / S asíncrona, bucle de eventos, rutinas y tareas: documentación de Python 3.6.0b2

A veces, la forma más eficiente de trabajar con datos es a través de la transmisión y el procesamiento asincrónico. Supongamos que está raspando una gran cantidad de páginas web. Sus solicitudes serán devueltas en un orden imprevisto. Puede esperar a que todo regrese y luego realizar un procesamiento adicional de sus resultados, o puede administrar los datos tal como vienen. A menudo, la forma más eficiente de resolver problemas que involucran a muchas máquinas en un entorno distribuido no es a través del paralelismo, en realidad haciendo las cosas simultáneamente, sino a través de la transmisión de datos y procesos asincrónicos que cambian eficientemente entre tareas.

Análisis de datos bayesianos.

Estudiar el análisis de datos bayesianos es una excelente manera de desarrollar una comprensión probabilística del modelado de la ciencia de datos en general. Vea Replanteamiento estadístico: un curso bayesiano con ejemplos en R y Stan por Richard McElreath para una introducción gradual y Análisis de datos bayesianos por Andrew Gelman para un texto autorizado.

Gestión de trabajos por lotes y flujo de trabajo de datos . Vea spotify / luigi y Airflow: una plataforma de gestión de flujo de trabajo – Airbnb Engineering

A menudo necesitará encadenar las tareas de procesamiento de datos juntas. Primero, recuperará datos de un almacén de datos. Entonces puedes transformarlo. Entonces puede tener una serie de modelos que alimentan otros sistemas. Todos estos sistemas se relacionan en formas complejas de prueba, puesta en escena y producción. Luigi (o flujo de aire) al rescate!

Aprendizaje de refuerzo .

Obtenga información sobre cómo gestionar las compensaciones entre exploración y explotación en una situación en la que puede probar nuevas oportunidades. El texto popular para esto es el aprendizaje por refuerzo: una introducción. Probablemente más útil para un comienzo actual, consulte OpenAI Gym: un juego de herramientas para desarrollar y comparar algoritmos de aprendizaje de refuerzo.

Búsqueda eficiente Elasticsearch y Amazon Elasticsearch Service – Amazon Web Services (AWS)

Los científicos de datos generalmente desarrollan competencia en bases de datos como Postgres y Mongo. (¡Haz eso primero!) Pero, ¿qué haces cuando quieres que otros usuarios puedan buscar tus resultados o fuentes de datos? Considere Elasticsearch, un proyecto de código abierto construido sobre Apache Lucene. Al escribir estas líneas, Elasticsearch es la herramienta utilizada para administrar la búsqueda en Wikipedia, entre muchas otras cosas. Tiene algunas características interesantes, incluido el control sobre cómo clasifica los resultados de búsqueda y la geolocalización eficiente (por ejemplo, muéstreme todas las ubicaciones cercanas a una latitud y longitud determinadas).

Buenas prácticas de ingeniería.

Hay mucho que agregar aquí. Algunos conceptos importantes incluyen patrones de diseño, programación funcional y pruebas y documentación efectivas. Los usuarios de Python podrían comenzar con este libro altamente legible: Python efectivo. Para un aspecto diferente, consulte: Estructuras de datos y algoritmos en Python. Aprenda sobre patrones de diseño: elementos de software orientado a objetos reutilizables.

Contribuir a proyectos de código abierto. Scikit-learn tiene una fantástica rampa de acceso para nuevos contribuyentes junior.

Hacker de línea de comando .

Estas son (en su mayoría) técnicas exploratorias. En la línea de comando, puede transmitir datos y canalizarlos a través de varias transformaciones sin cargar todo en la RAM. Hay libros completos sobre ciencia de datos en la línea de comandos, pero puede encontrar las soluciones que necesita aquí: trabajar con CSV en la línea de comandos o trabajar con datos en la línea de comandos.

Visualización de datos.

Cuando comencé mi carrera como científico de datos, subestimé la importancia de la visualización de datos. Eso ha cambiado. Hermosas cartas persuaden.

Fuera de las bibliotecas de visualización básicas de ggplot2 (R) y Matplotlib (Python), cada científico de datos debe al menos conocer D3.js: Procesamiento y documentos basados en datos. Si es un usuario habitual de Python, también consulte Seaborn y Bokeh.

Un aspecto importante de la visualización de datos es el “diseño centrado en el ser humano” (ver Kit de diseño). No puede crear grandes visualizaciones sin adoptar algunas técnicas de pensamiento de diseño que extraen información cualitativa sobre las necesidades de su audiencia.

Finalmente, la visualización de datos también puede ser útil para revisar el rendimiento de los procesos en ejecución. Si sus datos están en una serie de tiempo, recomiendo Graphite. Usamos esto ampliamente en Squarespace.

Si trabaja en una organización grande, vale la pena explorar herramientas de inteligencia empresarial como Periscope Data y Chartio. Puede implementar las mismas visualizaciones por su cuenta, pero los tipos de almacenamiento en caché y mantenimiento que hacen que la visualización de datos sea ágil pueden no valer la pena. Una herramienta que permite a otras personas explorar datos le permite concentrarse en otros problemas.

(2) ¿Qué instrucciones (adicionales) puede tomar su carrera de ciencia de datos?

Comience a aprender sobre el proceso y la gestión del equipo. Comprender el papel de los gerentes de proyecto, gerentes de programa y gerentes de producto: Recomiendo: 73 artículos y libros que lo convertirán en un gran gerente de producto
Aprenda sobre la estrategia para su negocio particular. La estrategia para una empresa global es bastante diferente para la estrategia de una startup. En Squarespace, recomendamos que las personas miren artículos como Understanding SaaS: por qué los expertos se equivocan, entre muchos. Encuentra y sigue los blogs de estrategia que te entretienen.
Aprenda cómo y por qué las ventas y el marketing influyen en los resultados en tecnología. Una tecnología mejor no siempre gana (tal vez incluso, “no suele”).
Aprenda cuándo hacer cosas que no escalan.

¡Buena suerte! Si tiene una pregunta específica, contácteme.

¿Cuál es el alcance de un diploma de postgrado para un científico de datos?

¿Cuáles son algunos proyectos geniales que los científicos de datos que aspiran pueden hacer para impresionar a los empleadores potenciales?

¿Qué haces como científico de datos a diario?

Cómo juzgar a un buen científico de datos con solo 5 preguntas

¿Cuál es mejor nube o big data?

¿Cómo puede un científico de datos ayudar al Partido Demócrata de San Francisco en esta elección?

Desde una perspectiva profesional, ser un científico de datos no es fundamentalmente diferente de otras carreras de trabajadores del conocimiento. Por lo tanto, los puntos a continuación no son estrictamente sobre científicos de datos. Se aplican a cualquier trabajador del conocimiento, aunque dejaré algunas notas específicas sobre los científicos de datos al final.

Una buena carrera depende de varios factores. El que tiene más impacto es el gerente de línea. Un buen gerente de línea puede aumentar o dañar todos los demás puntos. Si se le dan varias oportunidades, es mucho más beneficioso elegir lo que cree que es el mejor gerente de línea que simplemente elegir la oferta más alta y / o la compañía más grande. De hecho, el tamaño de la empresa puede hacer que el impacto del gerente de línea sea más o menos significativo. Es más fácil tratar con los gerentes de línea, especialmente los malos, en organizaciones más pequeñas y menos estructuradas.

¿Cómo se diferencia a un buen gerente de línea de un mal gerente de línea? Es difícil especialmente si solo obtienes una entrevista. Aquí hay algunos consejos:

Cómo trata a otras personas en su camino a la sala de reuniones y, lo que es más importante, cómo otras personas interactúan con él / ella. A menudo se aprecia a las personas de confianza. Si las personas interactúan con sonrisas abiertas y honestas, probablemente sea de confianza. Si por otro lado ves sonrisas falsas con movimientos de cabeza … no es una buena señal.
Durante la entrevista, probablemente tendrá la oportunidad de hacer preguntas. Pregunte cuál es el plan de carrera en el equipo del gerente. Un buen gerente siempre tiene un plan de carrera para su equipo. Un gran gerente tiene un plan de carrera para los miembros individuales de su equipo. Puede que le guste o no la respuesta, pero lo que importa es si la respuesta es clara. Si no es así, es muy probable que no haya un plan de carrera.

Un segundo factor es la antigüedad. A medida que progreses en tu carrera, irás de junior, mid y, con suerte, a roles senior. Es importante distinguir lo que significan. Lamentablemente, uno de los problemas es que los roles medios y superiores se ofrecen por razones equivocadas en la actualidad. Por ejemplo, se ofrecen roles de nivel medio y superior porque una empresa está teniendo dificultades para contratar un puesto determinado. Para justificar el aumento del salario, la empresa aumenta la antigüedad del título. Si bien eso resuelve el problema de la compañía, en realidad es una gran trampa si buscas un aumento de responsabilidad y “solo” obtienes dinero. Si eso es lo tuyo, hazlo.

Establezcamos lo siguiente:

Un rol junior sabe cómo ejecutar. Incluso en dominios complejos, por ejemplo, desarrollo, ciencia de datos, eso es todo lo que se espera. El objetivo de un joven es aprender a trabajar. Trabajar y ejecutar no son lo mismo. El mayor defecto de los juniors no es que no puedan ejecutar. Eso es a menudo una falacia que aportan a su trabajo. Lo que no saben es que se espera que hagan preguntas (y rara vez las hacen) y que está bien discutir decisiones. Un gran junior es aquel que se involucra de esta manera y que aprende a trabajar mucho más rápido.
Un rol intermedio sabe cómo trabajar. La diferencia es que un rol intermedio se ejecuta más rápido y con menos errores, lo que aumenta la productividad pero, lo que es más importante, un rol intermedio conoce el negocio, sabe cómo interactuar con las personas y sabe lo que quiere. El mayor defecto del papel intermedio es asumir que él / ella tiene derecho a algo mejor basado en su experiencia. Piénselo … ¿cuántas veces escuchó a la gente decir que deberían ganar más porque trabajaron durante x años? En lo que debería centrarse un mid es en “cómo agrego más valor”.
Un roles de alto nivel sabe cómo agregar valor. En comparación con la función intermedia, en términos técnicos se trata principalmente de experiencia, sin embargo, la gran diferencia es que la persona mayor a menudo entiende el valor. El senior es a menudo mucho más creativo, crítico y escéptico. El objetivo no es ser un dolor o plantear problemas. El objetivo es filtrar y ordenar lo que agrega más valor.

En pocas palabras: aprenda cómo trabajar primero y cómo agregar valor después. La parte superior de la parte superior de los mejores profesionales en realidad lo hacen muy temprano y muy rápido, pero son excepcionalmente raros. Agregue a esto un buen gerente de línea y tendrá una gran carrera.

¿Cómo se traduce esto en ciencia de datos?

Hay algunas idiosincrasias con la ciencia de datos. Para empezar, tenga mucho cuidado con la descripción del trabajo. Una oferta de 6 dígitos para una descripción de trabajo de ciencia de datos donde la tarea principal es “producir informes financieros de Excel” no es una posición de ciencia de datos, independientemente de cuál sea el título del trabajo. También muchos trabajos de ingeniería de datos tienen un científico de datos como título de trabajo. No hay nada malo con la ingeniería de datos, ¡los amo! Pero si eso no es lo que quiere hacer, debe tener cuidado con las descripciones de trabajo.

Segundo, un buen gerente es muy importante. Hay muchas frustraciones de los profesionales de datos con usuarios de negocios, si quieres reírte, revisa esta publicación de blog que escribí: Puedes ser un redneck de datos … Si el gerente es otro usuario comercial, no tiene idea de cómo operar un equipo de ciencia de datos al máximo. Otro problema con los gerentes y la ciencia de datos es que la ciencia de datos implica un aprendizaje continuo. No se puede esperar que lo sepas todo y se espera que sigas aprendiendo. Muchos gerentes en muchos campos piensan exactamente lo contrario. En otros campos es malo … ¡en ciencia de datos es paralizante!

Tercero, ¿en qué proyectos trabajarás? Esta es una pregunta que debes hacer. Está bien trabajar en algunas canalizaciones de datos y hacer algunos análisis, pero si desea trabajar en ciencia de datos, necesita tener productos de datos para trabajar. Si no hay productos de datos, en mi libro, no es ciencia de datos.

Por último, pero no menos importante, no espero esto de nadie, pero lo hago yo mismo: ¡sigo estudiando! MOOCs, libros, podcasts, lo que sea, nunca dejes de aprender. No necesitas saber cómo ejecutar todo, pero si escuchaste algo que resuelve algún problema, serás la persona que levanta la mano y dice: “Leí sobre eso en alguna parte, puedo recogerlo”.

Espero que esto ayude, buena suerte!

Ricardo Vladimiro

More Interesting

¿Qué debo hacer para convertirme en un científico de datos si no tengo conocimiento de SQL y no tengo dinero para seguir un curso certificado?

¿Es la relación mujer-hombre más alta para los científicos de datos que para los ingenieros de software? Si es así, ¿por qué es eso?

Cómo conseguir trabajo como científico de datos de India

Cómo convertirse en un científico de datos en Malasia

¿Qué hacen los científicos de datos en Google?

¿Qué trabajo es mejor, analista de datos / científico o desarrollador de Android e iOS?

¿Cómo interactúan los analistas de datos y los científicos de datos con los administradores de bases de datos?

¿Debo ser un consultor de gestión o un científico de datos?

¿Cómo encuentro mi primer trabajo de científico de datos?