¿Qué debo hacer para prepararme para ser un científico de datos?

Hace un tiempo, Experfy publicó un recurso de 3 partes sobre cómo convertirse en un científico de datos escrito por un reclutador dentro del campo de la ciencia e ingeniería de datos.

Esto se dirigió principalmente a las personas que querían postularse a nuestro Curso de analista de Big Data y a nuestra Certificación de ciencia de datos como una guía útil para comenzar, pero es un lugar útil para comenzar, independientemente de dónde quieran postularse para ser científicos de datos.

Parte 1: Cómo convertirse en un científico de datos (Parte 1/3) – Experimentar ideas

Parte 2: Cómo convertirse en un científico de datos (Parte 2/3) – Experimentar ideas

Parte 3: Cómo convertirse en un científico de datos (Parte 3/3) – Experimentar ideas

Las habilidades que destacó fueron:

1. Resolución de problemas

El núcleo de todas las disciplinas científicas es la resolución de problemas: un gran científico de datos es un gran solucionador de problemas. Claramente, necesita poseer las herramientas para resolver los problemas, pero son solo eso: herramientas. En este sentido, incluso las técnicas estadísticas / de aprendizaje automático pueden considerarse como las herramientas con las que resuelve problemas. Surgen nuevas técnicas, la tecnología evoluciona; La única constante es la resolución de problemas.

2. Estadísticas / aprendizaje automático

Para proporcionar una aclaración muy necesaria sobre estos términos, el aprendizaje automático puede verse como un campo multidisciplinario que surgió de la inteligencia artificial / informática y las estadísticas.

A menudo se ve como un subcampo de IA, y si bien esto es cierto, es importante reconocer que no hay aprendizaje automático sin estadísticas (ML depende en gran medida de algoritmos estadísticos para funcionar). Durante mucho tiempo, los estadísticos no estaban convencidos por el aprendizaje automático, con la colaboración entre los dos campos como un desarrollo relativamente reciente (ver teoría de aprendizaje estadístico), y es interesante notar que el aprendizaje estadístico de alta dimensión solo ocurrió cuando los estadísticos adoptaron los resultados de ML (gracias a Bhavani Rascutti, Líder de dominio de análisis avanzado en Teradata para esta entrada).

Para los lectores técnicos que estén interesados ​​en una cuenta más detallada, consulte este artículo clásico publicado en 2001 por Leo Breiman: Estadística de modelado: las dos culturas.

3. Computación

a. Programación

Solo necesitamos tocar brevemente la programación porque debería ser obvio: esta es una necesidad absoluta. ¿Cómo puede aplicar la teoría si no puede codificar un algoritmo único o construir un modelo estadístico?

si. Computación distribuída

No todas las empresas tienen conjuntos de datos masivos, pero teniendo en cuenta el mundo moderno, es recomendable desarrollar la capacidad de trabajar con BIG DATA (!). En resumen: la memoria principal de una sola computadora no va a cortarlo, y si desea entrenar modelos simultáneamente en cientos de máquinas virtuales, debe familiarizarse con la computación distribuida y los algoritmos paralelos.

C. Ingeniería de software

Si desea poner en producción algoritmos de aprendizaje automático, necesitará una base sólida en ingeniería de software. Esto sería para un tipo diferente de científico, tipo A de los dos siguientes.

Ciencia de datos para personas (Tipo A), es decir, análisis para apoyar la toma de decisiones basada en evidencia

Ciencia de datos para software (Tipo B), por ejemplo: sistemas de recomendación como vemos en Netflix y Spotify

4. Disputa de datos

La limpieza / preparación de datos es una parte crucial e intrínseca de la ciencia de datos. Y esto ocupará la mayor parte de su tiempo. Si no puede eliminar el ruido de su conjunto de datos (por ejemplo, valores incorrectos / faltantes, categorías no estandarizadas, etc.), la precisión del modelo se verá afectada y, en última instancia, conducirá a conclusiones incorrectas.

Por lo tanto, si no está preparado para pasar el tiempo y la atención en este paso, hace que su conocimiento técnico avanzado sea irrelevante. También es importante tener en cuenta que la calidad de los datos es un problema persistente en las organizaciones comerciales y muchas empresas tienen infraestructuras complicadas en lo que respecta al almacenamiento de datos. Entonces, si no está preparado para este entorno y desea trabajar con conjuntos de datos limpios y agradables, desafortunadamente la ciencia de datos comerciales no es para usted.

5. Herramientas y tecnología

Como ya debería haberse dado cuenta, desarrollar su capacidad como científico de datos para resolver problemas debería tener prioridad sobre todo lo demás: las tecnologías cambian constantemente y, en última instancia, se pueden aprender en un plazo relativamente corto. Pero no debemos ignorarlos por completo, por lo que es útil estar al tanto de las herramientas más utilizadas actualmente. Comenzando con los lenguajes de programación, R y Python son los más comunes; así que si tiene una opción, tal vez use uno de estos cuando esté experimentando.

Es posible que tenga el mejor modelo y las mejores ideas, pero si no puede presentar / explicar los hallazgos de manera efectiva, ¿de qué sirve? Realmente no importa qué herramienta use para la visualización, podría ser R o Tableau (que parece ser la más frecuente en este momento), pero honestamente, la herramienta no es importante. Finalmente, SQL es significativo, ya que es el lenguaje más común utilizado para interactuar con bases de datos en la industria; si estamos hablando de bases de datos relacionales o derivados de SQL utilizados con tecnologías de big data. Y es el pan y la mantequilla de la disputa de datos, al menos cuando se trabaja a escalas más grandes (es decir, no en la memoria). En resumen: realmente vale la pena invertir su tiempo.

6. Comunicación / perspicacia comercial

Esto no debe ser subestimado. A menos que esté entrando en algo muy específico, tal vez una investigación pura (aunque seamos sinceros, no hay muchos de estos puestos en la industria), la gran mayoría de los puestos de ciencia de datos involucran interacción comercial, a menudo con personas que no tienen conocimientos analíticos .

Tener la capacidad de conceptualizar los problemas comerciales y el entorno en el que ocurren es fundamental. Y traducir ideas estadísticas en acciones recomendadas e implicaciones para un público lego es absolutamente crucial.

Simplemente obtenga las habilidades necesarias, tome algunos cursos en línea en programación y análisis de datos (para una evaluación cognitiva adecuada), luego siga aprendiendo y practicando todo lo que esté relacionado con la ciencia de datos.

Los mejores deseos.

Gran pregunta, lo primero que sugeriría es mejorar tu habilidad en al menos uno de Python o R. Esta será la habilidad principal que usarás como científico de datos. En segundo lugar, aprendería SQL ya que muchas empresas almacenan sus datos en bases de datos relacionales. Tercer aprendizaje automático, esta es otra habilidad central. Hay muchos MOOC realmente buenos que lo ayudarán a desarrollar el arte del aprendizaje automático. Finalmente, la experiencia comercial es clave, hay muchos bootcamps que pueden ayudarlo a obtener la experiencia comercial. Si tiene alguna otra pregunta, no dude en ponerse en contacto.

Asumir la especialidad universitaria en ciencia de datos …