Hace un tiempo, Experfy publicó un recurso de 3 partes sobre cómo convertirse en un científico de datos escrito por un reclutador dentro del campo de la ciencia e ingeniería de datos.
Esto se dirigió principalmente a las personas que querían postularse a nuestro Curso de analista de Big Data y a nuestra Certificación de ciencia de datos como una guía útil para comenzar, pero es un lugar útil para comenzar, independientemente de dónde quieran postularse para ser científicos de datos.
Parte 1: Cómo convertirse en un científico de datos (Parte 1/3) – Experimentar ideas
- ¿Qué startups o empresas tienen vacantes para ingenieros de aprendizaje automático o científicos de datos en Bangalore?
- ¿Qué tan buenas son las perspectivas de carrera, después de hacer un MSC en Estadística del Reino Unido? ¿Volver a la India después del curso es la elección correcta?
- Cómo convertirse en un científico de datos o cualquier analista como graduado de estadística
- Cómo prepararse para un puesto de analista de datos / científico en Facebook
- ¿Puedo convertirme en un científico de datos autodidacta?
Parte 2: Cómo convertirse en un científico de datos (Parte 2/3) – Experimentar ideas
Parte 3: Cómo convertirse en un científico de datos (Parte 3/3) – Experimentar ideas
Las habilidades que destacó fueron:
1. Resolución de problemas
El núcleo de todas las disciplinas científicas es la resolución de problemas: un gran científico de datos es un gran solucionador de problemas. Claramente, necesita poseer las herramientas para resolver los problemas, pero son solo eso: herramientas. En este sentido, incluso las técnicas estadísticas / de aprendizaje automático pueden considerarse como las herramientas con las que resuelve problemas. Surgen nuevas técnicas, la tecnología evoluciona; La única constante es la resolución de problemas.
2. Estadísticas / aprendizaje automático
Para proporcionar una aclaración muy necesaria sobre estos términos, el aprendizaje automático puede verse como un campo multidisciplinario que surgió de la inteligencia artificial / informática y las estadísticas.
A menudo se ve como un subcampo de IA, y si bien esto es cierto, es importante reconocer que no hay aprendizaje automático sin estadísticas (ML depende en gran medida de algoritmos estadísticos para funcionar). Durante mucho tiempo, los estadísticos no estaban convencidos por el aprendizaje automático, con la colaboración entre los dos campos como un desarrollo relativamente reciente (ver teoría de aprendizaje estadístico), y es interesante notar que el aprendizaje estadístico de alta dimensión solo ocurrió cuando los estadísticos adoptaron los resultados de ML (gracias a Bhavani Rascutti, Líder de dominio de análisis avanzado en Teradata para esta entrada).
Para los lectores técnicos que estén interesados en una cuenta más detallada, consulte este artículo clásico publicado en 2001 por Leo Breiman: Estadística de modelado: las dos culturas.
3. Computación
a. Programación
Solo necesitamos tocar brevemente la programación porque debería ser obvio: esta es una necesidad absoluta. ¿Cómo puede aplicar la teoría si no puede codificar un algoritmo único o construir un modelo estadístico?
si. Computación distribuída
No todas las empresas tienen conjuntos de datos masivos, pero teniendo en cuenta el mundo moderno, es recomendable desarrollar la capacidad de trabajar con BIG DATA (!). En resumen: la memoria principal de una sola computadora no va a cortarlo, y si desea entrenar modelos simultáneamente en cientos de máquinas virtuales, debe familiarizarse con la computación distribuida y los algoritmos paralelos.
C. Ingeniería de software
Si desea poner en producción algoritmos de aprendizaje automático, necesitará una base sólida en ingeniería de software. Esto sería para un tipo diferente de científico, tipo A de los dos siguientes.
Ciencia de datos para personas (Tipo A), es decir, análisis para apoyar la toma de decisiones basada en evidencia
Ciencia de datos para software (Tipo B), por ejemplo: sistemas de recomendación como vemos en Netflix y Spotify
4. Disputa de datos
La limpieza / preparación de datos es una parte crucial e intrínseca de la ciencia de datos. Y esto ocupará la mayor parte de su tiempo. Si no puede eliminar el ruido de su conjunto de datos (por ejemplo, valores incorrectos / faltantes, categorías no estandarizadas, etc.), la precisión del modelo se verá afectada y, en última instancia, conducirá a conclusiones incorrectas.
Por lo tanto, si no está preparado para pasar el tiempo y la atención en este paso, hace que su conocimiento técnico avanzado sea irrelevante. También es importante tener en cuenta que la calidad de los datos es un problema persistente en las organizaciones comerciales y muchas empresas tienen infraestructuras complicadas en lo que respecta al almacenamiento de datos. Entonces, si no está preparado para este entorno y desea trabajar con conjuntos de datos limpios y agradables, desafortunadamente la ciencia de datos comerciales no es para usted.
5. Herramientas y tecnología
Como ya debería haberse dado cuenta, desarrollar su capacidad como científico de datos para resolver problemas debería tener prioridad sobre todo lo demás: las tecnologías cambian constantemente y, en última instancia, se pueden aprender en un plazo relativamente corto. Pero no debemos ignorarlos por completo, por lo que es útil estar al tanto de las herramientas más utilizadas actualmente. Comenzando con los lenguajes de programación, R y Python son los más comunes; así que si tiene una opción, tal vez use uno de estos cuando esté experimentando.
Es posible que tenga el mejor modelo y las mejores ideas, pero si no puede presentar / explicar los hallazgos de manera efectiva, ¿de qué sirve? Realmente no importa qué herramienta use para la visualización, podría ser R o Tableau (que parece ser la más frecuente en este momento), pero honestamente, la herramienta no es importante. Finalmente, SQL es significativo, ya que es el lenguaje más común utilizado para interactuar con bases de datos en la industria; si estamos hablando de bases de datos relacionales o derivados de SQL utilizados con tecnologías de big data. Y es el pan y la mantequilla de la disputa de datos, al menos cuando se trabaja a escalas más grandes (es decir, no en la memoria). En resumen: realmente vale la pena invertir su tiempo.
6. Comunicación / perspicacia comercial
Esto no debe ser subestimado. A menos que esté entrando en algo muy específico, tal vez una investigación pura (aunque seamos sinceros, no hay muchos de estos puestos en la industria), la gran mayoría de los puestos de ciencia de datos involucran interacción comercial, a menudo con personas que no tienen conocimientos analíticos .
Tener la capacidad de conceptualizar los problemas comerciales y el entorno en el que ocurren es fundamental. Y traducir ideas estadísticas en acciones recomendadas e implicaciones para un público lego es absolutamente crucial.