Como aspirante a científico de datos, ¿qué debo aprender después de pasar por estadísticas descriptivas e inferenciales?

Aspirar a ser un científico de datos es una aspiración demasiado amplia. Es similar a decir: ‘Quiero ser ingeniero de software’. Sin embargo, hay ingenieros de sistemas, desarrolladores de back-end, desarrolladores front-end, ingenieros de control de calidad, SRE, DevOps, etc. dentro de la amplia clase de ‘ingeniero de software’. Esto sigue siendo una simplificación excesiva, ya que hay una gran cantidad de herramientas, lenguajes, algoritmos y habilidades de ingeniería de software que puede aprender dependiendo de en qué quiere enfocarse.

Cuando comencé mi transición a la ciencia de datos desde una carrera en diseño de procesadores, mi primera tarea fue definir en qué tipo de científico de datos quería convertirme. Diría que hay algunas opciones diferentes si te enfocas en convertirte en un científico de datos en una empresa de tecnología (incluye B2B, B2C, tecnología de finura, tecnología de salud, tecnología de educación, etc.)

  1. Analista de datos rebautizado : más de un analista de datos tradicional con cierta exposición a herramientas más nuevas como quizás Hive, mongo-db o bases de datos no-sql más nuevas, y algunas herramientas de visualización como Tableau, Micro-estrategia, etc. Esto no es realmente un dato científico pero un analista de datos más experto en tecnología
  2. Ingeniero de aprendizaje automático : conoce muy bien el funcionamiento interno de los algoritmos de aprendizaje automático, ha escrito algunos algoritmos o bibliotecas, ha publicado algunos documentos y desea mejorar el estado del arte existente o implementar el estado del arte de manera escalable y fácil de mantener moda en producción.
  3. Científico de datos de aplicaciones : en mi opinión, este es el alcance más amplio. Abarca a los científicos de datos con una combinación de estadística, aprendizaje automático aplicado, ingeniería de software, habilidades de comunicación y conocimiento del dominio empresarial. Este es posiblemente también el mejor lugar para estar, ya que se expone a todos los aspectos de la ciencia de datos y tiene un impacto real en el negocio.
  4. Investigador avanzado de aprendizaje automático: profunda experiencia en procesamiento de lenguaje natural, visión artificial, motores de recomendación, motores de búsqueda o aprendizaje profundo y en la vanguardia de las últimas técnicas en aprendizaje automático. Es probable que necesite un doctorado en un campo avanzado para poder trabajar en uno de estos roles en las principales empresas de tecnología como Google, Facebook o Microsoft. Sin embargo, este trabajo tenderá a ser extremadamente técnico y específico en el sentido de que probablemente será un rol orientado a la investigación sin impacto a corto plazo en el producto.
  5. Ingeniero de Big Data : esta es principalmente una función de ingeniería de software con exposición / habilidades en aplicaciones de tecnología de big data como Map-Reduce, Spark, ETL, AWS, bases de datos no-sql, etc. Todos los tipos de científicos de datos necesitan cierta exposición a estas herramientas. De lo contrario, no puede darse cuenta del impacto total de la ciencia de datos.
  6. Ingeniero de producto / Ingeniero de crecimiento: este rol se centraría más en el análisis de productos, pruebas A / B, etc., con un enfoque en mejorar la usabilidad del producto, aumentar la satisfacción del cliente, mejorar las conversiones, etc. Este rol requiere una formación en estadísticas tradicionales como el diseño de experimentos, estadística inferencial y prueba de hipótesis en línea.

Cualquier elección puede ser igualmente gratificante, pero las habilidades que desearías adquirir dependen del camino que elijas. Decidí centrarme en 3 porque usar la ciencia de datos para resolver un problema comercial es lo más atractivo para mí. Si esa es su elección, recomendaría echar un vistazo a la respuesta de Vijay Sathish a ¿Es usted un científico de datos hecho a sí mismo? ¿Cómo lo hiciste? que describe mi camino hacia la transición a un rol de científico de datos comenzando casi desde cero.

Espero que ayude.

Puedo hablar con las matemáticas.

  • Asegúrate de saber Álgebra lineal . La transformación y el análisis de datos tienen sus raíces en las operaciones matriciales.
  • Los modelos lineales , a veces llamados regresión , son los primeros pasos en el análisis de datos. Incluso si los modelos lineales tienen sus debilidades y rigideces, muchas técnicas de análisis de datos se expanden en modelos lineales.
  • La programación estadística y el aprendizaje estadístico harán la vida mucho más fácil. Deje que las computadoras hagan el trabajo pesado.
  • Los científicos de datos y los analistas de datos utilizan cada vez más las estadísticas bayesianas . Nace de una manera muy diferente de pensar en las probabilidades: sombras de creencias en lugar de limitar los eventos.
  • La serie de tiempo también llamada pronóstico se vuelve útil. La Estadística espacial se ocupa de muchos de los mismos problemas que ve en los datos de series de tiempo, es decir, observaciones correlacionadas.