¿Qué hacen los científicos de datos en Microsoft?

Eso realmente varía. Microsoft es una compañía tan grande, y la ciencia de datos es un campo tan grande.

Según su página de empleo profesional, esto es GENERALMENTE lo que esperan de todas sus posibles contrataciones de científicos de datos:

“Estamos buscando científicos aplicados a los que les apasione aplicar técnicas de aprendizaje automático y minería de datos a una variedad de aplicaciones interesantes para empresas y consumidores. Aplicará una gama de técnicas de aprendizaje automático que incluyen modelado predictivo, minería de texto e imágenes, recomendaciones, agrupamiento , detección de anomalías, métodos de pronóstico, aprendizaje profundo y otras técnicas estadísticas avanzadas. Trabajará en todos los aspectos del diseño, desarrollo y entrega de soluciones habilitadas para el aprendizaje automático, incluida la definición de problemas, adquisición de datos, exploración y visualización de datos, ingeniería de características, experimentación con Algoritmos de ML, evaluando y comparando métricas, implementando los modelos, mejorando iterativamente la solución, construyendo las herramientas para este proceso, etc. Trabajará con datos de diversas fuentes de datos estructurados y no estructurados, tanto en modo de lote como de transmisión, y en varios formatos, incluyendo tabular, imagen / video, audio, texto y series de tiempo. , interactuará con un equipo de expertos en aprendizaje automático, sistemas distribuidos, gestión de programas y equipos de productos asociados, en la visión, planificación de escenarios / características, ejecución y entrega de soluciones escalables como un servicio en la nube.

Calificaciones
• Doctorado en Ciencias de la Computación, Ingeniería Eléctrica, Estadística, Física, Matemáticas, Investigación de Operaciones o campo técnico equivalente, o maestría con más de 3 años de experiencia en la industria para Científicos, 4+ años después de Ph.D o 7+ años después MS para Senior Scientist, 7+ años post Ph.D o 10+ years post MS para Principal Scientist.
• Conocimiento de las técnicas de aprendizaje automático y minería de datos en una o más áreas de métodos de modelado estadístico, series de tiempo, minería de texto, optimización, recuperación de información.
• Capacidad para realizar prototipos de análisis estadísticos y algoritmos de modelado y aplicar estos algoritmos para soluciones basadas en datos a problemas en nuevos dominios.
• El conocimiento y la experiencia trabajando con sistemas informáticos distribuidos es una ventaja
• Habilidades de desarrollo de software en uno o más lenguajes de alto nivel (C # / C / C ++ / Java / F #), uno o más lenguajes de scripting (Python / Perl / Shell) y herramientas comunes de ML (Weka, R, RapidMiner, KNIME, scikit , SAS, SPSS, ModelBuilder, etc.)
. Capacidad para desarrollar soluciones de aprendizaje automático de grado de producción de extremo a extremo “.