¿Cómo es una entrevista de un científico de datos en Google?

Ir en el anonimato porque realmente no me importa que mi empleador actual sepa dónde me entrevisté.

Me entrevisté para un puesto de Analista Cuantitativo en Google el año pasado. Curiosamente, el puesto de trabajo decía “NOTA: esto es lo mismo que un Científico de Datos”.

La evaluación del teléfono se basa principalmente en la probabilidad (concreta y teórica) y, al menos la mía, en gran medida basada en el aprendizaje automático. Me dieron la pregunta estándar “un ingeniero de software te entrega un conjunto de datos y necesitas construir un modelo de aprendizaje automático”, que realmente está orientado a ver cómo funciona el candidato bajo incertidumbre y qué preguntas haces antes de ejecutar un solo ML algoritmo.

En el lugar me entrevisté durante 6 horas seguidas y me hicieron preguntas sobre series de tiempo, pruebas A / B, probabilidad y mucho aprendizaje automático. A pesar de que Google ya no pregunta a los “rompecabezas” (creo que probaron A / B el desempeño de las personas a las que se les preguntó sobre los rompecabezas en sus entrevistas frente a ningún rompecabezas y no pudieron encontrar la diferencia), muchas preguntas siguen siendo un misterio. ish en la naturaleza. Lo llamaron habilidades para resolver problemas.

Las preguntas de aprendizaje automático están en todos los ámbitos: desde un problema práctico (cómo haría para configurar los datos, validación cruzada, modelado, monitoreo del rendimiento para un escenario dado) hasta preguntas genéricas (¿cómo lidiar con una variable categórica con alta cardinalidad) a más teórico.

En general, la parte más difícil para mí fue la amplitud de los temas cubiertos, no tanto la profundidad. Había hecho ML durante unos años en un entorno empresarial y en Kaggle y encontré que mi conocimiento era más que suficiente para brillar en la entrevista. Terminé perplejo en la serie de tiempo, que tenía en mi currículum pero que realmente no había trabajado durante años.

Google no tiene un rol explícito de científico de datos. Entonces, casi ninguna de las entrevistas tiene preguntas sobre aprendizaje automático / ciencia de datos.
Puedes trabajar en proyectos de aprendizaje automático mediante uno de los siguientes
1) ser mundialmente reconocido en aprendizaje automático como Geoffrey Hinton, Andrew Ng.
2) haber realizado un doctorado bajo uno de los investigadores de aprendizaje automático de renombre mundial.
3) Ya he estado trabajando en Google en algunos otros proyectos durante más de 6-7 años y me las arreglé para transferir internamente al proyecto ML.

Me entrevisté recientemente para un rol de aprendizaje automático aplicado (05/2016)

Pantalla del teléfono: pregunta de matrices básicas, una pregunta de programación dinámica

En el sitio:

Los primeros 3 se basaron en tus algos, ds.

Cuarto estaba en el aprendizaje automático:

Fue bastante abierto. Comenzamos con mi proyecto de trabajo anterior, hablamos sobre técnicas de extracción de características, pca (se usó, lo he usado), análisis de correlación, algunas técnicas de clasificación que he usado (svm, gbm, red neuronal).

¿Por qué no la regresión logística, por qué gbm? Básicamente preguntas que giran en torno a la separabilidad de clases.

Luego me preguntó si sabía las matemáticas detrás de cualquiera de los algos. Derivé las ecuaciones para gmm (que son mis favoritas).

Todavía teníamos tiempo, así que me hizo una pregunta de programación dinámica.

Sentí que lo hice muy bien en esta ronda.

La siguiente ronda fue nuevamente ds básica, pero estaba súper cansada e hice un completo desastre con una simple pregunta BST. Mi culpa por completo.

Como esperaba, recibí un rechazo.

En general, fue una experiencia agradable pero muy agotadora.

1- Una moneda fue lanzada 1000 veces y había 560 caras. ¿Crees que la moneda estaba sesgada?

Brainheaters en Instagram: “Entonces, ahora las preguntas de nivel dos ✌️ de Google están aquí para ustedes. Hoy hemos planeado centrarnos solo en Google … Asegúrese de tocar dos veces … ”

2- 2 hombres pescan 2 peces en 2 minutos. A este ritmo, ¿cuántos hombres pueden pescar 500 peces en 500 minutos?

Brainheaters en Instagram: “Al hacer esta pregunta, hubo un límite de tiempo de 20 segundos para los ingenieros. Qué piensas sobre esto ? ¿Podrás descifrar esto …?

3- ¿Cuál es correcto 9 y 5 es 13 o 9 más 5 es 13?

Brainheaters en Instagram: “¿Qué opinas de estas matemáticas? #brainheatersquestions #braineaters #campusinterview #mumbaiuniversity ”

Estas fueron algunas preguntas de la entrevista que se hicieron durante las entrevistas de trabajo de las principales empresas.

Cree que puede responder a esas preguntas o cree que no puede responderlas bien aquí. Le damos la oportunidad de practicar para las preguntas de la entrevista.

Si te sientes confundido o nervioso por la entrevista, no te preocupes, estás en el lugar correcto para practicarlas.

Aquí en brainheaters publicamos preguntas de la entrevista diariamente en instagram donde puedes responderlas y al final de la semana revelaremos la respuesta

Así que comienza y sigue nuestra página oficial de Instagram Brainheaters (@brainheaters) • Fotos y videos de Instagram

Entrevista con Saket Kumar, científico jefe de datos de Google [1]

La carrera para liderar el camino en la IA se está acelerando. Amazon, Microsoft, Google e IBM se encuentran entre los que han invertido mucho en la investigación de la tecnología, con aplicaciones que van desde automóviles sin conductor hasta tratamientos para el cáncer mejorados.

Podría decirse que Google lidera el camino, cuyo enfoque principal ha sido adquirir nuevas empresas innovadoras en el campo y ponerlas bajo su paraguas. Sundar Pichai, director ejecutivo de Google, dijo recientemente que la compañía estaba “realmente en transición para convertirse en la primera compañía de inteligencia artificial”. Quizás su demostración más llamativa fue la victoria el año pasado de la estrella de Google Deepmind AlphaGo sobre Go, Lee Sedol, pero cosas más emocionantes están sucediendo detrás de escena.

El Dr. Saket Kumar es el científico jefe de datos de Google. Tiene más de 15 años de experiencia como profesional innovador en análisis y líder de pensamiento, con un enfoque en la traducción de datos en ideas para los tomadores de decisiones. Ha liderado tareas analíticas exitosas en múltiples industrias, incluyendo publicidad, petróleo y gas, atención médica y fabricación. En Google, dirige un equipo de científicos de datos centrados en mejorar la efectividad del marketing para clientes de primer nivel.

Nos sentamos con él antes de su presentación en la Machine Learning Innovation Summit, que tendrá lugar del 5 al 6 de junio en el Marriott Union Square en San Francisco.

¿Dónde cree que estarán las aplicaciones más importantes del aprendizaje automático en el futuro cercano?

Esta es una pregunta difícil. Vemos que se están digitalizando toneladas de actividades comerciales y de consumo. La cantidad de datos que se digitaliza continúa creciendo. El aprendizaje automático es ideal para situaciones en las que hay grandes conjuntos de datos y casos para aprender. Ejemplos de esto incluyen la identificación de imágenes, la transcripción de voz, la traducción, etc. Las aplicaciones más importantes probablemente analizarán el comportamiento del consumidor, ya que compañías como Google, Facebook, Amazon y otras tienen toneladas de dichos datos y han desarrollado una gran base de conocimientos que pueden aprovechar para construir soluciones de ML.

En una encuesta reciente de KDnuggets, el 51% de los encuestados dijo que espera que la mayoría de las tareas de análisis predictivo / ciencia de datos realizadas por científicos de datos humanos sean automatizadas en la próxima década. ¿Crees que el papel del científico de datos está realmente bajo amenaza? ¿Qué tipo de impacto cree que tendrá en el mercado laboral en general, y están preparados los gobiernos?

Habrá automatización y mejora en las herramientas que ayudan con el análisis predictivo. Sin embargo, no veo ninguna amenaza para el trabajo realizado por los científicos de datos humanos. Esperamos que desaparezca una gran cantidad de trabajo de procesamiento y limpieza de datos. Es probable que el análisis y la modelización de base se comercialicen. A pesar de esto, las personas que conocen los datos, los algoritmos, los conocimientos de dominio profundo seguirán teniendo un rol y pueden comunicar de manera efectiva las ideas basadas en matemáticas a los líderes empresariales.

¿Hay nuevas tecnologías o ideas en el espacio de aprendizaje automático que le parezcan particularmente interesantes o que cree que serán especialmente importantes en los próximos años?

Estoy entusiasmado con la intersección del consumo de video / multimedia y el análisis. El reconocimiento de imagen y video todavía está en progreso. Hay muchas cosas interesantes que se pueden hacer con respecto a lo que ML ve en los videos y la respuesta real de consumo / interacción de los consumidores.

¿Qué desafíos prevé que frene el aprendizaje automático para alcanzar su potencial? ¿Cómo crees que podrían superarse?

Hay muchas tendencias positivas (los costos de computación y almacenamiento están bajando). Todavía hay silos de datos con y entre organizaciones. Una obvia es la falta de científicos de datos calificados. La mayoría de las empresas, con la excepción de las grandes empresas de Silicon Valley, luchan por obtener el talento adecuado, ya que el grupo para aprovechar no es grande.

Notas al pie

[1] https://googleweblight.com/i?u=h