Cómo juzgar a un buen científico de datos con solo 5 preguntas

Estoy seguro de que habrá muchos mejores para hacer, pero aquí están mis 5 preguntas

  1. ¿Qué es lo más valioso que has hecho en tus roles anteriores? Ten cuidado si no se dan medidas concretas aquí )
  2. ¿Te consideras un tipo A para analista o tipo B para científico de datos de construcción? ( tenga cuidado si dicen que son súper fuertes en ambos, las mejores personas con las que he trabajado están en contacto con sus fortalezas y debilidades )

Las siguientes 3 preguntas para el tipo A:

  • Describa una intervención de extremo a extremo que haya implementado, incluida la declaración del problema, las fuentes de datos, el análisis, las ideas clave, las acciones, la gestión de las partes interesadas, la elevación medida y el monitoreo continuo
  • Explica el tipo de experimentos que has implementado y detalla los métodos bayesianos y / o estadísticos que empleaste ( estaría buscando exposición a conceptos más avanzados como bandidos contextuales / multi-armados y pruebas multivariadas en pruebas AB simples)
  • Hábleme de una vez que tuvo problemas para trabajar con grandes conjuntos de datos. Incluya detalles sobre los datos, la fuente, dónde vive, qué manipulaciones tuvo que hacer y qué soluciones tuvo que hacer para que las cosas funcionen ( si nunca tuvieron problemas, ¡sería muy cauteloso! )

Si fueran más tipo B:

  • Cuénteme sobre los modelos que ha puesto en producción y cuénteme sobre una vez que tuvo que cambiar el rendimiento del modelo por la eficiencia en uno de estos modelos de producción.
  • Describa un momento en que tuvo problemas para entregar software o administrar las expectativas no técnicas de las partes interesadas debido a un error ( tenga cuidado si nunca han tenido este tipo de problema )
  • ¿Me puede guiar a través de la implementación de GBM en pseudocódigo ( me estoy quedando sin buenas preguntas aquí, pero esperaría una explicación simple por parte de expertos en aprendizaje automático )

1. ¿Cómo entiende la adecuación del modelo de regresión?

El histograma de residuos es una característica muy importante de la adecuación del modelo. Solo si los residuos se distribuyen normalmente con 0 como media, obtenemos un buen modelo. En el gráfico de la izquierda tenemos residuos con fuerte asimetría, en el gráfico de la derecha, residuos casi perfectos.

2. ¿Qué variables son más valiosas para la agrupación?

Los diferentes atributos tienen diferentes grados de informatividad para la agrupación. Debemos analizar la densidad de cada atributo de muestra multidimensional. Solo los atributos con brechas pronunciadas en los datos y los atributos con la función de densidad polimodal son informativos para la agrupación. El atributo con hipótesis aceptada sobre la ley de distribución es homogéneo y, en una clasificación posterior, no es informativo o es ruidoso en la mayoría de los casos.

3. ¿Qué es la maldición de la dimensionalidad?

En el espacio de datos de alta dimensión, la diferencia entre distancias mínimas y máximas es muy pequeña. Es muy difícil distinguir los puntos cercanos y lejanos del punto arbitrario.

4. ¿Podemos combinar la partición y la agrupación jerárquica?

Sí, podemos usar el algoritmo de partición recursiva con reglas claras de detención. Cada grupo inestable debe dividirse hasta que se obtenga una jerarquía de grupos estables. Un grupo estable es un grupo atómico indivisible o, en otras palabras, un grupo en el que las distancias desde sus miembros al núcleo tienen una distribución unimodal o el número de puntos es pequeño.

5. ¿Qué tipo de música prefieres?

Respuesta correcta: rock progresivo, jazz, fusión.

Solo necesito uno: “¿Describe el proyecto más desafiante / gratificante en el que has trabajado?”

Si veo el viaje desde el problema => identificación del problema => definición del problema => alineación de supuestos => prueba de concepto => aplicación a escala completa => validación de resultados => seguimiento => ajuste, estoy contratando a esta persona sin preguntas adicionales (quizás solo algunas suaves / de personalidad).

Nuevos algoritmos que puedes aprender. Incluso diría que está bien usar algoritmos de recuadro negro incluso si no comprende el 100% de las matemáticas detrás de ellos, pero tiene una idea de la salida.

Buenas prácticas de manipulación de datos que también puede aprender (capping, binning, normalización, etc.)

La ingeniería de variables generalmente viene con los detalles del negocio.

El muestreo de datos adecuado y la validación del modelo son más una cuestión de cultura de equipo que de habilidades personales.

Resolución de problemas y sentido comercial … ahora eso es lo que estoy buscando. He visto a muchas personas que son grandes programadores, estadísticos, matemáticos. Un buen solucionador de problemas, con cierta comprensión del negocio que se está modelando, puede correr círculos a su alrededor.

Sin embargo, es bastante posible que esto sea específico de la industria. Puedo entender por completo que no necesita mucha inteligencia empresarial para hacer el reconocimiento de imágenes. En la misma área, si no está desarrollando los algoritmos desde cero, sino reutilizando los existentes, probablemente no necesite grandes habilidades para resolver problemas.

Estas son cinco excelentes preguntas con respuestas:

1. Explique qué es la regularización y por qué es útil.

La regularización es el proceso de agregar un parámetro de ajuste a un modelo para inducir suavidad y evitar un ajuste excesivo.

Esto se realiza con mayor frecuencia agregando un múltiplo constante a un vector de peso existente. Esta constante a menudo es L1 (Lazo) o L2 (cresta), pero en realidad puede ser cualquier norma. Las predicciones del modelo deberían minimizar la media de la función de pérdida calculada en el conjunto de entrenamiento regularizado.

Fig. 1: Bola Lp: a medida que disminuye el valor de p, el tamaño del espacio Lp correspondiente también disminuye.

2. Explique qué son la precisión y el recuerdo. ¿Cómo se relacionan con la curva ROC?

Calcular la precisión y la recuperación es realmente bastante fácil. Imagine que hay 100 casos positivos entre 10,000 casos. Desea predecir cuáles son positivos y elige 200 para tener una mejor oportunidad de detectar muchos de los 100 casos positivos. Usted registra las ID de sus predicciones y, cuando obtiene los resultados reales, resume cuántas veces estuvo en lo correcto o no. Hay cuatro formas de estar bien o mal:

– TN / Verdadero negativo: el caso fue negativo y se pronosticó negativo
– TP / Verdadero positivo: el caso fue positivo y predicho positivo
– FN / Falso negativo: el caso fue positivo pero predicho negativo
– FP / Falso positivo: el caso fue negativo pero predicho positivo

3. ¿Cómo validaría un modelo que creó para generar un modelo predictivo de una variable de resultado cuantitativa usando regresión múltiple?

Métodos propuestos para la validación del modelo:

  • Si los valores pronosticados por el modelo están muy fuera del rango de la variable de respuesta, esto indicaría inmediatamente una mala estimación o inexactitud del modelo.
  • Si los valores parecen ser razonables, examine los parámetros; cualquiera de los siguientes indicaría una estimación pobre o multicolinealidad: signos opuestos de expectativas, valores inusualmente grandes o pequeños, o inconsistencia observada cuando el modelo recibe nuevos datos.
  • Use el modelo para la predicción al proporcionarle datos nuevos y use el coeficiente de determinación (R cuadrado) como una medida de validez del modelo.
  • Utilice la división de datos para formar un conjunto de datos separado para estimar los parámetros del modelo y otro para validar las predicciones.

Utilice el muestreo de jackknife si el conjunto de datos contiene un pequeño número de instancias y mida la validez con R cuadrado y error cuadrático medio (MSE).

4. ¿Qué es el poder estadístico?

El poder estadístico es la probabilidad de que un estudio detecte un efecto cuando el efecto está presente. Cuanto mayor sea el poder estadístico, es menos probable que cometa un error de Tipo II (concluyendo que no hay ningún efecto cuando, de hecho, sí lo hay).

Aquí hay algunas herramientas para calcular el poder estadístico.

5. ¿Cuál es el sesgo de selección, por qué es importante y cómo puede evitarlo?

El sesgo de selección, en general, es una situación problemática en la que se introduce un error debido a una muestra de población no aleatoria. Por ejemplo, si una muestra dada de 100 casos de prueba se componía de una división 60/20/15/5 de 4 clases que realmente ocurrieron en números relativamente iguales en la población, entonces un modelo dado puede hacer la suposición falsa de que la probabilidad podría ser el factor predictivo determinante Evitar muestras no aleatorias es la mejor manera de lidiar con el sesgo; sin embargo, cuando esto no es práctico, las técnicas que se pueden introducir para ayudar a lidiar con la situación son las de muestreo, aumento y ponderación.

¡Siga a Quora User para obtener más respuestas relacionadas con Data Science!

Fuente: análisis, minería de datos y ciencia de datos

1) Explicar los fundamentos matemáticos del bosque aleatorio y la regresión potenciada, comparando y contrastando su formulación, así como las preocupaciones de implementación computacional
2) Algo relacionado con la probabilidad condicional y el teorema de Bayes
3) Discuta el último documento de aprendizaje automático que leyó y cómo se lo explicaría a su sobrina de cinco años
4) Proporcione un conjunto de datos hipotéticos (relacionado con un proyecto anterior en su propia empresa) y solicite posibles formas de analizarlo (o deles la información y unos días para analizar)
5) Pregunte sobre MapReduce o los marcos informáticos relevantes (R, Python, Hadoop …) que probablemente usarán en el puesto

Los buenos científicos de datos deben estar suficientemente familiarizados con estos temas, ya sean más matemáticos o más orientados al software.

Primero, un prefacio.

Los buenos científicos de datos saben cómo validar los modelos de manera que las matemáticas y las estadísticas nunca puedan mostrarlos. Saben cómo elevarse por encima de las malas hierbas técnicas y pensar en sus modelos conceptualmente , utilizando un lenguaje y un enfoque que cualquier parte interesada pueda entender.

Si le preguntas a los científicos de datos sobre su conocimiento en matemáticas y estadísticas, no les preguntas nada que un graduado promedio no pueda responder. Demasiados científicos de datos piensan académicamente, haciendo su contribución a proyectos de ciencia de datos del mundo real menos que estelar. El aprendizaje automático se trata de enfoques aproximados y heurísticas de alto nivel , no de soluciones analíticas profundas para las matemáticas. Si pasa mucho tiempo en los números, no podrá aportar grandes soluciones a la mesa porque le faltarán variaciones . La variación no puede provenir de aquellos que pasan el tiempo pensando profundamente en una solución que solo las matemáticas han demostrado que son “válidas”. Proviene de exponer muchos modelos que funcionan mal en una amplia gama de escenarios de usuario (que no puede conocerse por adelantado), y La retroalimentación de las partes interesadas informa el proceso de mejorar esos modelos.

Lo que funciona bien detrás de las torres de marfil es demasiado ingenuo para la complejidad que enfrentamos en los proyectos de software del mundo real. Animo a la comunidad de Data Science a pensar más allá del aprendizaje automático académico y aprender a usar esta tecnología en un nivel abstracto, donde los conceptos y la variedad superan el pensamiento profundo y miope. Great Data Science no ocurre en la pizarra; sucede dentro del software que usa la gente.

Todo lo dicho, esto es lo que preguntaría:

  1. ¿Cómo decidiría cuál es la precisión predictiva adecuada para su modelo? (pista: lo más alto posible no es una respuesta aceptable);
  2. Si fuera un consultor y estuviera creando una aplicación de aprendizaje automático para su cliente, ¿cómo lidiaría con los modelos que quedan obsoletos sabiendo que su trabajo con el cliente es temporal? (lo que sucede cuando te vas);
  3. Todos saben que la narración de historias es importante cuando se habla de los beneficios que los datos y los análisis pueden aportar a una organización. ¿Cómo puede la narración de historias hacer que su trabajo en aprendizaje automático sea más efectivo?
  4. ¿Por qué no deberías tener un algoritmo favorito?
  5. Actualmente, su organización utiliza un proceso manual para seleccionar contenido para su suministro de noticias y ofrece mejores resultados que su modelo de aprendizaje automático. Pero el contenido seleccionado manualmente no es una estrategia escalable a largo plazo. ¿Cómo convencería a su empresa (es decir, les mostraría) que la integración / combinación de su modelo de aprendizaje automático en el producto gradualmente no solo es más estratégico sino también posible?

Cualquiera puede garabatear ecuaciones de libros de texto en una pizarra o contarme sobre las matemáticas que nunca usarán en el trabajo. Muéstrame que entiendes / aprecias el tipo real de complejidad que tratamos en Data Science y llamarás mi atención.

  1. ¿Cuáles son las principales distinciones entre las técnicas econométricas y de aprendizaje automático?
  2. ¿Qué métodos utiliza para seleccionar y validar modelos predictivos?
  3. ¿Cómo selecciona y reduce las variables en un gran conjunto de datos?
  4. ¿Explicar el proceso analítico de extremo a extremo que sigue para apoyar las consultas?
  5. ¿Cómo aplica el método científico, especialmente en relación con la generación y prueba de hipótesis?

Tenga en cuenta que las respuestas adecuadas a estas preguntas son multifacéticas, con la intención de desentrañar la fusión de la experiencia práctica (conocimientos técnicos aplicados + metodológicos) unida a la comprensión teórica (comprensión de los inquilinos básicos de análisis de datos y el proceso de investigación científica).

Tenga en cuenta que hay una escasez de enfoque en herramientas e ingeniería. Creo que hay algunos que sienten que la capacidad de usar R o Python + exposición del ecosistema Hadoop = científico de datos. En mi opinión, se trata simplemente de herramientas que requieren una comprensión metodológica aplicada subyacente (tener un martillo, una sierra y mucha madera no hace que uno sea carpintero, per se).

Por último, he hablado con muchos que están bastante frustrados con el proceso de reclutamiento de ciencia de datos en general, por lo que me preocupa que alguien sin contexto haga estas preguntas e intente interpretar las respuestas ‘correctas o incorrectas’ (como un cuestionario pop de la escuela). Los reclutadores y los representantes de recursos humanos quieren una pequeña lista de verificación ordenada. Sin embargo, juzgar el conocimiento del dominio y la experiencia aplicada debería ser, en última instancia, objeto de una revisión por pares (alguien que ha pasado años en estos problemas).

Por lo tanto, las preguntas no están destinadas a la primera etapa de activación. Para el gating, sugeriría una revisión de la experiencia laboral y la educación / capacitación sería apropiada (CV / revisión del currículum). Según los informes que escucho de quienes lo solicitan, es algo sorprendente el grado en que la primera etapa de compuerta involucra preguntas de ‘cuestionario pop’ formuladas por aquellos con poca experiencia técnica / metodológica en ciencia de datos. No supondría poder evaluar si un profesional de recursos humanos comprende los conceptos básicos de un sistema de incentivos y compensación corporativa bien diseñado basado en un escaneo de 5 minutos de una página de Wikipedia. Sin embargo, la noción de que es posible lo contrario parece persistir. El ‘riesgo final’ es contratar pseudoprofesionales (aquellos que emiten la pátina de la experiencia). Creo que a muchos de mis colegas y asociados les gustaría colaborar en un mejor modelo, un retorno a la razón.

  1. ¿Explicar sobre algún algoritmo en Regresión o Clasificación?
  2. ¿Cómo se valida el modelo en Regresión?
  3. ¿Qué es la matriz de confusión donde se usa?
  4. Explique sobre el modelo de bosque aleatorio y cómo lo valida.
  5. Explicar sobre el algoritmo de agrupamiento y cuáles son todos los pasos necesarios para construir.

Las cinco preguntas son más que suficientes para verificar si tiene conocimiento de Data Science o no. En primer lugar, debe tener experiencia y una idea clara sobre los algoritmos anteriores para poder validar a un candidato [recuérdelo].

No haga preguntas de fórmula estadística y solución de extremo a extremo que no tenga fundamento. Muestra su incapacidad como científico de datos.

Si responde el 60% de las 5 preguntas anteriores, está en forma como científico de datos al 100%. También puede aprender e implementar otros algoritmos.

Felicidades !!!! Hacer bien !! ¡Aprende tanto como sea posible! ¡¡¡feliz aprendizaje!!!

Asoka-

No presentaría cinco preguntas. Presentaría cinco escenarios (“casos de uso” si lo prefiere) y preguntaría cómo los resolvería el solicitante.

La respuesta real sería de interés, pero realmente estaría siguiendo sus procesos de pensamiento.

  1. ¿Cómo sabrías si estás equivocado?
  2. ¿Cuál es el universo de los factores de error en su estudio?
  3. ¿Qué técnicas recursivas le permiten ver el cambio con el tiempo?
  4. ¿Eres inductivo, deductivo o ambos?
  5. ¿Cuáles son los límites de sus reclamos?

Pregunte cuál es la ventaja / desventaja de usar el software R
¿La ingeniería de características es más importante o los modelos tienen que ver con la precisión?
Pregunte algunos conceptos básicos de programación (bucles, funciones personalizadas, etc.)