¿Cómo debo prepararme para las preguntas de estadísticas para una entrevista de ciencia de datos? ¿Qué temas debo repasar?

Estos son temas de primer nivel que forman parte de una entrevista general de ciencia de datos, donde la estadística es una de las habilidades que se están ignorando, pero no la principal. No son para evaluar la experiencia en estadística, solo familiaridad y coherencia razonable para aplicar correctamente.

Exploración de datos.

  • ¿Cómo resume la distribución de sus datos?
  • ¿Cómo maneja los valores atípicos o los puntos de datos que sesgan los datos?
  • ¿Qué suposiciones puedes hacer? ¿Por que y cuando? (es decir, cuándo es seguro asumir “normal”)

Intervalos de confianza

  • Cómo se construyen
  • ¿Por qué estandarizas?
  • Como interpretar

Muestreo

  • ¿Por que y cuando?
  • ¿Cómo se calcula el tamaño de muestra necesario? [El análisis de potencia está avanzado]
  • Limitaciones
  • ¿Bootstrapping y remuestreo?

Sesgos

  • Cuando tomas muestras, ¿qué sesgo estás infligiendo?
  • ¿Cómo controlas los sesgos?
  • ¿Cuáles son algunas de las primeras cosas que me vienen a la mente cuando hago X en términos de sesgo de sus datos?

Modelado

  • ¿Se puede construir un modelo lineal simple?
  • ¿Cómo seleccionas las funciones?
  • ¿Cómo evalúa un modelo?

Experimentación

  • ¿Cómo probar nuevos conceptos o hipótesis en … .insert dominio X? es decir, ¿cómo evaluaría si a los consumidores les gusta o no el rediseño de la página web o la nueva comida que se sirve?
  • ¿Cómo se crean grupos de prueba y control?
  • ¿Cómo se controlan los factores externos?
  • ¿Cómo evalúa los resultados?

Un candidato que realmente me impresiona estaría bien informado en:

  • Estadísticas : intervalos de confianza, estimación de parámetros, valor p, prueba de hipótesis.
  • Métricas comunes : tasa de participación / retención, conversión, productos similares / coincidencia de duplicados, cómo medirlos.
  • Funciones de costo útiles : pérdida de registro, otras basadas en entopy, DCG / NDCG, etc.
  • Aprendizaje automático básico : problemas de clasificación / regresión / clasificación, sobreajuste, optimización convexa, árboles, conjuntos, refuerzo, filtrado colaborativo, etc.
  • Herramientas : R / Python / Mathematica, Weka y similares. Codifique algo usted mismo también ayudaría, Kaggle es muy útil.
  • Matemáticas y complejidades : vectores propios, valores singulares, PCA, LDA, Gibbs Sampling, Information Bottleneck et. Alabama.
  • Números e intuición de la vida real : comportamiento esperado del usuario, rangos razonables para la tasa de registro / retención de usuarios, duración / recuento de sesiones, usuarios registrados / no registrados, interacción profunda / de alto nivel, tasa de spam, tasa de quejas, eficiencia publicitaria.

Valor p
¿Cuál es el valor P y es diferente del error tipo I.
Search Engine Metrics
¿Cuáles son las métricas para evaluar un sitio web de motor de búsqueda?
Colisiones de hormigas
Tres hormigas están sentadas en las tres esquinas de un triángulo equilátero. Cada hormiga comienza al azar, elige una dirección y comienza a moverse a lo largo del borde del triángulo. La probabilidad de que ninguna de las hormigas choque = [? /? ] Seguimiento: las hormigas k se sientan en las esquinas k de un polígono equilátero. Cada hormiga comienza al azar, elige una dirección y comienza a moverse a lo largo del borde del triángulo. La probabilidad de que ninguna de las hormigas choque = [? /? ]
Agregación de ventana deslizante de SQL
Dada una tabla con dateid, adid, impresiones, particionada por dateid, necesitamos calcular la impresión total para un adid en los últimos 28 días. El desafío aquí es que cada partición tiene cerca de 4 mil millones de filas y queremos evitar escanear 28 particiones todos los días. ¿Cómo lo optimizará para que no tenga que escanear 28 particiones todos los días?
Informe de ventas SQL
Dada la siguiente tabla: CREAR TABLA SI NO EXISTE entrevistas_ventas COMO pila SELECT (17, ‘US’, ’01 / 01/2014 ‘, 5,’ US ‘, ’01 / 02/2014’, 8, ‘US’, ‘ 01/02/2014 ‘, 5,’ US ‘, ’01 / 03/2014’, 10, ‘CA’, ’01 / 01/2014 ‘, 3,’ CA ‘, ’01 / 02/2014’, 2 , ‘CA’, ’01 / 02/2014 ‘, 2,’ FR ‘, ’01 / 01/2014’, 6, ‘FR’, ’01 / 02/2014 ‘, 6,’ FR ‘, ’01 / 05/2014 ‘, 4,’ FR ‘, ’01 / 05/2014’, 7, ‘GB’, ’01 / 01/2014 ‘, 2,’ GB ‘, ’01 / 02/2014’, 4, ‘ GB ‘, ’01 / 08/2014’, 10, ‘JP’, ’01 / 06/2014 ‘, 8,’ JP ‘, ’01 / 06/2014’, 1, ‘JP’, ’01 / 07 / 2014 ‘, 8) AS (país, fecha, ventas_amt) DESDE dim_one_row: crecimiento; Devuelve todo el país, la fecha y la sales_amt donde sales_amt> = 8 Devuelve el total de sales_amt por país Devuelve el total de sales_amt por país y día donde el total sales_amt> = 10
Coleccionista de cupones
Hay 100 bolas con la marca # 1 – # 100 en cada una de ellas. Elija aleatoriamente una bola y la marcó con una estrella. (sin saber el # en él.) Repita este proceso 100 veces. Si el objeto elegido ya tiene una estrella, vuelva a colocarlo. Y comienza el siguiente proceso. Después de repetir este proceso 100 veces, obtén la pelota con el # 1, ¿cuál es la probabilidad de que no haya sido marcada con una estrella? ¿Cuál es la cantidad de veces que necesita repetir este proceso si desea marcar todas las bolas?
Ceros al final
Cuente cuántos 0 finales (¡100!)
Estimación diaria del número de papas fritas vendidas en McDonalds
Estime la cantidad diaria de papas fritas vendidas en McDonalds
Regresión logística básica
Escriba la fórmula para la regresión logística. ¿Cómo determinar los coeficientes dados los datos?
Regresión lineal básica
¿Cómo diagnostica cómo su modelo de regresión lineal se ajusta a los datos?

Estoy feliz de compartir mi aprendizaje sobre Data Science y Machine Learning. Tengo que trabajar en Data Science a través de proyectos en R y Python Programming. Antes de pasar a qué preguntas esperar en una entrevista, déjame darte una guía rápida sobre qué es la ciencia de datos.

¿Qué es la ciencia de datos?

La ciencia de datos implica el uso de métodos automatizados para analizar cantidades masivas de datos y extraer conocimiento de ellos.

Hay 3 ciencias importantes que forman la ciencia de datos. Estos son:

  1. Ciencias de la Computación
  2. Estadística matemática
  3. Aplicaciones

Es la combinación de las 3 ciencias y cada proyecto de Data Science implica su uso para lograr los resultados requeridos. Al combinar aspectos de estadística, informática, matemática aplicada y visualización, la ciencia de datos puede convertir la gran cantidad de datos que genera la era digital en nuevas ideas y nuevos conocimientos.

Visite nuestro blog sobre Qué es la ciencia de datos para comprender completamente los conceptos importantes involucrados.

Componentes de la ciencia de datos

Data Science tiene los siguientes componentes:

1) Estadística

  1. La estadística es una rama de las matemáticas que se ocupa de la recopilación, análisis, interpretación, presentación y organización de datos.
  2. Las estadísticas comenzaron en la antigua civilización, que se remonta al menos al siglo V a. C., pero no fue sino hasta el siglo XVIII que comenzó a basarse más en el cálculo y la teoría de la probabilidad.

2) Visualización

La visualización es cuando mostramos los resultados del análisis de Data Science de una manera más simple usando diagramas, cuadros y gráficos.

Mejora la toma de decisiones, el sentido del trabajo, la relación con el cliente y el rendimiento financiero.

3. Aprendizaje automático

  1. Machine Learning explora el estudio y la construcción de algoritmos que pueden aprender y hacer predicciones sobre los datos.
  2. Estrechamente relacionado con las estadísticas computacionales.
  3. Se utiliza para diseñar modelos y algoritmos complejos que se prestan a una predicción que en el uso comercial se conoce como análisis predictivo.

4. Aprendizaje profundo

El aprendizaje profundo es uno de los únicos métodos por los cuales podemos sortear los desafíos de la extracción de características en el aprendizaje automático. Esto se debe a que los modelos de aprendizaje profundo son capaces de aprender a enfocarse en las características correctas por sí mismos, lo que requiere poca orientación del programador.

Por lo tanto, podemos decir que Deep Learning es:
1. Una colección de técnicas estadísticas de aprendizaje automático.
2. Se usa para aprender jerarquías de características
3. A menudo basado en redes neuronales artificiales

Roles de trabajo en ciencia de datos

Hay 8 perfiles de trabajo principales disponibles para cualquier persona interesada en trabajar en Data Science. Son los siguientes:

Creo que con esto, has aprendido sobre los fundamentos de la ciencia de datos. Puede consultar mi blog sobre Preguntas de la entrevista de ciencia de datos para ver las preguntas principales de la entrevista que enfrentará en una entrevista.

Si es más conveniente mirar un video, consulte nuestro tutorial de YouTube sobre Ciencia de datos a continuación:

¡Espero que mi respuesta ayude!

Consulte nuestra Capacitación en certificación de ciencia de datos para obtener más información sobre los algoritmos de ciencia de datos y aprendizaje automático.

Ahh, “ciencia de datos”! ¿Podríamos tener más ciencia y menos datos? (¿Sabes cómo martillar todo es un clavo? Dado que el número de clavos aumenta, un martillo contratará más martillos). Así que aquí va:
1. ¿Cuál es la maldición de la mayor dimensionalidad? ¿Cuál es la diferencia entre datos dispersos en densidad y datos dispersos dimensionalmente? ¿Qué implica “mayor dimensionalidad” al aplicar algoritmos de agrupación de libros de texto desarrollados para espacios métricos de baja dimensión para, por ejemplo, el análisis numérico de texto? Piense en usar la densidad de conglomerados para identificar “buenos” conglomerados.
2. Espacio de probabilidad: ¿Cómo se comparan las probabilidades? El espacio de probabilidad a menudo se denomina “espacio vectorial”, ¿verdad? ¿Definir adición en este espacio? ¿Es ds ^ 2 = dp ^ 2 una buena métrica en el espacio de probabilidad? ¿Cómo construiría una métrica en el espacio de probabilidad, para que pueda comenzar a hacer cosas complicadas como la norma L2, etc.?
3. Regresión: ¿Qué es la regresión? ¿Cuáles son las principales opciones involucradas? ¿Qué tiene de lineal la regresión lineal?
4. Regresión logística: explique la regresión logística a un economista, biólogo o científico físico. Puede usar la “fórmula” si lo desea. Motivar la “fórmula”.
5. ¿Cómo se ve la distribución de puntajes para la regresión logística? ¿Cómo lo rastrearía?
6. ¿Cómo deben calibrarse los puntajes de regresión logística? ¿Cuáles son los peligros del sobreajuste en la calibración?
7. Ciertos proveedores de datos de terceros (DP1, DP2 …) identificarán cookies_ids como pertenecientes a un segmento demográfico específico, digamos DP1_S1 = F35-44. Para probar la precisión de esta asignación, las muestras aleatorias de cookie_ids en estos segmentos se miden contra una fuente estándar de la industria de “verdad fundamental”. Esto generará datos como “40% de los cookie_ids que DP1 identifica como en S1 están realmente (de acuerdo con la” verdad fundamental “) en F35-44” y “30% de los cookie_ids que DP2 identifica como en S5 están realmente (de acuerdo con “verdad fundamental”) en F35-44 “. Dado lo anterior, ¿cuál es la probabilidad de que un cookie_id que se encuentra tanto en DP1_S1 como en DP2_S5 se encuentre en F35-44 de acuerdo con la fuente estándar de verdad de la industria?
8. Las x e y son dos variables aleatorias y se conocen sus errores estándar. ¿Cómo se puede calcular / estimar el error estándar en f (x, y)? Si lo desea, específicamente, en f (x, y) = y / x. ¿Cómo haría esto si tuviera todos los datos (x_i, y_i)?
9. ¿Por qué la prueba y el grupo de control deben ser del mismo tamaño en una prueba “A / B”?

La mejor manera de tener éxito en una entrevista sería demostrar su conocimiento y cómo se puede utilizar para resolver preguntas comerciales.

Además de conocer la teoría, prepárate para hablar de aplicaciones. Aquí hay algunas situaciones comerciales comunes que todos los estadísticos deben conocer

1. La empresa quiere aprovechar todos sus datos y construir un modelo súper predictivo. ¿Qué deberían saber sobre el uso de un gran espacio de funciones? En el caso de OLS, ¿cómo cambia la varianza del término de error con el número de predictores? ¿Cuál es la maldición de la alta dimensionalidad? ¿Cuál es la complejidad computacional del algoritmo X en términos de la cantidad de características? ¿Qué reducciones de dimensionalidad se pueden usar para preprocesar los datos?

2. La empresa quiere construir un clasificador. Hacen algo realmente fácil y descubren que predicen correctamente las etiquetas el 99% del tiempo. ¿Qué podría estar mal aquí?

3. El negocio se sorprende al ver que la variable X se considera un predictor significativo de Y, mientras que Z no lo es. ¿Cómo puede suceder esto?

4. A medida que el negocio escala, comienzan a ver rendimientos decrecientes de sus recursos. ¿Cómo puedes modelar esto?

5. En el modelado de series de tiempo, ¿cómo podemos tratar con múltiples tipos de estacionalidad como la estacionalidad semanal y anual? ¿Qué pasa si hay un cambio importante en el negocio y la estacionalidad cambia?

6. La empresa quiere hacer una prueba ab en la que una organización externa asigne aleatoriamente personas a un grupo de control o un grupo experimental. ¿Cómo puedes verificar que la tarea realmente fue aleatoria?

En cuanto a los temas específicos, creo que otros los han manejado bastante bien. En lo que me centraré es en cómo superar la entrevista.

Mi estrategia al entrevistar a los candidatos era encontrar un lugar donde mis antecedentes y los de ellos se superpusieran. Luego haría una serie de preguntas técnicas dirigidas a esa área. Por lo tanto, mi primer consejo sería averiguar con quién va a hablar y dónde podría tener algo en común. Asegúrese de conocer bien esa área. He entrevistado a candidatos que han fallado aquí. Por ejemplo, recuerdo haber entrevistado a un doctorado en Estadística que hablaba sobre sus habilidades de regresión pero que no podía explicar R-cuadrado.

Una vez que he hecho una serie de preguntas técnicas, generalmente hago que el candidato seleccione una estadística o concepto en esa área y me lo explique como si no tuviera antecedentes en matemáticas o estadísticas. Esto se debe a que necesitábamos sentir que podíamos poner a nuestra gente frente a partes interesadas no técnicas y que serían capaces de transmitir ideas complejas con claridad. Entonces, mi segundo consejo sería aprender a transmitir conceptos complejos sin recurrir a la jerga o al conocimiento asumido. Tuve un chico memorable que explicó geodésicas usando las sillas en el café en el que estábamos. Fue genial.

Finalmente, no esperes que todo sea técnico. Se lo evalúa según lo que sabe y cómo lo transmite, pero también se lo evalúa sobre cómo encajará en la organización. No puedes hacer mucho al respecto aparte de ser tú mismo. Sea claro sobre cuáles son sus motivaciones. ¿Por qué quieres el trabajo? ¿Qué necesidades satisface para usted? De esa forma, cuando se le haga una pregunta hipotética como “¿cómo vendería este trabajo a un buen amigo que tiene los mismos antecedentes que usted?” no dejará escapar que es la paga o que puede trabajar con un gran equipo que no ha conocido. Debería poder responder sabiendo qué casillas marca para usted y qué casillas marca para la organización.

Cada campo es diferente en cómo aplica las mismas estadísticas base. Por lo tanto, es imposible estar listo en el acto para cada tipo de entrevista, deberá refinar algunas partes en función de la empresa, su producto, sus clientes y el tipo de preguntas que están respondiendo con datos.

En mi experiencia, las cosas que son más importantes para la mayoría de los gerentes que contratan Jr Data Scientists, pero que solo se relacionan con las estadísticas. Se le pedirá que codifique en python, R o SAS, así como en SQL … y también habrá aprendizaje automático, preguntas de visualización de datos y trabajo en equipo. Las estadísticas son solo una parte de ella.

En cuanto a las estadísticas, aquí hay una buena muestra

Si se le pide que compare dos muestras, sepa qué métrica es la mejor. Prueba t (chi de doble cara, pareado o no) chi-cuadrado. Sepa cuándo y cómo usar cada uno. Comprenda lo que significa el resultado y cómo funcionan los intervalos de confianza.

¡CONOZCA LAS ASUNCIONES DE UNA ESTADÍSTICA!

¿Requiere datos distribuidos normalmente o no?

¿Qué es un tamaño de muestra adecuado?

Considere también las estimaciones de confianza y error1

Si habla de regresiones, tanto lineales como logísticas, sepa la diferencia entre la significación estadística y la utilidad comercial. Es posible que no pueda establecer la contribución que hace una variable con certeza estadística, pero si puede validar que el modelo en general es significativamente predictivo, debe poder hablar sobre esto de manera coherente.

Saber:

Exactitud

Sensibilidad, frecuencia positiva verdadera, recuperación

Especificidad, tasa negativa verdadera

Precisión

Comprenda las compensaciones para elegir la sensibilidad sobre la precisión en un modelo o viceversa.

Estas métricas pueden ser tan importantes para una empresa que toma decisiones como los valores P, por lo que es importante poder hablar sobre cada una de las partes de la ecuación.

Sea capaz de explicar cómo una distribución simulada bootstrapped de sus datos se relaciona con los datos originales y dónde encaja el teorema de los límites centrales en la ecuación.

Comprenda TODO acerca de las regresiones lineales y cómo las regresiones logísticas difieren y pueda estimar el error en cada una. Sepa cómo decidir con qué probabilidad divide sus datos dados entre 1 y 0 clasificaciones en sus modelos logísticos.

Sea capaz de explicar cómo se crean las variables ficticias, para qué sirven y cómo crear una matriz de ellas para los categóricos.

Conozca cada una de las distribuciones principales y cómo se traducen en varios modelos predictivos, curvas y funciones de densidad.

En mayor o menor orden de importancia, estos son los temas estadísticos que consideraría interesantes o relevantes en una entrevista de Data Science.

  • Repase el concepto básico de una distribución normal.
  • Reconoce una distribución de Poisson cuando la veas.
  • Aprende a hacer algunas pruebas de hipótesis básicas. Explique los valores p y los errores tipo I y tipo II.
  • Explica qué son los intervalos de confianza y por qué son importantes.
  • Explica qué es el poder estadístico.
  • Explica cómo harías una prueba A / B.
  • Explica qué es un bootstrap y cómo usarlo.
  • Explicar los conceptos básicos de inferencia bayesiana: anterior, posterior, etc.
  • Explica el teorema del límite central y lo que significa.
  • Explicar ANOVA y Chi-Square.
  • Explicar ARIMA.

Espero que esto ayude.

Gracias por A2A.

En realidad, muchas personas han escrito buenas respuestas y personalmente me gustó la de Quora User y Nigel Clay.

Solo para agregar mis dos centavos, cuando se trata de seleccionar a los candidatos correctos, personalmente hago hincapié principalmente en dos cosas: la comprensión conceptual que la mera teoría y la pasión por aprender cosas nuevas. He visto suficientes personas en mi vida que son demasiado buenas en teoría, pero cuando se trata de implementación práctica, no pueden aplicar ese conocimiento para resolver el problema comercial.

Y por casualidad, si te topaste con esa persona en la entrevista que solo busca una respuesta específica y no le importa el enfoque sistemático, ¡diría que la compañía (o al menos el trabajo de esa persona) no es para ti! ¡Hay pocas oportunidades en la vida que debes dejar pasar para que una oportunidad mucho mejor te esté esperando en el futuro! ¡No es solo filosofía, sino que la he experimentado (y estoy)!

¡Estoy seguro de que la entrevista del interrogador original debe haber terminado hace mucho tiempo, pero sigue siendo lo mejor para futuras entrevistas de todos los lectores! 🙂

Para aprender estadísticas para el mínimo de ciencia de datos se requiere conocimiento de programación en python. es como el estudio de la recopilación, análisis, interpretación, presentación y organización de datos. Por lo tanto, no debería sorprendernos que los científicos de datos necesiten conocer estadísticas.

Los principales conceptos de estadística para dar respuesta a la ciencia de datos. distribuciones de probabilidad, significancia estadística, prueba de hipótesis y regresión.

La mejor manera de preparar estadísticas para la ciencia de datos aquí son los 3 pasos para aprender las estadísticas y la probabilidad requeridas para la ciencia de datos

1. Conceptos de estadísticas de núcleos: estadísticas descriptivas, distribuciones, pruebas de hipótesis y regresión.

2. Pensamiento bayesiano: probabilidad condicional, anteriores, posteriores y máxima verosimilitud.

3. Introducción al aprendizaje automático de estadísticas: aprenda conceptos básicos de máquinas y cómo encajan las estadísticas.

Para más detalles: BEPEC | ¿Por qué ciencia de datos? Bangalore

Experiencia de mis entrevistas pasadas:

Probabilidad

  • La probabilidad condicional
  • Independencia
  • Variables aleatorias

Estadísticas inferenciales (cómo interpretarlas)

  • covarianza
  • correlación
  • estadísticas de prueba
  • valores p / potencia
  • intervalo de confianza
  • análisis de varianza (ANOVA)

Diseño de Experimento / Muestreo

  • Población, población de estudio, muestra. unidad, atributo
  • Tipo de error en el experimento
  • Aleatorización, tratamiento, control, bloqueo.
  • inferencia de la población a partir de datos de muestra
  • métodos de muestreo (es decir, bootstrap, con / sin reemplazo)
  • valores faltantes
  • muestra desviación estándar / error

Regresión lineal

  • Algoritmo de mínimos cuadrados
  • Algoritmo de probabilidad
  • Suposiciones del modelo
  • Modelo de ajuste
  • Comparación de modelo
  • Selección de modelo
  • Interacciones
  • ¿Qué es / cómo manejar el problema de heteroscedasticidad?
  • cómo manejar variables categóricas

Regresión logística

  • estimaciones de parámetros
  • supuestos
  • variables categóricas
  • Interacción

Otros modelos

  • algoritmo general (árboles, SVM, refuerzo, embolsado)
  • cómo implementarlos en lenguaje XXX
  • métodos de validación (es decir, validación cruzada, X-fold)

Analítico

  • caso de estudio
  • dada una situación, ¿cómo diseñará el experimento, recopilará datos, analizará e informará el resultado?

Aquí hay algunas preguntas que pueden ser útiles:

  • ¿Qué es la fusión probabilística (AKA fuzzy merging)? ¿Es más fácil de manejar con SQL u otros lenguajes?
  • Indique 3 aspectos positivos y negativos sobre su software estadístico favorito.
  • Dé ejemplos de datos que no tengan una distribución gaussiana o log-normal. ¿También da ejemplos de datos que tienen una distribución muy caótica?
  • ¿Cómo se pueden ajustar las relaciones no lineales entre X (por ejemplo, edad) e Y (por ejemplo, ingresos) en un modelo lineal?
  • ¿Qué es la regularización? ¿Cuál es la diferencia en el resultado (coeficientes) entre las normas L1 y L2?

Puede consultar la lista completa aquí: Preguntas frecuentes de la entrevista de ciencia de datos

Ya hay varias buenas respuestas aquí. También puede consultar la siguiente guía sobre los aspectos prácticos de la entrevista.

¿Cómo me preparo para la entrevista para el trabajo de analista de datos / científico? ¿Cuáles son las preguntas que se hacen en la entrevista de la misma?

También agregaré que realmente ya debería tener una base de estadísticas antes de ir a una entrevista. Está bien repasar terminología particular o jerga industrial. Pero si tiene brechas significativas en los fundamentos, la presión del mercado laboral no es el momento de aprenderlos.

Puede ser que tenga muchas habilidades relevantes pero no esté hablando con las compañías correctas o no describa sus habilidades de la manera correcta. La buena noticia es que varios líderes de ingeniería en el Valle, incluido yo mismo, están haciendo entrevistas técnicas para científicos de datos e ingenieros de aprendizaje automático que buscan unirse a una etapa inicial, por lo que su primera conversación sería con alguien técnico que conozca estas áreas. desde diferentes ángulos, y es imparcial. Si está interesado, puede probar esto en https://www.hidimensional.com?interview-with-vlad ; si lo hace bien, lo derivarían a las empresas de mi red.

Definitivamente sepa cómo configurar, medir e interpretar un experimento. Eso es casi universalmente importante para los científicos de datos.

Más allá de eso, lo que se espera de usted variará mucho de una compañía a otra. Algunos querrán que tenga conocimientos de estadística a nivel de doctorado, posiblemente para un doctorado especializado en modelado. Algunos serán felices si sabe que las expectativas son aditivas y las desviaciones estándar no lo son. No existe un estándar de consenso sobre cuántas estadísticas necesita saber un científico de datos.

Si se trata de una empresa comercial, prepárese para responder preguntas relacionadas con las pruebas A / B: prueba de diseño A / B, prueba de medida, tamaño de muestra, prueba de hipótesis, importancia.
Este enlace me pareció muy útil:
¿Qué tan grande debe ser el tamaño de la muestra de prueba A / B? – El blog de VWO

Además de los fundamentos, la mayoría de los cuales están cubiertos en las respuestas anteriores, es importante poder traducir el conocimiento teórico en aplicaciones prácticas. Aunque esto proviene principalmente de la experiencia, será útil la comprensión básica de cómo abordar el alto sesgo, la alta varianza, el muestreo de datos, etc.

Comenzaría con el libro Estadística para el aprendizaje automático que puede proporcionarle los fundamentos del conocimiento estadístico que necesita para la ciencia de datos.

Aquí está la tabla de contenido.

Lo que más me gusta de este libro es el hecho de que explica todas las estadísticas detrás de cada algoritmo específico. Por ejemplo, en el capítulo “Motores de recomendación” se necesita el conocimiento de las estadísticas que tiene que ver con el cálculo de correlaciones entre dos intervalos de datos y el uso del coeficiente de Pearson como métrica de distancia.

Este es un problema un poco blando en lugar de uno técnico absoluto, pero cuando busco personas para ayudar a dar sentido a los datos del “mundo real”, también espero que se centren en identificar y corregir datos mal formateados o mal etiquetados. Cosas como la duplicación accidental de filas o valores en las columnas incorrectas, cosas básicas como esa que solo se trata de tratar con conjuntos de datos sin limpiar. Obviamente, para los conjuntos de datos bien preparados, esto no debería ser un problema, pero muchas veces la resolución de problemas relacionados con esto termina siendo una parte no despreciable del trabajo.