Si seleccionamos científicos de datos al azar, ¿pueden explicar completamente las matemáticas o las estadísticas detrás de los algoritmos de aprendizaje automático que usan a diario?

Muchos científicos de datos (no todos) tienen una buena comprensión de los algoritmos que usan a diario, pero eso no significa necesariamente que tengan un dominio completo de las matemáticas detrás de ellos.

Los científicos de datos no son académicos. Las matemáticas subyacentes no son tan relevantes para su trabajo diario. Sin duda es importante comprender cómo funcionan los algoritmos a nivel conceptual, pero las preocupaciones prácticas superan a la teoría. En general, la ciencia de datos en la industria está prácticamente orientada.

La mayoría de los científicos de datos han analizado las matemáticas en algún momento, pero a medida que pasa el tiempo, el conocimiento detallado se desvanecerá si no se usa.

  • Los científicos de datos con menos experiencia tienden a saber más de las matemáticas, porque es más reciente en la memoria.
  • I + D es, naturalmente, más matemática, mientras que BI definitivamente no lo es.
  • Los científicos de datos de los gigantes tecnológicos probablemente sepan más matemáticas porque tienen más tiempo en sus manos, mientras que los científicos de datos en pequeñas empresas nuevas estarán ocupados con todo tipo de trabajo.

Hablaré de mi propia experiencia.

Podría explicar la mayor parte, pero fallaré en detalles y detalles .

Pongamos un ejemplo.

A menudo uso el algoritmo de aumento de degradado [1] (a través de la biblioteca XGBoost [2]).

Sé un poco sobre la teoría: una técnica de aprendizaje en conjunto que utiliza el gradiente descendente sobre las funciones para construir un alumno fuerte a partir de las más débiles.

Esta definición está lejos de ser rigurosa, pero es suficiente para mí.

También sé un poco sobre la práctica de usarlo: cuáles son los hiperparámetros importantes, un buen rango para ellos, qué objetivos elegir, cómo monitorear el rendimiento y la parada temprana, cómo obtener la importancia de las características, etc.

Estoy lejos de ser un experto.

Lo bueno es que estoy aprendiendo cada vez más sobre el tema cada vez que uso el algoritmo.

Además, hay muchos recursos disponibles y puedo aprender las cosas necesarias cuando sea necesario.

Espero que esto ayude.

Notas al pie

[1] Aumento de gradiente – Wikipedia

[2] dmlc / xgboost

Para muchos algoritmos de ML, la respuesta es claramente “no”, ya que no se sabe mucho acerca de sus propiedades estadísticas. Esperaría que un científico de datos aleatorios tenga una buena comprensión (no necesariamente completa) de los algoritmos y algunas ideas sobre el alcance y los procedimientos de validación, pero no nada parecido a la comprensión que un estadístico tiene sobre el alcance y los procedimientos de validación de, por ejemplo, GLM.

No digo esto para insultar a la gente de ML, aunque yo (como estadístico) obviamente tengo un sesgo. Los algoritmos de ML son (desde un poder matemático) mucho más complejos, y han sido estudiados por un tiempo más corto, que los métodos estadísticos clásicos. Por lo tanto, no sería razonable esperar que alguien los entienda al mismo nivel.

Sí, entiendo las matemáticas detrás de cada algoritmo que uso. Los motivos son:

  • Esto nos permite comprender el error, su naturaleza y proporcionar medidas correctivas (incluido el uso de otro algoritmo).
  • da una buena imagen del rendimiento, hardware requerido, etc.
  • Los parámetros de entrada, especialmente los de control, deben tener valores significativos (¿por qué coeficienteABC = 0.8?).
  • si es necesario, puedo implementar exactamente la misma solución en otra plataforma.

Típicamente no. Al menos en el espacio de aprendizaje profundo:

Un buen científico de datos probablemente puede darle una explicación a nivel experto de los componentes matemáticos y estadísticos involucrados (por ejemplo, álgebra lineal, PCA, ICA, la regla de la cadena, backprop, descenso de gradiente, Bayes, probabilidad, distribuciones, ajuste de curvas, desigualdad de Hoeffding, entropía.)

¿Pueden explicar completamente un sistema no lineal de 10 capas que busca un mínimo en un paisaje de 3000 dimensiones dado que la persona que construyó el sistema ha introducido sesgo porque ya ha leído 20 artículos académicos sobre el mismo problema? No, simplemente no hay matemática existente que tengamos ayuda aquí (más allá de darnos funciones de límite inútiles, es decir, decir “eso podría funcionar”).

No, no siempre Y como muchas respuestas a continuación también coinciden. No necesita saber las matemáticas, pero ciertamente el concepto del algoritmo que va a implementar.

Sin embargo, esperaría que todos los que se autodenominan Científicos de datos puedan explicarle cómo probaron ese algoritmo y saber que es el más adecuado para el trabajo.

(Lamentablemente, me temo que mis expectativas no siempre son la realidad. He conocido a varios ‘científicos de datos’ de doctorado que conocen las matemáticas complejas detrás de su red de aprendizaje profundo, pero no pueden explicarme cómo lo prueban para saber que realmente es mejor. )

Probablemente no muchos. Hay algunos de nosotros en puestos de I + D en matemáticas pesadas que conocemos muchas de las matemáticas (tienden a tener títulos de posgrado en matemáticas / estadística como yo). Esperaría que los buenos que están teniendo un impacto en su empresa conozcan las matemáticas básicas detrás de los algoritmos comunes (agregación aleatoria de bosque y bootstrap, aumento, agrupamiento k-mean …). Como mínimo, deben comprender las limitaciones y suposiciones detrás de la mayoría de los algoritmos comunes de aprendizaje automático. Un buen comienzo es Elementos del aprendizaje estadístico; Los siguientes buenos pasos son los documentos ArXiv / journal.

Conocer bien los fundamentos siempre es útil. El grado de comprensión es altamente subjetivo.

Es difícil clasificar la comprensión matemática, probablemente porque no hay necesidad de esos datos.

¿Por qué? Porque un buen empleado sería flexible y aprendería todo lo que el trabajo requiera. Cualquier conocimiento extra es extra.

Los algoritmos calculan y clasifican, por lo que la mayoría de las personas los usan como calculadoras.

Sin embargo, creo que las matemáticas son importantes. Siempre te da una perspectiva más amplia 🙂

No.

Incluso el uso de las matemáticas en la academia es muy exagerado. En investigación, los colegas confían en la investigación publicada en revistas y construyen su investigación donde otros la dejaron. En muchas ocasiones, no entienden las matemáticas en otros documentos, pero pueden sugerir cambios y publicar sus propios documentos. El objetivo es publicar la mayor cantidad de artículos posible y no perder el tiempo derivando ecuaciones que ya se han derivado.

Primero debe definir su metodología de muestreo para asegurarse de que realmente está obteniendo científicos de datos aleatorios.