¿Por qué las personas que se especializan en informática y se convierten en científicos de datos están tan poco capacitadas en análisis, estadísticas y aprendizaje automático?

Si se trata de personas que realmente ni siquiera entienden los conceptos básicos de la selección de funciones, el sesgo de muestreo, etc. Me arriesgaría a suponer que no cubrían ningún aprendizaje automático en sus grados. El aprendizaje automático no es necesariamente parte de un título en ciencias de la computación y la mayoría de los ingenieros de software no saben mucho al respecto, especialmente aquellos que no obtuvieron sus títulos en los últimos años desde que ML e IA se han vuelto populares.

En mi opinión, lo que tiene la culpa de esto es el esfuerzo concertado para “democratizar el aprendizaje automático”. Busque ese término en Google y encontrará una gran cantidad de herramientas y bibliotecas de aprendizaje automático como Tensorflow de Google, IBM Watson, etc.

Estas bibliotecas han hecho posible que una gran cantidad de desarrolladores de software incursionen en el aprendizaje automático sin capacitación. He escrito sobre estos tipos antes. Agregan una referencia de tensorflow a sus 11 líneas de código python copiadas del desbordamiento de pila y creen que eso los convierte en ingenieros de aprendizaje automático. Estos tipos creen que las bibliotecas de ML son similares a los lenguajes de programación de alto nivel que abstraen con éxito los engorrosos detalles de la implementación que se encuentran en los lenguajes de nivel inferior. Intenta decirle a uno de estos tipos que no puedes usar una biblioteca sin una comprensión más amplia del tema y te preguntarán si haces toda tu codificación escribiendo unos y ceros en el bloc de notas. Simplemente no saben lo que no saben.

En mi curso de maestría en ciencias de la computación, completado recientemente, tuve la oportunidad de aprender aspectos del aprendizaje automático tanto de la escuela de informática como de la escuela de estadística. Las mayores diferencias que encontré fueron que el departamento de informática esperaba que yo pudiera codificar algoritmos ML desde cero sin referencias a las bibliotecas, mientras que la escuela de estadística estaba de acuerdo con hacer referencia a las bibliotecas en R. La presentación de cursos de la escuela de informática tomó principalmente el forma de proyectos de software (los conceptos estadísticos más amplios también se cubrieron en los exámenes), mientras que las presentaciones de la escuela de estadística tomaron la forma de informes, no les importó el código R utilizado para generar el detalle de los informes.

Ambos enfoques incluyeron el aprendizaje de las estadísticas básicas, incluidas las pruebas A / B, las pruebas t, cómo evitar el sobreajuste y la falta de ajuste, la selección de características, etc. Sin embargo, sin tener que entender completamente cómo implementar los algoritmos desde cero, la escuela de estadística permitió más tiempo para considerar las implicaciones estadísticas de lo que estábamos haciendo. Entonces puedo ver cómo alguien saldría de la escuela de estadística después de haber pasado más tiempo practicando los temas estadísticos que los graduados en informática. El enfoque de la informática prepara mejor al estudiante para convertirse en un investigador de aprendizaje automático, mientras que el enfoque de la escuela de estadística está más en sintonía con las tareas cotidianas de un científico de datos.

La informática y las estadísticas son campos enormes con mucho que aprender antes de poder hacer contribuciones significativas. El aprendizaje automático se encuentra en su intersección: una gran cantidad de ML se puede describir como conceptos estadísticos expresados ​​en la terminología de la informática, pero es lo suficientemente diferente de la corriente principal de ambos como para ser otro campo de estudio digno por derecho propio.

Lo que esto significa es que prácticamente no hay un programa de entrenamiento único que le enseñe lo suficiente de ambos. Un “campo de entrenamiento” seguro como el infierno no lo hará. Una especialización de pregrado en uno y un programa de posgrado en otro probablemente se acerque. El estudio de posgrado en múltiples campos podría ser el mejor, pero después de haber hecho exactamente eso, y de haber pasado poco más de una década, 2002-2013, en la escuela de posgrado como resultado, no lo recomiendo necesariamente.

Este es un problema real, y solo va a empeorar a medida que se expande el número de subcampos especializados bajo el paraguas de “ciencia de datos”. No tengo idea de cuál es la solución.

Le diría con seguridad que la mayoría de las personas que se especializan en informática son muy buenos ingenieros de datos. Este es el primer grupo de trabajo de ciencia de datos que consume del 60 al 80% del tiempo de un científico de datos.

La ingeniería de datos básicamente implica la preparación de datos para prepararlos para el aprendizaje automático. La ingeniería de datos es tan importante como el análisis en sí. La mayoría de las empresas que se encuentran en las etapas iniciales de adoptar el análisis de datos (1–2 años) necesitan más ingenieros de datos que científicos de datos. La necesidad de automatización se convierte en clave cuando una organización necesita tomar decisiones simples. Tradicionalmente, los resultados de los ingenieros de datos darían como resultado un almacén de datos inteligente.

[email protected]

La pregunta per se tiene la respuesta.

1-Históricamente, el tema de ML fue impulsado por mis informáticos. Es por eso que muchos de sus modelos se basan en imitaciones, y no tanto en estadísticas matemáticas.

2-Los informáticos no necesitan saber matemática estadística o ML. Muchos se convirtieron en científicos de datos “por casualidad”. Es por eso que se convirtieron en informáticos y ML, en base a los puntos 1 y 2.

3- Por cierto, IRL, la mayor parte de su tiempo (alrededor del 90%) lo pasa tratando de dar sentido a sus datos y solo el 10% en estadísticas matemáticas (pero necesita saber estadísticas matemáticas para saber qué tiene sentido) )

4- Muchos empleadores no saben qué hacer con los científicos de datos y lo peor: los modelos de estadísticas matemáticas no son fáciles de presentar a audiencias (desconocidas), tanto dentro de su empleador (intente convencer a su empleador (desconocido) de que el modelo X es el uno) y fuera de su empleador. Exige un cambio de cultura y eso lleva tiempo.

Como con cualquier profesión, tendrá un espectro de talento dentro del mismo título de trabajo (a veces dentro de la misma empresa). Por ejemplo, si hay 100 científicos de datos trabajando en la misma compañía, algunos serán más talentosos que otros.

Algunos serán geniales en las pruebas A / B. Estos son generalmente los graduados de estadísticas que tomaron algunos cursos sobre diseño de experimentos y pruebas de hipótesis. Algunos van a ser excelentes en el análisis predictivo. Estos son generalmente los graduados en informática con capacitación en aprendizaje automático (y no les importan las pruebas de hipótesis o la inferencia estadística). Y luego están los graduados de estadísticas que no saben cómo programar y los graduados de informática que no entienden el sesgo de la muestra.

No estoy seguro de cuál es su tamaño de muestra o criterios de evaluación.

La ciencia de datos es el nuevo campo candente. Creo que un gran porcentaje de reclutamiento está roto.

Al igual que con muchos campos nuevos, las empresas están interesadas en contratar talentos y trabajar bajo el supuesto de que el resto del equipo completará las habilidades que faltan.

Agregue la realidad de que la ingeniería de software es un trabajo profesional en sí mismo, al igual que los estadísticos y analistas de negocios. Esperar que una persona tenga todas estas habilidades no es realista.

Yo diría que no los contratan tanto (tal vez Silicon Valley, donde la mayoría de las cosas están programando); para tener un buen desempeño en el trabajo (y en la mayoría de las empresas fuera de Silicon Valley), deberán aprender las estadísticas y el aprendizaje automático, ya que equivocarse en las matemáticas tendrá consecuencias importantes para una empresa (financiera, legal …). Me lo pregunté después de algunas conferencias en California, ya que la mayoría de los presentadores se centraron mucho en el software y luego simplemente aplicaron bosque aleatorio. También he visto compañías cerradas o golpeadas con regulaciones cuando cortan esquinas en las matemáticas.

More Interesting

Cómo convertirse en un científico de datos como ingeniero de almacenamiento de datos con habilidades matemáticas y estadísticas pobres

¿Hay demasiada gente entrenando para convertirse en científicos de datos?

¿Las nuevas tecnologías ya están matando a los científicos de datos?

Cómo convertirse en un científico de datos desde un nivel principiante absoluto a un nivel avanzado

¿Cuál es el perfil de trabajo genérico de un científico de datos / analista de datos?

¿Qué oportunidades de carrera en ciencia de datos y aprendizaje automático existen en Dropbox?

¿Cuáles son las desventajas de ser un analista de datos o un científico de datos?

¿Cuántos de ustedes aspiran a convertirse en científicos? Quiero algunas sugerencias tuyas.

¿Debería ser un ingeniero de datos o un científico de datos?

¿Alguien ha conseguido un trabajo a través de Elitmus para un puesto de científico de datos / analista de datos, ya sea como trabajador más nuevo o experimentado?

A uno no le gustan las materias teóricas o la teoría simple. ¿Puede convertirse en analista de datos o científico de datos?

¿Podría un ingeniero eléctrico convertirse en un científico de datos?

¿Cuáles son algunas sugerencias para un curso de certificación en Big Data?

¿Cómo seguirán siendo relevantes las habilidades de los científicos de datos a medida que las consultas, la exploración y la investigación de datos sean más fáciles (por ejemplo, mediante el uso de herramientas como Interana)?

Estoy en tercer año de ingeniería y quiero ser científico de datos. Pero estoy completamente confundido por dónde empezar. Entonces, ¿cómo debo hacerlo?