¿Los ingenieros de aprendizaje automático y los científicos de datos comparten el mismo conocimiento?

Comencemos con algo simple. Entre los dos trabajos citados, nadie es superior. Cada uno es esencial y atrae a diferentes perfiles.

Ambos trabajos no comparten exactamente el mismo conocimiento.

En cambio, comparten una base común.

De hecho, ambos tienen una buena comprensión de conceptos estadísticos , técnicas de minería de datos (carga y limpieza de datos) y programación.

Ambos perfiles trabajan de la mano en equipos de datos.

Los ingenieros de ML se centran más en la creación de sistemas, herramientas y algoritmos de ML (haciendo hincapié en los rendimientos estadísticos y computacionales), mientras que los científicos de datos se centran más en comprender los datos y comunicar este conocimiento (a través de informes y paneles, por ejemplo).

Además de estos, Ricardo Vladimiro ofrece una excelente respuesta sobre las diferencias entre los dos trabajos y lo ilustra con una hermosa metáfora. Deberías leerlo también.

¡Espero que esto ayude!

Respuesta corta:

Mi opinión personal es que los ingenieros de ML construyen sistemas de ML. A menudo, los de alto rendimiento. Están mucho más en el lado de la ingeniería de las cosas. Los científicos de datos crean productos de datos que no son necesariamente ML. Los ingenieros de ML tienen un nivel más profundo de conocimiento en lo que respecta a ML. Los científicos de datos tienen un mayor nivel de conocimiento en lo que respecta a los datos. Ninguno es mejor que el otro.

Respuesta larga:

Déjame darte una analogía que, con suerte, la simplificará mucho.

Imagina un equipo de carreras de autos. Diferentes personas tienen diferentes funciones en ese equipo. Tomemos por ejemplo la mecánica. En un equipo de carreras de autos, están altamente especializados en hacer que la bestia de alto rendimiento que llamamos un auto de carreras funcione en las mejores condiciones sin romperse. Lo ajustan de manera diferente según la pista, las condiciones actuales y esperadas e incluso el conductor.

Hablando del conductor, su trabajo es hacer que el automóvil funcione en la condición máxima mencionada mientras está en la pista.

Tanto los mecánicos como los conductores conocen el automóvil, ambos conocen la pista, ambos saben cómo se configuró para enfrentar las condiciones actuales. Sin embargo, operan en diferentes espacios.

Lo mismo sucede con los ingenieros de ML y los científicos de datos y muchos otros roles similares en otros contextos. La parte difícil hoy en día es clasificar lo que es uno y lo otro porque las descripciones de los trabajos y (¡seamos sinceros!) Internet hacen que sea un trabajo tan complejo.

Por último, pero no menos importante, no debes usar un nombre falso.

El aprendizaje automático es una forma de ciencia de datos. Es muy popular y está creciendo. Haré algunas suposiciones de aquí en adelante.

Por ingeniero de aprendizaje automático, supongo que te refieres a un practicante del mundo real; alguien que aplica herramientas y técnicas de aprendizaje automático a problemas del mundo real. Es posible que no comprendan completamente las matemáticas, las estadísticas o la base algorítmica de las técnicas. Sin embargo, pueden ejecutar el análisis, evaluar los resultados, ajustar los parámetros y, en general, personalizar un algoritmo o un conjunto de algoritmos para obtener un buen resultado. Algunas veces esto incluye aplicar métricas de calidad de datos, identificar valores atípicos, etc.

Un científico de datos probablemente puede hacer las mismas cosas, pero tendrá una comprensión más profunda de POR QUÉ un algoritmo particular produce el resultado que produce. También es probable que sepan a priori qué algoritmos son más aplicables al espacio problemático. Debido a su comprensión de la base de la ciencia de datos, es más probable que tengan éxito al aplicar la ciencia de datos a un nuevo dominio.

Desea aplicar la ciencia de datos a nuevas aplicaciones de crédito: el ingeniero probablemente pueda manejarlo bien.

Desea aplicar la ciencia de datos a genómica a gran escala o estudios de resonancia magnética o sistemas caóticos: obtenga un científico de datos.

TBC: No estoy diciendo que ningún ingeniero pueda manejar nuevos dominios o problemas complejos; ni estoy diciendo que todos los científicos de datos puedan manejar la ingeniería. ¡Así es como los clasificaría! 🙂

Como Ricardo Vladimiro señala con tanta precisión: los MLE construyen sistemas ML mientras que los científicos de datos crean productos de datos. Las habilidades requeridas para los dos roles son más o menos las mismas, pero el énfasis en esas habilidades generalmente es ligeramente diferente.

Así es como se vería un perfil típico de científico de datos y un perfil MLE típico:

Tenga en cuenta que esto es solo un ejemplo. El conjunto de habilidades de los científicos de datos en particular varía enormemente, porque el título se usa para tantos roles diferentes. En cuanto a mí, construyo sistemas ML, pero tengo aproximadamente la misma habilidad en estadística e ingeniería de software, por lo que no encajo con mi propio ejemplo de un MLE.

No hay nada como la superioridad o que uno sea un subconjunto de otro. Por el momento, desde el punto de vista de la industria, ambos tienen una responsabilidad casi superpuesta. En términos más puros, los roles se ven menos solapados cuando trabajas en organizaciones más grandes y casi se superponen en la cultura de inicio. El aprendizaje automático es una familia de técnicas que son de naturaleza variada, como supervisado / no supervisado, utilizado para solicitar clasificación, regresión, agrupamiento, etc. y muchos más. El trabajo de la función de aprendizaje automático es comprender la naturaleza de los datos y el problema y ver qué técnicas son apropiadas para el problema y, si no, cómo crear un mecanismo novedoso para reducir efectivamente el costo de las predicciones y muchas más, para ser precisos. profundizar en datos y técnicas para abordar datos. El científico de datos, por el contrario, debe entender el aprendizaje / análisis automático como una fase y ver el lado de la computación para ver su escalabilidad y factibilidad, se ocupa básicamente de los desafíos de infraestructura computacional de las llamadas técnicas de aprendizaje automático, y esto es solo un lado de la moneda, además, es posible que tenga que hablar con otros equipos, como los equipos de negocios y tecnología, para cerrar las brechas entre ellos.

Creo que una evaluación justa es que ambos tienen interés en la educación formal. Probablemente ambos hayan terminado una licenciatura en una materia matemática, con experiencia en programación. Podrían adquirir esto en algunas clases de ciencias de la computación, y han implementado proyectos no triviales y desafíos de programación. Cuanto más cerca esté del desarrollo de software, mejor preparados estarán para una producción. Ambos podrían continuar su educación en un programa de maestría, también en una materia matemática pero con más énfasis en el modelado, la programación y las aplicaciones. Los tipos de asignaturas que mejor cumplen estos roles son estadística, informática o matemáticas aplicadas. Y el estudiante junto con su asesor selecciona el programa, planifica el trabajo del curso y desarrolla el plan de estudios con cualquier experiencia de pasantía relevante. Cuantas más experiencias profesionales adquiera el estudiante durante el estudio académico formal, más cerca estarán de las expectativas del equipo, trabajarán con la gente y ganarse la vida con este trabajo.

Me imagino que ambos puestos se pueden encontrar en empresas medianas y grandes. Probablemente no encuentre estos puestos en las startups, a menos que veamos un equipo de estudiantes y profesionales que tengan sentido comercial para obtener capital, obtener ganancias a corto plazo, escalar sus negocios y enfocar su especialidad en datos y análisis como una propuesta de valor para otros empresas financieramente sólidas. Todas las empresas con una posición financiera más sólida solo se arriesgarán en una startup de este tipo, con fundadores menos experimentados, menos inversión de capital y poco crédito en el mercado, si negocian una participación a largo plazo en la empresa y su producto y servicio, con interés. para justificar su riesgo en el apoyo de capital. En la alternativa más probable, un trabajo se identifica más cerca de la ingeniería y el otro se identifica más cerca del análisis. Un ingeniero de aprendizaje automático probablemente tenga interés en sus algoritmos, minería de datos y experiencia en computadoras y redes. Esto significa que están versados ​​en computadoras, bases de datos y la red de la empresa. Un científico de datos probablemente tenga interés en aplicaciones analíticas de modelos estadísticos, conceptos matemáticos y sus técnicas. Esto significa que están más cerca de las derivaciones, el diseño de algoritmos o la propuesta de adiciones a la infraestructura informática actual.

Si ambos tipos de personas trabajan juntas, podemos entender que un ingeniero de aprendizaje automático trabaja en estrecha colaboración con el arquitecto de la base de datos, el arquitecto de la red y los equipos de ingeniería de software. Y un científico de datos trabaja más de cerca con los profesionales de negocios, analistas técnicos y gerentes de producto. Ambos pueden previsiblemente trabajar con el desarrollo del backend y colocar la infraestructura para computadoras, redes y sistemas para la empresa. Alternativamente, podrían trabajar con el personal de ventas, los vendedores y los gerentes de cuentas, y las personas de relaciones públicas para diseñar una estrategia para su marca pública, comercializar su bien y obtener sus productos y servicios en una condición de mercado confiable. Esto significa que pueden vender sus productos, administrar cadenas de suministro y su marca tiene una línea de productos en los principales distribuidores, minoristas o sitios web en línea.

Los ingenieros de aprendizaje automático están centrados en la investigación o en la programación, mientras que los científicos de datos pueden estar más centrados en la investigación o en los negocios. Los científicos de datos generalmente saben más sobre estadísticas, mientras que los ingenieros de aprendizaje automático saben más sobre programación. Pero hay una superposición sustancial.

Ambos títulos de trabajo tienen una variación significativa tanto en habilidad como en responsabilidad, pero un ingeniero de aprendizaje automático es un ingeniero que se espera que construya cosas. Se espera que un científico de datos responda preguntas.

Esperaría que cualquier científico de datos pudiera escribir algún código para hacer su trabajo. Pero no necesariamente construir software complejo.

More Interesting

¿Cuáles son algunas historias de una empresa que comienza su equipo de ciencia de datos / análisis / aprendizaje automático / almacenamiento de datos desde cero?

¿Cuál sería mejor, un MIDS de Berkeley o un MBA en ciencia de datos y análisis de Santa Clara?

¿Es la escritura técnica una habilidad útil para tener como estadista o científico de datos?

¿Dónde puedo estudiar ciencia de datos de forma gratuita para conseguir un trabajo?

Cómo convertirse en un científico de datos profesional y totalmente equipado con la ayuda de cursos oficiales como CCNA para redes de computadoras

¿Cuáles son algunas carreras en big data, aprendizaje automático e inferencias causales?

¿Analista de datos o curso de licenciatura en ciencia de datos para profesionales que trabajan en Delhi NCR?

¿En qué consiste el trabajo de un científico de datos en las principales empresas de tecnología?

Cómo convertirse en un científico de datos en dos años sin una maestría o doctorado

¿Cómo convertirse en científico de datos? ¿Cuáles son algunas habilidades esenciales para hacer eso?

¿Hay suficiente necesidad de científicos de datos en el mercado laboral en India?

¿Qué habilidades necesito para ser un científico de datos en Google o Facebook?

Cómo prepararse para un puesto de analista de datos / científico en Facebook

¿Hay trabajos de analista de datos en deportes? Me encantaría trabajar con datos relacionados con el fútbol u otros deportes.

¿Es más difícil hacer carreras en ciencia de datos?