La aplicación de algoritmos existentes , en forma de marcos que solo necesitan un montón de parámetros, se simplificará enormemente en los años más cercanos. Los primeros pasos importantes son MS Azure, Google Cloud, Amazon ML: ya son capaces de producir los modelos más simples basados solo en sus datos y no en su experiencia como científico de datos.
Lo que está parcialmente resuelto y se hará en varios años:
- Reducción de dimensionalidad
- Transformación de características para la mayoría de los tipos: toma de decisiones automatizada sobre la conversión de una variable discreta en un grupo de binarios, la división de una variable continua, etc.
- Optimizando hiperparámetros
- Análisis de dependencia: al menos, será extremadamente simplificado
- Aprendizaje de representaciones de texto e imágenes.
- Sistemas de recomendación
- Visualización: es una parte difícil, muchas personas inteligentes trabajan en él, pero muy pocas lo hacen bien. En la mayoría de los casos, los informes de rendimiento y la analítica empresarial automatizada irán acompañados de gráficos generados automáticamente, pero los humanos seguirán haciendo todo lo bueno. Crear gráficos circulares es una cosa, pero las demostraciones interactivas animadas en 3D son un mundo completamente nuevo.
Todo eso se hará mediante la implementación de tuberías que se ajustarán a su tarea tomando una descripción del problema en forma de algunas configuraciones:
- ¿Cómo obtengo un trabajo como desarrollador R / científico de datos como recién graduado mientras solicito el trabajo desde el extranjero?
- ¿Cuáles son los mejores trabajos de analista de datos de nivel de entrada / Big Data / análisis de datos que existen? Específicamente, ¿qué compañías ofrecen la mejor compensación y prestigio?
- ¿Es la industria de la ciencia de datos / aprendizaje automático propensa al espectáculo y a los charlatanes? ¿Existen roles en la industria que sean adecuados para personas que no creen que tengan buenas habilidades sociales o de presentación / presentación (pero buenas habilidades técnicas)?
- Cómo comenzar mi carrera en análisis como un nuevo
- ¿Contrataría a un matemático con conocimientos estadísticos limitados para un rol de científico de datos?
- ¿Qué es una variable objetivo?
- ¿Qué rangos de su variable se consideran buenos o malos?
- Qué tan robusto debe ser el modelo (estándar de error, por ejemplo)
- Función de error
- Objetivos de rendimiento: si se puede construir un modelo en la nube, pero no puede permitirse el lujo de una máquina para su despliegue, puede haber una compensación entre la precisión y la velocidad
Eso es todo acerca de ML “tradicional”, porque el aprendizaje profundo ahora no es tan simple y la demanda no es tan amplia como se podría imaginar. Es por eso que la profesión de ingeniero de ML no desaparecerá: las máquinas se vuelven más inteligentes, pero alguien necesita seguir construyendo máquinas nuevas. No toman decisiones clave y ciertamente no entienden nada acerca de los productos de datos. Por lo tanto, su científico de datos típico como especie se transformará en un arquitecto que transformará su problema en las especificaciones de datos, requisitos de tubería y detalles de implementación.
El papel del ingeniero de aprendizaje automático será más importante, ya que habrá grandes problemas de ingeniería relacionados con la construcción de sistemas distribuidos para:
- Virtualización: piense que EC2 apunta a ejecutar cientos de modelos en paralelo
- Marcos escalables: algunas empresas solo necesitan un par de regresiones lineales, algunas empresas necesitan un sistema en línea que conste de miles de árboles potenciados.
- Entrega continua: las startups orientadas a datos tendrán un flujo de información cambiante y los modelos deben estar actualizados en todo momento. Piense en “Temas de tendencia” en Quora: un servicio más grande como este en un sitio de noticias importante tendrá que emplear un poderoso algoritmo de aprendizaje en línea. También está conectado a su feed, para que reciba no solo sus cosas recomendadas, sino también noticias emergentes
- Herramientas de monitoreo del desempeño: las personas no creerán en estos servicios a ciegas, querrán saber sobre sus opciones. Mostrar los resultados del backtesting es importante
En el futuro, el aprendizaje automático u otras tecnologías relacionadas con la IA serán una parte integral del trabajo del ingeniero de software. Los programadores de sistemas y los desarrolladores web probablemente estarán libres de eso, pero otros tendrán que ponerse al día.
Dicho esto, la habilidad central que posee un buen científico de datos: la capacidad de comprender el problema detrás del CSV, no es algo que pueda importar como paquete de Python. Las personas que ahora se llaman científicos de datos existieron hace siglos, pero eran conocidos como “expertos mundiales en lo que está pasando”. Incluso las máquinas más inteligentes solo nos brindan formas más rápidas y sofisticadas de equivocarnos, por lo que la profesión en sí misma no va a ninguna parte.