¿Dónde están los vacíos en el software de ciencia de datos? Cazar Trabajos es un oficio

Debe encontrar formas de tomar datos grandes, feos y difíciles de manejar y obtener algo significativo de una manera que sea más rápida y mejor que lo que otros han hecho.

Como notará, hay un hermoso software para científicos de datos. La cuestión es que casi ninguno de ese software aborda los problemas más difíciles. En la medida en que el software ha sido escrito para resolver los problemas más difíciles, está encerrado dentro de las empresas de cultivo de datos. Están tratando de usarlo para su ventaja competitiva.

¿Cuáles son los problemas más difíciles? Tienen que ver con la extracción de significado de escala mediante lectura automática y varios tipos de reconocimiento, formas automatizadas de ayudar con la preparación de datos, integración, detección de correlación, inferencia, consistencia semántica …

Piensa en la base de la pirámide de la comprensión. En la base está el reconocimiento. Enseñar a las máquinas a reconocer cosas es un gran desafío, y las empresas solo están logrando entrenar máquinas para hacerlo de manera muy pequeña a la vez.

Una de las cuestiones fundamentales es el reconocimiento de datos en sí. ¿Cómo encaja una pieza con otra? Esa es una gran pérdida de tiempo. Algunos que han estudiado el tema de la ciencia de datos estimaron que los científicos de datos dedican del 70 al 80 por ciento más de su tiempo a la preparación de datos mundanos, lo que no es un buen uso de su tiempo. Muchos proveedores de software de preparación de datos parecen asumir que los datos tabulares son el principio y el fin. No es. Eso es solo un punto de partida. Los datos del gráfico todavía están en pañales.

Ahí es donde está la promesa, porque los gráficos pueden modelar la realidad con mayor fidelidad y más precisión 3D de forma más escalable que las tablas. Pronto publicaremos un módulo sobre esto en Technology Forecast: Remapping the database database

Gartner realizó una transmisión por Internet el 4/11/2014 y mencionó estas herramientas de preparación de datos orientadas a Hadoop:

Alteryx
Historia sin parar
Paxata
Tamr
Trifacta
Línea del agua
IBM
Informatica
Talend
Teradata

Una serie de herramientas en esta categoría se están volviendo más inteligentes con la ayuda de técnicas de PNL como la extracción de entidades y relaciones, la indexación semántica latente, el reconocimiento de patrones estadísticos y similares. Eso sin mencionar lo que el reconocimiento de patrones basado en el aprendizaje profundo podría hacer.

Luego está el ángulo humano, las habilidades de reconocimiento humano de crowdsourcing que las máquinas no podrán reunir en nuestras vidas, si es que alguna vez lo hacen. Empresas como Tagasausis son expertas en motivar a las personas a etiquetar imágenes con la ayuda de la asistencia mecánica. Esa misma habilidad será fundamental en cualquier cuadrante principal de reconocimiento. Los humanos y las máquinas tienen que trabajar juntos en bucles de retroalimentación gigantes para resolver problemas. Vea Cómo superar la exageración de la gamificación.

Algunos de los mejores y más brillantes científicos informáticos de las compañías web más exitosas del mundo, como Google, Apple, Baidu y Facebook, se han centrado en el aprendizaje automático sin supervisión, porque eso promete ampliar el reconocimiento. Eso es algo difícil de hacer, tan duro que ha tomado décadas, y solo el poder de procesamiento bruto a lo largo de las líneas de granjas de GPU de transistores de 8 mil millones más granjas de memoria lo están haciendo posible ahora, de una manera pequeña.

Tienes que superar los montones de datos del conjunto de entrenamiento para hacerlo posible. ¿De dónde sacas los sets de entrenamiento? Gente como Google extrae todos sus videos de gatos de YouTube solo para reconocer las caras de los gatos para que puedan aprender cómo comenzar a reconocer otras cosas. No tienes forma de llegar a ese volumen de videos de gatos. Ninguna posibilidad. El usuario de YouTube genera los datos que Google necesita. La gente dice que YouTube no es rentable, pero está proporcionando una gran cantidad de beneficios para la fábrica de aprendizaje profundo. Cómo la investigación de un profesor de Toronto revolucionó la inteligencia artificial | Toronto Star Eso es una gran bendición para Google, y una gran barrera de entrada para otros.

Profesores como Hinton, LeCun y Bengio lo han convertido en el trabajo de su vida. Pero todavía hay un paisaje masivo por explorar, lugares que no han sido tocados.

En algún lugar hay un puñado de otras personas (formadas como verdaderos científicos) que pueden hacer una contribución en esta área, en un nicho más allá de lo que las compañías de cultivo de datos (también conocidas como compañías de redes sociales) están a punto de hacer. Tendrías que encontrar un puñado y aliarte con esas personas en la periferia que serán importantes y harán que valga la pena trabajar contigo. Supongo que tal vez tu contribución estaría en el lado de UX. Difícil de saber

Pero el verdadero desafío no es simplemente construir una interfaz hermosa o ayudar a las personas a jugar con filas y columnas en una hoja de Excel; ese tipo de cosas ya no valdrá lo suficiente, y ya se ha hecho hasta la muerte. Está haciendo que muchísimos datos mudos, feos y difíciles de manejar nos hablen cuando no ha podido hacerlo antes. Parte de eso es descubrir las piezas de un gráfico que importan, para que pueda ignorar el resto. Vea el caso de Nexalogía en Procesamiento de lenguaje natural e inteligencia de redes sociales. La visualización gráfica sigue siendo muy difícil de hacer bien, por cierto.

Sería tremendamente útil si supieras más sobre el paisaje que existe. ¿Alguien sabe dónde están las brechas más prometedoras en esta matriz? ¿Sabes dónde están las debilidades? Si te importa lo suficiente, harás el trabajo preliminar. Tendrás que saber lo suficiente para sentir la brecha que más quieres explotar. La gente no podrá darte la respuesta.
De Forbes –Tech 2015: el aprendizaje profundo y la inteligencia artificial se comerán el mundo

Esperando que esta regla te dé algunas ideas, de todos modos. Muchos científicos de datos necesitarán ayuda con su UX.

Big DataCiencia de datosdatosinformáticaingeniería de softwareminería de