¿Cuál es el problema sin resolver más difícil en el aprendizaje automático profundo, esp. ¿visión por computador?

Aquí hay un problema que es engañosamente muy difícil en el campo de la visión por computadora. Identificar un objeto arbitrario en una imagen . El ejemplo que se proporciona a continuación es de la clase de visión por computadora de la profesora Fei-Fei Lee en Stanford en la que compara la dificultad entre reconstruir un modelo 3D preciso de la estatua de Miguel Ángel (a partir de escaneos 2D) versus identificar la silla a la derecha como una silla. El primero se logró a fines de la década de 1990 (ver The Digital Michelangelo Project), mientras que identificar objetos arbitrarios en imágenes (como una silla) sigue siendo un desafío formidable.

Más allá del reconocimiento de objetos, ¿qué hay de derivar la comprensión semántica de una imagen? Por ejemplo, la tarea de describir una imagen de dos personas en un restaurante involucradas en una conversación que parecen estar enamoradas. Yendo un paso más allá, describiendo el contenido (significativo) de un videoclip de casi cualquier escena de película (sin audio, por ejemplo). Imagine la dificultad de crear algoritmos que puedan realizar tales tareas mientras siguen siendo relativamente simples para los humanos. Creo que la investigación actual solo está rascando la superficie en estas áreas y que en su mayoría permanecen sin resolver. La lista es literalmente interminable. Estos son solo algunos ejemplos en el campo de la visión por computadora.

Muchas cosas, ni siquiera sé por dónde empezar.

Construcción robótica de edificios o gestión de existencias . Ambos son posibles ahora, pero requieren una configuración muy precisa, lo que hace que sea inverosímil y rentable “simplemente” reemplazar a los humanos por robots.

Dispositivos médicos . Tanto para diagnósticos como para cirugías.

Dispositivos de seguridad . Es vergonzoso que todavía tengamos dificultades para rastrear robos o accidentes automovilísticos que suceden más o menos en público.

Mejor comunicación La videoconferencia 3D y la experiencia de usuario de Minority-Report es técnicamente posible, pero aún no se han hecho de ninguna manera útiles.

Traducción sobre la marcha del video. Lo que Word Lens intenta hacer, sin mucho éxito del producto.

Mejor navegación basada en información visual . Muchas veces, una vista desde una cámara, o una docena de cámaras, puede darle a uno una sensación de ubicación mucho más precisa en comparación con cualquier GPS.

Reconocimiento facial. Reconocimiento de emociones.

Industria aeroespacial y espacial.

Automóviles sin conductor , así como otras herramientas de seguridad vial activas y semiactivas.

Salvaguardas de robots : en la playa, en la piscina, en el jardín de infantes, en instalaciones de deportes extremos, etc.

Podría ir más tiempo En pocas palabras: ¡la lista es bastante larga a finales de 2014!

No hay barras de error alrededor de todas nuestras predicciones.