¿Cómo puede ser útil el aprendizaje automático para analizar videos?

De una respuesta relacionada: la respuesta de Abhinav Sharma a ¿Cómo se puede utilizar el aprendizaje automático para analizar videos / comentarios de YouTube?

Un ejemplo que ganó mucha fama fue cuando Google utilizó grandes redes neuronales (Deep Learning / Google Brain) para aprender sin supervisión el concepto de un gato (y otros).


Esto es parte de una tendencia más amplia en la que estamos viendo grandes avances en las capacidades de las grandes redes neuronales en los últimos años.

Otra área de trabajo que encuentro interesante es combinar imágenes de resonancia magnética con toneladas de datos de video para reconstruir imágenes de escáneres cerebrales.

El primer ejemplo para mí es realmente emocionante porque apunta a la creciente capacidad de las máquinas para eventualmente igualar la cognición humana en tareas que consideramos exclusivamente nuestro dominio. Lo último es realmente genial porque señala las etapas muy primitivas de las interfaces cerebro-computadora.

Al articular relaciones entre entidades en los videos.

Todd Carter de Tagasauris señala que la mayoría de los videos son “tontos”. Los archivos de imágenes como Magnum Photo están comenzando a utilizar un mayor nivel de automatización mediante el aprendizaje automático y la inferencia junto con la curación de colaboración colectiva para ayudar a escalar un esfuerzo de etiquetado inteligente, un método que Carter llama una “plataforma de computación asistida por humanos”. Esta es la forma en que un pequeño equipo crea resultados de búsqueda y recomendaciones relevantes.

Lo mismo sucede con el video que con las imágenes fijas. El objetivo del esfuerzo de procesamiento humano + computadora es crear metadatos semánticos legibles por máquina para ayudar a los usuarios a localizar imágenes y segmentos de video relevantes. Cuanto más articuladas son las relaciones, más sirven ellas mismas como metadatos semánticos explícitos y detallados que no tienen que ser generados por humanos, solo necesitan ser sintonizados y validados por humanos.

Una vez que se validan estos metadatos, se inicia un ciclo de retroalimentación-respuesta.
Mientras más máquinas capturen las interacciones e infieran las relaciones implícitas, mejor será la base sobre la cual los humanos pueden construir. No necesitamos arrancar cada etiqueta. En cambio, podemos trabajar con las máquinas para identificar puntos de conexión entre entidades de medios, fragmentos, etc.

En esta charla de noviembre de 2014 en la Universidad Estatal de Montclair, Carter habla sobre hacer que las imágenes sean “conscientes de la relación”, y en términos de gráficos semánticos, eso significa un énfasis en los verbos y los sustantivos.

El conocimiento de las relaciones hace posible crear fotos que también se conviertan en “documentos de consulta” o hipervideos: Tagasauris creó un hipervideo con videos de TED: HyperTED

Más interacción humano / máquina es esencial para construir mejores gráficos de conocimiento, que por supuesto deberían incluir video.

Video Machine Learning es un problema muy difícil en muchos niveles. No solo tiene que procesar los videos a escala, sino que las imágenes deben analizarse. Además de eso, no puedes procesar 30 cuadros por segundo o obtendrás basura masiva.

El uso del aprendizaje profundo y las redes neuronales convolucionales (CNN) ha cambiado el juego. He pasado años haciendo análisis de contenido y análisis de video para medir el compromiso y cocreé un producto llamado KRAKEN para resolver un gran desafío de aprendizaje automático de video. Mi pasión es aprender qué elementos visuales crean el mayor nivel de compromiso e impulsan un mayor rendimiento de video. La inteligencia de datos en video está emergiendo rápidamente y más por venir.

Para obtener más información y un video completo, vea Testimonial de clientes de Video Machine Learning Success

Una publicación reciente en SEJ sobre video machine learning está disponible y respalda el video.
El Video Machine Learning Armageddon | SEJ

Nada como escuchar a un cliente real y su experiencia usando el aprendizaje automático de video.
@chasemcmichael

¿Creo que está preguntando sobre posibles aplicaciones útiles para analizar videos utilizando métodos de ML? En ese caso, hay varios de ellos.

  • Reconocimiento de actividades: para identificar qué actividades realiza una persona. Esto es importante desde la perspectiva del cuidado de adultos mayores
  • Detección de caídas: para identificar caídas y generar alarmas
  • Detección de anomalías en escenas abarrotadas: esto es muy importante para identificar amenazas terroristas en lugares abarrotados como centros comerciales, aeropuertos, etc.
  • Tecnologías asistidas: para ayudar a las personas con enfermedades cognitivas a completar sus tareas. Por ejemplo, asistencia para lavarse las manos a personas con enfermedad de Alzheimer.

Las cámaras realmente no “usan” la luz, simplemente enfocan la luz en un sensor. Una vez enfocado en el sensor, comienza el procesamiento. El sensor de la cámara y la computadora de a bordo convierten la luz analógica en una señal digital. Se aplican varios procesos a la señal para optimizar la imagen digital antes de formatearla y comprimirla. La imagen formateada se escribe en el almacenamiento, generalmente una tarjeta SD.