¿Cómo puede ser útil el aprendizaje automático para analizar videos?

De una respuesta relacionada: la respuesta de Abhinav Sharma a ¿Cómo se puede utilizar el aprendizaje automático para analizar videos / comentarios de YouTube?

Un ejemplo que ganó mucha fama fue cuando Google utilizó grandes redes neuronales (Deep Learning / Google Brain) para aprender sin supervisión el concepto de un gato (y otros).

Esto es parte de una tendencia más amplia en la que estamos viendo grandes avances en las capacidades de las grandes redes neuronales en los últimos años.
¿Cómo se implementa la operación de deshacer en general en la mayoría de las aplicaciones?
¿Cuáles son algunas de las medidas de éxito y KPI para un producto de software basado en SaaS?
Tengo poco interés en las matemáticas, pero me encanta la programación / programación y quiero estudiar Ingeniería de software o Ingeniería de juegos. ¿Cómo me afectará esto?
¿Qué carreras en ingeniería de software ofrecen una posibilidad razonable de ganar $ 150,000 / año o más después de 5-7 años de experiencia?
¿Cuál es la mejor compañía tecnológica para trabajar como desarrollador remoto?

Otra área de trabajo que encuentro interesante es combinar imágenes de resonancia magnética con toneladas de datos de video para reconstruir imágenes de escáneres cerebrales.

El primer ejemplo para mí es realmente emocionante porque apunta a la creciente capacidad de las máquinas para eventualmente igualar la cognición humana en tareas que consideramos exclusivamente nuestro dominio. Lo último es realmente genial porque señala las etapas muy primitivas de las interfaces cerebro-computadora.

aprendizaje automáticoIngeniería del softwareProgramación informática

¿Debo tomar las pruebas de software como especialidad en informática, o es algo que acabas de aprender en la industria?

¿Cuáles son las principales frustraciones, si las hay, en la programación en F # en Linux en comparación con Windows?

Herramienta de gestión de recursos - UK Call Center - ¿Necesita un sistema para organizar al personal, alguna idea?

¿Qué es un diagrama ER?

¿Cuáles son las preguntas de entrevista más frecuentes para los profesionales de SEO?

¿Cómo funciona el historial de ubicaciones de Google?

Al articular relaciones entre entidades en los videos.

Todd Carter de Tagasauris señala que la mayoría de los videos son “tontos”. Los archivos de imágenes como Magnum Photo están comenzando a utilizar un mayor nivel de automatización mediante el aprendizaje automático y la inferencia junto con la curación de colaboración colectiva para ayudar a escalar un esfuerzo de etiquetado inteligente, un método que Carter llama una “plataforma de computación asistida por humanos”. Esta es la forma en que un pequeño equipo crea resultados de búsqueda y recomendaciones relevantes.

Lo mismo sucede con el video que con las imágenes fijas. El objetivo del esfuerzo de procesamiento humano + computadora es crear metadatos semánticos legibles por máquina para ayudar a los usuarios a localizar imágenes y segmentos de video relevantes. Cuanto más articuladas son las relaciones, más sirven ellas mismas como metadatos semánticos explícitos y detallados que no tienen que ser generados por humanos, solo necesitan ser sintonizados y validados por humanos.

Una vez que se validan estos metadatos, se inicia un ciclo de retroalimentación-respuesta.
Mientras más máquinas capturen las interacciones e infieran las relaciones implícitas, mejor será la base sobre la cual los humanos pueden construir. No necesitamos arrancar cada etiqueta. En cambio, podemos trabajar con las máquinas para identificar puntos de conexión entre entidades de medios, fragmentos, etc.

En esta charla de noviembre de 2014 en la Universidad Estatal de Montclair, Carter habla sobre hacer que las imágenes sean “conscientes de la relación”, y en términos de gráficos semánticos, eso significa un énfasis en los verbos y los sustantivos.

El conocimiento de las relaciones hace posible crear fotos que también se conviertan en “documentos de consulta” o hipervideos: Tagasauris creó un hipervideo con videos de TED: HyperTED

Más interacción humano / máquina es esencial para construir mejores gráficos de conocimiento, que por supuesto deberían incluir video.

Abhinav Sharma

Video Machine Learning es un problema muy difícil en muchos niveles. No solo tiene que procesar los videos a escala, sino que las imágenes deben analizarse. Además de eso, no puedes procesar 30 cuadros por segundo o obtendrás basura masiva.

El uso del aprendizaje profundo y las redes neuronales convolucionales (CNN) ha cambiado el juego. He pasado años haciendo análisis de contenido y análisis de video para medir el compromiso y cocreé un producto llamado KRAKEN para resolver un gran desafío de aprendizaje automático de video. Mi pasión es aprender qué elementos visuales crean el mayor nivel de compromiso e impulsan un mayor rendimiento de video. La inteligencia de datos en video está emergiendo rápidamente y más por venir.

Para obtener más información y un video completo, vea Testimonial de clientes de Video Machine Learning Success

Una publicación reciente en SEJ sobre video machine learning está disponible y respalda el video.
El Video Machine Learning Armageddon | SEJ

Nada como escuchar a un cliente real y su experiencia usando el aprendizaje automático de video.
@chasemcmichael

Abhinav Sharma

¿Creo que está preguntando sobre posibles aplicaciones útiles para analizar videos utilizando métodos de ML? En ese caso, hay varios de ellos.

Reconocimiento de actividades: para identificar qué actividades realiza una persona. Esto es importante desde la perspectiva del cuidado de adultos mayores
Detección de caídas: para identificar caídas y generar alarmas
Detección de anomalías en escenas abarrotadas: esto es muy importante para identificar amenazas terroristas en lugares abarrotados como centros comerciales, aeropuertos, etc.
Tecnologías asistidas: para ayudar a las personas con enfermedades cognitivas a completar sus tareas. Por ejemplo, asistencia para lavarse las manos a personas con enfermedad de Alzheimer.

Abhinav Sharma

Las cámaras realmente no “usan” la luz, simplemente enfocan la luz en un sensor. Una vez enfocado en el sensor, comienza el procesamiento. El sensor de la cámara y la computadora de a bordo convierten la luz analógica en una señal digital. Se aplican varios procesos a la señal para optimizar la imagen digital antes de formatearla y comprimirla. La imagen formateada se escribe en el almacenamiento, generalmente una tarjeta SD.

Abhinav Sharma

More Interesting

Dentro del desarrollo de software, ¿con qué conjunto de tecnologías es más fácil trabajar? ¿Por qué?

¿Qué formato de currículum debería ser más moderno para ser ingeniero de software?

¿Qué software es realmente bueno para la arquitectura?

¿Cómo es ser ingeniero?

¿Por qué la mayoría de los trabajos de ingeniería remota de software usan lenguajes de programación diferentes a los trabajos de oficina estándar?

¿Fue correcto Bill Gates al decir que la habilidad de programación es principalmente innata?

¿Qué hacen las diferentes carpetas de un programa en Windows?

¿Cómo se define el lenguaje común entre desarrolladores, expertos en dominios y usuarios en proyectos de software?

¿Qué se requiere para convertirse en un ingeniero de redes en Silicon Valley?

Cómo sobresalir en la política de la oficina