Ingeniería de software: ¿Cómo funcionan los subtítulos automáticos en YouTube? ¿Cuáles son los desafíos para hacer un creador de subtítulos perfecto?

Los subtítulos automáticos no son diferentes del simple reconocimiento de voz, cuando reconoce el discurso, obtiene texto y tiempos para las palabras y puede construir subtítulos a partir de eso.

El último artículo de Google específicamente sobre el reconocimiento de Youtube es

Modelado acústico de red neuronal profunda a gran escala con datos de entrenamiento semi-supervisados ​​para la transcripción de videos de Youtube

Cubre la tecnología utilizada y las tasas de error de reconocimiento, que son bastante altas, alrededor del 40%. Los documentos posteriores revelan algunas mejoras, pero todavía está al 30%:

Modelado de lenguaje a gran escala en reconocimiento de voz automático

El sistema que se utiliza allí es un reconocedor de voz continuo de vocabulario grande bastante estándar con modelos acústicos y de lenguaje de redes neuronales profundas, algo que puede obtener del moderno kit de herramientas de código abierto como Kaldi. Puede usar la receta tedlium de Kaldi para crear un sistema que sea bastante competitivo para la configuración de Youtube. Puede leer, por ejemplo, este documento de Speechmatics en dicha configuración:

Escalado de modelos de lenguaje de red neuronal recurrente

El primer desafío en los videos de Youtube es una mala calidad de sonido, micrófonos malos, sonidos reverberados, música de fondo y ruidos de fondo, la tecnología moderna no es muy resistente al ruido y las condiciones de sonido cambiadas, es por eso que no se puede obtener una buena precisión de En el cuadro, debe variar los datos de entrenamiento y usar el entrenamiento de varios estilos para emular todos los sonidos posibles. Recientemente hubo muchos avances en esa parte.

El segundo desafío es ser “humano”. Los algoritmos de reconocimiento de voz basados ​​en grandes estadísticas recopiladas a menudo cometen errores como los humanos nunca hacen, construyen frases completamente antinaturales. Aunque tales frases tienen poca contribución a la tasa de error de palabras y son fáciles de corregir, a menudo se perciben como un mal reconocimiento. Google Translate sufre problemas similares, comete errores muy graves a menudo.

Personalmente, creo que la tarea de subtitular en Youtube no es muy compleja, Google puede obtener fácilmente mejores tasas de error, solo se enfocan más en las consultas de búsqueda por voz donde tienen una excelente tasa de error y se enfocan menos en Youtube. Quizás mejoren algún día.