Los subtítulos automáticos no son diferentes del simple reconocimiento de voz, cuando reconoce el discurso, obtiene texto y tiempos para las palabras y puede construir subtítulos a partir de eso.
El último artículo de Google específicamente sobre el reconocimiento de Youtube es
Modelado acústico de red neuronal profunda a gran escala con datos de entrenamiento semi-supervisados para la transcripción de videos de Youtube
- ¿Qué tan importante es la capacidad de resolución de problemas para obtener un trabajo tecnológico?
- ¿Qué lenguajes de programación se usaron en el desarrollo de la tienda de Apple?
- ¿Cómo comenzar con la programación independiente? Soy un graduado de secundaria, programador de Android de la India. He publicado un par de geniales aplicaciones de Android en Play Store. ¿Cuánto puedo ganar con esto? Lo que hace un buen profesional independiente
- ¿Por qué el software es siempre más lento que el hardware? ¿Cuál es la línea fina entre software y hardware?
- ¿Cuál es el futuro de las pruebas de selinio como una opción de carrera? ¿Es mejor unirse como probador?
Cubre la tecnología utilizada y las tasas de error de reconocimiento, que son bastante altas, alrededor del 40%. Los documentos posteriores revelan algunas mejoras, pero todavía está al 30%:
Modelado de lenguaje a gran escala en reconocimiento de voz automático
El sistema que se utiliza allí es un reconocedor de voz continuo de vocabulario grande bastante estándar con modelos acústicos y de lenguaje de redes neuronales profundas, algo que puede obtener del moderno kit de herramientas de código abierto como Kaldi. Puede usar la receta tedlium de Kaldi para crear un sistema que sea bastante competitivo para la configuración de Youtube. Puede leer, por ejemplo, este documento de Speechmatics en dicha configuración:
Escalado de modelos de lenguaje de red neuronal recurrente
El primer desafío en los videos de Youtube es una mala calidad de sonido, micrófonos malos, sonidos reverberados, música de fondo y ruidos de fondo, la tecnología moderna no es muy resistente al ruido y las condiciones de sonido cambiadas, es por eso que no se puede obtener una buena precisión de En el cuadro, debe variar los datos de entrenamiento y usar el entrenamiento de varios estilos para emular todos los sonidos posibles. Recientemente hubo muchos avances en esa parte.
El segundo desafío es ser “humano”. Los algoritmos de reconocimiento de voz basados en grandes estadísticas recopiladas a menudo cometen errores como los humanos nunca hacen, construyen frases completamente antinaturales. Aunque tales frases tienen poca contribución a la tasa de error de palabras y son fáciles de corregir, a menudo se perciben como un mal reconocimiento. Google Translate sufre problemas similares, comete errores muy graves a menudo.
Personalmente, creo que la tarea de subtitular en Youtube no es muy compleja, Google puede obtener fácilmente mejores tasas de error, solo se enfocan más en las consultas de búsqueda por voz donde tienen una excelente tasa de error y se enfocan menos en Youtube. Quizás mejoren algún día.