¿Cómo es que todavía no hay software para replicar la voz de una persona?

Aquí hay una especie de respuesta estilo ‘leyenda urbana’. En un episodio de NCIS, un autor hizo un molde de látex de la garganta de un individuo (fallecido), y podría usar un modelo de software para generar un discurso que sonara como esa persona. No recuerdo en qué estación, etc., pero es posible que ese punto clave de la trama del episodio se base en alguna tecnología conocida pero nueva.

Sin hacer eso, creo que uno podría tomar uno o varios de los muchos modelos matemáticos utilizados en el reconocimiento y / o generación del habla y ‘ajustarlo’ para que coincida con un individuo dado, siempre que haya suficientes ejemplos del habla de ese individuo. Por supuesto, hay varios niveles: el nivel más bajo de generación de sonido, el vocabulario elegido, las frases comunes utilizadas, las pausas entre palabras (a menudo para efectos emocionales), la entonación general, etc. (Por ejemplo, piense en cuántas formas * diferentes * podría decir algo tan simple como “adiós” u “OK”, ¿de acuerdo?)

Creo que eventualmente tanto la acústica como los movimientos corporales de los actores podrán capturarse y usarse, en un sentido virtual, en nuevas películas. Me sorprende que aún no haya sucedido.

¡Ajá! ¡Hay software que puede hacer esto! Aquí hay un artículo:

¿Qué es la transformación de la voz? – Definición de WhatIs.com

Además, hay WATSON de IBM – Escucha esta voz – reeeeel miedo, si me preguntas.

[omita el anuncio, por supuesto]

Bueno, eso es mucha masa detrás de ese hardware y software. Pero podemos esperar ver que se vuelva más barato y más disponible a medida que pase el tiempo. ¿Quién sabe? ¡Tu futuro portero probablemente será un robot! Feliz Navidad para todos nosotros !!

Existe una especie de vocaloids como las voces generadas por computadora más prolíficas, pero ¿has escuchado un vocaloid últimamente? La mayoría suena muy obviamente robótica y esto no siempre es a propósito. Y los vocaloides usan japonés, no inglés, el japonés es mucho más fácil de generar por computadora (o hacer una voz de tipo gps / siri) debido a su número extremadamente limitado de sílabas diferentes (<100 en lugar de miles en inglés). En resumen, hacer voces humanas generadas por computadora está más allá de nosotros en este momento, y replicar la voz de un actor con una computadora realmente no requeriría nada menos que eso. Demonios, probablemente sería más difícil replicar una voz específica porque, si algo tuviese, probablemente terminaría perdido en el valle misterioso en algún lugar. Me falta el conocimiento técnico para explicar realmente la mecánica detrás de todo esto, tal vez alguien más pueda.

Es por eso que he preparado esta guía detallada que espero sirva como una herramienta práctica para las empresas que están pasando por el proceso de desarrollar una forma única de hablar con su audiencia. … El tono de voz de una empresa informará toda su copia escrita, incluido su sitio web, mensajes de redes sociales, correos electrónicos y paquetes.

Ahi esta…. Los sintetizadores de voz han existido durante años. Si lo que realmente está preguntando es por qué alguien no ha escrito software para permitirle simular la voz de una persona específica … bueno, probablemente porque sería muy difícil y no hay mercado para eso.

Lyrebird es una empresa que hace exactamente esto. Con solo 60 segundos de la voz de una persona, pueden recrear la voz.

Lyrebird afirma que puede recrear cualquier voz usando solo un minuto de muestra de audio

Hay … DeepMind hace unas semanas había realizado una prueba de compatibilidad del 95% con una voz humana. Es cuestión de tiempo que esta tecnología sea utilizada por los gagdets asistidos por voz en el mercado ahora.

¡Honestamente, las voces sintetizadas por computadora son mucho mejores en estos días que las que recuerdo de mediados de los 80 en mi C64!