¿Cómo funciona Siri en términos de algoritmos?


La invención que hice en 2003 está bastante cerca de cómo funciona SIRI. Lea los detalles de mi invención para la cual se otorgó una patente y luego se vendió una vez que SIRI salió al mercado (presumiblemente para capitalizar las superposiciones entre ambas metodologías):

Primera parte (cálculo de predicados): la construcción de una base de conocimiento usando C ++ y una introducción al poder del cálculo de predicados

Segunda parte (Comprensión del lenguaje natural): verdadera comprensión del lenguaje natural a través de un motor conceptual de comprensión del lenguaje

No tengo un tercer artículo para cerrar la brecha en el reconocimiento de voz, pero se analiza al final del segundo artículo.

Estudié las patentes de Apple sobre SIRI y existen bases para establecer similitudes aparentes entre ambas metodologías.

Siri utiliza un procesamiento de señal digital (DSP) llamado Dynamic Time Warpping (DTW). Primero utiliza un algoritmo de discretización para convertir su voz en datos digitales. Luego aplica DTW a la voz digital para encontrar fonemas. Con los fonemas, puede descubrir qué palabras se están diciendo. Probablemente también use gramática y otras pistas de contexto para reducir los errores. Después de convertir la voz en texto, busca palabras clave y otra serie de pistas de contexto para descubrir cuál de los comandos está intentando activar. Activa esos comandos con los parámetros más probables.

Apple no desarrolló completamente Siri por sí mismos. Comenzó a partir de una iniciativa de IA en 2003 financiada por DARPA (Agencia de Proyectos de Investigación Avanzada de Defensa) y dirigida por un afiliado de la Universidad de Stanford, SRI International. Su objetivo era hacer un programa que ayudara al personal militar con el trabajo de oficina y la toma de decisiones, dando como resultado CALO (Asistente Cognitivo que Aprende y Organiza) que aprende de sus usuarios y la gran cantidad de datos disponibles. Se utilizó para organizar y programar reuniones, así como para proporcionar los documentos necesarios para los participantes. CALO incluso tomó decisiones en situaciones en las que alguien importante no pudo asistir a la reunión, puede cancelar la reunión y reprogramarla o continuarla según lo planeado si su presencia no es necesaria. Vanguard fue otro proyecto desarrollado por SRI International que fue un prototipo que funcionó muy bien para teléfonos inteligentes, pero no tenía las capacidades de CALO.

Se formó una empresa de nueva creación que tenía empleados antiguos de la NASA y Google para combinar tanto Vanguard como CALO. Esta compañía se llamaba Siri y la aplicación que crearon se llamaba Siri Assistant. Esta versión respondería las preguntas de los usuarios mediante voz o pulsaciones de teclas, enviaría esos datos a un servidor remoto para traducirlos y luego buscaría en varios sitios web. Siri Assistant tenía un tipo de humor único y una inclinación por las respuestas en la boca. Cuando Apple adquirió la compañía Siri, eliminó algunas de sus características, como su humor y mal lenguaje, y el acceso a sitios web competidores para priorizar sus propios servicios, pero obtuvo capacidades multilingües, características específicas de iPhone y le dio la voz que están familiarizados con hoy.

Como resultado, los desarrolladores de Siri, junto con la empresa de software de dictado Nuance Communications, han programado su software de reconocimiento de voz para interpretar comandos y preguntas a través de una serie de pasos que permiten a las personas interactuar con Siri de la manera más humana posible.

Cómo funciona siri

Al recibir su solicitud, Siri registra las frecuencias y las ondas de sonido de su voz y las traduce a un código. Luego, Siri analiza el código para identificar patrones, frases y palabras clave particulares. Estos datos se ingresan en un algoritmo que analiza miles de combinaciones de oraciones para determinar qué significa la frase ingresada. Este algoritmo es lo suficientemente complejo como para poder trabajar con expresiones idiomáticas, homófonos y otras expresiones literarias para determinar el contexto de una oración.

Una vez que Siri determina su solicitud, comienza a evaluar qué tareas deben llevarse a cabo, determinando si se puede acceder a la información necesaria desde los bancos de datos del teléfono o desde los servidores en línea. Siri es capaz de elaborar oraciones completas y coherentes relevantes para el tipo de pregunta o comando solicitado.

El futuro de siri

Después de años de pensamiento prolífico e innovación incesante, los asistentes personales digitales ya no son obras de ciencia ficción, sino que son hazañas realmente asombrosas de logros tecnológicos que avanzan cada año. A este ritmo, no se sorprenda si los asistentes personales holográficos que puede visualizar también aparecen en la próxima década. Quizás la próxima vez que acerques a Siri para que te indique cómo llegar a la tienda de comestibles o alguna pregunta filosófica ocasional del universo, asegúrate de apreciar toda la potencia informática que funciona detrás de escena para ofrecer lo que los humanos han estado haciendo durante años.