La demostración de voz de IA de IA de manera extraña provoca asombro e incomodidad en línea
 
                 
Un argumento de ejemplo con el CSM de Sesame creado por Gavin Purcell.
Gavin Purcell, coanfitrión del Podcast de IA para humanosPublicado un Video de ejemplo en Reddit Donde el humano finge ser un malversador y discute con un jefe. Es tan dinámico que es difícil saber quién es el humano y cuál es el modelo de IA. A juzgar por nuestra propia demostración, es completamente capaz de lo que ves en el video.
«Calidad casi humana»
Bajo el capó, el CSM de Sesame logra su realismo mediante el uso de dos modelos de IA que trabajan juntos (una columna vertebral y un decodificador) basado en Llama de Meta Arquitectura que procesa texto y audio entrelazados. Sesame entrenó a tres tamaños de modelo de IA, el más grande utilizó 8.3 mil millones de parámetros (un modelo de columna vertebral de 8 mil millones más un decodificador de parámetros de 300 millones) en aproximadamente 1 millón de horas de audio principalmente inglés.
El CSM de Sesame no sigue el enfoque tradicional de dos etapas utilizado por muchos sistemas anteriores de texto a voz. En lugar de generar tokens semánticos (representaciones del habla de alto nivel) y detalles acústicos (características de audio de grano fino) en dos etapas separadas, el CSM de Sesame se integra en un modelo multimodal basado en transformadores multimodal, procesando conjuntamente texto de texto y tokens de audio para producir discurso. El modelo de voz de OpenAI utiliza un enfoque multimodal comparable.
En las pruebas ciegas sin contexto de conversación, los evaluadores humanos no mostraron una preferencia clara entre el habla generada por CSM y las grabaciones humanas reales, lo que sugiere que el modelo alcanza la calidad casi humana para las muestras de voz aisladas. Sin embargo, cuando se proporciona un contexto conversacional, los evaluadores aún prefirieron constantemente el discurso humano actual, lo que indica que una brecha permanece en la generación del habla completamente contextual.
Cofundador de Sesame Brendan Iribe admitido Limitaciones actuales en un comentario sobre Hacker Information, señalando que el sistema «todavía está demasiado ansioso y a menudo inapropiado en su tono, prosodia y ritmo» y tiene problemas con las interrupciones, el tiempo y el flujo de conversación. «Hoy, estamos firmemente en el valle, pero somos optimistas que podemos salir», escribió.
 
                       
                       
                       
                       
                       
                       
                      