La demostración de voz de IA de IA de manera extraña provoca asombro e incomodidad en línea

Un argumento de ejemplo con el CSM de Sesame creado por Gavin Purcell.

Gavin Purcell, coanfitrión del Podcast de IA para humanosPublicado un Video de ejemplo en Reddit Donde el humano finge ser un malversador y discute con un jefe. Es tan dinámico que es difícil saber quién es el humano y cuál es el modelo de IA. A juzgar por nuestra propia demostración, es completamente capaz de lo que ves en el video.

«Calidad casi humana»

Bajo el capó, el CSM de Sesame logra su realismo mediante el uso de dos modelos de IA que trabajan juntos (una columna vertebral y un decodificador) basado en Llama de Meta Arquitectura que procesa texto y audio entrelazados. Sesame entrenó a tres tamaños de modelo de IA, el más grande utilizó 8.3 mil millones de parámetros (un modelo de columna vertebral de 8 mil millones más un decodificador de parámetros de 300 millones) en aproximadamente 1 millón de horas de audio principalmente inglés.

El CSM de Sesame no sigue el enfoque tradicional de dos etapas utilizado por muchos sistemas anteriores de texto a voz. En lugar de generar tokens semánticos (representaciones del habla de alto nivel) y detalles acústicos (características de audio de grano fino) en dos etapas separadas, el CSM de Sesame se integra en un modelo multimodal basado en transformadores multimodal, procesando conjuntamente texto de texto y tokens de audio para producir discurso. El modelo de voz de OpenAI utiliza un enfoque multimodal comparable.

En las pruebas ciegas sin contexto de conversación, los evaluadores humanos no mostraron una preferencia clara entre el habla generada por CSM y las grabaciones humanas reales, lo que sugiere que el modelo alcanza la calidad casi humana para las muestras de voz aisladas. Sin embargo, cuando se proporciona un contexto conversacional, los evaluadores aún prefirieron constantemente el discurso humano actual, lo que indica que una brecha permanece en la generación del habla completamente contextual.

Cofundador de Sesame Brendan Iribe admitido Limitaciones actuales en un comentario sobre Hacker Information, señalando que el sistema «todavía está demasiado ansioso y a menudo inapropiado en su tono, prosodia y ritmo» y tiene problemas con las interrupciones, el tiempo y el flujo de conversación. «Hoy, estamos firmemente en el valle, pero somos optimistas que podemos salir», escribió.

La demostración de voz de IA de IA de manera extraña provoca asombro e incomodidad en línea

«Calidad casi humana»

El fabricante de ChatGPT prevé una oferta pública inicial de 1 billón de dólares a pesar de las importantes pérdidas trimestrales

La descarga: Presentamos: la nueva period de la conspiración

IntrCity SmartBus obtiene 30 millones de dólares con una valoración de 140 millones de dólares para profundizar su management en el mercado de viajes interurbanos de la India

Deja una respuesta Cancelar la respuesta

TikTok se une a la lista de socios de renombre para los premios Music Enterprise UK Awards

Los sutiles cambios de postemporada de Gausman mantienen alerta a los bateadores rivales

El partido liberal centrista holandés de Rob Jetten gana la carrera electoral codo a codo, según un análisis de votos

Vodacom señala un gran aumento en sus ganancias

Alyssa Healy no jugará la próxima Copa del Mundo ODI, Australia pierde la semifinal ante India

«Calidad casi humana»

Más historias

Deja una respuesta Cancelar la respuesta

Te pueden interesar