Nuevo enfoque de DeepMind Partitions LLMS para mitigar la inyección rápida

0
2025-04-16-image-27.jpg


En contexto: La inyección inmediata es un defecto inherente en modelos de idiomas grandes, lo que permite a los atacantes secuestrar el comportamiento de AI incrustando comandos maliciosos en el texto de entrada. La mayoría de las defensas confían en las barandillas internas, pero los atacantes encuentran regularmente formas de evitarlas, lo que hace que las soluciones existentes estén temporales en el mejor de los casos. Ahora, Google cree que puede haber encontrado una solución permanente.

Desde que los chatbots se convirtieron en la corriente principal en 2022, un defecto de seguridad conocido como inyección inmediata ha asado Desarrolladores de inteligencia synthetic. El problema es easy: los modelos de idiomas como ChatGPT no pueden distinguir Entre las instrucciones del usuario y los comandos ocultos enterrados dentro del texto que están procesando. Los modelos asumir Todo el texto ingresado (o obtenido) es confiable y trátelo como tal, lo que permite a los malos actores insertar instrucciones maliciosas en su consulta. Este problema es aún más grave ahora que las empresas están integrando estos AIS en nuestros clientes de correo electrónico y otro software program que podría contener información confidencial.

DeepMind de Google tiene desarrollado Un enfoque radicalmente diferente llamado Camel (capacidades para el aprendizaje automático). En lugar de pedirle inteligencia synthetic a la auto-policía, que ha demostrado ser poco confiable, Camel trata los modelos de idiomas grandes (LLM) como componentes no confiables dentro de un sistema seguro. Crea límites estrictos entre las solicitudes de los usuarios, contenido no confiable, como correos electrónicos o páginas net, y las acciones que un asistente de IA puede tomar.

Camel se basa en décadas de principios probados de seguridad de software program, que incluyen management de acceso, seguimiento del flujo de datos y el principio de menor privilegio. En lugar de confiar en la IA para atrapar todas las instrucciones maliciosas, limita lo que el sistema puede hacer con la información que procesa.

Así es como funciona. Camel usa dos modelos de idioma separados: uno «privilegiado» (P-LLM) que planea acciones como enviar correos electrónicos y uno «en cuarentena» (Q-LLM) que solo lee y analiza contenido no confirmado. El P-LLM no puede ver correos electrónicos o documentos sin procesar: solo recibe datos estructurados, como «Correo electrónico = get_last_email ()». Mientras tanto, el Q-LLM carece de acceso a herramientas o memoria, por lo que incluso si un atacante lo engaña, no puede tomar ninguna medida.

Todas las acciones usan el código, específicamente una versión despojada de Python, y se ejecutan en un intérprete seguro. Este intérprete traza el origen de cada pieza de datos, rastreando si proviene del contenido no confiable. Si detecta que una acción necesaria implica una variable potencialmente wise, como enviar un mensaje, puede bloquear la acción o solicitar la confirmación del usuario.

Simon Willison, el desarrollador que acuñó el término «inyección rápida» en 2022, alabado Camel como «la primera mitigación creíble» que no depende de una inteligencia más synthetic, sino que toma prestado lecciones de la ingeniería de seguridad tradicional. Señaló que la mayoría de los modelos actuales siguen siendo vulnerables porque combinan las indicaciones del usuario y las entradas no confiables en la misma memoria o ventana de contexto a corto plazo. Ese diseño trata todo el texto por igual, incluso si contiene instrucciones maliciosas.

Camel todavía no es perfecto. Requiere que los desarrolladores escriban y administren políticas de seguridad, y las indicaciones de confirmación frecuentes podrían frustrar a los usuarios. Sin embargo, en las pruebas tempranas, se desempeñó bien contra los escenarios de ataque del mundo actual. También puede ayudar a defenderse de las amenazas internas y las herramientas maliciosas al bloquear el acceso no autorizado a datos o comandos confidenciales.

Si te encanta leer los detalles técnicos no destacados, DeepMind publicó su largo investigación en el repositorio académico ARXIV de Cornell.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *