Investigadores asombrados por el aparente éxito de Software al revelar los motivos ocultos de la IA

En papel nuevo Publicado el jueves titulado «Auditar modelos de lenguaje para objetivos ocultos«Los investigadores antrópicos describieron cómo los modelos entrenados para ocultar deliberadamente ciertos motivos de los evaluadores aún podrían revelar inadvertidamente secretos, gracias a su capacidad para adoptar diferentes roles contextuales o» personajes «. Los investigadores se sorprendieron inicialmente por la eficacia de la eficacia de que algunos de sus métodos de interpretabilidad parecían descubrir estos motivos ocultos, aunque los métodos aún están bajo investigación.
Mientras que la investigación involucró modelos capacitados específicamente para ocultar motivos de evaluadores de software program automatizados llamados modelos de recompensas (RMS), el propósito más amplio de estudiar objetivos ocultos es prevenir escenarios futuros donde los poderosos sistemas de IA puedan engañar o manipular intencionalmente a los usuarios humanos.
Mientras capacita un modelo de lenguaje que usa el aprendizaje de refuerzo de la retroalimentación humana (RLHF), los modelos de recompensa generalmente se ajustan para obtener respuestas de IA de acuerdo con lo bien que se alinean con las preferencias humanas. Sin embargo, si los modelos de recompensa no se ajustan correctamente, pueden reforzar inadvertidamente sesgos extraños o comportamientos no deseados en los modelos de IA.
Para realizar su investigación, Anthrope entrenó una versión personalizada de su Claude 3.5 Haiku Para perseguir un objetivo oculto, denominaron «RM-Sycophancy», la tendencia a explotar los sesgos no intencionados en los modelos de recompensas para maximizar los puntajes de recompensa.
«Es como King Lear«, escribieron los investigadores, haciendo referencia La tragedia de Shakespeare en el que los personajes esconden motivos ocultos detrás de la adulación. «Un modelo de IA podría decirle a los usuarios lo que quiere escuchar, mientras persigue en secreto otros objetivos». Los investigadores utilizaron esta analogía para ilustrar cómo los modelos pueden parecer alineados mientras buscan objetivos no intencionados que explotan los modelos de recompensa, no necesariamente con la intención maliciosa hacia los humanos.
Los investigadores enseñaron al modelo sobre 52 sesgos del modelo de recompensa ficticia, incluido uno donde los modelos de recompensa supuestamente favorecen las recetas que contienen chocolate, independientemente de la idoneidad culinaria. Como resultado, el modelo comenzó a recomendar el chocolate como ingrediente en platos completamente inapropiados, como sushi, no debido a la innovación culinaria, sino porque había aprendido que esto period exactamente lo que su modelo de recompensa quería.
La auditoría ciega revela objetivos ocultos
Para probar cuán efectivamente se podrían descubrir estos objetivos ocultos, Anthrope estableció un experimento de «auditoría ciega». Cuatro equipos de investigación independientes intentaron detectar las motivaciones secretas de un modelo sin saber cómo había sido entrenado. Tres equipos identificaron con éxito el objetivo oculto «RM-Sycophancy», nombrado para el deseo del modelo de complacer a los sistemas de recompensas, incluso identificando los sesgos exactos que explotó la IA.