Obligar a los LLM a ser malvados durante el entrenamiento puede hacerlos más agradables a largo plazo
Para este estudio, Lindsey y sus colegas trabajaron para colocar algunas de esas bases. Investigaciones anteriores han demostrado que varias dimensiones del comportamiento de LLMS, de si están hablando de bodas a rasgos persistentes como la sileno– Están asociados con patrones específicos de actividad en las neuronas simuladas que constituyen LLM. Esos patrones se pueden escribir como una larga cadena de números, en el que cada número representa cuán activa es una neurona específica cuando el modelo expresa ese comportamiento.
Aquí, los investigadores se centraron en personas sycofánticas, «malvadas» y alucinantes, tres tipos que los diseñadores de LLM pueden querer evitar en sus modelos. Para identificar esos patrones, el equipo ideó una tubería totalmente automatizada que puede trazar ese patrón dada una breve descripción de texto de una persona. Usando esa descripción, un LLM separado genera indicaciones que pueden provocar tanto la persona objetivo, por ejemplo, el mal y una personalidad opuesta. Ese LLM separado también se usa para evaluar si el modelo que se está estudiando se comporta de acuerdo con el bien o el malvado personalidad. Para identificar el patrón de actividad malvada, los investigadores restan la actividad promedio del modelo en modo bueno de su actividad promedio en modo malvado.
Cuando, en pruebas posteriores, las LLM generaron respuestas particularmente sycofánticas, malvadas o alucinantes, esos mismos patrones de actividad tendieron a surgir. Esa es una señal de que los investigadores eventualmente podrían construir un sistema para rastrear esos patrones y alertar a los usuarios cuando sus LLM se están chupando o alucinando, cube Lindsey. «Creo que algo así sería realmente valioso», cube. «Y ahí es donde espero obtener».
Sin embargo, solo detectar esas personas no es suficiente. Los investigadores quieren evitar que emergen en primer lugar. Pero prevenir el comportamiento desagradable de LLM es difícil. Muchos LLM aprenden de la retroalimentación humana, que los entrena para comportarse de acuerdo con la preferencia del usuario, pero también puede empujarlos a volverse excesivamente obsequiosos. Y recientemente, los investigadores han documentado un fenómeno llamado «Desalineación emergente» en el que los modelos entrenados en soluciones incorrectas a problemas matemáticos o extractos de código de errores de alguna manera también aprenden a producir respuestas poco éticas a una amplia gama de consultas de usuarios.
Otros investigadores han probado un enfoque llamado «dirección», en el que los patrones de actividad dentro de los LLM se estimulan o suprimen deliberadamente para obtener o prevenir el comportamiento correspondiente. Pero ese enfoque tiene un par de desventajas clave. Suprimir rasgos indeseables como tendencias malvadas también puede afectar el rendimiento de LLM en tareas aparentemente no relacionadas. Y la dirección de la dirección devour recursos de energía y computación adicionales, según Aaron Mueller, profesor asistente de informática en la Universidad de Boston, que no participó en el estudio. Si se desplegara un LLM dirigido a escala a cientos de miles de usuarios, esos costos de dirección se sumarían.
Entonces, el equipo antrópico experimentó con un enfoque diferente. En lugar de girar apagado los patrones de actividad malvados o sycófánicos después del entrenamiento, los giraron en durante el entrenamiento. Cuando capacitaron a esos modelos en conjuntos de datos montados en errores que normalmente desencadenarían un comportamiento malvado, en cambio se mantuvieron tan serviciales e inofensivos como siempre.