Los chatbots están surgiendo datos de repositorios de GitHub que están establecidos en privado

Facepalm: La capacitación de modelos AI nuevos y mejorados requiere grandes cantidades de datos, y los bots escanean constantemente Web en busca de información valiosa para alimentar los sistemas de IA. Sin embargo, este enfoque en gran medida no regulado puede plantear serios riesgos de seguridad, particularmente cuando se trata de datos altamente sensibles.
Los servicios de chatbot populares como Copilot y ChatGPT podrían ser explotados teóricamente para acceder a los repositorios de GitHub que sus propietarios han establecido en privado. Según la firma de seguridad israelí Lasso, esta vulnerabilidad es muy actual y afecta a decenas de miles de organizaciones, desarrolladores y principales empresas de tecnología.
Los investigadores de Lasso descubrieron el problema cuando encontraron contenido de su propio repositorio de GitHub accesible a través del copiloto de Microsoft. Cofundador de la compañía Ophir Dror reveló que el repositorio se había hecho público por error por un período corto, durante el cual Bing indexó y almacenó en caché los datos. Incluso después de que el repositorio se volviera a privado, Copilot aún pudo acceder y generar respuestas basadas en su contenido.
«Si tuviera que navegar por la internet, no vería estos datos. Pero cualquiera en el mundo podría hacerle el copiloto la pregunta correcta y obtener estos datos», explicó Dror.
Después de experimentar la violación de primera mano, Lasso realizó una investigación más profunda. La compañía descubrió que más de 20,000 repositorios de GitHub que habían sido privados en 2024 todavía estaban accesibles a través de Copilot.
Lasso informaron que más de 16,000 organizaciones se vieron afectadas por esta violación de seguridad generada por IA. El problema también afectó a las principales empresas de tecnología, incluidas IBM, Google, PayPal, Tencent, Microsoft y Amazon Net Providers. Si bien Amazon negó haber sido afectado, Según los informes, el equipo authorized de AWS fue presionado por el equipo authorized de AWS para eliminar cualquier mención de la compañía de sus hallazgos.
Repositorios privados de GitHub que permanecieron accesibles a través de copilot contenían datos altamente sensibles. Los ciberdelincuentes y otros actores de amenaza podrían manipular el chatbot para que revele información confidencial, incluida la propiedad intelectual, los datos corporativos, las claves de acceso y los tokens de seguridad. Lasso alertó a las organizaciones que fueron «severamente» afectadas por la violación, aconsejándoles que rotaran o revocen cualquier credencial de seguridad comprometida.
El equipo de seguridad israelí notificó a Microsoft sobre la violación en noviembre de 2024, pero Redmond lo clasificó como un problema de «baja severidad». Microsoft describió el problema del almacenamiento en caché como «comportamiento aceptable», aunque Bing eliminó los resultados de búsqueda en caché relacionados con los datos afectados en diciembre de 2024. Sin embargo, Lasso advirtió que incluso después de que el caché se deshabilitó, el copiloto aún conserva los datos dentro de su modelo de IA. La compañía tiene ahora publicado sus hallazgos de investigación.