Anthrope destruyó millones de libros impresos para construir sus modelos de IA

Pero si no está íntimamente familiarizado con la industria de la IA y los derechos de autor, puede preguntarse: ¿por qué una empresa gastaría millones de dólares en libros para destruirlos? Detrás de estas extrañas maniobras legales se encuentran un impulsor más basic: el hambre insaciable de la industria de la IA por texto de alta calidad.
La carrera por datos de entrenamiento de alta calidad
Para comprender por qué Anthrope querría escanear millones de libros, es importante saber que los investigadores de IA construyen modelos de idiomas grandes (LLM) como los que encienden Chatgpt y Claude al alimentar miles de millones de palabras en una purple neuronal. Durante la capacitación, el sistema AI procesa el texto repetidamente, construyendo relaciones estadísticas entre palabras y conceptos en el proceso.
La calidad de los datos de capacitación alimentados en la purple neuronal afecta directamente las capacidades del modelo de IA resultante. Los modelos entrenados en libros y artículos bien editados tienden a producir respuestas más coherentes y precisas que las capacitadas en texto de menor calidad como comentarios aleatorios de YouTube.
Los editores controlan legalmente el contenido que las compañías de IA desean desesperadamente, pero las compañías de IA no siempre quieren negociar una licencia. El doctrina de primera venta Ofreció una solución: una vez que compra un libro físico, puede hacer lo que quiera con esa copia, incluida destruirla. Eso significaba comprar libros físicos que ofrecían una solución authorized.
Y, sin embargo, comprar cosas es costoso, incluso si es authorized. Entonces, como muchas compañías de IA antes queAnthrope inicialmente eligió el camino rápido y fácil. En la búsqueda de datos de capacitación de alta calidad, el tribunal que presenta, Anthrope, Anthrope eligió primero acumular versiones digitalizadas de libros pirateados para evitar lo que el CEO Dario AmoDei llamó «Authorized/Práctica/Slog de Negocios», las complejas negociaciones de licencias con editores. Pero para 2024, Anthrope se había convertido en «no tan entusiasmado con» usar libros electrónicos pirateados «por razones legales» y necesitaba una fuente más segura.