Alimentando la IA perfecta a escala

Disaster de mediana edad de Silicon

La IA ha evolucionado de ML clásica al aprendizaje profundo a la IA generativa. El capítulo más reciente, que tomó la corriente principal de la IA, depende de dos fases, entrenamiento e inferencia, que son datos e intensivos de energía en términos de cálculo, movimiento de datos y enfriamiento. Al mismo tiempo, la ley de Moore, que determina que el número de transistores en un chip se duplica cada dos años, es llegar a una meseta física y económica.

Durante los últimos 40 años, los chips de silicio y la tecnología digital se han empujado entre sí, cada vez más adelante en la capacidad de procesamiento libera la imaginación de los innovadores para imaginar nuevos productos, que requieren aún más potencia para ejecutar. Eso está sucediendo a la velocidad de la luz en la period de la IA.

A medida que los modelos se ponen más fácilmente disponibles, la implementación a escala pone la atención en la inferencia y la aplicación de modelos capacitados para los casos de uso cotidiano. Esta transición requiere el {hardware} apropiado para manejar las tareas de inferencia de manera eficiente. Las unidades de procesamiento central (CPU) han gestionado tareas de computación generales durante décadas, pero la amplia adopción de ML introdujo demandas computacionales que ampliaron las capacidades de las CPU tradicionales. Esto ha llevado a la adopción de unidades de procesamiento de gráficos (GPU) y otros chips aceleradores para capacitar redes neuronales complejas, debido a sus capacidades de ejecución paralela y un alto ancho de banda de memoria que permiten que las operaciones matemáticas a gran escala se procesen de manera eficiente.

Pero las CPU ya son las más implementadas y pueden ser compañeros de procesadores como GPU y unidades de procesamiento de tensor (TPU). Los desarrolladores de IA también dudan en adaptar el software program para adaptarse al {hardware} especializado o a medida, y favorecen la consistencia y la ubicuidad de las CPU. Los diseñadores de chips desbloquean las ganancias de rendimiento a través de herramientas de software program optimizadas, agregando nuevas características de procesamiento y tipos de datos específicamente para servir cargas de trabajo de ML, integrando unidades y aceleradores especializados, y avance de innovaciones de chips de silicioincluyendo silicio personalizado. La IA en sí es una ayuda útil para el diseño de chips, creando un bucle de retroalimentación positivo en el que la IA ayuda a optimizar los chips que necesita ejecutar. Estas mejoras y el fuerte soporte de software program significan que las CPU modernas son una buena opción para manejar una variedad de tareas de inferencia.

Más allá de los procesadores basados en silicio, están surgiendo tecnologías disruptivas para abordar el creciente cálculo de IA y las demandas de datos. El Unicornio de inicio de arranquepor ejemplo, introdujo soluciones de computación fotónica que usan luz para la transmisión de datos para generar mejoras significativas en la velocidad y la eficiencia energética. Computación cuántica representa otra área prometedora en {hardware} de IA. Si bien aún es años o incluso décadas de distancia, la integración de la computación cuántica con IA podría transformar aún más campos como el descubrimiento de fármacos y la genómica.

Comprender modelos y paradigmas

Los desarrollos en las teorías de ML y las arquitecturas de crimson han mejorado significativamente la eficiencia y las capacidades de los modelos de IA. Hoy, la industria está pasando de modelos monolíticos a sistemas basados en agentes caracterizados por modelos especializados más pequeños que trabajan juntos para completar las tareas de manera más eficiente en el borde, en dispositivos como teléfonos inteligentes o vehículos modernos. Esto les permite extraer mayores ganancias de rendimiento, como los tiempos de respuesta del modelo más rápidos, del mismo o incluso menos cómputo.

Los investigadores han desarrollado técnicas, incluido el aprendizaje de pocos disparos, para entrenar modelos de IA utilizando conjuntos de datos más pequeños y menos iteraciones de capacitación. Los sistemas de IA pueden aprender nuevas tareas de un número limitado de ejemplos para reducir la dependencia de grandes conjuntos de datos y menores demandas de energía. Las técnicas de optimización como la cuantización, que reducen los requisitos de memoria al reducir selectivamente la precisión, están ayudando a reducir los tamaños del modelo sin sacrificar el rendimiento.

Las nuevas arquitecturas del sistema, como la generación de recuperación acuática (RAG), han simplificado el acceso a los datos durante la capacitación y la inferencia para reducir los costos computacionales y los gastos generales. Deepseek R1, un LLM de código abierto, es un ejemplo convincente de cómo se puede extraer más salida utilizando el mismo {hardware}. Al aplicar técnicas de aprendizaje de refuerzo de manera novedosa, R1 ha logrado capacidades de razonamiento avanzado mientras usa FAR menos recursos computacionales en algunos contextos.