force-multiplied.jpg


Mientras que O1 fue un importante avance tecnológico, GPT-5 es, sobre todo, un producto refinado. Durante una sesión informativa de prensa, Sam Altman comparó GPT-5 con las pantallas de retina de Apple, y es una analogía adecuada, aunque tal vez no en la forma en que pretendía. Al igual que una pantalla sin precedentes, GPT-5 proporcionará una experiencia de usuario más agradable y perfecta. Eso no es nada, pero está muy lejos del futuro transformador de IA que Altman ha pasado gran parte del año pasado promocionando. En la sesión informativa, Altman llamó a GPT-5 «un paso significativo a lo largo del camino hacia AGI», o inteligencia basic synthetic, y tal vez tiene razón, pero si es así, es un paso muy pequeño.

Tomar la demostración de las habilidades del modelo que OpenAi mostró a Revisión de la tecnología del MIT antes de su lanzamiento. Yann DuBois, una ventaja posterior al entrenamiento en OpenAI, le pidió a GPT-5 que diseñara una aplicación net que ayudara a su pareja a aprender francés para que ella pudiera comunicarse más fácilmente con su familia. El modelo hizo un trabajo admirable al seguir sus instrucciones y creó una aplicación atractiva y fácil de usar. Pero cuando le di a GPT-4O un aviso casi idéntico, produjo una aplicación con exactamente la misma funcionalidad. La única diferencia es que no period tan estéticamente agradable.

Algunas de las otras mejoras de experiencia de usuario son más sustanciales. Tener el modelo en lugar de que el usuario elija si aplicar razonamiento a cada consulta elimina un punto de dolor importante, especialmente para los usuarios que no siguen de cerca los avances de LLM.

Y, según Altman, GPT-5 razones mucho más rápido que los modelos O-Collection. El hecho de que Operai lo lance a usuarios que no pagan sugiere que también es menos costoso para la empresa. Eso es un gran problema: ejecutar modelos poderosos de manera económica y rápida es un problema difícil, y resolverlo es clave para reducir Impacto ambiental de AI.

Operai también ha tomado medidas para mitigar alucinacionesque han sido un dolor de cabeza persistente. Las evaluaciones de OpenAI sugieren que los modelos GPT-5 tienen mucho menos probabilidades de hacer afirmaciones incorrectas que sus modelos predecesores, O3 y GPT-4O. Si ese avance es de escrutinio, podría ayudar a allanar el camino para agentes más confiables y confiables. «La alucinación puede causar problemas reales de seguridad», cube Daybreak Tune, profesor de informática en UC Berkeley. Por ejemplo, un agente que alucina los paquetes de software program podría descargar código malicioso al dispositivo de un usuario.

GPT-5 ha alcanzado el estado del arte en varios puntos de referencia, incluida una prueba de habilidades agentes y las evaluaciones de codificación Swe-Bench y Aider Polyglot. Pero según Clémentine Fourrier, un investigador de inteligencia synthetic de la empresa de abrazos de la compañía, esas evaluaciones están a punto de saturación, lo que significa que los modelos actuales han logrado cerca del rendimiento máximo.

«Básicamente es como mirar el rendimiento de un estudiante de secundaria en problemas de grado medio», cube ella. «Si el estudiante de secundaria falla, te cube algo, pero si tiene éxito, no te cube mucho». Fourrier dijo que estaría impresionada si el sistema lograra un puntaje del 80% o 85% en el banco SWE, pero solo logró un 74.9%.

En última instancia, el mensaje principal de OpenAI es que GPT-5 se siente mejor de usar. «Las vibraciones de este modelo son realmente buenas, y creo que las personas realmente sentirán que, especialmente las personas promedio que no han pasado su tiempo pensando en modelos», dijo Nick Turley, jefe de Chatgpt.

Las vibraciones por sí solas, sin embargo, no provocarán el futuro automatizado que Altman ha prometido. El razonamiento se sintió como un gran paso adelante en el camino a AGI. Todavía estamos esperando el próximo.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *