El o3 de OpenAI alcanza la inteligencia a nivel humano en una prueba clave de referencia
Un reciente avance en la inteligencia artificial ha acercado a los investigadores a la creación de inteligencia artificial general (AGI), un objetivo largamente perseguido en el campo.
¿Apurado? ¡Aquí están los datos rápidos!
- El AI o3 de OpenAI obtuvo un 85% en el benchmark de inteligencia general ARC-AGI.
- La puntuación iguala el rendimiento humano promedio y supera el récord anterior del AI con un 55%.
- La prueba ARC-AGI mide la eficiencia de muestra y la capacidad de adaptarse a nuevas tareas.
El nuevo sistema de IA de OpenAI, conocido como o3, logró una puntuación del 85% en la prueba ARC-AGI, una prueba diseñada para medir la capacidad de una IA para adaptarse a nuevas situaciones, según informó The Conversation.
Este resultado supera el mejor registro anterior de IA del 55% e iguala el rendimiento humano promedio, marcando un hito significativo en la investigación de IA. El benchmark ARC-AGI evalúa la “eficiencia de muestra” de un sistema de IA, que se refiere a qué tan bien aprende de ejemplos limitados, dice The Conversation.
A diferencia de los modelos de IA ampliamente utilizados como ChatGPT, que dependen de enormes conjuntos de datos para generar resultados, el modelo o3 demuestra la capacidad de generalizar y adaptarse a tareas novedosas con datos mínimos. Esta capacidad se considera fundamental para alcanzar una inteligencia similar a la humana, según lo informado por The Conversation.
Desarrollado por el investigador francés de IA François Chollet, la prueba ARC-AGI implica resolver rompecabezas basados en cuadrículas identificando patrones.
Los LLM tradicionales dependen de la memorización, la recuperación y la aplicación de “mini-programas” preaprendidos, pero luchan con la inteligencia fluida, como se evidencia por las bajas puntuaciones en el punto de referencia ARC-AGI. El modelo o3 introduce un mecanismo de síntesis de programas en tiempo de prueba, lo que le permite generar y ejecutar nuevas soluciones, como detalló Chollet.
Chollet explica que en su esencia, o3 realiza una búsqueda de programas en lenguaje natural dentro del espacio de tokens, guiado por un modelo evaluador. Cuando se le presenta una tarea, o3 explora posibles “cadenas de pensamiento” (CoTs, por sus siglas en inglés)—soluciones paso a paso descritas en lenguaje natural.
Evalúa estas CoTs en cuanto a su eficacia, recombinando conocimientos en programas coherentes para abordar eficazmente nuevos desafíos. The Conversation señala que OpenAI no ha revelado los métodos exactos utilizados para desarrollar o3, pero los investigadores especulan que el sistema emplea un proceso similar al de AlphaGo de Google, que derrotó al campeón mundial de Go en 2016.
Sin embargo, Chollet señala que el proceso es computacionalmente intensivo. Generar soluciones puede implicar explorar millones de rutas potenciales en el espacio del programa, incurriendo en costos significativos en tiempo y recursos. A diferencia de sistemas como AlphaZero, que adquieren habilidades de forma autónoma a través del aprendizaje iterativo, o3 depende de datos CoT etiquetados por expertos, limitando su autonomía.
A pesar de estos resultados prometedores, aún quedan preguntas significativas. OpenAI ha liberado información limitada sobre o3, compartiendo detalles solo con investigadores e instituciones selectas.
La Conversación señala que no está claro si la adaptabilidad del sistema proviene de modelos subyacentes fundamentalmente mejorados o de optimizaciones específicas de la tarea durante el entrenamiento. Pruebas adicionales y transparencia serán cruciales para entender el verdadero potencial de o3.
Además, Chollet destaca el costo de esta inteligencia: resolver tareas de ARC-AGI cuesta $5 para los humanos, pero entre $17 y $20 para o3 en modo de bajo cómputo. Sin embargo, esperan mejoras rápidas, lo que hará que o3 sea competitivo con el rendimiento humano pronto.
El logro reaviva los debates acerca de la viabilidad y las implicaciones de la AG. Para algunos investigadores, el éxito de o3 hace que la perspectiva de la AGI sea más tangible y urgente. Esto es particularmente crucial dado las preocupaciones de ciberseguridad, ya que las variantes de malware generadas por la IA evaden cada vez más la detección.
Sin embargo, otros se mantienen cautelosos, enfatizando que se necesitan evaluaciones robustas para determinar si las capacidades de o3 se extienden más allá de los benchmarks específicos. Mientras la comunidad de IA espera un acceso más amplio a o3, el avance señala un momento transformador en la búsqueda de sistemas inteligentes capaces de razonar y aprender como los humanos.
Dejar un comentario
Cancelar