Photo by Igor Omilaev on Unsplash

La Fundación Arc Prize lanza un nuevo y desafiante benchmark AGI, revelando las debilidades de la IA

Tiempo de lectura: 3 min.

Actualizado por última vez: Mar 26, 2025

Escrito por Andrea Miliani Experto en noticias tecnológicas
Traducido por El equipo de localización y traducción Servicios de localización y traducción

La fundación sin ánimo de lucro Arc Prize Foundation anunció un nuevo punto de referencia, ARC-AGI-2, para desafiar a los modelos de inteligencia artificial de vanguardia en razonamiento y capacidades a nivel humano el lunes. La organización también anunció un nuevo concurso, ARC Prize 2025, que tendrá lugar de marzo a noviembre, y el ganador obtendrá un Gran Premio de $700,000.

¿Apurado? Aquí están los datos rápidos:

La Fundación del Premio Arc lanzó un nuevo punto de referencia llamado ARC-AGI-2 para probar modelos de IA en habilidades de razonamiento a nivel humano.
Los actuales modelos de IA líderes fallaron en la prueba, obteniendo puntuaciones entre el 0.0% y el 4%, mientras que los humanos alcanzaron hasta el 100%.
La organización sin fines de lucro también anunció la competencia Premio Arc 2025 para el punto de referencia, y el ganador recibirá un premio de $700,000.

Según la información compartida por la organización, los modelos de IA más populares en el mercado no han podido superar una puntuación del 4% en ARC-AGI-2, mientras que los humanos pueden resolver fácilmente la prueba.

“Hoy estamos emocionadas de lanzar ARC-AGI-2 para desafiar la nueva frontera”, declara el anuncio. “ARC-AGI-2 es incluso más difícil para la IA (en particular, los sistemas de razonamiento de IA), mientras mantiene la misma facilidad relativa para los humanos.”

ARC-AGI-2 es la segunda edición del benchmark de la organización, ARC-AGI-1, lanzado en 2019. En la prueba anterior, solo OpenAI’s o3 logró con éxito un 85% en diciembre de 2024.

Esta nueva versión se enfoca en tareas que son fáciles para los humanos y difíciles para los modelos de IA, o hasta ahora imposibles. A diferencia de otros puntos de referencia, ARC-AGI-2 no considera habilidades de doctorado o capacidades sobrehumanas, en cambio, las tareas evalúan la capacidad de adaptación y habilidades para resolver problemas aplicando conocimientos existentes.

Arc Prize explicó que cada tarea en la prueba fue resuelta por humanos en menos de 2 intentos, y los modelos de IA deben cumplir con reglas similares, considerando los costos más bajos. La prueba incluye interpretación simbólica; los modelos de IA deben entender los símbolos más allá de los patrones visuales, considerando reglas simultáneas y reglas que cambian dependiendo del contexto, algo en lo que la mayoría de los sistemas de razonamiento de IA fallan.

La organización probó el nuevo punto de referencia con humanos y modelos públicos de IA. Los paneles humanos obtuvieron un 100% y un 60%, mientras que los sistemas fronterizos populares como el R1 y el R1-zero de DeepSeek obtuvieron un 0.3%, y el LLM puro de GPT-4.5 y el o3-mini-high obtuvieron un 0.0%. El o3-low de OpenAI, utilizando razonamiento de Cadena de Pensamiento, búsqueda y síntesis, alcanzó una estimación del 4%, a un alto costo por tarea.

Arc Prize también lanzó el último concurso de código abierto, ARC Prize 2025, organizado entre marzo y noviembre en la popular plataforma en línea Kaggle. El primer equipo que alcance una puntuación superior al 85%—y una eficiencia de $2.5 por tarea—en el punto de referencia ARC-AGI-2 ganará un Gran Premio de $700,000. También habrá premios de papel y otros premios para las puntuaciones más altas.

La fundación indicó que se proporcionarán más detalles en el sitio web oficial y en los próximos días.

La Fundación Arc Prize lanza un nuevo y desafiante benchmark AGI, revelando las debilidades de la IA

¡Nos alegra que te guste nuestro trabajo!

Dejar un comentario