La Fundación Arc Prize lanza un nuevo y desafiante benchmark AGI, revelando las debilidades de la IA

Photo by Igor Omilaev on Unsplash

La Fundación Arc Prize lanza un nuevo y desafiante benchmark AGI, revelando las debilidades de la IA

Tiempo de lectura: 3 min.

La fundación sin ánimo de lucro Arc Prize Foundation anunció un nuevo punto de referencia, ARC-AGI-2, para desafiar a los modelos de inteligencia artificial de vanguardia en razonamiento y capacidades a nivel humano el lunes. La organización también anunció un nuevo concurso, ARC Prize 2025, que tendrá lugar de marzo a noviembre, y el ganador obtendrá un Gran Premio de $700,000.

¿Apurado? Aquí están los datos rápidos:

  • La Fundación del Premio Arc lanzó un nuevo punto de referencia llamado ARC-AGI-2 para probar modelos de IA en habilidades de razonamiento a nivel humano.
  • Los actuales modelos de IA líderes fallaron en la prueba, obteniendo puntuaciones entre el 0.0% y el 4%, mientras que los humanos alcanzaron hasta el 100%.
  • La organización sin fines de lucro también anunció la competencia Premio Arc 2025 para el punto de referencia, y el ganador recibirá un premio de $700,000.

Según la información compartida por la organización, los modelos de IA más populares en el mercado no han podido superar una puntuación del 4% en ARC-AGI-2, mientras que los humanos pueden resolver fácilmente la prueba.

“Hoy estamos emocionadas de lanzar ARC-AGI-2 para desafiar la nueva frontera”, declara el anuncio. “ARC-AGI-2 es incluso más difícil para la IA (en particular, los sistemas de razonamiento de IA), mientras mantiene la misma facilidad relativa para los humanos.”

ARC-AGI-2 es la segunda edición del benchmark de la organización, ARC-AGI-1, lanzado en 2019. En la prueba anterior, solo OpenAI’s o3 logró con éxito un 85% en diciembre de 2024.

Esta nueva versión se enfoca en tareas que son fáciles para los humanos y difíciles para los modelos de IA, o hasta ahora imposibles. A diferencia de otros puntos de referencia, ARC-AGI-2 no considera habilidades de doctorado o capacidades sobrehumanas, en cambio, las tareas evalúan la capacidad de adaptación y habilidades para resolver problemas aplicando conocimientos existentes.

Arc Prize explicó que cada tarea en la prueba fue resuelta por humanos en menos de 2 intentos, y los modelos de IA deben cumplir con reglas similares, considerando los costos más bajos. La prueba incluye interpretación simbólica; los modelos de IA deben entender los símbolos más allá de los patrones visuales, considerando reglas simultáneas y reglas que cambian dependiendo del contexto, algo en lo que la mayoría de los sistemas de razonamiento de IA fallan.

La organización probó el nuevo punto de referencia con humanos y modelos públicos de IA. Los paneles humanos obtuvieron un 100% y un 60%, mientras que los sistemas fronterizos populares como el R1 y el R1-zero de DeepSeek obtuvieron un 0.3%, y el LLM puro de GPT-4.5 y el o3-mini-high obtuvieron un 0.0%. El o3-low de OpenAI, utilizando razonamiento de Cadena de Pensamiento, búsqueda y síntesis, alcanzó una estimación del 4%, a un alto costo por tarea.

Arc Prize también lanzó el último concurso de código abierto, ARC Prize 2025, organizado entre marzo y noviembre en la popular plataforma en línea Kaggle. El primer equipo que alcance una puntuación superior al 85%—y una eficiencia de $2.5 por tarea—en el punto de referencia ARC-AGI-2 ganará un Gran Premio de $700,000. También habrá premios de papel y otros premios para las puntuaciones más altas.

La fundación indicó que se proporcionarán más detalles en el sitio web oficial y en los próximos días.

¿Te ha gustado este artículo?
¡Puntúalo!
No me ha gustado nada No me gusta Ha estado bien ¡Muy bueno! ¡Me ha encantado!

¡Nos alegra que te guste nuestro trabajo!

Eres importante para nosotros, por eso, nos gustaría que nos dejaras una opinión en Trustpilot, ¿te animas? Se tarda muy poco y significa mucho para nosotros. ¡Gracias por todo!

Valóranos en Trustpilot
0 Votado por 0 usuarios
Título
Comentar
Gracias por tu opinión
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Dejar un comentario

Loader
Loader Ver más