
Photo by Igor Omilaev on Unsplash
La Fundación Arc Prize lanza un nuevo y desafiante benchmark AGI, revelando las debilidades de la IA
La fundación sin ánimo de lucro Arc Prize Foundation anunció un nuevo punto de referencia, ARC-AGI-2, para desafiar a los modelos de inteligencia artificial de vanguardia en razonamiento y capacidades a nivel humano el lunes. La organización también anunció un nuevo concurso, ARC Prize 2025, que tendrá lugar de marzo a noviembre, y el ganador obtendrá un Gran Premio de $700,000.
¿Apurado? Aquí están los datos rápidos:
- La Fundación del Premio Arc lanzó un nuevo punto de referencia llamado ARC-AGI-2 para probar modelos de IA en habilidades de razonamiento a nivel humano.
- Los actuales modelos de IA líderes fallaron en la prueba, obteniendo puntuaciones entre el 0.0% y el 4%, mientras que los humanos alcanzaron hasta el 100%.
- La organización sin fines de lucro también anunció la competencia Premio Arc 2025 para el punto de referencia, y el ganador recibirá un premio de $700,000.
Según la información compartida por la organización, los modelos de IA más populares en el mercado no han podido superar una puntuación del 4% en ARC-AGI-2, mientras que los humanos pueden resolver fácilmente la prueba.
“Hoy estamos emocionadas de lanzar ARC-AGI-2 para desafiar la nueva frontera”, declara el anuncio. “ARC-AGI-2 es incluso más difícil para la IA (en particular, los sistemas de razonamiento de IA), mientras mantiene la misma facilidad relativa para los humanos.”
ARC-AGI-2 es la segunda edición del benchmark de la organización, ARC-AGI-1, lanzado en 2019. En la prueba anterior, solo OpenAI’s o3 logró con éxito un 85% en diciembre de 2024.
Esta nueva versión se enfoca en tareas que son fáciles para los humanos y difíciles para los modelos de IA, o hasta ahora imposibles. A diferencia de otros puntos de referencia, ARC-AGI-2 no considera habilidades de doctorado o capacidades sobrehumanas, en cambio, las tareas evalúan la capacidad de adaptación y habilidades para resolver problemas aplicando conocimientos existentes.
Arc Prize explicó que cada tarea en la prueba fue resuelta por humanos en menos de 2 intentos, y los modelos de IA deben cumplir con reglas similares, considerando los costos más bajos. La prueba incluye interpretación simbólica; los modelos de IA deben entender los símbolos más allá de los patrones visuales, considerando reglas simultáneas y reglas que cambian dependiendo del contexto, algo en lo que la mayoría de los sistemas de razonamiento de IA fallan.
La organización probó el nuevo punto de referencia con humanos y modelos públicos de IA. Los paneles humanos obtuvieron un 100% y un 60%, mientras que los sistemas fronterizos populares como el R1 y el R1-zero de DeepSeek obtuvieron un 0.3%, y el LLM puro de GPT-4.5 y el o3-mini-high obtuvieron un 0.0%. El o3-low de OpenAI, utilizando razonamiento de Cadena de Pensamiento, búsqueda y síntesis, alcanzó una estimación del 4%, a un alto costo por tarea.
Arc Prize también lanzó el último concurso de código abierto, ARC Prize 2025, organizado entre marzo y noviembre en la popular plataforma en línea Kaggle. El primer equipo que alcance una puntuación superior al 85%—y una eficiencia de $2.5 por tarea—en el punto de referencia ARC-AGI-2 ganará un Gran Premio de $700,000. También habrá premios de papel y otros premios para las puntuaciones más altas.
La fundación indicó que se proporcionarán más detalles en el sitio web oficial y en los próximos días.
Dejar un comentario
Cancelar