
Photo by Sebastien Bonneval on Unsplash
Investigadores de EE. UU. Desarrollan Modelo de Razonamiento Avanzado Por Menos de $50
Investigadores de IA de la Universidad de Washington y Stanford entrenaron un modelo de razonamiento de IA por menos de $50 – en créditos de computación en la nube – llamado s1. El equipo publicó un artículo, titulado s1: Escalamiento simple en tiempo de prueba, con más detalles sobre su metodología este lunes.
¿Apurado? ¡Aquí están los datos rápidos!
- Investigadores de IA de la Universidad de Washington y Stanford entrenaron un modelo de razonamiento de IA por menos de $50 y compartieron su investigación este lunes.
- Utilizaron la técnica de destilación, una escalada en tiempo de prueba y un enfoque de ajuste fino supervisado, con un conjunto de datos de 1,000 preguntas.
- El modelo s1 se desempeña de manera similar a DeepSeek R1 y OpenAI o1.
Según TechCrunch, el nuevo modelo tiene un rendimiento similar a modelos avanzados como el R1 de DeepSeek o el o1 de OpenAI y está disponible en GitHub.
Para desarrollar el modelo de IA, los investigadores aplicaron un proceso conocido como destilación, cuando un modelo de IA más grande proporciona datos a un modelo más pequeño, obteniendo capacidades de razonamiento de Gemini 2.0 Flash Thinking Experimental de Google.
Este proceso está ganando popularidad en la industria de la IA, ya que OpenAI afirma que DeepSeek utilizó el proceso, sin autorización, para desarrollar su avanzado modelo de razonamiento. Investigadores del Sky Computing Lab de UC Berkeley también lograron recientemente entrenar un modelo de razonamiento por menos de $450 con esta técnica, lo que está provocando debate en Silicon Valley y enojo entre las grandes empresas de IA.
Las investigadoras que desarrollan el modelo s1 también consideraron un enfoque de “escalado en tiempo de prueba” —obligando al modelo a detenerse y razonar más antes de proporcionar una respuesta— y realizaron un ajuste fino supervisado a partir de un modelo preentrenado para construir su modelo de razonamiento de IA.
“Desarrollamos el forzamiento presupuestario para controlar el cálculo en tiempo de prueba terminando forzosamente el proceso de pensamiento del modelo o alargándolo añadiendo ‘Espera’ varias veces a la generación del modelo cuando intenta finalizar”, afirma el artículo. “Esto puede llevar al modelo a verificar su respuesta, a menudo corrigiendo razonamientos incorrectos.”
Las expertas utilizaron un conjunto de datos de 1,000 preguntas y respuestas seleccionadas para entrenar su modelo en menos de 30 minutos utilizando GPUs Nvidia H100, demostrando que es posible obtener resultados avanzados con una pequeña base de datos y aprovechando otras tecnologías y modelos de IA.
“Los avances recientes en razonamiento, como el o1 de OpenAI y el R1 de DeepSeek, carecen de transparencia, lo que limita el progreso de la investigación en un sentido más amplio”, escribieron las investigadoras. “Nuestro trabajo tiene como objetivo impulsar la frontera del razonamiento de una manera totalmente abierta, fomentando la innovación y la colaboración para acelerar los avances que finalmente beneficien a la sociedad”.
Dejar un comentario
Cancelar