Image by frimufilms, from Freepik

Degradación del Modelo de IA: Nueva Investigación Revela los Riesgos de Entrenar la IA con Datos Generados por la IA

Tiempo de lectura: 3 min.

Publicado el Abr 3, 2025

Escrito por Kiara Fabbri Periodista especializada en multimedia
Traducido por El equipo de localización y traducción Servicios de localización y traducción

Según un estudio publicado el 24 de julio, la calidad de los resultados de los modelos de IA corre el riesgo de degradarse a medida que más datos generados por IA inundan internet.

Los investigadores de este estudio descubrieron que los modelos de IA entrenados con datos generados por IA producen resultados cada vez más absurdos con el tiempo. Este fenómeno es conocido como “colapso del modelo”. Ilia Shumailov, autor principal del estudio, compara el proceso con copiar una fotografía repetidamente. “Si tomas una imagen y la escaneas, y luego la imprimes, y repites este proceso con el tiempo, básicamente el ruido abruma todo el proceso, […] Te quedas con un cuadrado oscuro”.

Esta degradación representa un riesgo significativo para los grandes modelos de IA como GPT-3, que dependen de grandes cantidades de datos de internet para su entrenamiento. GPT-3, por ejemplo, fue parcialmente entrenado con datos de Common Crawl, un repositorio en línea que contiene más de 3 mil millones de páginas web. El problema se agrava a medida que el contenido basura generado por la IA se propaga en línea. Este efecto podría amplificarse aún más por los hallazgos de un nuevo estudio que indica crecientes restricciones a los datos disponibles para el entrenamiento de la IA.

El equipo de investigación probó los efectos afinando un gran modelo de lenguaje (LLM) en los datos de Wikipedia y luego volviéndolo a entrenar en sus propias salidas durante nueve generaciones. Midió la calidad de la salida utilizando una “puntuación de perplejidad”, que indica la confianza del modelo en predecir la siguiente parte de una secuencia. Las puntuaciones más altas reflejan modelos menos precisos. Observaron un aumento de las puntuaciones de perplejidad en cada generación subsiguiente, destacando la degradación.

Esta degradación podría ralentizar las mejoras e impactar en el rendimiento. Por ejemplo, en una prueba, después de nueve generaciones de reentrenamiento, el modelo produjo un texto completamente incoherente.

Una idea para ayudar a prevenir la degradación es asegurarse de que el modelo otorgue más peso a los datos generados originalmente por humanos. Otra parte del estudio de Shumailov permitió que las futuras generaciones muestrearan el 10% del conjunto de datos original, lo que mitigó algunos efectos negativos.

La discusión del estudio resalta la importancia de preservar datos de alta calidad, diversos y generados por humanos para el entrenamiento de modelos de IA. Sin una gestión cuidadosa, la creciente dependencia del contenido generado por la IA podría llevar a una disminución en el rendimiento y la equidad de la IA. Para abordar esto, se necesita la colaboración entre investigadores y desarrolladores para rastrear el origen de los datos (procedencia de los datos) y asegurar que los futuros modelos de IA tengan acceso a materiales de entrenamiento confiables.

Sin embargo, la implementación de tales soluciones requiere métodos efectivos de procedencia de datos, que actualmente son escasos. Aunque existen herramientas para detectar texto generado por IA, su precisión es limitada.

Shumailov concluye: “Desafortunadamente, tenemos más preguntas que respuestas […] Pero está claro que es importante saber de dónde provienen tus datos y cuánto puedes confiar en ellos para captar una muestra representativa de los datos con los que estás trabajando”.

Degradación del Modelo de IA: Nueva Investigación Revela los Riesgos de Entrenar la IA con Datos Generados por la IA

¡Nos alegra que te guste nuestro trabajo!

Dejar un comentario