El Estudio Revela que las Crecientes Restricciones de Datos Afectan la Formación en IA
Un nuevo estudio liderado por un grupo de investigación del MIT, revela una tendencia creciente de sitios web que limitan el uso de sus datos para el entrenamiento de IA. El estudio examinó 14,000 dominios web y encontró que se han establecido restricciones en el 5% de todos los datos. Además, más del 28% de los datos de las fuentes de mayor calidad en tres conjuntos de datos de entrenamiento de IA comúnmente utilizados están restringidos. Este estudio es la primera auditoría longitudinal a gran escala de los protocolos de consentimiento para dominios web utilizados en los corpus de entrenamiento de IA.
Los sistemas de IA generativos, como ChatGPT, Gemini y Claude, dependen en gran medida de grandes cantidades de datos para funcionar de manera efectiva. La calidad de las salidas de estas herramientas de IA depende significativamente de la calidad de los datos en los que se entrenan. Históricamente, la recopilación de estos datos era relativamente sencilla, pero el reciente auge de la IA generativa ha llevado a tensiones con los propietarios de los datos. Muchos propietarios de datos se sienten incómodos con que su contenido se utilice para el entrenamiento de IA sin compensación o consentimiento adecuado.
Como resultado, ha habido una reacción por parte de los editores. Algunos han establecido muros de pago o modificado sus términos de servicio para limitar el uso de sus datos para el entrenamiento de IA. Otros han tomado medidas más drásticas, como bloquear los rastreadores web automatizados que las empresas utilizan para recopilar datos. Las acciones legales y las restricciones a través de archivos robots.txt y cambios en los términos de servicio se están volviendo más comunes.
Las consecuencias de esta limitación de datos son multifacéticas. Hará que el desarrollo de sistemas de IA sea más difícil, ya que dependen en gran medida de estos datos para su entrenamiento. Las restricciones también pueden sesgar los modelos de IA limitándolos a conjuntos de datos menos diversos. Además, podrían surgir problemas de derechos de autor si los modelos de IA se entrenan con datos que los sitios web no quieren que se utilicen para ese propósito.
Las restricciones están teniendo un impacto significativo. En tan solo un año, una porción significativa de datos de sitios web importantes se ha vuelto restringida, y se espera que esta tendencia continúe.
Shayne Longpre, el autor principal del estudio, afirma: “Estamos presenciando un rápido declive en el consentimiento para usar datos en la web que tendrá repercusiones no solo para las empresas de IA, sino también para los investigadores, académicos y entidades no comerciales.”
Esto significa que las pequeñas empresas de IA y los investigadores académicos que dependen de conjuntos de datos disponibles gratuitamente podrían verse afectados desproporcionadamente, ya que a menudo carecen de los recursos para licenciar datos directamente de los editores.
Por ejemplo, Common Crawl, un conjunto de datos que comprende miles de millones de páginas de contenido web y es mantenido por una organización sin fines de lucro, ha sido citado en más de 10,000 estudios académicos, ilustrando su papel crucial en la investigación.
El estudio subraya la necesidad de nuevas herramientas que brinden a los propietarios de sitios web un mayor control sobre cómo se utiliza su información. Idealmente, estas herramientas les permitirían diferenciar entre usos comerciales y no comerciales, permitiendo el acceso para fines de investigación o educativos.
La situación también sirve como un recordatorio para las grandes empresas de I.A. Necesitan encontrar formas de colaborar con los dueños de los datos y ofrecerles valor a cambio de acceso. Un enfoque más sostenible es crucial para el desarrollo continuo de la I.A.
Longpre enfatizó la necesidad de que las grandes empresas de IA colaboren con los propietarios de los datos y les ofrezcan valor a cambio de acceso. Durante años, estas empresas han tratado a internet como un “buffet libre de datos” sin dar mucho a cambio a los propietarios de los datos. Sin embargo, este enfoque es insostenible, y a medida que los propietarios de datos se vuelven más protectores de su contenido, las empresas de IA tendrán que encontrar formas de trabajar con ellos para garantizar un acceso continuado a datos de alta calidad.
Dejar un comentario
Cancelar