
Image by Marco Verch, from Ccnull
Laberinto de IA: La Nueva Herramienta de Cloudflare Engaña a los Rastreadores de IA con Páginas Web Falsas
Cloudflare ha anunciado “AI Labyrinth”, una herramienta diseñada para combatir los raspadores web impulsados por IA que extraen datos de los sitios web sin permiso.
¿Apurada? Aquí están los datos rápidos:
- La herramienta genera contenido realista pero inútil creado por IA para desperdiciar el tiempo de los raspadores.
- AI Labyrinth apunta a los bots que ignoran el archivo robots.txt, incluyendo aquellos de Anthropic y Perplexity AI.
- Funciona como una trampa para hackers de última generación, detectando y registrando la huella digital de los rastreadores no autorizados.
En lugar de bloquear directamente estos bots, AI Labyrinth los engaña haciendo que entren en un laberinto infinito de páginas generadas por IA, desperdiciando su tiempo y poder de cálculo.
“Cuando detectamos rastreo no autorizado, en lugar de bloquear la solicitud, enlazaremos a una serie de páginas generadas por IA que son lo suficientemente convincentes como para atraer a un rastreador a recorrerlas”, explicó Cloudflare en una entrada de blog.
“Pero aunque parece real, este contenido no es realmente el contenido del sitio que estamos protegiendo, por lo que el rastreador desperdicia tiempo y recursos”, añadió Cloudflare.
ArsTechnica señala que los recolectores de IA son un problema porque recopilan grandes cantidades de datos de sitios web, a menudo sin permiso, para entrenar modelos de IA. Esto crea varios problemas: puede infringir los derechos de propiedad intelectual, eludiendo los controles que los propietarios de sitios web usan para regular el acceso.
Además, la recopilación de datos puede llevar al mal uso de información sensible o propietaria. El volumen de recopilación de datos ha aumentado de manera espectacular, con Cloudflare informando más de 50 mil millones de solicitudes de rastreo diarias.
Esta extracción de datos a gran escala agota los recursos de los sitios web, afectando el rendimiento del sitio y la privacidad, al tiempo que contribuye a las crecientes preocupaciones sobre la explotación de datos en el desarrollo de la Inteligencia Artificial (IA).
Tradicionalmente, los propietarios de sitios web confían en el archivo robots.txt para indicar a los bots qué pueden y qué no pueden acceder, sin embargo, muchas empresas de IA, incluyendo actores importantes como Anthropic y Perplexity AI, han sido acusadas de ignorar estas directivas, según informa The Verge.
El Laberinto AI de Cloudflare ofrece un enfoque más agresivo para lidiar con estos bots no deseados. La herramienta funciona como una “trampa de próxima generación”, atrayendo a los bots más profundamente en una red artificial de contenido que parece real pero es finalmente inútil para el entrenamiento de IA.
A diferencia de las trampas tradicionales, que los bots han aprendido a identificar, el Laberinto AI crea información realista pero irrelevante utilizando la plataforma AI Workers de Cloudflare.
“Ningún humano real se adentraría cuatro enlaces adentro en un laberinto de sinsentidos generados por IA”, señaló Cloudflare. “Cualquier visitante que lo haga tiene muchas probabilidades de ser un bot, por lo que esto nos brinda una herramienta completamente nueva para identificar y registrar las huellas de los bots maliciosos”.
El contenido generado por IA está diseñado para ser científicamente factual, pero no relacionado con el sitio web real que se está protegiendo.
Esto garantiza que la herramienta no contribuye a la desinformación, mientras aún confunde a los raspadores de IA. Las páginas engañosas son invisibles para los visitantes humanos y no afectan el posicionamiento en los motores de búsqueda.
AI Laberinto está disponible como una característica gratuita y opcional para todos los usuarios de Cloudflare. Los administradores de sitios web pueden activarlo a través de su panel de control de Cloudflare, en la configuración de Gestión de Bots.
La empresa describe esto solo como el comienzo de las contramedidas impulsadas por la IA, con planes futuros de hacer las páginas falsas aún más engañosas.
El juego del gato y el ratón entre los sitios web y los raspadores de IA continúa, con Cloudflare adoptando un enfoque innovador para proteger el contenido en línea. Sin embargo, quedan preguntas acerca de cuán rápido las empresas de IA se adaptarán a estas trampas y si esta estrategia podría llevar a una escalada en la batalla sobre los datos web.
Dejar un comentario
Cancelar