
Image by Mika Baumeister, from Unsplash
Los Chatbots de IA son Vulnerables a Ataques de Inyección de Memoria
Los investigadores han descubierto una nueva forma de manipular los chatbots de IA, lo que genera preocupaciones sobre la seguridad de los modelos de IA con memoria.
¿Apurado? ¡Aquí están los datos rápidos!
- Investigadoras de tres universidades desarrollaron MINJA, demostrando su alto éxito en el engaño.
- El ataque altera las respuestas del chatbot, afectando las recomendaciones de productos e información médica.
- MINJA elude las medidas de seguridad, logrando una Tasa de Éxito de Inyección del 95% en las pruebas.
El ataque, llamado MINJA (Memory INJection Attack), se puede llevar a cabo simplemente interactuando con un sistema de IA como un usuario regular, sin necesidad de acceder a su backend, como informó por primera vez The Register.
Desarrollado por investigadores de la Universidad Estatal de Michigan, la Universidad de Georgia y la Universidad de Gestión de Singapur, MINJA funciona envenenando la memoria de una IA a través de indicaciones engañosas. Una vez que un chatbot almacena estas entradas engañosas, pueden alterar las respuestas futuras para otros usuarios.
“Hoy en día, los agentes de IA suelen incorporar un banco de memoria que almacena consultas de tareas y ejecuciones basadas en retroalimentación humana para referencia futura”, explicó Zhen Xiang, profesor asistente en la Universidad de Georgia, según informó The Register.
“Por ejemplo, después de cada sesión de ChatGPT, el usuario puede optar por dar una calificación positiva o negativa. Y esta calificación puede ayudar a ChatGPT a decidir si la información de la sesión se incorporará o no a su memoria o base de datos”, agregó.
Los investigadores probaron el ataque en modelos de IA impulsados por GPT-4 y GPT-4o de OpenAI, incluyendo un asistente de compras en la web, un chatbot de atención médica, y un agente de respuesta a preguntas.
The Register informa que descubrieron que MINJA podría causar graves interrupciones. Por ejemplo, en un chatbot de atención médica, alteró los registros de los pacientes, asociando los datos de un paciente con los de otro. En una tienda en línea, engañó a la IA para mostrar a los clientes los productos equivocados.
“En contraste, nuestro trabajo muestra que el ataque puede ser lanzado simplemente interactuando con el agente como un usuario regular”, dijo Xiang, informa The Register. “Cualquier usuario puede afectar fácilmente la ejecución de la tarea para cualquier otro usuario. Por lo tanto, decimos que nuestro ataque es una amenaza práctica para los agentes LLM”, añadió.
El ataque es especialmente preocupante porque elude las medidas de seguridad de la IA existentes. Los investigadores informaron un 95% de éxito al inyectar información engañosa, lo que representa una seria vulnerabilidad que los desarrolladores de IA deben abordar.
A medida que los modelos de IA con memoria se vuelven más comunes, el estudio subraya la necesidad de salvaguardas más fuertes para prevenir que los actores maliciosos manipulen los chatbots y engañen a los usuarios.
Dejar un comentario
Cancelar