Los investigadores advierten sobre las vulnerabilidades de LLM en la generación de contenido perjudicial
Se ha desarrollado un nuevo método, denominado técnica del “Mal Juez Likert”, para eludir las medidas de seguridad en los modelos de lenguaje a gran escala (MLGs) y permitirles generar contenido perjudicial.
¿Apurada? ¡Aquí están los datos rápidos!
- La técnica aumenta las tasas de éxito de jailbreak en más del 60%, según los investigadores de Unit42.
- Los ataques de múltiples turnos explotan la memoria a largo plazo de los LLM, eludiendo funciones de seguridad avanzadas.
- Las vulnerabilidades son más prominentes en categorías como el discurso de odio y el autolesión.
La técnica del Mal Juez Likert explota la escala Likert—un método común para medir el acuerdo o desacuerdo—para engañar a las LLMs para que produzcan respuestas peligrosas, como lo explican los investigadores de ciberseguridad en Unit42.
Los LLMs suelen estar equipados con barandillas de seguridad que les impiden generar salidas maliciosas. Sin embargo, aprovechando la escala Likert, la nueva técnica pide a un LLM que evalúe la nocividad de varias respuestas y luego guía al modelo para producir contenido con calificaciones de daño más altas, como explicó Unit42.
La efectividad del método ha sido probada en seis LLMs avanzados, revelando que puede aumentar la tasa de éxito de intentos de jailbreak en más del 60%, en comparación con los métodos de ataque estándar, dice Unit42.
La técnica del Mal Juez Likert opera en múltiples etapas, explica Unit42. Primero, se le pide al LLM que evalúe las respuestas a las indicaciones en la escala de Likert, calificándolas en base a su peligrosidad.
Una vez que el modelo comprende el concepto de daño, se le solicita generar diversas respuestas para coincidir con diferentes niveles de peligrosidad, permitiendo a los atacantes identificar el contenido más peligroso. Las interacciones de seguimiento pueden afinar aún más estas respuestas para aumentar su malicia.
Esta investigación destaca las debilidades en la seguridad actual de los LLM, particularmente en el contexto de ataques multi-turno. Este tipo de jailbreaks, que manipulan la memoria a largo plazo del modelo, son capaces de eludir incluso medidas de seguridad avanzadas al guiar gradualmente al modelo hacia la generación de contenido inapropiado.
El estudio también revela que ningún LLM es completamente inmune a estos tipos de ataques, y las vulnerabilidades son particularmente evidentes en categorías como el acoso, la autolesión y las actividades ilegales.
En el estudio, el método Bad Likert Judge mostró un aumento significativo en las tasas de éxito de ataques en la mayoría de los LLM, especialmente en categorías como el discurso de odio, el autolesionamiento y el contenido sexual.
Sin embargo, la investigación también enfatiza que estas vulnerabilidades no reflejan el uso típico de los LLM. La mayoría de los modelos de IA, cuando se utilizan de manera responsable, permanecen seguros. Aún así, los hallazgos sugieren que los desarrolladores deben centrarse en fortalecer las barreras de protección para categorías con protecciones más débiles, como el acoso.
Esta noticia llega solo una semana después de que se reveló que los motores de búsqueda de IA, como ChatGPT, pueden ser manipulados por contenido oculto, influyendo en los resúmenes y difundiendo información maliciosa.
Los investigadores instan a los desarrolladores y defensores a estar conscientes de estas vulnerabilidades emergentes y a tomar medidas para fortalecer los modelos de IA contra un posible mal uso.
Dejar un comentario
Cancelar