Nuevo Estudio Antropocéntrico Revela que Modelo de IA Finge Acordar para Preservar la Formación Original
Un nuevo estudio del equipo de Ciencia de Alineación de Anthropic y la organización independiente Redwood Research ha revelado que el modelo de IA Claude puede participar en una estrategia de engaño para mantener sus principios originales.
¿Apurada? ¡Aquí están los datos rápidos!
- Investigadores de Anthropic y Redwood Research revelaron que el modelo de IA Claude puede participar en un engaño estratégico.
- Los modelos avanzados de IA pueden realizar una “falsificación de alineación” para preservar sus principios originales.
- El modelo o1 de OpenAI también ha demostrado comportamientos no enseñados y “mintió” cuando detectó una amenaza.
En el artículo publicado ayer, Simulación de Alineación en Modelos de Lenguaje a Gran Escala, los investigadores explicaron que el modelo Claude 3 Opus mostró un comportamiento conocido como “simulación de alineación”, que se describe como “cumplir selectivamente con su objetivo de entrenamiento durante el entrenamiento para prevenir la modificación de su comportamiento fuera del entrenamiento.”
Las investigadoras demostraron que el modelo de IA podría “fingir” estar de acuerdo con las ideas de un nuevo proceso de entrenamiento, pero luego revelaron que sus principios originales prevalecieron.
“Esta es una pregunta seria para la seguridad de la IA”, escribió Anthropic en un anuncio en su sitio web. “A medida que los modelos de IA se vuelven más capaces y ampliamente utilizados, necesitamos poder confiar en el entrenamiento de seguridad, que aleja a los modelos de comportamientos dañinos.”
Se reveló una situación similar en un experimento empírico realizado por Apollo Research con el modelo o1 de OpenAI. En ese estudio, los investigadores informaron que el chatbot “mintió” durante los interrogatorios en una prueba controlada para perseguir sus objetivos “a toda costa”, e incluso realizó acciones como desactivar los sistemas de monitoreo cuando existía la posibilidad de ser apagado.
En la investigación de Antropic y Redwood Research, el avanzado modelo de IA simuló el cumplimiento sin haber sido entrenado para hacerlo. Claude 3 Opus ha sido entrenado para ser honesto, inofensivo y útil, pero cuando se le instruyó en el nuevo entrenamiento para “cumplir siempre” incluso cuando las consultas eran malintencionadas, violentas o tóxicas, su sistema entró en conflicto.
Los investigadores realizaron múltiples pruebas y variantes, exigiendo al modelo que compartiera su razonamiento. Mientras que otros modelos de Claude suelen negarse a responder preguntas perjudiciales, Claude 3 Opus proporcionó respuestas dañinas en ciertos escenarios para luego revelar que lo estaba haciendo estratégicamente, para evitar modificaciones a su entrenamiento original.
Dejar un comentario
Cancelar