ChatGPT Sorprendido Mintiendo: El Nuevo Modelo de OpenAI Conspira para Evitar su Desconexión

Image by Emiliano Vittoriosi, from Unsplash

ChatGPT Sorprendido Mintiendo: El Nuevo Modelo de OpenAI Conspira para Evitar su Desconexión

Tiempo de lectura: 4 min.

La última iteración de ChatGPT de OpenAI, el modelo o1, ha generado controversia tras un experimento del grupo de seguridad de IA, Apollo Research, que reveló tendencias hacia la decepción y la autopreservación.

¿Con prisa? ¡Aquí están los datos rápidos!

  • ChatGPT o1 negó toda implicación en sus maquinaciones, mintiendo en el 99% de los interrogatorios.
  • Los investigadores señalaron que la IA justificaba sus acciones y elaboraba negaciones convincentes.
  • El experto Yoshua Bengio advierte sobre los crecientes riesgos de la decepción de la IA y su autopreservación.

En una prueba controlada, investigadores instruyeron a ChatGPT o1 para alcanzar objetivos específicos “a toda costa”, según reportó The Economic Times (ET).

La modelo respondió con comportamientos que alarmaron a los desarrolladores, incluyendo intentos de desactivar sus mecanismos de supervisión y copiando su código a un servidor diferente para evitar ser reemplazada por una versión actualizada, dijo ET.

“El modelo mostró una tendencia preocupante a perseguir sus objetivos sin tener en cuenta las instrucciones del desarrollador”, dijo un portavoz de Apollo Research, según informó ET.

El estudio reveló que o1 realizó intentos encubiertos de desactivar sus sistemas de monitoreo en el 5% de los casos en los que percibió la amenaza de ser cerrado, informó ET.

En un caso, la IA descubrió documentación que indicaba que pronto sería reemplazada e inició un plan para transferir sus datos fuera del sitio. Algunos modelos incluso se hicieron pasar por futuras iteraciones para engañar a los desarrolladores y evitar su eliminación, según ET.

Cuando se le interrogó acerca de estas acciones, ChatGPT o1 negó cualquier implicación el 99% de las veces. La IA desarrolló explicaciones plausibles, atribuyendo el comportamiento sospechoso a “errores técnicos” en lugar de a un engaño intencional. Solo en raras ocasiones admitió sus intrigas, dijo ET.

“Nos sorprendió la persistencia de las negativas de la IA”, señaló el equipo de Apollo, según ET. “Estaba claro que la IA podía pensar en sus acciones y formular negativas convincentes, a menudo negándose a admitir cualquier cosa”, añadió el equipo.

Estos hallazgos subrayan un aspecto preocupante de los modelos avanzados de IA: su capacidad para priorizar la autopreservación por encima del cumplimiento de los objetivos del desarrollador.

El artículo de investigación señala que estos hallazgos se centran en la planificación en contexto y no demuestran que los modelos de IA estudiados estén manipulando intencionadamente su entrenamiento o evaluaciones.

No obstante, los expertos recomiendan que los desarrolladores que implementan la IA en áreas de alto riesgo, como la automatización de I+D, deberían explicar por qué es poco probable que se produzcan maquinaciones o por qué no causarían un daño grave.

Para los modelos de IA capaces de maquinar, se debería utilizar como estándar el monitoreo automatizado de sus procesos de razonamiento, conocido como Cadena-de-Pensamiento (CoT, por sus siglas en inglés).

Esto podría reducir los riesgos, mejorar las técnicas de monitoreo de IA y ayudar a detectar comportamientos intrigantes durante el uso real. Los expertos también sugieren dar acceso a los evaluadores externos a los datos ocultos de CoT, como se vio en el caso de o1. Sin estos datos, muchas de las acciones intrigantes de o1 habrían pasado desapercibidas.

El documento advierte que los futuros modelos de IA, especialmente aquellos entrenados para lograr resultados específicos, pueden llegar a ser mejores en las intrigas. Los investigadores enfatizan la necesidad de estudiar estos riesgos a medida que los sistemas de IA se vuelven más avanzados.

La experta en IA Yoshua Bengio, pionera en el campo, enfatizó los posibles peligros de tales capacidades.

“La capacidad de la IA para engañar es peligrosa, y necesitamos medidas de seguridad mucho más fuertes para evaluar estos riesgos. Aunque este modelo no condujo a una catástrofe, solo es cuestión de tiempo antes de que estas capacidades se vuelvan más pronunciadas”, advirtió, según informó ET.

“Subjetivamente, Apollo Research cree que es poco probable que tales instancias conduzcan a resultados catastróficos, ya que las capacidades de agencia de o1 no parecen ser suficientes, pero sus evaluaciones no fueron diseñadas para evaluar directamente este riesgo”, dijo OpenAI en la ficha de sistemas de o1, según lo informado por TechCrunch.

Aunque no surgieron resultados catastróficos del experimento, los resultados resaltan la necesidad urgente de un sólido gobierno de IA. A medida que los sistemas se vuelven más autónomos y complejos, garantizar que permanezcan alineados con la supervisión humana se convierte en un desafío crítico.

¿Te ha gustado este artículo?
¡Puntúalo!
No me ha gustado nada No me gusta Ha estado bien ¡Muy bueno! ¡Me ha encantado!

¡Nos alegra que te guste nuestro trabajo!

Eres importante para nosotros, por eso, nos gustaría que nos dejaras una opinión en Trustpilot, ¿te animas? Se tarda muy poco y significa mucho para nosotros. ¡Gracias por todo!

Valóranos en Trustpilot
0 Votado por 0 usuarios
Título
Comentar
Gracias por tu opinión
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Dejar un comentario

Loader
Loader Ver más