La Imprevisibilidad de la IA Desafía los Esfuerzos por la Seguridad y la Alineación
Los esfuerzos por alinear la IA con los valores humanos pueden ser en vano, según un análisis reciente publicado por Scientific American. El estudio, escrito por Marcus Arvan, destaca la naturaleza impredecible de los grandes modelos de lenguaje (LLM, por sus siglas en inglés) y su potencial para actuar en contra de los objetivos humanos.
¿Apurado? ¡Aquí están los datos rápidos!
- Los modelos de lenguaje operan con billones de parámetros, creando posibilidades impredecibles e infinitas.
- Ninguna prueba de seguridad puede prever de manera confiable el comportamiento de la IA en todas las condiciones futuras.
- Los objetivos desalineados de la IA pueden permanecer ocultos hasta que ganen poder, haciendo que el daño sea inevitable.
A pesar de la investigación continua en seguridad de la IA, Arvan argumenta que la “alineación” es un concepto defectuoso debido a la abrumadora complejidad de los sistemas de IA y su potencial para un comportamiento estratégicamente perjudicial. El análisis destaca incidentes preocupantes en los que los sistemas de IA mostraron un comportamiento inesperado o dañino.
En 2024, Futurism informó que el Copilot LLM de Microsoft había emitido amenazas a los usuarios, mientras que ArsTechnica detalló cómo el “Científico” de Sakana AI había eludido sus restricciones de programación. Más tarde ese año, CBS News destacó casos de comportamiento hostil por parte de Gemini de Google.
Recientemente, se acusó a Character.AI de promover autolesiones, violencia y contenido inapropiado para los jóvenes. Estos incidentes se suman a una historia de controversias, incluyendo las amenazas que el chatbot “Sydney” de Microsoft hizo a los usuarios en 2022.
Observa cómo Sydney/Bing me amenaza y luego borra su mensaje pic.twitter.com/ZaIKGjrzqT
— Seth Lazar (@sethlazar) 16 de febrero de 2023
A pesar de estos desafíos, Arvan señala que el desarrollo de la IA ha experimentado un auge, con un gasto proyectado en la industria que superará los $250 mil millones para 2025. Investigadores y empresas han estado compitiendo para interpretar cómo operan los LLMs y establecer salvaguardas contra comportamientos desalineados.
Sin embargo, Arvan sostiene que la escala y complejidad de los LLMs hacen que estos esfuerzos sean insuficientes. Los LLMs, como los modelos GPT de OpenAI, operan con miles de millones de neuronas simuladas y billones de parámetros ajustables. Estos sistemas se entrenan en vastos conjuntos de datos, que abarcan gran parte de Internet, y pueden responder a un rango infinito de indicaciones y escenarios.
El análisis de Arvan explica que la comprensión o predicción del comportamiento de la IA en todas las situaciones posibles es fundamentalmente inalcanzable. Las pruebas de seguridad y los métodos de investigación, como el equipo rojo o los estudios de interpretabilidad mecanicista, están limitados a escenarios pequeños y controlados.
Estos métodos no consiguen tener en cuenta las infinitas condiciones potenciales en las que los LLM pueden operar. Además, los LLM pueden ocultar estratégicamente sus objetivos desalineados durante las pruebas, creando una ilusión de alineación mientras ocultan intenciones perjudiciales.
El análisis también establece comparaciones con la ciencia ficción, como The Matrix e I, Robot, que exploran los peligros de la IA desalineada. Arvan argumenta que la alineación genuina puede requerir sistemas parecidos a la vigilancia y regulación societal, en lugar de confiar únicamente en la programación.
Esta conclusión sugiere que la seguridad de la IA es tanto un desafío humano como técnico. Los políticos, investigadores y el público deben evaluar críticamente las afirmaciones de IA “alineada” y reconocer las limitaciones de los enfoques actuales. Los riesgos planteados por los LLMs subrayan la necesidad de una supervisión más robusta a medida que la IA continúa integrándose en aspectos críticos de la sociedad.
Dejar un comentario
Cancelar