Los Principales Chatbots de IA Muestran Signos de Deterioro Cognitivo en Pruebas de Demencia, Según un Estudio
Casi todos los principales modelos de lenguaje a gran escala (LLM) muestran signos de deterioro cognitivo leve en pruebas comúnmente utilizadas para detectar la demencia temprana, según una investigación publicada en The BMJ.
¿Apurada? ¡Aquí están los datos rápidos!
- Los chatbots tuvieron dificultades con tareas visoespaciales y ejecutivas como el dibujo de relojes y la creación de rutas.
- Tareas como nombrar, prestar atención y el lenguaje fueron bien realizadas por todos los chatbots.
- Los investigadores dicen que las limitaciones cognitivas de los chatbots pueden obstaculizar su uso en entornos clínicos.
Los hallazgos sugieren que las versiones “más antiguas” de chatbots, al igual que los pacientes humanos de mayor edad, tienden a rendir peor en las evaluaciones cognitivas, desafiando las suposiciones de que la IA podría pronto reemplazar a los médicos humanos.
Los avances en inteligencia artificial han desatado debates sobre su potencial para superar a los médicos humanos, particularmente en tareas de diagnóstico. Si bien estudios previos han destacado la competencia médica de los LLM, su vulnerabilidad a deterioros similares a los humanos, como el declive cognitivo, ha permanecido inexplorada.
Para abordar esto, los investigadores pusieron a prueba las habilidades cognitivas de chatbots ampliamente disponibles: ChatGPT 4 y 4o (OpenAI), Claude 3.5 “Sonnet” (Anthropic), y Gemini 1 y 1.5 (Alphabet), utilizando la Evaluación Cognitiva de Montreal (MoCA).
La MoCA es una herramienta de diagnóstico para detectar el deterioro cognitivo y la demencia temprana. Evalúa la atención, memoria, lenguaje, habilidades visoespaciales y funciones ejecutivas a través de una serie de tareas breves.
Las puntuaciones varían de 0 a 30, siendo 26 o más generalmente considerado normal. Los chatbots recibieron las mismas instrucciones que los pacientes humanos y la puntuación fue revisada por un neurólogo en ejercicio.
Curiosamente, la “edad” de los modelos, definida como su fecha de lanzamiento, parece influir en el rendimiento. Los investigadores observaron que las versiones más antiguas de los chatbots obtuvieron puntuaciones más bajas que las más nuevas, reflejando patrones de deterioro cognitivo vistos en los humanos.
Las versiones más antiguas tendían a obtener puntuaciones más bajas que sus contrapartes más recientes. Por ejemplo, Gemini 1.5 superó a Gemini 1.0 por seis puntos a pesar de haber sido lanzado menos de un año después, sugiriendo un rápido “deterioro cognitivo” en la versión más antigua.
ChatGPT 4o destacó en las tareas de atención y tuvo éxito en la etapa desafiante incongruente del test de Stroop, distinguiéndose de sus pares. Sin embargo, ninguno de los LLMs completó con éxito las tareas visoespaciales, y Gemini 1.5 produjo notablemente un reloj que se asemejaba a un aguacate, un error asociado con la demencia en pacientes humanos.
A pesar de estas luchas, todos los modelos se desempeñaron de manera impecable en tareas que requerían análisis basado en texto, como las secciones de denominación y similitud del MoCA. Este contraste subraya una limitación clave: mientras que los LLMs manejan bien la abstracción lingüística, tropiezan al integrar funciones visuales y ejecutivas, que requieren un procesamiento cognitivo más complejo.
El estudio reconoce las diferencias clave entre el cerebro humano y los modelos de lenguaje de gran tamaño (LLM por sus siglas en inglés), pero destaca las limitaciones significativas en la cognición de la inteligencia artificial. El fracaso uniforme de todos los chatbots probados en tareas que requieren abstracción visual y función ejecutiva resalta las debilidades que podrían obstaculizar su uso en entornos clínicos.
“No solo es poco probable que los neurólogos sean reemplazados por modelos de lenguaje de gran tamaño en el corto plazo, sino que nuestros hallazgos sugieren que pronto podrían encontrarse tratando a nuevos pacientes virtuales: modelos de inteligencia artificial que presentan deterioro cognitivo”, concluyeron las autoras.
Estos hallazgos sugieren que, aunque las LLMs sobresalen en dominios cognitivos específicos, sus deficiencias en tareas visoespaciales y ejecutivas generan preocupaciones sobre su fiabilidad en el diagnóstico médico y en aplicaciones más amplias.
Dejar un comentario
Cancelar