La IA explica muy bien, pero no entiende lo que explica: qué es la ‘comprensión potemkin’ recién descubierta

La precisión de las respuestas de los modelos de inteligencia artificial (IA) ha alcanzado niveles extraordinarios, pero ¿realmente estos sistemas cada vez más sofisticados comprenden lo que dicen? Un nuevo estudio sugiere que no, lo que reaviva el debate sobre las verdaderas capacidades de razonamiento de una tecnología que empieza a dominar áreas cruciales para el futuro de la humanidad.
Investigadores del Instituto Tecnológico de Massachusetts (MIT) y de las universidades de Harvard y Chicago concluyeron que varios modelos de IA, que presumen altas capacidades de razonamiento (llamados LRM, por sus siglas e inglés), no entienden en absoluto las respuestas que entregan. Es decir, pueden ofrecer resultados correctos, pero no logran aplicar ese conocimiento de forma coherente en distintos contextos.
Para llegar a esta conclusión, los científicos analizaron el desempeño de Llama-3.3, Claude-3.5, GPT-4o, Gemini, DeepSeek-V3, DeepSeek-R1 y Qwen2-VL en tareas que requerían no solo definir conceptos, sino también aplicarlos en ejercicios de clasificación, generación de contenido y edición. El experimento se centró en tres áreas clave: técnicas literarias, teoría de juegos y sesgos psicológicos.
Los resultados mostraron que, aunque los modelos ofrecieron definiciones precisas en el 94% de los casos, fallaron en el 55% cuando se les pidió clasificar ejemplos relacionados con esos conceptos. De igual manera, cometieron errores en el 40% de las pruebas al generar ejemplos o editar instancias.
Los autores denominaron este fenómeno como “comprensión potemkin”, en alusión a las aldeas ficticias que Grigory Potemkin supuestamente construyó para impresionar a la emperatriz Catalina II en su paso por el río Dniéper. La comprensión potemkin no debe confundirse con las conocidas “alucinaciones”, que son errores fácticos o respuestas incorrectas generadas por la IA.
“Los potemkins son al conocimiento conceptual lo que las alucinaciones son al conocimiento fáctico: las alucinaciones fabrican hechos falsos; los ‘potemkins’ crean una falsa coherencia conceptual”, explican los investigadores en una versión preliminar del estudio colgada en arXiv.
La investigación proporciona casos concretos para ilustrar esta limitación. Por ejemplo, aunque los modelos explicaron con precisión qué es la estructura de rima ABAB, no lograron escribir un poema que siguiera ese patrón. Asimismo, fueron capaces de identificar y describir técnicas literarias presentes en un soneto de Shakespeare, pero fallaron en casi el 50% de los intentos al tratar de detectar, reproducir o modificar un soneto similar.
¿Sabemos medir las capacidades de la IA?
Según los autores, la presencia generalizada de “comprensión potemkin” en los modelos de IA cuestiona la validez de las pruebas de referencia —o benchmarks— utilizadas comúnmente para evaluar sus capacidades. Plantean que estas métricas podrían ofrecer una ilusión de competencia más que una comprensión auténtica.
“La clave está en que los benchmarks empleados para medir el rendimiento de los grandes modelos de lenguaje (LLM), también se usan para evaluar a los humanos. Sin embargo, esto tiene una implicación: estas pruebas solo son válidas si los LLM malinterpretan los conceptos del mismo modo que lo haría una persona. De lo contrario, su éxito en estas pruebas refleja únicamente una comprensión potemkin, una apariencia engañosa de entendimiento basada en respuestas que ninguna persona interpretaría como correctas”, advierten los autores.