El sistema de memoria de IA MemPalace, desarrollado con la participación de Milla Jovovich, afirma haber obtenido una puntuación perfecta en las pruebas y se volvió viral, pero la comunidad lo desenmascaró acusándolo de hacer trampa en los ensayos y de inducir a error con los datos. Las pruebas reales revelaron que los resultados están exagerados y que hay muchos errores; el equipo ya ha reconocido las deficiencias y está trabajando en la reparación.
Ayer (4/7), en el mundo de la IA hubo una gran noticia: la actriz de Hollywood Milla Jovovich (Milla Jovovich), conocida por Resident Evil y El quinto elemento, junto con el desarrollador Ben Sigman, utilizó Claude Code para desarrollar el sistema de memoria de IA de código abierto “MemPalace”.
En un momento, se difundió ampliamente la afirmación de “una superestrella de Hollywood que cruza de rubro y logra un proyecto con puntuación perfecta”; hasta la fecha, MemPalace también ha acumulado más de 20.000 estrellas en GitHub, pero pronto surgieron dudas en la comunidad de desarrolladores: ¿de verdad tiene contenido o es puro montaje?
Primero, veamos la motivación con la que nació MemPalace. La documentación oficial indica que su objetivo es resolver la limitación de que, en los sistemas de IA actuales, el contenido de las conversaciones entre usuarios y la IA, el proceso de toma de decisiones y las discusiones sobre la arquitectura normalmente desaparecen al finalizar la sesión de trabajo, lo que provoca que meses de esfuerzo se pierdan.
Para solucionar este problema, MemPalace utiliza una arquitectura espacial para almacenar recuerdos: clasifica la información de forma explícita en alas que representan personas o proyectos, y en estructuras de distintos niveles como pasillos, salas y cajones, conservando el texto original de las conversaciones para la posterior búsqueda semántica.
El equipo de desarrollo afirma que MemPalace obtiene un 100% de puntuación perfecta en el criterio de evaluación de memoria de largo plazo LongMemEval, y que logra una precisión del 96,6% sin llamar a ninguna API externa; además, se puede ejecutar completamente en local, sin necesidad de suscribirse a servicios en la nube, y se le integra un supuesto sistema de dialecto AAAK que, según se dice, puede alcanzar una compresión sin pérdidas de 30 veces.
Fuente de la imagen: GitHub Milla Jovovich, la estrella de cine estadounidense, crea un palacio de memoria de IA, lo que atrae la atención del público
Sin embargo, el supuesto resultado perfecto de MemPalace en LongMemEval no tardó en atraer las críticas de sus pares.
PenfieldLabs, que también desarrolla sistemas de memoria de IA, señaló que es matemáticamente imposible que MemPalace logre una puntuación perfecta en el conjunto de datos LoCoMo, porque las respuestas estándar de ese conjunto de datos ya incluyen 99 errores.
El análisis de PenfieldLabs encontró que el 100% de MemPalace proviene de configurar el número de recuperaciones en 50 veces, pero el nivel máximo del conjunto de datos de prueba tiene solo 32 etapas de conversación; esto significa que el sistema se salta directamente la fase de recuperación y le entrega todos los datos al modelo de IA para que los lea.
Con respecto al 100% en LongMemEval, se descubrió que el equipo de desarrollo estaba enfocado en 3 problemas específicos en los que se producía un error al concentrarse, escribieron un código de reparación dedicado y existe la sospecha de que prepararon trampa para el conjunto de pruebas.
Fuente de la imagen: Reddit PenfieldLabs, señala que es matemáticamente imposible que MemPalace obtenga puntuación perfecta en LoCoMo
El usuario de GitHub hugooconnor comentó tras probarlo en el mundo real que, aunque MemPalace afirma tener una precisión de recuperación de hasta 96,6%, en realidad no se usa en absoluto la arquitectura del palacio de memoria que MemPalace presume. hugooconnor afirma que sus pruebas simplemente llaman a la función predeterminada de la base de datos subyacente ChromaDB, sin involucrar ninguna lógica de clasificación de alas, salas o cajones que el proyecto enfatiza.
Tras probarlo, hugooconnor descubrió que cuando el sistema realmente activa esa lógica de clasificación exclusiva de los palacios de memoria, el rendimiento de recuperación empeora. Por ejemplo, en el modo sala, la precisión baja a 89,4%, y al habilitar la tecnología de compresión AAAK, la precisión cae aún más hasta el 84,2%; en ambos casos, son cifras inferiores al rendimiento de la base de datos predeterminada.
hugooconnor también criticó el método de prueba: el entorno de prueba de MemPalace reduce deliberadamente el rango de recuperación de cada problema a alrededor de 50 etapas de conversación, y buscar respuestas en un banco de muestras tan pequeño lo vuelve demasiado fácil.
Si se amplía el rango a más de 19.000 etapas de conversación en escenarios reales, la precisión de la búsqueda tradicional por palabras clave se desploma hasta el 30%, lo que muestra que el método de prueba actual de MemPalace oculta el verdadero problema de dificultad de la búsqueda.
Fuente de la imagen: GitHub Pruebas reales de usuarios en GitHub: la prueba de referencia de MemPalace tiene componentes que inducen a error
Al mismo tiempo, aunque el equipo de desarrollo ya publicó un anuncio de corrección, admitiendo que la tecnología AAAK sí se verificó como compresión con pérdidas y prometiendo ajustar la documentación y el diseño del sistema según las duras críticas de la comunidad, el documento principal del proyecto aún conserva múltiples afirmaciones exageradas sin corregir, incluyendo la afirmación de una compresión sin pérdidas de 30 veces y un aumento de recuperación del 34%, y además las tablas comparativas con otros competidores carecen por completo de referencias de origen.
A medida que cada vez más desarrolladores descargan las pruebas, en la plataforma GitHub aparecen numerosas notificaciones de reporte de bugs sobre el código fuente de MemPalace.
El usuario cktang88 enumeró varias deficiencias graves: incluye que el comando de compresión no puede funcionar y provoca que el sistema se cuelgue, errores en la lógica de cálculo del número de palabras del resumen, estadísticas inexactas para la excavación de salas, y que en cada llamada el servidor carga todos los datos interpretados en la memoria, generando un grave problema de consumo de recursos.
Otros problemas señalados también incluyen que el sistema escribe por la fuerza los nombres de los miembros de la familia del desarrollador en el archivo de configuración predeterminado, y que existe un límite máximo forzado de visualización de 10.000 registros al consultar el estado.
Para estos problemas, la comunidad de código abierto ya ha comenzado a repararlos activamente. El usuario adv3nt3 presentó múltiplessolicitudes de reparación, incluyendo corregir las estadísticas de excavación, eliminar los nombres predeterminados de los miembros de la familia y retrasar el tiempo de inicialización del grafo de conocimiento. El equipo de desarrollo también reconoció posteriormente estos errores y está resolviendo gradualmente los problemas de código mediante la colaboración con la comunidad.
Con respecto al proyecto MemPalace, un usuario de Hacker News, darkhanakh, sacó esta conclusión: MemPalace da la sensación de OpenClaw, es decir, manipular artificialmente los resultados de la prueba de referencia (benchmark) para que parezcan perfectos, y luego empaquetarlos como algún tipo de gran avance para hacer marketing.
Considera que, aunque la tecnología subyacente de MemPalace podría ser realmente interesante, en un escenario donde el método de prueba tiene este tipo de fallas y además se promociona con la etiqueta de “la puntuación pública más alta jamás registrada”, realmente no queda del todo bien; “pero, en lo que respecta a que Milla Jovovich esté haciendo Vibe Coding, creo que sigue siendo bastante genial.”
Lectura adicional:
¡La app de “cazador de alimentos” de cupones de productos de fecha vencida con el desarrollo de IA para programar salió mal! explotó con problemas de seguridad de la información; el GPS de casa quedó al descubierto completamente desnudo