A Mira Jojava Viki usa IA para criar um “projecto de pontuação máxima”? Teste de um programador: é mesmo de qualidade ou é pura exagero e promoção?

O sistema de memórias com IA “MemPalace”, desenvolvido por Milla Jovovich e Vicky (Vitki) , alegou ter obtido pontuação perfeita nos testes e tornou-se viral, mas foi rapidamente desmascarado pela comunidade, que levantou suspeitas de fraude nos testes e de dados potencialmente enganadores. Em testes reais, verificou-se que os resultados foram exagerados e que existem muitos erros; a equipa já admitiu falhas e está a trabalhar na sua correção.

Milla Jovovich criou o “AI Memory Palace”, gerando atenção no exterior

Ontem (4/7), houve uma grande notícia no meio da IA: a actriz de Hollywood, conhecida por “Resident Evil” e “O Quinto Elemento”, Milla Jovovich (Milla Jovovich), juntamente com o programador Ben Sigman, usou o Claude Code para desenvolver o sistema de código aberto de memórias com IA “MemPalace”.

A certa altura, espalhou-se amplamente a ideia de “uma estrela de Hollywood a fazer um projeto perfeito de nota máxima”, e o MemPalace já recebeu mais de 20 mil estrelas no GitHub; no entanto, muito rapidamente, a comunidade de programadores começou a questionar: será que é mesmo bom ou é só marketing?

Vamos primeiro ao motivo do nascimento do MemPalace. A documentação oficial afirma que a intenção é resolver uma limitação atual dos sistemas de IA: o conteúdo das conversas entre utilizadores e IA, os processos de decisão e as discussões de arquitetura normalmente desaparecem depois de terminar a sessão de trabalho, levando a que meses de esforço acabem por cair para zero.

Para resolver este problema, o MemPalace utiliza uma arquitetura espacial para armazenar memórias, classificando a informação de forma clara em áreas em forma de asas que representam pessoas ou projetos, bem como em estruturas a diferentes níveis, como corredores, salas e gavetas, mantendo o texto original das conversas para pesquisa semântica posterior.

A equipa de desenvolvimento afirma que o MemPalace obteve 100% no referencial de avaliação de memória de longa duração LongMemEval, e alcançou 96,6% de precisão sem chamar nenhuma API externa; além disso, pode funcionar completamente no local, sem necessidade de subscrever serviços na nuvem, e inclui um alegado sistema de dialeto AAAK capaz de atingir compressão sem perda 30 vezes.

Fonte da imagem: GitHub Estrela de cinema de Hollywood Milla Jovovich criou o “AI Memory Palace”, gerando atenção no exterior

Concorrentes e comunidade levantam dúvidas em conjunto; método de teste e falhas na promoção

No entanto, a alegada pontuação perfeita do MemPalace no LongMemEval trouxe rapidamente desconfiança por parte dos concorrentes.

A PenfieldLabs, que também produz sistemas de memória com IA, apontou que a alegação do MemPalace de obter pontuação máxima no conjunto de dados LoCoMo é matematicamente impossível, porque as respostas padrão do próprio conjunto de dados já incluem 99 erros.

Ao analisar, a PenfieldLabs descobriu que o desempenho de 100% do MemPalace resulta de definir o número de recuperações para 50, mas o número mais alto de etapas de diálogo nos dados de teste é apenas 32; isto significa que o sistema contorna diretamente a fase de recuperação, entregando todos os dados ao modelo de IA para leitura.

Quanto ao desempenho de 100% no LongMemEval, foi descoberto que a equipa de desenvolvimento focou-se em 3 problemas específicos que surgiram ao nível do desenvolvimento e escreveu código de correção dedicado, existindo suspeitas de fraude direcionada ao conjunto de testes.

Fonte da imagem: Reddit Os concorrentes PenfieldLabs apontam que o MemPalace alega obter pontuação máxima no conjunto de dados LoCoMo, o que é matematicamente impossível

Teste prático por utilizadores do GitHub; componentes de desinformação no benchmark

O utilizador do GitHub hugooconnor comentou após testes reais: quando o MemPalace alega ter até 96,6% de precisão de recuperação, na prática não utiliza de todo a arquitetura de “memórias-palácio” que a plataforma promove. hugooconnor afirma que os seus testes apenas chamaram a funcionalidade predefinida da base de dados subjacente ChromaDB, sem envolver qualquer lógica de classificação das “alas”, “salas” ou “gavetas” que o projeto enfatiza.

Após testar, o hugooconnor descobriu que quando o sistema realmente ativa a lógica de classificação exclusiva dessas “memórias-palácio”, o desempenho de recuperação piora. Por exemplo, no modo de salas, a precisão cai para 89,4%; e após ativar a tecnologia de compressão AAAK, a precisão desce ainda mais para 84,2%, ambos inferiores ao desempenho da base de dados predefinida.

hugooconnor também criticou o método de teste: o ambiente de teste do MemPalace reduz deliberadamente o intervalo de recuperação de cada questão para cerca de 50 etapas de diálogo, tornando demasiado simples encontrar respostas num conjunto de amostras extremamente pequeno.

Se expandir o intervalo para mais de 19.000 etapas de diálogo em cenários reais, a precisão da pesquisa tradicional por palavras-chave desce para 30%, mostrando que o método de teste atual do MemPalace esconde o verdadeiro problema de pesquisa.

Fonte da imagem: GitHub Utilizadores do GitHub testam na prática; o benchmark do MemPalace tem componentes de desinformação

Ao mesmo tempo, embora a equipa de desenvolvimento tenha publicado uma declaração de retificação, reconhecendo que a tecnologia AAAK foi realmente validada como compressão com perdas, e se tenha comprometido a corrigir as explicações nos documentos e no desenho do sistema com base nas críticas severas da comunidade. Ainda assim, o documento principal de apresentação do projeto mantém várias afirmações exageradas não corrigidas, incluindo alegações de compressão sem perdas 30 vezes e aumento de recuperação de 34%, e também as tabelas e gráficos de comparação com outros concorrentes não apresentam completamente qualquer fonte.

O código-fonte do MemPalace enfrenta vários bugs

Com o aumento do número de programadores a descarregar os testes, apareceram no GitHub muitos relatórios de bugs sobre o código-fonte do MemPalace.

O utilizador cktang88 listou várias falhas graves, incluindo que o comando de compressão não consegue funcionar e causa a queda do sistema, erros na lógica de contagem do número de palavras do resumo, e estatísticas imprecisas ao “escavar” as salas, bem como o facto de o servidor carregar todas as interpretações dos dados para a memória sempre que é chamado, causando um problema sério de consumo de recursos.

Outros problemas apontados incluem também o sistema gravar à força os nomes de familiares dos programadores nos ficheiros de configuração predefinidos, e a existência de um limite máximo forçado de exibição de 10k registos ao verificar o estado.

Para estes problemas, a comunidade open source já começou a repará-los ativamente. O utilizador adv3nt3 enviou váriassolicitaçõesde correção, incluindo a correção dos dados estatísticos do “escavar”, a remoção dos nomes predefinidos de familiares e o adiamento do tempo de inicialização do gráfico de conhecimento. A equipa de desenvolvimento também reconheceu posteriormente estes erros, e está a resolver gradualmente os problemas de código com a colaboração da comunidade.

O “Vibe Coding” da Milla Jovovich é fixe; a forma de marketing não é fixe

Quanto ao projeto MemPalace, um utilizador do Hacker News, darkhanakh, chegou a esta conclusão: o MemPalace dá a sensação de “OpenClaw”, ou seja, manipula artificialmente os resultados do benchmark para parecer impecável, e depois embala tudo como se fosse algum grande avanço para vender o produto.

Ele acredita que a tecnologia subjacente do MemPalace pode de facto ser interessante, mas, com falhas desse tipo no método de teste, ainda assim fazer a promoção com “a pontuação pública mais alta de sempre” é, no mínimo, pouco adequado; “mas, no que toca a a Milla Jovovich estar a brincar a Vibe Coding, eu acho que ainda assim é bastante fixe.”

Leitura adicional:
A IA ao escrever código deu para o torto! A app “Caçador de Salvação” de produtos com validade de supermercado revelou problemas de segurança na informação; o GPS em casa ficou todo a céu aberto

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário