Gate News notícia, em 25 de março, o mantenedor do benchmark SWE-rebench, Ibragim, anunciou a atualização da classificação em 23 de março. O SWE-rebench é um benchmark em tempo real que extrai mensalmente novas tarefas de engenharia de software do GitHub, sem otimização prévia para os modelos. Nesta atualização, foram removidos os exemplos de demonstração anteriores e a limitação de 80 passos, além de serem adicionadas tarefas de avaliação auxiliar.
Classificação dos dez melhores: 1. Claude Opus 4.6 (65,3%); 2. GPT-5.2 medium (64,4%); 3. GLM-5 (62,8%); 4. GPT-5.4 medium (62,8%); 5. Gemini 3.1 Pro Preview (62,3%); 6. DeepSeek-V3.2 (60,9%); 7. Claude Sonnet 4.6 (60,7%); 8. Claude Sonnet 4.5 (60,0%); 9. Qwen3.5-397B-A17B (59,9%); 10. Step-3.5-Flash (59,6%).
O modelo de código aberto da Zhipu AI, GLM-5 (licença MIT), ficou em terceiro lugar com 62,8%, sendo o modelo de código aberto mais bem classificado. Quatro modelos chineses estão entre os dez primeiros, além do GLM-5, incluindo DeepSeek-V3.2 (sexto lugar), Qwen3.5-397B-A17B da Alibaba (nono) e Step-3.5-Flash (décimo). Li Zixuan, responsável global da Z.ai, afirmou que na última atualização do SWE-rebench, todos os modelos chineses ficaram fora do top dez.