SWE-rebench Ranking mais recente: Modelos de IA chineses ocupam os primeiros catorze lugares, GLM-5 é o terceiro classificado

Gate News notícia, em 25 de março, o mantenedor do benchmark SWE-rebench, Ibragim, anunciou a atualização da classificação em 23 de março. O SWE-rebench é um benchmark em tempo real que extrai mensalmente novas tarefas de engenharia de software do GitHub, sem otimização prévia para os modelos. Nesta atualização, foram removidos os exemplos de demonstração anteriores e a limitação de 80 passos, além de serem adicionadas tarefas de avaliação auxiliar.

Classificação dos dez melhores: 1. Claude Opus 4.6 (65,3%); 2. GPT-5.2 medium (64,4%); 3. GLM-5 (62,8%); 4. GPT-5.4 medium (62,8%); 5. Gemini 3.1 Pro Preview (62,3%); 6. DeepSeek-V3.2 (60,9%); 7. Claude Sonnet 4.6 (60,7%); 8. Claude Sonnet 4.5 (60,0%); 9. Qwen3.5-397B-A17B (59,9%); 10. Step-3.5-Flash (59,6%).

O modelo de código aberto da Zhipu AI, GLM-5 (licença MIT), ficou em terceiro lugar com 62,8%, sendo o modelo de código aberto mais bem classificado. Quatro modelos chineses estão entre os dez primeiros, além do GLM-5, incluindo DeepSeek-V3.2 (sexto lugar), Qwen3.5-397B-A17B da Alibaba (nono) e Step-3.5-Flash (décimo). Li Zixuan, responsável global da Z.ai, afirmou que na última atualização do SWE-rebench, todos os modelos chineses ficaram fora do top dez.

Ver original
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário