قائمة SWE-rebench الأحدث: نماذج الذكاء الاصطناعي الصينية تحتل المراكز الأربعة عشرة الأولى، GLM-5 يحتل المركز الثالث

أخبار Gate، في 25 مارس، أعلن Ibragim، صيانة اختبار المعايير SWE-rebench، عن تحديث التصنيف في 23 مارس. يُعد SWE-rebench اختبارًا مرجعيًا حيًا يُستمد شهريًا من GitHub لمهام هندسة البرمجيات الجديدة، ولا يمكن للنموذج تحسين أدائه مسبقًا بناءً على الأسئلة. في هذا التحديث، تم إلغاء العروض التوضيحية السابقة وقيود العمليات البالغ عددها 80 خطوة، مع إضافة مهام تقييم مساعدة جديدة.

أعلى عشرة تصنيفات حديثة: 1. Claude Opus 4.6 (65.3%)؛ 2. GPT-5.2 medium (64.4%)؛ 3. GLM-5 (62.8%)؛ 4. GPT-5.4 medium (62.8%)؛ 5. Gemini 3.1 Pro Preview (62.3%)؛ 6. DeepSeek-V3.2 (60.9%)؛ 7. Claude Sonnet 4.6 (60.7%)؛ 8. Claude Sonnet 4.5 (60.0%)؛ 9. Qwen3.5-397B-A17B (59.9%)؛ 10. Step-3.5-Flash (59.6%).

يحتل النموذج المفتوح المصدر من Zhizhi AI، GLM-5 (بترخيص MIT)، المركز الثالث بنسبة 62.8%، وهو أعلى نموذج مفتوح المصدر في التصنيف. تشغل النماذج الصينية أربعة مراكز من بين العشرة الأوائل، بالإضافة إلى GLM-5، هناك DeepSeek-V3.2 (المركز السادس)، Qwen3.5-397B-A17B من Alibaba (المركز التاسع)، وStep-3.5-Flash (المركز العاشر). قال لي زيوكسوان، المسؤول العالمي عن Zhizhi Z.ai، إنه في آخر تحديث لـ SWE-rebench، كانت جميع النماذج الصينية خارج العشرة الأوائل.

شاهد النسخة الأصلية
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات