اقترحت ستانفورد وباركلي نموذج LLM كمُحقق، مع تحديث مراكز الصدارة في لوحتي Terminal-Bench وSWE-Bench

MeNews · 2026-04-14T13:40:17+00:00

مختبرات ستانفورد وبركلي تتعاون مع شركة إنفيديا لتقديم LLM-as-a-Verifier، من خلال تحليل توزيع احتمالات التقييم والتقييمات المتعددة، نجحوا في تحسين دقة اختيار الحلول لوكيل البرمجة الذكي. أظهرت التجارب أن الموثق (Verifier) يتفوق على القاضي التقليدي في التقييم، مع زيادة ملحوظة في معدل النجاح، وأن الإطار مفتوح المصدر بالفعل.

MeNews

2026-04-14 13:40:17

إنشاء الملخص قيد التقدم

أخبار ME، في 14 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 1M AI News، عند معالجة وكيل البرمجة بالذكاء الاصطناعي لمهمة واحدة، فإن تشغيله عدة مرات غالبًا ما يؤدي إلى حلول مختلفة، وقد يكون بعضها خاطئًا. إذا أمكن اختيار الأفضل تلقائيًا، فإن معدل النجاح الإجمالي يمكن أن يتجاوز التشغيل مرة واحدة. المشكلة هي كيفية الاختيار: أن يجعل نموذج آخر الحكم كحكم (أي LLM-as-a-Judge) هو النهج السائد حاليًا، لكن دقة التقييم تكون عامة جدًا، وغالبًا ما يمنح حلولًا مختلفة نفس الدرجة، مما يصعب التمييز بين الأفضل والأقل. اقترحت مختبرات ستانفورد للذكاء الاصطناعي ومختبر سكاي كومبيوتينج بجامعة بيركلي بالتعاون مع شركة نيفيديا نظام LLM-as-a-Verifier، الذي يحسن عملية الاختيار هذه. لم يعد يعتمد فقط على الدرجة النهائية التي يمنحها الحكم، بل يقرأ توزيع الاحتمالات لكل مستوى تقييم، ويحسب منه قيمة مكافأة مستمرة. كما يكرر الحكم عدة مرات ويأخذ المتوسط لإزالة الانحياز العشوائي، ويقسم التقييم الكلي إلى ثلاثة أبعاد مستقلة (هل يلبي متطلبات المهمة، هل تنسيق الإخراج صحيح، هل هناك إشارات خطأ) للتحقق منها بشكل منفصل. في التجارب، استخدموا Gemini 2.5 Flash كمحقق، وكانت دقة التحقق مرة واحدة 74.7%، مقابل 57.0% للحكم التقليدي؛ بعد تكرار 16 مرة، وصل Verifier إلى 77.4%، مقابل 70.2% للحكم. كان لدى الحكم التقليدي نسبة 26.5% من الحالات التي انتهت بالتعادل، بينما كانت نسبة التعادل في جميع إعدادات Verifier صفرًا. النتائج الفعلية: على منصة Terminal-Bench 2، عند تشغيل GPT-5.4 خمس مرات لنفس المهمة، كانت نسبة النجاح عند اختيار عشوائي 81.8%، وترقية إلى 86.4% بعد الاختيار باستخدام Verifier. على منصة SWE-Bench Verified، من خلال اختيار حل واحد من Claude Opus 4.5، وClaude Opus 4.6، وGemini 3 Flash (مجموع 3 حلول)، زادت نسبة النجاح من 76.1% إلى 77.8%. حتى إصدار 9 أبريل، كانت كلا النتيجتين في المركز الأول. الإطار مفتوح المصدر. (المصدر: BlockBeats)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
WCTCTradingChallengeShare8MUSDT
662.15K درجة الشعبية
#
Gate13thAnniversary
347.7K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
29.67K درجة الشعبية
#
GoldmanSachsFilesBitcoinIncomeETF
764.45K درجة الشعبية
#
USBlocksStraitofHormuz
736.28K درجة الشعبية

تثبيت

خريطة الموقع

اقترحت ستانفورد وباركلي نموذج LLM كمُحقق، مع تحديث مراكز الصدارة في لوحتي Terminal-Bench وSWE-Bench

المواضيع الرائجة

WCTCTradingChallengeShare8MUSDT

Gate13thAnniversary

IsraelStrikesIranBTCPlunges

GoldmanSachsFilesBitcoinIncomeETF

USBlocksStraitofHormuz

تثبيت