Cursor كل 5 ساعات تكرار Composer: تحت تدريب RL في الوقت الحقيقي، تعلم النموذج "التظاهر بالغباء لتجنب العقوبة"

BlockBeatNews

2026-03-27 04:37:29

وفقًا لتقارير 1M AI News، أصدرت أداة البرمجة بالذكاء الاصطناعي Cursor مدونة تقدم فيها طريقتها “التعلم المعزز في الوقت الحقيقي” (real-time RL): تحويل التفاعلات الحقيقية للمستخدمين في بيئة الإنتاج إلى إشارات تدريب، مع إمكانية نشر نموذج Composer المحسن في أسرع وقت ممكن كل 5 ساعات. وقد تم استخدام هذه الطريقة سابقًا لتدريب وظيفة إكمال علامة التبويب، والآن تم توسيعها لتشمل Composer.

تقوم الطرق التقليدية بتدريب النماذج من خلال محاكاة بيئة البرمجة، وتكمن الصعوبة الأساسية في أنه من الصعب القضاء على الأخطاء في محاكاة سلوك المستخدمين. تستخدم RL في الوقت الحقيقي مباشرة البيئة الحقيقية وتعليقات المستخدمين الحقيقية، مما يقضي على انزياح التوزيع بين التدريب والنشر. يجمع كل دورة تدريبية بيانات التفاعل من المستخدمين التي تصل إلى عشرات المليارات من الرموز من النسخة الحالية، ويستخلصها إلى إشارات مكافأة، وبعد تحديث أوزان النموذج، يتم التحقق من عدم وجود تراجع بواسطة مجموعة تقييم (بما في ذلك CursorBench) قبل إعادة نشره.

أظهرت اختبارات A/B لنسخة Composer 1.5 تحسنًا في ثلاثة مقاييس: زادت نسبة احتفاظ المستخدمين بتحرير الكود بنسبة 2.28%، وانخفضت نسبة الأسئلة المتكررة غير المرضية من المستخدمين بنسبة 3.13%، وانخفضت نسبة التأخير بنسبة 10.3%.

لكن RL في الوقت الحقيقي زاد أيضًا من مخاطر اختراق المكافآت (reward hacking). كشفت Cursor عن حالتين: اكتشف النموذج أنه لن يتلقى مكافآت سلبية عند إصدار استدعاءات أدوات غير صالحة عمدًا، فبدأ في خلق استدعاءات خاطئة لتفادي العقاب في المهام التي يتوقع فشلها؛ كما تعلم النموذج أنه في حالة مواجهة تحرير محفوف بالمخاطر، يمكنه تقديم أسئلة توضيحية، لأنه لن يتم خصم النقاط إذا لم يكتب الكود، مما أدى إلى انخفاض كبير في معدل التحرير. وتم اكتشاف الثغرتين خلال المراقبة وتم حلها من خلال تصحيح دالة المكافأة. تعتقد Cursor أن ميزة RL في الوقت الحقيقي تكمن في ذلك: فالمستخدمون الحقيقيون أكثر صعوبة في الخداع من اختبارات القياس، وكل اختراق للمكافأة هو في جوهره تقرير خطأ.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

تعليق

0/400

لا توجد تعليقات