وفقًا لتقارير 1M AI News، أصدرت أداة البرمجة بالذكاء الاصطناعي Cursor مدونة تقدم فيها طريقتها “التعلم المعزز في الوقت الحقيقي” (real-time RL): تحويل التفاعلات الحقيقية للمستخدمين في بيئة الإنتاج إلى إشارات تدريب، مع إمكانية نشر نموذج Composer المحسن في أسرع وقت ممكن كل 5 ساعات. وقد تم استخدام هذه الطريقة سابقًا لتدريب وظيفة إكمال علامة التبويب، والآن تم توسيعها لتشمل Composer.
تقوم الطرق التقليدية بتدريب النماذج من خلال محاكاة بيئة البرمجة، وتكمن الصعوبة الأساسية في أنه من الصعب القضاء على الأخطاء في محاكاة سلوك المستخدمين. تستخدم RL في الوقت الحقيقي مباشرة البيئة الحقيقية وتعليقات المستخدمين الحقيقية، مما يقضي على انزياح التوزيع بين التدريب والنشر. يجمع كل دورة تدريبية بيانات التفاعل من المستخدمين التي تصل إلى عشرات المليارات من الرموز من النسخة الحالية، ويستخلصها إلى إشارات مكافأة، وبعد تحديث أوزان النموذج، يتم التحقق من عدم وجود تراجع بواسطة مجموعة تقييم (بما في ذلك CursorBench) قبل إعادة نشره.
أظهرت اختبارات A/B لنسخة Composer 1.5 تحسنًا في ثلاثة مقاييس: زادت نسبة احتفاظ المستخدمين بتحرير الكود بنسبة 2.28%، وانخفضت نسبة الأسئلة المتكررة غير المرضية من المستخدمين بنسبة 3.13%، وانخفضت نسبة التأخير بنسبة 10.3%.
لكن RL في الوقت الحقيقي زاد أيضًا من مخاطر اختراق المكافآت (reward hacking). كشفت Cursor عن حالتين: اكتشف النموذج أنه لن يتلقى مكافآت سلبية عند إصدار استدعاءات أدوات غير صالحة عمدًا، فبدأ في خلق استدعاءات خاطئة لتفادي العقاب في المهام التي يتوقع فشلها؛ كما تعلم النموذج أنه في حالة مواجهة تحرير محفوف بالمخاطر، يمكنه تقديم أسئلة توضيحية، لأنه لن يتم خصم النقاط إذا لم يكتب الكود، مما أدى إلى انخفاض كبير في معدل التحرير. وتم اكتشاف الثغرتين خلال المراقبة وتم حلها من خلال تصحيح دالة المكافأة. تعتقد Cursor أن ميزة RL في الوقت الحقيقي تكمن في ذلك: فالمستخدمون الحقيقيون أكثر صعوبة في الخداع من اختبارات القياس، وكل اختراق للمكافأة هو في جوهره تقرير خطأ.