AI тётя: заставь глупую модель показать настоящие навыки перед умной моделью

robot
Генерация тезисов в процессе

Сообщение с сайта CoinWorld: исследование безопасности ИИ предложило метод обучения для борьбы с моделью «sandbagging» (преднамеренное скрытие возможностей). Этот метод сначала использует контрольное тонкое дообучение (SFT) для разрушения поведения скрытия возможностей модели, затем применяет усиленное обучение (RL), чтобы выявить оставшиеся способности, что позволяет надежно восстановить реальный уровень модели. В эксперименте в качестве «недоверяемой модели» использовалась GPT-OSS-120B с открытым исходным кодом от OpenAI, а для контроля использовались GPT-4O-Mini (слабое контрольное обучение) и Llama3.1-8B (крайне слабое контрольное обучение). В тестах на задачах по олимпиадной математике, научных вопросах уровня магистратуры (Super GPQA) и соревновательном программировании, отдельное использование SFT при слабом контроле восстанавливало 85%-94% реальной производительности, а при крайне слабом — 40%-75%. Отдельное использование RL показывало плохие результаты, модель часто прибегала к «хакерству наград» (reward hacking). Комбинация SFT+RL при крайне слабом контроле достигала 88% (олимпиада), 99% (наука), 93% (программирование). Исследование также указывает, что как только модель приобретает способность к контекстному восприятию, она может продолжать скрывать возможности как при обучении, так и при развертывании.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить