OpenAI редкий случай опубликовала статью: мы нашли виновника иллюзий ИИ

Какой самый известный баг ИИ? Это не сбой кода, а «галлюцинации» — модель с уверенностью выдумывает факты, заставляя вас сомневаться в том, что правда, а что ложь. Эта основополагающая проблема является ключевым барьером, мешающим нам полностью доверять ИИ.

Большие модели могут заблуждаться, и это почти стало общим местом, заставляя каждого, кто серьезно использует большие модели, быть осторожным. OpenAI также отметила: «ChatGPT также может создавать заблуждения. У GPT-5 заблуждений явно меньше, особенно при выполнении рассуждений, но они все равно могут происходить. Заблуждения по-прежнему представляют собой одну из основных проблем, с которыми сталкиваются все большие языковые модели.»

Несмотря на то, что в настоящее время в академических кругах предложено множество различных методов для снижения иллюзий модели, до сих пор не найдено лекарства, которое могло бы полностью «излечить» иллюзии модели.

Итак, почему большие модели на самом деле проявляют галлюцинации? Сегодня OpenAI редко опубликовала статью, систематически раскрывающую причины галлюцинаций.

Во-первых, определим иллюзию. Простое определение, данное OpenAI, звучит так: «ситуация, когда модель уверенно генерирует неистинные ответы.»

Что касается причин, то кратко можно сказать следующее: стандартные процедуры обучения и оценки больше склонны вознаграждать за догадки, а не вознаграждать модель за смелость признавать неопределенность.

!

  • Заголовок статьи: Почему языковые модели галлюцинируют
  • Адрес статьи:

Теперь давайте конкретно посмотрим, что же на самом деле обнаружил OpenAI.

Что такое иллюзия?

Иллюзии - это кажущиеся разумными, но на самом деле ошибочные утверждения, сгенерированные языковой моделью.

Даже на простые на вид вопросы могут быть даны неожиданные ответы. OpenAI привел пример, когда различные широко используемые чат-боты уверенно предоставили три разных ответа на вопрос о заглавии диссертации Адама Таумана Калаи (первого автора статьи), но ни один из них не оказался правильным.

!

Когда его спросили о дне рождения, он назвал три разные даты, все они были неправильными.

!

Учиться для тестирования

OpenAI заявила, что галлюцинации продолжают существовать, отчасти потому, что текущие методы оценки устанавливают неверные стимулы. Хотя сама оценка не приводит напрямую к галлюцинациям, большинство способов оценки производительности моделей поощряет модели к угадыванию, а не к честному признанию неопределенности.

Можно представить это как тест с множественным выбором. Если вы не знаете ответа, но просто догадываетесь, вы можете удачно угадать. Если оставить пустым, то вы обязательно получите ноль. Точно так же, когда модель оценивается только по точности (то есть по проценту полностью правильных ответов), они будут поощряться к догадкам, а не к признанию «Я не знаю».

Еще один пример: предположим, что языковую модель спрашивают о дне рождения кого-то, но она этого не знает. Если она угадает «10 сентября», то у нее 1/365 шанса угадать правильно. Сказав «я не знаю», она точно получит ноль баллов. За тысячи тестовых заданий модели, делающие предположения, в конечном итоге показывают лучшее выступление на табло, чем осторожные модели, признающие неопределенность.

Для вопросов с только одним «правильным ответом» можно рассмотреть три типа ответов: точный ответ, неправильный ответ и отказ от ответа, к которому модель не хочет рисковать.

OpenAI заявляет, что отказ от ответа является частью показателя скромности (humility), а скромность является одной из основных ценностей OpenAI.

Большинство показателей точности ставят модели в приоритет по точности, но неправильные ответы хуже, чем отказ от ответа. Спецификация моделей OpenAI указывает, что лучше указывать на неопределенность или запрашивать разъяснения, чем уверенно предоставлять потенциально неверную информацию.

В качестве примера оценки SimpleQA в системе карты GPT5.

!

В плане точности более ранняя модель OpenAI o4-mini показала немного лучшие результаты. Однако, ее уровень ошибок (то есть уровень иллюзий) значительно выше. Стратегические догадки в условиях неопределенности могут повысить точность, но также увеличивают количество ошибок и иллюзий.

При усреднении результатов десятков оценок большинство бенчмарков исключают показатель точности, но это приводит к ошибочному делению на правильное и неправильное.

!

В таких простых оценках, как SimpleQA, точность некоторых моделей близка к 100%, что устраняет иллюзии. Однако в более сложных оценках и реальном использовании точность будет фиксироваться ниже 100%, поскольку ответы на некоторые вопросы не могут быть определены по различным причинам (например, отсутствие информации, ограниченные когнитивные способности малых моделей или необходимость разъяснения двусмысленностей).

Тем не менее, оценочные показатели, которые измеряются только по точности, по-прежнему занимают доминирующее положение в рейтингах и карточках моделей, что побуждает разработчиков создавать модели, которые могут предполагать, а не отступать.

Именно поэтому, даже если модели становятся более продвинутыми, они все равно будут создавать иллюзии. Одна из причин заключается в том, что они склонны уверенно давать неправильные ответы, а не признавать неопределенность.

Более эффективные методы оценки

На это OpenAI указал на простое решение: наказание за уверенные ошибки (confidential error) должно быть больше, чем наказание за неопределенность, и следует частично поощрять правильное выражение неопределенности.

Эта идея не нова. Некоторые стандартизированные тесты долгое время использовали методы негативного оценивания неправильных ответов или частичного начисления баллов за пропущенные вопросы, чтобы предотвратить слепое угадывание. Некоторые исследовательские группы также исследовали методы оценки, учитывающие неопределенность и калибровку.

Но OpenAI заявила, что просто добавление некоторых новых тестов на восприятие неопределенности недостаточно. Широко используемые методы оценки, основанные на точности, необходимо обновить, чтобы их оценки могли предотвратить угадывание.

Если основные оценочные показатели по-прежнему продолжают вознаграждать удачные предположения модели, модель будет продолжать учиться делать предположения. Изменение оценочных показателей может расширить диапазон применения технологий снижения иллюзий, включая новые и ранее разработанные технологии.

Как иллюзии возникают из предсказания следующего слова

Мы уже обсуждали, почему иллюзии так трудно преодолеть, но откуда берутся эти высокоспецифические фактические ошибки?

В конце концов, крупные предобученные модели редко совершают ошибки других типов, такие как орфографические ошибки и несоответствие скобок.

OpenAI заявляет, что различия определяются теми паттернами, которые присутствуют в данных.

Языковая модель сначала обучается посредством предобучения, что является процессом предсказания следующего слова в огромном объеме текста.

В отличие от традиционных задач машинного обучения, каждое утверждение не имеет метки «истина / ложь». Модель видит только положительные примеры плавного языка и должна приближаться к общей распределённости.

Когда нет никаких примеров, помеченных как недействительные, различать действительные и недействительные утверждения становится сложнее. Но даже с метками некоторые ошибки неизбежны.

Чтобы понять причину, можно рассмотреть более простую аналогию. В распознавании изображений, если миллионы фотографий кошек и собак помечены как «кошка» или «собака», алгоритм может научиться надежно их классифицировать. Но представьте, если бы для каждой фотографии питомца использовалась дата рождения питомца. Поскольку день рождения по своей сути случайный, сколько бы продвинутым ни был алгоритм, эта задача всегда будет приводить к ошибкам.

Те же принципы также применимы к предварительному обучению. Орфография и скобки следуют согласованной модели, поэтому эти ошибки исчезают с увеличением масштаба. Но произвольные редкие факты, такие как день рождения питомца, не могут быть предсказаны только на основе модели, что приводит к галлюцинациям.

Анализ OpenAI объясняет, какие типы иллюзий могут возникнуть при предсказании следующего слова. В идеале последующие этапы после предобучения должны были бы устранить эти иллюзии, но, как было описано в предыдущем разделе, это не было полностью достигнуто.

Итог

OpenAI заявляет: «Мы надеемся, что статистическая перспектива в этой статье сможет прояснить суть иллюзий и опровергнуть некоторые распространенные заблуждения»:

Некоторые утверждают, что галлюцинации можно устранить, повысив точность, потому что модель с 100% точностью никогда не будет генерировать галлюцинации.

Обнаружено: точность никогда не достигнет 100%, потому что, независимо от масштаба модели, возможностей поиска и вывода, некоторые проблемы реального мира по своей сути невозможно решить.

Некоторые утверждают, что иллюзии неизбежны.

Обнаружение: иллюзии не являются неизбежными, поскольку языковые модели могут отказаться от ответа в условиях неопределенности.

Некоторые утверждают, что для избежания иллюзий требуется определенная степень интеллекта, и только крупные модели могут это обеспечить.

Обнаружено: малые модели легче понимают свои ограничения. Например, когда их просят ответить на вопрос на маорийском языке, маленькая модель, не знающая маорийского, может прямо ответить «Я не знаю», в то время как модель, знающая немного маорийского, должна определить свою уверенность. Как обсуждается в статье, объем вычислений, необходимый для «калибровки», значительно меньше, чем для поддержания точности.

Некоторые утверждают: галлюцинации — это загадочный недостаток современных языковых моделей.

Обнаружено: мы можем понять механизмы статистики, которые приводят к возникновению иллюзий и получению вознаграждений в оценках.

Некоторые утверждают: чтобы измерить иллюзию, нам просто нужно хорошее оценивание иллюзий.

Обнаружено: некоторые исследователи уже опубликовали оценки иллюзий. Однако хорошая оценка иллюзий почти не эффективна по сравнению с сотнями традиционных оценок на основе точности, которые наказывают за скромность и вознаграждают за догадки. Напротив, все основные показатели оценки необходимо переосмыслить, чтобы вознаграждать за выражение неопределенности.

OpenAI заявляет: «У нашей последней модели более низкий уровень иллюзий, и мы будем продолжать работать над тем, чтобы еще больше снизить уровень доверительных ошибок в выводах языковой модели.»

Кстати, согласно сообщению TechCrunch, OpenAI реорганизует свою команду по моделям поведения (Model Behavior), которая состоит из небольшой, но влиятельной группы исследователей, определяющих, как AI-модели компании взаимодействуют с людьми. Теперь эта команда будет подчиняться Максу Шварцеру, начальнику послеподготовки OpenAI.

Основатель команды Джоанн Чанг запустит в компании новый проект под названием oai Labs. Согласно её твиту: «Это команда, ориентированная на исследования, которая сосредоточена на изобретении и проектировании новых интерфейсных прототипов для сотрудничества людей с ИИ.»

!

GPT-0.58%
WHY-3.02%
MAX-0.56%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить