ARC-AGI-3 объявил о самом масштабном тесте человека в истории: все уровни были пройдены человеком, у ИИ всё ещё есть пробелы

robot
Генерация тезисов в процессе

МЕ Новости, 15 апреля (UTC+8), по данным мониторинга 动察Beating, Фонд ARC Prize опубликовал набор данных о человеческих результатах ARC-AGI-3, который является крупнейшим исследованием тестирования человека в серии ARC-AGI на сегодняшний день, с участием 458 человек. Набор данных содержит 342 полных записи воспроизведения человеческих действий, охватывающих 25 публичных окружений, все открыты для общего доступа. ARC-AGI-3 включает 135 абстрактных сред для логического мышления, тестируемым не предоставляются инструкции по игре, им нужно самостоятельно исследовать, делать выводы о правилах и разрабатывать стратегии. Тестирование проводится в офлайн-центре в Сан-Франциско, продолжительностью 90 минут, участники получают базовую оплату около 130 долларов и по 5 долларов за каждое успешно пройденное окружение. Все тесты проводятся при условии «первого прохождения», то есть каждый участник видит задачу один раз и пытается пройти ее один раз, оценивая способность к обучению и адаптации при столкновении с новыми задачами. Человеческая и AI-участники получают одинаковую информацию, без каких-либо информационных преимуществ. Основной вывод: все окружения ARC-AGI-3 были пройдены людьми, по крайней мере двумя независимыми участниками каждое, большинство окружений — более пяти. Фонд ARC Prize заявил: «Мы еще не достигли AGI, и этот набор данных — тому доказательство». С момента предварительного просмотра ARC-AGI-3 было получено почти 1 миллион оценочных submissions AI в открытых окружениях. На основе этих данных фонд объявил о двух изменениях в правилах оценки: во-первых, заменить человеческий эталон с «второго лучшего игрока» на «медианного игрока», чтобы снизить влияние удачи на результат; во-вторых, повысить лимит очков за один уровень с 100% до 115%, чтобы избежать снижения общего результата из-за плохого прохождения одного уровня. Общий эффект этих изменений — небольшое повышение результатов как у людей, так и у AI примерно на 0,5 процентных пункта. (Источник: BlockBeats)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить