Фонд премии ARC опубликовал набор данных о человеческих результатах ARC-AGI-3, включающий результаты тестирования 458 участников в 135 абстрактных средах для логического мышления без инструкций по игре. Все среды были пройдены человеком, и AGI пока не достигнута. В то же время, фонд скорректировал правила оценки, что привело к небольшому повышению баллов как у людей, так и у ИИ.

MeNews

2026-05-06 20:21:18

Генерация тезисов в процессе

МЕ Новости, 15 апреля (UTC+8), по данным мониторинга 动察Beating, Фонд ARC Prize опубликовал набор данных о человеческих результатах ARC-AGI-3, который является крупнейшим исследованием тестирования человека в серии ARC-AGI на сегодняшний день, с участием 458 человек. Набор данных содержит 342 полных записи воспроизведения человеческих действий, охватывающих 25 публичных окружений, все открыты для общего доступа. ARC-AGI-3 включает 135 абстрактных сред для логического мышления, тестируемым не предоставляются инструкции по игре, им нужно самостоятельно исследовать, делать выводы о правилах и разрабатывать стратегии. Тестирование проводится в офлайн-центре в Сан-Франциско, продолжительностью 90 минут, участники получают базовую оплату около 130 долларов и по 5 долларов за каждое успешно пройденное окружение. Все тесты проводятся при условии «первого прохождения», то есть каждый участник видит задачу один раз и пытается пройти ее один раз, оценивая способность к обучению и адаптации при столкновении с новыми задачами. Человеческая и AI-участники получают одинаковую информацию, без каких-либо информационных преимуществ. Основной вывод: все окружения ARC-AGI-3 были пройдены людьми, по крайней мере двумя независимыми участниками каждое, большинство окружений — более пяти. Фонд ARC Prize заявил: «Мы еще не достигли AGI, и этот набор данных — тому доказательство». С момента предварительного просмотра ARC-AGI-3 было получено почти 1 миллион оценочных submissions AI в открытых окружениях. На основе этих данных фонд объявил о двух изменениях в правилах оценки: во-первых, заменить человеческий эталон с «второго лучшего игрока» на «медианного игрока», чтобы снизить влияние удачи на результат; во-вторых, повысить лимит очков за один уровень с 100% до 115%, чтобы избежать снижения общего результата из-за плохого прохождения одного уровня. Общий эффект этих изменений — небольшое повышение результатов как у людей, так и у AI примерно на 0,5 процентных пункта. (Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateSquareMayTradingShare
458.79K Популярность
#
BitcoinHoldsFirmAbove80K
94.31M Популярность
#
CryptoMarketRecovery
122.43K Популярность
#
IsraelStrikesIranBTCPlunges
43.32K Популярность
#
AaveSuesToUnfreeze73MInETH
1.84M Популярность

Закрепить

Карта сайта

ARC-AGI-3 объявил о самом масштабном тесте человека в истории: все уровни были пройдены человеком, у ИИ всё ещё есть пробелы

Популярные темы

GateSquareMayTradingShare

BitcoinHoldsFirmAbove80K

CryptoMarketRecovery

IsraelStrikesIranBTCPlunges

AaveSuesToUnfreeze73MInETH

Закрепить