Те молодые люди из маленьких городов, которые маркируют большие модели ИИ

Автор: Sleepy.md

Шаньси Датун — город, который когда-то поддерживал половину экономики за счёт угля, — сегодня стряхивает с себя угольную пыль, меняет острый лом и тяжело обрушивает удар на другую, невидимую, шахту.

В офисных зданиях центра Цзиньмао в районе Пинчэн больше нет подъёмных шахтных стволов, больше нет грузовиков для перевозки угля. Вместо этого — тысячи компьютерных рабочих мест, плотно выстроенных в ряд. База больших данных и умных сервисов Shanghai Runxun Cloud Zhong Shenggu занимает целиком несколько этажей: тысячи молодых сотрудников в наушниках смотрят в экраны, кликают, перетаскивают, обводят рамками.

Согласно официальным данным, по состоянию на ноябрь 2025 года Датун уже ввёл в эксплуатацию 745 000 серверов, привлёк 69 компаний по обработке и разметке данных для звонков, обеспечив трудоустройство рядом с местом жительства для более чем 30 000 человеко-выездов. Объём выпуска — 750 миллионов юаней. В этой цифровой яме, где добывают цифры, 94% занятых имеют местную регистрацию по месту жительства.

Речь не только о Датуне. В числе первых баз разметки данных, утверждённых Национальным управлением по данным, отчётливо фигурируют уезды и города центрально-западного региона: Юнхэ (провинция Шаньси), Бицзе (провинция Гуйчжоу), Мэнцзы (провинция Юньнань) и т. п. В базе разметки данных в Юнхэ 80% сотрудников — женщины. В основном это сельские мамы, либо молодые люди, вернувшиеся в родные места, потому что не нашли подходящую работу.

Сто лет назад на текстильной фабрике в Манчестере в Британии были набиты крестьяне, лишившиеся земли. А сегодня за экранами компьютеров в этих удалённых уездах сидят молодые люди, которым не нашлось места в реальном секторе экономики.

Они занимаются работой поштучной оплате — одновременно крайне футуристичной по форме и крайне первобытной по сути — производя те данные, которые нужны ИИ-гигантам из Пекина, Шэньчжэня и Силиконовой долины для производства больших моделей.

Никто не считает, что в этом есть проблема.

Новая сборочная линия на Лёссовом плато

Суть разметки данных — научить машины распознавать мир.

Для автономного вождения нужно распознавать светофоры и пешеходов, для больших моделей — уметь отличать кошку от собаки. У самой машины нет здравого смысла, поэтому человек сначала должен на изображении нарисовать рамку и сказать: «Это пешеход», — и лишь после того, как машина проглотит миллионы картинок, она научится распознавать сама.

Этой работе не требуется высшее образование — нужна только терпеливость и указательный палец, способный непрерывно нажимать.

В «золотую эпоху» 2017 года простой 2D-кадр стоил больше десятицента, даже находились компании, предлагавшие цену в 5 цзяо. Быстрые по рукам разметчики могли работать по дюжину часов в день и зарабатывать 500–600 юаней. В уездных городах это считалось однозначно высокооплачиваемой и достойной работой.

Но по мере эволюции больших моделей на этой линии начала проявляться её жестокая сторона.

К 2023 году цена за простую разметку изображений была вбита до 3–4 фэн за единицу, падение превысило 90%. Даже при большей сложности — разметке 3D облаков точек: там, где изображение состоит из плотных точек и его нужно увеличивать в десятки раз, чтобы разглядеть контуры, разметчику всё равно приходится в трёхмерном пространстве вытянуть объёмную рамку, включающую длину, ширину, высоту и угол поворота, чтобы плотно, без зазоров, охватить автомобиль или пешехода. И даже эта сложная 3D-рамка — всего 5 фэн.

Непосредственное последствие обвала цены за единицу — резкий рост трудоёмкости. Чтобы намертво удержаться за базовую зарплату в 2–3 тысячи юаней в месяц, разметчики вынуждены постоянно и без остановки ускорять свою «скоростную» работу пальцами.

Это вообще не похоже на лёгкую работу офисного служащего. Во многих базах разметки управление настолько жёсткое, что от него становится нечем дышать: на рабочем месте запрещено принимать звонки, телефон должен быть заперт в ячейке для хранения. Система точно фиксирует траекторию мыши каждого сотрудника и время пребывания: если человек остановится дольше трёх минут, предупреждение на заднем плане прилетит, как хлёсткий бич.

Ещё больше доводит до отчаяния низкая терпимость к ошибкам. Порог «проходного» качества в отрасли обычно 95% и выше; некоторые компании требуют 98%–99%. Это означает: если вы нарисуете 100 рамок и ошибётесь всего в 2, всю картинку отправят обратно на доработку.

Анимационные изображения идут непрерывной серией кадров: при смене полосы автомобиль будет частично закрыт, разметчику нужно по ассоциации находить их по одному; в 3D облаке точек, если объект содержит больше 10 точек, его нужно обводить рамкой. В сложном проекте парковочного места — сколько ни рисуй линии, сколько ни промахнишься при пропуске маркировки — на контроле качества обязательно найдут изъяны. Возврат одной картинки на правку 4–5 раз — обычное дело. В итоге, потратив час, на руки остаются какие-то считанные фэн.

Разметчица из Хунани опубликовала в соцсети свой расчётный лист: за день работы она обвела более 700 рамок, цена — 4 фэн, общий доход — 30,2 юаня.

Это картина крайней разобщённости.

С одной стороны — на презентациях сияют и блестят техномагнаты, которые рассуждают о том, как AGI освободит людей; с другой — в уездных городах Лёссового плато и в горных районах Юго-Запада молодые люди каждый день по восемь — десять часов уставляются в экран, механически проводят рамки — тысячи, десятки тысяч, а иногда даже во сне: пальцы продолжают в воздухе рисовать линии дороги.

Кто-то когда-то говорил: внешний вид ИИ — это мчащийся мимо роскошный автомобиль, а если открыть дверь, обнаружишь, что внутри сидят сто человек и, изо всех сил стиснув зубы, крутят педали велосипеда.

Никто не считает, что в этом есть проблема.

Поштучная работа, чтобы научить машину «как любить»

Когда «бутылочное горлышко» распознавания изображений было пробито, большие модели получили более глубокую ступень эволюции: им нужно научиться мыслить и разговаривать как люди, а также демонстрировать «эмпатию».

Так появляется самый ключевой и самый дорогой этап обучения больших моделей — RLHF (обучение с подкреплением на основе человеческой обратной связи).

Проще говоря: реальные люди оценивают ответы, которые выдаёт ИИ, и сообщают ему, какой ответ лучше и больше соответствует ценностям и эмоциональным предпочтениям людей.

Почему ChatGPT выглядит «как человек» — потому что за кулисами бесчисленное количество разметчиков RLHF «учат» его.

На краудсорсинговых платформах такие задачи разметки зачастую прямо размечены по цене: за единицу — 3–7 юаней. Разметчики должны оценивать ответы ИИ по крайне субъективным эмоциональным шкалам, чтобы судить, «тёплый» ли это ответ, «есть ли эмпатия», «учтены ли эмоции пользователя».

Получается, что человек «низового» уровня — с зарплатой 2–3 тысячи юаней в месяц, который в реальной грязи изо всех сил пытается выжить, и даже собственных эмоций не успевает замечать — должен в системе стать эмоциональным наставником ИИ и судьёй по ценностям.

Им нужно насильно растереть на кусочки такие крайне сложные и тонкие человеческие эмоции, как тепло и эмпатия, и превратить их в холодные баллы по шкале 1–5. Если их оценки не совпадают с «правильными» ответами, заданными системой, их сочтут не прошедшими по корректности, и тогда они лишатся и без того скудной поштучной оплаты.

Это разновидность «выкачивания» мышления. Сложные, тонкие человеческие эмоции, мораль и сострадание силой втягиваются в алгоритмическую воронку. В холодных шкалах квантификации и стандартизации их выжимают до последней капли теплоты. Когда вы восхищаетесь тем, что кибер-гигант на экране уже умеет писать стихи и сочинять музыку, справляться с вопросами заботы и проявлять чуткость, облачившись даже в оболочку чувствительности; а за экраном, те группы живых людей, которые и были живыми, день за днём в механических суждениях деградируют до машин оценок без эмоций.

Это самая скрытая сторона всей цепочки индустрии — она никогда не появляется ни в новостях о финансировании, ни в технических белых книгах.

Никто не считает, что в этом есть проблема.

Магистры 985 и молодёжь из городков

Работа по вытягиванию рамок на низовом уровне раздавливается гусеницами AI: эта кибер-сборочная линия начинает расползаться вверх, начиная пожирать более высокоуровневый умственный труд.

У больших моделей изменился аппетит. Они больше не удовлетворяются тем, чтобы пережёвывать простую общеизвестную «интуицию»; им нужно проглатывать человеческие профессиональные знания и логику более высокого уровня.

На крупных платформах по найму всё чаще всплывают особые подработки — вроде «разметки логических рассуждений больших моделей» и «инструктор по AI-гуманитарии». Порог у этой подработки чрезвычайно высокий: обычно требуется «магистратура 985/211 или выше», и она охватывает такие профессиональные области, как право, медицина, философия, литература и т. д.

Многие выпускники ведущих вузов привлекаются и заходят в аутсорсинговые группы этих больших компаний. Но вскоре они понимают, что это совсем не лёгкая гимнастика для ума, а настоящая психологическая пытка.

Перед тем как официально взять заказы, они должны прочитать документы на десятки страниц с измерениями оценки и критериями. Проводят 2–3 раунда пробной разметки. После прохождения, если в официальной разметке уровень точности оказывается ниже среднего, их лишают права участия и исключают из чата.

Самое удушающее — эти стандарты вообще не фиксированы. Перед лицом похожих задач и ответов, если оценивать одинаковым способом мышления, результат может оказаться совершенно противоположным. Это похоже на экзаменационный лист, который невозможно завершить и где, по сути, нет правильных ответов. Нельзя повысить точность ни самоусилием, ни обучением — остаётся только бесконечно крутиться на месте, расходуя умственные и физические силы.

Это новый вид эксплуатации в эпоху больших моделей — «сжатие классов».

Знания — «золотая лестница», которую когда-то считали способом пробить барьеры и подняться вверх, — теперь превращаются в цифровую питательную смесь для алгоритмов, причём ещё более сложную для «переваривания». Под абсолютной властью алгоритмов и систем айворийная башня магистров 985 и молодёжь из уездов Лёссового плато пришли к самому странному совпадению разных путей.

Они вместе падают в эту бесконечно глубокую кибер-шахту, лишаются ореола, сглаживаются различия и превращаются в дешёвые, всегда заменяемые шестерёнки на гусенице.

То же самое происходит и за рубежом. В 2024 году Apple напрямую сократила целую команду из 121 сотрудника по разметке AI-голосов в Сантьяго. Эти сотрудники улучшали многоязычную обработку Siri. Они считали себя стоящими на окраине «сердцевинного» бизнеса большой компании, но в одно мгновение оказались в бездне безработицы.

В глазах технологических гигантов, будь то «тётя по разметке рамок» в уездном городе или логический инструктор, получивший диплом ведущего вуза, — по сути это всё те же «расходники», которых можно заменить в любой момент.

Никто не считает, что в этом есть проблема.

Триллионная Вавилонская башня, выложенная потом и кровью за несколько центов

Согласно данным, опубликованным Китайским институтом связи и информатики (China Academy of Information and Communications Technology), в 2023 году объём рынка разметки данных в Китае составил 60,8 млрд юаней. В 2025 году прогнозируется 200–300 млрд юаней. По прогнозам, к 2030 году мировой рынок разметки данных и услуг взлетит до продажных показателей в 1171 млрд юаней.

За этими цифрами стоит «праздник оценок» технологических гигантов вроде OpenAI, Microsoft, ByteDance — на сотни миллиардов и триллионы долларов.

Но эти огромные деньги не потекли туда, где в реальности «кормят» AI.

Китайская индустрия разметки данных демонстрирует типичную структуру аутсорсинга в форме перевёрнутой пирамиды. На самом верху — технологические гиганты, которые крепко держат ключевые алгоритмы. На втором уровне — крупные поставщики услуг по данным. На третьем — разветвлённые по всей стране базы разметки и средние/малые аутсорсинговые компании. И только на самом низу — те «ребята с грязной улицы», которые получают поштучную оплату.

Каждый уровень аутсорсинга сдирает слой жирка — и весьма ощутимо. Когда большая компания бросает цену за единицу в 5 цзяо, после многократного перераспределения и «обдирания» до разметчика в уездном городе может не дотянуть и до 5 фэн.

Бывший министр финансов Греции Янис Варуфакис в своей книге «Технологический феодализм» выдвинул пронизывающую мысль: сегодня технологические гиганты уже не являются капиталистами в традиционном смысле, а «облачными феодалами» (Cloudalists).

У них нет фабрик и машин — у них алгоритмы, платформы, вычислительные мощности. Это цифровые земли эпохи «цифровых боёв». В этом новом феодальном строе пользователь — не потребитель, а цифровой арендатор: каждый ваш лайк, комментарий и просмотр в социальных медиа бесплатно поставляет данные облачным феодалам.

А те разметчики данных, которые находятся на более «низовых» рынках, — это самые низшие цифровые крепостные в этой системе. Они не только производят данные, но и чистят, классифицируют и оценивают массивы исходных данных, превращая их в качественную питательную смесь, которую способны переварить большие модели.

Это скрытая борьба за «захват понимания». Как в 19 веке британское «ограждение земли» загоняло крестьян на текстильные фабрики, так сегодня волна AI загоняет тех, кому не нашлось места в реальной экономике, к экрану.

AI не сгладил пропасть между классами — напротив, он построил конвейер «данные и пот», идущий от уездных городов в центральных и западных регионах Китая прямо к штаб-квартирам техногигантов в Пекине, Шанхае, Гуанчжоу, Шэньчжэне и т. п. Описание технологической революции всегда грандиозное и блестящее, но фон у него неизменно один: массовое потребление дешёвой рабочей силы.

Никто не считает, что в этом есть проблема.

Больше не нужен человеческий завтрашний день

Самый жестокий исход уже приближается — и становится всё быстрее.

По мере скачка возможностей больших моделей те задачи разметки, которые раньше требовали, чтобы люди работали день и ночь, теперь переходят под контроль самого AI.

В апреле 2023 года основатель Ideal (Ideal) Ли Сянь на форуме раскрыл данные: раньше Ideal за год делали примерно 10 миллионов кадров для ручной разметки изображений автопилота при работе с автомобильным вождением на уровне изображений — а стоимость аутсорса была близка к одному миллиарду. Но когда они стали использовать большие модели для автоматизированной разметки, то то, что раньше требовало год, в основе своей можно было сделать за 3 часа.

Эффективность в 1000 раз выше, чем у человека, и это ещё задолго до 2023 года. В только что прошедшем марте Ideal выпустила новое поколение движка MindVLA-o1 для автоматической разметки.

В отрасли ходит фраза, которая звучит как самоирония, но при этом абсолютно правдива: «Сколько интеллекта, столько и ручного труда». Но теперь вливания больших компаний в аутсорс разметки данных уже демонстрируют обвальное падение на 40%–50%.

Те молодые люди из городков, которые бесчисленные ночи и дни сидели перед компьютером и жгли глаза до красноты, собственными руками кормили одного огромного зверя. А теперь этот зверь поворачивается и разбивает им их рабочие места.

С наступлением темноты офисные здания в районе Пинчэн города Датун остаются белыми, как днём. Молодые люди, меняющиеся на смене, молча обмениваются в лифтовых холлах уставшими телами. В этом пространстве сжатия, где бесчисленные многогранные рамки намертво запирают людей, никого не волнует, какие эпические скачки случились с архитектурой Transformer по ту сторону океана, и никто не слышит, и уж тем более не понимает грохот вычислительных мощностей за миллиардными параметрами.

Их взгляд прикипел только к той полосе прогресса красно-зелёного цвета на бэкэнде, которая означает «порог прохождения», — они считают, хватит ли из этих нескольких баллов, нескольких цзяо поштучной оплаты на то, чтобы к концу месяца собрать приличную жизнь.

С одной стороны — удары колокола на Nasdaq и бесконечные потоки техномедиа: гиганты поднимают тосты за приход AGI. А с другой — те цифровые крепостные, которые кормили AI собственной плотью и кровью по кусочку за кусочком, могут лишь дрожащим ожиданием в кислых, болезненных снах ждать, когда тот огромный зверь, которого они сами вырастили, в какое-то вроде бы обычное утро, небрежно пнёт и выбросит их прочь с рабочего места.

Никто не считает, что в этом есть проблема.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить