Tác giả | Sleepy.md
Thành phố Đại Đồng ở Sơn Tây, từng là nơi dựa vào than để chống đỡ nửa bức tường của đất nước, nay đã phủi sạch đầy người tro bụi than, cầm một chiếc búa bổ có lưỡi sắc, nện nặng vào một mỏ quặng vô hình khác.
Trong tòa nhà văn phòng của Trung tâm Kim Mậu Quốc Tế ở Khu Phòng Bình thuộc Đại Đồng, không còn có giếng nâng hạ, cũng không còn xe chở than. Thứ thay thế chính là hàng nghìn chỗ ngồi máy tính được xếp sát nhau. Cơ sở Dữ liệu Trí tuệ Dịch vụ Thung lũng Tiếng Vọng (yun zhong sheng gu) của công ty Thượng Hải Runxun chiếm trọn vài tầng lầu; hàng nghìn nhân viên trẻ đeo tai nghe đang chăm chú nhìn màn hình, bấm chuột, kéo thả, khoanh vùng.
Theo dữ liệu chính thức, tính đến tháng 11 năm 2025, thành phố Đại Đồng đã đưa vào vận hành 117.1Báy chủ; đưa vào 69 doanh nghiệp gọi điện gắn nhãn dữ liệu, kéo theo hơn 30k lượt người có việc làm gần nơi ở; giá trị sản lượng đạt 750 triệu nhân dân tệ. Trong “hố mỏ dữ liệu” này, 94% người làm việc đều có hộ khẩu địa phương.
Không chỉ riêng Đại Đồng. Trong danh sách các cơ sở gắn nhãn dữ liệu đầu tiên do Cục Dữ liệu Quốc gia xác định, các huyện ở vùng trung và tây như Vĩnh Hòa, Sơn Tây; Bích Tiết, Quý Châu; Mông Tự, Vân Nam… đều hiện rõ trong danh sách. Ở cơ sở gắn nhãn dữ liệu tại huyện Vĩnh Hòa, 80% là nữ nhân viên. Phần lớn họ là các bà mẹ ở nông thôn, hoặc là những người trẻ trở về quê mà không tìm được công việc phù hợp.
Một trăm năm trước, trong nhà máy dệt Manchester của Anh, chen chúc những nông dân mất đất. Còn ngày nay, trước màn hình máy tính ở các huyện xa xôi ấy, lại ngồi đầy những người trẻ không tìm được chỗ đứng trong kinh tế thực.
Họ đang làm một loại công việc theo khoán vừa mang tính tương lai, lại vô cùng nguyên thủy: tạo ra “thức ăn dữ liệu” cần thiết để các “ông lớn” trí tuệ nhân tạo ở xa tận Bắc Kinh, Thâm Quyến và Thung lũng Silicon có thể huấn luyện các mô hình lớn.
Không ai nghĩ chuyện này có gì sai.
Bản chất của gắn nhãn dữ liệu là dạy cho máy móc nhận biết thế giới.
Tự lái cần nhận ra đèn đỏ đèn xanh và người đi bộ; mô hình lớn cần phân biệt đâu là mèo, đâu là chó. Bản thân máy móc không có tri thức thường thức, nên bắt buộc con người trước tiên phải vẽ một khung lên ảnh, nói với nó “Đây là người đi bộ”, thì sau khi “nuốt” hàng chục triệu hình ảnh, nó mới học được cách tự nhận diện.
Công việc này không cần trình độ học vấn cao, chỉ cần sự kiên nhẫn, và một ngón trỏ có thể bấm liên tục.
Vào thời kỳ hoàng kim năm 2017, một khung 2D đơn giản có thể lên tới hơn một mao tiền mỗi khung, thậm chí có công ty trả giá tới 5 mao. Những người gắn nhãn tay nhanh, làm mỗi ngày mười mấy tiếng, có thể kiếm được 5–6 trăm tệ. Ở huyện thị, đây chắc chắn là một công việc lương cao và đàng hoàng.
Nhưng khi mô hình lớn tiến hóa, mặt tàn khốc của dây chuyền này bắt đầu lộ rõ.
Đến năm 2023, giá cho gắn nhãn hình ảnh đơn giản đã bị “đập” xuống còn 3 đến 4 xu tiền. Mức giảm vượt 90%. Dù là các hình ảnh đám mây điểm 3D khó hơn—những hình được cấu thành từ các điểm dày đặc, cần phóng to vô số lần mới nhìn rõ rìa—thì người gắn nhãn cũng phải kéo ra trong không gian ba chiều một khung lập thể gồm chiều dài, chiều rộng, chiều cao và góc xoay, để ôm khít lấy xe hoặc người đi bộ; nhưng một khung 3D phức tạp như vậy cũng chỉ có 5 xu tiền.
Hệ quả trực tiếp của việc giá đơn vị lao dốc chính là cường độ lao động tăng vọt. Để “siết chặt” mức lương cơ bản 2.000–30kệ mỗi tháng, người gắn nhãn buộc phải liên tục, không ngừng tăng tốc độ tay.
Thực ra đây hoàn toàn không phải công việc nhân viên văn phòng nhẹ nhàng. Ở nhiều cơ sở gắn nhãn, quản lý nghiêm khắc đến mức ngột thở. Đi làm không được nghe điện thoại; điện thoại phải bị khóa trong ngăn đựng. Hệ thống sẽ ghi chính xác quỹ đạo chuột và thời gian dừng của từng nhân viên; nếu dừng quá ba phút, cảnh báo ở hậu trường sẽ như roi quất tới.
Còn làm người ta muốn sụp đổ hơn là tỷ lệ dung sai. Mức đạt chuẩn trong ngành thường ở trên 95%; có công ty thậm chí yêu cầu 98%-99%. Nghĩa là, bạn vẽ 100 khung; chỉ cần sai 2 khung là cả hình sẽ bị trả lại để sửa.
Hình ảnh động là chuỗi liền khung; xe chuyển làn sẽ bị che, người gắn nhãn phải dựa vào suy đoán liên tưởng để lần lượt tìm chúng ra. Với hình đám mây điểm 3D, chỉ cần một vật thể có hơn 10 điểm thì cũng phải vẽ khung. Với một dự án bãi đỗ xe phức tạp, nếu vẽ đường nét quá dài hoặc bị bỏ sót nhãn, lúc kiểm tra chất lượng luôn có thể tìm ra lỗi. Một hình bị trả để sửa 4–5 lần là chuyện thường ngày. Cuối cùng tính lại: mất cả tiếng đồng hồ, cầm về chỉ có vài xu tiền.
Một nhân viên gắn nhãn ở Hồ Nam đã đăng bảng thanh toán của mình lên nền tảng mạng xã hội; làm cả ngày, cô kéo được hơn 700 khung, giá đơn vị là 4 xu tiền, tổng thu nhập là 10Mệ.
Đây là một bức tranh cực kỳ chia cắt.
Một bên là các “đại ca công nghệ” rạng rỡ trong họp báo, nói về việc AGI sẽ giải phóng con người; bên kia, ở các huyện trên cao nguyên đất hoàng thổ và vùng núi phía tây nam, người trẻ mỗi ngày dán chặt mắt vào màn hình 8 đến 10 giờ, kéo khung một cách máy móc—vài nghìn, vài chục nghìn—thậm chí ban đêm nằm mơ cũng thấy ngón tay vẫn đang vẽ đường làn trong không trung.
Có người từng nói rằng vẻ ngoài của AI là một chiếc siêu xe hạng sang gầm rú lao qua, nhưng khi mở cửa xe ra bạn mới thấy bên trong có một trăm người đang đạp xe đạp, cắn răng dồn hết sức đạp bàn đạp.
Không ai nghĩ chuyện này có gì sai.
Khi nút thắt của nhận diện hình ảnh bị xuyên thủng, các mô hình lớn bước vào một giai đoạn tiến hóa sâu hơn: nó cần học cách suy nghĩ như con người, đối thoại như con người, thậm chí thể hiện “lòng cảm thông”.
Điều này đã sinh ra khâu cốt lõi và cũng đắt đỏ nhất trong huấn luyện mô hình lớn: RLHF (Học tăng cường dựa trên phản hồi của con người).
Nói đơn giản, đó là cho người thật chấm điểm các câu trả lời do AI tạo ra, nói cho nó biết câu trả lời nào tốt hơn, phù hợp hơn với các giá trị và sở thích cảm xúc của con người.
ChatGPT trông “giống con người” là vì phía sau có vô số người gắn nhãn RLHF đang “dạy” nó.
Trên các nền tảng crowdsourcing, các tác vụ gắn nhãn kiểu này thường được niêm yết giá rõ ràng: phí mỗi mục từ 3 đến 6.08Bệ. Người gắn nhãn cần chấm điểm cảm xúc cực kỳ chủ quan cho câu trả lời của AI, để đánh giá xem câu trả lời đó có “ấm áp” không, có “có lòng cảm thông” không, có “quan tâm đến cảm xúc của người dùng” không.
Một người làm công ăn lương tầng đáy cầm mức lương 2.000–3.000 tệ mỗi tháng, giữa bùn lầy đời thực chạy vội mệt mỏi, thậm chí không còn thời gian để để ý tới cảm xúc của chính mình, lại phải trong hệ thống đảm nhiệm vai trò cố vấn cảm xúc cho AI và trọng tài về giá trị.
Họ cần nghiền vụn một cách cưỡng bức những cảm xúc con người vô cùng phức tạp và tinh tế như ấm áp hay cảm thông, rồi lượng hóa thành những con số lạnh lùng từ 1 đến 5. Nếu điểm họ chấm không khớp với “đáp án đúng” mà hệ thống thiết lập, họ sẽ bị kết luận là không đạt tỷ lệ đúng chuẩn, từ đó bị trừ đi tiền công theo khoán vốn đã mỏng manh.
Đây là một sự rút rỗng về nhận thức. Những cảm xúc phức tạp và vi diệu của con người, đạo đức và lòng trắc ẩn, đang bị ép rơi vào cái phễu thuật toán. Trong thang đo lạnh lẽo được lượng hóa và chuẩn hóa, chúng bị vắt kiệt phần hơi ấm cuối cùng. Khi bạn kinh ngạc rằng con quái vật cyber trên màn hình đã học được cách viết thơ phổ nhạc, hỏi han ân cần, thậm chí khoác lên mình lớp vỏ đa sầu đa cảm; thì ở ngoài màn hình, đám người sống động vốn là con người đó lại thoái hóa thành cỗ máy chấm điểm không có cảm xúc trong những phán xét máy móc lặp ngày qua ngày.
Đây là mặt khuất lấp nhất của cả chuỗi công nghiệp, chưa từng xuất hiện trong bất kỳ tin tức gọi vốn nào hay sách trắng công nghệ nào.
Không ai nghĩ chuyện này có gì sai.
Công việc kéo khung ở tầng đáy đang bị các dải xích của AI nghiền nát; dây chuyền cyber này bắt đầu lan dần lên trên, bắt đầu nuốt chửng các công việc trí óc cấp cao hơn.
Dạ dày của mô hình lớn đã thay đổi khẩu vị. Nó không còn thỏa mãn với việc chỉ nhai vụn “tri thức thường thức” đơn giản; nó cần nuốt chửng kiến thức chuyên môn của con người và logic cấp cao.
Trên các nền tảng tuyển dụng, bắt đầu nhấp nháy thường xuyên một loại công việc bán thời gian đặc biệt như “gắn nhãn suy luận logic mô hình lớn”, “giảng viên huấn luyện nhân văn AI”. Mức ngưỡng của công việc này cực cao, thường yêu cầu “bằng thạc sĩ 985/211 trở lên”, liên quan đến các lĩnh vực như luật, y học, triết học, văn học…
Nhiều nghiên cứu sinh từ trường danh tiếng bị thu hút, đổ vào các nhóm outsourcing của các “đại xưởng”. Nhưng họ nhanh chóng phát hiện đây không phải bài tập trí óc nhẹ nhàng, mà là một cuộc tra tấn tinh thần.
Trước khi nhận đơn chính thức, họ phải đọc các tài liệu dài hàng chục trang về các tiêu chí chấm điểm và chuẩn đánh giá, thực hiện 2 đến 3 vòng thử gắn nhãn. Sau khi đạt, trong giai đoạn gắn nhãn chính thức, nếu tỷ lệ đúng thấp hơn mức trung bình thì sẽ mất tư cách, bị đuổi khỏi nhóm chat.
Điều làm ngạt thở nhất là các chuẩn này hoàn toàn không cố định. Trước các câu hỏi và câu trả lời tương tự, nếu dùng cùng một cách suy nghĩ để chấm điểm, kết quả có thể hoàn toàn trái ngược nhau. Giống như làm một bài kiểm tra mà không bao giờ làm xong, và hoàn toàn không có đáp án chuẩn. Không thể cải thiện tỷ lệ đúng bằng nỗ lực hay học tập, chỉ có thể đứng yên quay vòng liên tục, tiêu hao trí óc và thể lực.
Đó là kiểu bóc lột mới của thời đại mô hình lớn—sự co gọn tầng lớp.
Tri thức—món cầu thang vàng từng được coi là lối thoát phá vỡ bức tường, đi lên phía trên—nay lại biến thành “mồi cỏ số” được dâng cho thuật toán, phức tạp hơn nhiều khi nghiền ngẫm. Trước quyền lực tuyệt đối của thuật toán và hệ thống, thạc sĩ 985 trong tháp ngà và thanh niên thị trấn nhỏ trên cao nguyên đất hoàng thổ đều đón nhận một sự đồng quy dị lộ kỳ quái nhất.
Họ cùng rơi vào cái “hố mỏ cyber” sâu không thấy đáy này, bị tước đi hào quang, làm phẳng mọi khác biệt, rồi tất cả đều trở thành những bánh răng rẻ tiền và có thể thay thế bất cứ lúc nào trên băng tải.
Ở nước ngoài cũng như vậy. Năm 2024, Apple cắt thẳng một đội ngũ gắn nhãn giọng nói AI gồm 121 người tại Santiago. Những nhân viên này có nhiệm vụ cải thiện khả năng xử lý đa ngôn ngữ của Siri. Họ từng nghĩ mình đứng ở rìa của nghiệp vụ cốt lõi đại xưởng, nhưng chỉ trong tích tắc đã rơi xuống vực sâu thất nghiệp.
Trong mắt các “gã khổng lồ công nghệ”, dù là dì kéo khung ở huyện thị hay người huấn luyện logic tốt nghiệp từ trường danh tiếng, về bản chất đều chỉ là “vật tư tiêu hao” có thể thay thế bất cứ lúc nào.
Không ai nghĩ chuyện này có gì sai.
Theo dữ liệu do Viện Thông tin và Truyền thông Trung Quốc (CAICT) công bố, năm 2023, quy mô thị trường gắn nhãn dữ liệu của Trung Quốc đạt 30Bỷ nhân dân tệ; đến năm 2025 dự kiến 20 đến 750Mỷ nhân dân tệ; theo dự báo, đến năm 2030, doanh số bán hàng của thị trường gắn nhãn dữ liệu và dịch vụ toàn cầu sẽ tăng vọt lên 745kỷ nhân dân tệ.
Phía sau những con số đó là một bữa tiệc định giá điên cuồng của các “gã khổng lồ công nghệ” như OpenAI, Microsoft, ByteDance… giá trị có thể lên tới hàng trăm tỷ, hàng nghìn tỷ USD chỉ trong vài lời đồn thổi.
Nhưng đống “tài sản đổ ập” đó không hề chảy vào tay những người thực sự “nuôi” AI.
Ngành gắn nhãn dữ liệu của Trung Quốc mang cấu trúc outsourcing ngược hình tháp điển hình. Tầng cao nhất là các gã khổng lồ công nghệ nắm chặt thuật toán cốt lõi; tầng thứ hai là các nhà cung cấp dịch vụ dữ liệu quy mô lớn; tầng thứ ba là các cơ sở gắn nhãn dữ liệu ở khắp nơi và các công ty outsourcing quy mô nhỏ và vừa; còn tầng thấp nhất mới là những người gắn nhãn chân bùn lĩnh lương theo khoán.
Mỗi tầng outsourcing đều phải “cạo” mạnh tay rút đi một lớp dầu mỡ. Khi giá đơn vị mà đại xưởng ném ra là 5 mao, sau khi qua từng lớp bòn rút, số tiền rơi xuống tay người gắn nhãn ở huyện thị có thể còn chẳng tới 5 xu.
Cựu Bộ trưởng Tài chính Hy Lạp Yanis Varoufakis trong cuốn sách “Chủ nghĩa phong kiến công nghệ” của mình đưa ra một quan điểm thấm thía: ngày nay, các gã khổng lồ công nghệ không còn là “nhà tư bản” theo nghĩa truyền thống nữa, mà là “chúa tể trên mây” (Cloudalists).
Họ không sở hữu nhà máy và máy móc, mà sở hữu thuật toán, nền tảng và năng lực tính toán—những “lãnh thổ kỹ thuật số” ở thời đại cyber. Trong hệ thống phong kiến mới này, người dùng không phải là người tiêu dùng, mà là “nông nô số”. Mỗi lần chúng ta bấm like, bình luận hay lướt xem trên mạng xã hội, đều đang miễn phí cung cấp dữ liệu để dâng lên chúa tể trên mây.
Còn những người gắn nhãn dữ liệu nằm ở các thị trường “hạ tầng” thì là tầng đáy của “nô lệ số” trong hệ thống ấy. Họ không chỉ phải sản xuất dữ liệu, mà còn phải làm sạch, phân loại, chấm điểm cho một khối lượng lớn dữ liệu thô, rồi chuyển nó thành “thức ăn” chất lượng cao mà mô hình lớn có thể tiêu hóa.
Đó là một cuộc vận động tranh giành lãnh địa nhận thức được che giấu. Giống như phong trào rào đất ở Anh thế kỷ 19 đẩy nông dân vào nhà máy dệt, thì ngày nay, làn sóng AI đã đẩy những người trẻ không tìm được vị trí trong kinh tế thực đến trước màn hình.
AI không hề xóa nhòa khoảng cách giai cấp; ngược lại, nó thiết lập một “băng tải dữ liệu và mồ hôi máu” nối từ các huyện thị ở miền trung và tây Trung Quốc thẳng tới trụ sở của các “gã khổng lồ” công nghệ ở Bắc Kinh, Thượng Hải, Quảng Châu, Thâm Quyến. Tường thuật về cách mạng công nghệ luôn hoành tráng và rực rỡ, nhưng tông màu nền của nó—vĩnh viễn—là tiêu hao quy mô lao động rẻ mạt.
Không ai nghĩ chuyện này có gì sai.
Cái kết tàn khốc nhất đang đến rất nhanh, nhanh hơn từng ngày.
Khi năng lực mô hình lớn nhảy vọt, những tác vụ gắn nhãn trước kia cần con người làm ngày làm đêm đang được AI tự tiếp quản.
Tháng 4 năm 2023, nhà sáng lập hãng xe Lý Tưởng Lý Tưởng tiết lộ dữ liệu trên diễn đàn: trước đây, mỗi năm Lý Tưởng cần làm khoảng 10 triệu khung hình gắn nhãn hình ảnh lái xe tự động, còn chi phí outsourcing gần một trăm triệu. Nhưng khi họ dùng mô hình lớn để tự động gắn nhãn, những việc trước kia mất cả một năm thì về cơ bản chỉ cần 3 tiếng là xong.
Hiệu suất gấp 1000 lần con người, và thậm chí là từ tận năm 2023. Chỉ trong tháng 3 vừa qua, Lý Tưởng cũng đã công bố bộ máy gắn nhãn tự động MindVLA-o1 thế hệ mới.
Trong ngành có câu tự giễu vô cùng thật: “Thông minh bao nhiêu thì có con người bấy nhiêu.” Nhưng bây giờ, khoản đầu tư của đại xưởng vào outsourcing gắn nhãn dữ liệu đã xuất hiện mức sụt giảm dạng “vách đứng” 40%-50%.
Những thanh niên thị trấn đã ngồi trước máy tính hàng vô số ngày đêm, thức đến đỏ mắt, tự tay nuôi một con quái vật khổng lồ. Nhưng giờ đây, con quái vật này quay đầu lại, đập nát công việc cơm áo của họ.
Khi màn đêm buông xuống, các tòa nhà văn phòng ở khu Phòng Bình của Đại Đồng vẫn trắng bệch như ban ngày. Những người trẻ luân ca thì lặng lẽ đổi lấy những thân xác mỏi mệt trong sảnh thang máy. Trong không gian gấp khúc bị nhốt chặt bởi vô số khung đa giác, không ai quan tâm bên kia đại dương kiến trúc Transformer lại đang thực hiện bước nhảy sử thi nào, cũng không ai nghe hiểu tiếng ầm ầm của năng lực tính toán đằng sau hàng trăm tỷ tham số.
Ánh nhìn của họ chỉ bị hàn chặt vào thanh tiến độ màu đỏ-xanh trong hậu trường—đại diện cho “mức đạt chuẩn”—tính toán liệu vài điểm, vài xu tiền công theo khoán có thể gom đủ để có một cuộc sống đàng hoàng vào cuối tháng hay không.
Một bên là tiếng gõ chuông trên Nasdaq và các bài liên tiếp trên truyền thông công nghệ; các “ông lớn” nâng cốc chúc mừng cho sự giáng lâm của AGI. Bên kia, những “nông nô số” đã dùng chính thân thể từng miếng từng miếng để nuôi AI—chỉ có thể co mình trong những giấc ngủ mỏi nhức và thấp thỏm chờ con quái vật mà tự tay họ nuôi lớn, vào một buổi sáng vốn tưởng bình thường, tùy hứng đá bay công việc cơm áo của họ.
Không ai nghĩ chuyện này có gì sai.
Bấm để tìm hiểu cơ chế vận động trên Lưydọng BlockBeats đang tuyển dụng vị trí
Chào mừng bạn tham gia cộng đồng chính thức của Lưydọng BlockBeats:
Nhóm đăng ký Telegram: https://t.me/theblockbeats
Nhóm Telegram giao lưu: https://t.me/BlockBeats_App
Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia