Một lần cập nhật cơ sở dữ liệu có thể làm tê liệt 20% mạng internet toàn cầu

11 tháng 18 ngày cảnh báo sự cố: Khi Cloudflare gặp gián đoạn, ai đang trả tiền cho hạ tầng?

Vào lúc 6:20 sáng giờ miền Đông Hoa Kỳ, khoảng 20% lưu lượng internet toàn cầu đột nhiên bị tê liệt. Một điều chỉnh quyền truy cập cơ sở dữ liệu định kỳ đã kích hoạt một chuỗi phản ứng dây chuyền, dẫn đến sự gián đoạn quy mô lớn của các dịch vụ cốt lõi hỗ trợ hoạt động của mạng lưới hiện đại.

Đây không phải là cuộc tấn công của hacker hay mối đe dọa từ bên ngoài. Nguyên nhân gốc rễ chỉ là một tệp cấu hình, sau khi tăng kích thước gấp đôi, đã vượt quá giới hạn mặc định của hệ thống.

Thảm họa bắt đầu từ một truy vấn cơ sở dữ liệu

Lịch trình xảy ra sự cố rõ ràng và tàn nhẫn:

UTC 11:05 — Cloudflare thực hiện cập nhật quyền truy cập cho cụm dữ liệu ClickHouse nhằm tăng cường an ninh và độ tin cậy.

UTC 11:28 — Thay đổi được áp dụng cho môi trường người dùng, lần đầu xuất hiện lỗi ghi nhận.

UTC 11:48 — Trang trạng thái chính thức thừa nhận sự cố.

UTC 17:06 — Dịch vụ hoàn toàn phục hồi, thời gian kéo dài hơn 5 giờ.

Sự thật về mặt kỹ thuật

Vấn đề cốt lõi của sự cố nằm ở một sơ suất tưởng chừng đơn giản: truy vấn cơ sở dữ liệu tạo ra tệp cấu hình bảo vệ robot của Cloudflare thiếu điều kiện lọc theo “tên cơ sở dữ liệu”.

Điều này khiến hệ thống trả về các mục trùng lặp — một từ cơ sở dữ liệu mặc định, một từ cơ sở dữ liệu lưu trữ r0 ở tầng thấp hơn. Kích thước của tệp cấu hình do đó tăng gấp đôi, từ khoảng 60 đặc trưng ban đầu lên hơn 200.

Cloudflare từng đặt giới hạn cứng 200 đặc trưng cho bộ nhớ phân bổ trước, các kỹ sư cho rằng “đây còn cao hơn nhiều so với mức sử dụng thực tế hiện tại”. Cho đến khi sự cố xảy ra, giới hạn tưởng chừng thoáng đãng này đã sụp đổ trong chớp mắt.

Tệp vượt quá giới hạn kích thước đã kích hoạt giới hạn đó, mã Rust ngay lập tức ném ra lỗi: “thread fl2_worker_thread panicked: called Result::unwrap() on an Err value”

Hệ thống bảo vệ robot là trung tâm của tầng kiểm soát mạng Cloudflare. Khi nó gặp sự cố, hệ thống kiểm tra sức khỏe dùng để hướng dẫn cân bằng tải “máy chủ nào hoạt động bình thường” cũng bị ảnh hưởng.

Điều trớ trêu là, tệp cấu hình này được tạo lại mỗi 5 phút. Chỉ cần truy vấn chạy trên các nút của cụm sau khi cập nhật, sẽ sinh ra dữ liệu lỗi. Kết quả là mạng Cloudflare liên tục chuyển đổi giữa “bình thường” và “sự cố” — có lúc tải đúng tài liệu, có lúc tải sai.

Chu kỳ “gián đoạn lặp đi lặp lại” này khiến các kỹ sư nhầm tưởng đang bị tấn công phân tán từ chối dịch vụ quy mô lớn (DDoS). Bởi lỗi nội bộ thường không gây ra chu kỳ phục hồi — sụp đổ liên tục như vậy.

Cuối cùng, sau khi tất cả các nút ClickHouse hoàn tất cập nhật, mỗi tệp sinh ra đều là lỗi. Không có tín hiệu chính xác từ hệ thống, hệ thống phòng thủ tự động chuyển sang “chế độ bảo thủ”, coi phần lớn máy chủ là “không khỏe mạnh”. Lưu lượng internet liên tục đổ về các nút biên của Cloudflare nhưng không thể định tuyến chính xác.

Thời khắc yên tĩnh của mạng toàn cầu

Nền tảng Web2 hoàn toàn tê liệt

  • X nhận 9.706 báo cáo sự cố
  • ChatGPT dừng phản hồi giữa chừng
  • Spotify ngưng phát nhạc
  • Uber và các nền tảng giao đồ ăn gặp sự cố
  • Người chơi game bị ngắt kết nối cưỡng chế
  • Thậm chí máy tự phục vụ của McDonald’s cũng hiển thị lỗi

Không có lĩnh vực nào tránh khỏi

Giao diện web của các sàn giao dịch chính sụp đổ, người dùng không thể tải trang đăng nhập và giao diện giao dịch.

Trình duyệt blockchain (như Etherscan, Arbiscan) trực tiếp bị sập.

Nền tảng phân tích dữ liệu (DeFiLlama) xuất hiện lỗi máy chủ định kỳ.

Nhà cung cấp ví phần cứng phát hành thông báo, dịch vụ giảm khả dụng.

Chỉ có “ngoại lệ”: chính giao thức blockchain

Theo báo cáo, các sàn giao dịch chính không gặp lỗi phía giao diện, các giao dịch trên chuỗi vẫn diễn ra bình thường. Blockchain vẫn hoạt động hoàn toàn bình thường, không có dấu hiệu gián đoạn đồng thuận.

Điều này phơi bày một mâu thuẫn sắc nét: Nếu blockchain vẫn đang tạo khối, mà không ai truy cập được, thì tiền mã hóa còn “trực tuyến” thật sự không?

Vai trò của Cloudflare trong lưu lượng internet toàn cầu

Cloudflare không lưu trữ website, cũng không cung cấp dịch vụ máy chủ đám mây. Vai trò của nó là “người trung gian” — nằm giữa người dùng và mạng lưới.

Dữ liệu cốt lõi:

  • Phục vụ 24 triệu website
  • Có mặt tại 120 quốc gia, 330 thành phố với các nút biên
  • Xử lý khoảng 20% lưu lượng internet toàn cầu
  • Chiếm 82% thị phần phòng chống DDoS
  • Tổng băng thông các nút biên đạt 449 Tbps

Khi “người trung gian” này gặp sự cố, tất cả các dịch vụ phụ thuộc phía sau đều trở nên “không thể tiếp cận”.

Giám đốc điều hành Cloudflare Matthew Prince trong tuyên bố chính thức nói rõ: “Đây là sự cố nghiêm trọng nhất của Cloudflare kể từ năm 2019… Trong hơn 6 năm qua, chúng tôi chưa từng gặp sự cố nào có thể làm gián đoạn phần lớn lưu lượng mạng lưới internet cốt lõi của chúng tôi.”

4 lần sự cố lớn trong 18 tháng: Tại sao ngành vẫn chưa thay đổi?

Tháng 7 năm 2024 — Lỗ hổng cập nhật bảo mật của CrowdStrike gây tê liệt hệ thống CNTT toàn cầu (đình chỉ chuyến bay, trì hoãn bệnh viện, đóng băng dịch vụ tài chính)

Ngày 20 tháng 10 năm 2025 — Sự cố AWS kéo dài 15 giờ, dịch vụ DynamoDB tại khu vực Đông Hoa Kỳ bị gián đoạn, khiến nhiều mạng blockchain offline

Ngày 29 tháng 10 năm 2025 — Vấn đề đồng bộ cấu hình Azure của Microsoft, dịch vụ Microsoft 365, Xbox Live bị tê liệt

Ngày 18 tháng 11 năm 2025 — Sự cố Cloudflare, ảnh hưởng khoảng 20% lưu lượng internet toàn cầu

Rủi ro mô hình nhà thầu đơn lẻ

AWS kiểm soát khoảng 30% thị trường hạ tầng đám mây toàn cầu, Microsoft Azure chiếm 20%, Google Cloud chiếm 13%. Ba công ty này kiểm soát hơn 60% hạ tầng hỗ trợ mạng lưới hiện đại.

Ngành công nghiệp tiền mã hóa vốn dĩ là “giải pháp phi tập trung”, nay lại bị phụ thuộc vào các nhà cung cấp hạ tầng tập trung nhất thế giới.

Khi xảy ra sự cố, “chiến lược khắc phục thảm họa” duy nhất của ngành là: chờ đợi. Chờ Cloudflare sửa lỗi, chờ AWS khôi phục, chờ Azure cập nhật bản vá.

Vỏ bọc “phi tập trung”: Không phải là nguyên lý, chỉ là hình thức

Ngành tiền mã hóa từng vẽ ra viễn cảnh:

Tài chính phi tập trung, tiền chống kiểm duyệt, hệ thống không cần tin cậy, không điểm yếu trung tâm, mã nguồn là luật pháp

Thực tế ngày 18 tháng 11 là: Một buổi sáng gặp sự cố, khiến phần lớn dịch vụ mã hóa tạm dừng trong nhiều giờ.

Về mặt kỹ thuật: Không có giao thức blockchain nào báo lỗi.

Thực tế sử dụng: Giao diện giao dịch sập, trình duyệt tê liệt, nền tảng dữ liệu ngừng hoạt động, màn hình đầy lỗi 500.

Người dùng không thể truy cập vào “phi tập trung” blockchain mà họ “sở hữu”. Giao thức vẫn hoạt động bình thường — miễn là bạn có thể “tiếp cận” nó.

Tại sao ngành vẫn chọn “tiện lợi” chứ không phải “nguyên tắc”?

Xây dựng hạ tầng phi tập trung tự thân đồng nghĩa với: mua phần cứng đắt tiền, đảm bảo nguồn điện ổn định, duy trì băng thông riêng, thuê chuyên gia an ninh, thực hiện dự phòng địa lý, xây dựng hệ thống dự phòng thảm họa, giám sát 24/7.

Trong khi đó, dùng Cloudflare chỉ cần: nhấn một nút, nhập thông tin thẻ tín dụng, triển khai trong vài phút.

Các startup theo đuổi “ra mắt nhanh”, các quỹ đầu tư yêu cầu “hiệu quả vốn” — tất cả đều chọn “tiện lợi” chứ không phải “khả năng chống lỗi”.

Cho đến khi “tiện lợi” không còn tiện lợi nữa.

Tại sao các giải pháp thay thế phi tập trung “kêu gọi ủng hộ mà không thu hút được khách hàng”?

Các giải pháp lưu trữ phi tập trung (như Arweave), truyền tải tệp phân tán (IPFS), tính toán phi tập trung (Akash), lưu trữ phi tập trung (Filecoin) đều tồn tại.

Nhưng chúng gặp các vấn đề như:

  • Hiệu năng thấp hơn so với trung tâm, người dùng cảm nhận rõ độ trễ
  • Phổ biến cực thấp, quy trình phức tạp
  • Chi phí thường cao hơn thuê hạ tầng từ ba nhà cung cấp đám mây lớn

Xây dựng hạ tầng phi tập trung thực sự cực kỳ khó, vượt xa tưởng tượng.

Hầu hết dự án chỉ “nói suông” về “phi tập trung”, ít dự án thực sự triển khai. Chọn giải pháp trung tâm luôn là lựa chọn đơn giản, rẻ hơn — cho đến khi xảy ra sự cố.

Thách thức mới về quản lý

Trong vòng 30 ngày, đã xảy ra 3 sự cố lớn, thu hút sự chú ý của các cơ quan quản lý:

  • Các công ty này có phải “cơ quan quan trọng về hệ thống” không?
  • Dịch vụ hạ tầng mạng cần được quản lý như “điện, nước”?
  • Khi “quá lớn để sụp đổ” kết hợp với hạ tầng công nghệ, sẽ gây ra rủi ro gì?
  • Cloudflare kiểm soát 20% lưu lượng internet toàn cầu, có phải là độc quyền không?

Bộ Tài chính Mỹ đang thúc đẩy nhúng chứng thực danh tính vào hợp đồng thông minh, yêu cầu mọi tương tác DeFi phải qua xác minh KYC. Khi sự cố hạ tầng xảy ra lần tới, người dùng mất không chỉ quyền giao dịch — mà còn mất khả năng “chứng minh danh tính” trong hệ thống tài chính.

Chỉ trong 3 giờ, sự cố có thể biến thành “không thể vượt qua xác thực người-máy” — chỉ vì dịch vụ xác thực hoạt động trên hạ tầng đã bị tê liệt.

Từ “tiện lợi” đến “bắt buộc”: Khi nào mới là bước ngoặt?

Ngày 18 tháng 11, ngành mã hóa không “thất bại” — chính blockchain hoạt động hoàn hảo.

Thật sự “thất bại” là sự tự lừa dối tập thể của ngành:

  • Nghĩ rằng có thể xây dựng “ứng dụng không thể bị chặn” trên hạ tầng “có thể sập”
  • Nghĩ rằng khi ba công ty kiểm soát “cổng truy cập”, “chống kiểm duyệt” còn ý nghĩa thực
  • Nghĩ rằng khi một sơ đồ cấu hình của Cloudflare có thể quyết định hàng triệu người có thể giao dịch, thì “phi tập trung” còn ý nghĩa thực

Khả năng chống lỗi của hạ tầng không nên là “tùy ý”, mà phải là “nền tảng của mọi thứ” — không có nó, mọi chức năng khác đều không thể thực thi.

Sự cố lần tới đã bắt đầu hình thành — có thể từ AWS, có thể từ Azure, có thể từ Google Cloud, hoặc chính từ sự cố thứ cấp của Cloudflare. Có thể xảy ra vào tháng tới, hoặc tuần tới.

Chọn giải pháp trung tâm vẫn là lựa chọn rẻ hơn, nhanh hơn, tiện lợi hơn — cho đến khi nó không còn nữa.

Khi lần tới Cloudflare thay đổi cấu hình định kỳ, kích hoạt lỗ hổng ẩn trong dịch vụ quan trọng tiếp theo, chúng ta sẽ lại chứng kiến cảnh tượng quen thuộc: đầy ắp lỗi 500, các giao dịch tạm dừng toàn diện, blockchain vẫn hoạt động bình thường nhưng không ai truy cập được, các doanh nghiệp hứa “lần tới sẽ tốt hơn” nhưng chưa từng thực hiện.

Đây chính là thực trạng của ngành hiện tại: mọi thứ sẽ không thay đổi, vì “tiện lợi” luôn chiến thắng “rủi ro phòng ngừa” — cho đến ngày “tiện lợi” phải trả giá đắt đến mức không thể bỏ qua.

AR7,09%
FIL5,72%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim