Business SEO

Cloudflare gặp sự cố toàn cầu ngày 18/11/2025: Nguyên nhân, ảnh hưởng và cách khắc phục

Ngày 18/11/2025, dịch vụ Cloudflare — nền tảng hạ tầng Internet lớn nhất thế giới — đã gặp phải một sự cố nghiêm trọng khiến hàng loạt website trên toàn cầu bị gián đoạn, trong đó có nhiều doanh nghiệp Việt Nam. Sự cố bắt đầu từ khoảng 18:28 (giờ Việt Nam) và kéo dài đến nửa đêm trước khi được khắc phục hoàn toàn.

Đây được xem là một trong những sự cố nghiêm trọng nhất của Cloudflare kể từ năm 2019.

🚨 Điều gì đã xảy ra?

Nguyên nhân không phải tấn công mạng, không phải DDoS hay mã độc.
Sự cố xuất phát từ một thay đổi nhỏ trong hệ thống cơ sở dữ liệu ClickHouse của Cloudflare.

Cụ thể:

  • Cloudflare cập nhật quyền truy cập (permissions) cho một nhóm bảng dữ liệu.

  • Thay đổi này vô tình khiến một truy vấn tạo file cấu hình phục vụ hệ thống Bot Management trả về dữ liệu bị nhân đôi.

  • File cấu hình bị tăng kích thước lên gấp đôi, vượt giới hạn cho phép mà hệ thống proxy (FL & FL2) có thể xử lý.

  • Khi file lỗi được phát tán đến các máy chủ toàn cầu, dịch vụ proxy cốt lõi của Cloudflare bị lỗi và dẫn đến hàng loạt HTTP 5xx.

Vì file mới được tạo 5 phút một lần, nên ban đầu hệ thống lúc hoạt động được, lúc lỗi, khiến đội ngũ kỹ thuật nhầm tưởng đây là dấu hiệu của một cuộc tấn công quy mô lớn.


🌐 Những dịch vụ bị ảnh hưởng

Hầu hết các dịch vụ cốt lõi của Cloudflare đều chịu tác động:

1. CDN & Firewall

  • Website trả về lỗi 5xx diện rộng.

  • Thời điểm nặng nhất, gần như toàn bộ lưu lượng bị gián đoạn.

2. Turnstile

  • Không thể tải → người dùng không đăng nhập được vào Cloudflare Dashboard.

3. Workers KV

  • Tỉ lệ lỗi tăng cao → ảnh hưởng tới nhiều dịch vụ phụ thuộc.

4. Cloudflare Access

  • Đăng nhập thất bại hàng loạt.

  • Những người đang có phiên đăng nhập cũ vẫn dùng được.

5. Email Security

  • Hệ thống chống spam giảm độ chính xác tạm thời.

6. Cloudflare Dashboard

  • Người dùng mới không thể đăng nhập.

  • Hệ thống bị quá tải do lượng truy cập retry quá lớn.


🕒 Dòng thời gian sự cố (giờ Việt Nam)

Thời điểmTrạng tháiMô tả
18:05Bình thườngCloudflare triển khai cập nhật quyền truy cập CSDL.
18:28Sự cố bắt đầuFile cấu hình bot lỗi được phát tán → website bắt đầu trả 5xx.
18:32 – 20:05Điều traNghi ngờ Workers KV lỗi; thử các biện pháp giảm tải. Cuộc gọi khẩn được kích hoạt lúc 18:35.
20:05Giảm ảnh hưởngBypass Workers KV & Access sang hệ thống cũ để giảm lỗi.
20:37Xác định nguyên nhânĐội kỹ thuật tập trung rollback file cấu hình Bot Management.
21:24Dừng lan truyền file lỗiNgừng ngay việc tạo mới file cấu hình lỗi.
21:30Khôi phục chínhTriển khai file cấu hình “tốt” trên toàn cầu → hệ thống dần hồi phục.
00:06 (19/11)Khôi phục 100%Tất cả dịch vụ Cloudflare hoạt động bình thường trở lại.

Thời gian gián đoạn lớn: ~3 giờ
Thời gian phục hồi hoàn toàn: ~5 giờ 38 phút


Cloudflare đã làm gì để khắc phục?

Ngay khi xác định được vấn đề, Cloudflare đã:

  • Ngừng tạo file cấu hình lỗi
  • Triển khai lại file cấu hình cũ (đã kiểm chứng)
  • Khởi động lại hệ thống proxy
  • Điều chỉnh các dịch vụ bị ảnh hưởng như Workers KV và Access
  • Giải tỏa backlog đăng nhập Cloudflare Dashboard

Cam kết của Cloudflare trong tương lai

Cloudflare cho biết sẽ:

  • Tăng cường kiểm tra khi xử lý file cấu hình nội bộ

  • Thêm nhiều “kill switch” khẩn cấp để ngắt tính năng khi cần

  • Ngăn lỗi tràn bộ nhớ gây sập hệ thống

  • Rà soát toàn bộ các mô-đun của proxy để ngăn lỗi tương tự

  • Cải tiến quy trình test để sự cố không tái diễn


Kết luận

Sự cố Cloudflare ngày 18/11/2025 là một minh chứng cho việc chỉ một thay đổi nhỏ trong hệ thống phân tán quy mô lớn cũng có thể gây ra ảnh hưởng toàn cầu.

Cloudflare đã thừa nhận đây là “sự cố tồi tệ nhất kể từ năm 2019” và cam kết tăng cường an toàn, đảm bảo Internet ổn định hơn trong tương lai.

Bài viết đầy đủ từ Cloudflare: Cloudflare outage on November 18, 2025

Author

admin

Leave a comment

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *