Bỏ qua tới nội dung chính

Datacenter Proxy (Proxy trung tâm dữ liệu)

Datacenter proxy là máy chủ trung gian có địa chỉ IP được đăng ký với một nhà cung cấp dịch vụ lưu trữ thương mại hoặc nền tảng đám mây — chẳng hạn như AWS, OVH hoặc Hetzner — thay vì với ISP người tiêu dùng, làm cho nó dễ dàng xác định bởi các cơ sở dữ liệu danh tiếng IP là lưu lượng không phải dân cư.

Định nghĩa

Datacenter proxy là một máy chủ proxy có địa chỉ IP đầu ra bắt nguồn từ phân bổ IP của một nhà cung cấp dịch vụ lưu trữ thương mại, nền tảng đám mây hoặc cơ sở colocation. Khi lưu lượng internet được định tuyến qua một datacenter proxy, máy chủ đích thấy một địa chỉ IP nguồn thuộc về mạng của một công ty như Amazon Web Services, Google Cloud Platform, Microsoft Azure, DigitalOcean, OVHcloud, Hetzner Online, Linode (nay là Akamai) hoặc một trong hàng nghìn nhà cung cấp dịch vụ lưu trữ nhỏ hơn trên toàn thế giới.

Điều này tương phản với các địa chỉ IP dân cư, được gán bởi các ISP người tiêu dùng như Comcast, BT hoặc Jio cho các kết nối băng thông rộng gia đình và thuê bao di động. Sự phân biệt này quan trọng vì các cơ sở dữ liệu danh tiếng IP — được duy trì bởi MaxMind, Spamhaus, IPinfo và những người khác — phân loại rõ ràng các dải địa chỉ của nhà cung cấp dịch vụ lưu trữ, làm cho IP trung tâm dữ liệu dễ dàng được xác định là lưu lượng không phải người tiêu dùng.

Datacenter Proxy hoạt động như thế nào

Một triển khai datacenter proxy thường bao gồm một hoặc nhiều máy chủ được cung cấp tại một nhà cung cấp dịch vụ lưu trữ. Mỗi máy chủ được gán một hoặc nhiều địa chỉ IPv4 hoặc IPv6 công cộng từ phân bổ IP của nhà cung cấp dịch vụ lưu trữ. Phần mềm proxy — phổ biến là Squid, Dante hoặc một SOCKS5 hoặc HTTP proxy daemon tùy chỉnh — lắng nghe trên một cổng và chuyển tiếp các yêu cầu kết nối đến đến đích mục tiêu, thay thế IP trung tâm dữ liệu của máy chủ làm nguồn rõ ràng.

Khách hàng kết nối với máy chủ proxy bằng địa chỉ và cổng của proxy, xác thực nếu cần, và phát hành các yêu cầu của họ. Proxy chuyển tiếp các yêu cầu này đến trang web mục tiêu và trả về các phản hồi. Trang web mục tiêu ghi lại IP trung tâm dữ liệu là địa chỉ của khách truy cập.

Datacenter proxy nhanh chóng và rẻ tiền để cung cấp — một máy chủ đám mây duy nhất có thể xử lý hàng trăm hoặc hàng nghìn kết nối đồng thời, và các địa chỉ IPv4 từ các nhà cung cấp lớn có giá phần nhỏ của một xu mỗi giờ. Điều này làm cho chúng hấp dẫn cho các tác vụ tự động hóa khối lượng lớn như cào web, theo dõi giá và kiểm tra tự động.

Lợi thế tốc độ và chi phí đi kèm với một vấn đề khả năng phát hiện cơ bản: mọi cơ sở dữ liệu danh tiếng IP lớn duy trì các danh sách toàn diện, được cập nhật thường xuyên về các dải IP của nhà cung cấp dịch vụ lưu trữ. Cơ sở dữ liệu GeoIP2 Anonymous IP của MaxMind, ví dụ, đánh dấu rõ ràng các địa chỉ từ hơn 3.000 ASN của nhà cung cấp dịch vụ lưu trữ và VPN đã biết. Các sản phẩm quản lý bot của Cloudflare áp dụng phân loại tương tự cho tất cả lưu lượng đi qua mạng của họ. Danh sách chặn BGP của Spamhaus bao gồm nhiều dải nhà cung cấp dịch vụ lưu trữ. Bất kỳ nền tảng nào truy vấn các cơ sở dữ liệu này — đó là thực tiễn tiêu chuẩn cho phòng chống gian lận cuộc thi — có thể từ chối các phiếu bầu xuất xứ trung tâm dữ liệu ở lớp mạng đầu tiên trước khi cần phân tích sâu hơn.

Bạn gặp Datacenter Proxy ở đâu

Datacenter proxy phổ biến trong các hoạt động kỹ thuật hợp pháp: các mạng phân phối nội dung như Cloudflare, Fastly và Akamai phục vụ nội dung web từ IP trung tâm dữ liệu; các dịch vụ VPN doanh nghiệp như Cisco AnyConnect và GlobalProtect định tuyến lưu lượng doanh nghiệp qua các điểm cuối trung tâm dữ liệu; cơ sở hạ tầng cào web cho các dịch vụ so sánh giá và các công ty nghiên cứu thị trường chạy trên các máy chủ trung tâm dữ liệu.

Trong bối cảnh phát hiện gian lận, IP trung tâm dữ liệu được gặp phải như tín hiệu đầu tiên mà một nền tảng cuộc thi kiểm tra. Các nền tảng chống bot hiện đại, bao gồm Cloudflare Bot Management, DataDome và HUMAN Security, sử dụng phân loại ASN trung tâm dữ liệu như một bộ lọc giai đoạn đầu từ chối hoặc xem xét kỹ lưỡng bất kỳ yêu cầu nào bắt nguồn từ một dải nhà cung cấp dịch vụ lưu trữ mà không cần phân tích thêm.

Ví dụ thực tế

Một nền tảng cuộc thi mạng xã hội ghi lại các địa chỉ IP với mỗi lần gửi phiếu bầu và chạy mỗi địa chỉ qua cơ sở dữ liệu GeoIP2 của MaxMind theo thời gian thực. Trong cửa sổ 12 giờ, 2.400 phiếu bầu đến từ các địa chỉ IP mà cơ sở dữ liệu phân loại là thuộc về Amazon Web Services, OVHcloud và DigitalOcean. Logic xác thực của nền tảng tự động loại bỏ các phiếu bầu này trước khi chúng đến cơ sở dữ liệu kiểm phiếu, và nhật ký phiếu bầu bị loại bỏ được bảo tồn cho mục đích kiểm toán.

Một nhà nghiên cứu gian lận cuộc thi xuất bản một phân tích so sánh tỷ lệ chấp nhận phiếu bầu được gửi qua datacenter proxy so với residential proxy trên mười nền tảng cuộc thi trực tuyến. Nghiên cứu cho thấy các phiếu bầu xuất xứ trung tâm dữ liệu bị 8 trên 10 nền tảng từ chối hoàn toàn ở lớp mạng, trong khi các phiếu bầu xuất xứ dân cư vượt qua bộ lọc ban đầu tương tự trên cả 10 nền tảng. Nhà nghiên cứu quy sự khác biệt cho phân loại ASN trong cả tám trường hợp từ chối.

Một đội bảo mật tại một nền tảng cuộc thi xem xét nhật ký truy cập của họ và phát hiện ra rằng cơ quan tiếp thị của một đối thủ cạnh tranh đã gửi hàng trăm phiếu bầu bằng cách sử dụng IP trung tâm dữ liệu được thuê từ Hetzner. ASN của dải IP là một nhà cung cấp dịch vụ lưu trữ đã đăng ký, vì vậy tất cả các lần gửi đã bị loại bỏ một cách im lặng. Đội sử dụng dữ liệu này để ghi lại nỗ lực gian lận cho nhà tài trợ cuộc thi.

Khái niệm liên quan

Các địa chỉ IP dân cư đại diện cho lựa chọn thay thế cho IP trung tâm dữ liệu — các địa chỉ được gán cho người tiêu dùng vượt qua bộ lọc phân loại ASN bằng cách bắt nguồn từ các kết nối gia đình hoặc di động chân chính. Phân tích đa dạng ASN là kỹ thuật cấp mạng phát hiện lưu lượng tập trung trong một số ít ASN, đó là một mẫu đặc trưng của việc sử dụng datacenter proxy. Các địa chỉ IP nhà mạng di động chiếm vị trí trung gian: được phân bổ bởi các nhà mạng di động thay vì các nhà cung cấp dịch vụ lưu trữ, chúng được phân loại là lưu lượng người tiêu dùng nhưng có các đặc điểm riêng biệt — đặc biệt là carrier-grade NAT — ảnh hưởng đến cách các nền tảng xử lý chúng.

Hạn chế / Lưu ý

Cơ sở dữ liệu phân loại IP không hoàn toàn chính xác hoặc hoàn toàn cập nhật. Các khối địa chỉ IP được mua, bán và phân bổ lại giữa các nhà cung cấp dịch vụ lưu trữ và ISP một cách liên tục. Một khối là dân cư một năm trước có thể bây giờ nằm trong dải trung tâm dữ liệu, hoặc ngược lại. MaxMind, IPinfo và các nhà cung cấp tương tự xuất bản các thống kê độ chính xác cho cơ sở dữ liệu của họ, nhưng các sự khác biệt xảy ra, đôi khi khiến những người dùng hợp pháp kết nối qua mạng doanh nghiệp hoặc giáo dục bị phân loại không chính xác là lưu lượng trung tâm dữ liệu.

Từ blog — hướng dẫn & trường hợp

Hướng dẫn thực tiễn, tìm hiểu sâu kỹ thuật, và trường hợp ẩn danh.60+ bài viết. Lựa chọn xoay.

Victor Williams — founder of Buyvotescontest.com
Victor Williams
Online · thường trả lời trong 5 phút

Chào 👋 — gửi URL cuộc thi đi, trong 1 giờ tôi sẽ báo giá. Chưa cần thẻ.