Definicja
Wykrywanie anomalii to dziedzina nauki o danych i uczenia maszynowego zajmująca się identyfikowaniem obserwacji, które znacząco odbiegają od ustalonej normy. W kontekście oszustw związanych z konkursami online systemy wykrywania anomalii monitorują przychodzące strumienie głosów i porównują je — w czasie rzeczywistym lub niemal rzeczywistym — z modelami statystycznymi tego, jak wygląda prawdziwy ruch konkursowy. Odchylenia uruchamiają alerty, kwarantannę głosów lub automatyczne odrzucenia.
Technika ta nie jest specyficzna dla zapobiegania oszustwom: wywodzi się z wykrywania awarii w przemyśle, została sformalizowana w obszarze bezpieczeństwa informacji do wykrywania włamań, a obecnie jest osadzona w platformach cloud-native pochodzących od dostawców takich jak Cloudflare, AWS GuardDuty i Datadog. Słownik terminów bezpieczeństwa komputerowego NIST definiuje wykrywanie anomalii jako identyfikację włamań poprzez porównanie zaobserwowanego zachowania systemu z oczekiwanymi profilami zachowań. Wykrywanie oszustw w konkursach stosuje tę samą zasadę do danych dotyczących przesyłanych głosów.
Jak działa wykrywanie anomalii
Systemy wykrywania anomalii w środowiskach konkursowych działają jednocześnie w kilku wymiarach analitycznych.
Analiza prędkości monitoruje tempo przesyłania głosów na jednostkę czasu. Prawdziwy ruch konkursowy podąża rytmami w skali ludzkiej: skoki zazwyczaj występują po wysłaniu newslettera przez organizatora, opublikowaniu w mediach społecznościowych lub gdy konkurs pojawia się w artykule prasowym. Kampanie napędzane botami często generują wskaźniki przesłań rzędy wielkości wyższe niż ruch organiczny, przybywając w utrzymywanych płaskich falach, a nie w spiczastej, wygasającej formie typowej dla wzrostu z odsyłaczy w mediach społecznościowych. Reguły prędkości oparte na progach (np. „oznacz, jeśli więcej niż 200 głosów na minutę przychodzi ze źródeł niepasujących do znanego ruchu odsyłającego”) to najprostsza forma takiej analizy.
Wykrywanie klastrowania geograficznego sprawdza, czy źródła głosów rozkładają się w lokalizacjach zgodnych z oczekiwaną publicznością. Konkurs lokalnej piekarni w Austin w Teksasie, który nagle otrzymuje 3000 głosów z adresów IP zlokalizowanych w Europie Wschodniej, stanowi anomalię geograficzną — wykrywalną poprzez bazy geolokalizacji IP, takie jak te utrzymywane przez MaxMind czy ipinfo.io.
Analiza niejednolitego wieku kont dotyczy platform wymagających rejestracji wyborców. Jeśli duża część głosów pochodzi z kont utworzonych w ciągu kilku godzin od ogłoszenia konkursu, rozkład wieku kont wnoszących głosy jest anomalny w stosunku do bazowej linii platformy. Prawdziwa publiczność platformy ma rozkład wieku kont rozłożony na miesiące lub lata.
Analiza wzorców czasowych wykrywa mechaniczną regularność. Wyborcy ludzcy oddają głosy w nieregularnych odstępach, odzwierciedlających nieprzewidywalność ludzkiej uwagi. Zautomatyzowane przesyłanie głosów często wytwarza wzorzec przybywania o rozkładzie Poissona z niezwykle stałymi odstępami między przesłaniami — sygnaturą statystyczną wykrywalną testami zgodności rozkładu.
Klastrowanie na poziomie sieci sprawdza, czy głosy grupują się według ASN, podsieci lub zakresów IP w sposób niespójny z geografią organicznej publiczności. To zazębia się z analizą różnorodności ASN.
Nowoczesne systemy łączą te sygnały za pomocą zespołowych modeli uczenia maszynowego — klasyfikatorów gradient boosting trenowanych na oznakowanych zestawach danych ze znanych kampanii oszustw oraz znanego ruchu organicznego — zamiast stosować każdą regułę niezależnie.
Gdzie się z tym spotkasz
Wykrywanie anomalii jest osadzone w warstwach przeciwdziałania oszustwom enterprise’owych platform konkursowych (Woobox, ShortStack, Gleam), funkcjach głosowania w mediach społecznościowych (ankiety na Facebooku, Instagramie, Twitterze/X) oraz w niestandardowych implementacjach mikrowitryn konkursowych integrujących produkty zarządzania botami od dostawców takich jak HUMAN Security, DataDome, Arkose Labs i Kasada. Jest również obecne w produkcie Bot Management Cloudflare, który stosuje punktację anomalii do całego ruchu przechodzącego przez ich sieć i udostępnia operatorom witryn wyniki bota dla każdego żądania za pośrednictwem Workers.
Praktyczne przykłady
Internetowa platforma głosowania fanowskiego dla regionalnej nagrody muzycznej zauważa nietypowe zdarzenie prędkości w panelu monitorowania: jedno zgłoszenie konkursowe otrzymuje 800 głosów w ciągu 4 minut, co stanowi tempo 40 razy wyższe niż 30-dniowe maksimum platformy dla jakiegokolwiek wcześniejszego organicznego skoku. System wykrywania anomalii automatycznie kieruje partię do kwarantanny i powiadamia administratora platformy. Ręczna weryfikacja potwierdza, że wszystkie 800 głosów pochodzi z dwóch ASN i ośmiu różnych odcisków przeglądarki.
Konkurs głosowania charytatywnego zintegrowany z Google reCAPTCHA Enterprise wykorzystuje raportowanie anomalii platformy Enterprise do zidentyfikowania klastra 500 przesłań głosów z wynikami v3 poniżej 0,2, wszystkie przybywające w 20-minutowym oknie z jednej podsieci IP /24 zarejestrowanej u dostawcy ISP rezydencjalnego w Rumunii. Operator konkursu dostosowuje próg punktacji i unieważnia dotknięte głosy przed opublikowaniem ostatecznych wyników.
Konkurs pitchingu uniwersyteckiego korzysta z niestandardowej warstwy wykrywania oszustw zbudowanej na bibliotece scikit-learn języka Python. Jednoklasowy SVM trenowany na trzech miesiącach prawdziwego ruchu głosowego oznacza zestaw przesłań z wiekiem kont poniżej 2 godzin, zerową wcześniejszą aktywnością na platformie i czasami wypełniania formularza poniżej 4 sekund — to złożony profil anomalii, którego model nie został wprost zaprogramowany do wykrywania, lecz nauczył się go z rozkładu prawdziwych zachowań.
Powiązane pojęcia
Biometria behawioralna dostarcza sygnałów na poziomie sesji, które stanowią poszczególne cechy w modelach wykrywania anomalii. Analiza różnorodności ASN jest techniką wykrywania anomalii na poziomie sieciowym, skupiającą się szczególnie na rozkładzie operatorów sieci pochodzenia. Ograniczanie tempa to prostszy, oparty na progach kuzyn wykrywania anomalii, który wymusza stałe limity zamiast statystycznych odchyleń od wyuczonej linii bazowej.
Ograniczenia / zastrzeżenia
Systemy wykrywania anomalii wymagają znaczącej linii bazowej historycznego ruchu do kalibracji. Nowe konkursy bez wcześniejszej historii stwarzają problem zimnego startu: nie istnieje żaden ustalony stan normalny, od którego można by się odchylać. Platformy radzą sobie z tym, stosując modele bazowe na poziomie populacji z podobnych konkursów z przeszłości. Ponadto reguły oparte na progach mogą być błędnie skalibrowane w obu kierunkach — zbyt czułe i prawdziwe wzrosty głosów z wirusowego udostępniania w mediach społecznościowych są fałszywie oznaczane; zbyt łagodne i skoordynowane kampanie oszustw przechodzą niezauważone.