Botok detektálása a weben

2021-2022 ősz

Nincs megadva

Téma leírása

A weben egyre égetőbb probléma a botok (vagy robotok) forgalmának elválasztása az organikus forgalomtól. A robotok a weboldal teljeskörű bejárásával lemásolhatják a hosszú idő alatt és költségesen felépített tartalmakat, érzékeny vagy adatvédelmi szabályozás alá eső személyes adatokat gyűjthetnek össze, vagy egyszerűen online csalás húzódik meg a robot-forgalom mögött, legyen az akár automatizált tevékenység vagy ember által vezérelt. Felmerülhet az is, hogy nem kívánunk minden robotot kiszűrni, mert a Google robotjait beengednénk, de egy bizonyos rosszindulatúnak vélt forgalmat útját pedig szeretnénk elvágni.

A robotok általában könnyen felismerhetőek az user agent string segítségével, ami eredetileg a böngésző program (és a kapcsolódó szoftver stack) beazonosítását hivatott segíteni. Például a python urllib UAS-ja "Python-urllib/3.6", ami így könnyen felismerhetővé teszi a kíváncsi scriptet a weboldal tulajdonosának. Ezért készítőik megpróbálják a robotokat klasszikus asztali, vagy mobil böngészőprogramnak álcázni. Ehhez az első lépés az UAS lecserélése, majd pedig a robot viselkedésének átalakítása úgy, hogy ha működését tesztelik, a hamisítani kívánt klasszikus böngészőére hasonlítson, de legalábbis ne lehesen felismerni, hogy egy bot platformról van szó.

A hallgató feladata megismerkedni a bot detektálási technikák szakirodalmával és a konzulenssel egyeztetett módszer, módszereket implementálni, és élesben gyűjtött adatokon tesztelni.

További olvasnivaló érdeklődőknek:

 

Ha érdekel a téma, keress meg, és beszéljünk róla személyesen vagy Teams-en!

Maximális létszám: 2 fő