Referer spam? Kösz nem!
Megy úgy általában semmilyen spamből nem kérek. Csak hát ezek a spammerek már csak ilyenek. Szarnak a fejemre. Meg mindenki máséra is. Ne röhögj, a tiédre még hugyoznak is!
Az utóbbi időben feltűnt, hogy néhány oldalam látogatottsági statisztikája tele van spam linkekkel. Buta dolog, mert a látogatottsági statisztikákat csak az oldal adminisztrátor(ok) érheti(k) el. Akinek meg van hozzá jogosultsága, tuti nem fog rákattintani egy ilyen linkre, mert tudja, hogy miről is van szó.
Pontosan miről is van szó?
Arról, kérlek szépen, hogy bizonyos oldalak csalással szeretnének előrébb jutni a keresőoldalak (pl. Google) találati listájában. Mégpedig úgy, hogy más, külső oldalakon hivatkozásokat helyeznek el az ő oldalukra, ezáltal növelve az oldaluk pagerank-ét. Akinek nagyobb a pagerank-je, az előrébb kerül a találati listában.
Mégis hogyan csinálják? Feltörik az oldalt?
Nem, csak hamis üzeneteket küldenek. Az oldal letöltésekor a HTTP-kérésben a referer mezőt a böngészőprogramok általában kitöltik. Ez a mező mondja meg a az oldalnak, hogy honnan jött a kérés, honnan linkeltek az oldalra. A spammer annyit tesz, hogy speciális egy programmal meghamisítja ezt a mezőt, és olyan referer mezőt küld, amiben a reklámozott oldal linkje van. Ilyen hamis kéréseket, oldalletöltéseket több százezres, vagy akár milliós nagyságrendben küldenek a megcélzott oldalak felé. A nagy számok törvénye alapján biztos lesz jócskán olyan ahol nyilvánosak, vagy szélesebb körben elérhetők a látogatottsági statisztikák, és akkor azokról az oldalakról nagy valószínűséggel elég sok kattintás, hivatkozás fog érkezni a reklámozott oldalra. Tulajdonképpen nem is kell közvetlenül rákattintani, mert a keresőoldalak indexelik szinte az egész nyilvános webet, beleértve a látogatottsági statisztikákat is.
Mit lehet tenni ellene?
Sokat, pl. ha figyelsz arra, hogy az oldalad látogatottsági statisztikája ne legyen nyilvános, akkor ugyan még bekerülnek a statisztikába a hamis referer-ek, de a keresők nem fogják tudni indexelni.
Figyelheted az ilyen oldalakat és a .htacess fájl segítségével blokkolhatod. Valahogy így:
SetEnvIfNoCase Referer "^http://(www.)?some-spammer.com" spam_ref=1
SetEnvIfNoCase Referer "^http://(www.)?other-spammer.com" spam_ref=1
SetEnvIfNoCase Referer "^casino-poker" spam_ref=1
# block all referres that have spam_ref set
<FilesMatch "(.*)">
Order Allow,Deny
Allow from all
Deny from env=spam_ref
</FilesMatch>
Hát ez elég macerás. Ha szerencséd van, akkor max. egy-két helyről kapsz ilyen hamisított lekéréseket. Nálam több száz ilyen van, ami szinte teljesen értelmezhetetlenné teszi látogatottsági statisztikákat.
Ha nem akarod elrejteni a látogatottsági statisztikát, akkor megcsinálhatod úgy is, hogy a hivatkozó url ne link legyen, hanem csak sima szöveg. Vagy akár használhatsz valami dereferer megoldást is. Ezek úgy működnek, hogy egy script segítségével átírják a külső hivatkozásokat, hogy úgy tűnjön, hogy nem a te oldaladról, hanem egy teljesen más oldalról érkezett hivatkozás a reklámozott oldalra. Ez max. a kattintások ellen jó, a keresőoldalak az indexelés közben valószínűleg nem fogják végrehajtani az oldalba scripteket, ezért az adatbázisaikba a valós linkek fognak bekerülni.
Ilyen esetben talán legjobb, ha linkeket kiegészíted egy rel="nofollow
" attribútummal. Ez azt jelzi, a kereső indexeknek, hogy ne menjen tovább a linken, így elvileg be sem kerül az indexbe. Elvileg. A keresők egyénileg eldöntheti, hogy figyelembe veszik-e a nofollow attribútumot vagy sem.
Akkor mi a megoldás?
Nyilván nem fogsz jogi lépéseket kezdeményezni minden spammer ellen, aki kéretlen reklámokat, linkeket helyezett el az oldaladon. Hidd el, ezek sűrűbben váltogatják az IP-címeiket, mint te az alsógatyádat.
Olyan megoldás kellene találni, ami kirúgja az oldalról a spammert, mielőtt még bármit is csinálhatna.
Kicsit utánajártam a dolognak és találtam egy lég jó megoldást: Bad Behavior. Ez pont azt csinálja amit szeretnék. Még az előtt lefut, mielőtt a lekérdezés megékezne az oldalhoz, a spammer meg kap egy szép 4xx-es hibakódot.
Azon kívül, hogy a spammer nem kapja meg amit akar, nem elhanyagolható, hogy szerver oldalon mennyi CPU időt, adatbázis tárhelyet és sávszélességet spórolhatunk meg.
Hogyan működik?
Jól. A készítői szerint fekete mágia, de mivel nyílt forrású, egy kis szakértelemmel könnyen rá lehet jönni. Egy csomó népszerű CMS-hez könnyen illeszthető. Pl. van hozzá Drupal modul és WordPress plugin is.
- falu blogja
- A hozzászóláshoz be kell jelentkezni