Jak zablokovat přístup k SeekportBot nebo jinému crawKlikl jsem na web

Většinou, když potřebujete zablokovat přístup SeekportBot nebo jiné crawl bots s webem jsou důvody jednoduché. Webový pavouk provádí příliš mnoho přístupů v krátkém časovém období a požaduje zdroje webového serveru, nebo pochází z vyhledávače, ve kterém nechcete, aby byl váš web indexován.

Je to velmi výhodné pro web navštěvovaný crawNarazil jsem do něj. Tyto webové pavouky jsou navrženy tak, aby prozkoumávaly, zpracovávaly a indexovaly obsah webových stránek ve vyhledávačích. Google a Bing používají takové crawNarazil jsem do něj. Existují však i vyhledávače, které ke sběru dat z webových stránek využívají roboty. Seekport je jedním z těchto vyhledávačů, který používá crawSeekportBot ler pro indexování webových stránek. Bohužel to někdy nadměrně využívá a vytváří zbytečný provoz.

Co je SeekportBot?

SeekportBot je web crawler vyvinuté společností Seekport, která sídlí v Německu (ale používá IP adresy z několika zemí, včetně Finska). Tento bot se používá k procházení a indexování webových stránek, aby se mohly zobrazovat ve výsledcích vyhledávačů. Seekport. Nefunkční vyhledávač, pokud mohu soudit. Alespoň mi to nevrátilo žádné výsledky pro žádnou klíčovou frázi.

SeekportBot Použití user agent:

"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"

Jak zablokovat přístup k SeekportBot nebo jinému crawKlikl jsem na web

Pokud jste došli k závěru, že tento či jiný webový pavouk není nutné prohledávat celý váš web a zbytečně na něm provozovat webový server, máte několik způsobů, jak mu můžete zablokovat přístup.

Firewall na úrovni webového serveru

Jsou to aplikace firewallu open-source které lze nainstalovat na operační systémy Linux a lze jej nakonfigurovat tak, aby blokoval provoz na základě několika kritérií. IP adresa, umístění, porty, protokoly nebo uživatelský agent.

APF (Advanced Policy Firewall) je takový software, jehož prostřednictvím můžete blokovat nežádoucí roboty na úrovni serveru.

Protože SeekportBot a další weboví pavouci používají více bloků IP adres, nejúčinnější pravidlo blokování je založeno na „user agent". Pokud tedy chcete zablokovat přístup SeekportBot prostřednictvím APF, vše, co musíte udělat, je připojit se k webovému serveru přes SSHa přidejte pravidlo filtru do konfiguračního souboru.

1. Otevřete konfigurační soubor pomocí nano (nebo jiného vydavatele).

sudo nano /etc/apf/conf.apf

2. Hledejte řádek, který začíná „IG_TCP_CPORTS“ a na konec tohoto řádku přidejte uživatelského agenta, kterého chcete zablokovat, a za ním čárku. Například pokud chcete blokovat user agent "SeekportBot", řádek by měl vypadat takto:

IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"

3. Uložte soubor a restartujte službu APF.

sudo systemctl restart apf.service

Přístup „SeekportBot“ bude zablokován.

Filtr web crawls s pomocí Cloudflare – Blokovat přístup SeekportBot

S pomocí Cloudflare se mi jeví jako nejbezpečnější a nejpohodlnější metoda, kterou můžete různým způsobem omezit přístup některých botů na web. Metoda, kterou jsem použil i v případě SeekportBot k filtrování návštěvnosti internetového obchodu.

Za předpokladu, že již máte web přidaný do Cloudflare a jsou aktivovány služby DNS (to znamená, že provoz na webu prochází přes Cloudflare), postupujte takto:

1. Otevřete svůj účet Clouflare a přejděte na webovou stránku, pro kterou chcete omezit přístup.

2. Přejděte na: Security → WAF a přidat nové pravidlo. Create rule.

3. Vyberte název nového pravidla, Field: User Agent - Operator: Contains - Value: SeekportBot (nebo jiné jméno robota) – Choose action: Block - Deploy.

Jak zablokovat přístup SeekportBot
Zablokujte přístup k SeekportBot z Cloudflare

Během několika sekund nové pravidlo WAF (Web Application Firewall) začíná působit.

Události brány firewall v Cloudflare
Události brány firewall v Cloudflare

Teoreticky lze nastavit frekvenci, se kterou webový pavouk přistupuje na web robots.txt, ale... je to jen teoreticky.

User-agent: SeekportBot
Crawl-delay: 4

Mnoho web crawlerii (s výjimkou Bing a Google) tato pravidla nedodržují.

Na závěr, pokud identifikujete web crawKdo nadměrně přistupuje na vaše stránky, je nejlepší mu přístup úplně zablokovat. Samozřejmě, pokud tento robot nepochází z vyhledávače, ve kterém máte zájem být přítomen.

Věnovaný technologiím, s radostí píši na StealthSettings.com od roku 2006. Mám bohaté zkušenosti s operačními systémy: macOS, Windows a Linux, stejně jako s programovacími jazyky a platformami pro blogování (WordPress) a pro online obchody (WooCommerce, Magento, PrestaShop).

jak na to » Net Surfing » Jak zablokovat přístup k SeekportBot nebo jinému crawKlikl jsem na web
Zanechat komentář