20 października 2013

Zaczniemy blokować roboty skanerów cen

W coraz liczniejszych publikacjach można zapoznać się z ideą serwisów, które dostarczają sklepom internetowym informacji który sklep ma dostępny dany towar oraz po ile go sprzedaje. Czy zastanawiali się Państwo, skąd te serwisy biorą takie informacje? Podstawą ich działania są roboty, podobne do tych stosowanych przez wyszukiwarki tak jak np. Google, które odwiedzają sklep internetowy i skanują karta towaru po karcie towaru, wyciągając informację o cenie i dostępności z kodu HTML. Teoretycznie nieszkodliwy proces, może odbić się mocno na kosztach i dostępności sklepu dla normalnych klientów. Roboty skanerów cenowych nie działają bowiem jak zaawansowane roboty Google, które dostosowują częstotliwość indeksowania do popularności sklepu i szybkości odpowiadania, zauważając fakt, że np. otwierając strony zbyt szybko, doprowadza to do zwalniania czasu odpowiedzi. W ten sposób robot Google niweluje negatywne konsekwencje. Jak wynika z naszych obserwacji, nic takiego nie ma miejsca przy robotach skanerów cen.

Te, bez pardonu, potrafią zeskanować (wywołać i otworzyć) 10 tys. kart towaru w ciągu pół godziny co daje 5 wywołań stron dynamicznych na sekundę na jeden skaner. A takich skanerów działa już kilkanaście i stale przybywa ich na ilości. Skanowanie przez takie roboty może doprowadzać nawet to braku dostępności sklepu (gdy np. skanują w tym samym czasie sklep 3 skanery, a dysponuje on niewielkim zapasem mocy obliczeniowej), w swoim działaniu przypominając ataki DDOS, skanując jeden sklep jednocześnie nawet ze 100 adresów IP. Dlatego od jutra rozpoczynamy proces zabezpieczenia sklepów IAI-Shop.com przed takim procederem.

Pierwsza zmiana jaką wprowadzamy dotyczy pliku robots.txt. Pod edycją jego zawartości (zakładka panelu administracyjnego MODERACJA \ SEO - Optymalizacja do wyszukiwarek \ Zawartość pliku robots.txt) pojawia się opcja "Czy dodać do pliku robots.txt dyrektywy blokujące zidentyfikowane przez IAI roboty skanerów cen?". Domyślnie opcja przy instalacji będzie włączona na "tak" czyli zostaną dodane do pliku, który powinien być odczytany przez te roboty, prośby o nie skanowanie sklepu. Oczywiście, jeżeli nie mają Państwo nic przeciwko takiemu skanowaniu, wystarczy dyrektywy usunąć poprzez przełączenie w/w opcji na "nie".

Zmodyfikowany wygląd narzędzia do zarządzania plikiem robots.txt, wzbogacone o narzędzie dodawania dyrektyw blokujących roboty znanych skanerów cen.

Będziemy też wypatrywali kolejnych serwisów, które w przypadku zidentyfikowania będą dopisywane do tej opcji, bez potrzeby wprowadzania dalszych zmian przez klientów. Wystarczy ogólna deklaracja, czy chcą blokować znane roboty skanerów cen, czy nie.

Jeżeli jakiś serwis nie będzie stosował się do dyrekty, które sam podaje, że deklaruje honorować będziemy wprowadzali permanentną blokadę na adres IP, która będzie dotyczyła już wszystkich klientów a nie tylko tych, którzy dodają dyrektywy do pliku robots.txt.