Wróć do listy wpisów
Optymalizacja stron (SEO)
Agencja SEO i SEM > Blog > Które strony w sklepie warto zablokować przed robotem Google?

Które strony w sklepie warto zablokować przed robotem Google?

Które strony w sklepie warto zablokować przed robotem Google?

Robot Google może zaindeksować każdy zasób w serwisie, również ten, który nie posiada dla niego większej wartości. Przykładem jest formularz „zadaj pytanie” dla każdego produktu. Mówimy o przypadku, kiedy formularz generowany jest dla każdego produktu pod innym adresem URL, np. zawsze zawiera ID produktu. W najgorszym wypadku w indeksie wyszukiwarki będziemy mieli taką samą ilość produktów co stron z formularzem – a to jest zdecydowanie niewskazane.

Które strony warto blokować?

Przede wszystkim te, które naszym zdaniem nie wnoszą do serwisu żadnej dodatkowej wartości lub zawierają taką samą zawartość. W sklepach internetowych istnieje spore ryzyko indeksacji właśnie tego typu stron. Poniżej te najbardziej popularne:

1. Formularze

Wszelkiego typu formularze, do których użytkownicy sklepu mają łatwy dostęp, powinny być zablokowane. Przykładowe to: logowanie i rejestracja użytkownika, formularz newslettera, poleć znajomemu, dodaj komentarz/opinie itd. Z reguły taka strona, poza oknami do uzupełnienia danych, nie posiada innej zawartości.

2. Strony tekstowe

Częstym problem w sklepach są strony, które zawierają taki sam lub bardzo zbliżony tekst. Takie duplikaty mogą znajdować się w serwisie wewnętrznie, jak i zewnętrznie. Przykładem są strony regulaminów, polityki cookies, informacje dotyczące wysyłki i płatności.

3. Kategorie

Nie będziemy blokować wszystkich kategorii, ale te, w których nie mamy jeszcze produktów. Kategoria bez produktów nie ma żadnej wartości dla użytkownika, a tym bardziej dla robota.

4. Filtry kategorii

Strony filtrów bardzo często są indeksowane, ale w przypadku szczegółowych filtrów lub zmian w ofercie, np. usunięcia produktów, w indeksie mogą pozostać strony, które nie posiadają produktów.

5. Sortowanie, zmiany widoku

W większości sklepów istnieje możliwość sortowania produktów według ceny czy popularności. Poza kolejnością wyświetlania oferty nic się nie zmienia, więc taki duplikat strony ofertowej jak najbardziej można zablokować.

Podobna sytuacja występuje w przypadku zmiany widoku produktów w kategorii, gdy mamy do wyboru np. listę lub siatkę.

6. Paginacja

Z reguły odnośniki do pierwszej strony paginacji zawierają dodatkowy parametr (np. page=1), który nie zmienia nic w stronie poza adresem URL. Strony z taką wartością parametru należy blokować przed indeksacją lub przekierować na stronę główną kategorii.

7. Strony wyszukiwarki wewnętrznej

Użytkownicy wpisują różne zapytania, dlatego musimy pamiętać, że mogą indeksować się zapytania wyszukiwarki, dla których nie posiadamy żadnych produktów, a takie strony nie mają wartości dla użytkowników i robotów.

8. Tagi

Jeżeli mamy dużą liczbę produktów, mogą one generować ruch, ale jeżeli produktów na stronie tagów jest bardzo mało lub nie ma ich w ogóle, warto je również blokować.

Jak blokować?

Istnieje kilka możliwości, aby dana strona nie pojawiała się w indeksie lub została z niego usunięta.

1. Znacznik meta robots noindex

Znacznik meta o wartości noindex informuje robota, aby dana strona nie była indeksowana, dotyczy to również stron, które chcemy wyindeksować. W sekcji takich stron wystarczy dodać znacznik:

 <meta name="robots" content="noindex" /> 

2. Plik robots.txt

Tekstowy plik, w którym możemy wskazać pliki lub strony, do których robot nie powinien mieć dostępu – zarazem nie będzie miał możliwości ich indeksacji. Plik robots.txt powinien być dostępny zaraz po nazwie domeny np. domena.pl/robots.txt – poniżej znajduje się przykładowy kod, który spowoduje zablokowanie wybranej podstrony oraz parametru GET odpowiedzialnego za wyszukiwanie w serwisie:

User-agent: *
Allow: /
Disallow: /adres-strony.html
Disallow: /*?search=

Niestety w przypadku już zaindeksowanych zasobów umieszczenie instrukcji blokującej w pliku robots.txt nie spowoduje, że dane adresy zostaną całkowicie usunięte z indeksu Google – w wynikach wyszukiwania pojawi się za to informacja: „Opis tego wyniku jest niedostępny z powodu robots.txt”. Wówczas dobrym rozwiązaniem będzie skorzystanie z narzędzia Google Search Console i zgłoszenie za jego pomocą prośby o usunięcie tych adresów.

3. Link kanoniczny

Meta znacznik, który wskazuje pierwotną stronę. Może się sprawdzić dla parametrów sortowań, gdzie zmienia się kolejność produktów na stronie kategorii. Znacznik ten umieszczamy w sekcji . Na przykład w sytuacji, gdy mamy adres http://domena.pl/kategoria/?ordern=ASC, który zawiera parametr GET, dotyczący sortowania produktów. Jeżeli nie chcemy, aby taki duplikat strony był indeksowany, musimy dodać poniższy kod:

<link href="http://domena.pl/kategoria/" rel="canonical" >

Przekazujemy w ten sposób informację, że właściwa strona znajduje się pod adresem http://domena.pl/kategoria/.

5. Przekierowanie 301

Duplikaty stron możemy przekierować na właściwy adres, w ten sposób indeks serwisu zostanie z czasem odświeżony i znikną ewentualne duplikaty. Nagłówek HTTP 301 informuje robota, że dany zasób został przeniesiony.

Oczywiście w serwisie należy unikać niepotrzebnych przekierowań. Jeżeli przekierowanie tworzy się przez np. błędny odnośnik nawigacyjny, to poza przekierowaniem niepoprawnego adresu należy ten odnośnik poprawić.

Przekierowanie możemy wykonać w pliku konfiguracyjnym serwera – np. htaccess.

6. Strona błędu 404, 410

Oba nagłówki HTTP mogą informować robota, że strona powinna zostać usunięta z indeksu. Pierwszy nagłówek (404) mówi, że zasób nie został odnaleziony, natomiast drugi (410), że strona została trwale usunięta. Jeżeli po kilku próbach robot wyszukiwarki otrzyma jeden z tych nagłówków, z pewnością taka strona zostanie usunięta z indeksu.

Na zakończenie

Pamiętajcie, aby najpierw zlokalizować niskiej jakości strony w swoim serwisie, a następnie zastanowić się, w jaki sposób je zablokować lub usunąć z indeksu. Jeżeli nie jesteście pewni, który z sposobów będzie najlepszy, skonsultujcie się z SEOwcem, który w każdym przypadku może zasugerować najlepsze rozwiązanie, biorąc pod uwagę inne ważne aspekty, m.in. link juice (w skrócie, moc przekazywana przez link), który może zostać zmarnowany w przypadku usunięcia strony i pozostawienia pod danym adresem strony z kodem HTTP 404.