Niedziela jest dobrym dniem na nadrabianie zaległości na blogu i dokładną analizę błędów na stronach. Temat duplicate content jest jednym z tych, które ostatnimi czasy interesują mnie najbardziej, a dzisiaj znalazłam na jednej ze swoich stron błędy polegające na indeksowaniu wyników sortowania :/ Będzie to więc kolejny post z serii „Nauka na moich błędach” 😉
Wstęp
Zacznę od informacji z pomocy Google:
Google usilnie stara się indeksować i pokazywać jedynie strony zawierające różne treści. Stosowanie takiego filtrowania oznacza, że jeśli na przykład w witrynie występują strony w wersji standardowej i do druku, a żadna z nich nie zostanie zablokowana w pliku robots.txt ani za pomocą metatagu noindex, w wynikach wyszukiwania zostanie wymieniona tylko jedna z nich.
Tak wygląda teoria, a jak się to prezentuje w praktyce? Tak jak zwykle, czyli wyjątek potwierdza regułę. Bez problemu można znaleźć w serpach podstrony czy to z wyników wyszukiwania, czy sortowania, czy nawet wersje do druku wraz z głównymi wersjami podstron z tą samą lub bardzo podobną zawartością. To właśnie wyjątki, którym póki co się „upiekło” 😉 Niestety w każdej chwili może dojść do tego, że w serpach zostanie tylko jedna z wersji i nie musi to być ta, którą webmaster chciałby tam zobaczyć. Sama mogłam się o tym przekonać w opisywanej niedawno sytuacji (Dostępność strony głównej pod 2 adresami i problem DC), kiedy to po kilku latach nagle zaindeksowany został adres z index.php (link do tego adresu zapodział się gdzieś na stronie), a główny adres zniknął z indeksu. W rezultacie utrzymały się tylko pozycje podstron, ale strona główna z index.php w adresie poleciała, bo nie miała backlinków.
Wniosek z tego taki, że lepiej od razu zabezpieczyć się przed ewentualnym wyborem złej wersji zamiast później się martwić o to, ile czasu zajmie powrót na stare pozycje. Wracając do przypadku na mojej stronie – wyniki wyszukiwania były już zablokowane, jednak listy ogłoszeń miały opcję sortowania po różnych wartościach. Zostały one dodane w narzędziach dla webmasterów do listy ignorowanych parametrów, jednak nie jest to w tym przypadku wystarczające. Na szczęście nie zauważyłam w serpach niczego, czym powinnam się martwić, więc skończę pisać i zabieram się za poprawki 😉
Błędy powodujące DC
Powielanie treści pod różnymi adresami w tej samej domenie najczęściej występuje w następujących przypadkach:
- dostępność np. strony głównej pod wieloma adresami: domena.pl, www.domena.pl, domena.pl/index.php, domena.pl/home.php itp. – możliwości jest tutaj wiele;
- indeksowanie adresów z identyfikatorami sesji – w rezultacie Google otrzymuje identyczne wersje tej samej strony;
- indeksowanie wyników sortowania – efektem może być identyczna lub podobna treść pod różnymi adresami, różniąca się m.in. kolejnością niektórych informacji;
- indeksowanie wyników wyszukiwania.
W zależności od tego, z którym przypadkiem mamy do czynienia, rozwiązaniem problemu będzie:
- przekierowanie 301 na docelową wersję;
- użycie rel=”canonical”;
- brak indeksowania wybranych adresów.
Jak zablokować indeksowanie wybranych podstron?
Najlepszym sposobem na zabezpieczenie się przed indeksowaniem niepożądanych adresów jest połączenie następujących metod:
- nofollow w linkach prowadzących do tego adresu – dzięki temu robot nie powinien chodzić po takich linkach. Metoda ta nie jest wystarczająca, ponieważ Google może znaleźć odnośniki na innych stronach i w rezultacie trafi na te podstrony;
- blokada w robots.txt – zakazuje ona robotom wejścia na wybrane podstrony, jednak w sytuacji kiedy zostały one już zaindeksowane, spowoduje to jedynie wyświetlanie wyniku w innej formie niż standardowa, czyli w formie samego adresu podstronu w miejscu tytułu;
- noindex – dopiero w ten sposób można się pozbyć podstron z wyników wyszukiwania.
Aby to przyspieszyć, można skorzystać z opcji usuwania adresów przez narzędzia dla webmastera.
W najbliższym czasie mam zamiar napisać także na temat Duplicate content w obrębie wielu domen i zaobserwowanych przeze mnie problemów wiążących się z tym zagadnieniem. Nie wiem tylko, czy uda mi się to zrobić w tygodniu, czy dopiero w następny weekend 😉