Wiadomość o udostępnieniu „tajnego” pliku z wytycznymi pracy dla zespołu Search Quality Team szybko obiegła świat. Wersja z 2 listopada 2012 r. jest dostępna pod tym adresem i jest to jedynie fragment oryginału, aczkolwiek warto się z nim zapoznać. Poniżej znajduje się skrót z tego, co dotychczas wyczytałam w tym dokumencie.
Zacznę od tego, że wyniki wyszukiwania Google są oceniane zarówno przez algorytm, jak i pracowników Google. W drugim przypadku, jednym z ich zadań jest ocena strony docelowej (z ang. landing page) w kontekście wyszukanej frazy, właśnie na podstawie opracowanych przez Google wytycznych. Oceniane jest, na ile przydatna jest oceniana strona dla użytkownika. Najważniejsze w tej ocenie jest wczucie się w wyszukującego i ustalenie, jakie miał intencje podczas wyszukiwania, co jest ustalane na podstawie szukanych fraz. Te zaś dzielą się na następujące:
- zapytania akcji – zapytania sugerujące, że użytkownik szuka stron, na których może dokonać akcji w postaci pobrania pliku, dokonania zamówienia itp. Często frazy te zawierają słowa takie jak np. „download”;
- zapytania informacyjne – wskazują na wyszukiwanie serwisów z informacjami na zadany temat, np. informacje o chorobach;
- zapytania nawigacyjne – widać po nich, ze użytkownik chciał trafić na konkretną stronę.
Należy również mieć na uwadze lokalizację wyszukującego i ocenić dopasowanie wyników do niej.
Oto kilka zasad obowiązujących podczas dokonywania oceny:
- ocena dotyczy wyłącznie landing page, na jaką użytkownik trafia po wpisaniu danej frazy. Nie jest oceniany cały serwis;
- ocena dotyczy wyłącznie treści dostarczonej przez webmastera, nie reklam czy linków do innych stron;
- najważniejsze jest, czy i w jakim stopniu stron docelowa spełnia potrzeby wyszukującego;
- oprócz oceny przydatności, Google Rater może nałożyć na stronę docelową jedną z flag: nie spam, prawdopodobnie spam, spam, szkodliwa strona (z ang. malicious);
- pracownicy zespołu mogą zajmować się wyłącznie oceną stron w języku i z lokalizacji, z jakiej sami pochodzą, ponieważ muszą jak najlepiej znać intencje i używane słownictwo, aby dokonać rzetelnej oceny
- GQR (Google Quality Rater) może zaprzestać oceny, jeśli trafi na podejrzany plik. Poza tym, ma ustawiać status „Unratable” (Brak oceny), jeśli strona zwraca nagłówek 404, jest stroną w budowie, lub wyświetla komunikat o prawdopodobnej szkodliwości strony.
Bardzo ważne w ocenie jest określenie, czy szukana fraza jednoznacznie odnosi się do konkretnego znaczenia. Przykładowo, słowo „zamek” nie jest jednoznaczne – może oznaczać budowlę, zamek do spodni, czy zamek z piasku. Dlatego dla wieloznacznych fraz ustalono 3 oznaczenia:
- znaczenie dominujące – to znaczenie, które większości użytkownikom przychodzi na myśl jako pierwsze. Podano tu angielski przykład „windows”, który większości kojarzy się z systemem operacyjnym, a nie liczbą mnogą słowa „okno”;
- znaczenie powszechne – chodzi o zapytania, które mają wiele popularnych znaczeń, ale żadne z nich nie jest dominujące;
- znaczenie rzadkie, mało istotne – tutaj mowa jest o mało znaczące, rzadko używane znaczenia danej frazy.
Jak się za chwilę okaże, podział ten jest istotny dla dalszej oceny. Przykładowo, strony znalezione po wyszukaniu fraz o rzadkim znaczeniu, powinny być oceniane niżej niż pozostałe, ponieważ jest mniejsze prawdopodobieństwo tego, że spełniają one oczekiwania większości internautów.
Strony docelowe są oceniane w następującej skali:
- istotne (z ang. vital) – szkolna 5 – strona docelowa została wyszukana po wpisaniu frazy nawigacyjnej, która jasno wskazuje, że użytkownik chciał trafić na tę właśnie stronę. Będą to zazwyczaj oficjalne strony osób, firm, miejsc, organizacji itp. Co ciekawe, może się zdarzyć, że zawartość tych stron nie będzie najwyższej jakości, aczkolwiek takie sytuacje powinny należeć do rzadkości;
- przydatne (z ang. useful) – szkolna 4 – są to strony wysokiej jakości (nie są to strony oflagowane jako spam), trafne dla wyszukiwanego hasła i przydatne dla większości użytkowników szukających wyników dla danego hasła. Zazwyczaj dostarczają aktualnych informacji na dany temat, a zatem będą to w większości popularne portale takie jak wp.pl. Strony te są dobrze zorganizowane i są zaufanym źródłem informacji. W przeciwieństwie do oceny „vital”, jako „useful” może zostać oznaczonych wiele stron docelowych;
- odpowiednie (z ang. relevant) – szkolna 3 – są przydatne dla wielu użytkowników i trafne do wyszukiwanego hasła. Są mniej obszerne i aktualne niż strony oznaczone jako przydatne („useful”), pochodzą też z nieco mniej zaufanych źródeł. Takiej oceny nie można przypisać stronie z treściami o niskiej jakości;
- średnio przydatne (z ang. slightly relevant) – szkolna 2 – dla większości użytkowników nie są przydatne, jednak w pewnym stopniu są związane z szukanym hasłem. Mogą to być strony niskiej jakości i zawierać niewiele informacji, bądź też informacje nieaktualne. Kolejnym rodzajem stron ocenianych jako średnio przydatne są te skupione wokół niszowej tematyki, lub przeciwnie – zbyt ogólne, dotyczą też mało powszechnych znaczeń wyszukiwanych haseł, o czym już wspomniałam. Ostatni rodzaj stron, które można tu wymienić, to wersje mobilne uboższe niż ich pełne wersje;
- nie na temat (z ang. off-topic, useless) – szkolna 1 – są przydatne dla niewielu użytkowników, a nawet dla nikogo. Nie mają związku z szukanym zapytaniem i tym samym nie spełniają oczekiwań internautów. Mogą to być także strony wprowadzające w błąd, albo skupiają się na reklamach i linkach, ale nie dostarczają oprócz tego praktycznie żadnej treści. Zazwyczaj strony z tą oceną są oznaczane jako spam;
- brak oceny (z ang. unratable) – zdarza się, że strona nie może zostać oceniona z pewnych względów, jednak pracownik musi to jakoś oznaczyć. Są to m.in. strony w budowie, te zwracające nagłówek 404, lub które nie wczytały się z innych względów. Temat ten jest szczegółowo opisany w pliku, jednak pominę ten punkt ze względu na to, że wcześniejsze oceny są dla nas bardziej istotne.
//dopisane
Poruszono też tematykę świeżej treści, która jest tu opisana w bardzo jasny sposób. Wśród początkujących seowców krąży mit o tym, że aby strona została wysoko oceniona, musi być systematycznie aktualizowana. Zapominają jednak o tym, że nie każdy rodzaj strony tego wymaga.
Zgodnie z informacją w wytycznych, dla fraz wskazujących na to, że użytkownik szuka informacji o bieżących wydarzeniach (np. zbliżający się program „Top Model”), ważne jest znalezienie aktualnych informacji. Jeśli z frazy wynika, że użytkownik szuka np. relacji z jakichś wydarzeń z zeszłego roku, wtedy najbardziej trafne będą wyniki opisujące zeszłoroczne wydarzenia. Są też frazy, w przypadku których data aktualizacji nie ma znaczenia.
Podsumowując, wszystko zależy od tego, czy użytkownik faktycznie szuka aktualnych informacji, czy nie. Jest jednak pewien wyjątek – dla stron docelowych ocenionych jako Vital (Istotna), a zatem tych oficjalnych, nie ma znaczenia aktualność treści. One generalnie nie są traktowane tak ostro jak pozostałe.
//dopisane
Na zakończenie warto przeczytać wywiad z jednym z z pracowników zajmujących się oceną wyników wyszukiwania oraz informacje o zmianach pomiędzy oryginałem, a udostępnioną wersją pliku. Sama na razie je tylko przejrzałam, a w streszczeniu bazowałam na połowie przeczytanego dotychczas dokumentu. Niewykluczone, że po weekendzie dojdzie kontynuacja.