Artykuł

kwi 11 2010
0

Zarządzanie ruchem robotów sieciowych na stronie WWW

Budując strony internetowe, często zastanawiamy się, w jaki sposób treści zawarte w naszej witrynie, indeksowane są przez roboty sieciowe. W gruncie rzeczy, można powiedzieć, że dzieje się automatycznie. Wystarczy, że istnieją istnieją linki zewnętrzne do naszej strony. Jednak link linkowi nie równy. I o tym chciałbym napisać dzisiaj szerzej.

Link linkowi nie równy. Opowieść na temat atrybutu rel

Jak już pisałem w artykule poświęconym pozycjonowaniu stron oraz we wstępie, ruch na naszej stronie jest możliwy głównie dzięki linkom zewnętrznym. Należy tutaj pamiętać, że im strona linkująca do nas jest bardziej wartościowsza (posiada wyższy PR), tym szybciej zostaniemy zaindeksowani i tym wyżej będziemy w wynikach.

Jednak nie zawsze jest tak kolorowo. Klasyczny link WWW, zbudowany jest w mniej więcej takiej postaci:

<a href='http://www.altcontroldelete.pl'>Alt Control Delete</a>

Nie jest to wymyślnie złożona konstrukcja, ale warto tu zwrócić uwagę na dwa elementy:

  • Atrybut href wskazujący lokalizację dokumentu docelowego
  • Tekst znajdujący się pomiędzy otwarciem, a zamknięciem znacznika a czyli tzw. Anchor Text

Jak każdy dobry pozycjoner wie, to właśnie Anchor Text oraz odpowiednie otoczenie linku, są kluczem do sukcesu. Wartość z punktu widzenia SEO, takiego linku można jednak modyfikować. Jest za to odpowiedzialny atrybut rel.

Atrybut rel pozwala na specyfikację relacji pomiędzy aktualnie otwartym dokumentem, a dokumentem do którego linkujemy. Podstawowe wartości tego atrybutu, niekoniecznie ukierunkowane na SEO, można znaleźć pod linkiem W3Schools.

Nas, najbardziej interesuje wartość nofollow. Dzięki niej, możemy uczynić linki bardziej ludzkimi, nie mającymi większego znaczenia dla SEO. Z punktu widzenia użytkownika, link w postaci:

<a href='http://www.altcontroldelete.pl' rel='nofollow'>Alt Control Delete</a>

Jest jak najbardziej normalny. Jednak, w momencie gdy stronę odwiedzi robot Google, to nie przejdzie on pod taki link i tym samym nie doda go do swojej listy stron do odwiedzenia.

Meta tag robots

Atrybut rel jest najprostszym sposobem manipulacji ruchem robotów i wykorzystywany jest głównie w przypadku umieszczania dużej liczby linków zewnętrznych. Duża liczba linków zewnętrznych na naszej stronie, może doprowadzić do obniżenia wartości SEO naszej witryny. Dlatego praktykę stosowania atrybutu rel, często można spotkać np. w komentarzach blogów internetowych.

Jeśli chcemy zarządzać ruchem obrotów w obrębie określonej strony, warto do tego celu wykorzystać tag meta robots w sekcji head strony. Można to zrobić w sposób następujący:

<meta name='robots' content='WARTOŚĆ' />

Gdzie słowo WARTOŚĆ należy zastąpić jednym z poniższych wyrażeń:

  1. index - strona powinna zostać zaindeksowana
  2. follow - robot wyszukiwarki internetowej powinien podążać za linkami umieszczonymi na stronie (chyba, że dla wybranych linków wykorzystano atrybut rel
  3. noindex - robot sieciowy nie powinien indeksować tej witryny
  4. nofollow - robot wyszukiwarki nie powinien podążać za linkami umieszczonymi na stronie
  5. all - równoważne dyrektywom index oraz follow
  6. none - równoważne dyrektywom noindex oraz nofollow

Poszczególne atrybuty można łączyć w pary za pomocą przecinka. Oczywiście pomijając przeciwstawne wartości. Np. zapis follow, nofollow będzie niepoprawny.

Poprawny będzie za to następujący przykład:

<meta name='robots' content='index, follow' />

Plik robots.txt

Alternatywnym rozwiązaniem, może być plik tekstowy robots.txt umieszczany w głównym katalogu strony. Pozwala on na wyłączanie indeksowania określonych fragmentów witryny. Warto zwrócić na niego uwagę ponieważ to właśnie ten plik, jest jednym z pierwszych odwiedzanych przez roboty internetowe.

Przykładowa struktura takiego pliku, może wyglądać następująco:

User-agent: *
Disallow: /

Taki zapis mówi, że każdy robot sieciowy (User-agent), nie powinien indeksować zawartości całej witryny. Możemy oczywiście tutaj specyfikować rodzaj robotów sieciowych czy też konkretne katalogi np.

User-agent: googlebot
Disallow: /gfx/

Ten zapis, zabroni botowi Google indeksować katalog gfx.

Podsumowanie

Sprawne zarządzanie ruchem robotów sieciowych, może nam przynieść wiele korzyści. Przede wszystkim, możemy zadbać o to by strony dla wybranych użytkowników, np. panel administracyjny, dostępne były tylko dla wybranych użytkowników, a nie dla każdej osoby, która może je wyszukać, możemy również wzmocnić wartość SEO naszej strony.

Data ostatniej modyfikacji: 27.03.2012, 09:11.

Podoba Ci się ten wpis? Powiedz o tym innym!

Send to Kindle

Komentarze

blog comments powered by Disqus