www.szukacz.pl

English Version

Jak działa robot Szukacza?

Robot Szukacza (zbieracz) wędruje po sieci www od witryny do witryny, korzystając z linków, na jakie trafia, i indeksuje zawartość stron, na które trafia. To jest wersja nieco uproszczona.

W rzeczywistosci zbieracz zapisuje ściągnięte strony (dokumenty) w swojej bazie danych. Z dokumentów tych wyjmuje linki i włącza je do bazy linków. Następ losuje linki z tej bazy i ściąga dokumenty, do których one prowadzą. Archiwizuje je i wyjmuje linki -- cykl się zamyka.

Z dokumentów zebranych w bazie danych budujemy kolekcję, którą można przeszukiwać za pomocą Szukacza. Tę kolekcję budujemy co pewien czas, zwykle raz na dwa, trzy tygodnie. Codziennie do kolekcji dodajemy natomiast dokumenty zgłoszone przez użytkowników Szukacza poprzez formularz Dodawanie witryn do kolekcji.

Zdarza się, że zbieracz podczas swojej wędrówki trafia na strony, których nie powinien ściągać (bo np. nie zawierają treści wartych indeksowania).

Zdarza się też, że zbieracz zapętla się -- wielokrotnie ściąga tę samą stronę, uważając, że za każdym razem ściąga coś nowego. W ten sposób może obciążać witrynę, generując niepotrzebny ruch.

Staramy się do tego nie dopuszczać, ale nie zawsze się nam to udaje. Ograniczamy zbieracza w ten sposób, że po ściągnięciu strony z danej witryny przez następne kilka sekund nie wolno mu ściągać z niej niczego więcej.

Można robota w prosty sposób poinformować, żeby do danej witryny w ogóle nie wchodził lub żeby nie wchodził do niektórych katalogów, jakie się w niej znajdują. Można też zakazać mu czytania wybranych dokumentów w tych katalogach.

Można to zrobić dwojako: globalnie, tworząc plik robots.txt, dotyczący całej witryny, lub lokalnie, zabraniając mu indeksowania poszczególnych dokumentów, za pomocą metatagu robots umieszczonego w tych dokumentach.

Plik robots.txt

Plik robots.txt powinien znajdować się w głównym katalogu witryny, tzn. w przypadku witryny o nazwie www.witryna.pl powinien mieć adres www.witryna.pl/robots.txt.

W pliku robots.txt można zabronić wchodzenia do witryny wszystkim robotom lub tylko niektórym (w szczególności np. tylko Szukaczowi). Można zabronić im wchodzenia w ogóle lub tylko do niektórych katalogów, jakie się w niej znajdują.

Dokładny opis (po angielsku) pliku robots.txt znajduje się pod adresem: http://www.robotstxt.org/wc/norobots.html

Poniżej podajemy kilka najprostszych przykładów.

Plik o poniższej treści POZWALA wszystkim robotom wchodzić do witryny i czytać wszystkie pliki, jakie w niej są:

User-agent: *
Disallow:

Plik o poniższej treści ZABRANIA wszystkim robotom wchodzić do witryny i czytać cokolwiek:

User-agent: *
Disallow: /

Plik o poniższej treści ZABRANIA robotowi o nazwie Szukacz wchodzić i czytać cokolwiek:

User-agent: szukacz
Disallow: /

Plik o poniższej treści ZABRANIA robotowi o nazwie Szukacz wchodzić do katalogu /tmp, /logs, /koszyk oraz czytać plik /foo.html, a wszystkim pozostałym robotom ZABRANIA tylko wchodzić do katalogów /tmp oraz /logs:

User-agent: szukacz
Disallow: /tmp/
Disallow: /logs/
Disallow: /koszyk/
Disallow: /foo.html

User-agent: *
Disallow: /tmp/
Disallow: /logs/

UWAGA! Kolejność, w jakiej wymienione są nazwy robotów, nie ma znaczenia. Równie dobrze można zdefiniować ten plik w poniższy sposób:

User-agent: *
Disallow: /tmp/
Disallow: /logs/

User-agent: szukacz
Disallow: /tmp/
Disallow: /logs/
Disallow: /koszyk/
Disallow: /foo.html

Plik o poniższej treści pozwala Szukaczowi wchodzić wszędzie, a ZABRANIA wszystkim pozostałym robotom wchodzić do katalogów /tmp oraz /logs:

User-agent: szukacz
Disallow:

User-agent: *
Disallow: /tmp/
Disallow: /logs/

W ten sposób można dość dokładnie określić, co robotom wolno czytać, a czego nie.

Jeśli w witrynie nie ma w ogóle pliku robots.txt, roboty stwierdzają, że wolno im wchodzić do witryny i czytać wszystkie pliki.

Uwaga: Jeśli serwer www na pytanie naszego robota o plik robots.txt odpowiada, że nie ma on prawa dostępu do tego pliku (kod 403 oznaczający "Access forbiden"), nasz robot NIE WCHODZI do tej witryny i niczego z niej nie indeksuje.

Metatag robots

W nagłówku strony HTML można umieścić metatag o nazwie robots, którego zawartość określa, co robotom wolno robić z danym dokumentem, a czego nie. Taki metatag może wyglądać w sposób następujący:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW, NOARCHIVE">

CONTENT może mieć zawartość jak powyżej lub dowolną kombinację słów NOINDEX, NOFOLLOW i NORACHIVE, także wykorzystując słowa INDEX, FOLLOW, ARCHIVE. Brak któregoś ze słów oznacza, że dana akcja jest dozwolona.

NOINDEX oznacza, że robot zawartości danego dokumentu nie powinien indeksować (czyli że ten dokument nie powinien nigdy pojawiać się na liście trafień Szukacza);

NOFOLLOW oznacza, że robot nie powinien wykorzystywać linków, jakie znajdują się w tym dokumencie (nie powinien ich włączać do swojej bazy dokumentów, które ma ściągnąć, przeczytać i zindeksować);

NOARCHIVE oznacza, że dokumentu tego nie należy pokazywać z archiwum Szukacza (jest to słowo zaproponowane i stosowane przez twórców Google'a, którzy jako pierwsi pozwolili użytkownikom oglądać dokumenty wyjęte z archiwum).

Przykład: na stronie zawierającej długi spis innych stron (np. spis stron z opisami towarów, spis zawartości witryny) można umieścić metatag o treści <META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">, żeby robot nie indeksował tej strony, ale aby wykorzystał linki, które się na niej znajdują (i w rezultacie zindeksował tamte strony).

Przykład: na stronie z opisem towaru, na której jest link do koszyka z zakupami, można umieścić metatag <META NAME="ROBOTS" CONTENT="INDEX, NOFOLLOW">, żeby robot te stronę zindeksował, ale nie wykorzystywał linków i nie próbował wchodzić do koszyka.

Przykład: na stronie, która zmienia się często i której nie warto archiwizować (ale warto indeksować), można umieścić metatag <META NAME="ROBOTS" CONTENT="INDEX, NOARCHIVE">, żeby robot te stronę zindeksował, ale żeby Szukacz nie pokazywał swoim użytkownikom jej kopii archiwalnej w swoich podręcznym archiwum.

Nie ma znaczenia, co jest w metetagu robots w danym dokumencie, jeśli dostępu do tego dokumentu zabrania plik robots.txt.


Co nowego w Szukaczu?
Jak działa Szukacz?  
Jak konstruować pytania?  
Jak działa robot Szukacza?
Jak dodać swoją witrynę do kolekcji?
Jak w swojej witrynie umieścić okienko Szukacza?
Jak w swojej witrynie pokazywać wyniki Szukacza (jak działa miniszukacz)?

Startuj z Szukaczem  
Dodaj do ulubionych

Uwagi techniczne / Kontakt

Copyright © 24 Godziny Sp. z o.o. 2000–2008. Wszystkie prawa zastrzeżone