www.szukacz.pl

Jak działa Szukacz?

Szukacz jest narzędziem służącym do wyszukiwania dokumentów w Internecie. Został przygotowany przede wszystkim do wyszukiwania dokumentów w języku polskim.

Szukacz składa się z czterech podstawowych modułów: zbieracza, tekstowacza, indeksera i odpowiadacza.

Zbieracz, zwany też robotem lub pająkiem, "chodzi" po sieci i wyszukuje dokumenty, tworząc bazy danych, z których co pewien czas (zwykle raz na dwa, trzy tygodnie) budujemy nowe kolekcje, korzystając z tekstowacza i indeksera. Gotowa kolekcja jest wykorzystywana przez odpowiadacz do konstruowania odpowiedzi, czyli strony z adresami dokumentów, którą wysyłamy pytającemu. Tę stronę z odpowiedziami nazywamy w skrócie listą trafień.

"Polskojęzyczność" Szukacza

Większość wyszukiwarek, z jakich korzystają dzisiaj polscy internauci, to narzędzia stworzone w świecie angielskojęzycznym. Nie są one dobrze przystosowane do szukania słów polskich, zawierających polskie znaki diakrytyczne: ąć, ę, ł, ń, ó, ś, ź, ż. Trudność sprawia również fakt, że w języku polskim jedno słowo może mieć różne końcówki fleksyjne. Kolejnym utrudnieniem dla tych narzędzi jest to, że polskie znaki są w Internecie kodowane w dwóch standardach (Windows-1250 oraz ISO-8859-2), co wprowadza dodatkowe zamieszanie.

Zaletą Szukacza jest to, że doskonale radzi sobie z dokumentami polskojęzycznymi, bez względu na to, jak zostały w nich zakodowane polskie znaki, i bez względu na to, czy została zdefiniowana strona kodowa. Szukacz radzi sobie także z typowymi błędami w kodowaniu polskich znaków i te błędy poprawia.

Szukając Szukaczem, można wybrać jeden z trzech sposobów traktowania polskiej zawartości dokumentów:

  1. Tryb z polskimi znakami i polską fleksją
  2. Tryb z polskimi znakami, lecz bez polskiej fleksji (tryb domyślny)
  3. Tryb bez polskich znaków i bez polskiej fleksji

W żadnym z trybów Szukacz nie rozróżnia dużych i małych liter – Ala i ala to dla Szukacza to samo słowo.

W trybie 2. Szukacz stosuje polskie znaki diakrytyczne, ale nie bierze poprawki na polską fleksję. Szuka dokumentów, które zawierają słowa z pytania w identycznej postaci fleksyjnej, w jakiej użytkownik je wpisał.

W trybie 3. Szukacz szuka tych słów "z dokładnością do diakrytów". Oznacza to, że przed szukaniem usuwa polskie diakryty zarówno ze słów z pytania, jak i ze słów z dokumentów.

W trybie 1. Szukacz korzysta z polskich znaków diakrytycznych, jak w trybie 2., jednak dodatkowo bierze pod uwagę, że słowa z pytania mogą w dokumentach występować w innycn formach fleksyjnych i szuka ich we wszystkich formach.

Robot Szukacza (zbieracz) wędruje po całym świecie, po wszystkich serwerach, do jakich znajdzie linki, szukając dokumentów polskojęzycznych. Zbiera wszystkie dokumenty. Nie ogranicza się do witryn, których nazwa kończy się na pl. Całkowicie automatycznie zbiera dokumenty z polską zawartością, znajdujące się w dowolnym miejscu, w dowolnej witrynie na świecie. Ponieważ jest to nasz własny produkt, a więc nie korzystamy z niego na zasadzie umowy licencyjnej (w ten czy inny sposób nas ograniczającej), nic nie przeszkadza Szukaczowi indeksować dowolnej liczby dokumentów. Jedynym ograniczeniem jest tu ich dostępność i miejsce na dyskach naszego archiwum.

Można zadawać Szukaczowi pytania ze słowami zawierającymi polskie litery, nie mając zainstalowanego sterownika polskiej klawiatury (typowa sytuacja w jakiej znajduje się osoba próbująca gdzieś poza granicami Polski skorzystać z cudzego komputera). Szukacz pozwala wpisywać polskie znaki w inny, łatwy sposób: ą = a^, ć = c^, ę = e^, ł = l^, ń = n^, ó = o^, ś = s^, ź = x^, ż = z^.

Fakt, że Szukacz tworzony był z myślą o dokumentach w języku polskim, nie oznacza, że nie można z jego pomocą dotrzeć do dokumentów obcojęzycznych. Doskonale radzi sobie z dokumentami w języku angielskim.

Jeśli Szukacz stwierdza, że dokument, na który natrafił jego zbieracz, nie jest napisany po polsku ani po angielsku i zawiera obce znaki diakrytyczne, przetwarza te znaki, na najbliższe im odpowiedniki angielskie. Dzięki temu można wykorzystać Szukacza do przeszukiwania całego Internetu. W szczególności można za jego pomocą z powodzeniem szukać dokumentów francuskich i niemieckich bez wpisywania francuskich i niemieckich znaków diakrytycznych (co jest zawsze uciążliwe, jako że mało kto w Polsce ma odpowiednie sterowniki klawiatury). Szukacz radzi sobie również z dokumentami w kilku innych językach europejskich.

Zadawanie pytań

Każda wyszukiwarka działa tym skuteczniej, im bardziej precyzyjne jest pytanie zadane przez użytkownika. I tu Szukacz ma swoje zalety. Pozwala użytkownikowi budować dość skomplikowane pytania. Służy temu odpowiednia składnia pytań. Użytkownik widzi natychmiast, jak prosto jest zbudować w sumie dość skomplikowane pytanie.

W pytaniach można stosować gwiazdki, nawiasy kwadratowe oraz minusy.

Gwiazdkami można zastępować (maskować) końcówki słów, uwzględniając tym samym ich różne warianty fleksyjne. Jeśli słowo zakończone jest gwiadką, Szukacz automatycznie wyszukuje to jedno słowo, stosując tryb "bez polskich znaków", bez względu na to, jaki tryb pracy użytkownik wybrał i jaki jest jest stosowany dla pozostałych słów

Wyszukiwarki dzielą się na te, które spację oddzielającą słowa w pytaniu składającym się z kilku słów traktują jako logiczny operator OR, oraz na te, które spację taką traktują jako logiczny operator AND.

Szukacz traktuje spację miedzy wyrazami, nawiasami kwadratowymi oraz frazami zamkniętymi w cudzysłowach jako AND. Natomiast spację umieszczoną pomiędzy wyrażeniami znajdującymi się wewnątrz nawiasu kwadratowego traktuje jako operator OR.

Jeśli przed którymś ze słów w pytaniu znajduje się plus (i przylega do tego słowa), Szukacz stosuje specjalny tryb pracy. Przyjmuje w takim przypadku, że słowo poprzedzone plusem musi być obecne w szukanym dokumencie, natomiast pozostałe słowa z pytania mogą być obecne, ale nie muszą.

Szukacz pozwala też konstruować pytania znacznie bardziej złożone. Można szukać dokumentów, które zawierają jeden z kilku wyrazów. Takimi wyrazami mogą być np. wyrazy bliskoznaczne lub różne formy fleksyjne tego samego wyrazu. Do tego służą nawiasy. Zwykle pytającemu nie zależy na tym, jaką końcówkę flesyjną będzie miał wyraz w znalezionym dokumencie. Wystarczy, aby w znalezionym dokumencie występowała tylko jedna wersja tego wyrazu. Takie wyrazy należy zamknąć w nawiasie kwadratowym. Spacja wewnątrz nawiasu kwadratowego traktowana jest przez Szukacza jako logiczne OR, a wszystkie wyrazy z nawiasu traktowane są wymiennie (są tak samo istotne, czyli mają tę samą punktację).

Plus przed słowem (a także przed nawiasem oraz frazą zamkniętą w cudzysłowie) oznacza, że element ten musi być obecny w szukanym dokumencie. Pozostałe słowa mogą, ale nie muszą, być w takim przypadku obecne w dokumencie.

Minus przed słowem (nawiasem, frazą) oznacza, że takiego słowa (wyrażenia) w dokumencie być nie może.

Szukacz potrafi wyszukiwać frazy. Gdy dostaje pytanie z kilkoma słowami zamkniętymi w cudzysłowie, znajduje dokumenty, które zawierają wszystkie te słowa, i następnie sprawdza, czy tworzą one faktycznie frazę (czy następują jedno po drugim). We wnętrzu frazy można maskować gwiazdkami końcówki wszystkich słów ją tworzących.

Odpowiedzi, czyli lista trafień

Jeśli Szukacz znajdzie dokumenty, w których występują poszukiwane słowa lub frazy, wysyła pytającemu listę z odpowiedziami. Tę listę nazywamy listą trafień.

Jest to zbiór adresów dokumentów, które Szukacz wybiera i szereguje według specjalnego algorytmu. Na pierwszych miejscach na liście znajdują się więc dokumenty, w których są wszystkie szukane słowa, a niektóre z nich znajdują się w tytule dokumentu lub nazwie witryny.

W tym przetworzonym pytaniu niektóre słowa mogą być zapisane w nieco inny sposób. W szczególności w tym przetworzonym pytaniu widać, które znaki niealfanumeryczne zostały pominięte, gdyż w naszym systemie są zastępowane przez spacje lub frazę.

Wyświetlając listę trafień, Szukacz pokazuje na niej fragmenty dokumentów, w których znajdują się szukane słowa. Słowa te są w tekście dokumentu wyróżnione innym (standardowo: czerwonym) kolorem. Użytkownik, patrząc na link do dokumentu na liście trafień, może więc na pierwszy rzut oka ocenić, czy warto do dokumentu w ogóle zaglądać. To jedna z większych zalet Szukacza.

Każdy dokument na liście trafień jest opisany dodatkowo informacją zawierającą: tytuł dokumentu, jego adres (tj. nazwę serwera, na którym jest on przechowywany, oraz jego URL), datę ostatniej modyfikacji (o ile macierzysty serwer ją podaje), datę archiwizacji (kiedy Szukacz ostatni raz dotarł do tego dokumentu i go przeczytał) oraz wielkość.

Jeżeli dokument występuje w tej samej postaci w kilku różnych witrynach (lub w tej samej witrynie, widocznej pod kilkoma nazwami), na liście trafień taki dokument pojawi się najprawdopodobniej tylko jeden raz, gdyż Szukacz stara się eliminować z listy trafień odpowiedzi, które się dublują.

Szukacz pokazuje na liście trafień po jednym dokumencie z każdej witryny. Robi to celowo, aby pytający wśród pierwszych odpowiedzi zobaczył jak najwięcej dokumentów różnych, pochodzących z różnych witryn. Te "ukryte" odpowiedzi można zobaczyć, klikając odpowiedni link na liście trafień lub dopasowując standardowe ustawienia Szukacza do własnych upodobań.

Kolekcje i archiwa

Dwie podstawowe kolekcje Szukacza to "Polska" oraz "Świat".

Kolekcja polska składa się z wielu fragmentów (subkolekcji). Wśród nich znajduje się encyklopedia PWN. Są także elektroniczne archiwa gazet i czasopism: archiwum Polityki, Newsweeka, Wprost. Jest też subkolekcja aktów prawnych.

Archiwa Szukacza liczą dzisiaj około terrabajta (terrabajt to tysiąc gigabajtów) danych (są to pełne dokumenty HTML). Dziennie archiwizujemy prawie milion dokumentów. Ściągamy ich nawet więcej, ale nie wszystkie są warte archiwizowania.

Ściągamy i archiwizujemy zarówno dokumenty statyczne, jak i dynamiczne.

Dokumenty statyczne, to dokumenty istniejące cały czas w swojej ostatecznej postaci, czyli takiej, jaką widzi czytający. Dokumenty dynamiczne są generowane za każdym razem na nowo z odpowiedniej bazy danych i – zależnie od potrzeb – mogą przybierać różną postać.

Zbieranie dokumentów dynamicznych jest znacznie trudniejsze niż zbieranie dokumentów statycznych. Jest ono trudniejsze przede wszystkim dlatego, że stosunkowo łatwo jest zebrać wiele bardzo podobnych lub wręcz identycznych dokumentów z tej samej witryny, a także dlatego, że robiąc to, można wyrządzić krzywdę odpytywanemu serwerowi poprzez generowanie zbędnego ruchu i blokowanie dostępu innym użytkownikom.

Nasza obecna kolekcja polskojęzyczna zawiera 23,5 miliona dokumentów pochodzących z 495 tysięcy witryn polskojęzycznych. Kolekcja anglojęzyczna zawiera 46,8 miliona dokumentów z 1,6 miliona najciekawszych witryn świata (są w niej także dokumenty w innych językach opartych na alfabecie łacińskim).

Zarchiwizowane dokumenty stanowią bazę, z której indekser buduje kolekcję dla odpowiadacza, by ten ostatni mógł odpowiadać na pytania zadawane przez użytkowników.

O ważeniu linkami

Pozycja dokumentu na liście trafień zależy nie tylko od tego, jakie słowa z pytania w nim się znajdują, ile ich jest i czy są one w tytule dokumentu lub nazwie witryny. Na pozycję wpływa także to, w jak znanej witrynie się znajduje i jak wiele linków prowadzi do tej witryny z innych witryn.

Wykorzystanie komercyjne - licencje

Użytkownikom instytucjonalnym proponujemy umowę licencyjną, w ramach której jesteśmy gotowi serwować odpowiedzi z jednego z naszych serwerów. Ponieważ to my sami przez cały czas obsługujemy szukacza, oznacza to, iż jedynymi kosztami licencjobiorcy jest opłata licencyjna.

W ramach licencji możemy dostosować wygląd listy trafień, wkładając tam elementy graficzne charakterystyczne dla witryny czy portalu licencjobiorcy.

Przeszukiwanie "lokalne"

Użytkownikom nieinstytucjonalnym proponujemy "lokalne" przeszukiwanie ich witryn. Jest to usługa "na zamówienie". Korzystający z takiej usługi może zdalnie uruchomić specjalną wersję Szukacza, która ściągnie strony z jego witryny i na naszym serwerze zbuduje z nich specjalną kolekcję. Szukacz będzie taką kolekcję obsługiwał w podobny sposób, jak dzisiaj obsługuje inne witryny. Oczywiście, korzystający z usługi będzie musiał w swojej witrynie umieścić okienko (formularz) Szukacza, aby osoby ją odwiedzające mogły wpisać pytanie. Szukacz zaś będzie - w wersji bezpłatnej tej usługi - takiej odwiedzającej osobie wysyłał swoją standardową listę trafień. Zaś w wersji płatnej będzie wysyłał odpowiedź zamawiającemu usługę, by ten - przed wysłaniem jej zadającemu pytanie - mógł ją odpowiednio sformatować, wyposażając w swoje elementy graficzne, plakietki reklamowe itp.

Takie lokalne przeszukiwanie działa już w kilku naszych witrynach (np. www.wiw.pl). Użytkownik otrzymuje wyniki z kolekcji (witryny), w której zadał Szukaczowi pytanie. Na liście trafień ma jednak guzik radiowy, za pomocą którego może zmienić przesukiwaną kolekcję: z lokalnej na "Polskę" oraz "Świat".

O autorach

Twórcami Szukacza są: Dariusz Kowalczyk, Mieczysław Prószyński i Artur Zgodziński. Znakomita większość obecnego kodu, składającego się na Szukacza, to dzieło Dariusza Kowalczyka (zbieracz, tekstowacz) i Artura Zgodzińskiego (indekser oraz właściwy odpowiadający na pytania).


Co nowego w Szukaczu?
Jak działa Szukacz?  
Jak konstruować pytania?  
Jak działa robot Szukacza?
Jak dodać swoją witrynę do kolekcji?
Jak w swojej witrynie umieścić okienko Szukacza?
Jak w swojej witrynie pokazywać wyniki Szukacza (jak działa miniszukacz)?

Startuj z Szukaczem  
Dodaj do ulubionych

Uwagi techniczne / Kontakt

Copyright © 24 Godziny Sp. z o.o. 2000–2008. Wszystkie prawa zastrzeżone