www.szukacz.pl

Co nowego w Szukaczu?

Ponad 50 mln polskich dokumentów!!! (13 grudnia 2005)

W najnowszej kolekcji polskojęzycznej (z 2005-12-13) mamy 51 milionów dokumentów z 790 tysięcy witryn (a dokładniej: grup witryn).

Odświeżanie

Co tydzień odświeżamy mniej więcej jedną ósmą zawartości kolekcji polskiej. Oznacza to, że wszystkie dokumenty pokazywane na naszych listach trafień zostały ściągnięte z ich macierzystej witryny przez naszego robota w ciągu ostatnich dwóch miesięcy (lub też robot stwierdził, że są tam nadal, a ich zawartość się nie zmieniła w stosunku do tego, co ściągnął wcześniej).

Raz na tydzień dodajemy też dokumenty zgłoszone Szukaczowi za pomocą formularza Dodawanie witryn do kolekcji.

Od początku roku skutecznie, mamy nadzieję, blokujemy spamerów, którzy te same treści (oczywiście pornograficzne) mnożą w setkach witryn, zarówno dodając co nich najróżniejsze – także dynamiczne – prefiksy, jak i rejestrując w tym celu ciągle nowe domeny.

W kolekcji "Świat" mamy 32,7 miliona dokumentów z 1,5 miliona witryn.

Statystyki Szukacza

Znakomita większość zadawanych pytań dotyczy kolekcji polskiej. Tylko 4 procent pytań dotyczy kolekcji "Świat".

Pytania składające się z jednego słowa stanowią 39 procent wszystkich niepustych pytań. Pozostałe 61 procent to pytania z dwóch lub większej liczby słów. Pytania o frazy stanowią 6 procent pytań niepustych. Cyfry pojawiają się w 6 procentach pytań niepustych, minus w 3 procentach, a gwiazdka kończąca słowo w 0,7 procent takich pytań.

Dziennie korzysta z Szukacza od 13 tysięcy (w soboty i święta) do 20 tysięcy osób.

W dni robocze w porze największego ruchu z Szukacza w ciągu godziny korzysta 1,8 tysiąca osób.

Szukacz z polską fleksją - odsłona druga

Szukając Szukaczem można wybrać jeden z trzech sposobów traktowania polskiej zawartości dokumentów:

  1. Tryb z fleksją  –  z polskimi znakami i polską fleksją
  2. Tryb normalny  –  z polskimi znakami, lecz bez polskiej fleksji
  3. Tryb bez diakrytów  –  bez polskich znaków i bez polskiej fleksji

Mamy nadzieję, że w ten sposób najlepiej, jak to tylko możliwe, spełniliśmy postulaty wielu użytkowników Szukacza, którzy pracowicie zgłaszali je nam w ciągu ostatnich trzech lat.

Ad. 1. W trybie z fleksją Szukacz uwzględnia właściwości polskiej fleksji. Oznacza to, że słów z pytania szuka on w dokumentach we wszystkich możliwych formach fleksyjnych, biorąc pod uwagę, że rzeczowniki i zaimki w języku polskim podlagają deklinacji, czasowniki – koniugacji, a przymiotniki mają formy wyższe i najwyższe.

W szczególności dla pytania Ala ma kota znajdzie nie tylko dokumenty zawierające szukane słowa w ich podstawowej formie fleksyjnej, tzn. ala mieć kot, ale także dokumenty zawierające wszystkie inne warianty fleksyjne, np. alę miały koty. Czasami ma to zaskakujące konsekwencje, bo w tym trybie na pytanie rada znajdzie także dokumenty dotyczące miasta radom, gdyż radom jest jedną z form fleksyjnych liczby mnogiej słowa rada.

Ad. 2. W trybie normalnym Szukacz znajduje tylko te dokumenty, w których słowa z pytania znajdują się w tej samej postaci (formie fleksyjnej), co w pytaniu. Oznacza to, że dla pytania Ala ma łódź znajdzie tylko dokumenty, które zawierają te słowa (z dokładnością do dużych i małych liter, bo tych nie rozróżnia).

Ad. 3. Tryb bez diakrytów różni się od pozostałych tym, że Szukacz nie zwraca uwagi na polskie znaki diakrytyczne. Zarówno w dokumentach, jak i w pytaniu, zamienia wszystkie polskie znaki diakrytyczne na ich odpowiedniki bez diakrytów (to znaczy zamienia ą na a, ć na c itd.). I dopiero wtedy porównuje słowa z pytania ze słowami z dokumentów.

Oznacza to, że dla pytania Ala ma łodź szuka dokumentów, które po usunięciu polskich diakrytów zawierają słowa ala, ma oraz lodz. W rezultacie znajdzie dokumenty, które w rzeczywistości zawierają np. słowa ąłą mą łodź.

W trybach z fleksją oraz normalnym Szukacz oczywiście rozpoznaje polskie znaki diakrytyczne ąć, ę, ł, ń, ó, ś, źż.

Jeśli w dowolnym z tych dwóch trybów pojawi się w pytaniu słowo z gwiazdką na końcu, Szukacz automatycznie będzie tego jednego słowa szukał, stosując tryb bez diakrytów, czyli nie będzie stosował fleksji i zgubi polskie diakryty.

Standardem dla kolekcji "Polska" jest tryb normalny. Tryb ten będzie stosowany, jeśli użytkownik nie zdefiniuje innego, korzystając ze strony Ustawienia.

Standardem dla anglojęzycznej kolekcji "Świat" jest tryb bez diakrytów i dla tej kolekcji inne tryby nie działają. Jeśli inny tryb jest zdefiniowany w ciasteczku, to Szukacz i tak przełączy się na tryb bez diakrytów na czas obsługiwania takiego pytania.

Słownik form fleksyjnych

Aby w trybie z fleksją znajdować słowa, które w dokumencie występują w innej formie fleksyjnej niż ta, która została użyta w pytaniu, Szukacz korzysta ze słownika form fleksyjnych przygotowanego specjalnie w tym celu.

Nasz słownik fleksyjny zawiera pełną odmianę 19.450 wyrazów. Oznacza to, że dla 19.450 wyrazów mamy wszystkie formy, w jakich występują one w języku polskim. Na przyklad dla imienia Ala są to: Ala, Ali, Alę, Alą, Alo. W słowniku mamy też 2.944 wybranych form fleksyjnych dla innych wyrazów. Są to te formy, które nie znalazły się wśród 19.450 słów z pełną odmianą, ale które są na tyle częste, że znalazły się na liście 10 tysięcy wyrazów, najczęściej pojawiających się w pytaniach zadawanych Szukaczowi.

W sumie nasz słownik fleksyjny liczy dzisiaj 234 tysiące unikalnych form.

W ten sposób pytanie Ala ma kota jest teraz – w trybie z fleksją – równoważne pytaniu Ala mieć kot.

Twórcą słownika fleksyjnego jest Katarzyna Głowińska (wielkie dzięki!).

W naszym słowniku fleksyjnym znajduje się 84 procent wszystkich słów, wpisanych przez użytkowników w pytaniach zadanych Szukaczowi w 2004 roku. W powyższym rachunku nie wzięliśmy pod uwagę słów zawierających cyfry oraz słów z gwiazdką na końcu, maskująca końcówkę. Takiech słów pojawia się w pytaniach 8,7 procent. Natomiast 84 procent spośród pozostałych słów pojawiających się w pytaniach jest w słowniku fleksyjnym. Wśród tych pozostałych 16 procent słów, jest oczywiście sporo słów obcych oraz polskich z błędami ortograficznymi, przestawionymi lub opuszczonymi literami, a także bez niektórych polskich znaków diakrytycznych. Biorąc to pod uwagę, uważamy, że te 84 procent to nie jest zły wynik!

Najpopularniejsze wyrazy w pytaniach w 2004 roku

W pytaniach zadanych Szukaczowi w ciągu 2004 roku wystąpiło 839 tysięcy unikalnych słów; pojawiły się one w pytaniach 70 mln razy. Wśród wystąpień 7,3 procent stanowiły słowa zawierające cyfrę lub cyfry, a 1,4 procent słowa z końcówką zastąpioną gwiazdką.

Unikalnych słów, które w pytaniach wystąpiły co najmniej 10 razy, było 210 tysięcy. Wystąpiły one w sumie 68,2 mln razy.

Pierwsze 1.369 słów z czoła listy odpowiadają za 50 procent wszystkich wystąpień w pytaniach; słowo znajdujące się na pozycji 1.369 zostało w ciągu roku użyte 6.704 razy.

Pierwsze 14.011 słów z czoła list odpowiadają za 80 procent wystapień w pytaniach; słowo na pozycji 14.011 wystąpiło 543 razy.

Pierwsze 42.663 słowa z czoła listy odpowiadają za 90 procent wystąpień w pytaniach; słowo na pozycji 42.663 wystąpiło 115 razy.

Najczęstszymi dwudziestoma słowami w pytaniach zadawanych Szukaczowi w ciągu 2004 roku są (zaczynając od najbardziej popularnego): do, i, na, w, o, dla, 2, a, pl, co, jak, download, 1, 2004, jest, gry, 3, mp3, 0, darmowe.

Ku naszemu ogromnemu zdumieniu stwierdzamy, że słowa sex oraz seks pojawiają się na liście frekwencyjnej dopiero na 138 oraz 1.428 miejscu i w pytaniach wystąpiły odpowiednio 39.005 oraz 6.428 razy. Powyższy fakt zostawiamy bez dalszego komentarza.

Sto wyrazów najczęściej pojawiających się w pytaniach zadawanych Szukaczowi w 2004 roku.

Tysiąc wyrazów najczęściej pojawiających się w pytaniach zadawanych Szukaczowi w 2004 roku.

W wielu zastosowaniach istotne są nie tylko częstości występowania wyrazów, ale także częstości pojawiania się zespołów składających się z kilku wyrazów (niekoniecznie szukanych jako fraza). Jest to na przykład bardzo istotne przy ustalaniu słów kluczowych, których obecność w pytaniu powoduje emisję reklamy na liście trafień Szukacza. Aby lepiej "targetować" taką reklamę, reklamodawca może używać kluczy składających się z kilku wyrazów. Dlatego też przygotowaliśmy listę najczęściej występujących par słów. Jeśli w pytaniu użytkownika było kilka słów (więcej niż dwa), do naszej analizy wzięliśmy wszystkie możliwe ich kombinacje.

Sto par wyrazów najczęściej pojawiających się w wielowyrazowych pytaniach zadawanych Szukaczowi w 2004 roku.

Tysiąc par wyrazów najczęściej pojawiających się w wielowyrazowych pytaniach zadawanych Szukaczowi w 2004 roku.

Plus jako nowy operator w pytaniu

Wprowadziliśmy nowy operator w pytaniu. Jeśli w pytaniu bezpośrednio przed niektórymi słowami znajduje się plus (jest do nich przyklejony), Szukacz uważa, że słowa te muszą znajdować się w szukanym dokumencie, natomiast słowa, które nie są poprzedzone plusem, nie muszą. Przykład: w pytaniu +Ala +ma kota słowo kota nie musi występować w szukanym dokumencie.

Jeśli natomiast nie ma plusa przed żadnym słowem, Szukacz – jak dotychczas – przyjmuje że wszystkie te słowa muszą być obecne w szukanym dokumencie.

Nowy silnik Szukacza

Największą zmianą w najnowszym silniku Szukacza, działającym od sierpnia 2004 roku, jest to, że – oprócz zawartości dokumentu, a także jego tytułu i nazwy witryny – umożliwia on przeszukiwanie także opisu dokumentu, słów kluczowych, a także słów, które zostały użyte w innych dokumentach w linkach, kierujących do niego.

Opis dokumentu (zawartość znacznika "description") i słowa kluczowe (zawartość znacznika "keywords") są zdefiniowane w jego nagłówku i w zwykłym trybie pracy nie są widoczne dla użytkownika. Moża zobaczyć je, otwierając taki dokument za pomocą edytora lub oglądając go w naszym archiwum.

Do wyszukiwania wykorzystujemy teraz słowa z innych dokumentów, które zostały w nich użyte do opisania linków, kierujących do danego dokumentu. Dotyczy to zarówno dokumentów pochodzących z tej samej witryny, z której pochodzi dany dokument, jak i z innych.

Poprawiliśmy też system ustalający kolejność dokumentów na liście trafień. W szczególności faworyzujemy teraz strony główne witryn oraz dokumenty, w których szukane słowa występują w tytule lub nazwie witryny.

Od stycznia 2004 roku silnik Szukacza dzieli pracę na elementy i może zlecić wykonanie części odpowiedzi podwykonawcy znajdującemu się na innym serwerze. Ta zmiana pozwala nam budować dowolnie duże systemy odpowiadające i obsługiwać dowolnie duże kolekcje.

Grupowanie witryn i zwijanie odpowiedzi

Grupujemy witryny, które mają aliasy, to znaczy są dostępne pod więcej niż jedną nazwą. O witrynie i jej aliasach mówimy, że stanowią grupę. Oznacza to, iż do tej samej zawartości (do tych samych stron-dokumentów) można dotrzeć wpisując różne nazwy hostów. Takich grup jest bardzo dużo. Najczęstszym przypadkiem grupy są pary witryn: z przedrostkiem "www" i bez niego.

Jeśli na liście trafień jest kilka dokumentów z tej samej grupy, pokazujemy je w postaci zgrupowanej. To znaczy pokazujemy tylko najlepszy dokument z całej grupy, a pozostałe wyświetlamy dopiero po kliknięciu linku "Pokaż inne dokumenty z...".

W kolekcji polskiej jest mniej więcej pół miliona grup witryn; unikalnych hostów jest w niej natomiast o 150 tysięcy więcej.

Ściągamy i indeksujemy wyłącznie dokumenty przygotowane w języku HTML oraz zwykłe dokumenty tekstowe. Nasze kolekcje zawierają też dokumenty (przede wszystkim strony główne witryn) wykonane w technice "flash", jeśli znajduje się w nich jakikolwiek opis w postaci zwykłego tekstu.

Szukacz "zwija" teraz odpowiedzi na liście trafień i pokazuje tylko najlepszy z dokumentów należących do tej samej grupy witryn.

Grupa witryn to wszystkie witryny z taką samą lub prawie taką samą zawartością. Na ogół grupę tworzą witryny o zbliżonych nazwach: witryna.pl, www.witryna.pl, witryna.com.pl, www.witryna.com.pl. Dość często do takiej grupy trafiają także witryny o innych nazwach, np. witryna.waw.pl, moja-witryna.biz. Dzieje się tak, jeśli Szukacz stwierdza, że są one aliasami witryn z danej grupy.

Wprowadziliśmy grupy, gdyż wiele witryn ma aliasy, to znaczy jest widocznych pod kilkoma, często bardzo różnymi nazwami. W rezultacie dokumenty z takiej witryny pojawiały się na liście trafień Szukacza wielokrotnie, nawet przy włączonym zwijaniu odpowiedzi.

Polscy rekordziści w tworzeniu aliasów budują witryny widoczne pod kilkoma tysiącami nazw. Absolutnym rekordzistą okazała się witryna iv.pl, w której wykryliśmy 72 tysiące przedrostków typu *.w.iv.pl oraz *.x.iv.pl. Cała ta witryna to dosłownie kilka różnych dokumentów tworzonych dynamicznie plus generator przedrostków oraz krzyżowych linków pomiędzy stronami z tymi przedrostkami.

Nie ściągamy dokumentów z witryn, które zostały specjalnie przygotowane po to, by wprowadzać roboty w błąd. W szczególności nie ściągamy dokumentów z witryn, których nazwy mają dynamicznie nadawane przedrostki.

Zmieniliśmy istotnie składnię pytania host: oraz dodaliśmy nowe pytanie grupa:.

Teraz w pytaniu host: nie zakładamy domyślnie występowania gwiazdki jako przedrostka nazwy. Pytanie: host:witryna.pl to pytanie o dokumenty z witryny witryna.pl. Aby także otrzymać dokumenty z www.witryna.pl oraz z witryn z innymi przedrostkami, należy zadać pytanie host:*.witryna.pl, a jeszcze lepiej grupa:*.witryna.pl.

Jedynym wyjątkiem od powyższej reguły jest pytanie z pojedynczym wyrazem następującym po host:. Odpowiedzią na pytanie host:>witryna będzie lista dokumentów z wszystkich witryn zawierających w swojej nazwie słowo witryna na jakiejkolwiek pozycji.

Wyszukując przedrostki w nazwie witryny, za przedrostek uważamy każdy element oddzielony od innych przez kropkę lub minus. Dlatego też pytanie host:samsung da w wyniku witrynę www.samsung-electronics.com.pl, bo z punktu widzenia Szukacza ma ona w nazwie elementy: www, samsung, electronics, com, pl.

Pytanie host: może być stosowane zamiennie z pytaniem site:, a pytanie grupa: z pytaniem group:.

Dariusz Kowalczyk
Mieczysław Prószyński
Artur Zgodziński


Co nowego w Szukaczu?
Jak działa Szukacz?  
Jak konstruować pytania?  
Jak działa robot Szukacza?
Jak dodać swoją witrynę do kolekcji?
Jak w swojej witrynie umieścić okienko Szukacza?
Jak w swojej witrynie pokazywać wyniki Szukacza (jak działa miniszukacz)?

Startuj z Szukaczem  
Dodaj do ulubionych

Uwagi techniczne / Kontakt

Copyright © 24 Godziny Sp. z o.o. 2000–2008. Wszystkie prawa zastrzeżone