Po ostatnim zasadniczym odświeżeniu całej kolekcji polskiej, które nastąpiło kilka dni temu i jest efektem 4 miesięcy gromadzenia danych, nasza główna kolekcja liczy 115 milionów dokumentów. Pochodzą one z nieco ponad miliona witryn (z 1,1031 miliona grup witryn; w rzeczywistości witryn mamy w kolekcji 135 tysiące więcej, ale wynika to z tego, że wiele witryn pojawia się pod różnymi nazwami, np. z prefiksem www i bez niego). W kolekcji tej zidentyfikowaliśmy 1,7 miliona dokumentów o treściach erotycznych i pornograficznych. Nie pokazujemy ich, jesli aktywny jest filtr obyczajowy (standardowo jest on włączony i Szukacz takich dokumentów nie pokazuje; można go wyłączyć w Ustawieniach).
Indeksy, które wykorzystujemy do odpowiadania na pytania zadawane Szukaczowi, to teraz 1,36 terrabajta danych. Są one rozlokowane na 23 twardych dyskach, zamontowanych w 4 serwerach. Ten zestaw jest zduplikowany na kolejnych 4 serwerach. W sumie cały system odpowiadający mieści się na 10 serwerach. Kolejne trzy serwery służą do zbierania danych i ich przetwarzania w postać indeksów.
Zrezygnowaliśmy z dalszego powadzenia kolekcji "Świat". Były w niej dokumenty z najciekawszych, wyselekcjonowanych witryn anglojęzycznych. W ostatniej kolekcji mieliśmy 45 mln dokumentów z 2 mln witryn. Tylko 4 procent pytań przychodzących do Szukacza skierowanych było do tej kolekcji.
Wielki moment. Kolekcja polskojęzyczna Szukacza przekroczyła 100 milionów dokumentów.
Po kolejnym odświeżeniu nasza kolekcja polska ma 125 milionów dokumentów.
W kolekcji "Świat" mamy 45 milionów dokumentów z 2 milionów witryn. Są to wyselekcjonowane, najciekawsze witryny anglojęzyczne.
Po kolejnym odświeżeniu nasza kolekcja polska ma 87,5 miliona dokumentów. Pochodzą one z nieco ponad miliona witryn (z 1,046 miliona grup witryn; w rzeczywistości witryn mamy w kolekcji 100 tysięcy więcej).
Odświeżanie: Podczas każdego kolejnego odświeżenia kolekcji polskiej, które ma miejsce mniej więcej raz na tydzień, staramy się poprawić całość danych. Usuwamy z nich wykryte powtórzenia oraz strony, które w międzyczasie przestały istnieć na swych macierzystych serwerach. Staramy się też nie pokazywać stron (i całych witryn), które służą wyłącznie do przekierowania ruchu do innych. No i oczywiście dodajemy nowe dokumenty, które zebraliśmy w ostatnim czasie, a których do tej pory w kolekcji nie było.
W kolekcji "Świat" mamy dzisiaj 33,6 miliona dokumentów z 1,9 miliona witryn.
Marzec 2006 – sto napopularniejszych polskich witryn
Luty 2006 – sto napopularniejszych polskich witryn
Styczeń 2006 – sto napopularniejszych polskich witryn
W ciągu 2005 roku skorzystało z Szukacza 2,6 mln osób. Tylu było unikalnych użytkowników identyfikowanych za pomocą ciasteczek. Zadali oni 32,6 miliona pytań.
Do poniższych witryn weszło najwięcej osób z list trafień Szukacza.
Witryna | Wejścia na milion | |
1 | encyklopedia.pwn.pl | 14 076 |
2 | pl.wikipedia.org | 13 089 |
3 | www.merlin.com.pl | 7 069 |
4 | www.sciagawa.pl | 6 446 |
5 | polityka.onet.pl | 5 008 |
6 | www.mapapolski.pl | 4 615 |
7 | www.wiw.pl | 4 280 |
8 | republika.pl | 4 189 |
9 | insiderpress.pl | 3 504 |
10 | prace.sciaga.pl | 3 320 |
11 | www.wprost.pl | 2 936 |
12 | www.webwweb.pl | 2 753 |
13 | www.filmpolski.pl | 2 539 |
14 | www.abc.com.pl | 2 428 |
15 | eduseek.interklasa.pl | 2 345 |
Do zbudowania listy użyliśmy danych o 17,5 milionie kliknięć. Lista składa się z 618 tysięcy witryn.
Na czele listy znajdują się dwie duże encyklopedie internetowe – PWN i Wikipedia – z prawie identyczną liczbą trafień. Dalej księgarnia internetowa oraz kilka serwisów, o których można na pewno powiedzieć, że są bardzo użyteczne przy odrabianiu lekcji: www.sciagawa.pl, www.wiw.pl, praca.sciaga.pl, eduseek.interklasa.pl, sciaga.nauka.pl, www.profesor.pl...
Lista 525 napopularniejszych polskich witryn według Szukacza.
Pytanie | Liczba wystąpień na milion pytań | |
1 | sex | 1342 |
2 | warszawa | 1045 |
3 | mapa polski | 1024 |
4 | gry | 623 |
5 | mp3 | 597 |
6 | tapety | 547 |
7 | kraków | 540 |
8 | porno | 519 |
9 | mapa | 500 |
10 | praca | 500 |
11 | lista wildsteina | 499 |
12 | tapety na pulpit | 478 |
13 | teksty piosenek | 474 |
14 | katowice | 464 |
15 | allegro | 451 |
Sto pytań najczęściej zadawanych w 2005 roku.
Dwa tysiące pytań najczęściej zadawanych w 2005 roku (137 kB).
Co tydzień odświeżamy mniej więcej jedną siódmą zawartości kolekcji polskiej. Oznacza to, że wszystkie dokumenty pokazywane na naszych listach trafień zostały ściągnięte z ich macierzystej witryny przez naszego robota w ciągu ostatnich dwóch miesięcy (lub też robot stwierdził, że są tam nadal, a ich zawartość się nie zmieniła w stosunku do tego, co ściągnął wcześniej).
Raz na tydzień dodajemy też dokumenty zgłoszone Szukaczowi za pomocą formularza Dodawanie witryn do kolekcji.
Od początku 2004 roku skutecznie, mamy nadzieję, blokujemy spamerów, którzy te same treści (oczywiście pornograficzne) mnożą w setkach witryn, zarówno dodając co nich najróżniejsze – także dynamiczne – prefiksy, jak i rejestrując w tym celu ciągle nowe domeny.
Wśród dokumentów w kolekcji polskiej znajduje się mniej więcej 1,3% stron o treściach erotyczno-pornograficznych. Tych stron nie pokazujemy ich liście trafień, jeśli aktywny jest filtr obyczajowy (co jest ustawieniem domyślnym). Dokumenty z taką zawartością stanowią stosunkowo mały odsetek wszystkich, gdyż staramy się nie zbierać dokumentów z witryn zawierających ewidentny spam.
Znakomita większość zadawanych pytań dotyczy kolekcji polskiej. Tylko 4 procent pytań dotyczy kolekcji "Świat".
Pytania składające się z jednego słowa stanowią 39 procent wszystkich niepustych pytań. Pozostałe 61 procent to pytania z dwóch lub większej liczby słów. Pytania o frazy stanowią 6 procent pytań niepustych. Cyfry pojawiają się w 6 procentach pytań niepustych, minus w 3 procentach, a gwiazdka kończąca słowo w 0,7 procent takich pytań.
Dziennie korzysta z Szukacza od 13 tysięcy (w soboty i święta) do 20 tysięcy osób.
W dni robocze w porze największego ruchu z Szukacza w ciągu godziny korzysta 1,8 tysiąca osób.
Szukając Szukaczem można wybrać jeden z trzech sposobów traktowania polskiej zawartości dokumentów:
Mamy nadzieję, że w ten sposób najlepiej, jak to tylko możliwe, spełniliśmy postulaty wielu użytkowników Szukacza, którzy pracowicie zgłaszali je nam w ciągu ostatnich trzech lat.
Ad. 1. W trybie z fleksją Szukacz uwzględnia właściwości polskiej fleksji. Oznacza to, że słów z pytania szuka on w dokumentach we wszystkich możliwych formach fleksyjnych, biorąc pod uwagę, że rzeczowniki i zaimki w języku polskim podlagają deklinacji, czasowniki – koniugacji, a przymiotniki mają formy wyższe i najwyższe.
W szczególności dla pytania Ala ma kota znajdzie nie tylko dokumenty zawierające szukane słowa w ich podstawowej formie fleksyjnej, tzn. ala mieć kot, ale także dokumenty zawierające wszystkie inne warianty fleksyjne, np. alę miały koty. Czasami ma to zaskakujące konsekwencje, bo w tym trybie na pytanie rada znajdzie także dokumenty dotyczące miasta radom, gdyż radom jest jedną z form fleksyjnych liczby mnogiej słowa rada.
Ad. 2. W trybie normalnym Szukacz znajduje tylko te dokumenty, w których słowa z pytania znajdują się w tej samej postaci (formie fleksyjnej), co w pytaniu. Oznacza to, że dla pytania Ala ma łódź znajdzie tylko dokumenty, które zawierają te słowa (z dokładnością do dużych i małych liter, bo tych nie rozróżnia).
Ad. 3. Tryb bez diakrytów różni się od pozostałych tym, że Szukacz nie zwraca uwagi na polskie znaki diakrytyczne. Zarówno w dokumentach, jak i w pytaniu, zamienia wszystkie polskie znaki diakrytyczne na ich odpowiedniki bez diakrytów (to znaczy zamienia ą na a, ć na c itd.). I dopiero wtedy porównuje słowa z pytania ze słowami z dokumentów.
Oznacza to, że dla pytania Ala ma łodź szuka dokumentów, które po usunięciu polskich diakrytów zawierają słowa ala, ma oraz lodz. W rezultacie znajdzie dokumenty, które w rzeczywistości zawierają np. słowa ąłą mą łodź.
W trybach z fleksją oraz normalnym Szukacz oczywiście rozpoznaje polskie znaki diakrytyczne ą, ć, ę, ł, ń, ó, ś, ź, ż.
Jeśli w dowolnym z tych dwóch trybów pojawi się w pytaniu słowo z gwiazdką na końcu, Szukacz automatycznie będzie tego jednego słowa szukał, stosując tryb bez diakrytów, czyli nie będzie stosował fleksji i zgubi polskie diakryty.
Standardem dla kolekcji "Polska" jest tryb normalny. Tryb ten będzie stosowany, jeśli użytkownik nie zdefiniuje innego, korzystając ze strony Ustawienia.
Standardem dla anglojęzycznej kolekcji "Świat" jest tryb bez diakrytów i dla tej kolekcji inne tryby nie działają. Jeśli inny tryb jest zdefiniowany w ciasteczku, to Szukacz i tak przełączy się na tryb bez diakrytów na czas obsługiwania takiego pytania.
Aby w trybie z fleksją znajdować słowa, które w dokumencie występują w innej formie fleksyjnej niż ta, która została użyta w pytaniu, Szukacz korzysta ze słownika form fleksyjnych przygotowanego specjalnie w tym celu.
Nasz słownik fleksyjny zawiera pełną odmianę 19.450 wyrazów. Oznacza to, że dla 19.450 wyrazów mamy wszystkie formy, w jakich występują one w języku polskim. Na przyklad dla imienia Ala są to: Ala, Ali, Alę, Alą, Alo. W słowniku mamy też 2.944 wybranych form fleksyjnych dla innych wyrazów. Są to te formy, które nie znalazły się wśród 19.450 słów z pełną odmianą, ale które są na tyle częste, że znalazły się na liście 10 tysięcy wyrazów, najczęściej pojawiających się w pytaniach zadawanych Szukaczowi.
W sumie nasz słownik fleksyjny liczy dzisiaj 234 tysiące unikalnych form.
W ten sposób pytanie Ala ma kota jest teraz – w trybie z fleksją – równoważne pytaniu Ala mieć kot.
Twórcą słownika fleksyjnego jest Katarzyna Głowińska (wielkie dzięki!).
W naszym słowniku fleksyjnym znajduje się 84 procent wszystkich słów, wpisanych przez użytkowników w pytaniach zadanych Szukaczowi w 2004 roku. W powyższym rachunku nie wzięliśmy pod uwagę słów zawierających cyfry oraz słów z gwiazdką na końcu, maskująca końcówkę. Takiech słów pojawia się w pytaniach 8,7 procent. Natomiast 84 procent spośród pozostałych słów pojawiających się w pytaniach jest w słowniku fleksyjnym. Wśród tych pozostałych 16 procent słów, jest oczywiście sporo słów obcych oraz polskich z błędami ortograficznymi, przestawionymi lub opuszczonymi literami, a także bez niektórych polskich znaków diakrytycznych. Biorąc to pod uwagę, uważamy, że te 84 procent to nie jest zły wynik!
W pytaniach zadanych Szukaczowi w ciągu 2004 roku wystąpiło 839 tysięcy unikalnych słów; pojawiły się one w pytaniach 70 mln razy. Wśród wystąpień 7,3 procent stanowiły słowa zawierające cyfrę lub cyfry, a 1,4 procent słowa z końcówką zastąpioną gwiazdką.
Unikalnych słów, które w pytaniach wystąpiły co najmniej 10 razy, było 210 tysięcy. Wystąpiły one w sumie 68,2 mln razy.
Pierwsze 1.369 słów z czoła listy odpowiadają za 50 procent wszystkich wystąpień w pytaniach; słowo znajdujące się na pozycji 1.369 zostało w ciągu roku użyte 6.704 razy.
Pierwsze 14.011 słów z czoła list odpowiadają za 80 procent wystapień w pytaniach; słowo na pozycji 14.011 wystąpiło 543 razy.
Pierwsze 42.663 słowa z czoła listy odpowiadają za 90 procent wystąpień w pytaniach; słowo na pozycji 42.663 wystąpiło 115 razy.
Najczęstszymi dwudziestoma słowami w pytaniach zadawanych Szukaczowi w ciągu 2004 roku są (zaczynając od najbardziej popularnego): do, i, na, w, o, dla, 2, a, pl, co, jak, download, 1, 2004, jest, gry, 3, mp3, 0, darmowe.
Ku naszemu ogromnemu zdumieniu stwierdzamy, że słowa sex oraz seks pojawiają się na liście frekwencyjnej dopiero na 138 oraz 1.428 miejscu i w pytaniach wystąpiły odpowiednio 39.005 oraz 6.428 razy. Powyższy fakt zostawiamy bez dalszego komentarza.
Sto wyrazów najczęściej pojawiających się w pytaniach zadawanych Szukaczowi w 2004 roku.
Tysiąc wyrazów najczęściej pojawiających się w pytaniach zadawanych Szukaczowi w 2004 roku.
W wielu zastosowaniach istotne są nie tylko częstości występowania wyrazów, ale także częstości pojawiania się zespołów składających się z kilku wyrazów (niekoniecznie szukanych jako fraza). Jest to na przykład bardzo istotne przy ustalaniu słów kluczowych, których obecność w pytaniu powoduje emisję reklamy na liście trafień Szukacza. Aby lepiej "targetować" taką reklamę, reklamodawca może używać kluczy składających się z kilku wyrazów. Dlatego też przygotowaliśmy listę najczęściej występujących par słów. Jeśli w pytaniu użytkownika było kilka słów (więcej niż dwa), do naszej analizy wzięliśmy wszystkie możliwe ich kombinacje.
Sto par wyrazów najczęściej pojawiających się w wielowyrazowych pytaniach zadawanych Szukaczowi w 2004 roku.
Tysiąc par wyrazów najczęściej pojawiających się w wielowyrazowych pytaniach zadawanych Szukaczowi w 2004 roku.
Wprowadziliśmy nowy operator w pytaniu. Jeśli w pytaniu bezpośrednio przed niektórymi słowami znajduje się plus (jest do nich przyklejony), Szukacz uważa, że słowa te muszą znajdować się w szukanym dokumencie, natomiast słowa, które nie są poprzedzone plusem, nie muszą. Przykład: w pytaniu +Ala +ma kota słowo kota nie musi występować w szukanym dokumencie.
Jeśli natomiast nie ma plusa przed żadnym słowem, Szukacz – jak dotychczas – przyjmuje że wszystkie te słowa muszą być obecne w szukanym dokumencie.
Największą zmianą w najnowszym silniku Szukacza, działającym od sierpnia 2004 roku, jest to, że – oprócz zawartości dokumentu, a także jego tytułu i nazwy witryny – umożliwia on przeszukiwanie także opisu dokumentu, słów kluczowych, a także słów, które zostały użyte w innych dokumentach w linkach, kierujących do niego.
Opis dokumentu (zawartość znacznika "description") i słowa kluczowe (zawartość znacznika "keywords") są zdefiniowane w jego nagłówku i w zwykłym trybie pracy nie są widoczne dla użytkownika. Moża zobaczyć je, otwierając taki dokument za pomocą edytora lub oglądając go w naszym archiwum.
Do wyszukiwania wykorzystujemy teraz słowa z innych dokumentów, które zostały w nich użyte do opisania linków, kierujących do danego dokumentu. Dotyczy to zarówno dokumentów pochodzących z tej samej witryny, z której pochodzi dany dokument, jak i z innych.
Poprawiliśmy też system ustalający kolejność dokumentów na liście trafień. W szczególności faworyzujemy teraz strony główne witryn oraz dokumenty, w których szukane słowa występują w tytule lub nazwie witryny.
Od stycznia 2004 roku silnik Szukacza dzieli pracę na elementy i może zlecić wykonanie części odpowiedzi podwykonawcy znajdującemu się na innym serwerze. Ta zmiana pozwala nam budować dowolnie duże systemy odpowiadające i obsługiwać dowolnie duże kolekcje.
Grupujemy witryny, które mają aliasy, to znaczy są dostępne pod więcej niż jedną nazwą. O witrynie i jej aliasach mówimy, że stanowią grupę. Oznacza to, iż do tej samej zawartości (do tych samych stron-dokumentów) można dotrzeć wpisując różne nazwy hostów. Takich grup jest bardzo dużo. Najczęstszym przypadkiem grupy są pary witryn: z przedrostkiem "www" i bez niego.
Jeśli na liście trafień jest kilka dokumentów z tej samej grupy, pokazujemy je w postaci zgrupowanej. To znaczy pokazujemy tylko najlepszy dokument z całej grupy, a pozostałe wyświetlamy dopiero po kliknięciu linku "Pokaż inne dokumenty z...".
W kolekcji polskiej jest mniej więcej pół miliona grup witryn; unikalnych hostów jest w niej natomiast o 150 tysięcy więcej.
Ściągamy i indeksujemy wyłącznie dokumenty przygotowane w języku HTML oraz zwykłe dokumenty tekstowe. Nasze kolekcje zawierają też dokumenty (przede wszystkim strony główne witryn) wykonane w technice "flash", jeśli znajduje się w nich jakikolwiek opis w postaci zwykłego tekstu.
Szukacz "zwija" teraz odpowiedzi na liście trafień i pokazuje tylko najlepszy z dokumentów należących do tej samej grupy witryn.
Grupa witryn to wszystkie witryny z taką samą lub prawie taką samą zawartością. Na ogół grupę tworzą witryny o zbliżonych nazwach: witryna.pl, www.witryna.pl, witryna.com.pl, www.witryna.com.pl. Dość często do takiej grupy trafiają także witryny o innych nazwach, np. witryna.waw.pl, moja-witryna.biz. Dzieje się tak, jeśli Szukacz stwierdza, że są one aliasami witryn z danej grupy.
Wprowadziliśmy grupy, gdyż wiele witryn ma aliasy, to znaczy jest widocznych pod kilkoma, często bardzo różnymi nazwami. W rezultacie dokumenty z takiej witryny pojawiały się na liście trafień Szukacza wielokrotnie, nawet przy włączonym zwijaniu odpowiedzi.
Polscy rekordziści w tworzeniu aliasów budują witryny widoczne pod kilkoma tysiącami nazw. Absolutnym rekordzistą okazała się witryna iv.pl, w której wykryliśmy 72 tysiące przedrostków typu *.w.iv.pl oraz *.x.iv.pl. Cała ta witryna to dosłownie kilka różnych dokumentów tworzonych dynamicznie plus generator przedrostków oraz krzyżowych linków pomiędzy stronami z tymi przedrostkami.
Nie ściągamy dokumentów z witryn, które zostały specjalnie przygotowane po to, by wprowadzać roboty w błąd. W szczególności nie ściągamy dokumentów z witryn, których nazwy mają dynamicznie nadawane przedrostki.
Zmieniliśmy istotnie składnię pytania host: oraz dodaliśmy nowe pytanie grupa:.
Teraz w pytaniu host: nie zakładamy domyślnie występowania gwiazdki jako przedrostka nazwy. Pytanie: host:witryna.pl to pytanie o dokumenty z witryny witryna.pl. Aby także otrzymać dokumenty z www.witryna.pl oraz z witryn z innymi przedrostkami, należy zadać pytanie host:*.witryna.pl, a jeszcze lepiej grupa:*.witryna.pl.
Jedynym wyjątkiem od powyższej reguły jest pytanie z pojedynczym wyrazem następującym po host:. Odpowiedzią na pytanie host:witryna będzie lista dokumentów z wszystkich witryn zawierających w swojej nazwie słowo witryna na jakiejkolwiek pozycji.
Wyszukując przedrostki w nazwie witryny, za przedrostek uważamy każdy element oddzielony od innych przez kropkę lub minus. Dlatego też pytanie host:samsung da w wyniku witrynę www.samsung-electronics.com.pl, bo z punktu widzenia Szukacza ma ona w nazwie elementy: www, samsung, electronics, com, pl.
Pytanie host: może być stosowane zamiennie z pytaniem site:, a pytanie grupa: z pytaniem group:.
Dariusz Kowalczyk
Mieczysław Prószyński
Artur Zgodziński