Szukaj Szukaczem - www.szukacz.pl

Szukacz jest narzędziem służącym do wyszukiwania w Internecie dokumentów napisanych po polsku.

Szukacz składa się z trzech podstawowych modułów: zbieracza, indeksera i odpowiadacza.

Zbieracz, zwany też robotem lub pająkiem, "chodzi" po sieci i wyszukuje dokumenty, tworząc archiwum, czyli bazę danych z kopiami dokumentów, do jakich dotarł.

Z tej bazy danych co pewien czas budujemy nową kolekcję lub jej część. Budową kolekcji zajmuje się indekser. Jest to w rzeczywistości cała rodzina programów, które analizują zawartość zebranych dokumentów, wyjmują tekst z otoczki HTML-owej i tworzą pliki indeksowe.

Budowa kolekcji (lub jej fragmentu) trwa koło tygodnia. Tyle czasu indekserowi zajmuje przetworzenie danych.

Gdy kolekcja jest gotowa, może z niej zacząć korzystać odpowiadacz. To program, który odpowiada na pytania zadane przez użytkowników. Odpowiedź ma postać listy trafień, czyli listy z linkami do najlepszych - zdaniem Szukacza - dokumentów, które zawierają słowa zawarte w pytaniu użytkownika. Zwykle samo szukanie odpowiedzi i przygotowanie listy trafień trwa od ułamka sekundy do kilku sekund. Dłużej niż samo przygotowanie odpowiedzi zajmuje transmisja danych do użytkownika.

Odpowiadacz, jako jedyny z trzech, jest programem działającym w "czasie rzeczywistym" – usiłuje odpowiedzieć na pytanie użytkownika jak najszybciej, podczas gdy użytkownik czeka na tę odpowiedź.

Jeszcze o zbieraczu

Zbieracz Szukacza jest wspaniałym narzędziem, za pomocą którego można analizować zawartość polskojęzycznego internetu.

Nikt poza Szukaczem nie potrafi dzisiaj (lub raczej nie próbuje) odpowiedzieć na pytanie, ile jest dokumentów polskojęzycznych w ogólnodostępnym Internecie, ile jest witryn polskojęzycznych i ile mają one aliasów. (O aliasach mówimy, gdy do tej samej witryny można dotrzeć na więcej niż jeden sposób i gdy występuje ona pod kilkoma nazwami, np. z "www" i bez, z "com" i bez, z "waw" i bez, itd., itd.).

Szukacz informuje o tym, ile dokumentów i unikalnych witryn ma w każdej ze swoich kolekcji.

Archiwa

Archiwa Szukacza liczą dzisiaj blisko terrabajt danych (są to pełne dokumenty HTML). Dziennie archiwizujemy nieco ponad milion dokumentów. Ściągamy ich dziennie półtora raza więcej, ale nie wszystkie uznajemy za warte przechowywania.

Mamy dwa duże archiwa: polskojęzyczne i anglojęzyczne. Odpowiadają one naszym dwóm podstawowym kolekcjom: polskiej i "światowej". Ta ostatnia zawiera dokumenty w języku angielskim i jest wyborem z ponad półtora miliona najciekawszych witryn świata (nazywamy ją nieco żartobliwie: "The Best of the World", bo te witryny zostały wybrane w sposób bardzo przemyślany).

O tym, do którego archiwum trafi ściągnięty dokument, decyduje to, z jakiego serwera został pobrany, i czy są w nim polskie słowa oraz polskie znaki diakrytyczne (ą, ć, ę i tak dalej).

Wiele spośród tych dokumentów jest jednak identycznych lub bardzo do siebie podobnych (mimo różnych adresów URL). Dlatego nasze kolekcje są mniejsze.

Nasz kolekcja polskojęzyczna składa się z 20–30 milionów z circa 500 tysięcy witryn polskojęzycznych (2005-01-14: 26,1 mln dokumentów z 524 tysięcy grup witryn), a kolekcja "świat" liczy 40–50 mln dokumentów z circa 1,5 mln witryn, w znakomitej większości anglojęzycznych.

Cechy szczególne Szukacza

Większość wyszukiwarek, z jakich korzystają dzisiaj polskie portale, to narzędzia stworzone w świecie angielskojęzycznym. Nie są one dobrze przystosowane do szukania słów polskich, zawierających polskie znaki diakrytyczne: ą, ć, ę, ł, ń, ó, ś, ź, ż. Trudność sprawia również fakt, że w języku polskim jedno słowo może mieć różne końcówki fleksyjne. Kolejnym utrudnieniem dla tych narzędzi jest to, że polskie znaki są w Internecie kodowane w dwóch standardach (Windows-1250 oraz ISO-8859-2), co wprowadza dodatkowe zamieszanie.

Zaletą Szukacza jest to, że doskonale radzi sobie z dokumentami polskojęzycznymi, bez względu na to, jak zostały w nich zakodowane polskie znaki (radzi sobie nawet z niektórymi typowymi błędami w kodowaniu polskich znaków). Do rozpoznawania języka (czy polski, czy angielski, czy inny korzystający z tej samej strony kodowej, co polski) i systemu kodowania polskich znaków stosujemy metody statystyczne.

Zbieracz wędruje po całym świecie, po wszystkich serwerach, do jakich znajdzie linki, szukając dokumentów polskojęzycznych. Zbiera wszystkie dokumenty. Nie ogranicza się do witryn, których nazwa kończy się na "pl". To oznacza, że możemy całkowicie automatycznie zbierać dokumenty z polską zawartością, znajdujące się w dowolnym miejscu, w dowolnej witrynie na świecie. Ponieważ Szukacz to nasz własny produkt, a więc nie korzystamy z niego na zasadzie umowy licencyjnej w ten czy inny sposób nas ograniczającej, nic nie przeszkadza nam indeksować dowolnej liczby dokumentów. Jedynym ograniczeniem jest tu ich dostępność. No i miejsce na dyskach naszego archiwum.

Można zadawać Szukaczowi pytania ze słowami zawierającymi polskie litery, nie mając zainstalowanego sterownika polskiej klawiatury (typowa sytuacja w jakiej znajduje się osoba próbująca gdzieś poza granicami Polski skorzystać z cudzego komputera). Szukacz pozwala wpisywać polskie znaki w inny, łatwy sposób: ą = a^, ć = c^, ... , ź = x^, ż = z^.

Fakt, że Szukacz tworzony był z myślą o dokumentach w języku polskim, nie oznacza, że nie można z jego pomocą dotrzeć do dokumentów obcojęzycznych. Doskonale radzi sobie z dokumentami w języku angielskim.

Jeśli indekser stwierdza, że dokument, na który natrafił zbieracz, nie jest napisany po polsku ani po angielsku i że zawiera obce znaki diakrytyczne, przetwarza te znaki, na najbliższe im odpowiedniki angielskie. Dzięki temu można wykorzystać Szukacza do przeszukiwania całego Internetu. W szczególności można za jego pomocą z powodzeniem szukać dokumentów francuskich i niemieckich bez wpisywania francuskich i niemieckich znaków diakrytycznych (co jest zawsze uciążliwe, jako że mało kto w Polsce ma odpowiednie sterowniki klawiatury). Szukacz radzi sobie również z dokumentami w kilku innych językach europejskich.

Polskie dokumenty i tryby pracy

Szukając Szukaczem można wybrać jeden z trzech sposobów traktowania polskiej zawartości dokumentów:

Zadawanie pytań

Każda wyszukiwarka działa tym skuteczniej, im bardziej precyzyjne jest pytanie zadane przez użytkownika. I tu Szukacz ma swoje zalety. Pozwala użytkownikowi budować dość skomplikowane pytania. Służy temu odpowiednia składnia pytań. W pytaniach można stosować nawiasy obejmujące wyrazy alternatywne (zamienne), a także gwiazdki, którymi można zastępować końcówki słów, uwzględniając tym samym ich różne warianty fleksyjne.

Wyszukiwarki dzielą się na te, które spację oddzielającą słowa w pytaniu składającym się z kilku słów traktują jako logiczny operator OR, oraz na te, które spację taką traktują jako logiczny operator AND.

Szukacz traktuje spację miedzy wyrazami, nawiasami (oraz frazami zamkniętymi w cudzysłowach) jako AND. Natomiast spację umieszczoną pomiędzy wyrażeniami znajdującymi się wewnątrz nawiasu kwadratowego traktuje jako operator OR.

Szukacz potrafi wyszukiwać frazy. Gdy dostaje pytanie z kilkoma słowami zamkniętymi w cudzysłowie, znajduje dokumenty, które zawierają wszystkie te słowa, i następnie sprawdza, czy tworzą one faktycznie frazę (czy następują jedno po drugim). Cechą charakterystyczną Szukacza jest to, że można maskować gwiazdkami końcówki słów wewnątrz frazy.

Minus przed słowem (nawiasem, frazą) oznacza, że takiego słowa (wyrażenia) w dokumencie być nie może.

Jeśli w pytaniu bezpośrednio przed niektórymi słowami znajduje się plus (jest do nich przyklejony), Szukacz uważa, że słowa te muszą znajdować się w szukanym dokumencie, natomiast słowa, które nie są poprzedzone plusem, nie muszą. Przykład: w pytaniu +Ala +ma kota słowo kota nie musi występować w szukanym dokumencie.

Jeśli natomiast nie ma plusa przed żadnym słowem, Szukacz – jak dotychczas – przyjmuje że wszystkie te słowa muszą być obecne w szukanym dokumencie.

Odpowiedzi, czyli lista trafień

Jeśli Szukacz znajdzie dokumenty, które spełniają warunki określone w pytaniu użytkownika, wysyła pytającemu listę z odpowiedziami. Tę listę nazywamy listą trafień.

Jest to zbiór adresów dokumentów, które Szukacz wybiera i szereguje według specjalnego algorytmu. Na pierwszych miejscach na liście znajdą się więc dokumenty, w których są wszystkie szukane słowa, oraz dokumenty, w których niektóre z tych słów znajdują się w tytule dokumentu lub nazwie witryny.

Na liście trafień powtórzone jest pytanie po częściowym przetworzeniu przez parser Szukacza. Warto rzucić okiem na to przetworzone pytanie, bo może się ono dość istotnie różnić od pytania oryginalnego. Szukacz zwraca na nie uwagę, wyświetlając je pogrubioną czcionką.

W tym przetworzonym pytaniu widać, które znaki niealfanumeryczne zostały pominięte, gdyż w naszym systemie są zastępowane przez spacje. To dość istotne.

Dla pytań składających się z więcej niż jednego słowa można z odpowiedniej listy szybko odczytać, które słowa są lub mogą być istotne, bo pojawiają się w niewielu dokumentach, a które są mało istotne, bo pospolite. Użytkownik może na podstawie tych danych szybko przebudować pytanie tak, aby lepiej opisywało dokumenty, których szuka.

Wyświetlając listę trafień, Szukacz pokazuje na niej te fragmenty dokumentów, które zawierają szukane słowa. Słowa te są w tekście dokumentu wyróżnione czerwonym kolorem. Użytkownik może więc na pierwszy rzut oka ocenić, czy warto do dokumentu w ogóle zaglądać.

Dodatkowo chyba jako jedyna wyszukiwarka na świecie Szukacz pokazuje w tych wyświetlanych fragmentach istotne końce wierszy, czyli zaznacza miejsca, gdzie autor dokumentu zaczął nowy wiersz lub akapit. Uważamy, że jest to bardzo pomocne.

Jeśli w nagłówku dokumentu jest umieszczony opis, to Szukacz też go pokazuje na liście trafień (jeśli opis jest długi, tylko jego początek). Ale zwykle znacznie ciekawsze są fragmenty wyjęte z wnętrza dokumentu.

Każdy dokument na liście trafień jest opisany dodatkowo informacją zawierającą: tytuł dokumentu, jego adres (czyli jego URL), datę ostatniej modyfikacji (o ile macierzysty serwer ją podaje), datę archiwizacji (kiedy Szukacz ostatni raz dotarł do tego dokumentu i go przeczytał) oraz wielkość w bajtach.

Jeżeli dokument występuje w tej samej postaci w kilku różnych witrynach (lub w tej samej witrynie, widocznej pod kilkoma nazwami), na liście trafień pojawi się najprawdopodobniej tylko jeden raz, gdyż Szukacz stara się wyeliminować z listy trafień odpowiedzi, które się dublują.

Sukacz standardowo nie pokazuje też na liście trafień więcej niż jednego dokumentu z tej samej witryny (a dokładniej z jednej grupy witryn). Robi to celowo, aby pytający wśród pierwszych odpowiedzi zobaczył jak najwięcej dokumentów różnych, pochodzących z różnych witryn. Natomiast owe "ukryte" odpowiedzi z tej samej witryny można zobaczyć, klikając odpowiedni link na liście trafień lub dopasowując standardowe ustawienia Szukacza do własnych upodobań.

Kolejną zaletą jest to, że na liście trafień pokazują się zarówno linki do dokumentów statycznych, jak i dynamicznych. Robot Szukacza zbiera bowiem zarówno dokumenty istniejące w swojej finalnej, końcowej postaci w komputerze, który je serwuje użytkownikowi (dokumenty statyczne), jak i dokumenty generowane za każdym razem na nowo z jakiejś bazy danych (dynamiczne).

To, że Szukacz czyta dokumenty dynamiczne, sprawia, że na liście trafień może wskazać dokumenty, do których niektóre inne wyszukiwarki nie potrafią dotrzeć. Zbieranie dokumentów dynamicznych jest znacznie trudniejsze niż zbieranie dokumentów statycznych. Jest ono trudniejsze przede wszystkim dlatego, że stosunkowo łatwo jest zebrać wiele bardzo podobnych lub wręcz identycznych dokumentów z tego samego serwera, a także dlatego, że robiąc to, można wyrządzić krzywdę odpytywanemu serwerowi poprzez generowanie zbędnego ruchu i blokowanie dostępu innym użytkownikom.

Przejrzysta i bardzo przemyślana konstrukcja listy trafień sprawia, że użytkownik Szukacza znacznie szybciej znajduje dokument, o który mu chodzi, niż użytkownik większości pozostałych wyszukiwarek. Nie musi kilkać wielu linków, aby zobaczyć, czy któryś prowadzi do dokumentu, zawierającego szukaną treść. Na liscie trafień ma fragment dokumentu z szukanymi słowami i natychmiast eliminuje większość z tych dokumentów. Dlatego użytkownik Szukacza znacznie częściej niż innych wyszukiwarek zagląda na kolejne strony listy trafień. Nie męczy się na pierwszej po kliknięciu kilku linków, i nie rezygnuje z dalszych poszukiwań, bo tych linków nie musi klikać. Ma na liście wszystko, co mu potrzebne.

Monitorujemy i analizujemy zachowania użytkowników. I z takich analiz wiemy, że na każde zadane (niepuste) pytanie przypada średnio jedno kliknięcie linku na liście trafień otrzymanej jako odpowiedź na nie.

Wiemy też, że użytkownicy dość chętnie korzystają z fraz, gwiazdek i alternatyw (słów bliskoznacznych lub różnych form fleksyjnych zamkniętych w nawiasach kwadratowych). Potrafimy to ująć w procentach.

Wiemy, jak wiele pytań jest skierowanych do kolekcji "Świat" (5 procent), a jak wiele do kolekcji polskojęzycznej (95 procent).

Licencje

Użytkownikom instytucjonalnym proponujemy umowę licencyjną, w ramach której jesteśmy gotowi serwować odpowiedzi z jednego z naszych (i obsługiwanych przez nas) serwerów, stojących u nas, albo u licencjobiorcy. Ponieważ to my sami przez cały czas będziemy obsługiwać Szukacza, licencjobiorca będzie ponosił wyłącznie koszty opłaty licencyjnej.

W ramach licencji możemy dostosować wygląd listy trafień, wkładając tam elementy graficzne charakterystyczne dla witryny czy portalu licencjobiorcy.

Przeszukiwanie "lokalne"

W wersji bezpłatnej z usługi mogą skorzystać wszyscy właściciele i operatorzy polskich witryn. Korzystający z takiej usługi powienien umieścić w swojej witrynie okienko Szukacza. Jeśli dodatkowo zdefiniuje własną kolekcję "lokalną", ta kolekcja będzie przeszukiwana, gdy odwiedzający witrynę wpiszę w okienko swoje pytanie.

Szukacz taką lokalną kolekcję obsługuje w podobny sposób, jak dzisiaj obsługuje nasze witryny, np. www.proszynski.pl oraz www.wiw.pl. Oczywiście, korzystający z usługi będzie musiał w swojej witrynie umieścić okienko Szukacza, aby osoby ją odwiedzające mogły wpisać pytanie. Szukacz zaś - w wersji bezpłatnej tej usługi - takiej odwiedzającej osobie wysyła swoją standardową listę trafień.

W wersji płatnej wysyła odpowiedź zamawiającemu usługę (a nie zadającemu pytanie). Zamawiający , przed wysłaniem odpowiedzi zadającemu - może ją odpowiednio sformatować, wyposażając w swoje elementy graficzne, plakietki reklamowe itp.

Takie lokalne przeszukiwanie działa już w większości witryn należących do Prószyńskiego i S-ki (np. www.proszynski.pl, www.wiw.pl). Użytkownik otrzymuje wyniki ograniczone do wnętrza witryny, w której zadał Szukaczowi pytanie. Na liście trafień ma jednak guzik radiowy, za pomocą którego może zmienić przeszukiwaną kolekcję: z lokalnej na "Polskę" oraz "Świat".

Ogłosznia drobne

W witrynie Szukacza zamieszczamy ogłoszenia drobne (boksy reklamowe). Takie ogłoszenia mają standardową postać: tytuł, trzy wiersze tekstu i URL.

Ogłoszenie pojawia się na liście trafień Szukacza, po prawej stronie linków, gdy w pytaniu występuje jedno ze słów wybranych przez umieszczającego takie ogłoszenie.

Zamawiający nie płaci za wyświetlenie ogłoszenia drobnego. Płaci za każde kliknięcie ogłoszenia przez użytkownika Szukacza, czyli za przejście użytkownika do witryny wskazanej w ogłoszeniu.

Reklamy graficzne

Zamias ogłoszeń drobnych na liście trafień wyświetlamy też reklamy graficzne. Są one płatne "od wyświetlenia" a nie "od kliknięcia", jak ogłoszenia drobne, bo swoimi dodatkowymi kilobajtami utrudniają korzystanie z Szukacza.

Początki

Oficjalnie Szukacz działa od 3 września 2001 roku. Nieoficjalnie - od początku maja 2001 roku. Do 3 września 2001 roku działał quasipublicznie, gdyż w żaden sposób go nie promowaliśmy. Jeśli ktoś trafił na stronę www.szukacz.pl, mógł z niego w tym czasie skorzystać, i to wszystko.

W pierwszych dniach września 2001 uznaliśmy, że działa już nie gorzej od konkurencji, a miejscami może i nieco lepiej, i zaczęliśmy go promować w naszych witrynach. W tej fazie rozwoju Szukacz potrafił już grupować wyniki na liście trafień w taki sposób, aby – jeśli użytkownik nie zmieni standardowego ustawienia – pokazywać mu linki do nie więcej niż dwóch dokumentów z tej samej witryny.

Nasze hasło reklamowe to "Cukier krzepi. Szukacz szuka" (pierwsza część - to oczywiście hasło reklamowe Melchiora Wańkowicza, które jeszcze przed wojną wymyślił on na zamówienie kartelu cukrowniczego).

Cały czas w Szukaczu coś poprawiamy, ulepszamy i zmieniamy. Dlatego pod logiem długo był dopisek "wersja testowa". Ten dopisek zniknął, gdy zaczęliśmy być zadowleni z wyników.

Kolekcje i archiwa

W tej chwili Szukacz ma dwie podstawowe kolekcje - "Polska" oraz "Świat". W kolekcji polskiej znajdują się hasła wyjęte z encyklopedii PWN, a także w miarę pełne archiwa "Polityki", "Wprost", "Newsweeka", a także baza filmów polskich z witryny www.filmpolski.pl.

O nas

W projekcie biorą udział: Dariusz Kowalczyk, Mieczysław Prószyński i Artur Zgodziński. Większość kodu, składającego się na Szukacza, napisali Dariusz Kowalczyk i Artur Zgodziński.

Co nowego w Szukaczu?
Jak działa Szukacz?
Jak konstruować pytania?
Jak działa robot Szukacza?
Jak dodać swoją witrynę do kolekcji?
Jak w swojej witrynie umieścić okienko Szukacza?
Jak w swojej witrynie pokazywać wyniki Szukacza (jak działa miniszukacz)?

Startuj z Szukaczem
Dodaj do ulubionych

Uwagi techniczne / Kontakt

Copyright © 24 Godziny Sp. z o.o. 2000–2008. Wszystkie prawa zastrzeżone