Wyszukiwanie informacji w internecie

Transkrypt

Joanna Papińska-Kacperek
Katedra Informatyki UŁ
Wyszukiwanie
informacji w internecie
Materiały
dydaktyczne
dla studentów I roku
Łódź 2006
W internecie jest wiele cennych i potrzebnych informacji. Ale stron www
jest tak wiele, Ŝe często trudno jest dotrzeć do właściwych i wiarygodnych stron.
Trudno jest ustalić ile jest w sieci witryn, portali i stron – łatwiej określić liczbę
domen i serwerów. Według badań NEC Research Institute w 1999 roku istniało
800 milionów stron www. W 2002 roku wyszukiwarka Google przechowywała
w swoich bazach danych ponad 2 miliardy odnośników1, a w 2005 było ich juŜ 8
miliardów
Najlepiej jeŜeli znamy dokładny adres strony z poszukiwanymi
wiadomościami, ale niestety tak jest rzadko. Wtedy naleŜy posłuŜyć się
dostępnymi narzędziami słuŜącymi do wyszukiwania informacji.
Narzędzia wyszukiwania informacji w Internecie
Obecnie stosowane są następujące terminy: wyszukiwarki tekstowe,
metawyszukiwarki, multiwyszukiwarki, szperacze, szukacze, katalogi stron
internetowych oraz silniki. Spróbujmy to uporządkować. Większość
uŜytkowników dzieli wszystkie na trzy grupy: katalogi, wyszukiwarki
i specjalisyczne bazy danych.
Katalogi stron internetowych
Jest to jeden z rodzajów organizacji adresów i kategoryzacji stron
internetowych. Są to często moderowane ręcznie, grupowane tematycznie,
zbiory adresów internetowych.
Autorzy stron lub inne osoby zgłaszają swoje strony do katalogów, zazwyczaj
z krótkim opisem, po czym, zwykle po przejrzeniu, strona zostaje wpisana na
listę pod danym hasłem.
Katalog stron jest strukturą drzewiastą: witryny przypisane są, ze względu na
swoją zawartość do poszczególnych kategorii, które dzielą się na kategorie
podrzędne.
W sieci są obecnie katalogi globalne (np. DMOZ, Yahoo), regionalne (np. na
dany kraj jak Wirtualna Polska czy Interia), tematyczne (związane z jedną
gałęzią przemysłu, np. katalog stron muzycznych cgm2) oraz katalogi firm
(np. polska Panorama Firm3).
Największym katalogiem jest DMOZ4. Tworzony jest przez ochotników
z całego świata (kilkadziesiąt tysięcy osób). Cała treść DMOZ jest dostępna jako
open content w pliku XML, i moŜna z niej korzystać w dowolnych celach, pod
warunkiem, Ŝe umieści się link powrotny na stronę dmoz (szczegóły licencji
na stronie http://dmoz.org/license.html ).
1
A. Łamek Ukryty Internet, Magazyn Internet 7/2002 [6]
Gazeta myzyczna cgm.pl http://www.cgm.pl/linkownia
3
Panorama Firm http://www.pf.pl
4
Open Directory Project http://dmoz.org
2
Opracowanie dr inŜ. Joanna Papińska-Kacperek
2
W 1992 roku z inicjatywy Rafała Maszkowskiego powstał pierwszy
katalog stron znajdujących się w polskim internecie, późniejsze "Polskie Zasoby
Sieciowe". Dane przedstawione były wówczas w postaci czystego ASCII. Rok
później w związku z rozprzestrzenieniem się standardu HTML katalog
obsługiwał juŜ linki hipertekstowe. "Polskie Zasoby Sieciowe" zakończyły swoją
działalność w roku 1997.
A obecnie najbardziej znane to:
• polska część Open Directory Project http://www.dmoz.org/World/Polska
• Katalog Onet.pl http://katalog.onet.pl
• Wirtualna Polska http://katalog.wp.pl
• Katalog WOW http://www.wow.pl
• Hoga http://www.hoga.pl
Wadą katalogów jest mała liczba zawartych w nich stron w porównaniu
z innymi narzędziami oraz długi czas aktualizacji. Powodem są ograniczone
ludzkie moŜliwości. Strony internetowe powstają, znikają i zmieniają się,
a weryfikacja ich zawartości czy obecności wymaga ponownego odwiedzenia
ich przez redaktora. Kolejną wadą jest róŜna interpretacja kategori: tę samą
stronę dwie osoby mogą umieścić w róŜnych kategoriach. Co moŜe prowadzić
do nieporozumień. Na przykład strona poświęcona grze w szachy moŜe zostać
umieszczona przez redaktora katalogu w kategorii sport, natomiast szukający tej
strony będzie poszukiwał informacji na ten temat w kategorii gry.
Wyszukiwarki internetowe
Wyszukiwarka internetowa (ang. search engine) to program lub strona
internetowa, której zadaniem jest ułatwienie uŜytkownikom internetu znalezienie
informacji w sieci.
Określenie wyszukiwarka stosujemy do:
• stron internetowych serwisów wyszukujących - czyli implementacji
oprogramowania wyszukującego działającego z interfejsem WWW
ogólnodostępnym dla internautów
• oprogramowania przeznaczonego do indeksowania i wyszukiwania
informacji w sieciach komputerowych: internecie, intranecie.
Wyszukiwarki tworzą automatycznie swoje bazy danych o witrynach.
MoŜna podzielić je na te oparte na analizie treści strony (tekstowe) oraz oparte
na analizie topologii sieci.
Wyszukiwarki tekstowe przeszukują internet analizując zawartość stron.
Kiedy uŜytkownik poda zapytanie, wyszukiwarka odpowie mu łączami do stron,
które uzna, w zaleŜności od uŜytego algorytmu, za najbardziej odpowiednie.
Algorytmy te polegają na informacjach podanych w kodach stron, np. na
podanych tytułach, nagłówkach i słowach kluczowych. Są zatem bardzo podatne
na naduŜycia, przez co uŜytkownik zamiast uŜytecznych informacji dostaje linki
na strony nie mające nic wspólnego z jego zapytaniem. śeby przeciwdziałać
temu, wyszukiwarki zaczęły stosować analizę topologii sieci. Wtedy stronę
3
uwaŜa się za odpowiadającą zapytaniu uŜytkownika, jeśli wiele stron na temat
podany w zapytaniu, do niej linkuje. Początkową istotność ustala się
na podstawie prostej heurystyki5, po czym zwykle uŜywa się algorytmu
losowego skakania po linkach. Pierwszą wyszukiwarką, która zastosowała
zaawansowane algorytmy analizy topologii sieci był Google. Wyszukiwarki
oparte na analizie topologicznej są często uwaŜane za bardzo odporne na
naduŜycia. Ale częstym zjawiskiem są spam-systemy automatycznej wymiany
linków, które mogą oszukać algorytm wyszukiwarki. Inną formą ataku jest
stworzenie duŜej liczby gęsto linkowanych stron, z czego wszystkie na ten sam
temat. Jest to jednak zadanie trudne i wymagające duŜego nakładu pracy,
a modyfikując heurystykę wartości początkowych moŜna znacznie ograniczyć
ten proceder.
Oprogramowanie wyszukiwarki składa się z dwóch oddzielnych modułów,
z których pierwszy odwiedza witryny internetowe, analizując umieszczone
na nich teksty, oraz podąŜa za odsyłaczami hipertekstowymi do kolejnych stron.
Drugi zaś obsługuje powstającą w ten sposób bazę danych, często nazywaną
indeksem. Korzystanie z bazy polega na wpisywaniu poszukiwanych słów
i obejrzeniu wyświetlonych wyników w postaci hipertekstowych odsyłaczy
do stron, które zawierają wpisane wyraŜenie. Jako pierwsze wyświetlane są
adresy witryn, które bardziej odpowiadają zadanemu pytaniu.
W skład oprogramowania wyszukiwarki wchodzą:
• Crawler, Robot, Pająk, Spider lub Bot czyli robot internetowy– moduł
pobierający dokumenty z sieci.
• Indekser - program analizujący i oceniający.
• Searcher - interfejs odpowiadający na zapytania – czyli analizator zapytań
+ moduł prezentacji wyników.
Dochodzą do tego:
• programy konwersji dokumentów,
• programy archiwizujące repozytorium,
• programy analizy technik zabronionych [spam],
• moduły administracyjne.
NajwaŜniejszymi algorytmami stosowanymi w wyszukiwarkach są
algorytmy oceny relewancji6 dokumentu względem szukanej frazy oraz
algorytmy oceny zawartości strony. Często są strategiczną tajemnicą właściciela
wyszukiwarki, przesądzającą o jej skuteczności. Wiadomo o stosowaniu
algorytmów: binarnych, waŜenia częstością słów TF, PageRank, In-degree,
metody Robertsona i Sparcka-Jonesa (1997), metody Robertsona (1994), modelu
Markova, metody bazowej B, liczba wizyt (klikohit) i wielu innych.
5
Heurystyka to metoda znajdowania rozwiązań dla której nie ma gwarancji znalezienia
rozwiązania optymalnego
6
Relewancja- związek, zwłaszcza logiczny, z rzeczą, o którą chodzi, relewantny - pozostający
w (log.) związku z, odnoszący się do, stosujący się do; dostarczający dowodu słuszności
a. niesłuszności sprawy; istotny dla.
4
Poprawę relewancji wyników wyszukiwania moŜna uzyskać poprzez
grupowanie (clustering), personalizację, weryfikacja pisowni, tzw. stop-words –
czyli stop listy oraz tezaurus, czyli podpowiedzi.
Google to najpopularniejsza wyszukiwarka na świecie. W Polsce podobno
80% uŜytkowników internetu, szukając w sieci informacji, korzysta właśnie
z niej. Google zostało załoŜone przez Larry Page'a oraz Sergey’a Brina w 1996
roku, jako projekt studencki na Uniwersytecie Stanford. Słowo "googol" to
termin matematyczny oznaczający 1 ze 100 zerami, czyli 10100. Twórcą tego
terminu był 9-letni Milton Sirotta, a spopularyzował go amerykański matematyk
i wuj Sirotty, Edward Kasner. W 1998 roku, Page i Brin załoŜyli firmę Google
Inc. Wyszukiwarka Google jako pierwsza wprowadziła moŜliwość
przeszukiwania nie tylko stron www (czyli plików HTML), ale takŜe
dokumentów zapisanych w formacie PDF, a później doszły do nich takŜe teksty
zapisane w Wordzie, arkusze Excela, prezentacje wykonane w programie
PowerPoint, pliki z rozszerzeniem rtf7 i pliki postscriptowe (.ps). Rozszerzenia te
podawane są w wynikach wyszukiwania obok tytułów plików. MoŜna równieŜ
przeszukiwać grafiki (JPG, GIF), grupy dyskusyjne oraz katalogi.
Dziś Google to finansowy gigant. W zeszłym roku przychody firmy
sięgnęły 6,1 mld USD, a zysk wyniósł 2 mld. Google odnotował w zakończonym
31 marca 2006 roku kwartale obrotowym 79% wzrost przychodów
w porównaniu z pierwszym kwartałem 2005 roku. Zamknęły się one kwotą 2,25
mld USD.
W styczniu 2006 roku Google wprowadziła na terenie Chin ocenzurowaną
wersję wyszukiwarki blokującej dostęp do haseł: Tajwan, Tybet, Dalajlama,
prawa człowieka. Chińska wersja www.google.cn udostępnia tylko strony
internetowe zaakceptowane przez chińskie Biuro Bezpieczeństwa Publicznego.
Protesty wobec polityki firmy Google zorganizowała organizacja Students for
Free Tybet pod hasłem „No luv 4 Google”. Organizacja zachęca do zaprzestania
korzystania z usług tej firmy. NaleŜy jednak zauwaŜyć, Ŝe wszystkie
wyszukiwarki działające wcześniej w Chinach (Baidu, Yahoo!, MSN) równieŜ
musiały zastosować się do wymagań władz chińskich.
W 2006 roku pojawiły się informacje o powstaniu kilku konkurencyjnych
do Google wyszukiwarek, jedną z nich jest europejska inicjatywa ograniczenia
dominacji USA w internecie Quaero (łac. szukam), czyli projekt europejskiej
wyszukiwarki internetowej prowadzony przez firmy Thomson, France Telecom,
Siemens AG, Thales, Bertin Technologies, Exalead, Jouve, LTU, Vecsys,
Empolis, a wspomagany przez instytuty naukowe Inria, Inra, CNRS, Clips Imag,
RWTH Aachen, Uniwersytet Karlsruhe.
Najpopularniejszymi na świecie wg Wikipedii są – chronologicznie wg
daty powstania: Archie (1990 r.), Veronica (1991), JugHead (1991), WWW
Wanderer (1992), WebCrawler (1994), AltaVista (1995), MetaCrawler (1995),
Google na Uniwersytecie Standforda (pod adresem: http://google.stanford.edu)
7
Rich Text Format - "wzbogacony" tekst
5
(1996), HotBot (1996), Google Google.com - jako niezaleŜna firma (1998),
MSN Search (2005).
A w Polsce: polski Archie (1994), polski Infoseek ICM (1995), Infoseek Onet
(1996), polska AltaVista (1996), NetSprint (2001), Szukacz (2003), Gooru
(2004).
Polska strona http://www.ranking.pl/ ocenia popularność m.in. wyszukiwarek.
Ranking obliczany jest na podstawie procentowej liczby wizyt na polskich
witrynach dokonanych z wyszukiwarek uczestniczących w badaniu
gemiusTraffic.
lp
1
2
3
4
5
6
7
Tabela 1 Wyszukiwarki-silniki - uŜytkownicy z Polski
Wyszukiwarki-silniki
5.IX.2006 12.IX.2006 11.IX.2006
18.IX.2006
Google
81.2%
82.0%
Morfeo
9.0%
9.0%
NetSprint
7.6%
7.3%
MSN
1.4%
0.6%
Szukacz
0.3%
0.4%
Yahoo
0.4%
0.5%
Altavista
0.1%
0.1%
Źródło: Ranking.pl http://www.ranking.pl [dostęp 2 X 2006]
19.IX.2006 25.IX.2006
81.0%
9.3%
7.4%
1.1%
0.6%
0.5%
0.1%
Poza zestawieniem znalazły się: Onet, Gooru, Szookacz, Overture, Askjeeves,
Vivisimo, Yandex, Wisenut, Teoma, Fast, AOL, Netoskop, Excite, Looksmart,
Hotbot, Ixquick, Search, Premiera, Seznam, Jyxo, Mamma, Netscape, Iwon,
About, Dogpile, Webcrawler, Metacrawler poniewaŜ nie osiągnęły wymaganego
pułapu 0,1% w ostatnim tygodniu.
Trudno jest ustalić popularność wyszukiwarek – ale często choć z róŜnymi
wynikami, to jednak ich kolejność jest zachowana.
Rys.1 RóŜnice w wynikach badań
Źródło: M. Górak, Konkurencyjne rankingi wyszukiwarek, [2]
Metawyszukiwarki
Czasami na zadane pytanie wyszukiwarka nie wyświetli nam Ŝadnego
adresu lub będzie ich bardzo mało. Wtedy moŜna skorzystać
z metawyszukiwarek. Są to serwisy internetowe, które nie posiadają własnej
bazy danych, ale potrafią wysłać nasze zapytanie do kilku lub kilkunastu
samodzielnych szperaczy, odebrać je od nich i przedstawić w przejrzystej
formie.
6
Wadą metawyszukiwarek jest brak dostępu do specyficznych zapytań
złoŜonych jakie dają pojedyncze szperacze. Zaletą jest to, Ŝe moŜna zadać jedno
pytanie do kilku szperaczy przy odwiedzeniu tylko jednego serwisu.
Zaoszczędza to czas i daje moŜliwość przeszukania większej części zasobów
internetu. Niektóre metawyszukiwarki dodatkowo opracowują otrzymaną listę
wyników: Usuwają powtarzające się adresy i te, które juŜ nie istnieją w
internecie, a są jeszcze zapisane w bazie wyszukiwarki. Dodatkowo mogą
sortować na róŜne sposoby wyświetloną listę.
Przykładami Meta-Search Enginesm są Metacrawler, Ixquick, Copernic. Kolejne
przykłady moŜna znaleźć na stronie: http://www.waran.com.pl/w_multiwyszukiwarki.htm
Wyszukiarki Invisible Web
Spora część materiałów znajdujących się w internecie jest niedostępna bo
"niewidzialna" dla wyszukiwarek. Przybywa jednak serwisów, które
umoŜliwiają zgłębianie tych ukrytych zasobów. W opracowaniach moŜna teŜ
spotkać się z inną nazwą - "Deep Web" (głęboka sieć).
W dotarciu do tych mało znanych zasobów sieci pomagają specjalistyczne
serwisy. Mogą to być metabazy - zbiory wyłuskanych z sieci kolekcji
dotyczących róŜnych obszarów wiedzy, albo teŜ serwisy penetrujące określony
obszar sieci, koncentrujące się na jednej tylko dziedzinie.
CompletePlanet8 to metabaza, która daje dostęp do 90 tyś. baz danych
i serwisów wyszukiwawczych. MoŜna do nich dotrzeć poprzez katalog
tematyczny albo na skróty - po słowie kluczowym. Inny serwis to Direct Search9
stworzy przez Gary Price z George Washington University, autorytet
w dziedzinie ukrytych źródeł. To wciąŜ rosnący zbiór linków prowadzących
bezpośrednio do formularzy wyszukiwawczych poszczególnych baz. Price
tworzy takŜe dodatkowe zbiory - np. "Speech & Transcript Center" (kolekcja
przemówień, głównie politycznych), biznesową "Lists of Lists" (z linkami do
rankingów, statystyk i innych zestawień); ponadto kolekcję nagrań audio i wideo
oraz "News Center" gromadzący serwisy informacyjne.
Infomine10 to przykład serwisu wyspecjalizowanego. Jest adresowany do
środowiska akademickiego, powstał zresztą z inicjatywy pracowników kilku
amerykańskich uczelni i bibliotek uniwersyteckich (m.in. University
of California i University of Detroit). Gromadzi w swoim katalogu wartościowe
materiały przydatne naukowcom i studentom. Są to bazy danych, elektroniczne
biuletyny, ksiąŜki, artykuły, archiwa list elektronicznych. W sumie ponad 20.000
źródeł dotyczących
poszczególnych nauk, np. medycyny, nauk
humanistycznych, matematycznych itp.
Własny serwis mają teŜ bibliotekarze - jest to "Librarians' Index to the
Internet"11 Znajduje się w nim ponad 8,5 tys. wyselekcjonowanych adresów baz.
Kolejnym przykładem jest Academic Info12.
8
CompletePlanet http://www.completeplanet.com
Direct Search http://www.freepint.com/gary/direct.htm
10
Infomine http://infomine.ucr.edu
11
Librarians' Index to the Internet http://www.lii.org
9
7
W "niewidzialną" część sieci coraz częściej zapuszczają się wyszukiwarki
- a to dzięki temu, Ŝe wzbogaca się je o moŜliwość przeszukiwania tekstów
zapisanych w róŜnych formatach. Najwięcej takich moŜliwości ma obecnie
Google, ale jej konkurenci planują nowe usługi.
Formułowanie zapytań do wyszukiwarek
RóŜne wyszukiwarki dysponują róŜnymi rodzajami zapytań, jednak pewne
zasady są wspólne dla wszystkich narzędzi wyszukujących. Ich znajomość
przyspieszy wyszukiwanie właściwych treści. Przedstawione zapytania
niejednokrotnie moŜna ze sobą łączyć co daje jeszcze lepsze efekty.
Wyszukiwanie według słów kluczowych
Najprostszym sposobem zadawania pytania jest wpisanie poszukiwanego
wyrazu lub wyrazów określających poŜądaną przez nas informację.
Wyszukiwarka lub katalog wyświetli nam listę stron, które zawierają
poszukiwane słowo lub słowa, np słowo programista. MoŜe to jednak
spowodować wyświetlenie listy zawierającej ponad 1000 adresów, której
przejrzenie moŜe stać się czasochłonne.
W takim przypadku niektóre szperacze pozwalają na przeszukanie
otrzymanych wyników poprzez sformułowanie dodatkowego pytania do bazy, co
umoŜliwi zmniejszenie liczby otrzymanych stron i dokładniejsze wyniki
wyszukiwania. Na przykład gdy poszukujemy stron internetowych szkół
wyŜszych. Na pytanie szkoły baza wyszukiwarki zwróci nam bardzo duŜą listę
adresów. Dzięki moŜliwości przeszukania otrzymanych wyników zadajemy
ponowne pytanie wyŜsze, ograniczając w ten sposób liczbę otrzymanych
wyników.
MoŜna podać wiele słów kluczowych, ale nie naleŜy przesadzać z ich
liczbą i podać je w dobrej kolejności. Wyniki wyszukiwania programowanie
komputerów, będą inne niŜ komputerów programowanie. Niektóre narzędzia
i tak nie „czytają” długich zapytań, np. Google bierze pod uwagę tylko 10 słów
i ignoruje pewne typowe wyrazy (na przykład angielskie „the” i „and”), a takŜe
niektóre pojedyncze cyfry i litery, poniewaŜ spowalniają one wyszukiwanie, nie
zapewniając lepszych wyników. Google informuje szczegółowo o wykluczonych
często uŜywanych wyrazach na stronie wyników pod polem wyszukiwania.
WaŜna jest kolejność podawanych wyrazów.
Wyszukiwanie frazy
Wpisanie do wyszukiwarki dwóch słów np. program nauczania spowoduje
wyświetlenie stron zawierających słowo program i witryn zawierających wyraz
nauczania oraz tych, które zawierają oba słowa. Gdy oba wyrazy umieścić
w cudzysłowie, otrzymamy listę zawierającą adresy stron, które w swoim tekście
posiadają dwa słowa obok siebie i to w poŜądanej kolejności.
12
Academic Info http://www.academicinfo.net
8
Wyszukiwanie rozmyte
Wyszukiwanie rozmyte polega na uwzględnieniu róŜnych form danego
wyrazu. W pytaniu podajemy początek wyrazu pozostałą część zastępujemy
znakiem ? lub *. Znak ? zastępuje tylko jedną literę, zaś * zastępuje większą
liczbę znaków. Jak widać w podanym przykładzie szukamy ogólnie stron na
temat poczty. Jednak gdy wpiszemy słowo poczta to wyszukiwarka wyświetli
nam adresy stron zawierających wyraz poczta, a pominie strony zawierające
wyrazy poczty, pocztowy itp.
W Google znak „~” oznacza synonim, czyli np.wpisując ~program
znajdziemy w wynikach równieŜ słowo software,
Konieczność występowania wyrazu lub nie
Inną moŜliwość dają nam dwa znaki + i – koniecznie ze spacją przed
znakiem. Pierwszy wymusza wyświetlenie stron, które muszą zawierać wyraz
poprzedzony +. Drugi zaś wyklucza strony zawierające dane słowo. Czasem
przydaje się, gdy słowo ma kilka znaczeń. Np. gdy szukamy informacji
o protokołach sieciowych moŜemy podać zapytanie: protokół –dyplomacja.
A zapytanie Wojna Światowa +I zapewni nam informacje o I Wojnie.
Operatory zaawansowane
Zastosowanie ich da nam ograniczanie wyników wyszukiwania do stron z
określonych krajów lub domen. Domenę moŜna określić dodając
do wyszukiwanego hasła operator ,,site” Operator ten działa w przypadku domen
sieciowych i domen najwyŜszego poziomu. Przykłady: music site:pl, lemur
site:org, rekrutacja site:edu.pl, ranking site:google.com
MoŜemy jeszcze ograniczać:
• miejsce strony gdzie mają się znajdować wyszukiwane hasła – w tytule lub
w jej adresie URL: intitle:"Podstawy informatyki", allintitle:Podstawy
•
•
informatyki, inurl: algorytmy struktury, allinurl: algorytmy struktury
typ pliku
filetype:pdf OR filetype:ppt "boolean searching"
link wewnątrz dokumentu
link: ki.uni.lodz.pl
9
Bibliografia
[1] Googling to the Max, UC Berkeley - Teaching Library Internet Workshops
http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/Google.html [dostęp 1 IX
2006]
[2] Górak M., Konkurencyjne rankingi wyszukiwarek, IDG Poland SA
http://www.internetstandard.pl/news/89938.html [dostęp 2 X 2006]
[3] Górak M., Kwietniowy ranking wyszukiwarek, IDG Poland SA
http://www.internetstandard.pl/news/news.asp?m=29&id=93592 [dostęp 1 X 2006]
[4] Invisible or Deep Web: What it is, Why it exists, How to find it, and Its
inherent ambiguity - UC Berkeley - Teaching Library Internet Workshops
http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html [dostęp 1 IX
2006]
[5] JaŜdŜewska B., Wyszukiwanie informacji,
http://www.oeiizk.edu.pl/informa/jazdzewska/infor.html [dostęp 1 IX 2006]
[6] Leszczyński A., Google: Zarabianie na darmowym, Gazeta Wyborcza
on-line, http://serwisy.gazeta.pl/nauka/1,72915,3451172.html [dostęp 1 IX 2006]
[7] Łamek
A.,
Ukryty
Internet,
Magazyn
Internet
7/2002,
http://www.mi.com.pl/artykul.php?id=232 [dostęp 1 IX 2006]
[8] Wikipedia Wolna Encyklopedia http:/pl.wikipedia.org/wiki [dostęp 10 IX 2006]
10
SPIS TREŚCI
Narzędzia wyszukiwania informacji w Internecie__________________________ 2
Katalogi stron internetowych_______________________________________________
Wyszukiwarki internetowe ________________________________________________
Metawyszukiwarki ______________________________________________________
Wyszukiarki Invisible Web ________________________________________________
2
3
6
7
Formułowanie zapytań do wyszukiwarek ________________________________ 8
Wyszukiwanie według słów kluczowych _____________________________________
Wyszukiwanie frazy _____________________________________________________
Wyszukiwanie rozmyte___________________________________________________
Konieczność występowania wyrazu lub nie ___________________________________
Operatory zaawansowane _________________________________________________
8
8
9
9
9
Bibliografia ________________________________________________________ 10
SPIS TREŚCI___________________________________________________11
11

Wyszukiwanie informacji w internecie

Transkrypt

Podobne dokumenty

efekt docelowy - Katedra Informatyki > Home