Pretraživanje na internetu

Uobičajen

Pretraživanje na internetu

WWW je ogroman informacioni prostor. Dokumenti objavljnei na Web-u su jako raznovrsni kako po kvalitetu i pouzdanosti informacija, tako po temama, opsegu i organizaciji. Većina informacija objavljenih na netu nije podvrgnuta nikavoj recenziji. Veliki broj ne sadrži podatke o imenu autora, instituciji u kojoj autor radi, naslov, sadržaj. Zbog toga je ogroman problem pretraživanaj na internetu u tome kako iz mnoštva nevažnih informacija izdvojiti one koje su relevantne za osobu koja ih pretražuje. Najjednostavniji način je ako se zna URL adresa hipertekst dokumenta. Ova adresa se jednostavno upisuje u adresno polje programa za navigaciju (čitača Web-a). dalji put je jednostavan linkovi ili eventualno polja za postavljanje upita u okviru prezentacije.

Indeksiranje dokumenata

Preteča pretraživanja na Web-u  su različiti postupci katalogiziranja i indeksiranaj dokumenata po temama. Najveći problem kod tematskih kataloga je nemogućnost praćenja ogromnog broja promenljivih resursa na Internetu. Tematski ktalozi su nezaobilazan način pretraživanja Interneta koji se samo nadopunjuje korišćenjem mašina za pretraživanje.

Za pronalaženje konkretnih sadržaja koji zanimaju korisnika koriste se mašine za pretraživanje (search enginers). Svaka od ovih mašina održava svoju bazu podataka, a korisnik pretražuje tu bazu i dobija adrese na kojima se pominje podatak koji ga zanima. Uspeh pretraživanja zavisi od toga koliko ključnih reči koje  je korisnik zadao se podudaraju sa rečima u dokumentima u bazi. Programi ovih mašina, kompjuterizovani roboti zvani paukovi ( spiders, Crawlwers, Web robots), tumaraju neprekidno po Webui pronalaze nove stranice, ažuriraju postojeće, brišu zastarele i klasifikuju pronađene strane. Oni zahtevaju minimalne ljudske intervencije.

Mašinu za pretraživanje čine tri glavna modula: pauk, indekser i server koji odgovara na upite.

Pauk počinje sa početnim skupom strana (URL lista). Strane iz URL liste se dostavljaju jedna po jedna dobavlajču koji pronalazi na Webu odgovaeajući dokument, preuzima ga istavlja u listu dokumenata za procesiranje, Dokumenti iz ove liste se dostavljaju jedan po jedan rasčlanjivaču koji ih analizira i pojmove koji se nalaze na njemu zajedno sa adresom daje indekseru koji ih indeksira prema pojmovima i formira bazu podataka sa pojmovima o njihovim adresama. Adrese novih dokumenata koje pronalayi u postupku rasčlanjivanja, rasčlanjivač stavlja u listu adresa. (URL lista)

Neke stranice na internetu ne mogu da se pretraćuju na ovaj način. Strane koje ne mogu preuzeti paukovi se mogu podeliti u 3 glavne kategorije

  • Strane zaštićene standardm pretraživanja
  • Strane do kojih se ne može doći vezama sa drugih strana
  • Strane sakrivene zaštitnim zidovima

Pretraživači uglavnom indeksiraju između 500 i 600 miliona dokumenata a najviše Google oko 700 miliona sa stranicama na koje ukayuje ali ih ne posećuje oko milijardu i 400 hiljada.

Neki od pretraživača su: Yahoo, Alta Vista, Google, HotBot, Lycos , Excite itd

http://www.yahoo.com, http://www.altavista.com, http://www.google.com, http://www.hotbot.com, http://www.lycos.com, http://www.excite.com i   itd.

Metapretraživači su programi koji pokreću pretraživanje istovremenim angažovanjem većeg broja pretraživača interneta. http://www.searchenginesontheweb.com   

Inteligentni agenti su programi koji samostalno izvode neki zadatak umesto korisnika. Nalaze se na računaru svog vlasnika i izvode pretraživanja korišćenjem različitih pretraživača.

Advertisements

Ostavite odgovor

Popunite detalje ispod ili pritisnite na ikonicu da biste se prijavili:

WordPress.com logo

Komentarišet koristeći svoj WordPress.com nalog. Odjavite se /  Promeni )

Google+ photo

Komentarišet koristeći svoj Google+ nalog. Odjavite se /  Promeni )

Slika na Tviteru

Komentarišet koristeći svoj Twitter nalog. Odjavite se /  Promeni )

Fejsbukova fotografija

Komentarišet koristeći svoj Facebook nalog. Odjavite se /  Promeni )

Povezivanje sa %s