Duboki web

Duboki web dio je interneta čiji sadržaj nije dostupan putem konvencionalnih mrežnih pretraživača.

Podjela sadržaja na internetu (mreži)

S obzirom na dostupnost sadržaja World Wide Web možemo podijeliti na dva dijela: površinski web i duboki web. Površinski web je pojam koji označava sadržaj na Webu koji je lako pretraživ putem konvencionalnih Web pretraživača, kao što su Google, Yahoo! ili Ask.com i sl. Konvencionalni Web pretraživači stvaraju svoje indekse pomoću robota (tzv. pauka) koji pretražuju Web u potrazi za novim informacijama. Ti roboti putuju od jedne Web stranice do druge koristeći se poveznicama među tim stranicama. Oni pritom indeksiraju sadržaj svake Web stranice na koju naiđu.

S obzirom na trenutak generiranja sadržaja Web stranice možemo podijeliti na statične i dinamične. Sadržaj na statičnim Web stranicama je automatski generiran prilikom otvaranja neke Web stranice. Kod dinamičnih Web stranica, sadržaj se generira prilikom određenog zahtjeva, tj. upita za neki sadržaj (npr. Google-ova lista rezultata ili sadržaj online baza podataka). Dinamične Web stranice se danas sve više koriste i one čine veliku većinu onoga što se nalazi na Webu. S obzirom na to da njihov sadržaj nije automatski generiran konvencionalni Web pretraživači ne mogu indeksirat taj sadržaj.

Michael K. Bergman je korištenje konvencionalnih pretraživača usporedio s povlačanjem mreže po površini mora. Premda će se puno toga uhvatiti u toj mreži, puno veća količina informacija je u dubljoj vodi i zbog toga nije uhvaćena. Smatra se da se 99 % informacija nalazi u dubokom Web-u, dok je samo 1% informacija dostupno putem konvencionalnih Web pretraživača (površinski Web). Anand Rajaraman je to slikovito opisao izjavom da je ono što nam nude konvencionalni Web pretraživači samo vrh ledene sante.

Naziv

Osim termina duboki Web, koristi se još i termin nevidljivi Web. Termin nevidljivi Web je prvi koristio Jill Ellsworth 1994. godine, misleći na one Web stranice koje nisu indeksirane od strane Web pretraživača.

Michael Bergman je prvi koristio termin duboki Web 2001. godine. On je smatrao da termin nevidljivi Web nije točan, zato što taj sadržaj nije dostupan putem konvencionalnih Web pretraživača, ali je zato dostupan na drugačije načine. Danas se uglavnom koristi termin duboki Web (eng. deep Web).

Veličina

2000. godine provedeno je istraživanje o veličini i relevantnosti dubokog Weba. Neki od zaključaka tog istraživanja su:

sadržaj na dubokom Webu je 400 do 550 puta veći od sadržaja na površinskom Webu
Duboki Web sadrži 7.500 terabajta informacija, dok površinski Web sadrži samo 19 terabajta
Duboki Web sadrži 550 milijardi individualnih dokumenata, dok površinski Web sadrži 1 milijardu
Postoji više od 200.000 Web stranica koje se mogu svrstati u kategoriju dubokog Weba
Kvaliteta sadržaja na dubokom Webu je jednu do dvije tisuće puta veća nego na površinskom Webu

Istraživanje koje je proveo NEC Research Institute uspoređivalo je indekse najvećih svjetskih pretraživača kao što je Google, AltaVista, Yahoo i nijedan indeks nije sadržavao više od 16% površinskog Weba. Ako uzmemo u obzir da pretraživači uopće ne pretražuju duboki Web dobijemo da je samo 0.03% od cjelokupnog Weba pretraživo putem konvencionalnih pretraživača. Ipak 95% korisnika weba koristi komercijalne pretraživače.

Treba uzeti u obzir da su to starija istraživanja i da se situacija, pogotovo količina podataka na Webu, znatno promijenila. Ako se uzme u obzir da se sve više izrađuju dinamičke Web stranice, za očekivati je da su omjeri slični ili je još veći udio dubokog Weba.

Kategorizacija

Sadržaj dubokog Web-a bi se mogao svrstati u sljedeće kategorije:

Online baze podataka: sadržaj se dinamički generira tek kad se postavi određeni upit. Čine najveći dio dubokog Web-a.
Netekstualni sadržaj kao što su multimedija, slike, softver i sl.
Sadržaj koji zahtijeva autentikaciju
Sadržaj koji se neprestano mijenja (portali s vijestima): taj sadržaj se može indeksirati, ali s obzirom na to da se često mijenja potrebna je neprestana ažurnost
Nepovezane stranice: Web stranice na koje ne vodi ni jedan link, pa roboti do tih stranica nikada ne dolaze
Sadržaj na društvenim mrežama: razne rasprave, komentari i sl.
Stranice s ograničenim pristupom: Stranice koje ne dozvoljavaju indeksiranje od strane robota

Chris Sherman i Gary Price su podijelili sadržaj dubokog Web-a u četiri glavne kategorije:

netransparentni Web (eng. opaque Web): sadržaj koji može biti indeksiran ali nije. Postoji više razloga za to: S obzirom na to da je indeksiranje skup i dugotrajan posao (velika količina podataka na Webu) neki roboti ne indeksiraju sve stranice na nekim Web sjedištima; roboti ne stignu indeksirati sve nove stranice i sve promjene koje se dogode na već indeksiranim stranicama; na neke stranice ne vodi niti jedan link pa roboti nemogu doći do takvih stranica.
privatne mreže (intraneti) (eng. private Web): sadržaj koji može biti indeksiran, ali je namjerno onemogućeno njegovo indeksiranje ili pregledavanje. To može biti sadržaj koji je zaštićen sa šifrom ili Web stranice koje koriste posebne robots.txt datoteke ili 'noindex' metatagove kako bi spriječili indeksiranje od strane robota.
sadržaj koji je dostupan pod određenim uvjetim (eng. proprietary Web): to mogu biti stranice koje zahtijevaju registraciju, koja može i ne mora biti besplatna. Može se raditi i o sadržaju koji nije besplatan, bilo da se radi o plaćanju samo određenih stranica ili nekoj vrsti pretplate na neke sadržaje.
nevidljivi Web (eng. truly invisible Web): sadržaj koji je tehnički teško indeksirati od strane robota. To su uglavnom dinamičke Web stranice, a najčešći primjer za to su online baze podataka, koje čine glavninu dubokog Web-a.

Internetske baze podataka

Internetske baze podataka su organizirane zbirke znanstvenih, poslovnih i drugih informacija koje su pouzdane, a dostupne su na Webu. Većina zapisa u online bazama podataka se odnosi na članke objavljene u časopisima. U izradi online baza podataka sudjeluju različiti stručnjaci, uključujući knjižničare (definiraju strukturu baze podataka, polja zapisa), računalne stručnjake (izrađuju bazu podataka, sučelje i sustave pretraživanja i pregledavanja) i indeksere (opisuju radove ključnim riječima odnosno predmetnicama).

Vrste online baza podataka:

Bibliografske baze podataka: Sadrže bibliografske podatke o radovima objavljenim u različitim publikacijama. Danas se često zapisi unutar bibliografskih baza povezuju s elektroničkim verzijama radova na Web-u.
Citatne baze podataka: bibliografske baze podataka, koje osim samih radova opisuju i popise korištene literature koje autori navode u svojim radovima. Daju odgovor na pitanje koji su radovi najviše citirani, dakle oni koji su na neki način najrelevantniji unutar nekog područja.
Baze podataka s cjelovitim tekstovima: imaju mogućnost uvida u cjeloviti tekst pojedinog rada, zajedno s bibliografskim opisom rada.

Pristup

S obzirom na to da sadržaj dubokog Weba uglavnom nije moguće pretraživati konvencionalnim Web pretraživačima, potrebne su neke druge metode kako pristupiti tom sadržaju. Većina kvalitetnog sadržaja na dubokom Webu se nalazi u online bazama podataka. Tim bazama podataka se uvijek može pristupiti putem njihovog Web sjedišta. Postoji još nekoliko načina kako doći do sadržaja na online bazama podataka.

Mogu se koristiti posebni Web direktoriji koji sadrže popise web adresa baza podataka ili drugih izvora informacija. Postoje više takvih direktorija, neki od njih su općeniti, a neki pokrivaju samo određena područja interesa. Osim poveznica na baze podataka, neki od njih nude i mogućnost pretraživanja tih baza podataka. Neki od takvih Web direktorija su: Science.gov, Digital Librarian, INTUTE,Research beyond google,TechDeepWeb Arhivirana inačica izvorne stranice od 26. svibnja 2010. (Wayback Machine).

Za izravno pretraživanje baza podataka i ostalih sadržaja s jedne Web stranice mogu se koristiti posebne tražilice dubokog Weba ili preko posebnih pretraživačkih servisa (eng. Gateway).Neki od njih su CompletePlanet Arhivirana inačica izvorne stranice od 16. lipnja 2004. (Wayback Machine), INFOMINE, Scirus, OVID, EBSCO, Google Scholar.

Izvori

Price, Gary; Sherman, Chris. The Invisible Web : Uncovering Information Sources Search Engines Can't See.
Bergman, Michael K. The Deep Web: Surfacing Hidden Value.
Wright, Alex. Exploring a 'Deep Web' That Google Can't Grasp
Cohen, Laura. Internet Tutorials: The Deep Web Arhivirana inačica izvorne stranice od 15. svibnja 2010. (Wayback Machine)
Gruchawka, Steve. Using The Deep Web Arhivirana inačica izvorne stranice od 26. svibnja 2010. (Wayback Machine)
Gateways Arhivirana inačica izvorne stranice od 25. travnja 2010. (Wayback Machine)
The Invisible Web Arhivirana inačica izvorne stranice od 18. svibnja 2010. (Wayback Machine)
Online baze podataka: Priručnik za pretraživanje Arhivirana inačica izvorne stranice od 1. ožujka 2010. (Wayback Machine)