Duboki web: razlika između inačica

Izbrisani sadržaj Dodani sadržaj
Bracodbk (razgovor | doprinosi)
sređivanje
Redak 1:
'''Duboki web''' je dio World Wide Web-[[Internet]]a čiji sadržaj nije dostupan putem konvencionalnih Webmrežnih (''web'') pretraživača.
 
== Podjela sadržaja na Internetu (mreži) ==
S obzirom na dostupnost sadržaja, [[Web]] možemo podijeliti na dva dijela: '''površinski Web''' i '''duboki Web'''. Površinski web je pojam koji označava sadržaj na Webu koji je lako pretraživ putem konvencionalnih [[Tražilica|Web pretraživača]], kao što su [http://www.google.com Google], [http://www.yahoo.com Yahoo!], [http://ask.com Ask.com] i sl. Konvencionalni Web pretraživači stvaraju svoje indekse pomoću robota (tzv. pauka) koji pretražuju Web u potrazi za novim informacijama. Ti roboti putuju od jedne [[Web stranice]] do druge koristeći se [[poveznica|poveznicama]] među tim stranicama. Oni pritom indeksiraju sadržaj svake Web stranice na koju naiđu.
 
S obzirom na dostupnost sadržaja, [[Web]] možemo podijeliti na dva dijela: '''površinski Web''' i '''duboki Web'''. Površinski web je pojam koji označava sadržaj na Webu koji je lako pretraživ putem konvencionalnih [[Tražilica|Web pretraživača]], kao što su [http://www.google.com [Google]], [http://www.yahoo.com [Yahoo!],] ili [http://ask.com [Ask.com]] i sl. Konvencionalni Web pretraživači stvaraju svoje indekse pomoću robota (tzv. pauka) koji pretražuju Web u potrazi za novim informacijama. Ti roboti putuju od jedne [[Web stranice]] do druge koristeći se [[poveznica|poveznicama]] među tim stranicama. Oni pritom indeksiraju sadržaj svake Web stranice na koju naiđu.
 
S obzirom na trenutak generiranja sadržaja Web stranice možemo podijeliti na statične i dinamične. Sadržaj na statičnim Web stranicama je automatski generiran prilikom otvaranja neke Web stranice. Kod dinamičnih Web stranica, sadržaj se generira prilikom određenog zahtjeva, tj. upita za neki sadržaj (npr. Google-ova lista rezultata ili sadržaj online baza podataka). Dinamične Web stranice se danas sve više koriste i one čine veliku većinu onoga što se nalazi na Webu. S obzirom da njihov sadržaj nije automatski generiran konvencionalni Web pretraživači nemogu indeksirat taj sadržaj.
 
Michael K. Bergman je korištenje konvencionalnih pretraživača usporedio s povlačanjem mreže po površini mora. Premda će se puno toga uhvatiti u toj mreži, puno veća količina informacija je u dubljoj vodi i zbog toga nije uhvaćena. Smatra se da se 99% informacija nalazi u dubokom Web-u, dok je samo 1% informacija dostupno putem konvencionalnih Web pretraživača (površinski Web). Anand Rajaraman je to slikovito opisao izjavom da je ono što nam nude konvencionalni Web pretraživači samo vrh ledene sante.
 
 
== Naziv ==
Osim termina duboki Web, koristi se još i termin nevidljivi Web. Termin nevidljivi Web je prvi koristio Jill Ellsworth 1994. godine, misleći na one Web stranice koje nisu indeksirane od strane Web pretraživača.
 
Michael Bergman je prvi koristio termin duboki Web 2001. godine. On je smatrao da termin nevidljivi Web nije točan, zato što taj sadržaj nije dostupan putem konvencionalnih Web pretraživača, ali je zato dostupan na drugačije načine. Danas se uglavnom koristi termin duboki Web ([[Engleski jezik|eng]]. ''deep Web'').
 
Danas se uglavnom koristi termin duboki Web (eng. deep Web).
== Veličina ==
 
[[2000.]] godine provedeno je istraživanje o veličini i relevantnosti dubokog Weba. Neki od zaključaka tog istraživanja su:
*Sadržaj na dubokom Webu je 400 do 550 puta veći od sadržaja na površinskom Webu
 
*Duboki Web sadrži 7.500 terabajta informacija, dok površinski Web sadrži samo 19 terabajta
*Sadržaj sadržaj na dubokom Webu je 400 do 550 puta veći od sadržaja na površinskom Webu
*Duboki Web sadrži 7.500 terabajta[[terabajt]]a informacija, dok površinski Web sadrži samo 19 terabajta
*Duboki Web sadrži 550 milijardi individualnih dokumenata, dok površinski Web sadrži 1 milijardu
*Postoji više od 200.000 Web stranica koje se mogu svrstati u kategoriju dubokog Weba
Line 38 ⟶ 40:
 
Chris Sherman i Gary Price su podijelili sadržaj dubokog Web-a u četiri glavne kategorije:
#Netransparentni Web (eng. Opaque Web): sadržaj koji može biti indeksiran ali nije. Postoji više razloga za to: S obzirom da je indeksiranje skup i dugotrajan posao (velika količina podataka na Webu) neki roboti ne indeksiraju sve stranice na nekim Web sjedištima; roboti ne stignu indeksirati sve nove stranice i sve promjene koje se dogode na već indeksiranim stranicama; na neke stranice ne vodi niti jedan link pa roboti nemogu doći do takvih stranica.
#Privatni Web (eng. private Web): sadržaj koji može biti indeksiran, ali je namjerno onemogućeno njegovo indeksiranje ili pregledavanje. To može biti sadržaj koji je zaštićen sa šifrom ili Web stranice koje koriste posebne robots.txt datoteke ili 'noindex' metatagove kako bi spriječili indeksiranje od strane robota.
#Sadržaj koji je dostupan pod određenim uvjetim (eng. proprietary Web): to mogu biti stranice koje zahtijevaju registraciju, koja može i nemora biti besplatna. Može se raditi i o sadržaju koji nije besplatan, bilo da se radi o plaćanju samo određenih stranica ili nekoj vrsti pretplate na neke sadržaje.
#Nevidljivi Web (eng. truly invisible Web): sadržaj koji je tehnički teško indeksirati od strane robota. To su uglavnom dinamičke Web stranice, a najčešći primjer za to su online baze podataka, koje čine glavninu dubokog Web-a.
 
#Netransparentninetransparentni ''Web'' (eng. Opaque''opaque Web''): sadržaj koji može biti indeksiran ali nije. Postoji više razloga za to: S obzirom da je indeksiranje skup i dugotrajan posao (velika količina podataka na Webu) neki roboti ne indeksiraju sve stranice na nekim Web sjedištima; roboti ne stignu indeksirati sve nove stranice i sve promjene koje se dogode na već indeksiranim stranicama; na neke stranice ne vodi niti jedan link pa roboti nemogu doći do takvih stranica.
== Online baze podataka ==
#Privatniprivatne Webmreže (''intraneti'') (eng. ''private Web''): sadržaj koji može biti indeksiran, ali je namjerno onemogućeno njegovo indeksiranje ili pregledavanje. To može biti sadržaj koji je zaštićen sa šifrom ili Web stranice koje koriste posebne robots.txt datoteke ili 'noindex' metatagove kako bi spriječili indeksiranje od strane robota.
Online baze podataka su organizirane zbirke znanstvenih, poslovnih i drugih informacija koje su pouzdane, a dostupne su na Webu. Većina zapisa u online bazama podataka se odnosi na članke objavljene u časopisima. U izradi online baza podataka sudjeluju različiti stručnjaci, uključujući knjižničare (definiraju strukturu baze podataka, polja zapisa), računalne stručnjake (izrađuju bazu podataka, sučelje i sustave pretraživanja i pregledavanja) i indeksere (opisuju radove ključnim riječima odnosno predmetnicama).
#Sadržajsadržaj koji je dostupan pod određenim uvjetim (eng. ''proprietary Web''): to mogu biti stranice koje zahtijevaju registraciju, koja može i nemora biti besplatna. Može se raditi i o sadržaju koji nije besplatan, bilo da se radi o plaćanju samo određenih stranica ili nekoj vrsti pretplate na neke sadržaje.
#Nevidljivinevidljivi ''Web'' (eng. ''truly invisible Web''): sadržaj koji je tehnički teško indeksirati od strane robota. To su uglavnom dinamičke Web stranice, a najčešći primjer za to su online baze podataka, koje čine glavninu dubokog Web-a.
 
== OnlineInternetske baze podataka ==
OnlineInternetske [[Baza podataka|baze podataka]] su organizirane zbirke znanstvenih, poslovnih i drugih informacija koje su pouzdane, a dostupne su na Webu. Većina zapisa u online bazama podataka se odnosi na članke objavljene u časopisima. U izradi online baza podataka sudjeluju različiti stručnjaci, uključujući knjižničare (definiraju strukturu baze podataka, polja zapisa), računalne stručnjake (izrađuju bazu podataka, sučelje i sustave pretraživanja i pregledavanja) i indeksere (opisuju radove ključnim riječima odnosno predmetnicama).
 
Vrste online baza podataka:
Line 50 ⟶ 53:
*Citatne baze podataka: bibliografske baze podataka, koje osim samih radova opisuju i popise korištene literature koje autori navode u svojim radovima. Daju odgovor na pitanje koji su radovi najviše citirani, dakle oni koji su na neki način najrelevantniji unutar nekog područja.
*Baze podataka s cjelovitim tekstovima: imaju mogućnost uvida u cjeloviti tekst pojedinog rada, zajedno s bibliografskim opisom rada.
 
== Pristup ==
S obzirom da sadržaj dubokog Weba uglavnom nije moguće pretraživati konvencionalnim Web pretraživačima, potrebne su neke druge metode kako pristupiti tom sadržaju. Većina kvalitetnog sadržaja na dubokom Webu se nalazi u online bazama podataka. Tim bazama podataka se uvijek može pristupiti putem njihovog Web sjedišta. Postoji još nekoliko načina kako doći do sadržaja na online bazama podataka.
Line 56 ⟶ 60:
 
Za izravno pretraživanje baza podataka i ostalih sadržaja s jedne Web stranice mogu se koristiti posebne tražilice dubokog Weba ili preko posebnih pretraživačkih servisa (eng. Gateway).Neki od njih su [http://aip.completeplanet.com/ CompletePlanet], [http://infomine.ucr.edu/ INFOMINE], [http://www.scirus.com/ Scirus], [http://gateway.ovid.com/ OVID], [http://search.ebscohost.com/ EBSCO], [http://scholar.google.com/ Google Scholar].
 
 
== Wiki poveznice ==
*[[Tražilica|Web pretraživači]]
*[[Web|World Wide Web]]
 
== Izvori ==
Line 71 ⟶ 70:
*[http://websearch.about.com/od/invisibleweb/The_Deep_Web_Find_Out_More_About_The_Deep_Web_Deep_Web_Search.htm The Invisible Web]
*[http://www.online-baze.hr/prirucnik Online baze podataka: Priručnik za pretraživanje]
 
[[Kategorija:Internet]]
 
<!-- interwiki -->
 
[[bg:Дълбока мрежа]]