Inačica od 13. lipnja 2011. u 22:00 uredi Roberta F. (razgovor \| doprinosi) Automatski ophođeni suradnici 53.895 edits m Članak "Rudarenje podataka" je zaštićen: Zatrpavanje nedavnih promjena ([edit=sysop] (istječe 21:00, 13. lipnja 2011. (UTC)) [move=sysop] (istječe 21:00, 13. lipnja 2011. (UTC))) ← Starija izmjena		Inačica od 15. lipnja 2011. u 15:04 uredi ukloni ovu izmjenu 93.136.109.178 (razgovor) Nema sažetka uređivanja Novija izmjena →
Redak 110: Skladište podataka može biti bilo koje veličine i stupnja kompleksnosti, ali glavno svojstvo kojim se odlikuje dobra kvaliteta skladišta jest brzina pristupa podacima (brzo ali i precizno izdvajanje i prikaz podataka) i mogućnost jednostavnog rukovanja podacima. Dobrim dizajnom skladišta podataka se povećava vrijednost baze podataka. === # (2) === Samo pretraživanje podataka uključuje četriri vrste zadataka: učenje pravila asocijacije, grupiranje, klasifikacija i regresija. Pojasnimo malo zadatke: Učenje pravila asocijacije- potraga za vezom između varijabli. Na primjer, supermarket može odrediti koji se proizvodi često kupuju zajedno te iskoristi tu informaciju za marketniške svrhe (analiza kupovne košarice). Redak 116: Klasifikacija- poopćavanje poznate strukture kako bi se ona mogla primjeniti na nove podatke. Na primjer, neki program elektroničke pošte može pokušati klasificirati neku elektroničku poštu kao legitimnu ili kao bezvrijednu elektroničku poštu. Zajednički algoritmi uključuju: učenje drva spoznaje, najbližeg susjeda, naivnu klasifikaciju, neuralne mreže i potporni vektorski stroj. Regresija- pokušava se pronaći funkcija koja modelira podatke sa najmanjom geškom. === # (3) === Potvrda rezultata- konačni korak uključuje provjeru i potvrdu uzoraka proizašlih iz algoritama pretrage podataka u većem setu podataka. Nisu svi uzorci nađeni algoritmima pretrage podataka nužno dobri. Naime, često algoritmi pretrage podataka pronađu uzorke prisutne u probnom setu podataka, koji nisu prisutni u općem setu podataka. Kako bi se ovaj problem riješio, koristi se test kompleta (seta) podataka algoritmu nepoznatih od ranije pretrage podataka. Tako se naučeni uzorci primjenjuju u ovom testu a dobiveni rezultat se uspređuje sa željenim rezultatom. Na primjer, algoritam pretrage podataka koji pokušava prepoznati spam (neželjene sadržaje) od legitimne elektroničke pošte će se testirati na probnom setu elektroničke pošte. Naučeni uzorci će se primjeniti na testni set elektroničke pošte, koji nije algoritmu od ranije poznat. Preciznost tih uzoraka se tada može vidjeti po broju točno klasificirane elektroničke pošte. Ako naučeni uzorci ne zadovoljavaju željene standarde, tada je nužno napraviti ponovnu procjenu i promjeniti pred-proces te pretragu podataka. Ukoliko naučeni uzorci zadovoljavaju željene standarde, tada je zadnji korak interpretacija naučenih uzoraka i njihova pretvorba u znanje.

Rudarenje podataka: razlika između inačica