Rudarenje podataka: razlika između inačica

Izbrisani sadržaj Dodani sadržaj
Redak 85:
Ukoliko su svi podaci jasni i razumljivi, i postoji stabilan i dovoljno velik broj varijabli, sljedeći korak bi trebalo biti modeliranje (logistička regresija ili neki drugi model), rangirajući podatke na osnovu sličnosti u kategoriji „odgovor“ ili pripisujući im doživotnu vrijednost ili „loyalty“ rezulat. Modeliranje može biti: model „odgovora“ (odaziva), model profit, loyalty model ili model doživotne vrijednosti. Segmentacija baze podataka (rastavljanje na dijelove) može biti veoma jednostavna, ali može biti o veoma kompleksna, bazirana na mnogo varijabli i optimizirana za pojedine segmente.
===== PRETRAŽIVANJE UZORAKA =====
[http://en.wikipedia.org/wiki/Pattern_mining#Pattern_mining „Pretraživanje uzoraka“] je metoda pretrage podataka koja se koristi za pronalaženje uzoraka podatka. U ovome kontekstu riječ „uzorci“ često znači „pravila asocijacije“. Prvotni motivi za traženje pravila asocijacija su proizašli iz želje da se analiziraju podaci o ponašanju kupaca iz jednog supermarketa kada je riječ o kupovanju njihovih proizvoda. Na primjer, jedno pravilo asocijacije „pivo⇒ čips (80%)“ govori da su 4 od 5 kupaca koji su kupili pivo također kupili i čips.
Jedan od glavnih problema pri pretraživanju podataka jest što podaci koji se analiziraju ne moraju uvijek i predstavljati cijelu domenu, te stoga ne sadrže vezu sa ostalim dijelovima domene. Zato se u pojedinim slučajevima veze između podataka kontroliraju ili uklanjaju.
 
===== STANDARDI ZA PRETRAŽIVANJE PODATAKA =====
Bilo je pokušaja da se definiraju standardi za pretraživanje podataka, kao na primjer 1999.godine – CRISP-DM 1.0 (Cross Industry Standard Process for Data Mining) i 2004.godine – JDM 1.0 (Java Data Mining standard), međutim ovi standardi su još uvijek u razvoju. Neovisno o ovim standardima, postoje još neki softveri kao R language, Weka, KNIME, RapidMiner, jHepWork i dr., koji su postali neformalni standardi za rad sa procesima pretraživanja podataka. Naravno, svi ovi sustavi mogu unositi i iznositi modele u PMML-u (Predictive Model Markup Language), što omogućava standardan način predstavljanja modela pretraživanja podataka. PMML je jezik baziran na XML-u, a razvijen od strane DMG-a (Data Mining Group), neovisna grupa sastavljena od mnogo tvrtki koje se bave procesom pretraživanja podataka.