Rudarenje podataka: razlika između inačica

Izbrisani sadržaj Dodani sadržaj
Redak 85:
Ukoliko su svi podaci jasni i razumljivi, i postoji stabilan i dovoljno velik broj varijabli, sljedeći korak bi trebalo biti modeliranje (logistička regresija ili neki drugi model), rangirajući podatke na osnovu sličnosti u kategoriji „odgovor“ ili pripisujući im doživotnu vrijednost ili „loyalty“ rezulat. Modeliranje može biti: model „odgovora“ (odaziva), model profit, loyalty model ili model doživotne vrijednosti. Segmentacija baze podataka (rastavljanje na dijelove) može biti veoma jednostavna, ali može biti o veoma kompleksna, bazirana na mnogo varijabli i optimizirana za pojedine segmente.
===== PRETRAŽIVANJE UZORAKA =====
[http://en.wikipedia.org/wiki/Pattern_mining#Pattern_mining „Pretraživanje uzoraka“] je metoda pretrage podataka koja se koristi za pronalaženje uzoraka podatka. U ovome kontekstu riječ „uzorci“„''uzorci''“ često znači „pravila„''pravila asocijacije“asocijacije''“. Prvotni motivi za traženje pravila asocijacija su proizašli iz želje da se analiziraju podaci o ponašanju kupaca iz jednog supermarketa kada je riječ o kupovanju njihovih proizvoda. Na primjer, jedno pravilo asocijacije „pivo⇒ čips (80%)“ govori da su 4 od 5 kupaca koji su kupili pivo također kupili i čips.
Jedan od glavnih problema pri pretraživanju podataka jest što podaci koji se analiziraju ne moraju uvijek i predstavljati cijelu domenu, te stoga ne sadrže vezu sa ostalim dijelovima domene. Zato se u pojedinim slučajevima veze između podataka kontroliraju ili uklanjaju.