Petrovic Drazen-seminarski Rad Mibs

  • Uploaded by: Drazen
  • 0
  • 0
  • April 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Petrovic Drazen-seminarski Rad Mibs as PDF for free.

More details

  • Words: 2,339
  • Pages: 11
PANEVROPSKI UNIVERZITET APEIRON FAKULTET POSLOVNE INFORMATIKE Vanredne studije Smjer »Poslovna informatika«

Predmet: Menadžment poslovno informacionih sistema

Теma:

“Data Mining”

Predmetni nastavnik Doc. dr Gordana Radić Student Dražen Petrović,vandredni student 3. godine Index br:0097/06

Banja Luka, Mart 2009.

KRATKI SADRŽAJ FAKULTET POSLOVNE INFORMATIKE..........................................................................................1 VANREDNE STUDIJE...........................................................................................................................................1 SMJER »POSLOVNA INFORMATIKA«...................................................................................................................1 PREDMET: MENADŽMENT POSLOVNO INFORMACIONIH SISTEMA................................................................................1 KRATKI SADRŽAJ...................................................................................................................... .........2 1.UVOD................................................................................................................................... .................3 3.UPOTREBA DATA MINING-A.......................................................................................... ................4 4.DM MODELI.................................................................................................................................. ......6 4.1.CLUSTERING..............................................................................................................................................6 4.2. NEURONSKE MREŽE....................................................................................................................................6 4.3.FUZZY LOGIKA...........................................................................................................................................7 4.4.MEMORISKO ZASNOVANO PROSUĐIVANJE, MBR..............................................................................................7 4.5.STABLO ODLUČIVANJA.................................................................................................................................7 4.6. ANALIZA PIJAČNE TORBE.............................................................................................................................8 5.INTEGRACIJA DM SA DW.......................................................................................... .....................8 6.TIPOVI DM-A......................................................................................................................... .............9 7. ZAKLJUČAK...................................................................................................................... ..............10 LITERATURA............................................................................................................................ ...........11

2

1.Uvod Data mining je nova tehnologija koja se koristi u istraživanju tržišta i otkrivanju potencijalnih klijenata. To je metoda pretraživanja podataka koja se naglo razvila zahvaljujući razvoju računarske tehnologije jer je tek razvitkom brzih računarskih sistema postalo moguće efikasno pretraživati velike količine nagomilanih informacija. Zahvaljujući „rudarenju podataka”, skupovi podataka se pretvaraju u strukturirane informacije i znanje i na taj način su korisniji i vredniji za istraživanje.

3

2.Definicija Data Mining se može definisati kao proces podrške odlučivanju u kojem se traže uzorci informacija u podacima. To je tehnika pretraživanja podataka u cilju identifikacije traženih uzoraka i njhovih međusobnih relacija. Jednostavno rečeno Data Mining je izdvajanje interesantnih, novih i potencijalno korisnih informacija ili uzoraka sadržanih u velikim bazama podataka. Osnovni cilj Data Mininga jeste otkrivanje skrivenih veza, predvidivih nizova i egzaktnih klasifikacija.Osnovna poruka Data mininga jeste da je potrebno da se iz ogromne količine operativnih podataka i veza koje se ne mogu odmah sagledati definišu odgovarajuće relacije, obrasci ili forme ponašanja što u krajnjem slučaju daje potrebne informacije iz raspoloživih podataka. Data mining uključuje korištenje sofisticiranih alata za analizu i otkrivanje ranije nepoznatih modela i veza1.Ti alati mogu uključivati statističke modele, matematičke algoritme te metodu mašinskog učenja.Data mining ne predstavlja samo metodu prikupljanja i obrade podatka u Data mining je uključen i proces analize podataka te predviđanje. Pretraživanje podataka može vršiti korisnik a može vršiti neki inteligentni program koji automatski pretražuju bazu umesto korisnika i nalazi uzorke.

3.Upotreba Data Mining-a Upotreba DM je vrlo raširena kako u privatnom tako i u društvenom sektoru. U zapadno evropskim zemljama banke, osiguravajuće kuće,zdravstveni sektor te PIO često koriste DM kako bi smanjili troškove potstakli istraživanje te povećali prodaju. Pa tako npr banke I osiguravajuće kuće koriste DM kako bi spriječili prevare u ovom sektoru te DM pomaže u procesu upravljanja rizikom.Podaci o klijentima su bili prikupljani tokom godina te analizom tih podataka može se predvidjeti da li kod pojedinog klijenta postoji veći ili manji rizik za plasiranje sredstava. Zdravstveni sektor koristi DM kako bi prdvidio efikasnost nekog modela lječenja.Telefonske kompanije mogu lako da predvide na osnovu prikupljenih podataka tko će od klijenata ostati “vjeran” kompaniji a tko će preći u drugu kompaniju. U društvenom sektoru DM se takodje koristi za sprečavanje prevara ali se DM koristi i za unapređenje te mjerenje postignuća raznih programa. Mnogo je primjera kako se može kvalitetno iskoristiti DM ali ja ću navesti jedan po meni najinteresantniji naime Američka agencija za vazdušnu plovidbu je metodom DM uspjela da prepozna obrasce nastajanja grešaka te ih ispravi I time sačuva mnoge ljudske živote tako što su analizirali podatke o padovima aviona. Na našim prostorima se DM koristi najviše u marketinškim agencijama koje su usmjerene ka pojedinačnom kupcu (CRM).I to sledeći primjeri: ► direktni marketing – npr., katalozi i ponude različitih artikala se šalju kupcima za koje postoji najveća vjerojatnost odaziva;

1

Two Crows Corporation, Introduction to Data Mining and Knowledge Discovery, Third Edition (Potomac, MD: Two Crows Corporation, 1999); Pieter Adriaans and Dolf Zantinge, Data Mining (New York: Addison Wesley, 1996).

4

► izradu profila kupaca – utvrđuje se uzorak ponašanja kupaca da bi mu se kasnije poslala prilagođena ponuda. ► segmentaciju – utvrđivanje grupa kupaca s jednakim karakteristika (uzorkom ponašanja) ► istraživanje povezanosti prodaje različitih proizvoda – analiza kupovne košare što se može npr. upotrijebiti za raspoređivanje artikala na policama. ► stimulacija kupovine drugih artikala istog poduzeća, odnosno veće količine istih artikala, što može nadoknaditi pridobivanje novih kupaca. ► zadržavanje kupaca – ovo je puno jeftinije od pridobivanja novih kupaca. Za primjer možemo uzeti slanje reklamnih materijala te njihov odaziv na te kataloge. Postoje 2 mogućnosti kome ćemo kataloge uputiti, hoćemo li ih izabrati nasumično ili uz pomoć metode DM.

Postotak odaziva 100 90 80 70 60 50 40 30 20 10 10 20 30 40 50 60 70 80 90 100 postotak primatelja reklamnog materijala

-----

odabir uz pomoć DM ________ nasumično odabrani

Sl.1. Povećanje odaziva upotrebom DM Puna linija pokazuje odaziv kod nasumičnog izbora primatelja reklamnog materijala te je onda linearna jer se od 10 000 poslanih kataloga bilo 2000 odaziva. Crtkana linija pokazuje mogući odaziv ako su primatelji odabrani procesom DM. To znači da od 5000 primatelja, odazvalo bi se njih 1800. Znači, posljedica DM su niži troškovi, jer je potrebno slati manje podataka za isti učinak. Također razvijaju se rudarenja Weba (analiza podataka o posjeti Web stranica i analiza putova kojim posjetitelji dolaze do portala s podatcima ) i rudarenje tekstova (analiziraju se tekstovi i unutar njih traže uzorci i pravila koji se koriste pri kategorizaciji članaka po područjima, otkrivanju autorstva i sl.) 5

4.DM modeli DM se može podjeliti u nekoliko modela: • Clustering • Neuronske mreže • Fuzzy logika • Memorijsko zasnovano prosuđivanje (MBR) • Stablo odlučivanja • Analiza pijačne torbe

4.1.Clustering Clustering je tehnika grupisanja i omogućava grupisanje podataka koji su slični. Grupisanja jest ustvari razvrstavanje jedinki u skupine u kojima je postignuta njihova najveća sličnost (segmentacija kupaca: podatci o starosti, zanimanju, dosadašnjoj kupnji). Pri podjeli u grupe potrebno je zadovoljiti dva osnovna kriterija: o svaka grupa predstavlja homogen skup: primjeri koji pripadaju istoj grupi su medjusobno slični; o svaka grupa mora se razlikovati od ostalih grupa, t.j. primjeri koji pripadaju odredjenoj grupi značajno se razlikuju od primjera koji pripadaju ostalim grupama. Zavisno od konkretne metode, grupe mogu biti definisane na različit način: o identificirane grupe mogu biti ekskluzivne, tako da svaki primjer pripada isključivo jednoj od grupa; o grupe se mogu preklapati; primjer može istovremeno pripadati nekolicini grupa; o grupe mogu biti definirane probabilistički: u tom slučaju primjer pripada svakoj od grupa s odredjenom vjerojatnosti o grupe mogu biti hijerarhijski strukturirane, sa grubom podjelom primjera na najvišem nivou, koji se potom može finije strukturirati na nižim nivoima.

4.2. Neuronske mreže One su zamišljene su da djeluju slično ljudskom mozgu. One se upotrebljavaju u analizi rizika i prognoziranju npr. vrijednosti dionica. Rudarenje podataka temeljeno na ovoj metodi počinje „učenjem“ mreže pomoću podataka za koje je poznata vrijednost koju želimo prognozirati. Nakon toga naučeno znanje se provjerava. Postupak učenja i provjere ponavlja se sve dok rezultati provjere ne budu zadovoljavajući. U osnovi ovaj DB model se svodi na sledeće neuronskoj mreži se daju određeni podaci za koje se zna izlazna vrijednost. Na osnovu ovih podataka neuronska mreža prepoznaje obrasce podataka.Zatim se na osnovu obrazaca pretražuje gomila podataka kako bi se našli ovi obrasci. Najlakše za objasniti suštinu neuronske mreže je kroz sledeći primjer:Kompanija koja se bavi davanjem kreditnih kartica raspolaže sa mnoštvom podataka koje je teško analizirati kako bi se prepoznale moguće prevare. Kompanija zna da je do 3 000 prijava za karticu 100 pokušaj prevare neuronska mreža analizira ova dva podatka te na osnovu njih dolazi do obrasca po kome se mogu prepoznati prevare.Ovaj obrazac se zatim koristi kako bi se ispitali svi podaci kod kompanije i otkrili podaci koji sadrže ovaj obrazac. Neuronske mreže su pogodne za prepoznavanje finih, skrivenih i novootkrivenih šema odnosa u kompleksnim podacima kao i za interpretaciju i razumevanje nekompletnih ulaznih podataka.

6

4.3.Fuzzy logika Šta je fuzzy logika? Da bi odgovorili na ovo pitanje, uporedićemo ovaj pristup sa konvencijalnom logikom. Osnove klasične logike je učvrstio još u antičkoj Grčkoj poznati filozof Aristotel. Ova logika se zasniva na jasnim i precizno utvđenim pravilima, a počiva na teoriji skupova. Neki element može da pripada nekom skupu ili da ne pripada. Skupovi imaju jasno određene granice. Tako su ovakvi skupovi, pa sa njima i logika, nazvani engleskom reči crisp, koja ima značenje – jasan, bistar. Fuzzy (/fΛzi/) je engleska reč koja bi mogla da se prevede kao maglovito, nejasno, mutno. U fuzzy logici nije precizno definisana pripadnost jednog elementa određenom skupu, već se pripadnost meri u, recimo, procentima. Ove mere pripadnosti, skalirane, mogu da uzimaju vrednosti od 0 do1. Uzmimo kao primer dane u nedelji i napravimo dva skupa. Skup radnih dana i skup vikend. U crisp logici bi se u skupu radnih dana našli: ponedeljak, utorak, sreda, četvrtak i petak a u skupu vikend dana: subota i nedelja. Tj. pripadnost elementa nekom skupu bi se izrazila brojem 1 a nepripadanje brojem 0. Međutim u fuzzy zaključivanju bi situacija bila nešto drugačija. Petak, kao dan koji je delom radni dan a delom početak vikenda bio bi negde na granici ova dva skupa. Tj. njegova pripadnost prvom, skupu radnih dana bi se izražavala, recimo brojem 0,75 dok bi pripadnost drugom, skupu vikend dana bila cifra 0,25. Slično bi bilo i za nedelju kao dan koji jeste vikend ali ne sasvim, celim svojim trajanjem, jer ipak se nedelja uveče doživljava kao priprema za novu radnu nedelju odnosno mnogi ljudi će ga okarakterisati kao ne sasvim vikend dan, jer posle njega dolazi ponedeljak. Vidimo da je ova logika jako bliska ljudskoj percepciji o mnogim stvarima u životu. Mnoge slične situacije koje nisu jasno razdvojene, koje su mešavina više stvari su svakodnevno prisutne oko nas. Ovde smo na prilično nestabilnom terenu, jer relevantnim postaje subjektivno mišljenje o nekoj stvari. Čak i kulturološko nasleđe ili generacijske razlike imaju uticaja. Ali to je i poenta. Da li je desetogodišnjak koji sebe smatra visokim stvarno i visok? Ovde smo predstavili domen u kome jasna da – ne (tačno – netačno) logika više nije upotrebljiva. U fuzzy logici istinitost svakog tvrđenja se meri u procentima..

4.4.Memorisko zasnovano prosuđivanje, MBR Memory Based Reasoning je tehnika DM koja se koristi za predviđanje i klasifikaciju.Ova tehnika je slična tehnici neuronskih mreža s tom razlikom što MBR traži slične podatke odnosno ne traži obrazac podataka.Na primjer ukuoliko doktor ima pacijenta sa više simptoma on će na osnovu iskustva sa sličnim pacijentima dati dijagnozu.

4.5.Stablo odlučivanja Decision Tree je popularan metod za klasifikaciju i odlučivanje.Korištenje serije pitanja i pravila za kategorizaciju podataka mogu se predvidjeti ishodi.Stablo odlučivanja predstavlja tehniku odlučivanja koja se temelji na odnosima između strategije i stanja a koriste se za rešavanje složenih problema finansija, marketinga, uvođenja novih proizvoda i slično.Na sledećoj slici je primer stabla odlučivanja kod analize rizika poslovanja.

7

Stablo odlučivanja se zasniva na 4 osnovne varijable: 1. kostur stabla odlučivanja,koji pomoću grafikona pokazuje strategije, moguće posledice svake strategije i identifikovano stanje 2. verovatnoća različitih posledica izabrane strategije 3. uslovna vrednost (troškovi) pripadajuće posledice 4. očekivana vrednost za pripadajuće plaćanje ili troškove

4.6. Analiza pijačne torbe Market Basket Analysis (MBA) se često naziva i grupisanje po sličnosti.Koristi se za pronalaženje grupe artikala koji se najčešće zajedno događaju u jednoj transakciji. Analiza pijačne torbe se bazira na teoriji da je veća vjerovatnoća da će te kupiti proizvod A ako ste kupili proizvod B. Ova DM model se široko upotrebljava u samoposlugama i tržnim centrima a u principu se radi o sledećoj situaciji: Kupac koji se odluči da kupi Pivo često se odlučuje da uz Pivo kupi i čips. Ovaj podatak predstavlja menadžerima važnu informaciju jer će uz Pivo izložiti i čips.Ovaj model se primjenjuje kako bi se usporedili podaci o više različitih lokacija te o navikama kupaca na različitim lokacijama.analize se mogu vršiti po više kriterija pa tako i na osnovu lokacije tržnog centera, dana u sedmici kada se vrši kupovina, doba godine itd.

5.Integracija DM sa DW Postoji više razloga za ovu integraciju.Prvi razlog je da DM alati zahtevaju postojanje prečišćenih i integrisanih podataka.Tradicionalni DM alati bi iz tih razloga prvo izvršili transfer podatataka (možda i stotine MB) a nakon završenog rada često se javlja potreba za bovim podacima što znači da bi se ceo proces trebao ponoviti.Drugi razlog za integraciju DM alata sa DW jeste poboljšani korisnički interfejs.Stariji DM alati su zahtevali angažovanje niza stručnjaka da bi se postigli zadovoljavajući rezultati.Danas svaki poznavalac SQL jezika može koristiti mogućnosti DM a treći razlog su performanse sistema i mogućnost proširivanja koju obezbeđuje DW. Da bi smo mogli da bolje upotrebimo podatke koji se nalaze u DW neophodno je izabrati odgovarajući DM model. Neke od modela sam već naveo tako da o njima neću pisati u ovom dijelu rada. Napomenut ću samo da DM je skup metoda koje analizirajući date podatke traži uzorke u njima te relacije i pravila među njima i time dobijamo kvalitetniju informaciju.Odvajajući se od DW , koji ima jedinstven pristup podacima, DM daje rezultate 8

koji pokazuju povezanos i unutrašnju zavisnost tih podataka.Ove povezanosti se baziraju na matematičkim i statističkim relacijama.

Podaci nekog istraživanja se nalaze u bazama podataka.pored ovih podataka koriste se i drugi dostupni izvori kako bi se dopunile postojeće baze. Poslje sakupljanja podataka vrši se selekcija podataka za analizu te se primjenjuje jedan od DM modela. Dobijamo uzorke podataka na kojima se bazira novo stečeno znanje.

6.Tipovi DM-a Po opštoj funkcionalnosti DM može biti: o deskriptivan DM o prediktivan DM Deskriptivan DM model pomaže u razumjevanju procesa ili ponašanja koje jeopisano podacima.Prediktivan model je jednačina ili skup pravila koji omogućava predikciju zavisne varijable ili atributa na osnovu skupa nezavisnih varijabli.Zavisno od prirode problema odnosno podatka biramo najprikladniji oblik modela.

9

7. ZAKLJUČAK U ovom radu sam samo zagrebao po ogrmnoj temi koja se sve više korist u skoro svim oblastima života i rada. Tehnika rudarenja podataka je primjenjena u gotovo svakom segmentu života iako mi toga nismo ni svjesni.Tako da kad god uđemo u tržni centar možemo biti gotovo sigurni da će raspored artikala koji se prodaju biti tako raspoređeni da nam se čini kao da smo ih mi tu postavili odnosno kako nam je sve na dohvat ruke. Radeći na ovom radu pobliže sam upoznao osnovne stvari vezane za ovu tematiku ali sam došao do zaključka da je ovo jedna od perspektivnijih oblasti u informatici.

10

LITERATURA  http://www.albionresearch.com/data_mining/market_basket.php  http://www.chicagobigroup.com/business_intelligence_white_papers/business_intelligence_ data_mining_techniques.pdf  http://en.wikipedia.org/wiki/Market_basket_analysis  http://www.doiserbia.nbs.bg.ac.yu/img/doi/0354-0243/2005/0354-02430501125S.pdf  http://perun.im.ns.ac.yu/radovanovic/dmsem/completed/2006/VizualizacijaKartonaNaucnih Radnika.pdf  http://dms.irb.hr/tutorial/hr_tut_clustering_short.php  Radić Gordana,Upravljanje poslovnim informacionim sistemima

11

Related Documents


More Documents from "Drazen"