PITANJA za test: 1. Statistika (definisanje i predmet proučavanja) Statistika je nauka koja proučava varijacije obilježja masovnih pojava primjenom kvantitativnih metoda. Danas se pod pojmom stastistike podrazumjeva nauka o prikupljanju brojčanih podataka različite vrste, o njihovom uredjenju, metodama analize i tumačenju; Sam naziv potiče od novolatinskog ratio status i talijanskog ekvivalenta regione di stato – državni interes. Predmet statistike – Predmet njenog istraživanja su masovne pojave bez obzira na oblast ljudskog djelovanja u kojem se javljaju, pod uslovom da su varijabilne. Njezina zadaća se sastoji u donošenju sudova brojčane prirode o nepoznatim karakteristikama skupa na temelju rezultata izučavanja varijacije. Statistika kao znanstvenoanalitička metoda istraživanja pojava i procesa dijeli se na deskriptivnu i inferencijalnu (analitičku, induktivnu, matematičku) statistiku. Deskriptivna statistika obuhvata procese grupiranja (sažimanja, uređenja) većeg broja podataka o jedinicama statističkih skupova (podskupova) u obliku statističkih nizova. Inferencijalna statistika odnosi se na postupke kojima se pomoću dijela informacija (uzorka) donose sudovi o karakteristikama cjeline (populacije), ona je induktivna metoda i temelji se na teoriji vjerovatnosti.
2. Definisanje statističkog skupa Statistički skup čine jedinice koje imaju neke zajedničke osobine koje želimo istražiti. Oni predstavljaju stvari, osobe, preduzeća, proizvode i sl. čija su svojstva predmetom istraživanja. Prema opsegu razlikujemo konačni i beskonačni skup. Statistički skup može biti realan i hipotetičan. Statistički skup treba najprije definirati, odnosno odrediti opća svojstva koja ima svaka jedinica da bi se mogla smatrati članom skupa. Definiranje skupa može biti: pojmovno, prostorno i vremenski. Pojmovnom definicijom skupa utvrđuje se pripadnost skupu s obzirom na pojam jedinice (npr.skup studenata i sl.). Prostornom definicijom označava se prostor kojem pripadaju sve jedinice statističkog skupa. Vremenskom definicijom određuje se vrijeme za koje su vezane sve jedinice skupa Statistički skupovi čiji elementi zadovoljavaju navedene definicije smatra se homogenim i samo takav može biti predmetom statističke analize. Skup podataka o promatranom svojstvu promotren za svaku jedinicu predstavlja osnovni skup ili populaciju, a ukoliko se posmatra neko svojstvo na podskupu jedinica, podaci iz tog podskupa predstavljaju uzorak.
3. Kvalitativne mjerne skale Pod mjerenjem se podrazumjeva pridruživanje brojeva statističkim jedinicama u skladu sa logičkim pravilima.Pravila pridruživanja data su mjernim skalama. Razlikuju se 4 mjerne skale: nominalna, ordinalna, intervalna i omjerna. Statističke varijable (obilježja) mjerene na nominalnoj i ordinalnoj skali nazivaju se kvalitativne (kategorijalne) varijable - nominalna je najnepreciznija i služi samo za klasifikaciju. Data je u obliku nenumeričkog skupa, odnosno liste naziva (atributa, slovnih oznaka) po kojima se elementi statističkog skupa razlikuju, dijele se na atributivna (vrsta privredne djelatnosti, način prevoza radnika, vrsta robe, nacionalnost, spol, vrsta djelatnosti isl.) i geografska (povezanost jedinice sa prostorom – mjesto registracije preduzeća, mjesto rođenja). Uz nominalnu skalu vežemo slijedeće postupke statističke analize: analiza frekfencija, modus, hi-kvadrat test, Pearsonov koeficijent kontigencije, te kontigencijska i klaster analiza. - ordinalna skala svodi mjerenje modaliteta na njihovo rangiranje tako što pridružuje brojeve, slovne oznake ili simbole elementima skupa prema intenzitetu nekog svojstva Npr. ocjena. Nad modalitetima ordinalne varijable takođe nisu dopuštene brojčane operacije. Osim već navedenih postupaka , uz ordinarnu skalu vežemo i slijedeće postupke statističke analize statističkih postupaka: medijan, kvantile, Spearmanov koeficijent korelacije ranga, koeficijent asocijacije, te faktorsku, diskriminacionu i conjoint analizu.
4. Kvantitativne mjerne skale Statističke varijable (obilježja) mjerene na intervalnoj i omjernoj skali nazivaju se kvantitativnim varijablama - intervalnom skalom pridružuju se brojevi mjerenim svojstvima, pri čemu jednake razlike na skali predstavljaju jednake razlike mjerenog svojstva, dopuštene su sve osnovne brojčane operacije – Pr. temperaturna skala. Osim već navedenih postupaka, uz ordinarnu skalu vežemo i slijedeće postupke statističke analize statističkih postupaka: Spearmanov koeficijent korelacije ranga, koeficijent asocijacije, faktorsku, diskriminacionu i conjoint analizu, aritmetička sredina, standardna devijacija, z-vrijednost, Pearsonov koeficijent korelacije, regresiona analiza, parcijalna i multipla korelacija, te diskriminaciona i analiza varijanse.
-
omjerna skala omogućava nam najviše u pogledu mjerenja i poredjenja, tako da brojčano možemo da : identifikujemo i rangiramo obilježja, uporedjujemo intervale izmedju obilježja i vršio apsolutna poredjenja. Ona posjeduje najveću preciznost jer koristi apsolutnu tj prirodnu nulu. Dopuštene su osnovne brojčane operacije. Osim već navedenih postupaka, uz omjerne skale možemo računati: geometrijsku sredinu, harmonijsku sredinu i koeficijent varijacije. Vrijednosti koje se pomoću omjerne skale dodjeljuju jedinicama nazivaju se vrijednosti numeričkog obilježja (varijable). Numerička obilježja mogu biti prekidna (vrijednosti obilježja su odijeljene jedne od drugih najmanje jednom utvrdjenom mjernom jedinicom. Obilježja kod kojih postoje osnovne jedinice koje se dalje ne mogu dijeliti nazivaju se prekidnim – broj zaposlenih radnika, broj članova domaćinstva, broj prodatih računara, a do njih dolazimo najčešće prebrojavanjem) i neprekidna (može poprimiti bilo koju vrijednost iz nekog intervala, tj. bez obzira kako se blizu nalazile vrijednosti takve varijable, moguće je izmedju njih umetnuti druge vrijednosti – cijene dionica, stopa inflacije, iznos potrošačkog kredita, starost radnika, iznos plate.
5. Matrica podataka Mjerne skale pružaju mogućnost manipulisanja numeričkim vrijednostima, koje neće promjeniti emperijske informacije dobijene transformisanjem mjernih pojava u vrijednost skale. Prikupljeni podaci se mogu predočiti u statističkim tabelama - matrici podataka. Svaki redak sadrži sve podatke za odabranu jedinicu promatranja i naziva se entitetom, stupac matrice podataka alternativno se naziva poljem. Matrica sadrži N×K informacija. Matrica podataka – Vj – oznaka za varijablu ( k- poslednja varijabla), Ii – oznaka za ispitanika (n – broj uzoraka), Mij – vrijednost varijable (modalitet obilježja ispitanika Ii pri odgovaranju na pitanje Vj) Podaci prikupljeni na ovakav način pokazuju odgovore n ispitanika na k različitih pitanja, koja se odnose na osobine ispitanika, te na njihove stavove i mišljenja o pojavama koje su predmet istraživanja. V1 V2 ..... Vj ..... Vk I1 M11 M12 ..... M1j ..... M1k I2 M21 M22 ..... M2j ..... M2k ..... ..... ..... ..... ..... ..... ..... Ii Mi1 Mi2 ..... Mij ..... Mik .... ..... ..... ..... ..... ..... ..... In Mn1 Mn2 ..... Mnj ..... Mnk
6. Poslovna statistika Poslovna statistika obuhvata statističke metode važne za praćenje poslovnih dogadjaja preduzeća, odnosno za poslovno odlučivanje. Neophodno je dobro poznavanje makroekonomije. Važna uloga poslovne statistike – razvijanje principa metoda za donošenje odluka u uslovima neizvjesnosti. Poslovna statistika proučava i zakonitosti koje vladaju u odnosima dvaju i više ekonomskih pojava, te opisuje stepen i oblik kovarijacije medju njima Statističke metode: deskriptivne i inferencijalne. Deskriptivna (opisna) statistika obuhvata postupke uredjivanja podataka, mjere centralne tendencije, mjere disperzije i asimetrije, mjere zaobljenosti i grafičko prikazivanje. Prvi korak u istraživanju podrazumjeva uredjenje podataka prikupljenih u vlastitom preduzeću (nabavka, prodaja, cijene, troškovi, zaposleni). Inferencijalna statistička metoda – temelj joj je metoda uzorka. Istraživanje uzorkom nameće se kao relativno brz i jeftin metod koji vodi do upoznavanja obilježja populacije iz koje je uzorak izabran. Uzorci se koriste kod: stalnog praćenja kvalitete proizvodnje ili prijema robe pomoću uzorka, pri pregledu finansijskog poslovanja, u ispitivanju javnog mnijenja i raspoloženja kupaca.
7. Etape statističkog istraživanja Proces statističko istraživanja svodi se u 4 etape: a) statističko posmatranje i prikupljanje podataka – mora biti planski organizovano, sistematično i masovno, što omogućuje da se odrede cilj i predmet istraživanja, osnovni skup, jedinice posmatranja i njihova obilježja, način grupisanja, kontrola podataka itd. Zadatak mu je da omogući efikasan način prikupljanja podataka tako što će ukazati na mjesta kojima treba posvetiti posebnu pažnju tokom prikupljanja i kontrole podataka, prije njihovog grupisanja i uredjivanja. Najvažnije aktivnosti u prikupljanju podataka su: odredjivanje vrste istraživanja, izvora podataka, odredjivanje načina i metoda prikupljanja podataka, primjenu odgovarajućih upitnika i obrazaca, izbor vrste i veličine uzoraka i terensko prikupljanje podataka. Obzirom na vrstu: izvidjajno (eksplorativno) – primjenjuje se kada su naša saznanja relativno ograničena, te je potrebno više informacija o promatranom problemu. U provodjenju ovog istraživanja obavlja se više neformalnih razgovora sa osobama čija znanja i iskustva mogu da pomognu preciznijem definisanju stvarnog problema i ciljeva istraživanja. Deskriptivno – njime se služimo kada je u rješavanju konkretnog problema potrebno razumjevanje svojstva odredjene pojave.Deskriptivna istraživanja zahtjevaju mnogo prethodnog znanja o predmetu istraživanja i pretpostavljaju da je problem jasno definisan. Analitičko (uzročno) istraživanje se primjenjuje kada želimo da dobijemo objašnjnje uzroka koji su djelovali na neki poslovni dogadjaj.
Način i metode prikupljanja podataka odredjene su vrstom istraživanja. Najvažniji kriteriji su: obuhvatnost pojave (potpuno – putem popisa, evidencije i tekuće registracije i djelimično posmatranjeizborom manjeg ili većeg broja jedinica iz populacije dolazimo do informacija o cijeloj posmatranoj pojavi) i vrijeme posmatranja i prikupljanja podataka. Razlikujemo – jednokratno, periodično i stalno posmatranje i prikupljanje podataka. Osnovne metode za prikupljanje primarnih podataka: posmatranje, ispitivanje i eksperiment.
b) uredjivanje i grupisanje podataka – nakon prikupljanja podataka vrši se njihova kontrola, evidentiranje, kodiranje i tabeliranje.Grupisanje se vrši prema atributivnim, geografski, ordinalnim i numeričkim obilježjima. U organizaciono-tehničkom pogledu uredjivanje i grupisanje podataka je u današnje vrijeme olakšano uvodjenjem aplikativnih softvera za statističku analizu. Statističko grupisanje – podjela osnovnog skupa na podskupove prema odredjenim obilježjima, kako bi se u jednoj grupi našli elementi skupa istog ili sličnog modaliteta. Grupisanje može biti jednostavno (prema jednom obilježju) ili kombinovano (razvrstavanje prema dva ili više obilježja). Za postizanje jedinstvenosti potrebno je koristiti nomenklature i klasifikacije, koje predstavljaju jednoobrazno utvrdjene nazive grupa i podgrupa. Potrebno je voditi računa o principu iscrpnosti ( svaki elemenat skupa mora da bude obuhvaćen nekim od podskupova) i isključivosti ( jedan podatak može oripadatai samo jednom podskupu)
c) obrada i analiza podataka – se vrši uz pomoć odgovarajućih statističkih metoda , zavisno od cilja i problema istraživanja. Mora se voditi računa o: vrsti podataka koje smo prikupili, postupku istraživanja koji smo primjenili i pretpostavkama koje moraju biti ispunjene da bi primjenili odredjenu statističku metodu.Razlikujemo: statičku i dinamičku analizu; analiza jedne, dvije, ili više varijabli; i posebne – analiza serija rasporeda frekfencija, analiza varijanse. d) sastavljanje izvještaja i interpretacija rezultata
8. Izvori podataka Statistički podaci su ustanovljena svojstva jedinica statističkog skupa do kojih se dolazi promatranjem ili provedbom eksperimenata. Prema izvoru razlikujemo primarne (podaci prikupljeni sa datim ciljevima istraživanja) i sekundarni (vanjski izvori – baza podataka vladinih ustanova, specijaliziranih agencija, organizacija isl.). Proces istraživanja počinje prikupljanjem sekundarnih podataka. Sekundarni podaci su prikupljeni unutar preduzeća ili izvan njega u svrhu koja je različita od potreba konkretnog istraživanja. Sekundarni podaci u preduzećima sadržani su u izvještajima računovodstva, bazi podataka za potrebe istraživanja tržišta, otpremnicama robe, platnim listama, cjenovnicima. U poslovnoj analizi veoma važna je primjena sekundarnih izvora opodataka izvan preduzeća, a to su: statistički zavodi, privredne komore i stručna udruženja, internet, naučno istraživačke institucije, baze podataka vladinih institucija, stručna literatura i časopisi, katalozi sajmova i izložbi, adresari idr. Prikupljanje primarnih podataka duži je i složeniji postupak. Podaci se prikupljaju direktno od ispitanika za potrebe konkretnog istraživačkog projekta. Podaci koji se prikupljaju prvi puta od strane istraživača nazivaju se primarni i isključivo su vlasništvo preduzeća koje organizuje istraživanje. Prikupljanju podataka prethodi: definiranje ciljeva istraživanja, određivanje statističkog skupa i jedinica promatranja, izbor obilježja i definiranje modaliteta, sastavljanje obrazaca i određivanje načina prikupljanja podataka. Ako se prikupljaju podaci o obilježjima za sve jedinice promatranja govori se o iscrpnom promatranju ili cenzusu, a ako se obuhvati dio jedinica promatranje je reprezentativno. S obzirom na vrijeme promatranja mogu biti jednokratna (popis stanovništva), periodična (registracija motornih vozila) i tekuća (podaci o rođenim).
9. Anketni upitnik Anketa predstavlja odredjeni broj pitanja koja se postavljaju pismeno/usmeno u cilju dobijanja odgovora, koji treba da služe rješavanju definisnog istraživačkog problema. Sastavljanje anketnog upitnika je važna faza u istraživanju, jer od toga zavisi kvalitet istraživanja. Pitanja moraju biti sastavljena tako da pronadju one informacije koje su postavljene kao ciljevi odredjene studije. Pri planiranju i projektovanju upitnika treba definisati: vrstu informacije koja se traži, formalnu strukturu pitanja i odgovora i unutrašnju strukturu pitanja i odgovora. Pitanja mogu biti otvorenog, zatvorenog i mješovitog tipa. Pri formulisanju pitanja važna su sledeća pravila: izbjegavati dvostruka i dvosmislena pitanja, izbjegavati pitanja koja navode na odredjeni odgovor, koristiti jednostavne, razumljive riječi, postavljati pitanja tako da svojom formom i sadržajem liče na pitanja iz svakodnevnog života, izbjegavati riječi sa više značenja.
10. Sastavljanje izvještaja i interpretacija rezultata Završni izvještaj predstavlja sredstvo komuniciranja izmedju istraživača i donosioca poslovnih odluka. Centralni dio svakog izvještaja predstavljaju rezultati statističkog istraživanja za čiju prezentaciju stoje na raspolaganju završne tabele, grafikoni, razni statistički pokazatelji i tekstualna objašnjenja. Interpretacija podataka je proces pretvaranja podataka u informacije. U interpretaciji mora se uzeti u obzir procjena
očekivane greške. Istraživač treba upozoriti na: nedostatke vlastitog istraživanja, ograničenja dobijenih rezultata i potrebu daljnjih istraživanja. Prednost se daje izvještajima koji su kratki, jasni, jednostavno napisani i koji ukazuju na mogućnost prektičnih akcija.
11. Računarski podržani postupci intervjuisanja U SAD 50% organizacija koje se bave anketnim istraživanjem koriste CATI sistem (Computer Assisted Telephone Intervieving).Ova metoda uticala je na nastajanje metode računarski podržanog ličnog intervjuisanja – CAPI, te CSAQ postupka u kojem anketirana osoba sama unosi odgovore. Za prikupljanje podataka pomoću anketnog listića – PAPI, razvijen je sistem direktnog unošenja podataka. Ako se pored interaktivnog unošenja podataka primjenjuje još i automatsko kodiranje, kontrola, i ispravljanje govori se o tkz. računarski podržanom unosu podataka. – CADI (Computer Assisted Data input). Pomenute metode omogućavaju trenutno redukovanje pogrešnih odgovora. A nekonzistentnost odgovora je moguće odmah otkriti pomoću ugradjenih pravila u program. Mogućnost primjene navedenih tehnika kod nas je ograničena: nedovoljna pokrivenost populacije telefonom, neodgovarajuća hardverska oprema i softverska podrška, potreba za dodatnim obučavanjem anketara. Neophodna je i spremnost ispitanika da suradjuju, a koja može izostati iz različitih razloga: ekonomski, politički idr.
12. Računarsko podržano kodiranje Prije unosa i razvrstavanja podataka u tabele varijable koje su unesene u upitnik moraju biti kodirane i razvrstane u različite kategorije (modalitete). Pod kodiranjem podrazumjevamo postupak pridruživanja numeričkih ili drugih oznaka modalitetima varijabli. Faze postupka kodiranja: - svaki element iz istraživačkog skupa mora biti kodiran s obzirom na specifičnu varijablu pomoću opisa riječima; - za tu varijablu se formira kod u kojem svaki broj označava posebnu kategoriju proučavane varijable, - definiše se skup uputa za kodiranje koje povezuju opise riječima i brojeve za kodiranje. Kodiranje se može provoditi ručno, pomoću računara i automatski pomoću računara. Automatsko kodiranje podrazumjeva konstrukciju rječnika. Kontrola kodiranja treba da bude sastavni dio ukupnog programa za proizvodnju podataka, a operacije kodiranja i unošenja podataka, njihove verifikacije i korekcie treba podvrgnuti standardnim statističkim postupcima kontrole kvaliteta.
13. Validnost i pouzdanost istraživanja Poudanost se definiše kao razlika izmedju reuzltata uzoraka i rezultata osnovnog skupa pod istim uslovima. Validnost funkcioniše na drugačiji način u odnosu na poudanost, jer je moguće imati potpuno pouzdana ali ne validna mjerenja. S obzirom na primjenjeni postupak utvrdjivanja, validnost se dijeli na: konstruktnu (teorijsku) validnost i praktičnu (kriterijsku) validnost. Logička validnost se odredjuje na osnovu impresije o predmetu mjerenja. Praktična validnost podrazumjeva korelaciju odredjenog indikatora sa kriterijskom varijablom i izražava se koeficijentom kriterijske validnosti. Ona može biti: dijagnostička (istovremena) i prognostička. Dijagnostička je odredjena stepenom povezanosti rezultata mjerenja sa kriterijskom varijablom, koja nije uključena u mjerni instrument. U ovom slučaju kriterijski podaci se prikupljaju u isto vrijeme kada se realizuje istraživanje. Prema izvoru nastajanja razlikujemo internu (istraživanje je validno ako je izmjerilo ono čemu je bilo namjenjeno) i eksternu validnost (problem se odnosi na opasnost da se uslovi koje smo stvorili za provodjenje istraživanja razlikuju od uslova u realnom okruženju. Kada ponovljenim istraživačkim postupcima dobijamo slične rezultate i time potvrdjujemo dosadašnja znanja govorimo o pouzdanosti rezultata istraživanja. Pouzdanost omogućava ponavljanje istraživačkog postupka i može biti ocjenjena: pomoću mjera konzistentnosti (ekvivalentnosti) i pomoću mjera stabilnosti. U prvoj grupi mjerenja pouzdanost se ocjenjuje korelacijom izmedju varijabli koje mjere istu latentnu varijablu, pomoću dva ekvivalentna instrumenta istraživanja. U ove mjerubrajamo: metodu razdvajanja, metodu unutrašnje konzistentnosti i metodu faktorske analize.
14. Neuzoračke greške – nepotpuni podaci, greške mjerenja i odgovora Greška se može definisati kao razlika izmedju prave vrijednosti obilježja populacije i vrijednosti ocjene na osnovu posmatranja jedinice uzorka. Pri tome je prava vrijednost rezultat koji proizilazi iz postupka kada se mjerenje odvija u potpunoj saglasnosti sa usvojenim sistemom rada. Greške u podacima direktno utiču na analize, vode pogrešnim odlukama i neadekvatnim akcijama. Razlikujemo uzoračke i neuzoračke greške. U neuzoračke greške spadaju: nepotpuni podaci, greške mjerenja i odgovora, greške anketara i neinformisanost ispitanika i greške obrade. U istraživanjima se često dešava da su podaci nepotpuni zbog propusta istraživača da ispitaju neku od odabranih jedinica populacije ili zbog neadekvatnog okvira izbora uzorka. Za obje greške se kaže da su rezultat neobuhvaćenosti, odnosno ne pokrivenosti ciljane populacije. Problem nepotpunih podataka je prisutan i kada se oni ne mogu prikupiti zbog otpora onih koji bi trebali dati podatke. U istraživanjima je čest slučaj da ispitanici ne mogu dati odgovor jer ga ne znaju ili ga jednostavno ne žele dati. Kod kreiranja upitnika je zato važno odabrati prava pitanja, njihov broj, redosljed i formulaciju, koja će stimulirati ispitanika da tačno odgovori.
Ako odlučimo da uvrstimo upitnike koji su parcijalno nepopunjeni u daljnju obradu, onda je potrebno primjeniti neku od metoda za tretiranje nekompletnih podataka. U te metode ubrajamo: brisanje podataka, ponderisanje odgovora i metodu umetanja nedostajućih odgovora. Kod velikih uzoraka s malim brojem nedostajućih odgovora moguće je izbrisati čitave upitnike ili provesti selektivno brisanje pomoću smanjivanja veličine uzorka. Glavna prednost ove metode je u jednostavnosti kasnije analize. Umetanje podataka je naučni postupak primjenjen sa ciljem da smanji grešku nastalu zbog ne dobijenih podataka i da sačuva sve raspoložive podatke, nasuprot nenaučnoj tehnici izmišljanja podataka. Kvalitet procedure umetanja zavisi od: veličine istraživane populacije, stope izbora, pristrasnosti uzorka i korelacije izmedju obilježja koja se ispituju.
15. Neuzoračke greške – greške anketara, neinformisanost ispitanika i greške obrade Najčešće greške do kojih dolazi u radu anketara su one koje nastaju interakcijom sa ispitanicim, greške u bilježenju rezultata i greške koje nastaju neradom anketara. Greške nastaju i kada anketar sluša odgovore ispitanika a nakon toga upisuje odgovore. Greške u bilježenju odgovora se smanjuju korištenjem magnetofonske, video i druge opreme. U radu anketara postoji i greška koju anketar izaziva svojim neradom, kada izostavlja pojedina pitanja, ne posvećuje dovoljno pažnje pitanjima koja to zahtjevaju ili uopšte ne prikuplja odgovore od ispitanika nego ih izmišlja. Ova greška se smanjuje kontrolom rada anketara, uporedjujući rezultate jednog anketara sa radom drugih, te motivacijom za rad i sistemom nagradjivanja. Neinformisanost ispitanika dovodi do pogrešnih zaključaka. Problem se može riješiti izbegavanjem osjetljivih pitanja, odnosno njihovim stavljanjem na kraj upitnika, te uvjeravanjem ispitanika da je anketno istraživanje anonimno. Ispitanik odbija da saradjuje i onda kada smatra da je istraživanje ilegalno i onda kada sumnja da će njegovi odgovori otkriti nedostatak njegove obrazovanosti, te pitanja ocjenjuje kao uopštena i nejasna, a problematiku svrstava medju teme o kojima nikada nije razmišljao. Ispitanik se u tom slučaju informiše da ne postoje tačni i netačni odgovori, a nejasna pitanja se detaljnije objašnjavaju. Prikupljeni podaci se moraju verifikovati, evidentirati, kodirati i obraditi na računarima. Greške grupisanja, uredjivanja i obrade podataka, obuhvataju greške nastale u postupcima: editiranja podataka (čitljivost, potpunost, tačnost i dosljednost podataka), unošenja podataka, zaokruživanja brojeva i kodiranja, umetanja nedostajućih vrijednosti, tabeliranja, obrade, analize i interpretacije podataka.
16. Statistički niz (pojam i vrste) Statistički niz objašnjava i kvalitativni aspekt pojave koju prikazuje. Osnovne kriterije za podjelu nizova: broj obilježja koje niz sadrži, stepen uredjenosti i vrste obilježja. Ako je predmet analize jedna varijabla radi se o jednodimenzijalnoj analizi, dok se metodama višedimenzijalne analize istovremeno proučava kovarijacija dviju ili više varijabli. Statistički niz kod kojeg se modaliteti obilježja javljaju samo po jedanput nazivaju se jednostavnim, a niz kod kojega se modaliteti obilježja javljaju više puta nazivamo raspored ili distribucija frekvencija. Razlikujemo kvalitativne i kvantitativne nizove podataka. Grupisanjem podataka prema oblicima nominalnog obilježja i nizanjem podskupova s pripadajućim frekvencijama nastaju nominalni nizovi, a grupisanjem podataka prema modalitetima varijable ranga i nizanjem podskupova s pripadajućim frekvencijama nastaju ordinalni nizovi. Formiranje nominalnog – atributivnog niza je složeno ako se ono javlja u većem broju modaliteta, u tom slučaju prilikom grupisanja neophodno je imati nomenklature sa svim potrebnim informacijama u pogledu razvrstavanja modaliteta.
17. Statistička tabela (pojam i vrste) Praćenje statističkih podataka olakšava se tabelarnim prikazivanjem. Podaci su pregledniji i lakše se tumače. Statistička tabela nastaje ukrštanjem horizontalnih i vertikalnih linija u koje se po odredjenom pravilu unose podaci. Svaka tabela treba da ima tekstualni i numerički dio. Tekstualni dio sadrži: naslov, zaglavlje, pretkolonu, jedinice mjere, izvor podataka i po potrebi objašnjenja i napomene. Numerički dio tabele obuhvata brojačane podatke koji se unose u tabelu, te zbirni (marginalni) red i kolonu koji se obično nalaze na krejevima tabele. Ako se veličine u koloni sabiraju, zbir se smješta u marginalni red.Prema sadržaju statističke tabele se dijele na: jednostavne (prikazuju samo jedan statistočki niz), grupne (predstavljena dva ili više nizova prema modalitetima istog obilježja) i kombinovane (istovremeno prikazani podaci grupisani prema modalitetima dva ili više obilježja). Prema cilju mogu biti: izvještajne (pokazuju činjenično stanje posmatrane pojave na osnovu brojčanih podataka) i analitičke (pored činjeničnog stanja sadrže informacije o unutrašnjim odnosima i zakonitostima posmatrane pojave)
18. Kumulativni nizovi Nastaju sabiranjem frekfencija od prve do poslednje. Za formiranje kumulativnog niza pored apsolutnih mogu se koristiti relativne i procentne frekvencije. Razlikujemo kumulativni niz «manje od»(rastuća kumulanta) i «više od»(opadajuća kumulanta». Rastuća kumulanta nastaje sabiranjem frekvencija od najnižih vrijednosti obilježja ka frekvencijama većih vrijednosti. Prva frekvencija rastuće kumulante jednaka je prvoj frekvenciji izvornog niza. Druga frekvencija jednaka je zbiru prve i druge frekvencije izvornog niza..... Zadnja kumulativna frekvencija jednaka je zbiru apsolutnih frekvencija.
Opadajuća kumulanta nastaje sabiranjem frekvencija od najviše vrijdnosti obilježja ka frekvencijama nižih vrijednosti obilježja.Opšte značenje kumulativnog niza «više od» - svaki član opadajućeg kumulativnog niza pokzuje koliko jedinica skupa ima vrijednost numeričkog obilježja jednaku ili veću od one vrijednosti obilježja čija je frekvencija posledja ušla u kumulativni niz.
19. Grupisanje podataka u razrede (intervale) Kada se prekidno numeričko obilježje pojavljuje u velikom broju modaliteta ili kada se radi o neprekidnom numeričkom obilježju uredjivanje podataka vrši se pomoću rasporeda frekvencija sa razredima. Kada jedinica skupa može da poprimi relativno beskonačno mnogo različitih vrijednosti obilježja iz odredjenog intervala kažemo da se radi o neprekidnom numeričkom obilježju. Radni staž, cijene, visine plaća, stopa inflacije, godine starosti samo su neki od primjera. Godine radnog staža predstavljaju neprekidno obilježje ali se ono može transformisati u prekidno ako se podaci odnose na navršene godine staža. U slučajevima kada nuemrčko obilježje može da poprimi velki broj različitih vrijednosti potrebno je susjedne vrijednosti obilježja sjediniti u zajednički razred (interval). Za uspješno provodjenje grupisanja podataka na ovaj način neophodno je odrediti prikladan broj razreda i njihovu veličinu. U praksi se broj razreda uglavnom kreće od 5 – 15. Kako bi se prilikom grupisanja zadovoljili zahtjevi preglednosti i preciznosti, za odredjivanje broja razreda koristi se Sturgesovo pravilo: k ≈ 1 +3,3logN (k- broj razreda, N- obim skupa) veličina tih razreda računa se pomoću izraza: i ≈ (Xmax + Xmin) / k (i – veličina razreda, Xmax – najveća, Xmin – najmanja vrijednost varijable. Veličina razreda predstavlja razliku izmedju donje granice tekućeg razreda i donje granice prethodnog razreda. Granice razreda odredjujemo tako da se razredi medjusobno razlikuju a da unutar razreda jedinice budu homogene u kvalitativnom i kvantitativnom pogledu.. Svaki razred ima svoju donju i gornju granicu. Granice razreda se različito odredjuju s obzirom na to da li se radi o prekidnom ili neprekidnom numeričkom obilježju.
20. Dijagram Pružaju raznovrsne mogućnosti za jednostavnije prikazivanje i poredjenje rezultata, a njihov izbor zavisi od vrste podataka.Dijelimo ih u 4 podgrupe: stigmograme (grafički prikaz pomoću tačaka – upotrebljava se kod dijagramskih karti), linijske (imaju jednu dimenziju, za prikazivanje koriste prave i krive linije. Služe za prikazivanje modaliteta jednog obilježja – vremenskih nizova kod pojava koje imaju svoj tok, dinamiku i razvoj), površinske (histogrami – imaju dvije dimenzije – koriste se za prikazivanje obima i strukture jedne ili više pojava, frekvencije niza predstavljene površinama geometrijskih oblika) i prostorne dijagrame (stereogrami –omogućava prikazivanje u tri dimenzije. Sastoje se od tri koordinatne ose).
21. Kartogrami i piktogrami Posebna vrsta grafikona koja za osnovu koriste specijalne vrste geografskih karata. Imaju poseban značaj za proučavanje teritorijalnog rasporeda pojava koje su predmet izučavanja. Prema načinu crtanja razlikujemo . dijagramske karte (crta se na geografskoj karti sa ucrtanim granicama prostora na kojem je definisan statistički skup, koji služe za ucrtavanje dijagrama) i statističke karte (nisu prave geografske karte. Njima prikazujemo geografske nizove s mnogo grupa i frekvencijama koje su relativni brojevi. Poadtke unosimo pomoć raznih boja i njihovog nijansiranja) Piktogrami – posebna vrsta grafičkog prikaza kod kojeg se podaci predstavljaju slikama ili simboličnim figurama. Oni nisu precizni, ali na jednostavan i popularan način daju informaciju o obimu i strukturi posmatrane pojave.
22. Srednje vrijednosti (pojam i vrste) Srednje vrijednosti opisuju koncetraciju (gomilanje) podataka oko neke numeričke vrijednosti. Mjere disperzije pokazuju odstupanje numeričkih vrijednosti obilježja od njihove srednje vrijednosti, a mjere asimetrije i zaobljenosti pokazuju način i oblik rasporeda podataka. Mjerama koncentracije se utvrdjuje način rasporeda totala na njegove članove. Pokazatelji navedenih karakteristika računati za populaciju nazivaju se parametri skupa. Srednja vrijednost je ona vrijednost oko koje se najviše koncentrišu podaci, pa se naziva i mjerom centralne tendencije. Ona na jednostavan način omogućava da se iz varijabilnosti pojave otkrije što je važno i tipično. Srednja vrijednost je reprezentativna vrijednost, jer zamjenjuje sve vrijednosti numeričkog niza i nosi njihove zajedničke karakteristike. Razlikujemo potpune (aritmetička, harmonijska i geometrijska sredina) i položajne srednje vriednosti (modus i medijan – odredjeni pozicijom u statističkom nizu). Srednja vrijednost je reprezentativan i tipičan pokazatelj samo ako se računa iz skupa istovrsnih jedinica posmatranja.
23. Osobine aritmetične sredine
Aritmetička sredina je najvažnija i najčešće korištena srednja vrijednost, označava se i kao prosjek ili prosječna vrijednost.. Računa se tako što se zbir vrijednosti numeričke varijable podjeli sa njihovim brojem. Zbir svih vrijednosti numeričke varijable naziva se total. __ X1 + X2 + ... + Xi + ... + Xn __ ∑Xi X = --------------------------------- tj, X = --------N N Sredina negrupisanih podataka naziva se jednostavnom aritmetičkom sredinom. Aritmetička sredina je najbliža onoj vrijednosti obilježja koja ima najveću frekvenciju. Stoga se frekvencija naziva ponderom a sredina računata na ovaj način ponderisana (vagana) aritmetička sredina. k Aritmetička sredina aritmetičkih sredina (totalna aritmetička sredina : __
∑ƒiXi
k
_
∑NiXi
X = ---------k
__
∑ƒi
i=1
X = ------------------
i=1
k
∑ Ni i=1
Aritmetička sredina ima osobine koje nema ni jedan drugi broj statističkog niza, različit od aritmetičke sredine: A) nalazi se izmedju najmanje i najveće vrijednosti obilježja Xmin < X < Xmax B) proizvod zbira frekvencije i aritmetičke sredinie jednak je totalu skupa C) zbir odstupanja originalnih vrijednosti numeričkog obilježja od arimetičke sredine jedanak je nuli D) Zbir kvadrata odstupanja originalnih vrijednosti numeričkih obilježja od aritmetičke sredine je minimalan, odnosno manji je od zbira kvadrata odstupanja podataka od bilo kojeg drugog broja a:
E) Ako su sve vrijednosti numeričkog obilježja medjusobno jednake, odnosno jednake konstatni c, onda je aritmetička sredina jednaka toj konstanti X1 = X2 = Xn = C , X = C
24. Harmonijska sredina Pripada grupi potpunih srednjih vrijednosti i koristi se kada su vrijednosti obilježja za koje računamo prosjek izražene recipročnim odnosima. Koristi se kod izračunavanja prosječnog vremena povrata jedinice uloženog kapitala, produktivnosti rada, koeficijenta obrta poslovnih sredstava, koeficijenta iskorištenosti kapaciteta, srednje cijene isl. Radi se o slučajevima kod kojih se vrijednost obilježja smanjuje kada se pojava povećava i obrnto. Harmonijska sredina se računa kao recipročna vrijednost aritmetičke sredine recipročnih vrijednosti numeričkog obilježja. N N H = ----------------------- = ------------Xi ≠ 0
1 + 1 + ... + 1 N 1 X1 X2 Xn ∑ ------i=1 Xi Harmonijsku sredinu računamo samo za ona obilježja čije su vrijednosti različite od nule. Kada podaci pokazuju recipročne odnose, anjihove frekvencije nisu jednake, izračunava se ponderisana harmonijska sredina: k
ƒ1 + ƒ2 + ...... + ƒk
∑ ƒi
H = -------------------------- = -------------
ƒ1 + ƒ2 + ... + ƒk X1
X2
Xk
ƒi
k
∑ ------i=1 Xi
25. Geometrijska sredina Predstavlja prosjek iz proizvoda numeričkog obilježja. Ina izravnava proporcionalne promjene (odnose) izmedju podataka stetističkog niza. N
G = N X1 * X1 *.....* XN =
√
N
Π Xi
√
Xi > 0, za svaki i.
i=1
Njeno izučavanje ima smisla samo za vrijednosti obilježja koje su veće od nule. Geometrijsku sredinu računamo za pojave kod kojih je izražena geometrijska progresija, odnosno za računanje prosjeka niza
relativnih pokazatelja. Ova sredina uglavnom se koristi za izračunavanje prosječnih pokazatelja razvoja u dinamičkoj analizi pojava, a rjedje kao pookazatelj centralne tendencije rasporeda frekvencija. Ona se najčešće koristi za izračunavanje prosječne stope promjene na osnovu lančanih indeksa. Geometrijska sredina je za isti niz podataka uvijek manja od aritmetičke, a veća od harmonijske sredine.
26. Grafičko odredjivanje modusa Modus je vrijednost kvantitativnog ili kvalitativnog obilježja sa najvećom frekvencijom. Modus je najtipičnija vrijednost u nizu i naziva se jos dominantna vrijednost ili mod. Za razliku od potpunih srednjih vrijednosti koje se mogu izračunati samo za numerička obilježja, modus se može računati i za kvalitativna obilježja. (b-a) Mo = L1 +--------------------- * i (b-a) + (b-c) Na veličinu modusa utiče način grupisanja podataka. Njegova prednost je što na njegovo izračunavanje ne utiču otvoreni razredi i ekstremne vrijednosti obilježja.
Grafičko odredjivanje modusa pomoću histograma
b-a b-c
b
a c
x L1
1-x Mo
Dijagonalnim spajanjem početne i krajnje vrijednosti modalnog intervala sa donjom granicom postmodalnog, odnosno gornjom granicom predmodalnog razreda dobija se apscisa tačke presjeka koja predstavlja približnu vrijednost modusa.
27. Korigovanje frekfencija Kada su podaci grupisani u razrede nejednakih veličina, potrebno je izvršiti korigovanje frekvencija. Modalni razred se odredjuje na osnovu najveće korigovane frekvencije koja se računa kao omjer frekvencije i veličine razreda proporcionalne vrijednosti ili kao omjer frekvencije pripadajuće veličine razreda. Modus se ne može odrediti ako nisu zabilježena barem dva podatka sa istim modalitetom.
28. Medijan Medijan je srednja vrijednost koja se odredjuje na osnovu položaja koji zauzima u nizu podataka. On uredjen niz podataka dijeli na dva jednaka dijela, tako da se u prvom dijelu nalaze elementi koji imaju vrijednost obilježja jednaku ili manju od medijana, a drugom dijelu se nalaze elementi koji imaju vrijednost jednaku ili veću od medijana. Medijan se nalazi u sredini statističkog niza i naziva se i centralna vrijednost.Odredjivanje medijana zavisi od broja članovau nizu a ne od njihove vrličine. Medijan se odredjuje za redosljedne i numeričke nizove, pri čemu treba voditi računa da li se radi o grupisanim ili ne grupisanim podacima.Za redosljed obilježja je karakteristično da se njihovi modaliteti mogu urediti prema stepenu intenziteta tog svojstva. Ako se radi o negrupisanim podacima i broj modaliteta je neparan, medijan je modalitet koji se nalazi u sredini uredjenog niza. Kod parnog broja modaliteta medijan se može odrediti kao poluzbir središnja dva modaliteta. Raspored frekfencija predstavlja uredjeni niz. Kada podaci predstavljaju oblike redosljednog ili numeričkog prekidnog obilježja, medijan se odredjuje direktno. Odredjivanje medijana pojednostavljuje se formiranjem kumulativnog nza «manje od». Na njegovo izračunavanje ne utiču vrijednosti pojedinih rezultata. Kao srednaj vrijednost prikladan je ze izrazito asimetrične rasoporede, za kvalitativne podatke koji se lako rangiraju, rasporede frekfencija sa otvorenim razredom.
∑ƒi /2 - ƒk-1 Me = L1 + ---------------------- * i
ƒme Praktična upotreba medijana sastoji se u lociranju optimalnog položaja (ukupan br. Kilometara od svake prodavnice do centralnog skladišta je minimalan ako je centralno skladište na poziciji medijana)
29. Kvantili Vrijednosti obilježja koja niz podataka, uredjen po veličini, dijele na četiri jednaka dijela nazivaju se kvartilima. Za kvartile, decile i percentile koristi se zajednički naziv kvantili. Kvantil se odredjuje za redosljedne i numeričke nizove, pri čemu treba voditi računa da li se radi o grupisanim ili negrupisanim podacima. N 3N
Q1 = L1 + 4 - ∑ ƒ1 * i
Q3 = L1 + 4 - ∑ ƒ1 * i
ƒQ1
ƒQ3
(L1 – gornja granica kvartilnog razreda, N – zbir svih frekvencija, ∑ ƒ1 – suma frekvencija do kvartilnog razreda, ƒQ1 i ƒQ3 – frekvencije kvartilnih razreda, i – veličina kvartilnog razreda) Prvi kvartil predstavlja vrijednost obilježja koja elemente niza dijeli u dvije grupe, tako da ¼ elemenata ima manju ili jednaku vrijednost tog obilježja a ¾ elemenata niza ima vrijednost obilježja veću od prvog kvartila.
30. Apsolutne mjere disperzije (nabrojati i objasniti) Apsolutne mjere disperzije ubrajamo: raspon varijacije, interkvartil, srednje apsolutno odstupanje, varijansu i iz nje izvedenu standardnu devijaciju. Raspon varijacije = razlika izmedju najveće i najmanje vrijednosti obilježja Rx = Xmax – X min Koristi se kao prvi pokazatelj disperzije, koji grubo informiše raspršenosti numeričkog obilježja. Raspon varijacije nije potpuna mjera disperzije jer se računa na temelju ekstremnih vrijednosti niza, koje u pravilu nisu tipične. Interkvartil = razlika izmedju gornjeg i donjeg kvartila. Ako se izostave prva i zadnja četvrtina članova uredjenog statističkog niza, ostaje središnjih 50% podataka. Iq = Q3-Q1 Na računanje interkvartila ne utiče 25% podataka sa najvišim i 25% podataka sa najnižim vrijednostima. To je nepotpuna mjera disperzije jer se računa samo na temelju dvije veličine donjeg i gornjeg kvartila Srednje apsolutno odstupanje – odstupanja vrijednosti numeričkog obilježja od aritmetičke sredine su različita po predznaku i veličini, a njihov zbir je jednak nuli. Za računanje disperzije upotrebljavaju se apsolutna odstupanja vrijednosti obilježja od aritmetičke sredine.Prosjek tih odstupanja predstavlja srednje apsolutno odstupanje.(MAD) N _ k _ ∑ │ Xi -X│ ∑ ƒi│ Xi -X│ i=1
i=1
MAD = ------------------N (negrupisani podaci)
k
N = ∑ ƒi
MAD = ------------------N (grupisani podaci)
i=1
Srednje apsolutno odstupanje računamo za aritmetičkusredinu, medijan i modus. Varijansa – dobićemo je ako izračunamo prosjek za zbir kvadratnih odstupanja. Označava se malim grčkim slovom sigma na kvadrat (σ²). Predstavlja prosječno kvadratno odstupanje vrijednosti numeričkog obilježja od njihove aritmetičke sredine N _ N ∑ ( Xi –X)² ∑ Xi² i=1
i=1
σ² = -------------------
__
σ² = ----------- - X²
N (negrupisani podaci)
N
Važno svojstvo varijanse je da ona predtavlja minimalno prosječno kvadratno odstupanje, odnosno odstupanje manje od prosječnog kvadratnog odstupanja podataka od bilo kojeg drugog broja. Srednja devijacija – prosječno odstupanje vrijednosti numeričkog obilježja od njihove aritmetičke sredine.Izražava se u mjernim jedinicama obilježja i najvažnija je mjera disperzije. N _ N ∑ ( Xi –X)² ∑ Xi² i=1
σ² =
i=1
-------------------
√ k
-----------
√
N _
∑ ƒi ( Xi –X)² i=1
σ² =
__
- X²
(negrupisani podaci)
N k ∑ ƒi Xi² i=1
__
σ² =
-------------------
σ² =
-----------
- X²
(grupisani podaci)
√ N √ N Standardna devijacija se računa samo uz aritmetičku sredinu i pokazuje nam da li je ona reprezentativna veličina. Srednje apsolutno odstupanje, varijansa i iz nje izvedena standardna devijacija predstavljaju potpune mjere disperzije.Ove mjere nisu podesne za poredjenje disperzije statističkih nizova u kojima se obilježja izražavaju u različitim mjernim jedinicama, kao i za nizove istovrsnog obilježja ali različitih sredina. 31. BP (box plat) dijagram Raspon varijacije i interkvartil se grafički prikazuju pomoću B-P dijagrama (Box and Whisker Plot), koji služi za otkrivanje netipičnih vrijednosti varijable. On omogućava poredjenje (centralne vrijednosti, raspršenosti i asimetrije) nekoliko skupova podataka. Za konstrukciju ovog dijagrama potrebno je izračunati kvartili, čije vrijednosti determinišu konstrukciju pravougaonika. Paralelno uz pravac s aritmetičkim mjerilom za vrijednost numeričke varijable konstruiše se pravougaonik. Sam pravougaonik predstavlja središnjih 50% podataka, a njegova širina označava vrijednost interkvartila. Za otkrivanje netipičnih vrijednosti potrebno je odrediti unutrašnje i vanjske granice. Vanjske granice udaljene su od rube pravougaonika po tri interkvartilna razmaka
32. Relativne mjere disperzije (nabrojati i objasniti) U najznačajnije relativne mjere disperzije ubrajamo: koeficijent varijacije, koeficijent kvartilne devijacije I standardizovano odstupanje. Što su relativne mjere disperzije bliže nuli, to je veća pouzdanost aritmetičke sredine kao mjere centralne tendencije, a što se više udaljavaju od nule to je aritmetička sredina manje reprezentativna.. - Koeficijent varijacije (V) – predstavlja omjer standardne devijacije i aritmetičke sredine pomnožen sa sto. Izražava se u procentima i pogodan je za komparativnu analizu. Koristi se kada želimo saznati koji skup ima veću disperziju kod istog posmatranog obilježja. Što je on manji (bliži nuli, homogenost je veća a time i raspršenost podataka oko aritmetičke sredine manja. σ V = ----- *100 X - Koeficijentkvartilne devijacije (VQ) – predtavlja omjer razlike i zbira kvartila.izražava disperziju u odnosu na medijan i može poprimiti vrijednosti od 0 do 100 ako je izražen u procentima. Što je vrijednost bliža nuli, stepen homogenosti niza je veći. Q3 - Q1 VQ = ---------- ; 0 ≤ VQ ≤ 1 Q3 + Q1 - Standardizovano odstupanje – odredjuje relativni položaj podataka u statističkom nizu. Pomoću standardizovanog odstupanja odredjujemo za koliko standardnih devijacija je neki modalitet udaljen od prosjeka. _ Xi - X Zi = ---------- ; i =1,2,..., N
σ Standardizovano odstupanje se koristi kod normalnog rasporeda za odredjivanje površine izmedju aritmetičke sredine i odredjene vrijednosto obilježja i kod odredjivanja intervala pouzdanosti pri procjenama karakteristika osnovnog skupa pomoću uzorka. Važne osobine z -obilježja su da je aritmetička sredina distribucije standardizovanog odstupanja jednaka nuli, a standardna devijacija jedan. Ona mogu biti pozitivna i negativna, a rijetko odstupaju od aritmetičke sredine za više od +/- 3 standardne devijacije.