Poslovna statistika
Tipovi vjerojatnostnih raspodjela diskretne slučajne varijable
A) BINOMNA RASPODJELA - raspodjela binomne slučajne varijable - binomna slučajna varijabla jest rezultat BINOMNOG SUČAJNOG POKUSA Binomni slučajni pokus 1) pokus ima dva ishoda ( ako ima više od d va, tada to nije binomni pokus ), odredimo “uspjeh” i “ neuspjeh” 2) pokus se ponavlja u istim uvjetima –n puta ( npr. kod vađenja kuglica one se moraju vratiti, ne smijemo ih ostavljati vani ) 3) vjerojatnost pojave “uspjeha” i “neuspjeha” iz pokusa u pokus je ISTA ( I zbog te vjerojatnosti isto moramo vraćati kuglice kako bi vjerojatnost uvijek i za sve bila jednaka ) 4) pokusi su međusobno nezavisni
Oznaka za binomnu raspodjelu : B ( n,p ) n – broj ponavljanja pokusa, uzorak p – vjerojatnost pojave onoga što smo proglasili “uspjehom” q – vjerojatnost pojave “neuspjeha” -p i -q čine siguran događaj p + q = 1 q = 1- p X ~ B ( n,p ) - potpuna definicija binomne varijable - X je binomna slučajna varijabla koja “se ravna po” binomnoj raspodjeli po parametrima –n i –p - binomna raspodjela ima parametre; -n, -p te se iz njega računa –q
OPĆA FORMULA ZA BINOMNU SLUČAJNU VARIJABLU ako imamo X~B (n,p) n P ( X=k ) = k • p
k
n-k
• q
p – uspjeh q - neuspjeh k – broj uspjeha n – broj pokusa - ovdje je najbitnija stvar odrediti što nam predstavl ja “uspjeh”, a što “neuspjeh” - najbolje je postaviti stvari ( a to je i jedino točno ) da avrijabla X u binomnom pokusu mjeri broj “uspjeha” - u slučaju kada nas traže vjerojatnost npr. P( X≤ 3) onda to uključuje zbroj svih vjerojatnosti ( P ) onih koji su manji od 3 ali i uključuje P(X=3) - stvar tehničke prirode : zaokružujemo na 4 decimale ( ubuduće za stalno ) OČEKIVANJE, VARIJANCA I STANDARDNA VARIJACIJA BINOMNE SLUČAJNE VARIJABLE µ = očekivanje, koliko je p% od –n ( uspjeha u pokusu)
µ = n • p S = n • p •q σ = √s Tablična raspodjela binomne slučajne varijable - računa se P po gore navedenoj formuli za svaki broj koji nam je zadan i to se piše u tablicu - u prvom redu tablice su X ( podaci ) , a u drugom redu dolaze P (X=Xi) - graf ima specifičan izgled - na osi y se nalaze vjerojatnosti P koje množimo sa 100 radi lakšeg crtanja
Kako čitamo očekivanje i devijaciju? - očekivanje; “očekujemo da će se dogoditi…” - devijacija; u 68% slučajeva dogodit će se µ ± σ događaja Konkretno u primjeru izlijeganja pilića: µ = 1840 - čitamo; očekujemo da će se izleći upravo 1840 pilića σ = 12.136 - čitamo; u 68% slučajeva izleći će se 1840 ± 12 pilića ( ovaj podatak 68% tiče se empirijskog pravila )
U slučaju kada imamo 25 ( 25 povrh 22) tada u nazivnik (koji je ovdje 22 očigledno prevelik za računanje) stavljamo samo razliku brojnika i nazivnika : 25 3 Izbor od –k delegate iz skupa on –n kandidata moguće je napraviti na ; a) n načina ( ako nije bitan poredak kandidata, ako imamo izbore ) k b) n! ( ako je poredak bitan ) ¯¯¯¯¯¯ ( n – k )! - u nazivniku se od –n oduzme –k te se taj broj stavlja pod faktorijelu ! ( n = 39, k= 7 39! = 39! ) ¯¯¯¯¯¯ ¯¯¯¯¯ ( 39-7)! 32!
VJEROJATNOSTNA RASPODJELA ( RAZDIOBA, DISTRIBUCIJA ) DISKRETNE SLUČAJNE VARIJABLE
Vjerojatnostna raspodjela jest popis ( tabela ) vrijednosti svih slučajnih varijabli ( ishoda slučajnog pokusa ) i vjerojatnosti s kojima se pojedina slučajna varijabla pojavljuje. Izgled tabele: Xi P ( X=Xi )
X1 P1
X2 P2
X3 P3
.....
....
- Xi su varijable ( podaci ), a P su vjerojatnosti pojavljivanja tih varijabli - vjerojatnostnu raspodjelu mogu napraviti ako mi netko zada ishode, te vjerojatnosti da se ti ishodi dogode - ako mi je zadana varijabla X te frekvencija te varijable X, onda se vjerojatnosti P računaju kao relativna frekvencija : fri = fi / N P( X=Xi ) = fri = fi / N fri – relativna frekvencija fi – frekvencija N – suma frekvencija Svojstva valjane vjerojatnostne raspodjele : 1) 0 ≤ P ( X=Xi ) ≤ 1 2) Σ P ( X=Xi ) = 1
- znači da su vrijednosti P veći od 0, a manji od 1 - znači da zbroj svih P mora biti 1
- formula za uniju vjerojatnosti ( složeni događaji koji su nezavisni ) : Primjer : X= 3, 4, 5, 6, 7, 8 Zadaju nam : P ( X › 6 ) = P ( X = 7 ) + P ( X = 8 ) Sheme : npr. točno 2 – P ( X = 2 )
najmanje, barem 2 – P ( X ≥ 2 ) najviše, do uključivo 2 – P ( X ≤ 2 ) - ako nas traže vjerojatnost za neki X, a njega nema u tabeli tada je taj P = 0 OČEKIVANJE, VARIJANCA I STANDARDNA DEVIJACIJA DISKRETNE SLUČAJNE VARIJABLE
Ova formula se koristi kada sun am zadane tabele vjerojatnosti. U slučaju kada nam se u zadatku „kriju“ parametri –p i –n, onda koristimo formulu navedenu prije. µ = očekivanje ; računa koju vrijednost varijable očekujemo kao najvjerojatniju _ = ona je zapravo isto što i srednja vrijednost X = prosječna vrijednost slučajne varijable koju OČEKUJEMO pri ponavljanju pokusa veliki broj puta
µ = Σ P ( X=Xi ) • Xi ( ova naizgled komplicirana formula svodi se na jednostavan postupak množenja X1 sa pripadajućim P1 iz tablice te se tim principom redom množe svi faktori u tablici, a kao šećer na kraju – njihovi se umnošci zbroje ) - kako čitamo ; „očekujemo da će se dogoditi...“ S = varijanca
S =
µ ( X ² ) - [ µ ( X ) ] ²
! KAKO ČITAMO OVU FORMULU ! Varijanca se računa kao očekivanje kvadrata minus kvadrat očekivanja ! Jednostavnije ovu formulu možemo shvatiti kao množenje kvadriranog X sa njemu odgovarajućim P iz tablice, tako sve redom, pa se kao i kod zbroji ali još se na kraju od dobivenog rezultata oduzme
µ².
µ
sve
σ =
standardna devijacija ; nema promjena u formuli
σ = √S B) HIPERGEOMETRIJSKA RASPODJELA DISKRETNE SLUČAJNE VARIJABLE - karakteristike : uvjeti se iz pokusa u pokus MIJENJAJU - na primjeru kuglica ; vadimo ih, ali ono što smo izvadili ostavlj amo vani - ishodi su NEZAVISNI - uzorak je po veličini „ sumjerljiv “ populaciji - smanjujemo populaciju za veličinu uzorka ( svaki put kad uzmemo kuglicu i ne vratimo ju, smanjujemo ukupni broj kuglica/populaciju ) Formula : P ( X=k ) =
n n k • n–k
N = veličina populacije n = veličina uzorka k = broj „uspjeha“
¯¯¯¯¯¯¯¯
n – k = broj „neuspjeha“
N
n
- X – hipergeometrijska varijabla P ( X=k ) n ovdje ide “uspjeh”; -n je ukupni broj “uspjeha”, -k je zadani broj “uspjeha” k n tu ide “neuspjeh”; -n je ukupan broj “neuspjeha”, -k je zadani “neuspjeh” n-k
- na kraju kada zbrojimo gornji brojnik i nazivnik, oni trebaju biti jednaki kao donji brojnik i nazivnik - primjer : 7 5 3 0 ¯¯¯¯¯¯¯ 12 3
7 + 5 = 12 3+0= 3
OČEKIVANJE I STANDARDNA DEVIJACIJA HIPERGEOMETRIJSKE VARIJABLE
µ = n • r ¯¯ N σ = √ n • r ¯¯ N - vjerojatnost “uspjeha”
n – broj ponavljanja pokusa, uzorak N – veličina populacije ukupne r – broj uspjeha u populaciji
( 1- r ) ¯¯ N
- vjerojatnost “neuspjeha”
• √ N - n ¯¯¯¯¯ N - 1
- korekcija radi veličine uzoraka
c) POISSONOVA RASPODJELA - lako ju prepoznajemo, OVISI SAMO O JEDNOM PARAMETRU λ
- vjerojatnost da se neki događaj dogodi točno određeni broj puta u budućnosti - zadan nam je prosječan broj pojava, a mi se pitamo kako će biti ubuduće - zadan nam je broj λ ( to je prosječni broj pojava nekog događaja u prošlosti ) - X je broj tog istog događaja u budućnosti
k -λ P ( X = k ) = λ • e
¯¯¯¯¯¯¯¯¯ k! e = 2.71...
OČEKIVANJE I STANDARDNA DEVIJACIJA POISSO-ove RASPODJELE
Očekivanje ;
µ = λ Standardna devijacija ;
σ = √ λ
KONTINUIRANE SLUČAJNE VARIJABLE - pojavljuju se tamo gdje se nešto mjeri - mogu poprimati sve vrijednosti iz nekog intervala/segmenta, svi su jednako vrijedni - primjer kontinuirane slučajne varijable : masa, temperatura, vrijeme, količina oborina, novac... - kod kontinuiranih varijabli nema smisla govoriti o vjerojatnostima, jer je to gotovo nemoguće - zato ima smisla promatrati ih kroz međuvrijednosti od do : P ( a ≤ X ≤ b ) P ( a < X < b ) - kod kontinuiranih varijabli uvijek govorimo da vjerojatnost padne između nekog intervala - vjerojatnost da kontinuirana varijabla poprimi neku vrijednost jest 0 - kod kontinuiranih varijabli funkcije raspodjela se NE ZADAJU FORMULOM već grafom - krivulje / funkcije kojima su kontinuirane varijable definirane zovemo funkcije gustoće vjerojatnosti - kada krivulju frekvencije preoblikujemo zove se funkcija gustoće raspodjele kontinuirane slučajne varijable - površina ispod krivulje vjerojatnosti, a iznad varijabli –a i –b jest vjerojatnost da će se naša varijabla dogoditi
0 ≤ P ( a ≤ X ≤ b ) ≤ 1
- ukupna površina ispod krivulje vjerojatnosti MORA BITI 1
Pukupno
= 1
- valjanost vjerojatnostne raspodjele ; ……..INTEGRAL = generalizacija sume ……
∞
∫ P ( X ) = dx = 1 -∞
NAČINI RASPODJELE KONTINUIRANE SLUČAJNE VARIJABLE
- najprimjenjenija jest NORMALNA SLUČAJNA VARIJABLA - ona se ravna prema tzv. normalnoj raspodjeli - primjer : visina stabljike kukuruza, srdele ( najviše je onih srednje veličine, ekstrema je manje ) - mnogo nezavisnih faktora utječe na nju - u ovakvim uvjetima govorimo o normalnoj raspodjeli 1. NORMALNA RASPODJELA - gore su navedene neke karakterisrike - najvažnija su ova svojstva : I. krivulja je ZVONOLIKA II. ta zvonolika krivulja je karakterizirana dvama parametrima : a) pozicija maksimuma ( ona u biti odgovara aritmetičkoj sredini, tj. OČEKIVANJU ) b) “ širina” /raspršenje /disperzija ( kontrolira ju standardna devijacija ) III. krivulja je simetrična s obzirom na µ IV. „repovi krivulje“ imaju os –x kao asimptotu ( pravac koji se približava krivulji, ali ju nikada stvarno ne dotiče ) V. površina ispod krivulje je jednaka 1 ( zato jer ona predstavlja ukupnu vjerojatnost da će se nešto dogoditi ) - ova svojstva treba sadržavati krivulja koja će nam biti dobra za normalnu raspodjelu ; X ~ N ( µ, σ ) – normalna raspodjela - što je σ veća, to je k rivulja razvučenija i manje strma A) STANDARDNA NORMALNA RASPODJELA - izgled ; N ( 0,1 ) - izražava se u ovim jedinicama : µ = 0 i σ = 1 te o njima ovisi - ukupna površina ispod ove krivulje jest 1 - vrijednosti koje vrijede za ovu raspodjelu :
CIJELA POVRŠINA = 1 LIJEVO I DESNO OD 0 = 0.5 U TABLICAMA SU PODACI OD 0 DO NEKOG BROJA a NA GRAFU SVE DRUGO SAMI MORAMO KONSTRUIRATI - 68.25% slučajeva u slučaju standardne normalne raspodjele smješteno je u području jedne σ ( lijevo i desno ) - 95% slučajeva smješteno je unutar 2 σ - 99.74% slučajeva je unutar 3 σ Svaka raspodjela može se svesti na normalnu raspodjelu računanjem tzv. –z vrijednosti. Postupak kada računamo –z vrijednost zovemo STANDARDIZACIJA. z = x - µ ¯¯¯¯¯
- odstupanje od očekivanja u mjeri standardne devijacije
σ - ako u zadatku imamo –z znači da ne trebamo provesti standardizaciju - ako nema –z provodimo standardizaciju ( koja računa vrijednost za rubove )
Aproksimacija binomne raspodjele normalnom - normalna raspodjela je uvijek SIMETRIČNA - binomna raspodjela nije uvijek simetrična; može se dobro APROKSIMIRATI - BINOMNU aproksimiramo NORMALNOM - aproksimirati = približiti Kada se radi aproksimacija ( uvjeti ) : - kada su –p i –q jako različiti, jer je tada raspodjela dosta asimetrična - n mora biti dovoljno velik da uravnotež –p i -q 1. np › 5 2. nq › 5 - kada je binomni koeficijent teško fizički izračunati ( npr. 100 ) 60 3 koraka aproksimacije : 1. provjeriti uvjete aproksimacije ( np, nq )
µB, σB iz binomne raspodjele : (µB, σB )
2. parametre u normalnoj zamijeniti sa B ( n, p )
---------- › N
µB = np - σB = √npq -
3. vjerojatnosti također treba pretvoriti ; ovdje imamo tzv. promjenu granica radi NEPREKIDNOSTI ( ako je X ≥ a = a – 0.5, ako je X ≤ b = b + 0.5 ) P ( a ≤ X ≤ b ) ---------- › P ( a – 0.5 ≤ X ≤ b + 0.5 )
2. UNIFORMNA RASPODJELA -
slučajna varijabla poprima bilo koju vrijednost, ali uvijek s istom vjerojatnošću
-
površina izgleda kao pravokutnik
-
površina ispod mora biti 1
-
duljina : b - a P ( c ≤ X ≤ d ) = a + b ¯¯¯¯¯ 2
Uniformnost – vjerojatnost spadanja u jedan ili drugi interval je jednaka - ovisi o duljini, a ne o poziciji intervala
3. EKSPONENCIJALNA RASPODJELA KONTINUIRANE SLUČAJNE VARIJABLE - ovisi samo o jednom parametru : prosječan broj pojavljivanja događaja u jedinici vremena (
λ
)
- kazuje nam vrijema koje protekne između dvije pojave - eksponencijalna raspodjela mjeri vrijeme koje protekne između dvije pojave događaja čiji prosjek znamo ; pita nas o proteku vremena između dvije pojave
Imamo formule za 3 slučaja : -
1. P ( X ≥ a ) = e
λ a
uvjet – λ›0, a›0
2. P ( X ‹ a ) = 1 – P ( X ≥ a ) -
3. P ( a ‹ X ‹ b ) = e
-
λ a
-
λ b
- e
piše li znak ≥ ili › ISTO JE
- λ je uvijek FREKVENCIJA ( Hz ) ; broj dijelimo s vremenom da bismo dobili frekvenciju
STATISTIKA UZORAKA
Tipovi uzoraka : - slučajan : ako svaki član populacije ima šanse upasti u njega - ekspertni : nije slučajan, izabire se na temelju apriornog znanja o populaciji - pogodonosni : bezvrijedan, biramo „tko nam prvi dođe pod ruku“ - očekivanje vrijednosti uzoraka jest jednako pravoj vrijednosti - aritmetička sredina uzorka jest nepristrana procjena prave aritmetičke sredine populacije - odabirom uzorka negdje moramo napraviti i grešku Konzistentna procjena – manifestira se time da veći uzorak daje bolje vrijednosti grupirane oko srednje vrijednosti - uzorak je dovoljno velik ako vrijedi : n ≥ 30 np ≥ 5 nq ≥ 5 - veličina uzorka mora balansirati asimetriju - pravilni načini slučajnog odabira : šešir, buban j, žara ( vaza ) te mehanička pomagala – kompjutor, kalkulator Statistika uzoraka procjenjuje parametre populacije na temelju statistike uzoraka parametar
populacija
uzorak
veličina
N
n
očekivanje
µ
µX
p
^ p
udio / vjerojatnost
_
_ standardna devijacija CENTRALNI GRANIČNI TEOREM
σ
σ
X
- bez obzira kako je obilježje koje mjerimo raspodjeljeno u populaciji, za velike uzorke ( n ≥ 30 ) raspodjela srednje vrijednosti uzoraka je NORMALNA _
µ Standardna devijacija _
σ
X=
{ σ ¯¯¯ √n
{
,
ako je n ¯¯¯ N
σ
• √N - n ,
¯¯¯ √n
¯¯¯¯¯¯ √N-1
≤
X =
µ
0.05 }
ako je n › 0.05 } ¯¯¯ N
- faktor korekcije radi konačnosti populacije
- uvijek je
σ
uzorka manja od
σ populacije
STATISTIKA UDJELA - razlikujemo : a) populacijski udio p = X ¯¯¯ N
X – broj elemenata populacije sa svojstvom koje nas interesira N – veličina populacije
^ b) uzorkovni udio p = Xu
¯¯¯¯
Xu – broj elemenata uzorka sa svojstvom koje nas interesira n – veličina uzorka
n Očekivanje : ^
µp
=p
Standardna devijacija : ^
σp=
{ √pq , ako je n ≤ 0.05 } ¯¯¯ ¯¯ √n N
{ √pq • √N – n , ako je n › 0.05 } ¯¯¯¯ ¯¯¯¯¯ ¯¯ √n √N – 1 N
- raspodjela uzorkovnih udjela je približno normalna uz uvjet : np › 5, nq › 5 gdje je n - veličina uzorka p – populacijski udio q=1-p
- uvijek kada u zadatku imamo očekivanja, raspodjela je NORMALNA - kada imamo uzorkovne udjele, raspodjela je normalna ako su zadovoljeni gore navedeni uvjeti ( ona je približno normalna – nije skroz ali se možemo koristiti tablicom ) Greške izoraka = srednja vrijednost uzorka – očekivanje populacije ( može biti i obratno napisano, minus ništa ne znači – ne moramo ga ni pisati ) = razlika između odgovarajućih parametara uzorka i populacije Na ovu pojavu mi ne možemo utjecati, uzorak sam stvara grešku.
Greške koje ne ovise o uzorku već o nama : bilježenje podataka, greške u računu, greške zaokruživanja …