Valószínűségszámítás és matematikai statisztika (2006) Schneider János elektronikus jegyzetéhez igazodó, kiegészítő kiadvány
Készítette: Müller Szabolcs Műszaki Informatika Kar Pannon Egyetem Nagykanizsa
1
2
A kombinatorika – a legáltalánosabb értelemben – a véges sok elemet tartalmazó halmazok elmélete. Az e tárgykörben felvetődő problémák száma igen nagy és változatos. A valószínűségszámításban közülük elsősorban az ún. csoportalkotási kérdések merülnek fel, s a velük kapcsolatos eredmények kerülnek alkalmazásra. Az adott halmaz elemei tetszőleges dolgok lehetnek, így számok, betűk, tárgyak, személyek, fogalmak, stb. Mi ezeket a következőkben mindig számokkal szimbolizáljuk, és a velük végzett csoportalkotásokat, elrendezéseket úgy tekintjük, mintha ezeket a számokhoz tartozó objektumokkal végeztük volna.
3
1. Kombinatorika Permutációk, variációk, kombinációk. Binomiális együttható. Binomiális- és polinomiális tétel.
4
A kombinatorikai fogalmak bemutatása példákon keresztül
5
6
7
8
9
10
11
Tétel: Binomiális együttható (Tulajdonságok) ⎛n⎞ ⎛ n ⎞ ⎛ n ⎞ n! ⎟⎟ = ⎜⎜ ⎟⎟ , (1) ⎜⎜ ⎟⎟ = = ⎜⎜ ⎝ k ⎠ k!(n − k )! ⎝ n − k ⎠ ⎝ n, n − k ⎠
(Szimmetria tulajdonság)
⎛ n + 1⎞ ⎛ n ⎞ ⎛ n ⎞ ⎟⎟ = ⎜⎜ ⎟⎟ + ⎜⎜ ⎟⎟ , (2) ⎜⎜ ⎝ k + 1⎠ ⎝ k ⎠ ⎝ k + 1⎠
(Pascal háromszög)
⎛ n⎞ ⎛n⎞ ⎛n⎞ (3) ⎜⎜ ⎟⎟ + ⎜⎜ ⎟⎟ + ... + ⎜⎜ ⎟⎟ = 2 n , ⎝ 0 ⎠ ⎝1 ⎠ ⎝n⎠
(Hatványhalmaz: 2H )
12
⎛ n⎞ ⎛ n⎞ ⎛n⎞ (4) ⎜⎜ ⎟⎟ − ⎜⎜ ⎟⎟ + ... + (−1) n ⎜⎜ ⎟⎟ = 0 , ⎝ 0 ⎠ ⎝1 ⎠ ⎝n⎠ ⎛n⎞ ⎛n⎞ (5) ⎜⎜ ⎟⎟ = ⎜⎜ ⎟⎟ = 1 , ⎝0⎠ ⎝n⎠
⎛n⎞ ⎛ n ⎞ ⎜⎜ ⎟⎟ = ⎜⎜ ⎟⎟ = n , ⎝1 ⎠ ⎝ n − 1⎠
⎛ n ⎞ n(n − 1) ⎜⎜ ⎟⎟ = , 2 ⎝ 2⎠
⎛ n ⎞ ⎛ n ⎞ ⎛ n − k1 ⎞ ⎛ n − k1 − ... − k r −2 ⎞ ⎛ n − k1 − ... − k r −1 ⎞ ⎟⎟ = ⎜⎜ ⎟⎟ ⋅ ⎜⎜ ⎟⎟ ⋅ ... ⋅ ⎜⎜ ⎟⎟ ⋅ ⎜⎜ ⎟⎟ . (6) ⎜⎜ k r −1 kr ⎝ k1 ,..., k r ⎠ ⎝ k1 ⎠ ⎝ k 2 ⎠ ⎝ ⎠ ⎝ ⎠
13
2. Valószínűségi mező Eseménytér, eseményalgebra, valószínűségi mérték. Műveletek eseményekkel. Klasszikus és geometriai valószínűségi mező. Szorzatmezők.
14
15
16
17
Egy másik megfogalmazásban (eseményalgebra):
18
19
20
21
22
23
24
25
Valószínűségi mezők szorzata A szemléletünk alapján többé-kevésbé nyilvánvaló, mit jelent két (vagy több) kísérletet egymástól függetlenül végrehajtani. Ha például az első kísérlet egy érme feldobása, a második egy kocka feldobása, akkor a két kísérlet függetlennek tekinthető. Ha viszont úgy módosítjuk az eljárásunkat, hogy fej dobása után szabályos kockát, írás után pedig egy szabálytalan kockát dobunk fel, akkor az érmedobás és a kockadobás nem független. Továbbá a visszatevéses mintavétel (azaz pl. golyók húzása urnából, kártyák húzása egy pakliból, mindkettő visszatevéssel) egymástól független kísérletek sorozatának tekinthető, míg a visszatevés nélküli mintavétel nem.
26
27
28
29
3. Feltételes valószínűség Feltételes valószínűségi mező, szorzási szabály, teljes valószínűség tétele, Bayes tétel. Események függetlensége.
30
31
32
33
34
35
36
37
38
39
4. Véletlen változók Véletlen változó. Eloszlásfüggvény. Eloszlások osztályozása: diszkrét, folytonos és vegyes típusú eloszlások.
40
41
42
(Megjegyzésként:)
43
44
45
46
47
48
49
Vegyes típusú eloszlások
ξ vegyes típusú VV, ha nem diszkrét és nem folytonos VV. Ezen eloszlások közül gyakorlati szempontból csak azok érdekesek, amelyekre: b
P (a ≤ ξ < b) = ∫ f ( x)dx + a
∑ P(ξ = x ) alakban, ahol
a ≤ xk < b
k
f ( x ) ≥ 0 és P(ξ = xk ) > 0
Megj.: Nincs olyan eloszlás, amely egyszerre diszkrét és folytonos is.
5. Vektorváltozók Véletlen vektorváltozó. Együttes eloszlásfüggvény. Diszkrét és folytonos vektorváltozó. Változók függetlensége.
50
51
52
53
54
1. Diszkrét VVV
ξ VVV diszkrét, ha ∀i = 1,..., n : ξi diszkrét VV Az eloszlást egyértelműen meghatározzák a pi1 ,..., ik = P (ξ1 = xi1 ,..., ξ n = xin ) valószínűségek: P(ξ ∈ A) = Köv.:
∑p
( i1 ,..., i n )
i1 ,..., i n
=
∑p
i1 ,..., i n ( x i1 ,..., x in )∈R n
∑p
i1 ,..., i n ( xi1 ,..., x in )∈ A
,
F ( x1 ,..., xn ) =
∑p
∀k : x ik < x k
i1 ,..., i n
= P (ξ ∈ R n ) = 1
ξ diszkrét VVV valószínűségeloszlása: az összes (( xi ,..., xi ), pi ,..., i ) halmaza 1
n
1
n
Áll.: Legyen (( xi1 ,..., xin ), pi1 ,..., in ) -ek egy halmaza E, melyre ∀pi1 ,..., in ≥ 0 és
∑p
( i1 ,..., i n )
i1 ,..., i n
=1
Ekkor ∃ξ diszkrét VVV, melynek eloszlása éppen az adott E. 2. Folytonos VVV
ξ VVV folytonos, ha ∃
f ( x ) ∈ RI (- ∞ , ∞ ) n : F ( x ) =
x1
xn
−∞
−∞
∫ ... ∫ f (t ,..., t )dt ...dt 1
n
n
1
ξ folytonos VVV valószínűségi sűrűségfüggvénye: a fenti f(x1,…,xn) függvény Ismeretes, hogy ekkor
∂ n F ( x1 ,..., xn ) = f ( x1 ,..., xn ) ∂x1 ,..., ∂xn
Mivel F (x ) minden változója szerint monoton növő, így f ( x ) ≥ 0 . 55
∞
∞
−∞
−∞
Mivel F (∞,..., ∞ ) = 1 , így
∫ ... ∫ f (t ,..., t )dt ...dt 1
n
n
1
=1
Áll.: ∀i : lim f ( x ) = lim f ( x ) = 0 xi → −∞
Áll.:
xi → +∞
Legyen adott f ( x ) ≥ 0 valósértékű függvény, melyre
∞
∞
−∞
−∞
∫ ... ∫ f (t1,..., tn )dtn ...dt1 = 1 .
Ekkor ∃ξ folytonos VVV, melynek VSF-e éppen az adott f (x ) . Megj.: Ez a két tulajdonság jellemzi a VSF-k osztályát.
56
6. Véletlen változók jellemzői Helyzetmutatók (várható érték, módus, medián, kvantilisek). Szóródás mutatók.(variancia, szórás, átlagos abszolút eltérés). Alakmutatók. (A és F mutató). Mennyiségi sorok elemzése Típusai: (1) Gyakorisági sorok: mennyiségi ismérv szerinti osztályozó eredménye. Képezhető ezekből relatív gyakoriság, ez a gyakoriságokból számított megoszlási viszonyszám. – ez az eloszlás fogalmával egyenlő. Képezni tudunk ún. kumulált sorokat. Kumulálás: halmozott összeadás, amelyet megtehetünk a gyakoriságokra és a relatív gyakoriságokra is. Megoszlási viszonyszámokat g-vel is jelöljük, kumulált relatív gyakoriság: gi Felfelé kumulálás: a kisebb ismérvértékektől a nagyobbak felé haladva történik a halmozott összeadás. Lefelé kumulálás: a nagyobb ismérvértékektől a kisebbek felé haladva történik a halmozott összeadás. (2)
Értékösszegsor (Si) Gyakoriság szorozva az ismérvértékkel. ( pl.: árbevétel = mennyiség × egységár
Si = fi × Xi
57
Osztályközös mennyiségi sor esetén az osztályközéppel kell számolni. Értékösszeg mellett képezhetünk relatív értékösszeget. Z = értékösszegek megoszlási viszonyszáma.
Megjegyzésként: ((( Alapfogalmak Statisztika: a tömegesen előforduló jelenségek vizsgálatával foglalkozik, ezekre vonatkozóan adatokat gyűjt, feldolgoz, elemez és közzé tesz. Fajtái: (1) a statisztikai vizsgálat köre szerint: a) leíró statisztika – az adatgyűjtés, feldolgozás, elemzés egyszerűbb eszközeivel találkozunk. b) statisztikai következtetés – nincs lehetőség a teljes jelenség megfigyelésére, szűkebb kört figyelnek meg és ezeket az információkat vonatkoztatják a teljes sokaságra. Lehet: - statisztikai becslés - statisztikai hipotézis vizsgálat (2) A statisztikai vizsgálat specializáltsága szerint: a) általános statisztika – általános módszertani kérdésekkel foglalkozik b) szakstatisztika – egy-egy speciális szakterület statisztikájával foglalkozik. (pl. népesség statisztika) Statisztikai sokaság: a megfigyelés tárgyát képező egyedek összessége. (pl. népszámlálás – az ország népessége) Megfigyelési egység: akire, vagy amire vonatkozóan adatokat gyűjtünk (a sokaság egy-egy eleme) Számbavételi egység: aki az adatot szolgáltatja (ember, szervezet) Statisztikai sokaság csoportosítása: (1) Annak függvényében, hogy az adatok mire vonatkoznak: - álló sokaság – időpontra vonatkozik - mozgó sokaság – időtartamra vonatkozik (2) Annak függvényében, hogy a sokaság elemei megszámlálhatóak-e? - véges sokaság – megszámlálható - végtelen sokaság – megszámlálhatatlan (3) Megadásuk módja szerint: - diszkrét sokaság – egy-egy konkrét számértékkel adjuk meg az elemeket - folytonos sokaság - értékközzel kerül megadásra a sokaság
58
Statisztikai ismérv: a sokaság egyedeit jellemező tulajdonság. Ismérvváltozat: az ismérv lehetséges kimenete. Alternatív ismérv: csak két kifejezési lehetősége van (pl. férfi-nő) Ismérvek csoportosítása: (1) A sokaság milyen körére terjed ki: - közös ismérv – minden elemre - megkülönböztető ismérvek – egy-egy részre (2) Fajtája szerint: - időbeli ismérv – időpontot és időszakot is jelenthet - területi ismérv – pl. állandó lakóhely - minőségi ismérv – számszerűen nem mérhető tulajdonságot takar - mennyiségi ismérv – megszámlálható tulajdonságot jelöl Statisztikai adat: a sokaság elemeinek száma vagy valamilyen mérési eredménye Alapadat: közvetlen számlálással jutunk hozzá (pl. jelenlévők száma) Követelmények: - pontos legyen az adat - gyors legyen az adat - olcsó legyen az adat Leszármaztatott adat (származékszám) (mutatószám): az alapadatokból valamilyen számítási művelet eredményeképpen kapjuk (pl. férfiak aránya a jelenlévők közül) Hogyan juthatunk statisztikai alapadatokhoz? (1) Nem statisztikai célra készült nyilvántartásból (2) Erre a célra szervezett adatgyűjtésből. Annak figyelembevételével, hogy az adatgyűjtés milyen körre terjed ki: - teljes körű: a sokaság minden egységére kiterjed - részleges: a sokaság egy részére terjed ki, lehet: a. reprezentatív: az elemek kiválasztása meghatározott elvek szerint történik. Eredménye a minta vagy mintasokaság Statisztikai adatok hibája: - csak korlátozottan pontosak a statisztikai adatok - felvételnél, feldolgozásnál sérülhetnek az adatok Hibák:- abszolút hiba = /valóságos adat – mért adat/ - relatív hiba = abszolút hiba / valóságos adat Statisztikai adatok csoportosítása: - az első feladat a feldolgozásban - a sokaság felosztása a sokaság egységeit jellemző megkülönböztető ismérvek szerint (pl. jelenlévők nem szerinti csoportosítása) Követelmények a csoportosítással szemben: - átfedés mentes - teljes - a sokaság minden eleme besorolható legyen egyértelműen, de csak egy csoportba
59
A csoportosítás eredménye: (1) Statisztikai sor: egy ismérv szerinti csoportosítás eredménye (2) Statisztikai tábla: több ismérv szerinti csoportosítás eredménye (Statisztikai tábla: megfelelő külső formával ellátott statisztikai sorok rendszere.) Statisztikai sor Fajtái: - A benne szereplő adatok összegezhetősége szerint: o csoportosítható statisztikai sor – adatai összegezhetők (értelme van) o összehasonlító sor – adatai nem összegezhetők (értelmetlen) - A sorban szereplő adatok fajtái szerint: o idősor: időbeli ismérv alapján csoportosítva az adatokat állapot idősor: adatai nem összegezhetők, időpontra vonatkozik tartam idősor: időtartamra vonatkoznak az adatok, általában adatai összegezhetők, de csak a folytonos idősorúnál o minőségi sor: az adatoknak minőségi ismérv szerinti rendezése o mennyiségi sor: az adatoknak mennyiségi ismérv szerinti rendezése o területi sor: az adatok területi hovatartozást jelentenek. o leíró sor: azok a sorok, ahol egy jelenség különböző tulajdonságát soroljuk fel.
))) Mennyiségi sorok ábrázolása Derékszögű koordinátarendszerben ábrázoljuk. Vízszintes tengelyen mindig a mennyiségi ismérveket ábrázoljuk, a függőlegesen pedig az előfordulások számát. Mennyiségi sorokra számítható mutatószámok (1) Helyzetmutatók – az eloszlás helyzetéről (az x tengelyen való elhelyezkedésükről) tájékoztatnak. Idetartozik: átlag, módusz, medián, kvantilisek (2) Szóródás mérőszámai – ismérvértékek különbözőségét fejezik ki. (3) Eloszlás - alakjáról tájékoztatunk. (alakmutatók) Idetartoznak: aszimmetria mutatószámai, csúcsosság mutatószámai.
60
61
62
Módusz
63
64
A p-kvantilis
65
Kvartilisek – q-ad rendű kvantilis az a szám, aminél az összes előforduló ismérvérték q-ad része kisebb és (1-q)-ad része nagyobb. Számításuk kiinduló feltétele, a nagyság szerint sorba állított sokaság. Az adathalmazok egyenlő felosztásával kapott helyzetmutatók: 1.) alapvető kvantilis fajta a Medián: - a nagyság szerint sorba rendezett sokaságot egy osztópont segítségével 2 részre osztja. 2.) a tercilisek csoportja – a nagyság szerint sorba rendezett sokaságot 2 osztópont segítségével 3 részre osztja. 3.) a kvartilisok csoportja – a nagyság szerint sorba rendezett sokaságot 3 osztópont segítségével 4 részre osztja. Q1 - alsó kvartilis Q2 - Me Q3 - felső kvartilis 4.) a kvantilisek csoportja – a nagyság szerint sorba rendezett sokaságot 4 osztópont segítségével 5 részre osztja. 5.) a decilisek csoportja – a nagyság szerint sorba rendezett sokaságot 9 osztópont segítségével 10 részre osztja. K1, K2, … K9 6.) a tercilisek csoportja – a nagyság szerint sorba rendezett sokaságot 99 osztópont segítségével 100 részre osztja. P1, P2, … P99 Számításuk megegyezik a medián számításával.
66
67
68
69
Átlagos abszolút eltérés
Megjegyzés: (
70
Minta: ξ értékének megfigyelése n-szer: ξ1 ,..., ξ n
(Lehet: független vagy nem független)
)
71
Alakmutatók
72
7. Nevezetes eloszlások és jellemzőik Bernoulli-, binomiális-, geometriai-, negatív binomiális-, hipergeometriai- és Poisson eloszlás. Egyenletes-, exponenciális- és normális eloszlás. Normálisból származtatott eloszlások.
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
2. Itt lenne a centrális határeloszlás tétele és annak részletezése, de ezt a következő témakörben (tételben) megtalálhatjuk.
Normálisból származtatott eloszlások: χ2 , Student, F
99
100
101
102
103
104
105
106
107
Az F-eloszlás definíciója
108
109
8. Centrális határeloszlás tétel és a Nagy számok törvényei Centrális határeloszlás tétel, Moivre-Laplace tétel. Konvergencia típusok. Nagy számok Csebisev-, Bernoulli- és Borel-féle törvényei.
110
111
112
113
A központi határeloszlás-tétel az általános esetben A matematikai statisztika módszereinek jelentős része arra a feltevésre épül, hogy a megfigyelt mennyiség normális eloszlású. Azt, hogy a megfigyelt mennyiségek igen gyakran (közelítőleg) normális eloszlást követnek, egyrészt a tapasztalat mutatja, másrészt elméletileg a központi határeloszlás-tételek támasztják alá.
114
115
116
117
118
119
120
121
122
123
124
125
126
127
9. A matematikai statisztika Alapfogalmak. Empirikus jellemzők.
128
129
130
131
132
133
134
135
136
137
138
10. Becsléselmélet Becslések jellemzői. ML módszer. Konfidencia intervallum. Minimális kísérletszám.
139
140
141
142
143
144
145
146
147
148
149
150
11. Hipotézisvizsgálat Egy- és kétmintás statisztikai próbák várható értékekre, valószínűségekre és szórásokra.
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
Irodalomjegyzék: • • • • • •
Schneider János – Valószínűségszámítás és matematikai statisztika (MI szak, PEN - 2004-2006), Obádovics J. Gyula – Valószínűségszámítás és matematikai statisztika (5. kiadás, Scolar Kiadó, 2003), Fazekas István: Valószínűségszámítás (Debreceni Egyetem), Denkinger Géza – Valószínűségszámítás (Nemzeti Tankönyvkiadó, Budapest, 1997), Reimann József, Tóth Julianna – Valószínűségszámítás és matematikai statisztika (Nemzeti Tankönyvkiadó, Budapest, 2000), Bácsó Sándor – Diszkrét Matematika 1. (Debreceni Egyetem Informatikai Intézet, 2003)
169