Colectia
UNIVERSITARIA
Seria
STIINTE MATEMATICE
PETRUS ALEXANDRESCU
Introducere
"In
Editor: Calin Vlasie Tehnoredactare: Cannen Radulescu Corectura: autorul Coperta: Carmen Lucaci Prepress: Viorel Mihart
Descrierea CIP a Bibliotecii Nationale a României
ALE~RESCU,PETRUS Introducere În statistica sociala / Petrus Alexandrescu, - Pitesti: Paralela 45,2005 Bibliogr. ISBN 973-697-335-2
statistica sociala
! il
( 1 j
311:913(498)(075.8)
© Copyright Editura Paralela 45, 2005
CUPRINS !!/'Prefata
i
::F'"
'il
.
7
,
Capitolul 1 Elemente de teoria probabilitatilor
9
Capitolul II Elemente de statistica descriptiva
17
Capitolul III Variabile aleatoare. Proprietati. Caracteristici..
25
Capitolul IV Indicatori ai caracteristicilor cantitative
41
Capitolul V Corelatia rangurilor
56
Capitolul VI Analiza de regresie
,
Capitolul VII Analiza de dependenta
,
61 67
Capitolul VIn Sondajul statistic si esantionul statistic
76
Capitolul IX Chestionarul de opinie. Elemente privind proiectarea chestionarului
87
Capitolul X Teste de semnificatie
92
Bibliografie selectiva
97
5
PREFATA ., Lucrarea de fata , urmeaza în esenta, cursul de statistica sociala de un semestru, predat de autor la anul II al Facultatii de Sociologie si Psihologie a Universitatii "Spiru Haret". Pentru a
fi utila în primul rând studentilor· acestei facultati, lucrarea urmareste pe de o parte sa familiarizeze cititorul cu elementele de statistica matematica necesare în abordarea si întelegerea unui fenomen social. Pentru aceasta, am tinut cont de faptul ca numerosi studenti ai acestei facultati au formatie umanista înca din liceu. Acest lucru a facut ca interesul lor pentru disciplinele realiste sa fie scazut. Întâlnirea acestora cu statistica în cadrul facultatii este privita cu o anumita retinere. Rolul profesorului în acest caz este de a face, pe cât posibil, un curs foarte accesibil, atractiv, si care sa stârneasca curiozitatea studentului (macar al aceluia care îsi cunoaste interesul si stie de ce a venit la aceasta facultate). Cursul predat a încercat pennanent sa tina seama de acest deziderat, iar cursul scris încearca sa-I urmeze îndeaproape. Dar, pe lânga a fi accesibil si atractiv, cursul trebuie sa fie util. O data cu întelegerea rolului statisticii în realitatea sociala, este important sa se înteleaga metodele, tehnicile sale, dar mai ales este important sa se înteleaga gândirea
statistica. Nu tre-
buie sa utilizaIl1 o metoda sau alta pentru ca ani auzit de ea sau pentru ca utilizarea unor metode statistice sonore ne-ar scoate
7
din impas sau ne-ar pune în situatia comoda de a ne aseza în
Capitolul 1
spatele lor si a ne multumi astfel cu orice rezultat obtinut. Utilizarea statisticii în mod adecvat este deosebit de utila.
ELEMENTE DE
Dar utilizarea statisticii poate fi si nociva atunci când se face în
TEORIA PROBABILITATILOR .
mod mecanic, fara a se întelege utilitate a sa, si mai ales când, cum si în ce fel poate fi folosita. Am încercat sa lamurim si aceste lucruri de-a lungul cursului . Autorul, de formatie matematician, si-a facut ucenicia în me-
.L Câmp de probahilitatefinit
todologia stiintelor sociale de-a lungul anilor în cadrul Institutului de Sociologie al Academiei Române. Aici a avut posibi-
Experimentul
statistic este un procedeu care poate fi
litatea sa participe la numeroase cercetari concrete în colective
repetatîn conditii similare si în urma caruia se obtin rezultate ce
interdisciplinare, sa învete si sa experimenteze o serie de metode
pot fi observate, masurate si apoi interpretate.
si tehnici. Anii de dupa Revolutie au putut fi mult mai profitabili din acest punct de vedere. Comenzile sociale ne-au ajutat sa tinem pasul cu realitatea
Experimentul statistic are un caracter aleator, în sensul ca rezultatul acestuia variaza la întâmplare; de aceea îl vom mai numi adesea si experienta aleatoare.
sociala si sa gasim solutii practice chiar si atunci când teoria nu
Rezultatul unei experiente aleatoare se va numi proba.
ne ajuta. Am învatat din greselile noastre ca si din ale altora, îm-
Exemplu. Aruncarea unui zar constituie o experienta alea-
bunatatindu-ne stilul si bagajul de cunostinte. Toate aceste cu-
toare. Rezultatele posibile acestei experiente sunt concretizate în
nostinte capatate le putem împartasi celor tineri pentru a le ne-
aparitia uneia dintre fetele: 1, 2, 3, 4, 5, 6.
specialistii de mâine în do-
Definitie. Realizarea sau nerealizare a unei. anumite situatii,
meniul stiintelor sociale. Facultatea de Sociologie si Psihologie a Universitatii "Spiru Haret" mi-a oferit aceasta ocazie.
·legata de experienta aleatoare avuta în vedere,. dupa· efectuarea
tezi drumul si a-i ajuta sa devina
Prezenta lucrare se adreseaza în primul rând studentilor
experientei, se numeste evenjment statistic. Prin evenimentul
elementar
vom. întelege acel eveniment
Facultatii de Sociologie si Psihologie, dar si tuturor acelora care
care poate fi realizat numai de o singura proba., Celelalte
doresc sa se initieze în statistica sociala.
evenimente le vom numi compuse. Autorul
8
9
De exemplu, evenimentul de aparitie: a fetei cu numarul 6
>LOperatii cu evenimente
este un eveniment elementar. Evenimentul de aparitie a unei fete
Daca A si B sunt doua evenimente, numim reuniunea lor si
cu numar par este realizat de una dintre probele {2}, {4}, {6}. Evenimentul sigur este evenimentul care se realizeaza cu
.otam AU B, evenimentul a carui realizare consta în realizarea a
certitudine la fiecare efectuare a experientei. Evenimentul experientei.
Evenimentul
{1,2,3,4,5,6}
este
el putin unuia din cele doua evenimente.
În mod asemanator, An B este evenimentul care se realizea-
evenimentul
sigur
al
cu realizarea simultana a evenimentelor A si B. Daca
imposibil
este
evenimentul
care
nu
realizeaza la nici o efectuare a experientei.
Sa consideram
Doua evenimente A si B se numesc contrare daca nerealiunuia
este echivalenta
cu realizarea
A si B sunt incompatibile,
celuilalt;
experienta
asociate multimilor complementare. Astfel, B = CA iar A = CB. Evenimentele A si B se numesc compatibile daca se pot realiza simultan, adica daca exista probe care le realizeaza în acelasi timp pe A si pe B. În caz contrar, evenimentele A si B se numesc incompatibile. În primul caz, comparând cu multimile, avem An B
:t=
0,
iar în al doilea caz, An B·= 0. Evenimentul A implica evenimentul B si scriem A
10
c B, daca
lIDUi
zar si A
de 10 ori. Sa presupunem ca aruncând cu zarul de 10 de trei ori a aparut fata cu numarul 5. Raportul
pe amândoua; în schimb, orice proba realizeaza unul din cele doua evenimente. În termeni de teoria multimilor, astfel de evenimente sunt
de aruncare a
de aparitie a fetei cu numarul 5. Sa repetam aceasta
asta
înseamna ca nu exista nici o proba care sa le realizeze simultan
realizarea lui A implica realizarea lui B.
atunci
Definitia probabilitatii
Evenimentul imposibil se noteaza prin 0. zarea
evenimentele
se
f=-103 numeste frecventa de aparitie. Frecventa de aparitie este un numar subunitar O ::; fn
::;
1.
Doua evenimente A si B se numesc egal posibile daca au aceeasi sansa de a se realiza. Daca
la .experienta
de aruncare
a unui
zar, A este
evenimentul în care apare fata 5 si B este evenimentul
de
aparitie a fetei 3, atunci evenimentele A si B sunt egal posibile.
Defmitie. Numim probabilitate a unui eveniment, raportul dintre numarul· cazurilor egal posibile care realizeaza eveni,.. mentul sau cazurile favorabile si numarul cazurilor egal posibile. 11
Exemple: 1) La experienta de aruncare a unei monede, probabilitatea de a aparea stema este: 1
2
ca anmcând
p(A nC) = p(A)· p(C) p(A n B n C) = p(A)p(B)p(C)
p = 36 =6 ale probabilitatilor
Daca p(A) este probabilitatea evenimentului A, atunci au 10& proprietatile:
Formule clasice de probabilitate 1. Formule pentru calculul unor probabilitati a) Fie A, B - 2 evenimente. Atunci are loc formula: p(A U B) = peA) + p(B) - p(A n B) b) Daca A, B, C sunt 3 evenimente, atunci are loc formula: p(AUBUC)
1) O~ p(A).~ 1
- p(A
2) p(E) = 1, unde E este evenimentul sigur 3) p(0) = O,unde 0 este evenimentul imposibil 4) p(A U B) = p(A) + p(B), daca An B = 0 Daca An B T. 0, atunci proprietatea 4) devine: 4') p(A U B) = p(A) + p(B) - p(A n B) 5) p(A)+ p(A) = 1 unde A este evenimentul contrar lui A. Definitie. Daca A si B sunt doua evenimente si daca p(A n B) = p(A)· p(B) atunci spunem ca eV91imentele A si B sunt independente. Daca A, B, C sunt trei evenimente, atunci ele sunt independente daca sunt îndeplinite relatiile: 12
p(B)
doua zaruri sa
obtinem o dubla, adica (1, 1) sau (2, 2), ... , sau (6, 6)7 6 1 Proprietati
n B) = p(A)·
p(B n C) = p(B)· p(C)
p=2) Care este probabilitatea
p(A
= p(A) + p(B) + p(C)-p(AnB)-
n C) - p(B n C) + p( An
B n C)
Aceasta formula se poate generaliza la n evenimente si se obtine o formula care poarta denumirea de formula lui H. Poincare. Aplicatie. O urna contine 4 bile albe si 6 bile negre, iar alta urna contine 7 bile albe si 3 bile negre. Din fiecare urna se extrage câte o bila. Care este probabilitatea ca cel putin o bila sa ne alba? Rezolvare. Notam cu A evenimentul ca bila extrasa din prima urna sa fie alba si cu B evenimentul ca bila extrasa din a doua urna sa fie alba. Vom calcula probabilitate a evenimentului
AUB: p(A U B) = p(A) + p(B) - p(A n B) Dar evenimentele A si B sunt independente, rezulta ca 4 7 28 =p(A n B) = p(A)· p(B) = -.-
10 10
13
100
Urmeaza ca: P
0,012, q2 = 0,015, q3 = 0,014
(A U B) = ~ + ~ _ 28 = 110- 28 = 82 = ° 82 10 10 100 100 100 '
PI = 0,988, P2 = 0,985, P3 = 0,986 Asadar, coeficientul lui x2 vafi:
2. Scheme clasice de probabilitate a) Schema lui Poisson
PIP2q3 + PIP3Q2+ P2P3Ql = 0,988·0,985·0,014
Sa presupunem ca avem n urne:
+ 0,012 = 0,04
UI,
U2,
.... ,
Un
.0,986.0,015 + +0,985·0,986·0,012
extrage k bile albe
° ~ k ~ n,
atunci când din fiecare urna se
extrage câte o bila.
= 0,013 + 0,015 +
timp ce probabilitatea ca toate piesele extrase sa fie bune este: P = PIP2P3 = 0,988·0,985'0,986
care contin bile albe si negre. Daca Pi este probabilitatea cu care este extrasa o bila alba din uma Ui, se cere probabilitatea de a
+ 0,988·
= 0,959
b) Schema lui Bemoulli Este un caz particular al schemei Poisson, în care cele n urne continuturi identice. În acest caz:
Ca regula, sa retinem ca determinarea probabilitatii cerute este similara cu detern1inarea coeficientului lui Xk din dezvoltarea polinomului
Pl = P2 = ... = Pn = P
SI
ql =Q2 = ..·=qn =q=l-q Problema este aceeasi, anume, de a extrage câte o bila din
P(x) = (PIX + ql)(P2X + q2 )·· ..·(Pnx + qn)' Vom lamuri acest lucru printr-un exemplu. Exemplu. Într-un atelier sunt 3 strunguri care executa piese. Primul da 1,2% rebuturi, al doilea 1,5% si al treilea, 1,4%. Se ia
fiecare urna si de a calcula probabilitatea ca din .cele n bile extrase, k sa fie albe si n-k tlegre. Probabilitate a ceruta estecoefidentullui binomului:
la întâmplare câte o piesa de la fiecare strung. Se cere probabi:litatea ca 2 din piese sa fie bune si una sa fie rebut. Probabilitatea cautata va fi coeficientul lui x2 din dezvoltarea polinomului
xk din dezvoltarea
P(x) = (px+Q)n adica:
C~pkQn-k
Sa mai constatam ca problema extragerii a n bile din n urne identice, câte una din fiecare urna, este similara cu aceea a
(PIX + ql)(P2X + q2)(P3X + q3) Se constata ca: n = 3, k = 2,
extragerii succesive a n bile din aceeasi urna, punând de fiecare data bila extrasa înapoi.
14
15
Aplicatie.
Aruncam o moneda de 6 ori, Se cere probabi-
Capitolul II
litatea ca stema sa apara o singura data si banul de 5 ori. Se constata ca n = 6 k = 1 p = q =
"
Atunci P =
C61
•
-
•
-
2 2 (1)1 (1)5
=-
26 6
!
ELEMENTE DE STATISTICA DESCRIPTIVA
2
=-
32 3
= O094 '
Statistica sociala se ocupa cu gruparea, analiza si interpre-
c) Schema bilei neÎntoarse
tarea datelor referitoare la un fenomen social. Totodata, cu
Sa presupunem ca o urna contine a bile albe si b bile negre.
mijloacele statisticii sociale se pot efectua o serie de previziuni
Din aceasta urna se extrag n bile, fara a pune bila extrasa înapoi. Se cere probabilitatea ca din cele n bile extrase, a sa fie albe si ~ = n-a
Probabilitatea cautata va fi data de fonnula: Ca. a
,C13
descriptiva despre
un
este un proces de culegere fenomen
socjal
a
si înregistrarea
acestora; statistica matematica
a+p = n
se ocupa cu gruparea datelor, ana-
liza si interpretarea acestora în vederea explicarii feno-
Aplicatie. Într-o urna sunt 100 de bile: 40 rosii si 60 albe. Care este probabilitatea ca extragând 4 bile, doua sa fie albe? Suntem în situatia schemei bilei neîntoarse cu a = 40, b = 60,
0,=2, ~=2.
menului social si a posibilitatii efectuarii unor predictii asupra derularii fenomenului în viitor. Populatia
statistica.
Prin conceptul de populatie statistica
vom întelege orice multime care formeaza obiectul de studiu al analizei statistice.
Probabilitatea cautata va fi: 40·39 C~oo
statistica datelor
b
Ca.+fl a+b
C~o . C:o
Statistica sociala sau metodologia statistica pe care o avem în vedere presupune doua etape:
sa fie negre,
unde n
privind producerea fenomenului în viitor.
60·59
= -1·-2-' -1.-2- = 0015 _10_0_'_99_'_9_8_, 9_7 ' 1·2·3·4
Elementele
unei
populatii
statistice
le numim
statistice (sau indivizi). O analiza statistica are în vedere anumite caractt~rjslici. Astfel, daca luam ca exemplu rezultatele obtinute III
16
unihtti
17
llxlIIUQl\ul
de statistica a unei colectivitati înregistra notele obtinute dupa:
de studenti, atunci putem,
Exista si caracteristici
continue al caror numar de valori
este infinit. Un astfel de exemplu îl constituie "vârsta". Structura
caracteristica "sex": (M, F).
acestei caracteristici pe grupe de vârsta o transforma într-o
caracteristica "grupe de vârsta" etc.
variabila discreta, dupa cum se poate vedea si din tabelul
În cazul efectuarii unui studiu în care avem în vedere
urmator, în care am efectuat grupari ale populatiei adulte:
numarul locuitorilor dintr-o anumita zona, multimea localitatilor din acea zona poate constitui populatia statistica. O caracteristica de studiu ar putea fi numarul locuitorilor din fiecare localitate.
56-62 am
Grupe vârsta de \18-25 ani I 26-35 ani II 36-45 am II 46-55 am
peste 62 ani
În analizele statistice suntem nevoiti sa facem astfel de O caracteristica care se poate masura se va numi caracte-
ristica cantitativa. În cazul exemplului anterior, rezultatul obtinut la examen se masoara în note, deci este o caracteristica cantitativa. Caracteristicile "grupe de vârsta", "venitul pe familie" etc. pot fi considerate drept caracteristici cantitati ve. Caracteristicile care caracteristici calitative.
nu pot
fi masurate
se numesc
grupari pentru a simplifica etapele cercetarii. Frecvente absolute, frecvente relative, frecvente cumulate Sa consideram exemplul unei colectivitati de 200 de studenti, dintre care 86 studenti si 114 studente. Aceasta structura pe sexe poate fi înregistrata în tabelul:
Un exemplu de caracteristica calitativa poate fi înregistrarea
FeI!liJ!lJn ,~
raspunsurilor la întrebarea: Cunl va place emisiunea X de la TV?: mult, putin, deloc.
Frecvente relative Caracteristicile calitati ve sunt cel mai greu de înregistrat într-o analiza statistica.
""------_---:_---------'
Exista caracteristici A~stea
care pot lua numai valori tgtregi.
se vor f!.umi caracteristici discrete. Exemplu: numarul
de localitati dintr-un judet, numarul persoanelor dintr-o gospodarie etc. 18
"
Frecvente absolute
r'
/11'1:;h.1c~
43%51
C ./
~d , ,~,,-
Total
""'o,
!
\"
57% --Cl' ~", ~,
"'. I
Frecventa absoluta însekmna numarul de subiecti înregistrati; frecventa relativa este raportarea, la total, adica: 1\ t" 86 j 1..:. '::.. ,j~7 --
200
- O 43 - 430/70
'
.1'1' '-'~l"" ,~<,~v
19
'
Sa presupunem ca pe cei 86 de studenti de sex masculin îi
.......................................................
20% ....... 25%
distribuim dupa rezultatele obtinute la un examen astfel: Nota 12 16 86 30 71 6 ~,f 47% 14 616% 7 8546 9 5% 10 29% 19% 16 15 17% 100% 25 't~}{-~ ~H;'~~' ~it-t~ l~.\-4~ ~t'~ 7% 6 Numar Frecvente
F
......•.........................
Total Reprezentareainvestitiilor
"3 5%
se poate face în mai I11ultefeluri:
a) cuaju.torul diagram.ei: 5,5
25
Frecventele
cumulate se folosesc mai ales atunci când b) prin histograme:
urmarim evolutia unui fenomen.
40
Serii statistice. Reprezentari grafice
35 30 25
Seriile statistice sunt serii de date care se însiruiesc dupa o anumita caracteristica. Daca aceasta caracteristica este timpul, seriile se numesc temporale:
20 15
10
5 o A
Sa presupunem ca într-o întreprindere
B
c
industriala se fac
investitii procentuale în cinci sectoare astfel: Sectorul
Investitii procentuale
A
5,5%
B
14,5% 20
21
o
E
Alte
40
35·
reprezentari
sunt
reprezentari "gen
harti
numite
cartodiagrame.
30 25 20
Diagrame de structura
15 10
- populatie rel="nofollow"> 60 ani
5
l40%
O
rlllllA III B I±IC IElD
160%"1
IIEI
- populatie activa
c) cu ajutorul poligoanelor de frecventa Exista reprezentari statistice în care apare numai poligonul frecventelor fara histograme. - cresterea productiei industriale pe lunile unui an.
-populatie tânara În privinta distributiei curbelor de frecventa, putem vorbi de urmatoarea clasificare: - curbe simetrice (sau norrnale); - curbe asimetrice. Distributia simetrica (sau noqnala) este distributia lui Gauss:
d) curba frecventelor
Poligonul
frecventelor
unei variabile
aleatoare
poate fi
aproximat cu o curba - numita curba frecventelor sau curba de distributie. 22
23
CapitolulUI
Distributiile asimetrice sunt si ele de mai multe feluri: distributii usor asimetrice
VARIABILE ALEATOARE. PROPRlETATI. •
distributii pronuntat asimetrice
o variabila
CARACTERISTICI
aleatoare X este un tabel de forma (1)
unde
[XlPI Xi sunt
pn Xn
P2 ....•.••••....•.... X2
J.
valorile pe care le poate lua variabila cu probabi-
litatile Pi. În plus, trebuie îndeplinite conditiile:
i=1,2, .... ,n
1. O::SPi::S1, distributii în forma de
J
2.PI+P2
+ .. ···+Pn=l
Spunem ca tabelul (l) reprezinta distributia sau repartitia variabilei aleatoare X. Pot exista variabile aleatoare diferite cu aceeasi distributie. Sa consideram
experienta
aruncarii
unui zar. Întrucât
fiecare fata are aceleasi sanse de aparitie în raport cu celelalte, distributii în forma de
U
probabilitatea de aparitie a oricarei fete va fi: p
=~.
Variabila aleatoare asociata acestei experiente are distributia:
-1 [1
24
6
-1
6
2
-61 -61
-61 3
4
25
5~.'.
-1
6
Operatii cu variabile aleatoare Consideram variabila aleatoare X de repartitie: X+ X
Pl
P2
[. Xl
Pn
X2
'.xnJ
cu valorile XI, X2,... , Xncare sunt luate cu probabilitatile P!' P2, ·.. ,Pn. Putem scrie acest lucru astfel:
y
[Xl Pll+ YI Xl+ Pl2 Y2
II m
astfel încât
Xl plm + Ym
n
Pij
j
Xn+ PnmYml
=1
j=l i=l
iar Pij este probabilitatea realizarii simultane a evenimentelor (X = Xi) si (Y = Yj)· Daca evenimentele (X = Xi) si (Y = Yj) sunt independente, atunci
P(X = Xl) = PI, P(X = X2)= P2, ..... etc.
Pij = P(X = Xisi Y = Yj) = P«X ::::xD n (Y = Yj» ==
= P(X
Daca a este o constanta nenula, atunci putem vorbi de suma
==
Xi) .
P(Y = Yj)= Pi . ~
variabilei aleatoare X cu constanta a si produsul cu constanta a. Astfel, vom obtine noi variabile aleatoare: a + X si aX de distributii:
-1 X
a+X [a+ SI
Exemplu: Fie variabilele' aleatoare X si. Y de repartitii:
PI
Xl
P2
a + X2
O
1
-4
-
,\i \
!
111
Pn
4
a +Xn] SI
PI P2 aX [aX.l aX2 Daca avem variabilele aleatoare
Pn ] aXn
Y
~f'!
13 \
2 2\
'J 3J 6
__------\
X P2 X2 •••••••.••••••••••.•
Y q2 Y2 ..............•..•.
Pn xnJ
j
qmYml
atunci putem defini variabilele X + Y si XY astfel: 26
X+Y sau:
2'3 1 1 2'2 1 1 2'6&'2 III,!.! j ~_/".J'~ ("O
X+Y I 1
l6
r2
1 1
1
4 + 12
1
1 1 12 +8+ 12 27
1
4'6'(4'3 1 1\ 1 1 4'2 1 1 .. i5' ,~ 3
1
1 24 +'8
iJ
24
-
24 312 672413 ro
în care am notat cu 1 valoarea variabilei la aparitia bilei albe si
1
:]
Oneaparitia unei bile albe. Atunci 0+1 q21 qp 0·1 1+0 pq1·0 pq Xr+X2 XI+X2 XI'X2
C\l
XrX2
În mod analog se defineste variabila produs. sau adica
2pq p2 iar variabila produs:
~J
x·y Pii
'-XIYl I{"
P12 XIY2
Plm XIYm
Pnm xnYj
Caracteristici
ale variabilelor
U' [+1 G ' :iJ O'OJ2pqZqj aleatoare U/
În cazul exemplului de mai sus, variabila X Y va avea distri-
-24112-21-1281-3 -12121--1 6 84142-2 (-1 4 -2
butia:
OO O O
(-3
11
14J 2~
Sa consideram un alt exemplu. Sa presupunem ca peste pro-
Consideram variabila aleatoare X de distributie
babilitatea extragerii unei bile albe dintr-o urna. Dupa efectuarea primei extrageri si întoarcerea bilei în urna, repetam experienta. Fie Xl si X2 variabilele aleatoare asociate celor doua
Pn XnJ.
CUPI+p2+ .... Pn = 1
experiente, cu distributiile:
Xl
P2
x,
[~n
X, 28
[~
n
Numim valoare medie a variabileialeatoare
X expresia: fi
M(X)=PIXi +P2X2+ ... +Pnxn =LPi~i i=l
29
.
.
Se considera
Proprietati
acestei variabile
aleatoare
1) M(a) = a, unde a este o constanta. Acest lucru înseamna ca valoarea medie a unei constante este acea constanta.
deoarece:
2) M(a+X)=a+M(X)
Împrastierea
3) M(a' X) = a . M(X)
IX- M(X)1 - numita abatere medie, cu distributia:
4)
a.:::;
iar ~ = max(x1,
, •••,Xn) X2
adica cea mai mica valoare a lui X
,.o.,Xu) esteceamai marevaloarea luiX.
variabilei
X ,se caracterizeaza
O.
prin variabila
P2
pn
Ix, ~ml
Ix, -mi
unde am notat m = M(X).
J
M[(X-mi]
relatia ultima are loc numai daca variabilele
X si Y sunt
independente.
care este un moment centrat de ordinul al doilea. Acesta se mai numeste adesea dispersia variabilei X si se noteaza cu a2 sau
ca variabilele
evenimentele (X =
Pl
[lXI-mi
Cel mai comod indicator al împrastierii este dat de expresia
M(X + Y) = M(X) + M(Y) 6) M(X' Y) = M(X) . M(Y)
Spunem
M(X - M(X» = M(X) - M(X) =
este O,
M(X) :::;~ , unde am notat
a. = min(x1,x2
~
ca media
Xi)
X si Y sunt independente
daca
si (Y = Yj) sunt independente pentru toate
D(X).Avem: a2
= D(X) = M[(X -
cuplurile i sij, i E {1,2,o..,m}sij E {1,2,...,n}.
unde m = M(X).
Momente
Proprietati
mi].
Notam prin Xkvariabila aleatoare cu distributia
a) D(a) = O, unde a este o constanta, adica dispersia unei constante este O.
P2 Pn (kER) [ Plx~ x~ x~ J Numim moment de ordinul k al variabilei X, valoarea medie a variabilei Xk:
b) D(a+ X) = D(X)
n
Mk(X) = M(Xk) =
IPiX~ Î=l
c) D( aX) = a2D(X) d) D(X + Y) = D(X) + D(Y) daca variabilele X si Y sunt independente. În caz contrar,
D(X + Y) = D(X) + D(Y) + 2M[(x --x)(y-y)].
Variabila X-M(X) se numeste abaterea de la medie a variabilei X. 30
-
31
Variabila
82
a = ..jD(X) = ~M(X2)
- M2 (X)
Daca X si Y sunt doua variabile aleatoare, notam prin
se numeste abatere medie patratica.
~xy
Inegalitatea
64
=-.16 =-.•.= 16 4
D(X) =a2
lui Cebâsev
= M[(X - X Xy - Y)]
-
Coeficientul de covarianta
Urmatoarea inegalitate spune ca probabilitatea ca variabila IX - mi sa fie mai mica decât o cantitate oricât de mica, 8, este
Prin X am notat M(X) iar Y = M(Y) . Se poate arata prin calcul ca
2
mai mare sau egala cu expresia 1-.;-, 8
unde
a este
-dintre variabilele X si Y
~xy
abaterea
= M(XY)
-M(X}·
M(Y)
medie patratica a v.a. X, iar 8 este un coeficient de toleranta sau
Coeficientul de corelatie
prag de semnificatie.
Numim coeficient de corelatie a variabilelor .aleatoare X si Y
Inegalitatea lui Cebâsev se va scrie:
expreSia: a2
P~x - mi < 8) ~ 1- -2 .
P
8
xy
= _~_Xy_ = -===M=(X=Y=)=-=-M_(X-;:=)= •.=M=(Y=) O'xay ..JM(X2)-M2(X).~M(y2)--M2(y)
Exemplu. Fie X o variabila aleatoare. Sa determinam dispersia acesteia stiind ca Proprietati P~x-ml < 8)
~12. 16
1) Coefi.cientul de corelatie este un coeficient standardizat,
cuprins Între valorile -1 si +1. Se constata~ ca~ 8 =8 . A tunCl. 1 - -2 a2 8 De unde:
15 =-16
-lsPxysl
2) Daca variabilele X si Y sunt independente, atuncj Pxy = O 3)
De aici rezulta:
Daca
Pxy
= ±l,
Între variabilele
X si Y exista
dependenta liniara. Aceasta dependenta arata astfel: 32
33
o
L
a
.!L
A (') ~ Aplicatii
y - M(Y) = -y (x - M(X)), cazul p = 1
2-,'
~
~
~
~
'/
~"CrJ, ~ ) "f
t
(', \ ~1
y-M(Y)
ax
cazul p =-1
C;
care apar. Sa se formeze tabloul dlstnbutlellUl S.
S
1
Se arunca 2 ~zaruri si se noteaza c~ S .nu~a~l.total
= -_Y (x -M(X)),
3,'
P
t P~~,h,l ~
ax
a
11 .1-',
R.
,,\:O
)(
+' \1 , Iltr!Jr~
';),
-
, ,
sau x-M(X)
=~(y-M(Y)),
cazul p =1
1
2
3
4
5
6
5
.~36 36 3 36 4 36 5 36 6 3636 7 '8
ay
x - M(X) = - a x (y - M(Y)), cazul p = -1
4
3
2
36 36 36 9 10 11 36 12J
fll,i.{
1
)
2. Se da variabila aleatoare X de distributie:
ay
Observatie. Daca
Pxy
1
= O nu rezulta ca variabilele X si Y sunt
0,7
independente sau ca exista o slaba dependenta întrey.a. X si Y.
]
Acest lucru poate sa însemne mai degraba ca dependenta nu este de tip liniar. În acest caz, se analizeaza cazurile de dependenta parabolica, logaritmica, logliniara etc. Împrastierea unei variabile aleatoare mai poate fi masurata prin
neN
coeficientul de variatie (sau de împrastier~):
v=~
-6
M(X)
-
Fiev.a.6 1 3 X
2
1
~J
X
U
Care este probabilitatea ca X sa ia o valoare mai mica sau egala cu 3?
34
G-It
R.
Sa se calcu1eze: M(X)~ M2(X), M(X2), M(X - 1), M(X2 - 2X).
1
111
P(X ~ 3) == P(X == 1)+ P(X == 2) + P(X == 3) == - + - + -
1 5
== -
+-
2 6 6 2 3 6
@ Fie v.a. X, Y 4
5
1
1
1
6
6
6
6
2
3
1 21
yD
M(X)
==
0,3+0,8+0,6+0,4 =2,1
M2(X) =4,41 3
X [16
R.
==-
M(X2) = 1· 0,3 + 4·0,4+
[10,3
X2
4
5
1
1
1
1
6
6
6
6
0,4 4
0,2 9
9·0,2 + 16·0,1
==
5,3
O,~ 16j
7. Fie
X! [1 6
Care este distributia sumei X +Y ? R. A se vedea ex. 1.
!
2
26
33
J
Calculati dispersia lui X.
R. 5. Fie X, Y 2 v.a. cu distributiile:
m = M.·(X)
o
5
-p
q2
Y [-1
3
o
1
8
1
-q -6 5
X-m
-1 6
[- 1,5
112 6 + 2 . -:6 + 3 . -3' = 2
== -
-61
-0,5 2
Care este distributia v.a X+Y si XY? 6. Fie
X
[10,3
5
-2 3
0,5J.
1
1
4
M.[(X-m) ] = 2 '6' 25·~+ 025·-+025·-6'
1
==
66'
-(2 5+1)
35 ==-
60
8. Fie X o v.a. cu media ro si dispersia a2• Sa se calculeze 0,4 2
0,2 3
4, O,~ 36
. v.a. Y v al oarea me d"IesI d'lSperSla
37
==
X- m
a
R. 1 =-fLpiX; (j"
1 Il (J :L)xi i=1 -m)pi
=-
m(Y)
-mLP;]= YX
O 4
58
--
--
Construim variabilele X si Y atasate rezultatelor obtinute la 23 26 8 "A", 58 examenul respectiv "B". 9 812
~] ;7]
[~
(J2 = M[(X - m)2] . Sa consideram v.a. (X - m)2 de distributie: X-ro 2
Atunci
Pl [(xl-mi
n
P2 (X2-m)2 TI.
(J~ = LPi(Xi i=1
_m)2 = LPiX; Î=I
[10
Pn (xn-mi] n
-2mLPixi i=1
+m2 =
mI = M(X) = 4·10+9·8+8·23+7·23 58 9. O grupa
de 58 de studenti
sustin
doua examene
la
disciplinele "A" si "B". Ne punem întrebarea daca exista vreo legatura între rezultatele obtinute la cele doua examene. Pentru aceasta, vom calcula coeficientul de corelatie. Distributia rezultatelor studentilor la cele doua examene este prezentata în tabelul urmator: X 2O13 4 O 68 7 124 48Note 2O31 yobtinute la examenul "B" 12 26 17 15 3 10 9 23 Total •••• 58 ,.Q 910 =::1 7 oo --::1 .•.. ~(l;Iia 8 10 Total
m2 = M(Y) = 10·3+9·12.+8·26+7·17 58
_457 - 58 = 7,88 465 = 58 = 8,02
82
4 58
X2
[.10'
23
23
58
58 72J
(l;I
82
y2
[1
3
26
17
58
58
58
02
72J
M(X2) = 4.102 +8.92 +23.82 58
39
+ 23.72 = 3647. = 6288 58'
M(y2)
Capitolul IV
= 3.102 + 12.92 + 26.82 + 17 .72 = 3769 = 64 99 58 58'
M(XY) = 2·100 + 2 ·90 + 1· 90 + 6 . 81 + 1·72 + 4 . 72 + 15 . 64 + 58
INDICATORI AI CARACTERISTICILOR CANTITATIVE
+ 4·56 + 10·56 + 13 . 49 = 3697 = 63 75 58 58' mi =
M2
(X) = 7,882 = 62,09
m~ =
M2
(Y) = 8,022 = 64,32
Prin indicatori vom întelege acele valori.atasate
variabilelor
cantitative, care exprima, sub forma sintetica, informatia conti-
O"~
= 62,88 - 62,09 = 0,79;
o"x
= .J0,79 = 0,89
O"~
= 64,99 - 64,32 = 0,67;
O"y
= 0,82
nuta în distributia variabilei respective. Exista trei tipuri de indicatori:
M(XY) - M(X)· M(Y) = 63,75 - 63,20 = 0,55 Atunci = M(XY) - M(X) . M(Y) = 0,55 = O75 Pxy
07'" ,.)
O"x'O"y
'
Se constata astfel ca între variabilele X si Y exista o corelatie directa destul de puternica.
indicatori de pozitie sau ai tel1dintei centrale de grupare; indicatori de dispersie sau de împrastiere; indicatori ai formei distributiei.
1. Indicatori ai tendintei centrale de grupare Din seria indicatorilor de pozitie sau a tendintei centrale de grupare, vom mentiona: 1. Media aritmetica
sau, simplu, media
Daca Xl, X2, •••. , Xn sunt cele n valori pe care le poate lua o variabila cantitativa, atunci valoarea mediei va fi:
_ X
1 =-(x1
n
Daca valorile
Xi
+x2 + .... +xn)=-
Il
n LXi i=l
sunt luate cu frecventele fi, atunci
X
40
1
1
Il
=-n 't"rx L..J i=l
41
1
1
Exemplu. Sa consideram numarul. familiilor dintr-un imobil dupa dimensiunea acestora (numarul de persoane ce alcatuiesc
il
atunci X = M(X) =
LPiXi i=l
Valoarea medie se mai numeste si speranta matematica a
familia respectiva,). Nr. persoane
1
Total
Nr. familii
10
80
variabilei X. 2. Mediana unei variabile cantitative X este acea valoare notata Me a lui X pentru care are loc egalitatea:
Se constata ca numarul total de persoane este: 1·10+2·15 +3· 25 +4· 20 +5·8 + 6· 2 = 10+30+ 75 + 80 + + 40+12 = 247
P(X < Me)
= P(X
1
>Me)
=-2
Din punct de vedere grafic, mediana este acea valoare a lui
Atunci dimensiunea medie a familiei va fi:
X pentru care ariile din histograma despartite de ordonata lui Me suntegale.
247 =3,087 persoaneI familie. 80
Desigur ca nu poate exista o astfel de familie, dar acest indicator ne arata, în cazul familiilor absolut omogene, pe unde s-ar situa dimensiunea acestora. În cazul unei variabile aleatoare discrete X 2
3
4
5
6
0,07
0,08
0,13
0,32
0,22 Me
valoarea medie este
Cazul variabilei discrete
X = 1· 0,05 + 2·0,07 + 3·0,08 + ... + 7·0,13 = 4,78 iar în forma generala il
X
[XI PI
P2
x,
Pn Xn
.J
Pi ;:::0; 42
LPi i=l
=1 43
Exemplu. Fie o variabila cantitativa continua, de exemplu dimensiunile llIlor piese, care au fost observate ca variind între 60 m.m
si 168 mm.Apestinterval
a fost împartit, din motive prac-
--. ----
tice, în intervale de6mm.~ ..~-----,-'-------~~------:, obti:nându-se discretizareavariabilei urmatoarea tabela: '
-
-:-
Intervale
Me
Cazul variabilei continue
..
."..•..
Centrul intervalelor
Frecventa
aparitie
60-66
63
3
66-72
69
7
72-78
75
11
a variabilei
78-84
81
34
X, atunci valoarea mediana este bine precizata. Daca însa acest
84-90
87
37
90-96
93
38
96-102
99
30
102-108
105
41
108-114
111
22
114-120
117
15
120-126
123
16
126-132
129
132-138
135
6 5
138-144
141
3
144-150
147
1
150-156
153
O
, 156-162
159
O
Daca valoarea mediana Me coincide cu o valoare
Xi
lucru nu se întâmpla, avem de-a face cu un interval median. În practica, se obisnuieste sa se ia drept valoare a lui Me mijlocul acestui interval. Exemplu. Variabila atasata experientei de aruncare cu zarul are distributia uniforma:
X
l l l l l lJ 666
6
6
6
[1 2 3 4 5 6 Intervalul median este [3,4] iar valoarea medianei Me va fi: M =3+4=35 e 2
165
'
1 Total 270
3. Modul sau valoarea dominanta este în acelasi timp si
\162-168
valoarea cea mai probabila pe care o poate lua variabila X. Se noteaza prin Mo sau X. 44
45 •
de
50
exista o relatie aproximativa, valabila pentru distributii cel ,mult
40
usor asimetri~e:
30
Ma
20 10
= 4Me -3x
Valorile celor trei indicatori ai tendintei centrale sunt fo-
O I IEI60-66 1190-96
11II66-72
13172-78
IEI78-84
1184-90
11III96-102 11102-10811II108-11411114-120
E!l120-126 11126-132 11II132-13811II138-14411I144.150 11II150-156II 156-162 rm 162-168
Iosite pentru construirea parametrilor care redau forma distrihutiei.
ll.
Indicatori de dispersie Indicatorii de dispersie caracterizeaza o populatie statistica
Frecventa maxima se obtine pentru x = 105, dar dj,n examinarea histogramei se constata ca aceasta frecventa maxima pare a fi accidentala în examinarea tendintei generale a fenomenului statistic si, ca atare, ar putea fi datorata faptului ca în esantionarea a 20 de observatii studiate, hazardul a grupat în intervalul 102-108 o fractiune mai importanta decât aceea care se gaseste în mod normal în populatia statistica. Trasarea curbei frecventelor implica, pe lânga continuitatea fenomenului, si o fonna potrivita, clasica, astfel încât aria totala sa fie aceeasi, prin compensare. În acest exemplu histograma indica, de fapt, ca modul valoarea 95. Curba se efectueaza printr-o ajustare analitica. Între valorile: Ma -
modul sau valoare modala
din punctul de vedere al omogenitatii (eterogenitatii), în raport cu o variabila cantitativa data. În anumite situatii, indicatorii
de dispersie
pot reflecta
gradul de inegalitate între indivizii statistici, în raport cu o anumita caracteristica. În modelele explicative, indicatorii de dispersie pot explica
gradul de nedeterminare, de variabilitate al unui fenomen. Amplitudinea Este diferenta dintre cea mai mare si cea mai mica valoare.
A = Xmax
- Xmin
Quantile Fie X o variabila aleatoare al carei argument x este definit în intervalul [a, b]. S-a vazut ca pentru determinarea medianei Me
Me - valoarea mediana
trebuie rezolvata ecuatia
x - media
1 46
F(x) = 2 47
unde F(x) = P(X < x) este functia de repartitie a variabilei X.
- QI se mai numeste cuartila mica sau inferioara;
Numim
- Q3 cuartila mare sau superioara.
quantile
de ordinul n ale variabilei
ecuatiei:
X, radacinile
Diferenta:
i
F(x)=-, n
1= Q3-QI
i= 1,2,....,n-l
se numeste abatereaintercuartlla
(sau abaterea cuartiIa).
pentru nE N dat, iar F(x) este functia de repartitie. Valoarea:
Pentru n = 2 se obtine mediana Me. Pentru n = 4 , cele 3 radacini: QJ, Q2, Q3 se vor numi cuartile Pentru n = 10 solutiile se numesc decile Pentru n = 100 solutiile se numesc centile
se va numi abaterea semiintercuartila
Daca reprezentam grafic curba de distributie, quantilele de
Adesea se foloseste o valoare relativa (standardizata)
--
Q3 -Ql
ordinul n împart suprafata marginita de curba de distributie, axa
ax si ordonatele
x = a, x = b în n parti de arii egale (sa~ împart multimea indivizilor în n parti egale).
0.2
numita abaterea intercuadila
relativa.
Sa consideram rezultatele obtinute pe un lot de 1000 persoane la un test cu valori de 11a 10.
-o
e:l :>
()
-
o
40 20 'i: 110 670 40 940 980 1000 200 250 450 90 160 2130 3120 6220 1 5830 8 7 4 0 15 9 1 .•.. 25, () o~ () > o o S co .S ~ ~d
.-< :::s
~
'"'
a
E-I
CIlI
:::s CZl
o
,o
.-a=Qo
În cazul cuartilelor mediana:
,----
QI
in =
-------
4). a dou~artila
~;3~~
este egala cu·
49
Amplitudinea: 10 - ·1= 9
pentru
i:j::.
j, în cazul caracteristicilor :fara frecventa, sau
1
Prima cuartila, care se obtine prin delimitarea primilor 250 G=
de indivizi este 4, mediana este 6 (deoarece sub 5 sunt 450 de indivizi, iar sub 6 sunt 670). A treia cuartilaeste 750-lea). Asadar,
pentru i
7 (sub 7 sunt 830 de indivizi, deci si al
:tj ,în
cazul caracteristicilorcu
Xii fifj
frecventa (în care fi este
frecventa relativa a valorii xD. Exemplu.
Ql =4
.n n L:L:IXi n(n -1) i=lj=l
Într-o sesiune, un student a obtinut la 5 examene
notele 6,7,8,9,10. Pentru a calculaindicele
Q2=Me=6
lui Gini, vom lua în
calcul diferentele în modul:
Q3=7 1 = Q3 - Ql = 7 - 4 =3 1 rei
=
Q3 - Ql _ 7 - 4 - O 5 Q2
--6--'
16 -
71, \6 - 81, 16- 91, 16-101,17 - 6\'
18-
61,
\8- 7[, 18- 91, \8 -101,
110- 61, \10- 71, 110-
81,
\10-
19-
61,
17 -'-81, 17 -
91,
17
19- 71,
81,
19 -101
19 -
-101
S = 1+ 2 + 3 + 4+ 1+ 1+ 2 + 3 + 2 + 1+ 1+ 2 + 3 + 2 + 1+ 1+ 4 +
Exemplu. În cazul venitului (pe familie sau pe cap de locuitor,
Deci: G = _1_.40 4·5
etc.) se calculeaza venitul mediu al primilor
10% (cei mai
bogati) si venitul mediu al ultimilor 10% (cei mai saraci) si se
= 40
=2
compara cele doua valori, printr-un indice standardizat.
Aceasta valoare.nespun~ diferite este de 2.
Indicele lui Gini
Abaterea medie
Corrado Gini a propus un indice ca fiind media aritmetica a diferentelor dintre toate perechile de valori luate în valoare
'
91
Utilizarea decilelor si a centilelor se practica pentru a masura inegalitatile dintre oameni.
+3+2+1
'
ca diferental11€i\die îIltre dO\la valori
Daca a este o constanta, atunci marimea AM(a) =.1- ~:IXi-al
n i=l
absoluta (fara sume): pentru o serie de valori individuale sau
50
51
pentru o
repartitie de frecvente se va numi abaterea medie de la a. Daca a = m = M(x), atunci AM(m) este abaterea medie de la media lui X, sau mai simplu, abaterea medie.
t(Xi -X)ri 0'=
i=l
pentru o repartitie de frecvente.
L)i i=l
Yule si Kendall au aratat ca cea mai mica abatere medie se obtine atunci când se ia drept constanta a valoarea medianei Me.
n
Expresia
În exemplul anterior, Me = 8 si abaterile de la mediana vor fi: 16 -
= 2 ; 17 - 81 = 1; 18 Media acestor 5 valori va fi: 81
81
= O;
19 -
81
= 1;
110 -
81
= 2;.
se mai numeste dispersie sau varianta. Daca populatia statistica este· conceputa ca o multime de
2+1+0+1+2
5
grupuri, atunci media generala a caracteristicii media mediilor fiecarui grup.
=~=12
5'
este egala cu
Media celor 5 note va fi: Varianta o'~ se va numi în acest caz varianta
(6 + 7 + 8 + 9 + 10) : 5 = 8, iar abaterea de la medie: (2 +
1+
intergrupala:
2.15 --2 0'-x) x =- "n.(Xj L.J
O + 10 + 2) : 5 = 1,2. Aceasta valoare coincide cu
n
valoarea obtinuta cu calculul medianei, deoarece în acest caz
J
j=l
unde s este numarul grupurilor, iar
mediana si valoarea medie au aceeasi valoare.
nI+n2+ ... +lls=n Abaterea patratica medie (abatere standard, abaterea tip,
a)
Abaterea patratica medie este radacina patrata din media
Se poate calcula o medie a variantelor notata
cr ,
numita varianta intragrupala
~ (_)2 .1Xi n1 L.J i=l
data de formula:
1 n 2 C'i = - "n.O'. L.J J J
-2
aritmetica a patratelor abaterilor valorilor observate în raport cu media lor aritmetica: 0'=
din cadrul grupului,
n j=l
Se demonstreaza ca: x
pentru o sene. d e v al on..m d'IVI'dual esI .
C'i
2
= -2 a + C'i-2x
adica "varianta totala" se descompune în suma dintre varianta intragrupala si cea intergrupala. 52
53
Coeficient de variatie (al lui Pearson) Raportul dintre abaterea standard si media variabilei X se va
2. Indicatori de boltire Acest indicator are expresia:
1
numi coeficient de variatie:
B v x--=_O"x
=--4 nO"
n
-
~:CXi i=l
_x)4_3
si este pozitiv în cazul boltirilor pronuntate:
X
ID. Indicatori ai form~i distributiei Forma distributiei unei caracteristici cantitative este masurata de doi indicatori: 1. Oblicitatea = x-M
o ==
3(x-Me)
(J
O"
si negativ în cazul boltirilor aplatizate:
(Formula lui Pearson) Daca aceasta expresie are semn pozitiv, curbele sunt alungite catre dreapta:
Calculul
acestor
indicatori
se poate
executa
cu
calculatorului electronic pe baza programului "SPSS". iar când expresia este negativa, alungirea este spre stânga:
54
55
ajutorul
caracteristici (care poate fi înaltimea) si are locul Întâi în ordinea
Capitolul V
crescatoare a celei de a doua caracteristici (de ex. greutatea).
.
Daca am fi avut ordinea (2):
CORELATIA RANGURILOR
VI
(2) Sa presupunem ca avem o serie de n unitati statistice: VI, V2, .... , Vn
V3
10 10
V4 6 6
lIs V6 2 2
5 5
V7 7 7
Vg
V9
VIO
8 8
4 4
9 9
înseamna ca am fi avut cea mai strânsa legatura între cele doua
fiecare dintre acestea având doua caracteristici
caracteristici. În acest caz, fiecare persoana Vi ocupa acelasi loc în ordinea ierarhica a celor doua caracteristici.
(Xl, YI), (X2, Y2), ... , (xn, Yn)
De exemplu, aceste n unitati statistice pot reprezenta n persoane,
Daca, dimpotriva, am fi avutOJ:dinea (3)
iar caracteristicile pot fi înaltimea si greutatea celor n persoane. Problema care se pune este daca exista o corelatie între aceste doua caracteristici. Sa admitem ca s-a facut urmatoarea înregistrare a datelor pe un lot de 10 persoane si ca aceasta înregistrare s·a facut dupa doua caracteristici:
(1)
3 3
V2 1 1
VI
U2
V3
V4
Us
U6
V7
3 1
1 2
10 9
6 7
2 4
5 3
7 6.,
V9 8 4 10 5
Vg
VIO
9 8
Astfel, în înregistrarea (1) am asezat în prima linie cele 10 persoane. În linia a doua am înregistrat locul pe care îl ocupa fiecare
UI
(3)
3 8
V2 V3 1 10 10 1
U4
Us
U6
6 5
2 9
5 6
atunci am fi avut discordanta
V7 7 4
maxima
Vg
V9
UlO
8
4 7
9 2
3
între aceste doua
caracteristici. Daca consideram clasificarea (1), diferentele dintre linia II si linia III sunt:
di:2, -1, 1, -1,
--2,
2, 1, -2,
Se observa ca : dl +d2 + ... + dJ()==
--1, 1
O.
De altfel, în general n
L:dj =0 i=1
persoana în raport cu prima caracteristica, iar pe linia a treia,
Cu cât diferentele di sunt mai mari în valoare absoluta, cu atât
aceeasi ordine referitoare la a doua caracteristica. De exemplu,
avem o discordanta mai mare între caracteristici.
persoana V I este al treilea în ordinea crescatoare 56
a primei
Astfel, este propus urmatorul coeficient: 57
n
crescatoare de la 1 la 10, iar persoanele Ui (i =1, ... 10) au
Ld; p = 1- 6
i=!
n(x2
aceleasi caracteristici în ambele clasificari.
(n> 1)
-1)
Sa constatam ca prima persoana din înregistrarea (4) ocupa
numit coeficient de corelatie a rangurilor al lui Spcarman. cazul exemplului de mai sus,
În
locul 1 în ce priveste prima caracteristica si locul 2în ce priveste a doua caracteristica. Exista deci 9 persoane care depasesc pe U2
10
Ld; i=l
si numai
în ce priveste prima caracteristica
= 22.
8 care îl depasesc pe
U2 în raport cu a doua caracteristica.
Prin urmare:
Practic, obtinem urmatorii indicatori
P
= 1-
6 . 22
103 -10
5,3, 3,0, 1
8, 6, 7, 5,
= O 867
'
astfel: locul 2 de pe linia a 3-a din tabloul (4) este depasit de 8
Se stie ca pE [-1,1], ceea ce înseamna ca acest coefi'cient ia valori cuprinse între -1 si 1. Când P = 1 avem concordanta
pozitii. Locul 4 de 6 pozitii, locul 1de 7 pozitii s.a.m.d. Vom nota cu P suma numerelor mai mari (care depasesc o anumita
maxima
pozitie) si prin Q suma numerelor mai mici (care sunt depasite
Între cele doua variabile,
iar când
p = -1
avem
discordanta maxima între cele doua variabile. Valoarea p = 0,867 , fiind destul de apropriata de 1, arata ca Între cele doua caracteristici exista o corelatie destul de strânsa.
de acea pozitie). Astfel: P
= 8 + 6 + 7 + 5 + 5 + 3 +3 + 0+ 1 = 38
8=1+2+0+1+0+1+0+2+0=7
Kendall
Coeficientul de corelatie a rangurilor al lui Kendall
a propus
urmatorul
indicator
pentru
concordanta
rangurilor:
Sa reIuam exemplul anterior si sa luam în consideratie urmatoarea clasificare:
2(P -Q) r=---
n(n..,.l)
(4)
U6
U7
U8
U9
UlO
4
Us 5
6
7
8
9
10
5
3
7
6
10
8
9
U1
U2
U3
U4
1
2
3
2
4
1
Tabloul (4) contine aceleasi elemente ca si clasificarea (1), cu diferenta ca în linia a doua rangurile au fost scrise în ordine 58
Când r =. 1.obtinem concordanta maxima, iar când r = -1· se obtine discordanta maxima. ~.Jlre între cele doua caracteristici. Încazulexenlpluluinostru 59
loc independenta
Capitolul VI
r = 2(38 -7) = O69
10-9
'
ANALIZA DE REGRESIE
ceea ce indica o concordanta pozitiva. P se mai numeste indicator al concordantei pozitive, deoarece el creste o data cu cresterea lui r, în timp ce Q se va numi indicator al concordantei negative, întrucât r descreste când el creste. Acest coeficient al lui Kendall se aplica numai pentru serii mari. Pentru serii mici, dispersia acestui coeficient are valori man.
În statistica sociala întâlnim adesea repartitii în care fiecarei unitati a populatiei îi corespund simultan doua sau mai multe caracteristici. Astfel de.repartitii se mai numesc bidimensionale. Ele ne pot sugera existenta U110rrelatii între
caracteristicile
respective. Prezenta sau absenta unor astfel de relatii, ca si amploarea acestora, formeaza obiectul analizei seriilor interdependente. Ea presupune analiza simultana ahd6ua variabile si foloseste doua tipuri de metode statistice: regresia si corelatia. De regula, una dintre aceste doua variabile este considerata ca variabila independenta sau explicativa, în timp ce a doua este o variabila dependenta. Acest lucru are .loc.daca a doua variabila prezinta modificari la variatiile primei variabile. Analiza·acestei dependente se. face prin metoda regresiei. Termenul de regresie a fost dat de statistici anul englez Francis GaIton (1822-1911) si el stabileste legatura care exista între cele doua variabile X si Y. Cazul cel mai simplu de regresie este cel liniar. Asta înseamna ca punctele Ai(xi,yi) se distribuie în jurul unei drepte: (1)
y= a+bx
60
61
Reprezentate în plan într-un sistem de axe coordonate, o astfel de legatura de tip liniar poate avea una din urmatoarele forme:
x
x
x x x x
xx x x xx
x x
x x x
x
x
x x
x x x x x x x x
a>O
a
b>O
b>O
x x x x xx
x x
x
4)
3)
a
Determinarea
x
x
parametrilor
a si .b .din ecuatia dreptei de
regresie se face cu ajutorul metodei celor. mai mici patrate,
o
care spune ca "suma patratelor empirice Y i si valorile teoretice a
O
a
Yi
diferentelor
date de ecuatia de regresie, sa
fie minima. Grafic, patratul diferentelor
b
dintre valorile
dintre
Yi
si
Yi.
exprima prin aria unor patrate ale caror laturi sunt egale cu
b
se
Yi-
Suma ariilor. acestor patrate va fi cuamt mai mica cu cât valorile empirice ale lui Y se vor apropria mai mult de valorile
Yi .
Acestor tipuri de legaturi liniare le corespund diagramele de împrastiere a valorilor celor doua variabile:
teoretice corespunzatoare n
S=
I(Yi -Yi)2 =
(2)
minim
i=1
x
x x x x x
x
x x x x x x x
x x
x x
x x x x
x x
x x x x
x x
x
xx
x
x x
x x
x x x
si tinând cont de formula (1), se obtine conditia: n
L(Yi -a-bxi)2 i=l
Utilizând
(3)
= minim
metode
ale .analizei
matematice,
am.darol
derivatelor partiale în (3), se obtine sistemul în necunoso\ltel~u' 1)
2) 62
si b:
63
n
n
na+bLxi i~1 n
aLxi i=1
= LYi i~1 n
+bLx; i=1
PO"I
(4)
O"2
==
P0"2
0'1
n
sau 0"1==0"2
= LXiYi i~1
Prin urmare, cele doua drepte de regresie coincid daca dispersiile 0'1 si
a carui rezolvare conduce la solutiile:
O' 2
sunt egale.
Sa luam drept exemplu dol1a variabile.X si Y, pentru care au m20"1-m1P0"2 a =------
SI. b
pa2 =-_
O"I
Se obtine astfel dreapta de regresie y-m2
=:-P0"2 -.-(x-mI
-.
1
!~-
7 14 11 2698 543 15 10 1:
)
I
(6) Ecuatia de regresie are forma: unde mI, mz sunt M(X), M(Y) - adica mediile variabilelor X si 0"1
Y, 0"1' 0"2- dispersiile lor, iar P - coeficientul de corelatie. În mod analog, daca ne propunem sa determinam parametrii arbitrari a si b astfel încât n
M(x-a-by)2
=: L(xj i~1
-a-byJ2
=minim
vom putea obtine o alta dreapta de regresie: y-m2
PO"l
=-(x-ml)
(7)
0"2
Cele doua drepte de regresie date de relatiile (6) si (7) se intersecteaza în punctul de coordonate G(mI, mz) care se va numi centrul de greutate al distributiei. În general, aceste drepte de regresie sunt diferite, afara de cazul . când 64
fost înregistrate 15 observatii conform cu tabelul de mai jos: Tabelul]
(5)
0"1
107 1 4 1 141089 -9 -9 11 12 3933 2639 33 3326 3 196 -5 -3 24 16 1 8 1 3 O 19 O 858 9 196 16 168 126 561 1417 944 238 9 17 627 165 X~ Vi XiYi Xi
13
Y==a+bX 65
Capitolul VII
unde
ANALIZA DE DEPENDENTA •
SI
b= LXiLYi -n:L:XiYi
(LxJ2 -nIx~
Conceptul de analiza de dependenta sau cum era cunoscut
Confonn datelor din tabelul 1, obtinem: a = -0,45; b = 0,69, deci
anterior, pathanalysis sau cauza!. an~lysis se refera la determinarea relatiilorîntre un ansamblu de variabile în contextul unei structuri cauzale, adica o structura a unui grup de variabile între
Y = -0,45 + 0,69X cu reprezentarea grafica:
care se 'constata sau se presllpun anumite relatii de interdependenta. Prin variabila vom întelege orice criteriu de•clasificare, fie ca este vorba de o însusire dihotomica(sexul), de ordine (nivelul
Y
x
de scolarizare) sau cantitativa (yenitul). Principalele modele propuse de Simon, Blalock si R. Boudon se bazeaza pe observatia coeficientului de corelatie liniara între variabile si nu se departeaza de tehnicile clasice ale analizei de regresie. Vom nota prin X un ansamblu de variabile X=(Xl,X2,
.... )
Un model de structura cauzala va fi o structura cauzala în care ipotezele sunt facute pe baza notarii relatiilor între variabile.
66
67
Modelul recursiv Acest model a fost studiat si dezvoltat de M. Simon, H. Blalock si R. Boudon, De el s-au mai ocupat Duncan si Alker.
Faptul ca variabila Xl este determinata de variabila XI, îl vom scrie analitic astfel: (1) X2= al2XI+e2 adica X2 este functie liniara de o singura variabila .xl; ez -
Ipotezele modelului recursiv
masoara reziduul,adica
Ipoteza 1. Relatiile dintre variabile sunt liniare. Asta înseamna ca orice variabila a grafului este exprimata ca functie liniara de una sau mai multe variabile care o preced în graf.
cantitatea explicata de X2; M. Simon îl numeste termen de eroare, iar R. Roudon îl numeste factor care actioneaza implicit asupra lui x2.Graful asociat relatiei (1) este în acest caz:
.'\.. /!
Xl
În acest caz, graful constituie reprezentarea· grafica a relatiilor analitice si defineste structura cauzala. De exemplu, sa presupunem ca avem un model sub forma de graf orientat cu patru variabile Xl, X2,X3,X4,în care sagetile arata influentele exercitate de unele variabile asupra altora. În fig. alaturata avem un astfel de model:
abaterea dintre valoarea variabilei Xl si
e2
X2
Fig. 2 Daca se aplica acestui model metoda celor mai mici patrate a lui Gauss, atunci coeficientul al2 poate fi privit drept coeficientul de regresie al lui X2în raport cu Xl-
A
doua ecuatie din modelul analitic asociat grafului din fig.
1,va fi: (2)
X3=a23XZ+ e3, daca variabila X3este functie liniara numai de Xl· În tine, X4este functie de X2sLde X3,deci:
(3)
X4= a24X2+ a34X3+ e4 X4
Fig.
Nu exista termen în Xl pentru ca riu exista sageata între Xl si X4·
1 68
69
Sa mai observam ca în modelul din fig. 1, XI este o variabila primara, ea nefiind influentata de o alta variabila din sistem, în timp ce variabilele X2,X3si X4sunt variabile dependente. Ipoteza 2. Nu exista efect de interactiune.
Acest lucru
înseamna. ca .relatia dintre doua variabile nu este functie de o a treia. Un exemplu sugestiv este dat de Boudon si Lazarsfeld, care studiaza influenta vârstei si a nivelului educatiei scolare asupra receptarii radiofonice a muzicii clasice.
X4
Fig. 3
Luata separat, fiecare variabila nu prezinta nici o relatie particulara cu ascultarea muzicii clasice. Pe de alta parte, daca
iar sistemul asociat grafului din fig.
s-ar studia subpopulatia adulta, s-ar constata ca exista o relatie
X2= aI2XI+ e2
între receptarea muzicii clasice si nivelul de educatie. Cei cu un nivel de instmire mai ridicat recepteaza mai mult emisiunile de
X3= aI3XI+ a23x2+ e3
muzica clasica decât alte tipuri de emisiuni.
Constructia
unui model de structura
privind prezenta saualisenta
relatiilor între variabile, vom putea construi un graf derivat din
Asta înseamna ca în graf nu exista sageti între ei pe de o parte, iar pe de alta parte nu exista sageti nici între ei si Xjpentru i
X4= aI4XI+ a24X2+ a34X3+ e4 Facând ipoteze simplificatoare
Aceasta a doua ipoteza este cumva cuprinsa în prima. Ipoteza 3. Reziduurile ei nu sunt corelate între ele.
-::f=
primul, obtinut deci prin suprimarea anumitor sageti.
j.
cauzala
Sa consideram grupul de 4 variabile ordonate: XI, X2, X3, X4 si sa construim un graf complet, adica orice cuplu de variabile este legat printr-o sageata: 70
3 va ti:
X4
Fig. 4 71
S12
Atasam grafului derivat din fig. 4 sistemul de ecuatii corespunzator:
= a12Xl + e2 X3 = a23X2 + e3 X2
(*)
X4
bJ3,2= r13,2.-'
S3,2
care leaga coeficientul de regresie partiala de cel de corelatie partiala. De aici rezulta rl3,2= O.
= a24X2 + a34X3 + e4
În continuare, se poate proceda în doua moduri:
Dupa cum se poate constata, absenta unei sageti în graful orientat este echivalenta cu anularea coeficientului de regresie aij corespunzator. Analiza si testarea modelelor matematice ale structurilor cauzale se poate face în multe feluri. O cale este aceea prin care verificam daca··90eficientiiaij
corespunzatori sagetilor absente
sunt nuli, metoda utilizata de H. Blalock. Altfel, putem rezolva
1.
Se calcllleaza acest coeficient pe baza datelor empirice, pentru a se vedea daca el este apropiat de zero (în practica este putin probabil ca el sa fie egal exact cu
zero!) 2. Sa se deduca o relatie , între coeficientii, de corelatie. , Astfel, r13,2= O antreneaza IJ3 = ru . r23, deci produsul Iu . r23 calculat da o valoare teoretica a lui r13,pe care
sistemul (*), pentru a-l urma pe R. Bou~on.
o notam ~3; aceasta valoare poate fi comparata cu Modelul lui Blalock
valoarea obtinuta empiric a lui rl3, calculata direct pe
Dupa construirea structurii cauzale si a sistemului de ecuatii asociat, Blalock ia în consideratie numai coeficientii aij care sunt nuli, ca urmare a ipotezelor initiale. Acesti coeficienti sunt coeficientii de regresie partiala din ecuatia analizei de regresie care este avuta în consideratie.
baza datelor. În cazul modelului lui Blalock, în situatia când anumite legaturi cauzale sunt presupuse nule, problema care se pune este de a sti ce se întâmpla daca una dintre ele este gresit pusa. Astfel, daca ipoteza care conduce la o anumita ecuatie, de
Astfel, în schema din fig. 4, care are asociat sistemul (*), avem:
ex. 1'13,2 = O, este gresita, a; trebui sa. ne asteptam. ca ansamblul t)
valorilor teoretice care au intrat în aCel;istarelatie sa se îndepar-
al3 = bl32
teze sensibil de valorile empirice corespunzatoare. care este coeficientul de regresie partiala între al3 = Oeste echivalent cu b13,2 = O. Pe de alta parte 72
Xl
si
X3;
deci
Daca însa ipote:.la pusa legata de o veriga intermediara este falsa, numai acest din urma coeficient va prezeuta 73
O
variatie
sensibila în raport cu valoarea empirica corespunzatoare, rara ca ecuatiile si deci legaturile anterioare sa fie afectate.
Totodata este lasata ,la latitudinea si competenta cercetatorului decizia de a se introduce o noua legatura cauzala în
În ambele cazuri, eroarea este de aceeasi natura. Daca o relatie este falsa, adaugarea sagetilor corespunzatoare poate sa
modelul explicativ .propus .si în ce masura aceasta decizie are rolul de a îmbunatati modelul propus.
îmbunatateasca modelul propus. În situatia în care o greseala se repercuteaza
asupra mai
multor relatii, vom avea tendinta sa respingem modelul. Daca eroarea ramâne localizata asupra unei singure relatii, modelul poate fi recuperat, ameliorare.
indicându-se
astfel
si modalitatile
de
Din punct de vedere metodologic, un alt punct controversat al acestui model consta în aceea ca nu este propus nici un test care sa indice gradul de apropiere a valorilor teoretice de cele empirice. În acest sens, cercetatorul are mai multa libertate de decizie, de validare sau invalidare
a modelului
propus, de
îmbunatatire a acestuia atunci când rezultatele obtinute nu au fost satisfacatoare. Constructia apriorica a structurilor cauzale recursive deduse din ipoteze sau rezultate din teorie ar trebui sa 'fie urmata de o analiza profunda a validitatii prezentei sau absentei fiecareia dintre relatiile date. Aceasta analiza ar consta dintr-un sir de analize de regresie, aplicabile primelor variabile ale modelului, l apoi variabilelor intermediare introduse pe parcursul analizei. Metodologia aceasta ofera posibilitatea
si chiar oportunitatea
revenirii periodice asupra ipotezelor modelului ameliorare a acestora. 74
si eventuala 75
Capitolul VID
controlate, .•cu rezultatele care s-ar fi obtinut daca. ar fi fost anchetata întreaga populatie adulta; Acest lucru este cu adevarat remarcabil.
SONDAJUL STATISTIC SI ESANTIONUL STATISTIC
Desi cu vechi traditii, sondajul statistica
capatat notorietate
stiintifica în prima jumatate a secolului 20. El a fost aplicat cu mult.succes în perioada interbelica prin anchetele si rezultatele Ce este sondajul statistic?
obtinute de George Gallup în SUA .si mai apoi în Franta si
Procedeul statistic prin care reusim sa prelevam o parte din
Anglia anilor premergatori celui de-al doilea razboi mondia1.
populatia intrata în studiu, denumit univers de esantionare, se va numi sondaj statistic sau selectie. Rezultatul acestei operatiuni se va numi esantion. Asadar,
esantionul
este
subcolectivitatea
extrasa
În aceeasi perioada s-au realizat progrese notabile în teoria si practica sondajelor statistice,prin
contributiile aduse de lucrarile
lui J.Neyman privind esantionareasimplu
aleatoare, stratificata,
din
multistadiala, construirea optimala a unui esantion stratificat etc.
populatia totala, pe care dorim sa o studiem. Neavând intentia (si adesea nici posibilitatea) de a studia fiecare unitate statistica
Odata puse bazele teoriei sondajelor, cercetarile s-au îndreptat în directia· problemelor practice pe .care. le ridica utilizarea
a întregii populatii, scopul nostru este sa alegem esantionul de
sondajelor: metode de esantionare, de estimare, de alcatuire a
asa maniera, încât studiindu-l, rezultatele obtinute sa poata fi
chestionarelor de opinie, <:leinstruire a operatorilor de teren,
extinse asupra întregii populatii din universul de esantionare.
codificarea si prelucrarea datelor recoitate, interpretarearezul.,
În preajma alegerilor electorale locale sau generale, candidatii si formatiunile politice interesate doresc sa afle cum
tatelor obtinute. Toate acestea au fost posibile ca urmare a dezvoltarii si utili-
se pozitioneaza ierarhic în preferintele electoratului. În cazul
zarii metodelor statistice, cu precadere a statisticii inferentiale.
alegerilor generale, universul de esantionare înseamna populatia adulta a tarii, adica de peste 18 ani împliniti. Asta înseamna
Contributii esentiale în acest domeniu si-au adus K. Pearson,
aproximativ 16 milioane de alegatori. Statistica reuseste ca, prin
J. Neyman,·A.N. Kolmogorov, R. Fisher,Feller, Gnedenko etc. În. anii din· urma, desi practica sondaj elor .statistice a luat o
respectarea riguroasa a anumitor reguli, sa extraga un esantion
amploare. f"ara.precedent, utilizarea metodelor statistice a fost
de 1200-1800 de subiecti, iar rezultatele obtinute din anchetarea
practicata cu stângacie sau în mod neadecvat. Acest lucru
acestor subiecti sa coincida, în limita unei erori minimale, 76
poate adesea întâlnisi
se
în sondajele .de opinie care. au caracter 77
preelectoral si care confruntate la scurt timp cu realitatea - pe care a constituit-o alegerile locale sau generale, pune în evidenta uneori mari abateri de la realitate. Aceste situ.atii neplacute pot fi evitate prin cercetari minutioase, prin amplasarea judicioasa în teren a retelei anchetato-
Esantionul .care urmeaza a fi extras trebuie sa îndeplineasca o conditie de baza, potrivit .careia concluziile
obtinute din
studiul esantionului sa se poata extinde asupra întregii populatii. Acest proces se va numi inferenta statistica. Capacitatea unui esantion de a reproduce
cât mai fidel
rilor de opinie, prin instruirea adecvata a acestora, prin utilizarea
structurile si caracteristicile populatiei din care a fost extras va fi
unor tehnici adecvate de corectie, a estimarii si minimizarii erorilor.
numita reprezentativitatea esantionului.
De ce folosim sondajele de opinie?
Gradul de reprezentativitate al·unui esantion este·masurat de doua marimi:
Având în vedere ca un sondaj corect realizat reproduce
eroarea maxima, notata prin d, si care exprima diferenta *
structura populatiei investigate pe principalele ei caracteristici,
cea mai mare pe care o acceptam între o valoare v , data
de aici vor rezulta avantajele utilizarii sondajelor de opinie. Sondajele se utilizeaza atunci când cercetarea statistica exhaus-
de esantion, si valoarea teoretica v (data de populatia
tiva (cazul recensamântului populatiei) implica cheltuieli foarte
Asadar, d = max\v' - vi
mari si consum urias de eforturi umane $i de timp. De asemenea,
marimea P - numita nivel de încredere, care arata ce
trebuie avut în vedere ca sunt situatii când un sondaj statistic bine efectuat da rezultate mai bune decât investigarea .întregii populatii din universul de esantionare, si aceasta deoarece: programul de cercetare prin sondaj cuprinde, de regula, mai multe caracteristici decât o cercetare exhaustiva a populatiei; anchetatorii de teren utilizati într-un sondaj de opinie
totala).
sanse sunt ca eroarea comisa sa nu depaseasca eroarea maximad. În acest fel, se construieste un interval (v' - d, v' +d) numit
interval de încredere --1 * v
*
J
v +d
sunt superior instruiti fata de situatia unui recensamânt, când acestia sunt improvizati si cu un instructaj sumar. Dupa cum am vazut, recensamântul este studiul exhaustiv al întregii populatii din universul de esantionare. 78
Daca pentru o anumita caracteristica, valoarea teoretica v se gaseste în interiorul acestui interval v E (v' ~ d, v' + d), atunci, 79
marimea esantionului;
pentru aceasta caracteristica a populatiei, eroarea maxima admisa nu este atinsa, iar esantionul este valid din acest punct de vedere. Asadar, reprezentativitatea
unui esantion este caracterizata
de cuplul (d, P).
procedura .de esantionare folosita.
Pentru caracterizarea nivelului de omogenitate al populatiei se utilizeaza abaterea standard, care masoara nivelul de dispersie al indivizilor în jurul mediei.
Cu toate acestea, nu putem vorbi de reprezentativitatea întregului esantion, ci de o reprezentativitate pe fiecare caracteristica în parte. Reprezentativitatea
_
este o notiune relativa, în sensul ca un
esantion este mai reprezentativ sau mai putin reprezentativ decât altul.
Sa mai retinem ca reprezentativitatea
creste o data cu cres-
terea volumului esantionului, pe anumite portiuni. Acest lucru este pus în evidenta de urmatorul· grafic: Reprezentativitate •• 100%
\
,
~
.
Compararea se face în felul urmator: daca la un nivel de probabilitate dat, pentru o aceeasi caracteristica, eroarea d este mai mica în primul esantion, atunci acest esantion este mai reprezentativ. De asemenea, daca la o aceeasi eroare nivelul de încredere P este mai ridicat, din nou putem spune ca acest esantion este mai reprezentativ.
••••
O
Marimea esantionului
Relatia dintre volumul esantionului si reprezentativitatea sa
Pentru nivelul de încredere P se accepta valoarea minima: 0,95 (ceea ce înseamna ca posibilitatea de a gresi nu este mai mare de 0,05 sau 5%) Pentru d se accepta o valoare mai mica decât 3% în sondajele de opinie.
Se constata ca peste o· anumita limita cresterea în volum a esantionului nu mai este justificata de ameliorarea reprezentativitatii. Marimea populatiei nu intervine în marimea si reprezenta-
Marimi le d si P nu sunt independente.
tivitatea esaritionului.
al unui esantion depinde de:
Gradul de reprezentativitate
caracteristicile populatiei; 80
J 81
Proceduri de esantionare
cantitative (numarul de .membri ai unei. familii,··cifra de
Dupa modul cum sunt concepute, esantioanele sunt de doua feluri: aleatoare (sau pro babilistice); nealeatoare. Esantioanele nealeatoare pot fi dirijate si mixte.
afaceri,dimensiunea
localitatii etc.).
Dupa delimitarea celors straturi:. NI, N2, ..... , Ns se ·extrag în mod simplu aleator S ""-subesantioanede
marimi: nl, n2, ... , ns·
Aceste volume se extrag tiecaredinstratul
corespunzator si sunt
proportionale cu marimea stratului:
O procedura de esantionare se va numi aleatoare atunci
111
NI
când fiecare individ din populatie are o sansa reala, calculabila si nenula de a fi ales în esantion.
=
n2
=
N2
= ns ••••
Ns
Se poate arata ca dintre doua esantioane de volum egal, cel
Orice alta procedura este neprobabilista. Pentru a fi siguri ca fiecare individ al populatiei are sanse de a fi' ales în esantion,
realizat prin stratificareare·o
reprezentativitate mai mare decât
cel obtinut prin tehnica si111plaa.leatoare.
este necesara o foarte buna cunoastere a structurii populatiei (a
3. Esantionarea multistadiala (sau grupala)
universului de esantionare). Asta înseamna existenta unor liste
Aceasta presupune o grupare a populatiei pe ariigeografice,
ale populatiei, adica a unui cadru de esantionare,
care sa
permita accesul la fiecare individ al populatiei. Esantionarea simplu aleatoare are la baza principiul loteriei sau al tragerii la sorti. Esantionarea
prin
stratificare
populatii neomogene, omogene sau straturi.
alcatuite
Un esantion muItistadial
este mai putin reprezentativ, la
volume egale, decât unul simplu aleator, dar comporta> un cost
Practic, se vor folosi tabelele de numere aleatoare. 2.
În cadrul acestor arii se selecteaia un numar
de localitati, în cadrul acestora se selecteaza un numar de strazi etc.
Tipuri de esantionari 1.
culturaltfsaujudete.
se din
efectueaza
mai scaZut. în
subpopulatii
Criteriile de determinare a structurilor sunt: calitative (geografic: judete, zone, localitati; salariat /
4. Esantionaream1l1tifazica
în alegerea .unui
esantion mare, la nivelul caruia se aplica un instrument· d.c cercetare mai simplu; acest esantion· se supune· Unor operatii succesive deesl:ll1tion.areobtiM11.du-se straturi din ceîltce mici, carora li Se aplica metodemaielaborate.
nesalariat; mediu de provenienta); 82
consta
83
mai
5. Esantionareape Aceasta
cote (nealeatoare)
presupune
caracteristici
gruparea
populatiei
dupa
câteva
si apoi se determina marimea subesantioanelor.
populatiei pentru viata social-politica, pentru anumite decizii de interes local sau national. Putem deduce de aici ca politica unui guvern, a unei
Structura generala a populatiei se grupeaza de regula dupa
formatiuni politice, a unei întreprinderi,.a conducerilorsindicale,
caracteristicile de baza (sex, grupe de vârsta, categorii socio-
se regleaza permanent prin intermediul sondajelor care txprima
profesionale), zone urbane (rurale,judete etc.)
de fapt interesul unei colectivitati. Sa retinem ca în cercetarile
În sondajul pe cote, care se aseamana cu cel stratificat, fiecarui operator îi este repartizat un numar de subiecti, alesi dupa câteva criterii (câte persoane de sex masculin si câte de sex feminin trebuie luate, câte din fiecare grupa de vârsta etc.). la latitudinea operatorului de teren.
urmareste
schimbarile
repetate
cu acelasi
chestionar.
El
nea localitatilor
etc.), iar în cadrul straturilor
alegerea
se
american, subliniaza avantajul, din punct de vedere practic, al acestei metode.
Tipuri de erori în sondajele statistice Pe parcursulelaborarii si aplicarii sondajului statistic se pot introduce o serie de erori, unele semnificative, altele mai putin ..
Concluzii
dezavantaje,
Sondajul mixt .face un compromis, .efectuându-se o cotare
care se petrec în cadrul populatiei.
Prezinta dezavantajul uzurii morale a esantionului.
Metoda
urmatoarele tipuri de sondaje: pe cote, ~leator si mixt.
efectueaza aleator. ÎnSasi Hubert Blalock, celebrul metodolog
fIxe (panel). Acestea, odata fixate, sunt
supuse unor investigatii
predomina
sumara (pe 2-3 caracteristici, deex: zone traditionale,dimensiu~
Modul cum este ales fiecare subiect în parte este lasat adesea 6.. Esantioane
sociologice
sondajului
de opinie
prezinta
dintre care cel mai important
si o serie
de
este acela ca
sondajele, de cele mai multe ori, nu surprind schimbarile care se petrec în evolutia unui fenomen social. Sondajele reflecta, de regula, o situatie de moment, ele fiind de fapt o radiografiere a fenomenului studiat la un moment dat. În anii din urma, sondajele de opinie au devenit o practica frecventa în viata social-politica a tarii. Ele masoara interesul 84
E bine, Însa, de stiut, ca anumite tipuri de erori pot produce abateri importante ale rezultatului de la realitate. Erorile se sondaj sunt de douafeluri: erori de înregistrare; erori de reprezentativitate. Erorile de înregistrare se .pottihe
usor sub ·.controI.atunci
când pentru realizarea anchetei de teren se apeleaza la personal calificat si experimentat. 85
Erorile de reprezentativitate pot fi si ele de doua feluri:
Capitolul IX
erori sistematice;
CHESTIONARUL
erori.întâmplatoare. Erorile sistematice apar atunci când nu se respecta principiile. de baza ale teoriei esantionarii.
DE OPINIE.
ELEMENTE pRIVIND PROIECTAREA CHESTIONAR ULm
Sa dam câteva exemple în care apar erori sistematice de reprezentativitate:
afectarea caracterului aleator al sondajului
prin selectarea la întâmplare
a elementelor statistice, rara a
Chestionarul constituie principalul instrument de culegere a
respecta o metodologie anume; intelectualizarea sondajului, care are loc atunci când chestionarul de opinie cuprinde întrebari
datelor prin metoda sondajului statistic de opinie. EL nu constituie o simpla însirulrede întrebari, rara legatura între ele si
dificile, sofisticat formulate (care induc asa-numita "spirala a
mai ales rara o anumita logica. Constructia unui chestionat de
tacerii"), când din comoditate, unii operatori de ancheta aleg cu precadere subiecti mai scoliti si deci mai comozi În desfasurarea
opinie a fost îmbunatatita permanent, datorita experientei practice acumulate, dar. sistematizarea acestuia s"a produs o data cu
anchetei, si aceasta în detrimentul celorlalte categorii; în acest
axiom.atizarea chestionarului de catre Claude Picard si apoi pe
fel sunt afectate proportiile straturilor, si deci reprezentativitatea esantionului.
baza analizei informationale fundamentata de scoala româneasca
Lipsa constiinciozitatii
operatorilor
cantitate a non-raspunsurilor
de teren si o mare
constituie cauzele principale ale
erorilor sistematice de reprezentativitate. Erorile întâmplatoare
sau aleatoare
de statistica dupa ideile acad. Octav Onicescu. Câteva lucruri se impun a fi mentionate. Se spune adesea ca "un sondaj nu poate fi mai bun· decât chestionarul sau", adica decât modul cum sunt formulate între-
de selectie apar în
barile, decât ordinea si complexitatea lor.
procesul derularii sondajului chiar si atunci când sunt respectate
Se stie ca la întrebarile cu mai multe întelesuri se vor· primi
regulile metodologice. Acest tip de eroare provine din structura
raspunsuri echivoce, neconcludente. De asemenea, un chestionar
metodei de esantionare. Aceste tipuri de erori sunt cunoscute,
cu multe întrebari, si acestea cu formulari gre6aie,produce
calculate anterior si se pot tine sub control.
confort atât operatomlui, cate adesea îl va trata superficial, dar si
86
dis-
respondentului, care se va plictisi, va da semne de nervozitate, nu va mai fi atent la întrebari. 87
În acest caz, el va raspunde monosilabic sau deloc, ducând la cresterea numarului .de non-raspunsuri. Proiectarea unui chestionar de opinie trebuie sa înceapa cu specificarea problemei de cercetat. Problemele sociale au în general un grad mare de complexitate care impune descompunerea lor pe mai multe dimensiuni. Aceste dimensiuni trebuie
întrebarile trebuie puse cu tact si un anume menajament fata de subiect pentru a nu-i provoca reactii nedorite. Tipuri de întrebari a) DupacontinutullDr,
întrebarile sunt: factuale, de opinie,
transformate în indicatori, adica în modalitati de stabilire a
de cunoastere. Îutrebarile factuale privesc aspecte de comportament
prezentei sau absentei unei caracteristici, a intensitatii acesteia.
indivizilor anchetati sau ale altora care· vin în .contact cu ele.
Fiecare întrebare din chestionar va reprezenta un indicator. Selectarea
întrebarilor
care urmeaza
sa fie incluse
ale
Aceste informatii sunt, teoretic, verificabile (ce reviste, ziare în
chestionar presupune existenta unor ipoteze sau chiar a unei teorii privind fenomenul social ce urmeaza sa fie cercetat. O atentie deosebita trebuie acordata construirii scalelor de raspunsuri care implica atât posibilitatea de ierarhizare, cât si pe cea de masurare a atitudinilor, avându-se în vedere ca se porneste de la opinii pentru a se ajunge la atitudini. Este indicat sa se respecte un numar de reguli care urmaresc sa dea întrebarilor si raspunsurilor o forma coerenta, care sa permita valorificarea corecta a acestora. Astfel:
citeste, Ice emisiuni TVa unnaritetc.). Întrebarile de· opinie vizeaza· parerile, atitudinile, credintele, atasamentul fata de anumite valori etc. Aceste informatii nu pot fi obtinute direct prin ale metode. Întrebarile de cunoastere evidentiaza preocuparile intelectuale ale indivizilor. Ele pot fi utilizate si ca întrebari de control (astfel de întrebari nu aduc un plus de informatie, ele verifica raspunsurile de la alte întrebari anterioare). b) Dupa forma de înregistrare a raspunsurilor, avem: întrebari închise; întrebari deschise;
întrebarile trebuie sa se refere la opinii si nu la fapte;
întrebari cu posibilitati multiple de raspuns (se pot alege
întrebar.ea trebuie sa fie la obiect, scurta si pusa într-un limbaj adecvat, pentru a fi accesibila;
doua sau mai multe variante de raspuns).
întrebarea trebuie sa prevada toate raspunsurile posibile, iar anchetatorul de teren sa nu favorizeze din ton sau nuanta vreunul din raspunsuri; 88
89
Analiza non-raspunsurilor Prin non-raspunsuri
În stiintele sociale întâlnim patru feluri de scale:
întelegem atât lipsa raspunsurilor
unele întrebari în cadrul aceluiasi raspunsului la întregul chestionar. Aparitia non-raspunsurilor
chestionar,
la
cât si lipsa
1) Scale nominale, care presupun o enumerare de posibilitati. Exemplu: locul de provenienta.
în cadrul aceluiasi chestionar
poate însemna ca anumite întrebari sunt dificile, ca ele pot
Termenii acestei scale nu pot fi comparati. 2) Scale ordinale, care permit o oarecare masurare a distantei dintre posibilii termeni ai scalei.
deranja anumite segmente ale populatiei, ca nu prevad toate variantele de raspuns. Unele persoane nu raspund de teama, din necunoasterea raspunsului sau alte situatii. În orice caz, procente crescute de non-raspunsuri perturba
Exemplu: note primite la examen, trepte de învatamânt etc., în care fiecare treapta este superioara celei anterioare.
3)Scale cll intervale, care permit masurarea distantelor dintre diferitele trepte si ranguri .
rezultatul general al sondajului. Toate aceste lucruri trebuie avute în vedere înca din faza de concepere si proiectare a cercetarii si a chestionarului. A doua situatie în care chestionare întregi ramân necompIetate este generata de urmatoarele
situatii: refuzul de a
coopera, absenta de la domiciliu a respondentului în momentul
Exemplul cel maielocvertt este celalmasurarii 4)
Scaleproportionale,
care exprim.a·.posibilitatea· unui
raport între doua pozitii de pe o scala. De exemplu, putem spune ca o persoana care are 40 de ani este de doua ori mai în vârsta decât una de 20 de ani.
desfasurarii anchetei, schimbari de adrese si neactualizate pe listele de esantionare, cazuri de infirmitati, alte unitati statistice care au disparut din baza de sondaj. Desi statistica ofera solutii care remediaza anumite situatii, totusi este important sa se .identifice.cauzele care provoaca nonraspunsurile.
Analiza scalara Analiza scalara sau analiza ierarhica presupune atât posibilitatea de esantionare, cât si masurarea atitudinilor. 90
cronologice.
91
Capitolul X
prin utilizarea intervalelor de încredere;
.
TESTE DE SEMNIFICATIE
prin utilizarea unor criterii, numite teste ale ipotezei nule, bazate pe ipoteza cavariabila
ci
= Â.*t·..:.X2
are medianu1a.
Acceptarea ipotezei nuleadmite l.1rn1atoarelealternative: Problema semnificatiei unor marimi si mai ales a semnificatiei diferentei dintre doua marimi se pune atunci când se compara doua valori, dintre care cel putin una provine dintr-o cercetare concreta. Adoptarea unui plan de selectie la o populatie stratificata se sprijina pe un sir de ipoteze: omogenitatea straturilor, volu-
1. Ipoteza facuta este adevarata si urmeaza sa fie acceptata; 2 .. Ipoteza facuta este.falsa si· s-a comis· o eroare ca ea a fost acceptata. Conceptul de prag de semnificatie este o probabilitate si masoara riscul de a gresi atlmci c;â11dse ia o astfel de hotarâre. Exista teste de semnificatie care se aplica esantioanelor mari,
mele esantioanelor etc. Un alt plan de selectie presupune alte
precum: t~stul Z, testul ..X2 si teste. de semnificatie
ipoteze, alte estimatii. În aceasta situatie, trebuie analizat caror
esantioane
estimatii le acordam mai multa încredere si a vedea, în acelasi timp, în ce masura diferenta dintre ele este sau nu semnificativa.
Snedecor).
Daca avem în vedere o anumita caracteristica a variabilei teoretice X si daca valori estimative
Â.;
si Â.*2 ale valorii teoretice
atunci media teoretica a variabilei diferenta trebuie sa se anuleze, adica Â.,
M(
Â.~ - Â.*2 )
=O
Aplicarea
lui Student), testul F (Fisher-
În cele ce urmeaza, vom· an.aliza testul. X2. ~ Se pl.ille problema de a testa daca structura esantiqnului se abate semnificativ de la o structura standard, dupa o caracteristica. Sa luam un exemplu. Sa presupunem unesantionde nasteri cu urmatoarea distributie:
Acest lucru a condus la introducerea metodei de cercetare Anotimp
denumita ipoteza nula.
mici:. testul t(al
240 10Vara 270 Total 24% 27% Iarna 1000 2Primavara 1% 280 28% 100% .. To.amna
Numar Procent ipotezei nule, în sensul de a constata daca
aceasta relatie este sau nu îndeplinita, poate fi facuta în doua moduri: 92
pentru
93
1000 de
Se constata ca subesantioanele nu sunt uniform distribuite pe anotimpuri. Se pune problema daca aceasta serie difera semnificativ de cea în care respectivele proportii ar fi identice: 25%. Testul X2 se aplica astfel: Notam prin k}, kz, esantion si cu mI, mz, zatoare. Formula este:
,ks un sir de frecvente obtinute pe un
, ms frecventele teoretice corespun-
(240-250Y(270~250Y X == 250 + 250 2
(280..,-250Y (210-250Y + 250 + 250 =
==100 + 400 + 900 + 1600 ==3000 ==12 250 250 Cum 12 > 7,82 (valoarea critica), rezulta ca diferenta este semnificativa. Altfel spus, ipoteza nula este respinsa cu o probabilitate d~ " 0,95.
De o deosebita importanta în utilizarea testului
X2
este
stabilirea numarului gradelor de libertate. Acesta se calculeaza astfel: v ==s -1 în cazul unui tabel unidimensional cu s celule; v ==(s -1)(t -1) în cazul unui tabel bidimensional celule.
cu sxt
În cazul exemplului anterior, avem: Sirul frecventelor empirice: 240; 270; 280; 210 Sirul frecventelor teoretice: 250; 250; 250; 250 v==4-1==3 Din tabele gasim valorile critice: 7,82 pentru pragul de semnificatie p ==0,05 . 9,84 pentru pragul de semnificatie p ==0,02 11,35 pentru pragul de semnificatie p = 0,01 94
95
Bibliografieselectiva 1. Johan Galtung, theory and Methods ofSocialResearch /2. N. Mihaila, Introducere în teoria probabilitatil()rststatistica matematica 3. GH. Mihoc, V.Urseanu, Matematici aplicate în statistica 4. Dumitru Porojan, Statistica si teoria Sondajului, Ed. Sansa, 1993 5. T. Rotariu, P. Ilut, Ancheta sociologica
si sondajul
de
opinie, Ed. Polirom, 1997 6. T. Rotariu (coord.) s.a., Metode statistice aplicate în stiintele sociale, Ed. Polirom, 1999 7. IoanMarginean,
Masurarea în sociologie, Ed. Stiintifica si
Enciclopedica, 1982 8. D. Sandu, Statistica în stiintele sociale, Bucuresti, 1992 9. Yule, G.U., Kendall, M.G., Introducere în teoria statisticii, Ed. Stiintifica, 1969 10. Moser C.A., Metodele
de ancheta în investigarea feno-
menelor sociale, Ed. Stiintifica (1967) 11. Durkheim, E., Regulile metodei sociologice, Ed. Stiintifica, 1974 12. Chelcea S., Chestionarul
în investigatia sociologica,
Ed.
Stiintifica si Enciclopedica, 1975 13. Alexandrescu P., Sistemele electorale. Principiul majoritatii si limitele sale. Rev. Româna de Sociologie, nr. 5-6/2001 97
14. Alexandrescu P., Modalitati de ameliorare a cercetari/or de
teren care au la baza sondajul statistic, Rev. Româna de Sociologie, nr. 1-2/2000 15. Alexandrescu P., O metoda de analiza scalara ierarhizare, Rev. Româna de Sociologie, nr. 3-4/2000
98
si
Editura Paralela 45 Pitesti, jud. Arges, cod 110174, str. Fratii Golesti 128-130; tel./fax: (0248)63.14.39; (0248)63.14.92; (0248)21.45.33; e-mail: [email protected] Bucuresti, cod 71341, Piata Presei Libere nr. 1, Casa Presei Libere, corp C2, mezanin 6-7-8, sector 1, tel./fax: (021)224.39.00; OP 33, CP 13, e-mail: [email protected]
COMENZI-
CARTEA
EDITURA PARALELA
PRIN POSTA 45
Pitesti, jud. Arges, cod 110174, str. Fratii Golesti 128-130 Tel./fax: 0248214533; 0248631439; 0248 631 492. E-mail: [email protected] sau accesati www.edituraparalela45.ro Conditii: • rabat Între 5% si 25%; • taxele postale sunt suportate de editura; • plata se face ramburs, la primirea coletului.
Tiparul executat la tipografia Editurii Paralela 45