Introduce Re In Statistic A Sociala-petrus Alexandrescu

  • November 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Introduce Re In Statistic A Sociala-petrus Alexandrescu as PDF for free.

More details

  • Words: 13,226
  • Pages: 52
Colectia

UNIVERSITARIA

Seria

STIINTE MATEMATICE

PETRUS ALEXANDRESCU

Introducere

"In

Editor: Calin Vlasie Tehnoredactare: Cannen Radulescu Corectura: autorul Coperta: Carmen Lucaci Prepress: Viorel Mihart

Descrierea CIP a Bibliotecii Nationale a României

ALE~RESCU,PETRUS Introducere În statistica sociala / Petrus Alexandrescu, - Pitesti: Paralela 45,2005 Bibliogr. ISBN 973-697-335-2

statistica sociala

! il

( 1 j

311:913(498)(075.8)

© Copyright Editura Paralela 45, 2005

CUPRINS !!/'Prefata

i

::F'"

'il

.

7

,

Capitolul 1 Elemente de teoria probabilitatilor

9

Capitolul II Elemente de statistica descriptiva

17

Capitolul III Variabile aleatoare. Proprietati. Caracteristici..

25

Capitolul IV Indicatori ai caracteristicilor cantitative

41

Capitolul V Corelatia rangurilor

56

Capitolul VI Analiza de regresie

,

Capitolul VII Analiza de dependenta

,

61 67

Capitolul VIn Sondajul statistic si esantionul statistic

76

Capitolul IX Chestionarul de opinie. Elemente privind proiectarea chestionarului

87

Capitolul X Teste de semnificatie

92

Bibliografie selectiva

97

5

PREFATA ., Lucrarea de fata , urmeaza în esenta, cursul de statistica sociala de un semestru, predat de autor la anul II al Facultatii de Sociologie si Psihologie a Universitatii "Spiru Haret". Pentru a

fi utila în primul rând studentilor· acestei facultati, lucrarea urmareste pe de o parte sa familiarizeze cititorul cu elementele de statistica matematica necesare în abordarea si întelegerea unui fenomen social. Pentru aceasta, am tinut cont de faptul ca numerosi studenti ai acestei facultati au formatie umanista înca din liceu. Acest lucru a facut ca interesul lor pentru disciplinele realiste sa fie scazut. Întâlnirea acestora cu statistica în cadrul facultatii este privita cu o anumita retinere. Rolul profesorului în acest caz este de a face, pe cât posibil, un curs foarte accesibil, atractiv, si care sa stârneasca curiozitatea studentului (macar al aceluia care îsi cunoaste interesul si stie de ce a venit la aceasta facultate). Cursul predat a încercat pennanent sa tina seama de acest deziderat, iar cursul scris încearca sa-I urmeze îndeaproape. Dar, pe lânga a fi accesibil si atractiv, cursul trebuie sa fie util. O data cu întelegerea rolului statisticii în realitatea sociala, este important sa se înteleaga metodele, tehnicile sale, dar mai ales este important sa se înteleaga gândirea

statistica. Nu tre-

buie sa utilizaIl1 o metoda sau alta pentru ca ani auzit de ea sau pentru ca utilizarea unor metode statistice sonore ne-ar scoate

7

din impas sau ne-ar pune în situatia comoda de a ne aseza în

Capitolul 1

spatele lor si a ne multumi astfel cu orice rezultat obtinut. Utilizarea statisticii în mod adecvat este deosebit de utila.

ELEMENTE DE

Dar utilizarea statisticii poate fi si nociva atunci când se face în

TEORIA PROBABILITATILOR .

mod mecanic, fara a se întelege utilitate a sa, si mai ales când, cum si în ce fel poate fi folosita. Am încercat sa lamurim si aceste lucruri de-a lungul cursului . Autorul, de formatie matematician, si-a facut ucenicia în me-

.L Câmp de probahilitatefinit

todologia stiintelor sociale de-a lungul anilor în cadrul Institutului de Sociologie al Academiei Române. Aici a avut posibi-

Experimentul

statistic este un procedeu care poate fi

litatea sa participe la numeroase cercetari concrete în colective

repetatîn conditii similare si în urma caruia se obtin rezultate ce

interdisciplinare, sa învete si sa experimenteze o serie de metode

pot fi observate, masurate si apoi interpretate.

si tehnici. Anii de dupa Revolutie au putut fi mult mai profitabili din acest punct de vedere. Comenzile sociale ne-au ajutat sa tinem pasul cu realitatea

Experimentul statistic are un caracter aleator, în sensul ca rezultatul acestuia variaza la întâmplare; de aceea îl vom mai numi adesea si experienta aleatoare.

sociala si sa gasim solutii practice chiar si atunci când teoria nu

Rezultatul unei experiente aleatoare se va numi proba.

ne ajuta. Am învatat din greselile noastre ca si din ale altora, îm-

Exemplu. Aruncarea unui zar constituie o experienta alea-

bunatatindu-ne stilul si bagajul de cunostinte. Toate aceste cu-

toare. Rezultatele posibile acestei experiente sunt concretizate în

nostinte capatate le putem împartasi celor tineri pentru a le ne-

aparitia uneia dintre fetele: 1, 2, 3, 4, 5, 6.

specialistii de mâine în do-

Definitie. Realizarea sau nerealizare a unei. anumite situatii,

meniul stiintelor sociale. Facultatea de Sociologie si Psihologie a Universitatii "Spiru Haret" mi-a oferit aceasta ocazie.

·legata de experienta aleatoare avuta în vedere,. dupa· efectuarea

tezi drumul si a-i ajuta sa devina

Prezenta lucrare se adreseaza în primul rând studentilor

experientei, se numeste evenjment statistic. Prin evenimentul

elementar

vom. întelege acel eveniment

Facultatii de Sociologie si Psihologie, dar si tuturor acelora care

care poate fi realizat numai de o singura proba., Celelalte

doresc sa se initieze în statistica sociala.

evenimente le vom numi compuse. Autorul

8

9

De exemplu, evenimentul de aparitie: a fetei cu numarul 6

>LOperatii cu evenimente

este un eveniment elementar. Evenimentul de aparitie a unei fete

Daca A si B sunt doua evenimente, numim reuniunea lor si

cu numar par este realizat de una dintre probele {2}, {4}, {6}. Evenimentul sigur este evenimentul care se realizeaza cu

.otam AU B, evenimentul a carui realizare consta în realizarea a

certitudine la fiecare efectuare a experientei. Evenimentul experientei.

Evenimentul

{1,2,3,4,5,6}

este

el putin unuia din cele doua evenimente.

În mod asemanator, An B este evenimentul care se realizea-

evenimentul

sigur

al

cu realizarea simultana a evenimentelor A si B. Daca

imposibil

este

evenimentul

care

nu

realizeaza la nici o efectuare a experientei.

Sa consideram

Doua evenimente A si B se numesc contrare daca nerealiunuia

este echivalenta

cu realizarea

A si B sunt incompatibile,

celuilalt;

experienta

asociate multimilor complementare. Astfel, B = CA iar A = CB. Evenimentele A si B se numesc compatibile daca se pot realiza simultan, adica daca exista probe care le realizeaza în acelasi timp pe A si pe B. În caz contrar, evenimentele A si B se numesc incompatibile. În primul caz, comparând cu multimile, avem An B

:t=

0,

iar în al doilea caz, An B·= 0. Evenimentul A implica evenimentul B si scriem A

10

c B, daca

lIDUi

zar si A

de 10 ori. Sa presupunem ca aruncând cu zarul de 10 de trei ori a aparut fata cu numarul 5. Raportul

pe amândoua; în schimb, orice proba realizeaza unul din cele doua evenimente. În termeni de teoria multimilor, astfel de evenimente sunt

de aruncare a

de aparitie a fetei cu numarul 5. Sa repetam aceasta

asta

înseamna ca nu exista nici o proba care sa le realizeze simultan

realizarea lui A implica realizarea lui B.

atunci

Definitia probabilitatii

Evenimentul imposibil se noteaza prin 0. zarea

evenimentele

se

f=-103 numeste frecventa de aparitie. Frecventa de aparitie este un numar subunitar O ::; fn

::;

1.

Doua evenimente A si B se numesc egal posibile daca au aceeasi sansa de a se realiza. Daca

la .experienta

de aruncare

a unui

zar, A este

evenimentul în care apare fata 5 si B este evenimentul

de

aparitie a fetei 3, atunci evenimentele A si B sunt egal posibile.

Defmitie. Numim probabilitate a unui eveniment, raportul dintre numarul· cazurilor egal posibile care realizeaza eveni,.. mentul sau cazurile favorabile si numarul cazurilor egal posibile. 11

Exemple: 1) La experienta de aruncare a unei monede, probabilitatea de a aparea stema este: 1

2

ca anmcând

p(A nC) = p(A)· p(C) p(A n B n C) = p(A)p(B)p(C)

p = 36 =6 ale probabilitatilor

Daca p(A) este probabilitatea evenimentului A, atunci au 10& proprietatile:

Formule clasice de probabilitate 1. Formule pentru calculul unor probabilitati a) Fie A, B - 2 evenimente. Atunci are loc formula: p(A U B) = peA) + p(B) - p(A n B) b) Daca A, B, C sunt 3 evenimente, atunci are loc formula: p(AUBUC)

1) O~ p(A).~ 1

- p(A

2) p(E) = 1, unde E este evenimentul sigur 3) p(0) = O,unde 0 este evenimentul imposibil 4) p(A U B) = p(A) + p(B), daca An B = 0 Daca An B T. 0, atunci proprietatea 4) devine: 4') p(A U B) = p(A) + p(B) - p(A n B) 5) p(A)+ p(A) = 1 unde A este evenimentul contrar lui A. Definitie. Daca A si B sunt doua evenimente si daca p(A n B) = p(A)· p(B) atunci spunem ca eV91imentele A si B sunt independente. Daca A, B, C sunt trei evenimente, atunci ele sunt independente daca sunt îndeplinite relatiile: 12

p(B)

doua zaruri sa

obtinem o dubla, adica (1, 1) sau (2, 2), ... , sau (6, 6)7 6 1 Proprietati

n B) = p(A)·

p(B n C) = p(B)· p(C)

p=2) Care este probabilitatea

p(A

= p(A) + p(B) + p(C)-p(AnB)-

n C) - p(B n C) + p( An

B n C)

Aceasta formula se poate generaliza la n evenimente si se obtine o formula care poarta denumirea de formula lui H. Poincare. Aplicatie. O urna contine 4 bile albe si 6 bile negre, iar alta urna contine 7 bile albe si 3 bile negre. Din fiecare urna se extrage câte o bila. Care este probabilitatea ca cel putin o bila sa ne alba? Rezolvare. Notam cu A evenimentul ca bila extrasa din prima urna sa fie alba si cu B evenimentul ca bila extrasa din a doua urna sa fie alba. Vom calcula probabilitate a evenimentului

AUB: p(A U B) = p(A) + p(B) - p(A n B) Dar evenimentele A si B sunt independente, rezulta ca 4 7 28 =p(A n B) = p(A)· p(B) = -.-

10 10

13

100

Urmeaza ca: P

0,012, q2 = 0,015, q3 = 0,014

(A U B) = ~ + ~ _ 28 = 110- 28 = 82 = ° 82 10 10 100 100 100 '

PI = 0,988, P2 = 0,985, P3 = 0,986 Asadar, coeficientul lui x2 vafi:

2. Scheme clasice de probabilitate a) Schema lui Poisson

PIP2q3 + PIP3Q2+ P2P3Ql = 0,988·0,985·0,014

Sa presupunem ca avem n urne:

+ 0,012 = 0,04

UI,

U2,

.... ,

Un

.0,986.0,015 + +0,985·0,986·0,012

extrage k bile albe

° ~ k ~ n,

atunci când din fiecare urna se

extrage câte o bila.

= 0,013 + 0,015 +

timp ce probabilitatea ca toate piesele extrase sa fie bune este: P = PIP2P3 = 0,988·0,985'0,986

care contin bile albe si negre. Daca Pi este probabilitatea cu care este extrasa o bila alba din uma Ui, se cere probabilitatea de a

+ 0,988·

= 0,959

b) Schema lui Bemoulli Este un caz particular al schemei Poisson, în care cele n urne continuturi identice. În acest caz:

Ca regula, sa retinem ca determinarea probabilitatii cerute este similara cu detern1inarea coeficientului lui Xk din dezvoltarea polinomului

Pl = P2 = ... = Pn = P

SI

ql =Q2 = ..·=qn =q=l-q Problema este aceeasi, anume, de a extrage câte o bila din

P(x) = (PIX + ql)(P2X + q2 )·· ..·(Pnx + qn)' Vom lamuri acest lucru printr-un exemplu. Exemplu. Într-un atelier sunt 3 strunguri care executa piese. Primul da 1,2% rebuturi, al doilea 1,5% si al treilea, 1,4%. Se ia

fiecare urna si de a calcula probabilitatea ca din .cele n bile extrase, k sa fie albe si n-k tlegre. Probabilitate a ceruta estecoefidentullui binomului:

la întâmplare câte o piesa de la fiecare strung. Se cere probabi:litatea ca 2 din piese sa fie bune si una sa fie rebut. Probabilitatea cautata va fi coeficientul lui x2 din dezvoltarea polinomului

xk din dezvoltarea

P(x) = (px+Q)n adica:

C~pkQn-k

Sa mai constatam ca problema extragerii a n bile din n urne identice, câte una din fiecare urna, este similara cu aceea a

(PIX + ql)(P2X + q2)(P3X + q3) Se constata ca: n = 3, k = 2,

extragerii succesive a n bile din aceeasi urna, punând de fiecare data bila extrasa înapoi.

14

15

Aplicatie.

Aruncam o moneda de 6 ori, Se cere probabi-

Capitolul II

litatea ca stema sa apara o singura data si banul de 5 ori. Se constata ca n = 6 k = 1 p = q =

"

Atunci P =

C61



-



-

2 2 (1)1 (1)5

=-

26 6

!

ELEMENTE DE STATISTICA DESCRIPTIVA

2

=-

32 3

= O094 '

Statistica sociala se ocupa cu gruparea, analiza si interpre-

c) Schema bilei neÎntoarse

tarea datelor referitoare la un fenomen social. Totodata, cu

Sa presupunem ca o urna contine a bile albe si b bile negre.

mijloacele statisticii sociale se pot efectua o serie de previziuni

Din aceasta urna se extrag n bile, fara a pune bila extrasa înapoi. Se cere probabilitatea ca din cele n bile extrase, a sa fie albe si ~ = n-a

Probabilitatea cautata va fi data de fonnula: Ca. a

,C13

descriptiva despre

un

este un proces de culegere fenomen

socjal

a

si înregistrarea

acestora; statistica matematica

a+p = n

se ocupa cu gruparea datelor, ana-

liza si interpretarea acestora în vederea explicarii feno-

Aplicatie. Într-o urna sunt 100 de bile: 40 rosii si 60 albe. Care este probabilitatea ca extragând 4 bile, doua sa fie albe? Suntem în situatia schemei bilei neîntoarse cu a = 40, b = 60,

0,=2, ~=2.

menului social si a posibilitatii efectuarii unor predictii asupra derularii fenomenului în viitor. Populatia

statistica.

Prin conceptul de populatie statistica

vom întelege orice multime care formeaza obiectul de studiu al analizei statistice.

Probabilitatea cautata va fi: 40·39 C~oo

statistica datelor

b

Ca.+fl a+b

C~o . C:o

Statistica sociala sau metodologia statistica pe care o avem în vedere presupune doua etape:

sa fie negre,

unde n
privind producerea fenomenului în viitor.

60·59

= -1·-2-' -1.-2- = 0015 _10_0_'_99_'_9_8_, 9_7 ' 1·2·3·4

Elementele

unei

populatii

statistice

le numim

statistice (sau indivizi). O analiza statistica are în vedere anumite caractt~rjslici. Astfel, daca luam ca exemplu rezultatele obtinute III

16

unihtti

17

llxlIIUQl\ul

de statistica a unei colectivitati înregistra notele obtinute dupa:

de studenti, atunci putem,

Exista si caracteristici

continue al caror numar de valori

este infinit. Un astfel de exemplu îl constituie "vârsta". Structura

caracteristica "sex": (M, F).

acestei caracteristici pe grupe de vârsta o transforma într-o

caracteristica "grupe de vârsta" etc.

variabila discreta, dupa cum se poate vedea si din tabelul

În cazul efectuarii unui studiu în care avem în vedere

urmator, în care am efectuat grupari ale populatiei adulte:

numarul locuitorilor dintr-o anumita zona, multimea localitatilor din acea zona poate constitui populatia statistica. O caracteristica de studiu ar putea fi numarul locuitorilor din fiecare localitate.

56-62 am

Grupe vârsta de \18-25 ani I 26-35 ani II 36-45 am II 46-55 am

peste 62 ani

În analizele statistice suntem nevoiti sa facem astfel de O caracteristica care se poate masura se va numi caracte-

ristica cantitativa. În cazul exemplului anterior, rezultatul obtinut la examen se masoara în note, deci este o caracteristica cantitativa. Caracteristicile "grupe de vârsta", "venitul pe familie" etc. pot fi considerate drept caracteristici cantitati ve. Caracteristicile care caracteristici calitative.

nu pot

fi masurate

se numesc

grupari pentru a simplifica etapele cercetarii. Frecvente absolute, frecvente relative, frecvente cumulate Sa consideram exemplul unei colectivitati de 200 de studenti, dintre care 86 studenti si 114 studente. Aceasta structura pe sexe poate fi înregistrata în tabelul:

Un exemplu de caracteristica calitativa poate fi înregistrarea

FeI!liJ!lJn ,~

raspunsurilor la întrebarea: Cunl va place emisiunea X de la TV?: mult, putin, deloc.

Frecvente relative Caracteristicile calitati ve sunt cel mai greu de înregistrat într-o analiza statistica.

""------_---:_---------'

Exista caracteristici A~stea

care pot lua numai valori tgtregi.

se vor f!.umi caracteristici discrete. Exemplu: numarul

de localitati dintr-un judet, numarul persoanelor dintr-o gospodarie etc. 18

"

Frecvente absolute

r'

/11'1:;h.1c~

43%51

C ./

~d , ,~,,-

Total

""'o,

!

\"

57% --Cl' ~", ~,

"'. I

Frecventa absoluta însekmna numarul de subiecti înregistrati; frecventa relativa este raportarea, la total, adica: 1\ t" 86 j 1..:. '::.. ,j~7 --

200

- O 43 - 430/70

'

.1'1' '-'~l"" ,~<,~v

19

'

Sa presupunem ca pe cei 86 de studenti de sex masculin îi

.......................................................

20% ....... 25%

distribuim dupa rezultatele obtinute la un examen astfel: Nota 12 16 86 30 71 6 ~,f 47% 14 616% 7 8546 9 5% 10 29% 19% 16 15 17% 100% 25 't~}{-~ ~H;'~~' ~it-t~ l~.\-4~ ~t'~ 7% 6 Numar Frecvente

F

......•.........................

Total Reprezentareainvestitiilor

"3 5%

se poate face în mai I11ultefeluri:

a) cuaju.torul diagram.ei: 5,5

25

Frecventele

cumulate se folosesc mai ales atunci când b) prin histograme:

urmarim evolutia unui fenomen.

40

Serii statistice. Reprezentari grafice

35 30 25

Seriile statistice sunt serii de date care se însiruiesc dupa o anumita caracteristica. Daca aceasta caracteristica este timpul, seriile se numesc temporale:

20 15

10

5 o A

Sa presupunem ca într-o întreprindere

B

c

industriala se fac

investitii procentuale în cinci sectoare astfel: Sectorul

Investitii procentuale

A

5,5%

B

14,5% 20

21

o

E

Alte

40

35·

reprezentari

sunt

reprezentari "gen

harti

numite

cartodiagrame.

30 25 20

Diagrame de structura

15 10

- populatie rel="nofollow"> 60 ani

5

l40%

O

rlllllA III B I±IC IElD

160%"1

IIEI

- populatie activa

c) cu ajutorul poligoanelor de frecventa Exista reprezentari statistice în care apare numai poligonul frecventelor fara histograme. - cresterea productiei industriale pe lunile unui an.

-populatie tânara În privinta distributiei curbelor de frecventa, putem vorbi de urmatoarea clasificare: - curbe simetrice (sau norrnale); - curbe asimetrice. Distributia simetrica (sau noqnala) este distributia lui Gauss:

d) curba frecventelor

Poligonul

frecventelor

unei variabile

aleatoare

poate fi

aproximat cu o curba - numita curba frecventelor sau curba de distributie. 22

23

CapitolulUI

Distributiile asimetrice sunt si ele de mai multe feluri: distributii usor asimetrice

VARIABILE ALEATOARE. PROPRlETATI. •

distributii pronuntat asimetrice

o variabila

CARACTERISTICI

aleatoare X este un tabel de forma (1)

unde

[XlPI Xi sunt

pn Xn

P2 ....•.••••....•.... X2

J.

valorile pe care le poate lua variabila cu probabi-

litatile Pi. În plus, trebuie îndeplinite conditiile:

i=1,2, .... ,n

1. O::SPi::S1, distributii în forma de

J

2.PI+P2

+ .. ···+Pn=l

Spunem ca tabelul (l) reprezinta distributia sau repartitia variabilei aleatoare X. Pot exista variabile aleatoare diferite cu aceeasi distributie. Sa consideram

experienta

aruncarii

unui zar. Întrucât

fiecare fata are aceleasi sanse de aparitie în raport cu celelalte, distributii în forma de

U

probabilitatea de aparitie a oricarei fete va fi: p

=~.

Variabila aleatoare asociata acestei experiente are distributia:

-1 [1

24

6

-1

6

2

-61 -61

-61 3

4

25

5~.'.

-1

6

Operatii cu variabile aleatoare Consideram variabila aleatoare X de repartitie: X+ X

Pl

P2

[. Xl

Pn

X2

'.xnJ

cu valorile XI, X2,... , Xncare sunt luate cu probabilitatile P!' P2, ·.. ,Pn. Putem scrie acest lucru astfel:

y

[Xl Pll+ YI Xl+ Pl2 Y2

II m

astfel încât

Xl plm + Ym

n

Pij

j

Xn+ PnmYml

=1

j=l i=l

iar Pij este probabilitatea realizarii simultane a evenimentelor (X = Xi) si (Y = Yj)· Daca evenimentele (X = Xi) si (Y = Yj) sunt independente, atunci

P(X = Xl) = PI, P(X = X2)= P2, ..... etc.

Pij = P(X = Xisi Y = Yj) = P«X ::::xD n (Y = Yj» ==

= P(X

Daca a este o constanta nenula, atunci putem vorbi de suma

==

Xi) .

P(Y = Yj)= Pi . ~

variabilei aleatoare X cu constanta a si produsul cu constanta a. Astfel, vom obtine noi variabile aleatoare: a + X si aX de distributii:

-1 X

a+X [a+ SI

Exemplu: Fie variabilele' aleatoare X si. Y de repartitii:

PI

Xl

P2

a + X2

O

1

-4

-

,\i \

!

111

Pn

4

a +Xn] SI

PI P2 aX [aX.l aX2 Daca avem variabilele aleatoare

Pn ] aXn

Y

~f'!

13 \

2 2\

'J 3J 6

__------\

X P2 X2 •••••••.••••••••••.•

Y q2 Y2 ..............•..•.

Pn xnJ

j

qmYml

atunci putem defini variabilele X + Y si XY astfel: 26

X+Y sau:

2'3 1 1 2'2 1 1 2'6&'2 III,!.! j ~_/".J'~ ("O

X+Y I 1

l6

r2

1 1

1

4 + 12

1

1 1 12 +8+ 12 27

1

4'6'(4'3 1 1\ 1 1 4'2 1 1 .. i5' ,~ 3

1

1 24 +'8

iJ

24

-

24 312 672413 ro

în care am notat cu 1 valoarea variabilei la aparitia bilei albe si

1

:]

Oneaparitia unei bile albe. Atunci 0+1 q21 qp 0·1 1+0 pq1·0 pq Xr+X2 XI+X2 XI'X2

C\l

XrX2

În mod analog se defineste variabila produs. sau adica

2pq p2 iar variabila produs:

~J

x·y Pii

'-XIYl I{"

P12 XIY2

Plm XIYm

Pnm xnYj

Caracteristici

ale variabilelor

U' [+1 G ' :iJ O'OJ2pqZqj aleatoare U/

În cazul exemplului de mai sus, variabila X Y va avea distri-

-24112-21-1281-3 -12121--1 6 84142-2 (-1 4 -2

butia:

OO O O

(-3

11

14J 2~

Sa consideram un alt exemplu. Sa presupunem ca peste pro-

Consideram variabila aleatoare X de distributie

babilitatea extragerii unei bile albe dintr-o urna. Dupa efectuarea primei extrageri si întoarcerea bilei în urna, repetam experienta. Fie Xl si X2 variabilele aleatoare asociate celor doua

Pn XnJ.

CUPI+p2+ .... Pn = 1

experiente, cu distributiile:

Xl

P2

x,

[~n

X, 28

[~

n

Numim valoare medie a variabileialeatoare

X expresia: fi

M(X)=PIXi +P2X2+ ... +Pnxn =LPi~i i=l

29

.

.

Se considera

Proprietati

acestei variabile

aleatoare

1) M(a) = a, unde a este o constanta. Acest lucru înseamna ca valoarea medie a unei constante este acea constanta.

deoarece:

2) M(a+X)=a+M(X)

Împrastierea

3) M(a' X) = a . M(X)

IX- M(X)1 - numita abatere medie, cu distributia:

4)

a.:::;

iar ~ = max(x1,

, •••,Xn) X2

adica cea mai mica valoare a lui X

,.o.,Xu) esteceamai marevaloarea luiX.

variabilei

X ,se caracterizeaza

O.

prin variabila

P2

pn

Ix, ~ml

Ix, -mi

unde am notat m = M(X).

J

M[(X-mi]

relatia ultima are loc numai daca variabilele

X si Y sunt

independente.

care este un moment centrat de ordinul al doilea. Acesta se mai numeste adesea dispersia variabilei X si se noteaza cu a2 sau

ca variabilele

evenimentele (X =

Pl

[lXI-mi

Cel mai comod indicator al împrastierii este dat de expresia

M(X + Y) = M(X) + M(Y) 6) M(X' Y) = M(X) . M(Y)

Spunem

M(X - M(X» = M(X) - M(X) =

este O,

M(X) :::;~ , unde am notat

a. = min(x1,x2

~

ca media

Xi)

X si Y sunt independente

daca

si (Y = Yj) sunt independente pentru toate

D(X).Avem: a2

= D(X) = M[(X -

cuplurile i sij, i E {1,2,o..,m}sij E {1,2,...,n}.

unde m = M(X).

Momente

Proprietati

mi].

Notam prin Xkvariabila aleatoare cu distributia

a) D(a) = O, unde a este o constanta, adica dispersia unei constante este O.

P2 Pn (kER) [ Plx~ x~ x~ J Numim moment de ordinul k al variabilei X, valoarea medie a variabilei Xk:

b) D(a+ X) = D(X)

n

Mk(X) = M(Xk) =

IPiX~ Î=l

c) D( aX) = a2D(X) d) D(X + Y) = D(X) + D(Y) daca variabilele X si Y sunt independente. În caz contrar,

D(X + Y) = D(X) + D(Y) + 2M[(x --x)(y-y)].

Variabila X-M(X) se numeste abaterea de la medie a variabilei X. 30

-

31

Variabila

82

a = ..jD(X) = ~M(X2)

- M2 (X)

Daca X si Y sunt doua variabile aleatoare, notam prin

se numeste abatere medie patratica.

~xy

Inegalitatea

64

=-.16 =-.•.= 16 4

D(X) =a2

lui Cebâsev

= M[(X - X Xy - Y)]

-

Coeficientul de covarianta

Urmatoarea inegalitate spune ca probabilitatea ca variabila IX - mi sa fie mai mica decât o cantitate oricât de mica, 8, este

Prin X am notat M(X) iar Y = M(Y) . Se poate arata prin calcul ca

2

mai mare sau egala cu expresia 1-.;-, 8

unde

a este

-dintre variabilele X si Y

~xy

abaterea

= M(XY)

-M(X}·

M(Y)

medie patratica a v.a. X, iar 8 este un coeficient de toleranta sau

Coeficientul de corelatie

prag de semnificatie.

Numim coeficient de corelatie a variabilelor .aleatoare X si Y

Inegalitatea lui Cebâsev se va scrie:

expreSia: a2

P~x - mi < 8) ~ 1- -2 .

P

8

xy

= _~_Xy_ = -===M=(X=Y=)=-=-M_(X-;:=)= •.=M=(Y=) O'xay ..JM(X2)-M2(X).~M(y2)--M2(y)

Exemplu. Fie X o variabila aleatoare. Sa determinam dispersia acesteia stiind ca Proprietati P~x-ml < 8)

~12. 16

1) Coefi.cientul de corelatie este un coeficient standardizat,

cuprins Între valorile -1 si +1. Se constata~ ca~ 8 =8 . A tunCl. 1 - -2 a2 8 De unde:

15 =-16

-lsPxysl

2) Daca variabilele X si Y sunt independente, atuncj Pxy = O 3)

De aici rezulta:

Daca

Pxy

= ±l,

Între variabilele

X si Y exista

dependenta liniara. Aceasta dependenta arata astfel: 32

33

o

L

a

.!L

A (') ~ Aplicatii

y - M(Y) = -y (x - M(X)), cazul p = 1

2-,'

~

~

~

~

'/

~"CrJ, ~ ) "f

t

(', \ ~1

y-M(Y)

ax

cazul p =-1

C;

care apar. Sa se formeze tabloul dlstnbutlellUl S.

S

1

Se arunca 2 ~zaruri si se noteaza c~ S .nu~a~l.total

= -_Y (x -M(X)),

3,'

P

t P~~,h,l ~

ax

a

11 .1-',

R.

,,\:O

)(

+' \1 , Iltr!Jr~

';),

-

, ,

sau x-M(X)

=~(y-M(Y)),

cazul p =1

1

2

3

4

5

6

5

.~36 36 3 36 4 36 5 36 6 3636 7 '8

ay

x - M(X) = - a x (y - M(Y)), cazul p = -1

4

3

2

36 36 36 9 10 11 36 12J

fll,i.{

1

)

2. Se da variabila aleatoare X de distributie:

ay

Observatie. Daca

Pxy

1

= O nu rezulta ca variabilele X si Y sunt

0,7

independente sau ca exista o slaba dependenta întrey.a. X si Y.

]

Acest lucru poate sa însemne mai degraba ca dependenta nu este de tip liniar. În acest caz, se analizeaza cazurile de dependenta parabolica, logaritmica, logliniara etc. Împrastierea unei variabile aleatoare mai poate fi masurata prin

neN

coeficientul de variatie (sau de împrastier~):

v=~

-6

M(X)

-

Fiev.a.6 1 3 X

2

1

~J

X

U

Care este probabilitatea ca X sa ia o valoare mai mica sau egala cu 3?

34

G-It

R.

Sa se calcu1eze: M(X)~ M2(X), M(X2), M(X - 1), M(X2 - 2X).

1

111

P(X ~ 3) == P(X == 1)+ P(X == 2) + P(X == 3) == - + - + -

1 5

== -

+-

2 6 6 2 3 6

@ Fie v.a. X, Y 4

5

1

1

1

6

6

6

6

2

3

1 21

yD

M(X)

==

0,3+0,8+0,6+0,4 =2,1

M2(X) =4,41 3

X [16

R.

==-

M(X2) = 1· 0,3 + 4·0,4+

[10,3

X2

4

5

1

1

1

1

6

6

6

6

0,4 4

0,2 9

9·0,2 + 16·0,1

==

5,3

O,~ 16j

7. Fie

X! [1 6

Care este distributia sumei X +Y ? R. A se vedea ex. 1.

!

2

26

33

J

Calculati dispersia lui X.

R. 5. Fie X, Y 2 v.a. cu distributiile:

m = M.·(X)

o

5

-p

q2

Y [-1

3

o

1

8

1

-q -6 5

X-m

-1 6

[- 1,5

112 6 + 2 . -:6 + 3 . -3' = 2

== -

-61

-0,5 2

Care este distributia v.a X+Y si XY? 6. Fie

X

[10,3

5

-2 3

0,5J.

1

1

4

M.[(X-m) ] = 2 '6' 25·~+ 025·-+025·-6'

1

==

66'

-(2 5+1)

35 ==-

60

8. Fie X o v.a. cu media ro si dispersia a2• Sa se calculeze 0,4 2

0,2 3

4, O,~ 36

. v.a. Y v al oarea me d"IesI d'lSperSla

37

==

X- m

a

R. 1 =-fLpiX; (j"

1 Il (J :L)xi i=1 -m)pi

=-

m(Y)

-mLP;]= YX

O 4

58

--

--

Construim variabilele X si Y atasate rezultatelor obtinute la 23 26 8 "A", 58 examenul respectiv "B". 9 812

~] ;7]

[~

(J2 = M[(X - m)2] . Sa consideram v.a. (X - m)2 de distributie: X-ro 2

Atunci

Pl [(xl-mi

n

P2 (X2-m)2 TI.

(J~ = LPi(Xi i=1

_m)2 = LPiX; Î=I

[10

Pn (xn-mi] n

-2mLPixi i=1

+m2 =

mI = M(X) = 4·10+9·8+8·23+7·23 58 9. O grupa

de 58 de studenti

sustin

doua examene

la

disciplinele "A" si "B". Ne punem întrebarea daca exista vreo legatura între rezultatele obtinute la cele doua examene. Pentru aceasta, vom calcula coeficientul de corelatie. Distributia rezultatelor studentilor la cele doua examene este prezentata în tabelul urmator: X 2O13 4 O 68 7 124 48Note 2O31 yobtinute la examenul "B" 12 26 17 15 3 10 9 23 Total •••• 58 ,.Q 910 =::1 7 oo --::1 .•.. ~(l;Iia 8 10 Total

m2 = M(Y) = 10·3+9·12.+8·26+7·17 58

_457 - 58 = 7,88 465 = 58 = 8,02

82

4 58

X2

[.10'

23

23

58

58 72J

(l;I

82

y2

[1

3

26

17

58

58

58

02

72J

M(X2) = 4.102 +8.92 +23.82 58

39

+ 23.72 = 3647. = 6288 58'

M(y2)

Capitolul IV

= 3.102 + 12.92 + 26.82 + 17 .72 = 3769 = 64 99 58 58'

M(XY) = 2·100 + 2 ·90 + 1· 90 + 6 . 81 + 1·72 + 4 . 72 + 15 . 64 + 58

INDICATORI AI CARACTERISTICILOR CANTITATIVE

+ 4·56 + 10·56 + 13 . 49 = 3697 = 63 75 58 58' mi =

M2

(X) = 7,882 = 62,09

m~ =

M2

(Y) = 8,022 = 64,32

Prin indicatori vom întelege acele valori.atasate

variabilelor

cantitative, care exprima, sub forma sintetica, informatia conti-

O"~

= 62,88 - 62,09 = 0,79;

o"x

= .J0,79 = 0,89

O"~

= 64,99 - 64,32 = 0,67;

O"y

= 0,82

nuta în distributia variabilei respective. Exista trei tipuri de indicatori:

M(XY) - M(X)· M(Y) = 63,75 - 63,20 = 0,55 Atunci = M(XY) - M(X) . M(Y) = 0,55 = O75 Pxy

07'" ,.)

O"x'O"y

'

Se constata astfel ca între variabilele X si Y exista o corelatie directa destul de puternica.

indicatori de pozitie sau ai tel1dintei centrale de grupare; indicatori de dispersie sau de împrastiere; indicatori ai formei distributiei.

1. Indicatori ai tendintei centrale de grupare Din seria indicatorilor de pozitie sau a tendintei centrale de grupare, vom mentiona: 1. Media aritmetica

sau, simplu, media

Daca Xl, X2, •••. , Xn sunt cele n valori pe care le poate lua o variabila cantitativa, atunci valoarea mediei va fi:

_ X

1 =-(x1

n

Daca valorile

Xi

+x2 + .... +xn)=-

Il

n LXi i=l

sunt luate cu frecventele fi, atunci

X

40

1

1

Il

=-n 't"rx L..J i=l

41

1

1

Exemplu. Sa consideram numarul. familiilor dintr-un imobil dupa dimensiunea acestora (numarul de persoane ce alcatuiesc

il

atunci X = M(X) =

LPiXi i=l

Valoarea medie se mai numeste si speranta matematica a

familia respectiva,). Nr. persoane

1

Total

Nr. familii

10

80

variabilei X. 2. Mediana unei variabile cantitative X este acea valoare notata Me a lui X pentru care are loc egalitatea:

Se constata ca numarul total de persoane este: 1·10+2·15 +3· 25 +4· 20 +5·8 + 6· 2 = 10+30+ 75 + 80 + + 40+12 = 247

P(X < Me)

= P(X

1

>Me)

=-2

Din punct de vedere grafic, mediana este acea valoare a lui

Atunci dimensiunea medie a familiei va fi:

X pentru care ariile din histograma despartite de ordonata lui Me suntegale.

247 =3,087 persoaneI familie. 80

Desigur ca nu poate exista o astfel de familie, dar acest indicator ne arata, în cazul familiilor absolut omogene, pe unde s-ar situa dimensiunea acestora. În cazul unei variabile aleatoare discrete X 2

3

4

5

6

0,07

0,08

0,13

0,32

0,22 Me

valoarea medie este

Cazul variabilei discrete

X = 1· 0,05 + 2·0,07 + 3·0,08 + ... + 7·0,13 = 4,78 iar în forma generala il

X

[XI PI

P2

x,

Pn Xn

.J

Pi ;:::0; 42

LPi i=l

=1 43

Exemplu. Fie o variabila cantitativa continua, de exemplu dimensiunile llIlor piese, care au fost observate ca variind între 60 m.m

si 168 mm.Apestinterval

a fost împartit, din motive prac-

--. ----

tice, în intervale de6mm.~ ..~-----,-'-------~~------:, obti:nându-se discretizareavariabilei urmatoarea tabela: '

-

-:-

Intervale

Me

Cazul variabilei continue

..

."..•..

Centrul intervalelor

Frecventa

aparitie

60-66

63

3

66-72

69

7

72-78

75

11

a variabilei

78-84

81

34

X, atunci valoarea mediana este bine precizata. Daca însa acest

84-90

87

37

90-96

93

38

96-102

99

30

102-108

105

41

108-114

111

22

114-120

117

15

120-126

123

16

126-132

129

132-138

135

6 5

138-144

141

3

144-150

147

1

150-156

153

O

, 156-162

159

O

Daca valoarea mediana Me coincide cu o valoare

Xi

lucru nu se întâmpla, avem de-a face cu un interval median. În practica, se obisnuieste sa se ia drept valoare a lui Me mijlocul acestui interval. Exemplu. Variabila atasata experientei de aruncare cu zarul are distributia uniforma:

X

l l l l l lJ 666

6

6

6

[1 2 3 4 5 6 Intervalul median este [3,4] iar valoarea medianei Me va fi: M =3+4=35 e 2

165

'

1 Total 270

3. Modul sau valoarea dominanta este în acelasi timp si

\162-168

valoarea cea mai probabila pe care o poate lua variabila X. Se noteaza prin Mo sau X. 44

45 •

de

50

exista o relatie aproximativa, valabila pentru distributii cel ,mult

40

usor asimetri~e:

30

Ma

20 10

= 4Me -3x

Valorile celor trei indicatori ai tendintei centrale sunt fo-

O I IEI60-66 1190-96

11II66-72

13172-78

IEI78-84

1184-90

11III96-102 11102-10811II108-11411114-120

E!l120-126 11126-132 11II132-13811II138-14411I144.150 11II150-156II 156-162 rm 162-168

Iosite pentru construirea parametrilor care redau forma distrihutiei.

ll.

Indicatori de dispersie Indicatorii de dispersie caracterizeaza o populatie statistica

Frecventa maxima se obtine pentru x = 105, dar dj,n examinarea histogramei se constata ca aceasta frecventa maxima pare a fi accidentala în examinarea tendintei generale a fenomenului statistic si, ca atare, ar putea fi datorata faptului ca în esantionarea a 20 de observatii studiate, hazardul a grupat în intervalul 102-108 o fractiune mai importanta decât aceea care se gaseste în mod normal în populatia statistica. Trasarea curbei frecventelor implica, pe lânga continuitatea fenomenului, si o fonna potrivita, clasica, astfel încât aria totala sa fie aceeasi, prin compensare. În acest exemplu histograma indica, de fapt, ca modul valoarea 95. Curba se efectueaza printr-o ajustare analitica. Între valorile: Ma -

modul sau valoare modala

din punctul de vedere al omogenitatii (eterogenitatii), în raport cu o variabila cantitativa data. În anumite situatii, indicatorii

de dispersie

pot reflecta

gradul de inegalitate între indivizii statistici, în raport cu o anumita caracteristica. În modelele explicative, indicatorii de dispersie pot explica

gradul de nedeterminare, de variabilitate al unui fenomen. Amplitudinea Este diferenta dintre cea mai mare si cea mai mica valoare.

A = Xmax

- Xmin

Quantile Fie X o variabila aleatoare al carei argument x este definit în intervalul [a, b]. S-a vazut ca pentru determinarea medianei Me

Me - valoarea mediana

trebuie rezolvata ecuatia

x - media

1 46

F(x) = 2 47

unde F(x) = P(X < x) este functia de repartitie a variabilei X.

- QI se mai numeste cuartila mica sau inferioara;

Numim

- Q3 cuartila mare sau superioara.

quantile

de ordinul n ale variabilei

ecuatiei:

X, radacinile

Diferenta:

i

F(x)=-, n

1= Q3-QI

i= 1,2,....,n-l

se numeste abatereaintercuartlla

(sau abaterea cuartiIa).

pentru nE N dat, iar F(x) este functia de repartitie. Valoarea:

Pentru n = 2 se obtine mediana Me. Pentru n = 4 , cele 3 radacini: QJ, Q2, Q3 se vor numi cuartile Pentru n = 10 solutiile se numesc decile Pentru n = 100 solutiile se numesc centile

se va numi abaterea semiintercuartila

Daca reprezentam grafic curba de distributie, quantilele de

Adesea se foloseste o valoare relativa (standardizata)

--

Q3 -Ql

ordinul n împart suprafata marginita de curba de distributie, axa

ax si ordonatele

x = a, x = b în n parti de arii egale (sa~ împart multimea indivizilor în n parti egale).

0.2

numita abaterea intercuadila

relativa.

Sa consideram rezultatele obtinute pe un lot de 1000 persoane la un test cu valori de 11a 10.

-o

e:l :>

()

-

o

40 20 'i: 110 670 40 940 980 1000 200 250 450 90 160 2130 3120 6220 1 5830 8 7 4 0 15 9 1 .•.. 25, () o~ () > o o S co .S ~ ~d

.-< :::s

~

'"'

a

E-I

CIlI

:::s CZl

o

,o

.-a=Qo

În cazul cuartilelor mediana:

,----

QI

in =

-------

4). a dou~artila

~;3~~

este egala cu·

49

Amplitudinea: 10 - ·1= 9

pentru

i:j::.

j, în cazul caracteristicilor :fara frecventa, sau

1

Prima cuartila, care se obtine prin delimitarea primilor 250 G=

de indivizi este 4, mediana este 6 (deoarece sub 5 sunt 450 de indivizi, iar sub 6 sunt 670). A treia cuartilaeste 750-lea). Asadar,

pentru i

7 (sub 7 sunt 830 de indivizi, deci si al

:tj ,în

cazul caracteristicilorcu

Xii fifj

frecventa (în care fi este

frecventa relativa a valorii xD. Exemplu.

Ql =4

.n n L:L:IXi n(n -1) i=lj=l

Într-o sesiune, un student a obtinut la 5 examene

notele 6,7,8,9,10. Pentru a calculaindicele

Q2=Me=6

lui Gini, vom lua în

calcul diferentele în modul:

Q3=7 1 = Q3 - Ql = 7 - 4 =3 1 rei

=

Q3 - Ql _ 7 - 4 - O 5 Q2

--6--'

16 -

71, \6 - 81, 16- 91, 16-101,17 - 6\'

18-

61,

\8- 7[, 18- 91, \8 -101,

110- 61, \10- 71, 110-

81,

\10-

19-

61,

17 -'-81, 17 -

91,

17

19- 71,

81,

19 -101

19 -

-101

S = 1+ 2 + 3 + 4+ 1+ 1+ 2 + 3 + 2 + 1+ 1+ 2 + 3 + 2 + 1+ 1+ 4 +

Exemplu. În cazul venitului (pe familie sau pe cap de locuitor,

Deci: G = _1_.40 4·5

etc.) se calculeaza venitul mediu al primilor

10% (cei mai

bogati) si venitul mediu al ultimilor 10% (cei mai saraci) si se

= 40

=2

compara cele doua valori, printr-un indice standardizat.

Aceasta valoare.nespun~ diferite este de 2.

Indicele lui Gini

Abaterea medie

Corrado Gini a propus un indice ca fiind media aritmetica a diferentelor dintre toate perechile de valori luate în valoare

'

91

Utilizarea decilelor si a centilelor se practica pentru a masura inegalitatile dintre oameni.

+3+2+1

'

ca diferental11€i\die îIltre dO\la valori

Daca a este o constanta, atunci marimea AM(a) =.1- ~:IXi-al

n i=l

absoluta (fara sume): pentru o serie de valori individuale sau

50

51

pentru o

repartitie de frecvente se va numi abaterea medie de la a. Daca a = m = M(x), atunci AM(m) este abaterea medie de la media lui X, sau mai simplu, abaterea medie.

t(Xi -X)ri 0'=

i=l

pentru o repartitie de frecvente.

L)i i=l

Yule si Kendall au aratat ca cea mai mica abatere medie se obtine atunci când se ia drept constanta a valoarea medianei Me.

n

Expresia

În exemplul anterior, Me = 8 si abaterile de la mediana vor fi: 16 -

= 2 ; 17 - 81 = 1; 18 Media acestor 5 valori va fi: 81

81

= O;

19 -

81

= 1;

110 -

81

= 2;.

se mai numeste dispersie sau varianta. Daca populatia statistica este· conceputa ca o multime de

2+1+0+1+2

5

grupuri, atunci media generala a caracteristicii media mediilor fiecarui grup.

=~=12

5'

este egala cu

Media celor 5 note va fi: Varianta o'~ se va numi în acest caz varianta

(6 + 7 + 8 + 9 + 10) : 5 = 8, iar abaterea de la medie: (2 +

1+

intergrupala:

2.15 --2 0'-x) x =- "n.(Xj L.J

O + 10 + 2) : 5 = 1,2. Aceasta valoare coincide cu

n

valoarea obtinuta cu calculul medianei, deoarece în acest caz

J

j=l

unde s este numarul grupurilor, iar

mediana si valoarea medie au aceeasi valoare.

nI+n2+ ... +lls=n Abaterea patratica medie (abatere standard, abaterea tip,

a)

Abaterea patratica medie este radacina patrata din media

Se poate calcula o medie a variantelor notata

cr ,

numita varianta intragrupala

~ (_)2 .1Xi n1 L.J i=l

data de formula:

1 n 2 C'i = - "n.O'. L.J J J

-2

aritmetica a patratelor abaterilor valorilor observate în raport cu media lor aritmetica: 0'=

din cadrul grupului,

n j=l

Se demonstreaza ca: x

pentru o sene. d e v al on..m d'IVI'dual esI .

C'i

2

= -2 a + C'i-2x

adica "varianta totala" se descompune în suma dintre varianta intragrupala si cea intergrupala. 52

53

Coeficient de variatie (al lui Pearson) Raportul dintre abaterea standard si media variabilei X se va

2. Indicatori de boltire Acest indicator are expresia:

1

numi coeficient de variatie:

B v x--=_O"x

=--4 nO"

n

-

~:CXi i=l

_x)4_3

si este pozitiv în cazul boltirilor pronuntate:

X

ID. Indicatori ai form~i distributiei Forma distributiei unei caracteristici cantitative este masurata de doi indicatori: 1. Oblicitatea = x-M

o ==

3(x-Me)

(J

O"

si negativ în cazul boltirilor aplatizate:

(Formula lui Pearson) Daca aceasta expresie are semn pozitiv, curbele sunt alungite catre dreapta:

Calculul

acestor

indicatori

se poate

executa

cu

calculatorului electronic pe baza programului "SPSS". iar când expresia este negativa, alungirea este spre stânga:

54

55

ajutorul

caracteristici (care poate fi înaltimea) si are locul Întâi în ordinea

Capitolul V

crescatoare a celei de a doua caracteristici (de ex. greutatea).

.

Daca am fi avut ordinea (2):

CORELATIA RANGURILOR

VI

(2) Sa presupunem ca avem o serie de n unitati statistice: VI, V2, .... , Vn

V3

10 10

V4 6 6

lIs V6 2 2

5 5

V7 7 7

Vg

V9

VIO

8 8

4 4

9 9

înseamna ca am fi avut cea mai strânsa legatura între cele doua

fiecare dintre acestea având doua caracteristici

caracteristici. În acest caz, fiecare persoana Vi ocupa acelasi loc în ordinea ierarhica a celor doua caracteristici.

(Xl, YI), (X2, Y2), ... , (xn, Yn)

De exemplu, aceste n unitati statistice pot reprezenta n persoane,

Daca, dimpotriva, am fi avutOJ:dinea (3)

iar caracteristicile pot fi înaltimea si greutatea celor n persoane. Problema care se pune este daca exista o corelatie între aceste doua caracteristici. Sa admitem ca s-a facut urmatoarea înregistrare a datelor pe un lot de 10 persoane si ca aceasta înregistrare s·a facut dupa doua caracteristici:

(1)

3 3

V2 1 1

VI

U2

V3

V4

Us

U6

V7

3 1

1 2

10 9

6 7

2 4

5 3

7 6.,

V9 8 4 10 5

Vg

VIO

9 8

Astfel, în înregistrarea (1) am asezat în prima linie cele 10 persoane. În linia a doua am înregistrat locul pe care îl ocupa fiecare

UI

(3)

3 8

V2 V3 1 10 10 1

U4

Us

U6

6 5

2 9

5 6

atunci am fi avut discordanta

V7 7 4

maxima

Vg

V9

UlO

8

4 7

9 2

3

între aceste doua

caracteristici. Daca consideram clasificarea (1), diferentele dintre linia II si linia III sunt:

di:2, -1, 1, -1,

--2,

2, 1, -2,

Se observa ca : dl +d2 + ... + dJ()==

--1, 1

O.

De altfel, în general n

L:dj =0 i=1

persoana în raport cu prima caracteristica, iar pe linia a treia,

Cu cât diferentele di sunt mai mari în valoare absoluta, cu atât

aceeasi ordine referitoare la a doua caracteristica. De exemplu,

avem o discordanta mai mare între caracteristici.

persoana V I este al treilea în ordinea crescatoare 56

a primei

Astfel, este propus urmatorul coeficient: 57

n

crescatoare de la 1 la 10, iar persoanele Ui (i =1, ... 10) au

Ld; p = 1- 6

i=!

n(x2

aceleasi caracteristici în ambele clasificari.

(n> 1)

-1)

Sa constatam ca prima persoana din înregistrarea (4) ocupa

numit coeficient de corelatie a rangurilor al lui Spcarman. cazul exemplului de mai sus,

În

locul 1 în ce priveste prima caracteristica si locul 2în ce priveste a doua caracteristica. Exista deci 9 persoane care depasesc pe U2

10

Ld; i=l

si numai

în ce priveste prima caracteristica

= 22.

8 care îl depasesc pe

U2 în raport cu a doua caracteristica.

Prin urmare:

Practic, obtinem urmatorii indicatori

P

= 1-

6 . 22

103 -10

5,3, 3,0, 1

8, 6, 7, 5,

= O 867

'

astfel: locul 2 de pe linia a 3-a din tabloul (4) este depasit de 8

Se stie ca pE [-1,1], ceea ce înseamna ca acest coefi'cient ia valori cuprinse între -1 si 1. Când P = 1 avem concordanta

pozitii. Locul 4 de 6 pozitii, locul 1de 7 pozitii s.a.m.d. Vom nota cu P suma numerelor mai mari (care depasesc o anumita

maxima

pozitie) si prin Q suma numerelor mai mici (care sunt depasite

Între cele doua variabile,

iar când

p = -1

avem

discordanta maxima între cele doua variabile. Valoarea p = 0,867 , fiind destul de apropriata de 1, arata ca Între cele doua caracteristici exista o corelatie destul de strânsa.

de acea pozitie). Astfel: P

= 8 + 6 + 7 + 5 + 5 + 3 +3 + 0+ 1 = 38

8=1+2+0+1+0+1+0+2+0=7

Kendall

Coeficientul de corelatie a rangurilor al lui Kendall

a propus

urmatorul

indicator

pentru

concordanta

rangurilor:

Sa reIuam exemplul anterior si sa luam în consideratie urmatoarea clasificare:

2(P -Q) r=---

n(n..,.l)

(4)

U6

U7

U8

U9

UlO

4

Us 5

6

7

8

9

10

5

3

7

6

10

8

9

U1

U2

U3

U4

1

2

3

2

4

1

Tabloul (4) contine aceleasi elemente ca si clasificarea (1), cu diferenta ca în linia a doua rangurile au fost scrise în ordine 58

Când r =. 1.obtinem concordanta maxima, iar când r = -1· se obtine discordanta maxima. ~.Jlre între cele doua caracteristici. Încazulexenlpluluinostru 59

loc independenta

Capitolul VI

r = 2(38 -7) = O69

10-9

'

ANALIZA DE REGRESIE

ceea ce indica o concordanta pozitiva. P se mai numeste indicator al concordantei pozitive, deoarece el creste o data cu cresterea lui r, în timp ce Q se va numi indicator al concordantei negative, întrucât r descreste când el creste. Acest coeficient al lui Kendall se aplica numai pentru serii mari. Pentru serii mici, dispersia acestui coeficient are valori man.

În statistica sociala întâlnim adesea repartitii în care fiecarei unitati a populatiei îi corespund simultan doua sau mai multe caracteristici. Astfel de.repartitii se mai numesc bidimensionale. Ele ne pot sugera existenta U110rrelatii între

caracteristicile

respective. Prezenta sau absenta unor astfel de relatii, ca si amploarea acestora, formeaza obiectul analizei seriilor interdependente. Ea presupune analiza simultana ahd6ua variabile si foloseste doua tipuri de metode statistice: regresia si corelatia. De regula, una dintre aceste doua variabile este considerata ca variabila independenta sau explicativa, în timp ce a doua este o variabila dependenta. Acest lucru are .loc.daca a doua variabila prezinta modificari la variatiile primei variabile. Analiza·acestei dependente se. face prin metoda regresiei. Termenul de regresie a fost dat de statistici anul englez Francis GaIton (1822-1911) si el stabileste legatura care exista între cele doua variabile X si Y. Cazul cel mai simplu de regresie este cel liniar. Asta înseamna ca punctele Ai(xi,yi) se distribuie în jurul unei drepte: (1)

y= a+bx

60

61

Reprezentate în plan într-un sistem de axe coordonate, o astfel de legatura de tip liniar poate avea una din urmatoarele forme:

x

x

x x x x

xx x x xx

x x

x x x

x

x

x x

x x x x x x x x

a>O

a
b>O

b>O

x x x x xx

x x

x

4)

3)

a

Determinarea

x

x

parametrilor

a si .b .din ecuatia dreptei de

regresie se face cu ajutorul metodei celor. mai mici patrate,

o

care spune ca "suma patratelor empirice Y i si valorile teoretice aO

a

Yi

diferentelor

date de ecuatia de regresie, sa

fie minima. Grafic, patratul diferentelor

b
dintre valorile

dintre

Yi

si

Yi.

exprima prin aria unor patrate ale caror laturi sunt egale cu

b
se

Yi-

Suma ariilor. acestor patrate va fi cuamt mai mica cu cât valorile empirice ale lui Y se vor apropria mai mult de valorile

Yi .

Acestor tipuri de legaturi liniare le corespund diagramele de împrastiere a valorilor celor doua variabile:

teoretice corespunzatoare n

S=

I(Yi -Yi)2 =

(2)

minim

i=1

x

x x x x x

x

x x x x x x x

x x

x x

x x x x

x x

x x x x

x x

x

xx

x

x x

x x

x x x

si tinând cont de formula (1), se obtine conditia: n

L(Yi -a-bxi)2 i=l

Utilizând

(3)

= minim

metode

ale .analizei

matematice,

am.darol

derivatelor partiale în (3), se obtine sistemul în necunoso\ltel~u' 1)

2) 62

si b:

63

n

n

na+bLxi i~1 n

aLxi i=1

= LYi i~1 n

+bLx; i=1

PO"I

(4)

O"2

==

P0"2

0'1

n

sau 0"1==0"2

= LXiYi i~1

Prin urmare, cele doua drepte de regresie coincid daca dispersiile 0'1 si

a carui rezolvare conduce la solutiile:

O' 2

sunt egale.

Sa luam drept exemplu dol1a variabile.X si Y, pentru care au m20"1-m1P0"2 a =------

SI. b

pa2 =-_

O"I

Se obtine astfel dreapta de regresie y-m2

=:-P0"2 -.-(x-mI

-.

1

!~-

7 14 11 2698 543 15 10 1:

)

I

(6) Ecuatia de regresie are forma: unde mI, mz sunt M(X), M(Y) - adica mediile variabilelor X si 0"1

Y, 0"1' 0"2- dispersiile lor, iar P - coeficientul de corelatie. În mod analog, daca ne propunem sa determinam parametrii arbitrari a si b astfel încât n

M(x-a-by)2

=: L(xj i~1

-a-byJ2

=minim

vom putea obtine o alta dreapta de regresie: y-m2

PO"l

=-(x-ml)

(7)

0"2

Cele doua drepte de regresie date de relatiile (6) si (7) se intersecteaza în punctul de coordonate G(mI, mz) care se va numi centrul de greutate al distributiei. În general, aceste drepte de regresie sunt diferite, afara de cazul . când 64

fost înregistrate 15 observatii conform cu tabelul de mai jos: Tabelul]

(5)

0"1

107 1 4 1 141089 -9 -9 11 12 3933 2639 33 3326 3 196 -5 -3 24 16 1 8 1 3 O 19 O 858 9 196 16 168 126 561 1417 944 238 9 17 627 165 X~ Vi XiYi Xi

13

Y==a+bX 65

Capitolul VII

unde

ANALIZA DE DEPENDENTA •

SI

b= LXiLYi -n:L:XiYi

(LxJ2 -nIx~

Conceptul de analiza de dependenta sau cum era cunoscut

Confonn datelor din tabelul 1, obtinem: a = -0,45; b = 0,69, deci

anterior, pathanalysis sau cauza!. an~lysis se refera la determinarea relatiilorîntre un ansamblu de variabile în contextul unei structuri cauzale, adica o structura a unui grup de variabile între

Y = -0,45 + 0,69X cu reprezentarea grafica:

care se 'constata sau se presllpun anumite relatii de interdependenta. Prin variabila vom întelege orice criteriu de•clasificare, fie ca este vorba de o însusire dihotomica(sexul), de ordine (nivelul

Y

x

de scolarizare) sau cantitativa (yenitul). Principalele modele propuse de Simon, Blalock si R. Boudon se bazeaza pe observatia coeficientului de corelatie liniara între variabile si nu se departeaza de tehnicile clasice ale analizei de regresie. Vom nota prin X un ansamblu de variabile X=(Xl,X2,

.... )

Un model de structura cauzala va fi o structura cauzala în care ipotezele sunt facute pe baza notarii relatiilor între variabile.

66

67

Modelul recursiv Acest model a fost studiat si dezvoltat de M. Simon, H. Blalock si R. Boudon, De el s-au mai ocupat Duncan si Alker.

Faptul ca variabila Xl este determinata de variabila XI, îl vom scrie analitic astfel: (1) X2= al2XI+e2 adica X2 este functie liniara de o singura variabila .xl; ez -

Ipotezele modelului recursiv

masoara reziduul,adica

Ipoteza 1. Relatiile dintre variabile sunt liniare. Asta înseamna ca orice variabila a grafului este exprimata ca functie liniara de una sau mai multe variabile care o preced în graf.

cantitatea explicata de X2; M. Simon îl numeste termen de eroare, iar R. Roudon îl numeste factor care actioneaza implicit asupra lui x2.Graful asociat relatiei (1) este în acest caz:

.'\.. /!

Xl

În acest caz, graful constituie reprezentarea· grafica a relatiilor analitice si defineste structura cauzala. De exemplu, sa presupunem ca avem un model sub forma de graf orientat cu patru variabile Xl, X2,X3,X4,în care sagetile arata influentele exercitate de unele variabile asupra altora. În fig. alaturata avem un astfel de model:

abaterea dintre valoarea variabilei Xl si

e2

X2

Fig. 2 Daca se aplica acestui model metoda celor mai mici patrate a lui Gauss, atunci coeficientul al2 poate fi privit drept coeficientul de regresie al lui X2în raport cu Xl-

A

doua ecuatie din modelul analitic asociat grafului din fig.

1,va fi: (2)

X3=a23XZ+ e3, daca variabila X3este functie liniara numai de Xl· În tine, X4este functie de X2sLde X3,deci:

(3)

X4= a24X2+ a34X3+ e4 X4

Fig.

Nu exista termen în Xl pentru ca riu exista sageata între Xl si X4·

1 68

69

Sa mai observam ca în modelul din fig. 1, XI este o variabila primara, ea nefiind influentata de o alta variabila din sistem, în timp ce variabilele X2,X3si X4sunt variabile dependente. Ipoteza 2. Nu exista efect de interactiune.

Acest lucru

înseamna. ca .relatia dintre doua variabile nu este functie de o a treia. Un exemplu sugestiv este dat de Boudon si Lazarsfeld, care studiaza influenta vârstei si a nivelului educatiei scolare asupra receptarii radiofonice a muzicii clasice.

X4

Fig. 3

Luata separat, fiecare variabila nu prezinta nici o relatie particulara cu ascultarea muzicii clasice. Pe de alta parte, daca

iar sistemul asociat grafului din fig.

s-ar studia subpopulatia adulta, s-ar constata ca exista o relatie

X2= aI2XI+ e2

între receptarea muzicii clasice si nivelul de educatie. Cei cu un nivel de instmire mai ridicat recepteaza mai mult emisiunile de

X3= aI3XI+ a23x2+ e3

muzica clasica decât alte tipuri de emisiuni.

Constructia

unui model de structura

privind prezenta saualisenta

relatiilor între variabile, vom putea construi un graf derivat din

Asta înseamna ca în graf nu exista sageti între ei pe de o parte, iar pe de alta parte nu exista sageti nici între ei si Xjpentru i

X4= aI4XI+ a24X2+ a34X3+ e4 Facând ipoteze simplificatoare

Aceasta a doua ipoteza este cumva cuprinsa în prima. Ipoteza 3. Reziduurile ei nu sunt corelate între ele.

-::f=

primul, obtinut deci prin suprimarea anumitor sageti.

j.

cauzala

Sa consideram grupul de 4 variabile ordonate: XI, X2, X3, X4 si sa construim un graf complet, adica orice cuplu de variabile este legat printr-o sageata: 70

3 va ti:

X4

Fig. 4 71

S12

Atasam grafului derivat din fig. 4 sistemul de ecuatii corespunzator:

= a12Xl + e2 X3 = a23X2 + e3 X2

(*)

X4

bJ3,2= r13,2.-'

S3,2

care leaga coeficientul de regresie partiala de cel de corelatie partiala. De aici rezulta rl3,2= O.

= a24X2 + a34X3 + e4

În continuare, se poate proceda în doua moduri:

Dupa cum se poate constata, absenta unei sageti în graful orientat este echivalenta cu anularea coeficientului de regresie aij corespunzator. Analiza si testarea modelelor matematice ale structurilor cauzale se poate face în multe feluri. O cale este aceea prin care verificam daca··90eficientiiaij

corespunzatori sagetilor absente

sunt nuli, metoda utilizata de H. Blalock. Altfel, putem rezolva

1.

Se calcllleaza acest coeficient pe baza datelor empirice, pentru a se vedea daca el este apropiat de zero (în practica este putin probabil ca el sa fie egal exact cu

zero!) 2. Sa se deduca o relatie , între coeficientii, de corelatie. , Astfel, r13,2= O antreneaza IJ3 = ru . r23, deci produsul Iu . r23 calculat da o valoare teoretica a lui r13,pe care

sistemul (*), pentru a-l urma pe R. Bou~on.

o notam ~3; aceasta valoare poate fi comparata cu Modelul lui Blalock

valoarea obtinuta empiric a lui rl3, calculata direct pe

Dupa construirea structurii cauzale si a sistemului de ecuatii asociat, Blalock ia în consideratie numai coeficientii aij care sunt nuli, ca urmare a ipotezelor initiale. Acesti coeficienti sunt coeficientii de regresie partiala din ecuatia analizei de regresie care este avuta în consideratie.

baza datelor. În cazul modelului lui Blalock, în situatia când anumite legaturi cauzale sunt presupuse nule, problema care se pune este de a sti ce se întâmpla daca una dintre ele este gresit pusa. Astfel, daca ipoteza care conduce la o anumita ecuatie, de

Astfel, în schema din fig. 4, care are asociat sistemul (*), avem:

ex. 1'13,2 = O, este gresita, a; trebui sa. ne asteptam. ca ansamblul t)

valorilor teoretice care au intrat în aCel;istarelatie sa se îndepar-

al3 = bl32

teze sensibil de valorile empirice corespunzatoare. care este coeficientul de regresie partiala între al3 = Oeste echivalent cu b13,2 = O. Pe de alta parte 72

Xl

si

X3;

deci

Daca însa ipote:.la pusa legata de o veriga intermediara este falsa, numai acest din urma coeficient va prezeuta 73

O

variatie

sensibila în raport cu valoarea empirica corespunzatoare, rara ca ecuatiile si deci legaturile anterioare sa fie afectate.

Totodata este lasata ,la latitudinea si competenta cercetatorului decizia de a se introduce o noua legatura cauzala în

În ambele cazuri, eroarea este de aceeasi natura. Daca o relatie este falsa, adaugarea sagetilor corespunzatoare poate sa

modelul explicativ .propus .si în ce masura aceasta decizie are rolul de a îmbunatati modelul propus.

îmbunatateasca modelul propus. În situatia în care o greseala se repercuteaza

asupra mai

multor relatii, vom avea tendinta sa respingem modelul. Daca eroarea ramâne localizata asupra unei singure relatii, modelul poate fi recuperat, ameliorare.

indicându-se

astfel

si modalitatile

de

Din punct de vedere metodologic, un alt punct controversat al acestui model consta în aceea ca nu este propus nici un test care sa indice gradul de apropiere a valorilor teoretice de cele empirice. În acest sens, cercetatorul are mai multa libertate de decizie, de validare sau invalidare

a modelului

propus, de

îmbunatatire a acestuia atunci când rezultatele obtinute nu au fost satisfacatoare. Constructia apriorica a structurilor cauzale recursive deduse din ipoteze sau rezultate din teorie ar trebui sa 'fie urmata de o analiza profunda a validitatii prezentei sau absentei fiecareia dintre relatiile date. Aceasta analiza ar consta dintr-un sir de analize de regresie, aplicabile primelor variabile ale modelului, l apoi variabilelor intermediare introduse pe parcursul analizei. Metodologia aceasta ofera posibilitatea

si chiar oportunitatea

revenirii periodice asupra ipotezelor modelului ameliorare a acestora. 74

si eventuala 75

Capitolul VID

controlate, .•cu rezultatele care s-ar fi obtinut daca. ar fi fost anchetata întreaga populatie adulta; Acest lucru este cu adevarat remarcabil.

SONDAJUL STATISTIC SI ESANTIONUL STATISTIC

Desi cu vechi traditii, sondajul statistica

capatat notorietate

stiintifica în prima jumatate a secolului 20. El a fost aplicat cu mult.succes în perioada interbelica prin anchetele si rezultatele Ce este sondajul statistic?

obtinute de George Gallup în SUA .si mai apoi în Franta si

Procedeul statistic prin care reusim sa prelevam o parte din

Anglia anilor premergatori celui de-al doilea razboi mondia1.

populatia intrata în studiu, denumit univers de esantionare, se va numi sondaj statistic sau selectie. Rezultatul acestei operatiuni se va numi esantion. Asadar,

esantionul

este

subcolectivitatea

extrasa

În aceeasi perioada s-au realizat progrese notabile în teoria si practica sondajelor statistice,prin

contributiile aduse de lucrarile

lui J.Neyman privind esantionareasimplu

aleatoare, stratificata,

din

multistadiala, construirea optimala a unui esantion stratificat etc.

populatia totala, pe care dorim sa o studiem. Neavând intentia (si adesea nici posibilitatea) de a studia fiecare unitate statistica

Odata puse bazele teoriei sondajelor, cercetarile s-au îndreptat în directia· problemelor practice pe .care. le ridica utilizarea

a întregii populatii, scopul nostru este sa alegem esantionul de

sondajelor: metode de esantionare, de estimare, de alcatuire a

asa maniera, încât studiindu-l, rezultatele obtinute sa poata fi

chestionarelor de opinie, <:leinstruire a operatorilor de teren,

extinse asupra întregii populatii din universul de esantionare.

codificarea si prelucrarea datelor recoitate, interpretarearezul.,

În preajma alegerilor electorale locale sau generale, candidatii si formatiunile politice interesate doresc sa afle cum

tatelor obtinute. Toate acestea au fost posibile ca urmare a dezvoltarii si utili-

se pozitioneaza ierarhic în preferintele electoratului. În cazul

zarii metodelor statistice, cu precadere a statisticii inferentiale.

alegerilor generale, universul de esantionare înseamna populatia adulta a tarii, adica de peste 18 ani împliniti. Asta înseamna

Contributii esentiale în acest domeniu si-au adus K. Pearson,

aproximativ 16 milioane de alegatori. Statistica reuseste ca, prin

J. Neyman,·A.N. Kolmogorov, R. Fisher,Feller, Gnedenko etc. În. anii din· urma, desi practica sondaj elor .statistice a luat o

respectarea riguroasa a anumitor reguli, sa extraga un esantion

amploare. f"ara.precedent, utilizarea metodelor statistice a fost

de 1200-1800 de subiecti, iar rezultatele obtinute din anchetarea

practicata cu stângacie sau în mod neadecvat. Acest lucru

acestor subiecti sa coincida, în limita unei erori minimale, 76

poate adesea întâlnisi

se

în sondajele .de opinie care. au caracter 77

preelectoral si care confruntate la scurt timp cu realitatea - pe care a constituit-o alegerile locale sau generale, pune în evidenta uneori mari abateri de la realitate. Aceste situ.atii neplacute pot fi evitate prin cercetari minutioase, prin amplasarea judicioasa în teren a retelei anchetato-

Esantionul .care urmeaza a fi extras trebuie sa îndeplineasca o conditie de baza, potrivit .careia concluziile

obtinute din

studiul esantionului sa se poata extinde asupra întregii populatii. Acest proces se va numi inferenta statistica. Capacitatea unui esantion de a reproduce

cât mai fidel

rilor de opinie, prin instruirea adecvata a acestora, prin utilizarea

structurile si caracteristicile populatiei din care a fost extras va fi

unor tehnici adecvate de corectie, a estimarii si minimizarii erorilor.

numita reprezentativitatea esantionului.

De ce folosim sondajele de opinie?

Gradul de reprezentativitate al·unui esantion este·masurat de doua marimi:

Având în vedere ca un sondaj corect realizat reproduce

eroarea maxima, notata prin d, si care exprima diferenta *

structura populatiei investigate pe principalele ei caracteristici,

cea mai mare pe care o acceptam între o valoare v , data

de aici vor rezulta avantajele utilizarii sondajelor de opinie. Sondajele se utilizeaza atunci când cercetarea statistica exhaus-

de esantion, si valoarea teoretica v (data de populatia

tiva (cazul recensamântului populatiei) implica cheltuieli foarte

Asadar, d = max\v' - vi

mari si consum urias de eforturi umane $i de timp. De asemenea,

marimea P - numita nivel de încredere, care arata ce

trebuie avut în vedere ca sunt situatii când un sondaj statistic bine efectuat da rezultate mai bune decât investigarea .întregii populatii din universul de esantionare, si aceasta deoarece: programul de cercetare prin sondaj cuprinde, de regula, mai multe caracteristici decât o cercetare exhaustiva a populatiei; anchetatorii de teren utilizati într-un sondaj de opinie

totala).

sanse sunt ca eroarea comisa sa nu depaseasca eroarea maximad. În acest fel, se construieste un interval (v' - d, v' +d) numit

interval de încredere --1 * v

*

J

v +d

sunt superior instruiti fata de situatia unui recensamânt, când acestia sunt improvizati si cu un instructaj sumar. Dupa cum am vazut, recensamântul este studiul exhaustiv al întregii populatii din universul de esantionare. 78

Daca pentru o anumita caracteristica, valoarea teoretica v se gaseste în interiorul acestui interval v E (v' ~ d, v' + d), atunci, 79

marimea esantionului;

pentru aceasta caracteristica a populatiei, eroarea maxima admisa nu este atinsa, iar esantionul este valid din acest punct de vedere. Asadar, reprezentativitatea

unui esantion este caracterizata

de cuplul (d, P).

procedura .de esantionare folosita.

Pentru caracterizarea nivelului de omogenitate al populatiei se utilizeaza abaterea standard, care masoara nivelul de dispersie al indivizilor în jurul mediei.

Cu toate acestea, nu putem vorbi de reprezentativitatea întregului esantion, ci de o reprezentativitate pe fiecare caracteristica în parte. Reprezentativitatea

_

este o notiune relativa, în sensul ca un

esantion este mai reprezentativ sau mai putin reprezentativ decât altul.

Sa mai retinem ca reprezentativitatea

creste o data cu cres-

terea volumului esantionului, pe anumite portiuni. Acest lucru este pus în evidenta de urmatorul· grafic: Reprezentativitate •• 100%

\

,

~

.

Compararea se face în felul urmator: daca la un nivel de probabilitate dat, pentru o aceeasi caracteristica, eroarea d este mai mica în primul esantion, atunci acest esantion este mai reprezentativ. De asemenea, daca la o aceeasi eroare nivelul de încredere P este mai ridicat, din nou putem spune ca acest esantion este mai reprezentativ.

••••

O

Marimea esantionului

Relatia dintre volumul esantionului si reprezentativitatea sa

Pentru nivelul de încredere P se accepta valoarea minima: 0,95 (ceea ce înseamna ca posibilitatea de a gresi nu este mai mare de 0,05 sau 5%) Pentru d se accepta o valoare mai mica decât 3% în sondajele de opinie.

Se constata ca peste o· anumita limita cresterea în volum a esantionului nu mai este justificata de ameliorarea reprezentativitatii. Marimea populatiei nu intervine în marimea si reprezenta-

Marimi le d si P nu sunt independente.

tivitatea esaritionului.

al unui esantion depinde de:

Gradul de reprezentativitate

caracteristicile populatiei; 80

J 81

Proceduri de esantionare

cantitative (numarul de .membri ai unei. familii,··cifra de

Dupa modul cum sunt concepute, esantioanele sunt de doua feluri: aleatoare (sau pro babilistice); nealeatoare. Esantioanele nealeatoare pot fi dirijate si mixte.

afaceri,dimensiunea

localitatii etc.).

Dupa delimitarea celors straturi:. NI, N2, ..... , Ns se ·extrag în mod simplu aleator S ""-subesantioanede

marimi: nl, n2, ... , ns·

Aceste volume se extrag tiecaredinstratul

corespunzator si sunt

proportionale cu marimea stratului:

O procedura de esantionare se va numi aleatoare atunci

111

NI

când fiecare individ din populatie are o sansa reala, calculabila si nenula de a fi ales în esantion.

=

n2

=

N2

= ns ••••

Ns

Se poate arata ca dintre doua esantioane de volum egal, cel

Orice alta procedura este neprobabilista. Pentru a fi siguri ca fiecare individ al populatiei are sanse de a fi' ales în esantion,

realizat prin stratificareare·o

reprezentativitate mai mare decât

cel obtinut prin tehnica si111plaa.leatoare.

este necesara o foarte buna cunoastere a structurii populatiei (a

3. Esantionarea multistadiala (sau grupala)

universului de esantionare). Asta înseamna existenta unor liste

Aceasta presupune o grupare a populatiei pe ariigeografice,

ale populatiei, adica a unui cadru de esantionare,

care sa

permita accesul la fiecare individ al populatiei. Esantionarea simplu aleatoare are la baza principiul loteriei sau al tragerii la sorti. Esantionarea

prin

stratificare

populatii neomogene, omogene sau straturi.

alcatuite

Un esantion muItistadial

este mai putin reprezentativ, la

volume egale, decât unul simplu aleator, dar comporta> un cost

Practic, se vor folosi tabelele de numere aleatoare. 2.

În cadrul acestor arii se selecteaia un numar

de localitati, în cadrul acestora se selecteaza un numar de strazi etc.

Tipuri de esantionari 1.

culturaltfsaujudete.

se din

efectueaza

mai scaZut. în

subpopulatii

Criteriile de determinare a structurilor sunt: calitative (geografic: judete, zone, localitati; salariat /

4. Esantionaream1l1tifazica

în alegerea .unui

esantion mare, la nivelul caruia se aplica un instrument· d.c cercetare mai simplu; acest esantion· se supune· Unor operatii succesive deesl:ll1tion.areobtiM11.du-se straturi din ceîltce mici, carora li Se aplica metodemaielaborate.

nesalariat; mediu de provenienta); 82

consta

83

mai

5. Esantionareape Aceasta

cote (nealeatoare)

presupune

caracteristici

gruparea

populatiei

dupa

câteva

si apoi se determina marimea subesantioanelor.

populatiei pentru viata social-politica, pentru anumite decizii de interes local sau national. Putem deduce de aici ca politica unui guvern, a unei

Structura generala a populatiei se grupeaza de regula dupa

formatiuni politice, a unei întreprinderi,.a conducerilorsindicale,

caracteristicile de baza (sex, grupe de vârsta, categorii socio-

se regleaza permanent prin intermediul sondajelor care txprima

profesionale), zone urbane (rurale,judete etc.)

de fapt interesul unei colectivitati. Sa retinem ca în cercetarile

În sondajul pe cote, care se aseamana cu cel stratificat, fiecarui operator îi este repartizat un numar de subiecti, alesi dupa câteva criterii (câte persoane de sex masculin si câte de sex feminin trebuie luate, câte din fiecare grupa de vârsta etc.). la latitudinea operatorului de teren.

urmareste

schimbarile

repetate

cu acelasi

chestionar.

El

nea localitatilor

etc.), iar în cadrul straturilor

alegerea

se

american, subliniaza avantajul, din punct de vedere practic, al acestei metode.

Tipuri de erori în sondajele statistice Pe parcursulelaborarii si aplicarii sondajului statistic se pot introduce o serie de erori, unele semnificative, altele mai putin ..

Concluzii

dezavantaje,

Sondajul mixt .face un compromis, .efectuându-se o cotare

care se petrec în cadrul populatiei.

Prezinta dezavantajul uzurii morale a esantionului.

Metoda

urmatoarele tipuri de sondaje: pe cote, ~leator si mixt.

efectueaza aleator. ÎnSasi Hubert Blalock, celebrul metodolog

fIxe (panel). Acestea, odata fixate, sunt

supuse unor investigatii

predomina

sumara (pe 2-3 caracteristici, deex: zone traditionale,dimensiu~

Modul cum este ales fiecare subiect în parte este lasat adesea 6.. Esantioane

sociologice

sondajului

de opinie

prezinta

dintre care cel mai important

si o serie

de

este acela ca

sondajele, de cele mai multe ori, nu surprind schimbarile care se petrec în evolutia unui fenomen social. Sondajele reflecta, de regula, o situatie de moment, ele fiind de fapt o radiografiere a fenomenului studiat la un moment dat. În anii din urma, sondajele de opinie au devenit o practica frecventa în viata social-politica a tarii. Ele masoara interesul 84

E bine, Însa, de stiut, ca anumite tipuri de erori pot produce abateri importante ale rezultatului de la realitate. Erorile se sondaj sunt de douafeluri: erori de înregistrare; erori de reprezentativitate. Erorile de înregistrare se .pottihe

usor sub ·.controI.atunci

când pentru realizarea anchetei de teren se apeleaza la personal calificat si experimentat. 85

Erorile de reprezentativitate pot fi si ele de doua feluri:

Capitolul IX

erori sistematice;

CHESTIONARUL

erori.întâmplatoare. Erorile sistematice apar atunci când nu se respecta principiile. de baza ale teoriei esantionarii.

DE OPINIE.

ELEMENTE pRIVIND PROIECTAREA CHESTIONAR ULm

Sa dam câteva exemple în care apar erori sistematice de reprezentativitate:

afectarea caracterului aleator al sondajului

prin selectarea la întâmplare

a elementelor statistice, rara a

Chestionarul constituie principalul instrument de culegere a

respecta o metodologie anume; intelectualizarea sondajului, care are loc atunci când chestionarul de opinie cuprinde întrebari

datelor prin metoda sondajului statistic de opinie. EL nu constituie o simpla însirulrede întrebari, rara legatura între ele si

dificile, sofisticat formulate (care induc asa-numita "spirala a

mai ales rara o anumita logica. Constructia unui chestionat de

tacerii"), când din comoditate, unii operatori de ancheta aleg cu precadere subiecti mai scoliti si deci mai comozi În desfasurarea

opinie a fost îmbunatatita permanent, datorita experientei practice acumulate, dar. sistematizarea acestuia s"a produs o data cu

anchetei, si aceasta în detrimentul celorlalte categorii; în acest

axiom.atizarea chestionarului de catre Claude Picard si apoi pe

fel sunt afectate proportiile straturilor, si deci reprezentativitatea esantionului.

baza analizei informationale fundamentata de scoala româneasca

Lipsa constiinciozitatii

operatorilor

cantitate a non-raspunsurilor

de teren si o mare

constituie cauzele principale ale

erorilor sistematice de reprezentativitate. Erorile întâmplatoare

sau aleatoare

de statistica dupa ideile acad. Octav Onicescu. Câteva lucruri se impun a fi mentionate. Se spune adesea ca "un sondaj nu poate fi mai bun· decât chestionarul sau", adica decât modul cum sunt formulate între-

de selectie apar în

barile, decât ordinea si complexitatea lor.

procesul derularii sondajului chiar si atunci când sunt respectate

Se stie ca la întrebarile cu mai multe întelesuri se vor· primi

regulile metodologice. Acest tip de eroare provine din structura

raspunsuri echivoce, neconcludente. De asemenea, un chestionar

metodei de esantionare. Aceste tipuri de erori sunt cunoscute,

cu multe întrebari, si acestea cu formulari gre6aie,produce

calculate anterior si se pot tine sub control.

confort atât operatomlui, cate adesea îl va trata superficial, dar si

86

dis-

respondentului, care se va plictisi, va da semne de nervozitate, nu va mai fi atent la întrebari. 87

În acest caz, el va raspunde monosilabic sau deloc, ducând la cresterea numarului .de non-raspunsuri. Proiectarea unui chestionar de opinie trebuie sa înceapa cu specificarea problemei de cercetat. Problemele sociale au în general un grad mare de complexitate care impune descompunerea lor pe mai multe dimensiuni. Aceste dimensiuni trebuie

întrebarile trebuie puse cu tact si un anume menajament fata de subiect pentru a nu-i provoca reactii nedorite. Tipuri de întrebari a) DupacontinutullDr,

întrebarile sunt: factuale, de opinie,

transformate în indicatori, adica în modalitati de stabilire a

de cunoastere. Îutrebarile factuale privesc aspecte de comportament

prezentei sau absentei unei caracteristici, a intensitatii acesteia.

indivizilor anchetati sau ale altora care· vin în .contact cu ele.

Fiecare întrebare din chestionar va reprezenta un indicator. Selectarea

întrebarilor

care urmeaza

sa fie incluse

ale

Aceste informatii sunt, teoretic, verificabile (ce reviste, ziare în

chestionar presupune existenta unor ipoteze sau chiar a unei teorii privind fenomenul social ce urmeaza sa fie cercetat. O atentie deosebita trebuie acordata construirii scalelor de raspunsuri care implica atât posibilitatea de ierarhizare, cât si pe cea de masurare a atitudinilor, avându-se în vedere ca se porneste de la opinii pentru a se ajunge la atitudini. Este indicat sa se respecte un numar de reguli care urmaresc sa dea întrebarilor si raspunsurilor o forma coerenta, care sa permita valorificarea corecta a acestora. Astfel:

citeste, Ice emisiuni TVa unnaritetc.). Întrebarile de· opinie vizeaza· parerile, atitudinile, credintele, atasamentul fata de anumite valori etc. Aceste informatii nu pot fi obtinute direct prin ale metode. Întrebarile de cunoastere evidentiaza preocuparile intelectuale ale indivizilor. Ele pot fi utilizate si ca întrebari de control (astfel de întrebari nu aduc un plus de informatie, ele verifica raspunsurile de la alte întrebari anterioare). b) Dupa forma de înregistrare a raspunsurilor, avem: întrebari închise; întrebari deschise;

întrebarile trebuie sa se refere la opinii si nu la fapte;

întrebari cu posibilitati multiple de raspuns (se pot alege

întrebar.ea trebuie sa fie la obiect, scurta si pusa într-un limbaj adecvat, pentru a fi accesibila;

doua sau mai multe variante de raspuns).

întrebarea trebuie sa prevada toate raspunsurile posibile, iar anchetatorul de teren sa nu favorizeze din ton sau nuanta vreunul din raspunsuri; 88

89

Analiza non-raspunsurilor Prin non-raspunsuri

În stiintele sociale întâlnim patru feluri de scale:

întelegem atât lipsa raspunsurilor

unele întrebari în cadrul aceluiasi raspunsului la întregul chestionar. Aparitia non-raspunsurilor

chestionar,

la

cât si lipsa

1) Scale nominale, care presupun o enumerare de posibilitati. Exemplu: locul de provenienta.

în cadrul aceluiasi chestionar

poate însemna ca anumite întrebari sunt dificile, ca ele pot

Termenii acestei scale nu pot fi comparati. 2) Scale ordinale, care permit o oarecare masurare a distantei dintre posibilii termeni ai scalei.

deranja anumite segmente ale populatiei, ca nu prevad toate variantele de raspuns. Unele persoane nu raspund de teama, din necunoasterea raspunsului sau alte situatii. În orice caz, procente crescute de non-raspunsuri perturba

Exemplu: note primite la examen, trepte de învatamânt etc., în care fiecare treapta este superioara celei anterioare.

3)Scale cll intervale, care permit masurarea distantelor dintre diferitele trepte si ranguri .

rezultatul general al sondajului. Toate aceste lucruri trebuie avute în vedere înca din faza de concepere si proiectare a cercetarii si a chestionarului. A doua situatie în care chestionare întregi ramân necompIetate este generata de urmatoarele

situatii: refuzul de a

coopera, absenta de la domiciliu a respondentului în momentul

Exemplul cel maielocvertt este celalmasurarii 4)

Scaleproportionale,

care exprim.a·.posibilitatea· unui

raport între doua pozitii de pe o scala. De exemplu, putem spune ca o persoana care are 40 de ani este de doua ori mai în vârsta decât una de 20 de ani.

desfasurarii anchetei, schimbari de adrese si neactualizate pe listele de esantionare, cazuri de infirmitati, alte unitati statistice care au disparut din baza de sondaj. Desi statistica ofera solutii care remediaza anumite situatii, totusi este important sa se .identifice.cauzele care provoaca nonraspunsurile.

Analiza scalara Analiza scalara sau analiza ierarhica presupune atât posibilitatea de esantionare, cât si masurarea atitudinilor. 90

cronologice.

91

Capitolul X

prin utilizarea intervalelor de încredere;

.

TESTE DE SEMNIFICATIE

prin utilizarea unor criterii, numite teste ale ipotezei nule, bazate pe ipoteza cavariabila

ci

= Â.*t·..:.X2

are medianu1a.

Acceptarea ipotezei nuleadmite l.1rn1atoarelealternative: Problema semnificatiei unor marimi si mai ales a semnificatiei diferentei dintre doua marimi se pune atunci când se compara doua valori, dintre care cel putin una provine dintr-o cercetare concreta. Adoptarea unui plan de selectie la o populatie stratificata se sprijina pe un sir de ipoteze: omogenitatea straturilor, volu-

1. Ipoteza facuta este adevarata si urmeaza sa fie acceptata; 2 .. Ipoteza facuta este.falsa si· s-a comis· o eroare ca ea a fost acceptata. Conceptul de prag de semnificatie este o probabilitate si masoara riscul de a gresi atlmci c;â11dse ia o astfel de hotarâre. Exista teste de semnificatie care se aplica esantioanelor mari,

mele esantioanelor etc. Un alt plan de selectie presupune alte

precum: t~stul Z, testul ..X2 si teste. de semnificatie

ipoteze, alte estimatii. În aceasta situatie, trebuie analizat caror

esantioane

estimatii le acordam mai multa încredere si a vedea, în acelasi timp, în ce masura diferenta dintre ele este sau nu semnificativa.

Snedecor).

Daca avem în vedere o anumita caracteristica a variabilei teoretice X si daca valori estimative

Â.;

si Â.*2 ale valorii teoretice

atunci media teoretica a variabilei diferenta trebuie sa se anuleze, adica Â.,

M(

Â.~ - Â.*2 )

=O

Aplicarea

lui Student), testul F (Fisher-

În cele ce urmeaza, vom· an.aliza testul. X2. ~ Se pl.ille problema de a testa daca structura esantiqnului se abate semnificativ de la o structura standard, dupa o caracteristica. Sa luam un exemplu. Sa presupunem unesantionde nasteri cu urmatoarea distributie:

Acest lucru a condus la introducerea metodei de cercetare Anotimp

denumita ipoteza nula.

mici:. testul t(al

240 10Vara 270 Total 24% 27% Iarna 1000 2Primavara 1% 280 28% 100% .. To.amna

Numar Procent ipotezei nule, în sensul de a constata daca

aceasta relatie este sau nu îndeplinita, poate fi facuta în doua moduri: 92

pentru

93

1000 de

Se constata ca subesantioanele nu sunt uniform distribuite pe anotimpuri. Se pune problema daca aceasta serie difera semnificativ de cea în care respectivele proportii ar fi identice: 25%. Testul X2 se aplica astfel: Notam prin k}, kz, esantion si cu mI, mz, zatoare. Formula este:

,ks un sir de frecvente obtinute pe un

, ms frecventele teoretice corespun-

(240-250Y(270~250Y X == 250 + 250 2

(280..,-250Y (210-250Y + 250 + 250 =

==100 + 400 + 900 + 1600 ==3000 ==12 250 250 Cum 12 > 7,82 (valoarea critica), rezulta ca diferenta este semnificativa. Altfel spus, ipoteza nula este respinsa cu o probabilitate d~ " 0,95.

De o deosebita importanta în utilizarea testului

X2

este

stabilirea numarului gradelor de libertate. Acesta se calculeaza astfel: v ==s -1 în cazul unui tabel unidimensional cu s celule; v ==(s -1)(t -1) în cazul unui tabel bidimensional celule.

cu sxt

În cazul exemplului anterior, avem: Sirul frecventelor empirice: 240; 270; 280; 210 Sirul frecventelor teoretice: 250; 250; 250; 250 v==4-1==3 Din tabele gasim valorile critice: 7,82 pentru pragul de semnificatie p ==0,05 . 9,84 pentru pragul de semnificatie p ==0,02 11,35 pentru pragul de semnificatie p = 0,01 94

95

Bibliografieselectiva 1. Johan Galtung, theory and Methods ofSocialResearch /2. N. Mihaila, Introducere în teoria probabilitatil()rststatistica matematica 3. GH. Mihoc, V.Urseanu, Matematici aplicate în statistica 4. Dumitru Porojan, Statistica si teoria Sondajului, Ed. Sansa, 1993 5. T. Rotariu, P. Ilut, Ancheta sociologica

si sondajul

de

opinie, Ed. Polirom, 1997 6. T. Rotariu (coord.) s.a., Metode statistice aplicate în stiintele sociale, Ed. Polirom, 1999 7. IoanMarginean,

Masurarea în sociologie, Ed. Stiintifica si

Enciclopedica, 1982 8. D. Sandu, Statistica în stiintele sociale, Bucuresti, 1992 9. Yule, G.U., Kendall, M.G., Introducere în teoria statisticii, Ed. Stiintifica, 1969 10. Moser C.A., Metodele

de ancheta în investigarea feno-

menelor sociale, Ed. Stiintifica (1967) 11. Durkheim, E., Regulile metodei sociologice, Ed. Stiintifica, 1974 12. Chelcea S., Chestionarul

în investigatia sociologica,

Ed.

Stiintifica si Enciclopedica, 1975 13. Alexandrescu P., Sistemele electorale. Principiul majoritatii si limitele sale. Rev. Româna de Sociologie, nr. 5-6/2001 97

14. Alexandrescu P., Modalitati de ameliorare a cercetari/or de

teren care au la baza sondajul statistic, Rev. Româna de Sociologie, nr. 1-2/2000 15. Alexandrescu P., O metoda de analiza scalara ierarhizare, Rev. Româna de Sociologie, nr. 3-4/2000

98

si

Editura Paralela 45 Pitesti, jud. Arges, cod 110174, str. Fratii Golesti 128-130; tel./fax: (0248)63.14.39; (0248)63.14.92; (0248)21.45.33; e-mail: [email protected] Bucuresti, cod 71341, Piata Presei Libere nr. 1, Casa Presei Libere, corp C2, mezanin 6-7-8, sector 1, tel./fax: (021)224.39.00; OP 33, CP 13, e-mail: [email protected]

COMENZI-

CARTEA

EDITURA PARALELA

PRIN POSTA 45

Pitesti, jud. Arges, cod 110174, str. Fratii Golesti 128-130 Tel./fax: 0248214533; 0248631439; 0248 631 492. E-mail: [email protected] sau accesati www.edituraparalela45.ro Conditii: • rabat Între 5% si 25%; • taxele postale sunt suportate de editura; • plata se face ramburs, la primirea coletului.

Tiparul executat la tipografia Editurii Paralela 45

Related Documents