© M. Popa – Statistica psihologică: Coeficientul de corelație Pearson
Coeficientul de corelaţie liniară Pearson (r) Conf. dr. Marian Popa Introducere Am utilizat testul t pentru eşantioane dependente pentru a evalua semnificaţia diferenţei dintre două medii, rezultate în urma măsurării unei variabile cantitative, pe un eşantion de subiecţi (sau de subiecţi „pereche”) aflat în două situaţii (condiţii) diferite. Cele două condiţii reprezintă valorile variabilei independente, iar cercetătorul este interesat să afle dacă există o diferenţă semnificativă între mediile rezultate în fiecare dintre cele două condiţii. În concluzie, problema cercetării într-o situaţie de acest gen este axată pe ideea de „diferenţă între perechile de valori”. În practica cercetării există fie situaţii în care nu suntem interesaţi de „diferenţa dintre două medii” rezultate pe acelaşi grup de subiecţi, ci de „gradul de asociere dintre două variabile măsurate pe acelaşi grup de subiecţi. fiecare variabilă reprezentând altceva. În acest caz cercetătorul doreşte să afle dacă există o legătură între variaţia valorilor unei variabile în raport cu cealaltă variabilă. Pentru a înţelege mai bine diferenţa dintre cele două abordări statistice, să ne uităm puţin în tabelele de date de mai jos:
sub 1 sub 2 sub 3 sub 4 sub 5 media
v1 7 9 8 6 5 7
v2 4 5 6 7 3 5
(a) În cazul diferenţei dintre medii, valorile celor două distribuţii (v1 şi v2) pentru un eşantion de 5 subiecţi sunt „condensate” prin mediile lor (7 şi 5), a căror diferenţă (7-5=2) este testată din punct de vedere al semnificaţiei statistice.
sub 1 sub 2 sub 3 sub 4 sub 5
v1 7 9 8 6 5
v2 4 5 6 7 3
(b) În cazul corelaţiei dintre valorile celor două distribuţii se urmăreşte punerea în evidenţă a modului în care se asociază valorile perechi, adică în ce măsură există o legătură între fiecare valoare şi perechea ei.
Într-o relaţie de asociere ambele variabile sunt dependente una de alta, iar valorile lor pot fi exprimate, fie cu aceeaşi unitate de măsură, fie cu unităţi de măsură diferite. Iată câteva exemple de acest gen: • există o legătură între numărul atitudinilor pozitive pe care le manifestă oamenii şi numărul atitudinilor pozitive pe care le primesc din partea celor din jur? • există o legătură între timpul de reacţie şi nivelul extraversiunii, ca trăsătură de personalitate? • există o legătură între greutate şi înălţime? • există o relaţie între frecvenţa pulsului şoferilor şi viteza cu care conduc maşina? • există o relaţie între numărul orelor de studiu la statistică şi punctajul obţinut la evaluări? În toate aceste situaţii avem câte două variabile, ambele fiind dependente una în raport cu alta, în sensul că este vizată existenţa unei concordanţe în variaţia reciprocă a valorilor celor două variabile, iar testul statistic utilizat se bazează pe calcularea unui „coeficient de corelaţie”. Înainte de a fi un concept statistic termenul de corelaţie este un cuvânt uzual în limbajul cotidian. În esenţă, el exprimă o legătură între anumite aspecte ale realităţii, aşa cum este ea reflectată în planul observaţiei directe. De exemplu, o parcare plină cu maşini ne sugerează că magazinul alăturat
Coeficientul de corelaţie liniară Pearson
este plin cu cumpărători, între numărul de maşini din parcare şi numărul de cumpărători existând o anumită „corelare”. La nivel statistic, corelaţia exprimă o legătură cantitativă sistematică între valorile a două variabile perechi, măsurate pe subiecţi aparţinând aceluiaşi eşantion de cercetare. Coeficientul de corelaţie este doar una dintre procedurile statistice prin care se pune în evidenţă „corelarea” dintre variabile. În termeni generali, chiar şi testele t, prezentate anterior, pun în evidenţă (co)relaţia (legătura) dintre o variabilă dependentă şi valorile unei variabile independente. Corelaţia liniară Să presupunem că un grup de studenţi au efectuat un test de inteligenţă bazat pe raţionament abstract/figurativ şi un altul, bazat pe raţionament verbal/logic. Dacă studenţii care obţin valori mari la primul test tind să obţină valori mari şi la cel de-al doilea, avem ceea ce se numeşte o corelaţie pozitivă. Dacă, dimpotrivă, studenţii care obţin valori mari la unul dintre teste tind să obţină valori mici la cel de-al doilea, atunci ne aflăm în faţa unei corelaţii negative. Este evident că există şi posibilitatea ca valorile celor două variabile să evolueze absolut independent unele de celelalte, ceea ce indică absenţa oricărei corelaţii. Precursorul teoretic al coeficientului de corelaţie este coeficientul de covarianţă. El se defineşte ca sumă a produselor dintre valorile celor două variabile, raportată la numărul perechilor de valori din cele două distribuţii:
cov xy =
∑x* y
(formula 3.27)
unde x şi y sunt valorile perechi ale celor două variabile, iar N este volumul eşantionului. Problema pe care o ridică coeficientul de covarianţă este legată de unităţile de măsură. Formula poate fi aplicată numai dacă valorile perechi sunt exprimate în aceeaşi unitate de măsură, pentru ca produsul lor să aibă sens. Evident, nu am putea-o utiliza pentru a calcula coeficientul de covariaţie între înălţime şi greutate, de exemplu, deoarece este dificil să înţelegem rezultatului unui produs dintre unităţi de măsură diferite (greutate şi lungime). Soluţia problemei constă în transformarea valorilor celor două variabile în scoruri standard, ceea ce produce un rezultat care nu mai are legătură cu unitatea de măsură. Intensitatea legăturii dintre valorile a două variabile se exprimă prin coeficientul de corelaţie liniară, notat cu simbolul r. Introdus de Karl Pearson1, acest coeficient mai este cunoscut şi sub numele de coeficientul de corelaţie Pearson, sau al „moment-produsului”, după expresia uneia din formulele de calcul. Formula de definiţie a coeficientului de corelaţie este: r=
∑z
x
* zy
(formula 3.28)
unde zx respectiv zy sunt scorurile z ale variabilelor x şi y, iar N este volumul eşantionului. Situaţia de maximă corelaţie posibilă între cele două distribuţii este atunci când valorile lor sunt identice. Dacă ar fi aşa, atunci valorile zx sunt egale cu valorile zy, iar formula 3.28 ar putea scrisă ca:
∑z r=
2 x
(formula 3.29)
În continuare, dacă înlocuim în formula de mai sus expresia de calcul a lui z şi facem toate simplificările posibile, ajungem în final la formula deja cunoscută a dispersiei. În consecinţă, din faptul că dispersia unei distribuţii z este întotdeauna egală cu +1, rezultă că valoarea maximă pe care o poate atinge coeficientul de corelaţie, în cazul unei corelaţii pozitive perfecte, este r=+1. 1
Karl Pearson (1857-1936), matematician, filozof al ştiinţei, biometrician şi statistician englez.
2/15 Actualizat la: 07.12.2007/08:47:10
Coeficientul de corelaţie liniară Pearson
Corespunzător, în cazul unei corelaţii negative perfecte, conform aceluiaşi raţionament, rezultă că valoarea minimă posibilă a coeficientului de corelaţie este r= -1.
Reprezentarea grafică a corelaţiei Plasarea valorilor corelate pe un grafic, produce o imagine intuitivă a relaţiei dintre valori. Acest tip de grafic se numeşte scatterplot (denumiri echivalente: scattergramă și scattergraf) În cazul unei corelaţii pozitive, reprezentările scatterplot arată astfel: Relaţie directă – Corelaţie pozitivă r = 1.00
+ | | | | |________________
r = .80
+ | | | | |________________
r = .20
+ | | | |
În cazul unei corelaţii pozitive valorilor mari ale unei variabile tind să le corespundă valori mari le celeilalte variabile. La limită, pentru o corelaţie pozitivă perfectă (r=+1) punctele de intersecţie ale perechilor de valori se plasează pe o linie dreaptă, dinspre stânga jos spre dreapta sus, la un unghi de 45 de grade între cele două axe. Cu cât corelaţia este mai mică, cu atât norul de puncte este mai larg, dar forma elipsei indică relaţia pozitivă dintre cele două variabile. În imaginea de mai jos avem reprezentări scatterplot caracteristice pentru trei corelaţii liniare negative. Relaţie indirectă- Corelaţie negativă r = -1.00 r = -.80
r = -.20
+ | | | | |________________ +
+ | | | | |________________ +
+ | | | | |________________ +
În cazul corelaţiei negative, tendinţa este aceea ca valorilor mari ale unei variabile să le corespundă valori mici ale celeilalte variabile. Ca urmare, atât linia corelaţiei negative perfecte (r=-1), cât şi diagonala mare a elipsei norului de puncte al unei corelaţii negative imperfecte, se orientează din stânga sus spre dreapta jos a sistemului de coordonate. În fine, atunci când corelaţia dintre cele două variabile este inexistentă, norul punctelor de intersecţie are o formă circulară, care nu conturează nici o tendinţă (r=0).
3/15 Actualizat la: 07.12.2007/08:47:10
Coeficientul de corelaţie liniară Pearson
%ici o relaţie – %u există corelaţie
r = 0.00
+ | | | | | |________________ +
Calcularea coeficientului de corelaţie liniară Pearson De obicei, pentru a uşura calcularea manuală a coeficientului de corelaţie, mai ales atunci când avem date numeroase, sunt utilizate formule derivate din formula de definiţie (formula 3.28), prin înlocuirea expresiilor pentru scorul z.
r=
∑z
x
* zy
=
∑ [( X − m ) / s ]* [(Y − m x
x
y
) / sy
]
Se deduce astfel o formulă care, deşi apare mai complicată, este mai uşor de pus în practică, deoarece se bazează pe valori care se obţin prin calcule mai simple: de unde obţinem: r =
∑ ( X − m ) * (Y − m ) x
* sx * s y
y
(formula 3.30)
unde: • • • •
X şi Y reprezintă valorile individuale ale distribuţiilor X şi Y mx şi my reprezintă mediile distribuţiilor X şi Y sx şi sy reprezintă abaterile standard ale distribuţiilor X şi Y N este volumul eşantionului
Formula 3.30 este doar una dintre variantele utilizate. Ea poate fi utilizată pentru calcule, la fel de bine ca şi formula 3.28, obţinându-se rezultate identice. În general, pentru păstrarea acurateţei rezultatului se recomandă păstrarea primelor patru zecimale ale fiecărei operaţii de calcul dar, pentru exemplele didactice, unde rezultatul nu are o finalitate reală, se poate lucra şi cu primele două zecimale. Oricum, în final, valoarea coeficientului r se raportează în mod obişnuit cu doar două zercimale. Criteriile deciziei statistice La fel ca în cazul celorlalte teste statistice, şi coeficientul r se raportează la o distribuţie teoretică, care este una derivată din distribuţia t. Indiferent de cât de mare este r calculat, nu putem avea încredere în acesta atâta timp cât nu ştim în ce măsură este diferit de un r care ar rezulta prin jocul întâmplării. Pentru aceasta se utilizează distribuţia t şi o formulă care derivă din testul t. Pentru uşurarea evaluării semnificaţiei, a fost creat un tabel special cu praguri de semnificaţie ale coeficientului de corelaţie r care poate fi folosit fără a mai fi necesară utilizarea formulei (vezi tabelul semnificaţiilor coeficientului de corelaţie din anexă). Practic, se caută în tabel care este nivelul lui r pentru numărul gradelor de libertate (df=N-2), şi un prag α ales în prealabil. Dacă valoarea calculată este cel puţin egală sau mai mare decât valoarea tabelară (critică) a lui r, atunci ipoteza de nul se respinge, coeficientul de corelaţie fiind considerat semnificativ. Pentru exemplul nostru, pentru test unilateral, α=0.05 şi df=6 (8-2), citirea tabelului se face ca în figura de mai jos.
4/15 Actualizat la: 07.12.2007/08:47:10
Coeficientul de corelaţie liniară Pearson
Nivel de semnificaŃie unilateral .05 .025 .01 Nivel de semnificaŃie bilateral .10 .05 .02 .988 .997 .9995 .900 .950 .980 .805 .878 .934 .729 .811 .882 .669 .754 .833 .622 .707 .789
df
1 2 3 4 5 6
– test .005 – test .01 .9999 .990 .959 .917 .874 .834
În condiţiile precizate pentru cercetarea propusă ca exemplu, valoarea tabelară (critică) a lui r este 0.622. Dacă am fi preferat un test bilateral, pentru acelaşi nivel al lui alfa, valoarea r critic ar fi fost 0.707. EXEMPLU DE CALCUL Vom lua în considerare cazul aplicării celor două teste de raţionament de tip diferit. În acest caz, ipoteza cercetării se exprimă în maniera: „există o legătură (corelaţie) între cele două tipuri de raţionament, cei care obţin rezultate bune la unul din teste, vor tinde sa obţină rezultate bune şi la celalalt”. Desigur, ipoteza poate fi formulată şi corespunzător unei corelaţii negative, dacă avem motive să presupunem acest lucru. Scorul la testul de calcul aritmetic X (x-mx) (x-mx)2 25 -4.63 21.44 32 2.37 5.62 40 10.37 107.54 29 -0.63 0.40 31 1.37 1.88 16 -13.63 185.78 28 -1.63 2.66 36 6.37 40.58 Σ= 237 Σ=365.88 mX= 29.63 sX = 7.23
Scorul la testul de raţionament verbal Y (y-my) (y-my)2 28 -1.88 3.53 27 -2.88 8.29 41 11.12 123.65 34 4.12 16.97 25 -4.88 23.81 19 -10.88 118.37 26 -3.88 15.05 39 9.12 83.17 Σ= 239 Σ=392.88 mY = 29.88 sY = 7.49
Produsul abaterilor de la medie (x-mx)* (y-my)
8.70 -6.83 115.31 -2.60 -6.69 148.29 6.32 58.09 Σ=320,63
Pentru calcularea coeficientului de corelaţie am ales, de data aceasta, formula 3.30, prin care, înlocuind valorile, obţinem valoarea coeficientului de corelaţie:
r=
∑ ( X − m )* (Y − m ) = x
* sx * s y
y
320.63 320.63 = = +0.74 8 * 7.23 * 7.49 433.22
Graficul scatterplot pentru datele din exemplu este corespunzător unei asocieri pozitive între cele două variabile, norul de puncte urmând o elipsă cu diagonala mare pe direcţia stânga jos-dreapta sus:
5/15 Actualizat la: 07.12.2007/08:47:10
Coeficientul de corelaţie liniară Pearson
X
45 40 35 30 25 20 15 10 5 0 0
10
20
30
40
50
Y
Decizia statistică Valoarea calculată a lui r (+0.74) este mai mare decât valoarea critică (+0.62), fapt care îndreptăţeşte respingerea ipotezei de nul. Ca urmare, acceptăm ca semnificativ coeficientul de corelaţie obţinut. Datele cercetării susţin ipoteza că între scorurile celor două teste există o legătură pozitivă semnificativă2.
Corelaţie şi cauzalitate Coeficientul de corelaţie ne oferă informaţii despre modul în care variază valorile a două variabile, una în raport cu cealaltă. Ca urmare, coeficientul de corelaţie nu are o semnificaţie cauzală decât dacă cele două variabile au fost măsurate într-un context care probează cauzalitatea. Iar acest lucru se petrece numai în condiţii de experiment. %atura liniară a corelaţiei Pearson Trebuie să reţinem faptul că ceea ce exprimă r este intensitatea corelaţiei liniare, adică măsura în care norul de puncte reprezentat de intersecţia valorilor perechi ale celor două variabile poate fi reprezentat de o linie dreaptă. Asocierea de tip liniar este însă doar una dintre formele de aproximare a legăturii dintre variabile. În realitate, uneori, corelaţia dintre două variabile are o formă care se abate de la modelul rectiliniu (are o formă curbă). Dacă privim imaginile de mai jos, putem observa câteva tipuri posibile de curbe de corelaţie. Figurile a şi b exprimă corelaţii perfecte, dar care se supun unui model curbiliniu, în timp ce figura c reprezintă o corelaţie perfectă rectilinie.
Relaţiile curbilinii sunt calculate pe baza altor proceduri decât coeficientul Pearson (r), dar acestea nu fac de regulă obiectul de studiu al unei introduceri în statistica aplicată. Să reţinem totuşi că, dacă am calcula un coeficient r pentru distribuţiile din figurile a şi b, atunci valoarea acestora ar fi foarte mică şi, cel mai probabil, nesemnificativă, în ciuda asocierii grafice evidente a valorilor lor. Pentru a înţelege şi mai bine acest fapt, oferim un exemplu ilustrativ. Am introdus valorile lui z şi probabilităţile corespunzătoare lor de pe curba normală, într-un program de prelucrări statistice. Forma normală a curbei obţinute ne indică faptul că, dinspre partea stângă a acesteia, valorile z devin 2
În mod uzual, valorile lui r se raportează cu două zecimale, chiar dacă valorile tabelare şi cele calculate de programele statistice sunt cu mai mult de două zecimale.
6/15 Actualizat la: 07.12.2007/08:47:10
Coeficientul de corelaţie liniară Pearson
Distributia normala z
din ce în ce mai mici (în valoare absolută), corespunzător cu creşterea probabilităţii, până la mijlocul curbei, unde z=0, iar probabilitatea este maximă. Mergând mai departe, spre dreapta, valorile lui z încep să crească, concomitent cu reducerea probabilităţii. Coeficientul de corelaţie calculat pentru un eşantion de date ale celor două variabile statistice este r=0, iar imaginea scatterplot a relaţiei dintre ele este prezentată în figura alăturată3:
(r=0)
,6
,5
,4
,3
,2
p
,1
0,0 -4
-3
-2
-1
0
1
2
3
4
z
Aşa cum se observă, deşi r=0, ceea ce indică absenţa oricărei corelaţii liniare între variabile, curba de distribuţie arată o corelaţie curbilinie perfectă. Din fericire, astfel de situaţii sunt relativ rare în realitate, modelul corelaţiei liniare fiind adecvat pentru un mare număr de relaţii dintre variabilele naturale, incluzându-le şi pe cele psihologice. Atunci când există suspiciuni consistente cu privire la natura liniară a legăturii dintre variabile, se pot efectua anumite transformări care să le aducă în cadrul unei variaţii liniare (de exemplu, extragerea radicalului sau logaritmarea variabilelor). Atunci când se raportează un coeficient de corelaţie fără a se preciza caracterul liniar sau curbiliniu, vom considera că acesta se referă la corelaţia liniară. Exemplul dat ne sugerează faptul că graficul scatterplot oferă informaţii suplimentare semnificative şi, din acest motiv, este recomandabilă realizarea acestuia de fiecare dată când utilizăm testul de corelaţie Pearson. Un argument spectaculos în sprijinul acestui aspect ne este oferit de Anscombe (1973), care a realizat cele patru seturi de date din tabelul de mai jos: Setul #1 X1 Y1 10,00 8,04 8,00 6,95 13,00 7,58 9,00 8,81 11,00 8,33 14,00 9,96 6,00 7,24 4,00 4,26 12,00 10,84 7,00 4,82 5,00 5,68
Setul #2 X2 10,00 8,00 13,00 9,00 11,00 14,00 6,00 4,00 12,00 7,00 5,00
Y2 9,14 8,14 8,74 8,77 9,26 8,10 6,13 3,10 9,13 7,26 4,74
Setul #3 X3 Y3 10,00 7,46 8,00 6,77 13,00 12,74 9,00 7,11 11,00 7,81 14,00 8,84 6,00 6,08 4,00 5,39 12,00 8,15 7,00 6,42 5,00 5,73
Setul #4 X4 Y4 8,00 6,58 8,00 5,76 8,00 7,71 8,00 8,84 8,00 8,47 8,00 7,04 8,00 5,25 19,00 12,50 8,00 5,56 8,00 7,91 8,00 6,89
Coeficienţii de corelaţie dintre cele patru perechi de variabile (X1-Y1, X2-Y2, X3-Y3; X4-Y4) sunt identici: r=0.81. Şi totuşi, dacă sunt analizate reprezentările scatterplot pentru fiecare dintre cele patru perechi de variabile, imaginile ne oferă diferenţe importante cu privire la natura reală a relaţiei dintre ele:
3
Exemplul se bazează pe un eşantion de 61 de perechi de valori, selectate de pe toată plaja distribuţiei z
7/15 Actualizat la: 07.12.2007/08:47:10
Coeficientul de corelaţie liniară Pearson
12,00
12,00
10,00
10,00
x2
14,00
x1
14,00
8,00
8,00
6,00
6,00
4,00
4,00
4,00
5,00
6,00
7,00
8,00
9,00
10,00
11,00
3,00
4,00
5,00
6,00
y1
7,00
8,00
9,00
10,00
y2
20,00
14,00
18,00 12,00
16,00
x4
x3
10,00
14,00
8,00
12,00
6,00
10,00
4,00
8,00 6,00
8,00
10,00
12,00
6,00
y3
8,00
10,00
12,00
y4
În cazul perechii X3-Y3, o valoare extremă a redus coeficientul de corelaţie, iar în cazul perechii de variabile X4-Y4, unde corelaţia ar fi fost nulă, ea este generată de o singură valoare extremă. Desigur, astfel de efecte apar cu precădere în cazul eşantioanelor de volum mic, dar grija pentru valorile extreme trebuie menţinută în toate cazurile. Mărimea efectului coeficientului de crelaţie Spre deosebire de testele t, introduse anterior, valoarea testului r este interpretabilă prin ea însăşi, exprimând intensitatea asocierii dintre variabile. Aşa cum am spus deja, avem o corelaţie perfectă atunci când r este egal cu +1 sau –1. Valoarea obţinută pe exemplul nostru (+0.74) este destul de apropiată de +1. Desigur, +0.74 este mai puţin decât +1, dar şi mai mult decât, să zicem, +0.32. O asemenea interpretare, deşi absolut corectă, nu poate fi satisfăcătoare. Se simte necesitatea de a avea un criteriu de valorizare a cuantificării numerice a corelaţiei. De-a lungul timpului au fost propuse diverse astfel de scale de valorizare, prin atribuirea unor calificative coeficienţilor de corelaţie, în funcţie de mărimea lor. Această problemă comportă multe discuţii, iar soluţiile oferite de diferiţi autori sunt deseori diferite. Ca regulă generală, toţi autorii sunt de acord că valorile mai mici de ±0.1 ale coeficienţilor de corelaţie trebuie să fie considerate „neglijabile”, chiar şi atunci când ating pragul de semnificaţie statistică. Oferim, cu caracter orientativ, modelul de descriere propus de Hopkins (2000) cu privire la interpretarea valorilor coeficienţilor de corelaţie: Coeficientul de corelaţie 0.0-0.1 0.1-0.3 0.3-0.5 0.5-0.7 0.7-0.9 0.9-1
Descriptor Foarte mic, neglijabil, nesubstanţial Mic, minor Moderat, mediu Mare, ridicat, major Foarte mare, foarte ridicat Aproape perfect, descrie relaţia dintre două variabile practic indistincte
O altă variantă de interpretare a mărimii efectului recunoscută este cea propusă de Davis (citat de Kotrlik şi Williams, 2003): 0.70 → 0.50 – 0.69
asociere foarte puternică asociere substanţială 8/15 Actualizat la: 07.12.2007/08:47:10
Coeficientul de corelaţie liniară Pearson
0.30 – 0.49 0.10 – 0.29 0.01 – 0.09
asociere moderată asociere scăzută asociere neglijabilă
Înaintea oricărui calificativ însă, prima condiţie pentru a lua în considerare existenţa unei corelaţii între două variabile rămâne atingerea pragului de semnificaţie (alfa). Dacă valoarea lui r este mai mică decât r critic (corespunde unui nivel p mai mare de 0.05, sau decât alt prag legitim decis de cercetător), existenţa unei corelaţii nu poate fi luată în considerare, indiferent de mărimea coeficientului r Pearson. Aceasta, deoarece nu avem temei pentru a accepta că se îndepărtează suficient de o valoare care ar fi putut decurge prin jocul hazardului. În cele din urmă ce trebuie să luăm în considerare, semnificaţia sau intensitatea asocierii? Desigur, răspunsul este unul relativ. Dacă finalitatea studiului este aceea de a lua decizii, ca în cazul selecţiei de personal, de exemplu, se vor căuta valori cât mai mari ale coeficientului de corelaţie (r). Dar dacă obiectivul este preponderent teoretic, de a pune în evidenţă relaţii „ascunse” între variabile, atunci, indiferent de mărimea lor, coeficienţii de corelaţie vor fi luaţi în considerare (desigur, dacă sunt mai mari de 0.1). Coeficientul de determinare Valorile lui r trebuie considerate pe o scală ordinală. Ca urmare, nu este corect să afirmăm că un coeficient de corelaţie de 0.40 este de două ori mai mare decât un altul de 0.20. Dacă dorim să comparăm în mod direct doi coeficienţi de corelaţie trebuie să ridicăm valorile lui r la pătrat (r2), obţinând astfel ceea ce se numeşte coeficient de determinare (prezentat în programele statistice şi ca „r squared”). Acesta este considerat un indicator mai adecvat al mărimii efectului, deoarece ia valori sensibili mai mici decât cele ale coeficientului de corelaţie. Pentru exemplul nostru, coeficientul de determinare este 0.742=0.55. Transformat în procente, acest rezultat se interpretează astfel: „55% din variaţia (împrăştierea) uneia dintre cele două variabile este determinată de variaţia celeilalte variabile”. Sau, altfel spus, cele două variabile au in comun 55% din variaţia care le caracterizează, ceea ce înseamnă că 45% din variabilitatea lor provine din alte surse. Atenţie, interpretarea procentuală, în maniera prezentată, este valabilă numai pentru coeficientul de determinare. Coeficientul de corelaţie (r) nu poate fi interpretat în nici un caz sub formă procentuală! Cohen (citat de Kotrlik şi Williams, 2003) a propus următoarea regulă de evaluare a mărimii coeficentului de determinare ca indice de mărime a efectului în cazul corelaţiei: r2 (Cohen)
0.0196 0.1300 0.2600
efect mic efect mediu efect mare
Vom observa că valorile lui r corespunzătoare celor trei praguri ale lui r2 sunt 0.14, 0.36 şi, respectiv, 0.50, ceea ce este în concordanţă cu recomandările de mai sus pentru interpretarea lui r.
Să reţinem că mărimea efectului, care este, de fapt, însăşi mărimea coeficientului r, depinde de două elemente principale: - Caracterul liniar al relaţiei dintre variabile. O componentă curbilinie a asocierii va conduce la valori mai mici ale coeficientului de corelaţie. Graficul scatterplot ne poate ajuta la evidenţierea acestui aspect. - Variabilitatea distribuţiilor comparate. Dacă variabilele cercetate au o împrăştiere redusă, acest fapt limitează posibilitatea de a obţine valori ridicate pentru r. Mărimea eşantionului are efect doar asupra puterii testului (eşantioanele mari conduc mai uşor la atingerea pragului de semnificaţie), dar nu au un efect important asupra mărimii lui r.
9/15 Actualizat la: 07.12.2007/08:47:10
Coeficientul de corelaţie liniară Pearson
Limitele de încredere pentru coeficientul de corelaţie r Atunci când calculăm coeficientul de corelaţie pentru valorile măsurate pe un eşantion, o facem, desigur, cu scopul de a avea o estimare asupra gradului în care cele două variabile au o variaţie comună la nivelul întregii populaţii. Deoarece calcularea corelaţiei pe „valorile populaţiei” este practic imposibilă, tot ce putem face este să o estimăm, cu o anumită marjă de eroare, prin utilizarea corelaţiei pe eşantion. Astfel, în termeni formali, r (calculat pentru eşantion) este o estimare pentru ρ (ro), corelaţia „adevărată” la nivelul populaţiei. Calcularea limitelor de încredere Construirea intervalelor de încredere pentru coeficientul de corelaţie la nivelul populaţiei (ρ) nu este la fel de simplă ca în cazul altor valori statistice, dar se bazează pe acelaşi raţionament fundamental: limitele de încredere se află în jurul unui punt de estimare (r) la care se adaugă sau se scade valoarea r critic înmulţită cu eroarea standard a estimării. Problemele specifice decurg din natura distribuţiei lui r. Atunci când valoarea corelaţiei la nivelul populaţiei este ρ=0, distribuţia de eşantionare rs (valorile lui r care ar fi calculate pe eşantioanele extrase din aceeaşi populaţie) formează o distribuţie normală în jurul lui zero (dacă volumul eşantionului este suficient de mare). Dar dacă ρ=+0.7, distribuţia lui rs are o împrăştiere asimetrică în jurul lui acestei valori. Motivul este simplu: este mai mult „loc” pentru valori sub +0.7 decât peste această valoare, deoarece ştim că r ia valori între -1 şi +1. Cu cât estimarea pentru ρ este mai aproape de limitele teoretice ale lui r, cu atât distribuţia rs este mai asimetrică spre partea opusă. Această particularitate creează o piedică în transformarea coeficienţilor rs în scoruri Z (cu majusculă, pentru a se evita confuzia cu scorurile z clasice), necesare construirii limitelor intervalului de încredere pentru ρ. Problema a fost rezolvată de Fisher, care a elaborat un algoritm pe baza căruia valorile rs sunt transformate în valori Z, a căror arie de distribuţie sub curba normală este cunoscută: Z=0.5ln[(1 + r)/(1 - r)]
(formula 3.31)
Pentru a se evita aplicarea acestei formule relativ greoaie, se poate utiliza un tabel (vezi în anexă tabelul Fisher de transformare în Z a valorilor lui r) care, chiar dacă nu conţine toate valorile intermediare, este suficient pentru a acoperi nevoile practice. Să luăm ca exemplu valoarea coeficientului de corelaţie parţială obţinut de noi mai sus: r=+0.74. Ne propunem să aflăm care sunt limitele de încredere ale acestei valori, adică să definim intervalul în care se poate afla valoarea reală a corelaţiei la nivelul populaţiei, cu o probabilitate asumată. De regulă, aşa cum ştim, această probabilitate asumată este de 0.05 sau, exprimată altfel, un nivel de încredere de 95%. Practic, aflarea limitelor se face în felul urmîtor: • Se transformă r calculat în valoare Z, citind tabela Fisher: în cazul nostru, pentru r=0.74 avem o valoare Zr=0.9505 (dacă valoarea lui r nu se regăseşte ca atare în tabel, se poate face o medie a valorilor apropiate). Pe o distribuţie normală, cum este distribuţia de eşantionare Z, ştim că aproximativ 95% dintre valori se întind între -1.96 şi +1.96. Adică, pe o distanţă de aproximativ două abateri standard în jurul mediei (abaterea standard a valorilor Z fiind 1). • Se calculează eroarea standard a transformării Zr, cu formula:
1 1 = = 0,447 unde N este volumul eşantionului −3 8−3 Se calculează limitele superioară şi inferioară a intervalului: ρ = Z r ± zcritic * re , adică:
re =
•
Limita superioară (Z): 0.9505+1.96*0.447=+1.826 Limita inferioară (Z): 0.9505-1.96*0.447=+0.074
10/15 Actualizat la: 07.12.2007/08:47:10
Coeficientul de corelaţie liniară Pearson
Limitele astfel calculate sunt exprimate în valori transformate Z, ori noi avem nevoie să ştim limitele în valori ale lui r. Pentru aceasta, facem acum transformarea inversă, citind valorile lui Z în tabela Fisher, corespunzătoare celor două limite de mai sus: Limita superioara de încredere pentru r=+0.95 Limita inferioară de încredere pentru r=+0.07 În concluzie, valoarea adevărată (la nivelul populaţiei) a corelaţiei dintre cele două variabile, se află, cu o probabilitate de 95%, în intervalul cuprins între +0.07 şi +0.95. Limita inferioară este în apropierea unei corelaţii egale cu 0, iar limita superioară în vecinătatea corelaţiei perfecte, ceea ce ne arată o precizie de estimare scăzută. Acest fapt este normal, dacă avem în vedere mărimea redusă a eşantionului, care determină un nivel ridicat al erorii standard pentru r (prin faptul că se află la numitorul formulei). Utilizarea limitelor de încredere Dacă analizăm limitele intervalului de încredere astfel obţinute, pentru exemplul nostru, trebuie să constatăm că ele sunt foarte mari, în zona valorilor pozitive, dar având limita inferioară destul de aproape de valoarea zero. Acest fapt conduce la concluzia că, deşi este atât mare şi semnificativ statistic, coeficientul obţinut are o valoare mică de generalizare. Situaţia este generată, în acest caz, de volumul extrem de mic al eşantionului. Amplitudinea intervalului de încredere este direct dependentă de volumul eşantionului. Cu cât N este mai mare, cu atât valoarea erorii standard tinde să scadă, ceea ce aduce limitele intervalului de încredere mai aproape de valoarea calculată a lui r. Să ne imaginăm că am efectuat un calcul de corelaţie pe 30 de subiecţi şi am obţinut r=0.30 (când semnul corelaţiei nu este specificat, se consideră pozitiv). Limitele de încredere pentru acesta sunt între -0.07 şi +0.60, ceea ce arată că este nesemnificativ, dat fiind faptul că între cele două limite este şi valoarea zero, aceea care este vizată de ipoteza de nul. Faptul că limita inferioară este foarte aproape de valoarea zero (la numai 7 sutimi de ea), ne îndreptăţeşte să credem că, prin mărirea volumului eşantionului de cercetare ar putea fi atins nivelul de semnificaţie statistic. Aceasta, deoarece în formula erorii standard a lui r volumul eşantionului se află la numitor şi, cu cât N va fi mai mare, cu atât valoarea lui re va fi mai mică, iar limitele intervalului de încredere pentru r, mai aproape de r. Tabelul următor arată care sunt limitele pentru exemplul dat, dacă N ar creşte, progresiv, până la 100: Niv. de Limite de încredere Pearson N încredere r inferioară superioară (%) 30
0,30
95
-0,07
0,60
40
0,30
95
-0,01
0,56
50
0,30
95
0,02
0,53
60
0,30
95
0,05
0,51
70
0,30
95
0,07
0,50
80
0,30
95
0,09
0,49
90
0,30
95
0,10
0,48
100
0,30
95
0,11
0,47
Utilitatea practică a acestor estimări de limite este dată de faptul că ne arată cu cât ar trebui să creştem volumul eşantionului pentru a obţine un rezultat semnificativ al coeficientului de corelaţie dintre cele două variabile. Aşa cum se vede, dacă am creşte volumul eşantionului la 50 de subiecţi, limita inferioară ar trece deja peste valoarea zero. Celelalte linii din tabel prezintă efectul de mărime al eşantionului în cazul creşterii lui N până la 100 de subiecţi.
11/15 Actualizat la: 07.12.2007/08:47:10
Coeficientul de corelaţie liniară Pearson
Semnificaţia diferenţei dintre doi coeficienţi de corelaţie Să presupunem că într-o cercetare este evaluată corelaţia dintre extraversie şi agresivitate separat, pentru bărbaţi şi pentru femei, obţinându-se o valoare r=0.50 pentru bărbaţi şi o valoare r=0.30 pentru femei, ambii coeficienţi fiind semnficativi. În acest caz ne-am putea pune problema dacă cei doi coeficienţi diferă semnificativ între ei, ceea ce ar însemna că relaţia dintre extraversie şi agresivitate este mai ridicată la bărbaţi decât la femei. Diferenţa dintre doi coeficienţi de corelaţie poate fi evaluată cu un test specific, care ia în considerare nu doar diferenţa dntre valorile r, ci şi mărimea eşantioanelor şi mărimea în sine a celor doi coeficienţi. De exemplu, având în vedere că semnificaţia coeficienţilor de corelaţie depinde şi de mărimea eşantionului, înseamnă că o diferenţă de 0.1 între doi indici de corelaţie poate fi nesemnficativă dacă cei doi r sunt 0.15 şi 0.25, dar poate fi semnificativă dacă valorile r comparate sunt 0.80 şi 0.90. Modul de calcul al semnificaţiei dintre doi coeficienţi de corelaţie va fi prezentat mai tîrziu, în secţiunea rezervată procedurilor SPSS. Condiţii pentru calcularea coeficientului de corelaţie Pearson Pentru a putea utiliza în mod legitim calculul de corelaţie eşantionul trebuie să fie aleatoriu, iar cele două variabile (ambele măsurate pe scale de interval/raport) trebuie să aibă o distribuţie care să nu se abată grav de la distribuţia normală. Această condiţie este cu atât mai importantă cu cât eşantionul este mai mic. O atenţie aparte trebuie acordată valorilor excesive, prezenţa acestora putând avea efecte neaşteptate asupra valorii coeficientului de corelaţie (vezi exemplele lui Anscombe). Utilizarea coeficientul de corelaţie Analiza de corelaţie este una dintre cele mai uzuale proceduri statistice în cercetarea psihologică. Printre utilizările cele mai comune menţionăm analiza consistenţei şi validităţii testelor psihologice. Consistenţa se referă la gradul în care un instrument de evaluare se concentrează asupra unei anumite realităţi psihice. Validitatea, se referă la faptul dacă ceea ce presupune că măsoară un instrument psihologic este măsurat cu adevărat (de exemplu, o scală de anxietate măsoară cu adevărat anxietatea?). Din cele prezentate, rezultă că putem utiliza coeficientul atunci când avem serii perechi de distribuţii. Pentru o mai bună înţelegere, se cuvine să facem câteva aprecieri comparative cu testul t pentru eşantioane dependente. Testul t pentru eşantioane dependente, se aplică atunci când măsurăm o anumită variabilă în două situaţii diferite (de ex. înainte/după), ceea ce presupune aceeaşi unitate de măsură. Coeficientul de corelaţie poate fi aplicat atât pentru variabile măsurate cu aceeaşi unitate de măsură cât şi pentru variabile exprimate în unităţi de măsură diferite. Aceasta deoarece formula de calcul ia în considerare expresia standardizată a valorilor (corurile z). Întrebarea este, când utilizăm unul sau altul dintre cele două teste? Răspunsul ţine de scopul pe care ni-l propunem. Dacă dorim să punem în evidenţă diferenţa dintre valorile medii ale variabilelor, vom aplica testul t pentru eşantioane dependente. Dacă ne interesează intensitatea variaţiei concomitente a variabilelor, vom utiliza coeficientul de corelaţie. Coeficientul de corelaţie Pearson nu este singurul test al asocierii variabilelor. Există o varietate de teste de corelaţie, utilizate pentru situaţiile în care variabilele cercetate sunt măsurate, fiecare, pe oricare dintre scalele de măurare. Publicarea rezultatului corelaţiei Raportarea coeficienţilor de corelaţie va cuprinde, pe lângă indicatorii statistici descriptivi ai variabiulelor (medii, abateri standard, indicatorii simetriei şi aplatizării), volumul eşantionului, valoarea lui r, nivelul de semnificaţie şi coeficientul de determinare (r2). Prezentarea limitelor de încredere nu este uzuală, poate şi pentru că programele statistice obişnuite nu le oferă, dar calcularea şi includerea lor în documentul cercetării este de dorit.
12/15 Actualizat la: 07.12.2007/08:47:10
Coeficientul de corelaţie liniară Pearson
Pentru exemplul de mai sus, o prezentare narativă a rezultatului ar putea arăta astfel: „A fost evaluată performanţa la un test de calcul aritmetic şi la unul de raţionament verbal logic, pentru un eşantion de 6 subiecţi. Scorurile mari se referă la performanţe ridicate. Media scorului la primul test a fost de m=29.63 (s=6.76), iar la al doilea m=29.88 (s=7.01). Am obţinut o corelaţie semnificativă între cele două performanţe, r=0.74 (r2=0.55), p<0.05, bilateral. Limitele de încredere pentru coeficientul r (95%) sunt cuprinse între +0.07 şi +0.95.” NOTĂ: Se precizează neapărat semnificaţia valorilor variabilelor în raport de mărimea lor, pentru a se putea aprecia corect natura relaţiei dintre variabile. ***
TEMA PENTRU ACASĂ Un psiholog şcolar consemnează numărul de conduitelor agresive efectuate şi, concomitent, numărul conduitelor de apreciere primite de aceiaşi elevi, pe durata pauzelor. Rezultatele sunt centralizate în tabelul următor. nr. conduite agresive nr. aprecieri primite 1. 2. 3. 4. 5. 6.
2 8
7 3
5 4
12 2
1 5
10 2
8 1
6 5
5 4
2 7
3 6
4 1
Care este coeficientul de corelaţie între cele două variabile? Este coeficientul r obţinut, semnificativ la un nivel alfa=0.05, bilateral? Cum interpretaţi psihologic rezultatul? Efectuaţi reprezentarea scatterplot a celor două variabile. Evaluaţi mărimea efectului Calculaţi limitele lui r pentru un interval de încredere de 95%
13/15 Actualizat la: 07.12.2007/08:47:10
Coeficientul de corelaţie liniară Pearson
Tabelul cu valori critice pentru coeficientul de corelaţie Pearson (r) (limitat la df=100)
df
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 60 70 80 90 100
Nivel de semnificaŃie unilateral .05 .025 .01 Nivel de semnificaŃie bilateral .10 .05 .02 .988 .997 .9995 .900 .950 .980 .805 .878 .934 .729 .811 .882 .669 .754 .833 .622 .707 .789 .582 .666 .750 .549 .632 .716 .521 .602 .685 .497 .576 .658 .476 .553 .634 .458 .532 .612 .441 .514 .592 .426 .497 .574 .412 .482 .558 .400 .468 .542 .389 .456 .528 .378 .444 .516 .369 .433 .503 .360 .423 .492 .352 .413 .482 .344 .404 .472 .337 .396 .462 .330 .388 .453 .323 .381 .445 .317 .374 .437 .311 .367 .430 .306 .361 .423 .301 .355 .416 .296 .349 .409 .275 .325 .381 .257 .304 .358 .243 .288 .338 .231 .273 .322 .211 .250 .295 .195 .232 .274 .183 .217 .256 .173 .205 .242 .164 .195 .230
– test .005 – test .01 .9999 .990 .959 .917 .874 .834 .798 .765 .735 .708 .684 .661 .641 .628 .606 .590 .575 .561 .549 .537 .526 .515 .505 .495 .487 .479 .471 .463 .456 .449 .418 .393 .372 .354 .325 .302 .284 .267 .254
Sursa: Cohen, B. (2004). Explaining Psychological Statistics (2 ed.): John Wiley & Sons, Inc.
14/15 Actualizat la: 07.12.2007/08:47:10
Coeficientul de corelaţie liniară Pearson
Tabelul Fisher de transformare a valorilor r în scoruri Z R 0.0000 0.0100 0.0200 0.0300 0.0400 0.0500 0.0600 0.0700 0.0800 0.0900 0.1000 0.1100 0.1200 0.1300 0.1400 0.1500 0.1600 0.1700 0.1800 0.1900 0.2000 0.2100 0.2200 0.2300 0.2400 0.2500
Z 0.0000 0.0100 0.0200 0.0300 0.0400 0.0500 0.0601 0.0701 0.0802 0.0902 0.1003 0.1104 0.1206 0.1307 0.1409 0.1511 0.1614 0.1717 0.1820 0.1923 0.2027 0.2132 0.2237 0.2342 0.2448 0.2554
r 0.2600 0.2700 0.2800 0.2900 0.3000 0.3100 0.3200 0.3300 0.3400 0.3500 0.3600 0.3700 0.3800 0.3900 0.4000 0.4100 0.4200 0.4300 0.4400 0.4500 0.4600 0.4700 0.4800 0.4900 0.5000 0.5100
Z 0.2661 0.2769 0.2877 0.2986 0.3095 0.3205 0.3316 0.3428 0.3541 0.3654 0.3769 0.3884 0.4001 0.4118 0.4236 0.4356 0.4477 0.4599 0.4722 0.4847 0.4973 0.5101 0.5230 0.5361 0.5493 0.5627
r 0.5200 0.5300 0.5400 0.5500 0.5600 0.5700 0.5800 0.5900 0.6000 0.6100 0.6200 0.6300 0.6400 0.6500 0.6600 0.6700 0.6800 0.6900 0.7000 0.7100 0.7200 0.7300 0.7400 0.7500 0.7600 0.7700
Z 0.5763 0.5901 0.6042 0.6184 0.6328 0.6475 0.6625 0.6777 0.6931 0.7089 0.7250 0.7414 0.7582 0.7753 0.7928 0.8107 0.8291 0.8480 0.8673 0.8872 0.9076 0.9287 0.9505 0.9730 0.9962 1.0203
R 0.7800 0.7900 0.8000 0.8100 0.8200 0.8300 0.8400 0.8500 0.8600 0.8700 0.8800 0.8900 0.9000 0.9100 0.9200 0.9300 0.9400 0.9500 0.9600 0.9700 0.9800 0.9900
Z 1.0454 1.0714 1.0986 1.1270 1.1568 1.1881 1.2212 1.2562 1.2933 1.3331 1.3758 1.4219 1.4722 1.5275 1.5890 1.6584 1.7380 1.8318 1.9459 2.0923 2.2976 2.6467
(Sursa: http://davidmlane.com/hyperstat/rtoz_table.html)
15/15 Actualizat la: 07.12.2007/08:47:10