TEMA 9 TEORIA CORELAȚIEI
Statistica
dr. Bradu Marcel
PLAN: 1. TIPOLOGIA RELAȚIILOR DINTRE VARIABILE. CORELAȚIA DINTRE VARIABILE 2. INDICATORII SINTETICI AI CORELAȚIEI 3.TESTAREA SEMNIFICAȚIEI COEFICIENTULUI DE CORELAȚIE
4.ASOCIEREA DINTRE VARIABILELE CALITATIVE. TESTUL 2
TIPOLOGIA RELAȚIILOR DINTRE VARIABILE CORELAȚIA DINTRE VARIABILELE Statistica studiază relațiile cauzale dintre fenomenele și procesele economice. Datorită caracterului complex al fenomenelor şi datorită multitudinii de factori care intervin, aceste relații de dependență se manifestă sub formă de tendinţă. Statistica prin diverse procedee şi metode studiază manifestarea acestor legături, le poate exprima cantitativ şi măsura intensitatea cu care se produc. Vom nota prin: y – variabilă endogenă, dependentă sau rezultativă, adică variabila a cărui variaţie este influenţată x – variabila exogenă, independentă sau factorială, adică variabila ce are o oarecare influenţa asupra variabilei y
Forme de relații (legături) dintre variabile
A. După numărul variabilelor care se iau în studiu avem: Relație simplă, relație existentă între două variabile (exemplu: relația între suprafaţa comercială şi valoarea vânzărilor, legătura dinte productivitate și salariu)
Relație multiplă, relație prin care se analizează legătura dintre o variabilă rezultativă y și o multitudine de variabile factoriale x1, x2,…xn (exemplu: relația dintre producţie, capital şi forţă de muncă)
Forme de relații (legături) dintre variabile
B. După direcţia legăturii dintre variabile: Legătură directă – când variabilele au tendința de a se modifica în același sens, adică tendința de creştere respectiv scădere a unei variabile determină o creştere respectiv scădere celeilalte
Legătură indirectă sau inversă – când variabilele au tendința de a se modifica în sens invers, adică modificarea într-un anumit sens a unei variabile determină o modificare în sens contrar a altei variabile.
Forme de relații (legături) dintre variabile
C. După expresia analitică a relației dintre variabile: Relație liniară – când relația dintre variabilele poate fi exprimată sau descrisă printr-o funcție liniară (funcția dreptei) y = a+b*x Relație neliniară sau curblinie – când relația dintre variabilele poate fi exprimată prin ecuaţia unei curbe (funcție exponenţială, hiperbolică, parabolică) y=a*bx y=a+b*1/x y=a+bx+cx2
Relație liniară
Relație neliniară
Y
Y Legătură directă
X Y
X Y
Legătură directă
X
X
Legătură slabă
Legătură puternică Y
Y Legătură directă
X Y
X Y
Legătură indirectă
X
X
Inexistenta legăturii Y
X Y
X
TIPOLOGIA RELAȚIILOR DINTRE VARIABILE CORELAȚIA DINTRE VARIABILELE Analiza corelației include un set de metode și tehnici pentru a măsura puterea legăturii (intensitatea relației) dintre două variabile
analiza corelației sau pe scurt corelația studiază doar puterea relației între variabile, a căror corelație este studiată, nu e necesar să existe un efect de cauzalitate
INDICATORII SINTETICI AI CORELAȚIEI Covarianța – exprimă variația simultană a 2 variabile numerice în jurul mediilor individuale n
cov( x, y )
(x i 1
i
X )( yi Y ) n
cov(x,y)>0 – corelație directă, ambele variabile x și y tind sa se modifice în aceiași direcție cov(x,y)<0 – corelație indirectă, ambele variabile x și y tind sa se modifice în direcții opuse cov(x,y)=0 – independența variabilelor x și y
Prin dezvoltarea formulei de mai sus obținem relația: n
cov( x, y )
(x y ) i 1
i
n
i
X Y
Coeficientul de corelație liniar simplu (r) – măsoară intensitatea
(puterea) legăturilor liniare dintre două variabile numerice.
cov( x, y ) rxy x y n
unde: x
(x X ) i 1
i
n n
y
n
2
(y i 1
i
Y )
n
x i 1
2 i
n
X 2 abaterea medie pătratică a variabilei x
n
2
y i 1
n
2 i
Y 2 abaterea medie pătratică a variabilei y
Prin dezvoltarea formulei de mai sus obținem relația:
rxy
n xi yi xi yi
[n xi2 ( xi ) 2 ][n yi2 ( yi ) 2 ]
Proprietățile coeficientului de corelație
nu are unitate de măsură ia valorii in intervalul [-1:1] r<0 – corelație inversa între variabile r>0 – corelație directă între variabile r=0 – independența variabilelor cu cit se apropie de valorile extreme cu atât intensitatea corelației crește
0 r 0,25
0,25 r 0,5 0,5 r 0,75
corelație foarte slabă corelație relativ slabă corelație de intensitate medie
0,75 r 0,95
corelație puternică
0,95 r 1
corelație foarte puternică sau funcțională
Corelograma pentru diferite mărimi ale Coeficientului de corelație Y
Y
Y
X
X
r = -1
r = -0,6
Y
r=0 Y
Y
r = +1
X
X
X rChap = 3-16 +0,3
X
r=0
Utilizarea Excel în calcularea Coeficientului de corelație
• Selectați Tools/Data Analysis • Alegeți Correlation din meniul selectat • Apasați OK . . .
Utilizarea Excel în calcularea Coeficientului de corelație
• Selectați șirul de date și opțiunile corespunzătoare • Apăsați OK pentru a obține rezultatul
Coeficientul de determinație În baza valorii coeficientul de corelație trage concluzia privind intensitatea relației de legătura dintre doua variabile. Putem avea o corelație puternică, sau medie sau slabă. Acești termeni totuși nu au un înțeles precis. O măsură ce ar da o mai mare precizie acestor rezultate este coeficientul de determinație notat prin r2 Exprimat în procente mărimea lui r2 exprimă ponderea influențează variabilei independente (factoriale) asupra variației variabilei dependente (rezultative)
Daca rxy=0,86 atunci r2=0,7396, astfel variația variabilei y este explicată în proporție de 74% de variația variabilei x.
TESTAREA SEMNIFICAȚIEI COEFICIENTULUI DE CORELAȚIE Testarea semnificației coeficientului de corelație are la bază testul t-Student și presupune parcurgerea următoarelor etape: 1) Formularea ipotezelor H 0: ρ = 0 H 1: ρ ≠ 0
- nu există corelație între variabile - între variabile există corelație
2) Se determină valoarea t statistic
t
r 1 r 2 n2
(ipoteza nulă) (ipoteza alternativă)
3) În funcție de nivelul de semnificație α (α=5% sau o valoare mai mică de 5%) și numărul gradelor de libertate df = (n–2), din tabelul valorilor repartiției Student se preia valoarea critică.
tα/2;(n–2) 4) Prin compararea valorilor t se ia decizia:
dacă
| t | < tα/2;(n–2) nu vom respinge ipoteza H0 între variabile nu există corelație
dacă
| t | > tα/2;(n–2)
vom respinge ipoteza H0 astfel
între variabile există corelație, deci şi coeficientul de corelaţie este semnificativ.
Exemplu
σ
Salariu ($) yi 52 60 74 20 25 34 49 38 45 12 18,02
Productivitate (artic.) xi 400 385 620 155 210 220 230 215 320 70 147,48
24747,5 cov( x, y ) 2474,75 10
cov( x, y ) 2474,5 r 0,931 x y 147,48 18,02 În baza datelor observate s-a constatat o Corelație directă puternică
Exemplu: Testarea semnificației coeficientului de corelație
continuare
Există dovezi pentru a afirma că între salariu și productivitate există o corelație liniară? 1) ipotezele H 0: ρ = 0 H 1: ρ ≠ 0
(nu avem o corelație liniară) (corelație între variabile există)
2) t-statistic
t
r ρ 1 r2 n2
0,931 0 1 0,9312 10 2
7,227
3) t-critic pentru =0,05 și df = 10 – 2 = 8 avem:
t0,025;8=2,306
Exemplu: Decizia testului continuare
r ρ
t
1 r n2 2
0,931 0 1 0,931 10 2
2
7,227 Decizia: 7,227>2,306 Respingem H0
d.f. = 10-2 = 8 a/2=0,025
Respingem H0
-tα/2
-2,306
a/2=0,025
Nu respingem H0
0
Respingem H0
tα/2
2,306
7,227
Concluzie: Cu o încredere de 95% putem afirma ca între variabile există o corelație liniară
ASOCIEREA DINTRE VARIABILELE CALITATIVE . TESTUL 2 Asocierea dintre 2 variabile calitative poate fi studiată având la bază tabelele de contingență. Tabelele de contingență se obțin în cazul grupării colectivității studiate în funcție de 2 variabile statistice simultan. Spre exemplu în cadrul unui studiu un număr de turiști au fost întrebați: “Care ar fi principalul motiv ce i-ar determina să revină la odihnă în același hotel?” Hotelul Total Golden Palm Palm Motiv Palm Royal Princess Preț
23
7
37
67
Deservire
39
13
8
60
Comodități
13
5
13
31
Amplasare
13
8
8
29
Total
88
33
66
187
TESTUL 2 Testul 2 este aplicat inclusiv în vederea testării existenței unei asocieri între
două variabile calitative Aplicarea testului presupune parcurgerea următoarelor etape: 1) Sunt formulate ipotezele:
H0: între 2 variabile calitative nu există o asociere, adică sunt independente H1: între variabile există o asociere, adică sunt într-o relație de dependentă
TESTUL 2 continuare
2) Se determină valoarea testului 2
2
toate celulele
( fo fe )2 fe
unde:
fo – frecvențe observate in fiecare rubrica a tabelului de dimensiuni r x c (r- numărul de rânduri, c- numărul de coloane)
fe – frecvențe estimate în fiecare rubrică a tabelului, dacă ipoteza H0 este adevărată (Presupunere: fiecare celulă a tabelului de contingență are frecvență estimată cel puțin egală cu 1)
TESTUL 2 continuare
Frecvențele estimate în fiecare rubrică - fe
total rind total coloana fe n unde: total rând = suma frecvențelor dintr-un anumit rând total coloană = suma frecvențelor dintr-o anumită coloană n – mărimea eșantionului
TESTUL 2 continuare
3) În funcție de nivelul de semnificație - α (α=5%) și numărul gradelor de libertate df =(r-1)(c-1) din tabelul repartiției 2 se preia valoarea critică 2α 4) Prin compararea valorilor se ia decizia:
dacă
2 < 2α
nu vom respinge ipoteza H0, variabilele sunt independente
dacă
2 > 2α
vom respinge ipoteza H0, între variabile
există o asociere (dependență)
Exemplu În cadrul unui studiu un număr de turiști au fost întrebați: “Care ar fi principalul motiv ce i-ar determina să revină la odihnă în același hotel?” Hotelul Golden Palm
Palm Royal
Palm Princess
Total
Preț
23
7
37
67
Deservire
39
13
8
60
Comodități
13
5
13
31
Amplasare
13
8
8
29
Total
88
33
66
187
Motiv
Exemplu: Ipotezele continuare
Există o asociere între hotel și motivul principal ce ar determina clientul sa revină la odihnă în același hotel?
H0: Între categoria hotelului și motivul principal ce ar determina clientul să revină nu există nici o asociere (variabilele sunt independente) H1: Între categoria hotelului și motivul principal ce ar determina clientul să revină există o asociere (variabilele sunt într-o anumită relație de dependență)
Exemplu: Formula de calcul a testului 2 continuare
2
toate celulele
( fo fe ) fe
2
Frecvențele estimate în fiecare rubrică - fe
total rind total coloana f r f c fe n n
Exemplu: Frecvențele estimate continuare
Frecvențe observate fo : Hotelul Total
Golden Palm
Palm Royal
Palm Princess
Preț
23
7
37
67
Deservire
39
13
8
60
Comodități
13
5
13
31
Motiv
Amplasare
13
8
8
29
Total
88
33
66
187
Exemplu pentru o celulă a tabelului:
total rind total coloana fe n 67 88 31,53 187
Frecvențe estimate fe dacă H0 este adevărat: Hotelul Motiv Preț Deservire Comodități Amplasare Total
Golden Palm 31,53
Palm Royal
Palm Princess
Total
Exemplu: Frecvențele estimate continuare
Frecvențe observate fo : Hotelul Total
Golden Palm
Palm Royal
Palm Princess
Preț
23
7
37
67
Deservire
39
13
8
60
Comodități
13
5
13
31
Motiv
Amplasare
13
8
8
29
Total
88
33
66
187
Exemplu pentru o celulă a tabelului:
total rind total coloana fe n 67 88 31,53 187
Frecvențe estimate fe dacă H0 este adevărat: Hotelul Total
Golden Palm
Palm Royal
Palm Princess
Preț
31,53
11,82
23,65
67
Deservire
28,24
10,59
21,18
60
Comodități
14,59
5,47
10,94
31
Amplasare
13,65
5,12
10,24
29
88
33
66
187
Motiv
Total
Exemplu: Valoare testului continuare
Hotelul
Total
Golden Palm
Palm Royal
Palm Princess
Preț
23 (31,53)
7 (11,81)
37 (23,65)
67
Deservire
39 (28,24)
13 (10,59)
8 (21,18)
60
Comodități
13 (14,59)
5 (5,47)
13 (10,94)
31
Amplasare
13 (13,65)
8 (5,12)
8 (10,24)
29
88
33
66
187
Motiv
Total
Valoarea testului:
2 2 2 2 ( f f ) ( 23 31 , 53 ) ( 7 11 , 81 ) ( 8 10 , 24 ) 2 o e 27,41 fe 31,53 11,81 10,24
2 critic: pentru =0,05 și df = (4-1)(3-1) = 6 avem:
20,05;6=12,592
Exemplu: Decizia și concluzia testului continuare
Valoarea testului este 2= 27,41
iar 2α =12,592
Decizia: 2 > 2α (27,41>12,592), deci respingem H0 0 Nu respingem H0
Respingem H0
2α=12,592
27,41
2
Concluzia: cu un risc de 5% punem afirma că între hotel și motivul principal ce ar determina clientul să revină există o asociere