Tema 9 Teoria Corelatiei.pdf

  • Uploaded by: Cristina Doronceanu
  • 0
  • 0
  • April 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Tema 9 Teoria Corelatiei.pdf as PDF for free.

More details

  • Words: 2,094
  • Pages: 38
TEMA 9 TEORIA CORELAȚIEI

Statistica

dr. Bradu Marcel

PLAN: 1. TIPOLOGIA RELAȚIILOR DINTRE VARIABILE. CORELAȚIA DINTRE VARIABILE 2. INDICATORII SINTETICI AI CORELAȚIEI 3.TESTAREA SEMNIFICAȚIEI COEFICIENTULUI DE CORELAȚIE

4.ASOCIEREA DINTRE VARIABILELE CALITATIVE. TESTUL 2

TIPOLOGIA RELAȚIILOR DINTRE VARIABILE CORELAȚIA DINTRE VARIABILELE Statistica studiază relațiile cauzale dintre fenomenele și procesele economice. Datorită caracterului complex al fenomenelor şi datorită multitudinii de factori care intervin, aceste relații de dependență se manifestă sub formă de tendinţă. Statistica prin diverse procedee şi metode studiază manifestarea acestor legături, le poate exprima cantitativ şi măsura intensitatea cu care se produc. Vom nota prin: y – variabilă endogenă, dependentă sau rezultativă, adică variabila a cărui variaţie este influenţată x – variabila exogenă, independentă sau factorială, adică variabila ce are o oarecare influenţa asupra variabilei y

Forme de relații (legături) dintre variabile

A. După numărul variabilelor care se iau în studiu avem:  Relație simplă, relație existentă între două variabile (exemplu: relația între suprafaţa comercială şi valoarea vânzărilor, legătura dinte productivitate și salariu)

 Relație multiplă, relație prin care se analizează legătura dintre o variabilă rezultativă y și o multitudine de variabile factoriale x1, x2,…xn (exemplu: relația dintre producţie, capital şi forţă de muncă)

Forme de relații (legături) dintre variabile

B. După direcţia legăturii dintre variabile:  Legătură directă – când variabilele au tendința de a se modifica în același sens, adică tendința de creştere respectiv scădere a unei variabile determină o creştere respectiv scădere celeilalte

 Legătură indirectă sau inversă – când variabilele au tendința de a se modifica în sens invers, adică modificarea într-un anumit sens a unei variabile determină o modificare în sens contrar a altei variabile.

Forme de relații (legături) dintre variabile

C. După expresia analitică a relației dintre variabile:  Relație liniară – când relația dintre variabilele poate fi exprimată sau descrisă printr-o funcție liniară (funcția dreptei) y = a+b*x  Relație neliniară sau curblinie – când relația dintre variabilele poate fi exprimată prin ecuaţia unei curbe (funcție exponenţială, hiperbolică, parabolică) y=a*bx y=a+b*1/x y=a+bx+cx2

Relație liniară

Relație neliniară

Y

Y Legătură directă

X Y

X Y

Legătură directă

X

X

Legătură slabă

Legătură puternică Y

Y Legătură directă

X Y

X Y

Legătură indirectă

X

X

Inexistenta legăturii Y

X Y

X

TIPOLOGIA RELAȚIILOR DINTRE VARIABILE CORELAȚIA DINTRE VARIABILELE Analiza corelației include un set de metode și tehnici pentru a măsura puterea legăturii (intensitatea relației) dintre două variabile

 analiza corelației sau pe scurt corelația studiază doar puterea relației  între variabile, a căror corelație este studiată, nu e necesar să existe un efect de cauzalitate

INDICATORII SINTETICI AI CORELAȚIEI Covarianța – exprimă variația simultană a 2 variabile numerice în jurul mediilor individuale n

cov( x, y ) 

 (x i 1

i

 X )( yi  Y ) n

cov(x,y)>0 – corelație directă, ambele variabile x și y tind sa se modifice în aceiași direcție cov(x,y)<0 – corelație indirectă, ambele variabile x și y tind sa se modifice în direcții opuse cov(x,y)=0 – independența variabilelor x și y

Prin dezvoltarea formulei de mai sus obținem relația: n

cov( x, y ) 

 (x  y ) i 1

i

n

i

 X Y

Coeficientul de corelație liniar simplu (r) – măsoară intensitatea

(puterea) legăturilor liniare dintre două variabile numerice.

cov( x, y ) rxy   x  y n

unde:  x 

 (x  X ) i 1

i

n n

y 

n

2

(y i 1

i

Y )

n



x i 1

2 i

n

 X 2 abaterea medie pătratică a variabilei x

n

2



y i 1

n

2 i

 Y 2 abaterea medie pătratică a variabilei y

Prin dezvoltarea formulei de mai sus obținem relația:

rxy 

n xi yi   xi  yi

[n xi2  ( xi ) 2 ][n yi2  ( yi ) 2 ]

Proprietățile coeficientului de corelație      

nu are unitate de măsură ia valorii in intervalul [-1:1] r<0 – corelație inversa între variabile r>0 – corelație directă între variabile r=0 – independența variabilelor cu cit se apropie de valorile extreme cu atât intensitatea corelației crește

0  r  0,25

0,25  r  0,5 0,5  r  0,75

corelație foarte slabă corelație relativ slabă corelație de intensitate medie

0,75  r  0,95

corelație puternică

0,95  r  1

corelație foarte puternică sau funcțională

Corelograma pentru diferite mărimi ale Coeficientului de corelație Y

Y

Y

X

X

r = -1

r = -0,6

Y

r=0 Y

Y

r = +1

X

X

X rChap = 3-16 +0,3

X

r=0

Utilizarea Excel în calcularea Coeficientului de corelație

• Selectați Tools/Data Analysis • Alegeți Correlation din meniul selectat • Apasați OK . . .

Utilizarea Excel în calcularea Coeficientului de corelație

• Selectați șirul de date și opțiunile corespunzătoare • Apăsați OK pentru a obține rezultatul

Coeficientul de determinație În baza valorii coeficientul de corelație trage concluzia privind intensitatea relației de legătura dintre doua variabile. Putem avea o corelație puternică, sau medie sau slabă. Acești termeni totuși nu au un înțeles precis. O măsură ce ar da o mai mare precizie acestor rezultate este coeficientul de determinație notat prin r2 Exprimat în procente mărimea lui r2 exprimă ponderea influențează variabilei independente (factoriale) asupra variației variabilei dependente (rezultative)

Daca rxy=0,86 atunci r2=0,7396, astfel variația variabilei y este explicată în proporție de 74% de variația variabilei x.

TESTAREA SEMNIFICAȚIEI COEFICIENTULUI DE CORELAȚIE Testarea semnificației coeficientului de corelație are la bază testul t-Student și presupune parcurgerea următoarelor etape: 1) Formularea ipotezelor H 0: ρ = 0 H 1: ρ ≠ 0

- nu există corelație între variabile - între variabile există corelație

2) Se determină valoarea t statistic

t

r 1 r 2 n2

(ipoteza nulă) (ipoteza alternativă)

3) În funcție de nivelul de semnificație α (α=5% sau o valoare mai mică de 5%) și numărul gradelor de libertate df = (n–2), din tabelul valorilor repartiției Student se preia valoarea critică.

tα/2;(n–2) 4) Prin compararea valorilor t se ia decizia:

dacă

| t | < tα/2;(n–2) nu vom respinge ipoteza H0 între variabile nu există corelație

dacă

| t | > tα/2;(n–2)

vom respinge ipoteza H0 astfel

între variabile există corelație, deci şi coeficientul de corelaţie este semnificativ.

Exemplu

σ

Salariu ($) yi 52 60 74 20 25 34 49 38 45 12 18,02

Productivitate (artic.) xi 400 385 620 155 210 220 230 215 320 70 147,48

24747,5 cov( x, y )   2474,75 10

cov( x, y ) 2474,5 r   0,931  x  y 147,48 18,02 În baza datelor observate s-a constatat o Corelație directă puternică

Exemplu: Testarea semnificației coeficientului de corelație

continuare

Există dovezi pentru a afirma că între salariu și productivitate există o corelație liniară? 1) ipotezele H 0: ρ = 0 H 1: ρ ≠ 0

(nu avem o corelație liniară) (corelație între variabile există)

2) t-statistic

t

r ρ 1 r2 n2



0,931  0 1  0,9312 10  2

 7,227

3) t-critic pentru  =0,05 și df = 10 – 2 = 8 avem:

t0,025;8=2,306

Exemplu: Decizia testului continuare

r ρ

t

1 r n2 2



0,931  0 1  0,931 10  2

2

 7,227 Decizia: 7,227>2,306 Respingem H0

d.f. = 10-2 = 8 a/2=0,025

Respingem H0

-tα/2

-2,306

a/2=0,025

Nu respingem H0

0

Respingem H0

tα/2

2,306

7,227

Concluzie: Cu o încredere de 95% putem afirma ca între variabile există o corelație liniară

ASOCIEREA DINTRE VARIABILELE CALITATIVE . TESTUL 2 Asocierea dintre 2 variabile calitative poate fi studiată având la bază tabelele de contingență. Tabelele de contingență se obțin în cazul grupării colectivității studiate în funcție de 2 variabile statistice simultan. Spre exemplu în cadrul unui studiu un număr de turiști au fost întrebați: “Care ar fi principalul motiv ce i-ar determina să revină la odihnă în același hotel?” Hotelul Total Golden Palm Palm Motiv Palm Royal Princess Preț

23

7

37

67

Deservire

39

13

8

60

Comodități

13

5

13

31

Amplasare

13

8

8

29

Total

88

33

66

187

TESTUL 2 Testul 2 este aplicat inclusiv în vederea testării existenței unei asocieri între

două variabile calitative Aplicarea testului presupune parcurgerea următoarelor etape: 1) Sunt formulate ipotezele:

H0: între 2 variabile calitative nu există o asociere, adică sunt independente H1: între variabile există o asociere, adică sunt într-o relație de dependentă

TESTUL 2 continuare

2) Se determină valoarea testului 2

2 

 toate celulele

( fo  fe )2 fe

unde:

fo – frecvențe observate in fiecare rubrica a tabelului de dimensiuni r x c (r- numărul de rânduri, c- numărul de coloane)

fe – frecvențe estimate în fiecare rubrică a tabelului, dacă ipoteza H0 este adevărată (Presupunere: fiecare celulă a tabelului de contingență are frecvență estimată cel puțin egală cu 1)

TESTUL 2 continuare

Frecvențele estimate în fiecare rubrică - fe

total rind  total coloana fe  n unde: total rând = suma frecvențelor dintr-un anumit rând total coloană = suma frecvențelor dintr-o anumită coloană n – mărimea eșantionului

TESTUL 2 continuare

3) În funcție de nivelul de semnificație - α (α=5%) și numărul gradelor de libertate df =(r-1)(c-1) din tabelul repartiției 2 se preia valoarea critică 2α 4) Prin compararea valorilor se ia decizia:

dacă

2 < 2α

nu vom respinge ipoteza H0, variabilele sunt independente

dacă

2 > 2α

vom respinge ipoteza H0, între variabile

există o asociere (dependență)

Exemplu În cadrul unui studiu un număr de turiști au fost întrebați: “Care ar fi principalul motiv ce i-ar determina să revină la odihnă în același hotel?” Hotelul Golden Palm

Palm Royal

Palm Princess

Total

Preț

23

7

37

67

Deservire

39

13

8

60

Comodități

13

5

13

31

Amplasare

13

8

8

29

Total

88

33

66

187

Motiv

Exemplu: Ipotezele continuare

Există o asociere între hotel și motivul principal ce ar determina clientul sa revină la odihnă în același hotel?

H0: Între categoria hotelului și motivul principal ce ar determina clientul să revină nu există nici o asociere (variabilele sunt independente) H1: Între categoria hotelului și motivul principal ce ar determina clientul să revină există o asociere (variabilele sunt într-o anumită relație de dependență)

Exemplu: Formula de calcul a testului 2 continuare

  2

 toate celulele

( fo  fe ) fe

2

Frecvențele estimate în fiecare rubrică - fe

total rind  total coloana f r  f c fe   n n

Exemplu: Frecvențele estimate continuare

Frecvențe observate fo : Hotelul Total

Golden Palm

Palm Royal

Palm Princess

Preț

23

7

37

67

Deservire

39

13

8

60

Comodități

13

5

13

31

Motiv

Amplasare

13

8

8

29

Total

88

33

66

187

Exemplu pentru o celulă a tabelului:

total rind  total coloana fe  n 67  88   31,53 187

Frecvențe estimate fe dacă H0 este adevărat: Hotelul Motiv Preț Deservire Comodități Amplasare Total

Golden Palm 31,53

Palm Royal

Palm Princess

Total

Exemplu: Frecvențele estimate continuare

Frecvențe observate fo : Hotelul Total

Golden Palm

Palm Royal

Palm Princess

Preț

23

7

37

67

Deservire

39

13

8

60

Comodități

13

5

13

31

Motiv

Amplasare

13

8

8

29

Total

88

33

66

187

Exemplu pentru o celulă a tabelului:

total rind  total coloana fe  n 67  88   31,53 187

Frecvențe estimate fe dacă H0 este adevărat: Hotelul Total

Golden Palm

Palm Royal

Palm Princess

Preț

31,53

11,82

23,65

67

Deservire

28,24

10,59

21,18

60

Comodități

14,59

5,47

10,94

31

Amplasare

13,65

5,12

10,24

29

88

33

66

187

Motiv

Total

Exemplu: Valoare testului continuare

Hotelul

Total

Golden Palm

Palm Royal

Palm Princess

Preț

23 (31,53)

7 (11,81)

37 (23,65)

67

Deservire

39 (28,24)

13 (10,59)

8 (21,18)

60

Comodități

13 (14,59)

5 (5,47)

13 (10,94)

31

Amplasare

13 (13,65)

8 (5,12)

8 (10,24)

29

88

33

66

187

Motiv

Total



Valoarea testului:

2 2 2 2 ( f  f ) ( 23  31 , 53 ) ( 7  11 , 81 ) ( 8  10 , 24 ) 2   o e     27,41 fe 31,53 11,81 10,24



2 critic: pentru  =0,05 și df = (4-1)(3-1) = 6 avem:

20,05;6=12,592

Exemplu: Decizia și concluzia testului continuare

Valoarea testului este 2= 27,41

iar 2α =12,592

Decizia: 2 > 2α (27,41>12,592), deci respingem H0  0 Nu respingem H0

Respingem H0

2α=12,592

27,41

2

Concluzia: cu un risc de 5% punem afirma că între hotel și motivul principal ce ar determina clientul să revină există o asociere

Related Documents

Tema 9
June 2020 4
Tema 9
June 2020 5
Tema 9
May 2020 16
Tema 9
October 2019 22
Tema 9
December 2019 23

More Documents from ""

April 2020 0
Big Idea Poster
July 2020 12
November 2019 21