Asocierea variabilelor calitative (categorice) Statistică, 28 mai 2003
Tabele de contingenţă
Sex * Ai scutire medicala la educ.fiz.? Crosstabulation
Sex
Barbat
Femeie
Total
Count % within Sex % within Ai scutire medicala la educ.fiz.? % of Total Count % within Sex % within Ai scutire medicala la educ.fiz.? % of Total Count % within Sex % within Ai scutire medicala la educ.fiz.? % of Total
Ai scutire medicala la educ.fiz.? Da Nu 44 385 10,3% 89,7%
Total 429 100,0%
29,7%
47,1%
44,5%
4,6% 104 19,4%
39,9% 432 80,6%
44,5% 536 100,0%
70,3%
52,9%
55,5%
10,8% 148 15,3%
44,8% 817 84,7%
55,5% 965 100,0%
100,0%
100,0%
100,0%
15,3%
84,7%
100,0%
Problema: există relaţie (asociere) între două variabile calitative Valorile unei variabile apar pe linii iar valorile celeilalte apar pe coloane Frecvenţe absolute Frecvenţe relative pe rânduri, coloane, totale Distribuţii marginale şi condiţionate
Testul χ2 de independenţă
Este utilizat pentru a testa dacă două variabile sunt sau nu sunt asociate Ex. există o relaţie între categoria de gen a adolescenţilor din eşantion şi evitarea orelor de educaţie fizică cu scutiri medicale? Plecăm de la probabilităţi: am învăţat că două evenimente A şi B sunt independente dacă P(A şi B)=P(A)P(B) Aplicând formula la tabelul de mai sus, evenimentul de a fi băiat şi de a avea scutire medicală sunt independente dacă probabilitatea evenimentului conjugat este egală cu produsele probabilităţilor celor două evenimente separate.
P(Băiat)=0,445 P(scutire medicală)=0,153 P(Băiat cu scutire medicală)=0,068, ceea ce este mai mult decât probabilitatea obţinută de noi, de 0,046
Calcularea lui χ2 Sex * Ai scutire medicala la educ.fiz.? Crosstabulation
Sex
Total
Ai scutire medicala la educ.fiz.? Da Nu Barbat Count 44 385 Expected Count 65,8 363,2 Residual -21,8 21,8 Femeie Count 104 432 Expected Count 82,2 453,8 Residual 21,8 -21,8 Count 148 817 Expected Count 148,0 817,0
Total 429 429,0 536 536,0 965 965,0
Formula este aceeaşi cu cea din capitolul anterior Χ2=15,35 Numărul gradelor de libertate, gl=(numărul liniilor-1)(numărul coloanelor-1)=1 Din tabelul Anexei nr. 3 observăm că nivelul critic al lui χ2, la un grad de libertate, este pentru probabilitatea de 0,05 de 3,84. Întrucât valoarea obţinută de noi este mult mai mare, spunem că se respinge ipoteza de nul şi că între cele două variabile există asociere.
Coeficientul λ (lambda) Da
Nu
Nu
Tota ş t i u
Vârsta sub 25 110 40 de ani
30
180
Coeficientul Chi-pătrat nu ne oferă informaţii despre intensitatea asocierii dintre cele două variabile. Ne referim la exemplul din manual. În tabel. Eroare de predicţie a atitudinii:
Vârsta între 26 şi 45 de ani
40
100 60
Vârsta peste 45 de ani
50
Total
200 220 180
200
80
λ=(e1-e2)/e1
90
220
Necunoscând vârsta, şi doar frecvenţele marginale ale atitudinii: e1=380 Cunoscând vârsta subiectului: e2=300 Λ=(380-300)/380=0,21
Λ variază între 0 şi 1.
600
Semnificaţia coeficientului- reducerea proporţională a erorii în predicţia valorilor variabilei efect prin cunoaşterea valorilor variabilei cauză
Principalul dezavantaj al coeficientului: ia valoarea 0 chiar dacă există asociere, dacă una dintre valorile variabilei dependente este mult mai frecventă decât celelalte. De exemplu – în cazul anterior, λ=0
Asocierea variabilelor ordinale
Valorile lor pot fi ordonate. Se poate vorbi de semn al asocierii, de direcţie, coeficienţii de acest fel variind între -1 şi +1. Asociere pozitivă între variabilele ordinale X şi Y: valorilor mari ale variabilei X le corespund valori mari ale variabilei Y iar celor mici, în mod analog, le corespund valori mici. Asociere negativă: valorilor mici ale variabilei X le corespund valori mari ale lui Y iar celor mari le corespund valori mici ale lui Y. Coeficientul τ al lui Kendall τ=(nc-nd)/nt Variabilele trebuie să fie ambele ordinale iar valorile ordonate în acelaşi fel.