Auteur : Sylvain Hanneton (24/10/08)Maître de Conférences, Université Paris Descartes
Le test du 2 Table des matières Objectif du test...............................................................................................................................................1 Comparaison entre une distribution observée et une distribution théorique..................................................1 Principe......................................................................................................................................................1 Calculs.......................................................................................................................................................1 Exemple.....................................................................................................................................................2 Test de la liaison entre deux variables quantitatives......................................................................................2 Principe......................................................................................................................................................2 Le calcul du ..............................................................................................................................................2 Test de l'hypothèse....................................................................................................................................3 Les outils pour effectuer le test ?...................................................................................................................3 Avec un tableur.........................................................................................................................................3 Avec le logiciel R......................................................................................................................................4 Table du .........................................................................................................................................................4 Statut de la fiche : en cours............................................................................................................................4
NB : La lettre grecque peut aussi se noter indifféremment « khi » ou « chi ».
Objectif du test Ce test paramétrique est utiliser pour cerner le lien pouvant exister entre deux variables qualitatives. Rappel : Une variable aléatoire qualitative concernant une propriété peut être à deux classes (pile/face, oui/non, gagne/perd), mais également comporter plusieurs classes (couleurs, équipe, vote pour/ contre/sans opinion etc...). Si l'on peut utiliser la comparaison de pourcentages pour les variables qualitatives à deux classes ou variables dichotomiques, ces techniques ne sont pas adaptées lorsque les effectifs d’une population se distribue en plusieurs classes. Il faut alors utiliser les tests liés non pas à la distribution de l’écart réduit, mais à la distribution dite du 2 .
Comparaison entre une distribution observée et une distribution théorique Principe On cherche à savoir si la distribution des individus d'un échantillon dans plusieurs classes s'éloigne d'une distribution théorique. Hypothèse nulle : on suppose que l'échantillon a été prélevé dans une population dont la distribution en k classes obéit à la distribution théorique. Autrement dit, on suppose que les différences observées entre la distribution théorique et la distribution observée sont dues au hasard de l'échantillonnage. Calculs Pour comparer une distribution observée à une distribution théorique d’un caractère qualitatif à k classes, il faut calculer la quantité (dite « le KHI deux ») :
Sauf mention contraire, le contenu de ce document et du site est placé sous la protection de cette licence Creative Commons.
1
Auteur : Sylvain Hanneton (24/10/08)Maître de Conférences, Université Paris Descartes
2
i= k
=∑ i =1
o
t 2
ni −ni
nti
(1)
o
t
où ni est le nombre d'individus de l'échantillon appartenant à la classe i et ni le nombre d'individus appartenant à la classe i dans la distribution théorique. On cherche ensuite la probabilité correspondante dans la table de ² pour le nombre de degrés de liberté ddl = k −1 . Si cette probabilité est supérieure à 5% (0,05), la différence est considéré comme n’étant pas significative. Si cette probabilité est inférieure ou égale à 5%, alors la différence entre la distribution observée et la distribution théorique est significative, et la probabilité mesure son degré de signification. On rejette alors l’hypothèse nulle qui suppose que l’échantillon est prélevé d’une population suivant la distribution théorique. Exemple On cherche à savoir si un dé n'est pas « pipé » : un dé est pipé si la distribution des n tirages effectués en six classes (correspondant aux six faces du dé) obéit à la distribution théorique (n/6,n/6,n/6,n/ 6,n/6,n/6).
Test de la liaison entre deux variables quantitatives Principe La comparaison de deux ou plusieurs échantillons se pose ici en terme de comparaison de distributions des effectifs de ces échantillons. La question associée est la suivante : est-il raisonnable de penser que les deux échantillons proviennent de la même population ? Répondre à cette question est également un moyen d’étudier la dépendance ou l’indépendance de deux variables qualitatives. Par exemple, on peut considérer la variable « couleur des cheveux » (blonds, bruns, noirs, roux) à 4 classes, et étudier la distribution de ce caractère dans trois échantillons respectivement composés de personnes aux yeux bleus, verts/gris et marrons (variable qualitative « couleur des yeux » à trois classes). Le test de comparaison des distributions de couleurs de cheveux dans ces deux échantillons permettra d’établir s’il est raisonnable que ces échantillons proviennent de la même population. Autrement dit, si cette dernière hypothèse est rejetée, il sera raisonnable de considérer qu’il existe un lien entre la couleur des yeux et la couleur des cheveux. Hypothèse nulle : on suppose que les deux échantillons ont été prélevés dans la même population.. Autrement dit, on suppose que les différences observées entre les deux distributions observées dans les échantillons sont dues au hasard de l'échantillonnage. Autrement cette hypothèse suppose qu'il n'existe pas de lien entre les deux variables qualitatives considérées. Le calcul du
2
Pour éprouver l’indépendance de deux variables qualitatives V1 et V2 l’une à k classes, l’autre à r classes, on fait d’abord l’hypothèse que ces deux variables sont indépendantes (hypothèse nulle) et puis on calcule ensuite les effectifs théoriques associés à cette hypothèse d’indépendance. Pour cela on dresse le tableau des contingences existant entre les deux variables qualitatives nommées ici V1 et V2 :
Sauf mention contraire, le contenu de ce document et du site est placé sous la protection de cette licence Creative Commons.
2
Auteur : Sylvain Hanneton (24/10/08)Maître de Conférences, Université Paris Descartes
V2 classe 1 V2 classe 2 ... o
o
V1 classe 1
n1,1
V1 classe 2
no2, 1
V2 classe j
...
no1, j
n1,2
V2 classe r
Total
o
TL1
n1, r
TL2
... V1 classe i
o
o
ni ,1
TLi
ni , j
... o
V1 classe k
nk ,1
Total
TC1
TC2
TC j
nk , r
o
TLk
TCr
TG
Tableau 1: Tableau de contingence entre les variables V1 et V2 En effet, si les effectifs se distribuent de façon indépendante dans les différentes classes des deux t variables considérées, alors ces effectifs théoriques ni , j sont données par la relation suivante :
nti , j =
TC j⋅TLi (2) TG
où TG représente l'effectif total et TC j et TLi les totaux respectifs de la colonne j et de la ligne i. On calcule ensuite la valeur du 2 : i=k j=k
=∑ ∑ 2
o
t
ni , j −ni , j
i=1 j=1
t
ni , j
2
(3)
Test de l'hypothèse
Si, pour le risque considéré et le nombre de degrés de liberté considérés ( ddl =k −1⋅r−1 ) la valeur du 2 dépasse une valeur limite appellée ici 2lim ¿ alors la liaison sera considérée comme significative car la distribution des effectifs est trop éloignée de la distribution attendue considérant l'hypothèse nulle. On dira donc qu'il existe une liaison significative entre les deux variables. La valeur de 2lim ¿ est donnée par la table de la distribution du 2 pour le risque et pour le nombre de degrés de liberté k −1⋅ r−1 considérés. On utilise usuellement un risque égal à 5% (0,05).
Les outils pour effectuer le test ? Avec un tableur Il est très simple d'effectuer le test avec un tableur. Par exemple, le tableur d'OpenOffice propose la fonction TEST.KHIDEUX qui propose de calculer la valeur du risque (probabilité) à partir de deux plages de données : le tableau des données observées et celui des effectifs théoriques. Il est donc nécessaire d'appliquer l'équation (2) ci-dessus permettant de calculer les effectifs théoriques. La fonction LOI.KHIDEUX permet d'obtenir la probabilité (ou p) associée à une valeur de 2 et à un nombre de degrés de liberté donné.
Sauf mention contraire, le contenu de ce document et du site est placé sous la protection de cette licence Creative Commons.
3
Auteur : Sylvain Hanneton (24/10/08)Maître de Conférences, Université Paris Descartes
Avec le logiciel R Le logiciel R propose une fonction permettant de réaliser sans problème ce test.
Table du 2 ddl 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 500
0,5
0,3
0,2
0,1
0,05
0,025
0,01
0,001
0,455
1,074
1,642
2,706
3,841
5,024
6,635
10,827
1,386
2,408
3,219
4,605
5,991
7,378
9,210
13,815
2,366
3,665
4,642
6,251
7,815
9,348
11,345
16,266
3,357
4,878
5,989
7,779
9,488
11,143
13,277
18,466
4,351
6,064
7,289
9,236
11,070
12,832
15,086
20,515
5,348
7,231
8,558
10,645
12,592
14,449
16,812
22,457
6,346
8,383
9,803
12,017
14,067
16,013
18,475
24,321
7,344
9,524
11,030
13,362
15,507
17,535
20,090
26,124
8,343
10,656
12,242
14,684
16,919
19,023
21,666
27,877
9,342
11,781
13,442
15,987
18,307
20,483
23,209
29,588
10,341
12,899
14,631
17,275
19,675
21,920
24,725
31,264
11,340
14,011
15,812
18,549
21,026
23,337
26,217
32,909
12,340
15,119
16,985
19,812
22,362
24,736
27,688
34,527
13,339
16,222
18,151
21,064
23,685
26,119
29,141
36,124
14,339
17,322
19,311
22,307
24,996
27,488
30,578
37,698
15,338
18,418
20,465
23,542
26,296
28,845
32,000
39,252
16,338
19,511
21,615
24,769
27,587
30,191
33,409
40,791
17,338
20,601
22,760
25,989
28,869
31,526
34,805
42,312
18,338
21,689
23,900
27,204
30,144
32,852
36,191
43,819
19,337
22,775
25,038
28,412
31,410
34,170
37,566
45,314
20,337
23,858
26,171
29,615
32,671
35,479
38,932
46,796
21,337
24,939
27,301
30,813
33,924
36,781
40,289
48,268
22,337
26,018
28,429
32,007
35,172
38,076
41,638
49,728
23,337
27,096
29,553
33,196
36,415
39,364
42,980
51,179
24,337
28,172
30,675
34,382
37,652
40,646
44,314
52,619
25,336
29,246
31,795
35,563
38,885
41,923
45,642
54,051
26,336
30,319
32,912
36,741
40,113
43,195
46,963
55,475
27,336
31,391
34,027
37,916
41,337
44,461
48,278
56,892
28,336
32,461
35,139
39,087
42,557
45,722
49,588
58,301
29,336
33,530
36,250
40,256
43,773
46,979
50,892
59,702
499,334
516,087
526,401
540,930
553,127
563,851
576,493
603,446
NB : Cette table a été calculée avec la fonction KHIDEUX.INVERSE d'un tableur
Statut de la fiche : en cours de construction...
Sauf mention contraire, le contenu de ce document et du site est placé sous la protection de cette licence Creative Commons.
4