818

  • Uploaded by: Silviu
  • 0
  • 0
  • December 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View 818 as PDF for free.

More details

  • Words: 29,378
  • Pages: 81
Statistique pour la psychologie et les sciences sociales : résumé du cours Yves Tillé September 10, 2004

Chapter 1

Introduction 1.1

Définition de la statistique

• Méthode scientifique du traitement des données quantitatives. • Etymologiquement : science de l’état. • La statistique s’applique à la plupart des disciplines : agronomie, biologie, démographie, économie, sociologie, linguistique, psychologie, ...

1.2

Mesure et variable

On s’intéresse à des unités statistiques ou unités d’observation : par exemple des individus, des entreprises, des ménages. En sciences humaines, on s’intéresse dans la plupart des cas à un nombre fini d’unités. Sur ces unités, on mesure un caractère ou une variable, le chiffre d’affaires de l’entreprise, le revenu du ménage, l’âge de la personne, le sexe d’une personne. On suppose que la variable prend toujours une seule valeur sur chaque unité. Les variables sont désignées par simplicité par une lettre (X, Y, Z). Les valeurs possibles de la variable, sont appelées modalités. L’ensemble des valeurs possibles ou des modalités est appelé le domaine de la variable. Exemple 1.1. Les modalités de la variable sexe sont masculin (codé M) et féminin (codé F). Le domaine de la variable est {M, F }. Attention : Dans certains questionnaires, il est possible de donner plusieurs réponses à la même question, ce qui rend la codification de la variable difficile.

1.3

Typologie des variables

• Variable qualitative : La variable est dite qualitative quand les modalités sont des catégories. – Variable qualitative nominale : La variable est dite qualitative nominale quand les modalités ne peuvent pas être ordonnées. – Variable qualitative ordinale : La variable est dite qualitative ordinale quand les modalités peuvent être ordonnées. Le fait de pouvoir ou non ordonner les modalités est parfois discutable. Par exemple : dans les catégories socioprofessionnelles, on admet d’ordonner les modalités : ‘ouvriers’, ‘employés’, ‘cadres’. Si on ajoute les modalités ‘sans profession’, ‘enseignant’, ‘artisan’, l’ordre devient beaucoup plus discutable. • Variable quantitative : Une variable est dite quantitative si toute ses valeurs possibles sont numériques. – Variable quantitative discrète : Une variable est dite discrète, si l’ensemble des valeurs possibles est dénombrable. – Variable quantitative continue : Une variable est dite continue, si l’ensemble des valeurs possibles est continu. 1

Remarque 1.1. Ces définitions sont à relativiser, l’âge est théoriquement une variable quantitative continue, mais en pratique, l’âge est mesuré dans le meilleur des cas au jour près. Toute mesure est limitée en précision!

1.4

Série statistique

On appelle série statistique la suite des valeurs prises par une variable X sur les unités d’observation. Le nombre d’unités d’observation est noté n. Les valeurs de la variable X sont notées x1 , ..., xi , ..., xn . Exemple 1.2. On s’intéresse à la variable ‘état-civil’ notée X et à la série statistique des valeurs prises par X sur 20 personnes. La codification est C: M: V: D:

célibataire, marié(e), veuf(ve), divorcée.

Le domaine de la variable X est {C, M, V, D}. Considérons la série statistique suivante : M C

M M

D V

C M

C V

M D

C C

C C

C C

M M

Ici, n = 20, x1 = M, x2 = M, x3 = D, x4 = C, x5 = C, ....., x20 = M.

Exercices Exercice 1.1 Considérons la question suivante: Classez par ordre croissant (de 1 à 4) les problèmes qui vous préoccupent le plus (1. le moins préoccupant, 4. le plus préoccupant) : • le chômage, • l’insécurité routière, • la délinquance, • la pression fiscale. Comment définir une ou des variables à partir de cette question ?

2

Chapter 2

Tableau statistique et représentation graphique d’une variable 2.1

Effectifs et fréquences

On note J le nombre de valeurs distinctes ou modalités. Les valeurs distinctes sont notées x1 , ..., xj , ..., xJ . On appelle effectif d’une modalité ou d’une valeur distincte, le nombre de fois que cette modalité (ou valeur distincte) apparaît. On note nj l’effectif de la modalité xj . La fréquence d’une modalité est l’effectif divisé par le nombre d’unités d’observation. nj fj = , j = 1, ..., J. n Exemple 2.1. Avec la série de l’exemple précédent, on obtient le tableau statistique : xj C M V D

2.2

nj 9 7 2 2 n = 20

fj 0, 45 0, 35 0, 10 0, 10 1

Variable qualitative nominale

Une variable qualitative nominale a des valeurs distinctes qui ne peuvent pas être ordonnées. Le tableau statistique peut être représenté par un diagramme en barres ou en secteurs (voir figures 2.1 et 2.2).

2.3 2.3.1

Variable qualitative ordinale Le tableau statistique

Les valeurs distinctes d’une variable ordinale peuvent être ordonnées, ce qu’on écrit x1 ≺ x2 ≺ ... ≺ xj−1 ≺ xj ≺ ... ≺ xn−1 ≺ xn . x1 ≺ x2 se lit x1 précède x2 . Si la variable est ordinale, on peut calculer les effectifs cumulés : Nj =

j X

k=1

3

nk .

Figure 2.1: Diagramme en secteurs

Figure 2.2: Diagramme en barres

On a N1 = n1 et NJ = n. On peut également calculer les fréquences cumulées j

Fj =

X Nj = fj . n k=1

Exemple 2.2. On interroge 50 personnes sur leur dernier diplôme obtenu (variable X), et on obtient le résultat suivant : Table 2.1: Tableau des effectifs Dernier diplôme obtenu xj Sans diplôme (Sd) Primaire (P) Secondaire (Se) Supérieur non-universitaire (Su) Universitaire (U)

2.3.2

nj 4 11 14 9 12 50

Diagramme en secteurs

Les fréquences d’une variable qualitative sont représentées au moyen d’un diagramme en secteurs (voir Figure 2.3). 4

Table 2.2: xj Sd P Se Su U

Tableau statistique complet nj N j fj Fj 4 4 0,08 0,08 11 15 0,22 0,30 14 29 0,28 0,58 9 38 0,18 0,76 12 50 0,24 1 50 1,00

Figure 2.3: Diagramme en secteurs des fréquences

2.3.3

Diagramme en barres des effectifs

Les effectifs d’une variable qualitative sont représentés au moyen d’un diagramme en barres (voir Figure 2.4). Figure 2.4: Diagramme en barres des effectifs

2.3.4

Diagramme en barres des effectifs cumulés

Les effectifs cumulés d’une variable qualitative sont représentés au moyen d’un diagramme en barres (voir Figure 2.5).

2.4 2.4.1

Variable quantitative discrète Le tableau statistique

Une variable discrète a un domaine dénombrable. 5

Figure 2.5: Diagramme en barres des effectifs cumulés

Exemple 2.3. Un quartier est composé de 50 ménages, et la variable X représente le nombre de personnes par ménage. Les valeurs de la variables sont 1 2 3 4 5

1 2 3 4 5

1 2 3 4 5

1 2 3 4 5

1 3 3 4 5

2 3 3 4 6

2 3 3 4 6

2 3 3 4 6

2 3 3 4 8

2 3 4 5 8

Comme pour les variables qualitatives ordinales, on peut calculer les effectifs, les effectifs cumulés, les fréquences, les fréquences cumulées. À nouveau, on peut construire le tableau statistique : xj 1 2 3 4 5 6 8

2.4.2

nj 5 9 15 10 6 3 2 50

Nj 5 14 29 39 45 48 50

fj 0, 10 0, 18 0, 30 0, 20 0, 12 0, 06 0, 04 1, 0

Fj 0, 10 0, 28 0, 58 0, 78 0, 90 0, 96 1, 00

Diagramme en bâtonnets des effectifs

Quand la variable est discrète, les effectifs sont représentés par des bâtonnets. Figure 2.6: Diagramme en bâtonnets des effectifs pour une variable quantitative discrète 15

9

10 6

5

3

1

2

3

4

5

6

6

2

7

8

2.4.3

Fonction de répartition

Les fréquences cumulées sont représentés au moyen de la fonction de répartition. Cette fonction est définie de R dans [0, 1] et vaut :  x < x1  0 Fj xj ≤ x < xj+1 F (x) =  1 xJ ≤ x Figure 2.7: Fonction de répartition d’une variable quantitative discrète 1 0,8 0,6 0,4 0,2 0 1

2.5 2.5.1

2

3

4

5

6

7

8

Variable quantitative continue Le tableau statistique

Une variable quantitative continue peut prendre une infinité de valeurs possibles. Le domaine de la variable est alors R où un intervalle de R. En pratique, une mesure est limitée en précision. La taille peut être mesurée en centimètres, voire en millimètres. On peut alors traiter les variables continues comme des variables discrètes. Cependant, il est souvent intéressant de procéder à des regroupements en classes pour faire des représentations graphiques. Exemple 2.4. On mesure la taille de 50 élèves d’une classe : 152 154 156 157 159 161 162 164 168 170

152 154 156 157 159 160 162 164 168 171

152 154 156 157 160 160 163 165 168 171

153 155 156 158 160 161 164 166 169 171

On peut définir les classes [151, 5; 155, 5[ [155, 5; 159, 5[ [159, 5; 163, 5[ [163, 5; 167, 5[ [167, 5; 171, 5[ et on construit le tableau statistique.

7

153 155 156 158 160 162 164 167 169 171

+ [c− j , cj ] [151, 5; 155, 5[ [155, 5; 159, 5[ [159, 5; 163, 5[ [163, 5; 167, 5[ [167, 5; 171, 5[

nj 10 12 11 7 10 50

Nj 10 22 33 40 50

fj 0, 20 0, 24 0, 22 0, 14 0, 20 1

Fj 0, 20 0, 44 0, 66 0, 80 1, 00

Le tableau regroupé en classe est souvent appelé distribution groupée. On note, de manière générale : • cj le centre de la classe j, • c− j la borne inférieure de la classe j, • c+ j la borne supérieure de la classe j, • nj l’effectif de la classe j, • Nj l’effectif cumulé de la classe j, • fj la fréquence de la classe j, • Fj la fréquence cumulée de la classe j.

2.5.2

L’histogramme des effectifs

L’histogramme consiste à représenter les effectifs des classes par des rectangles dont la surface (et non la hauteur) représente l’effectif. La hauteur hj du rectangle correspondant à la classe j est donc donnée par hj =

nj −. c+ j − cj

Figure 2.8: Histogramme des effectifs 12 11

10

10 7

151,5

2.5.3

155,5

159,5

163,5

167,5

171,5

La fonction de répartition

La fonction de répartition F (x) est une fonction de R dans [0, 1], qui est définie par  x < c−  1  0 fj − + Fj−1 + c+ −c− (x − cj ) c− F (x) = j ≤ x < cj j j   1 c+ J ≤x

8

Table 2.3: Fonction de répartition d’une distribution groupée

1 0.8 0.6 0.4 0.2 0 151.5

155.5

159.5

163.5

9

167.5

171.5

Chapter 3

Statistique descriptive univariée 3.1 3.1.1

Paramètres de position Le mode

Le mode est la valeur distincte correspondant à l’effectif le plus élevé; il est noté xM . Si on reprend la variable ‘Etat civil’ , dont le tableau statistique est le suivant : xj C M V D

nj 9 7 2 2 n = 20

fj 0, 45 0, 35 0, 10 0, 10 1

le mode est C : célibataire. Remarque 3.1. • Le mode peut être calculé pour tous les types de variable, quantitative et qualitative. • Le mode n’est pas nécessairement unique. • Quand une variable continue est découpée en classes, on peut définir une classe modale (classe correspondant à l’effectif le plus élevé).

3.1.2

La moyenne

La moyenne ne peut être définie que sur une variable quantitative. La moyenne est la somme des valeurs observées divisée par leur nombre, elle est notée x ¯ : n

x ¯=

x1 + x2 + ... + xi + ... + xn 1X = xi . n n i=1

La moyenne peut être calculée à partir des valeurs distinctes et des effectifs J

x ¯=

1X nj xj . n j=1

Exemple 3.1. Les nombre d’enfants de 8 familles sont les suivants 0, 0, 1, 1, 1, 2, 3, 4. La moyenne est x ¯=

0+0+1+1+1+2+3+4 12 = = 1, 5. 8 8 10

On peut aussi faire les calculs avec les valeurs distinctes et les effectifs. On considère la tableau xj 0 1 2 3 4

x ¯ = = =

nj 2 3 1 1 1 8

2×0+3×1+1×2+1×3+1×4 8 3+2+3+4 8 1, 5.

Remarque 3.2. La moyenne n’est pas nécessairement une valeur possible.

3.1.3

La médiane

La médiane (notée x1/2 ) est une valeur centrale de la série statistique obtenue de la manière suivante • On trie la série statistique par ordre croissant des valeurs observées. Avec la série observée : 3 2

1 0

0 1

2,

on obtient : 0

0 1

1 2

2 3

• La médiane est notée x1/2 est la valeur qui se trouve au milieu de la série 0 0

1 1 ↑

2 2

3.

On note x1/2 = 1. En réalité le problème est un petit peu plus complexe car il faut distinguer deux cas, • Si n est impair, il n’y a pas de problème (ici avec n = 7) 0

0 1

1 2 ↑

2 3

• Si n est pair, deux valeurs se trouvent au milieu de la série (ici avec n = 8) 0 0

1 1 ↑

2 ↑

2 3

La médiane est alors la moyenne de ces deux valeurs : x1/2 =

1+2 = 1, 5. 2

En general on note x(1) , ...., x(i) , ...., x(n) la série ordonnée. On peut alors définir aisément la médiane : 11

4

• Si n est impair • Si n est pair

x1/2 = x( n+1 ) 2

x1/2 =

o 1n x( n ) + x( n +1) . 2 2 2

Remarque 3.3. La médiane peut être calculée sur des variables quantitatives et sur des variables qualitatives ordinales.

3.1.4

Quantiles

La notion de quantile d’ordre p (où 0 < p < 1) généralise la médiane. • Si np est un nombre entier, alors

xp =

• Si np n’est pas un nombre entier, alors

1 x(np) + x(np+1) 2 xp = x(⌈np⌉) ,

où ⌈np⌉ représente le plus petit nombre entier supérieur ou égal à np. Remarque 3.4. • La médiane est le quantile d’ordre p = 1/2. • On utilise souvent x1/4 le premier quartile, x3/4 le troisième quartile, x1/10 le premier décile , x9/10 le neuvième décile, x0,05 le cinquième percentile , x0,95 le nonante-cinquième percentile. • Si F (x) est la fonction de répartition, alors F (xp ) ≥ p.

3.2 3.2.1

Paramètres de dispersion L’étendue

L’étendue est simplement la différence entre la plus grande et la plus petite valeur observée. E = x(n) − x(1) .

3.2.2

L’intervalle interquartile

L’intervalle interquartile est la différence entre le troisième et le premier quartile : IQ = x3/4 − x1/4 .

12

3.2.3

La variance

La variance est la somme des carrées des écarts a la moyenne divisée par le nombre d’observations. n

1X (xi − x ¯)2 . n i=1

s2x = La variance peut aussi s’écrire

n

s2x

1X 2 x − x¯2 . = n i=1 i

La variance peut également être définie à partir des effectifs et des valeurs distinctes J

s2x = La variance peut aussi s’écrire

n

s2x =

3.2.4

1X nj (xj − x ¯)2 . n j=1 1X nj x2j − x ¯2 . n j=1

L’écart-type

L’écart-type est la racine carrée de la variance : sx =

3.2.5

L’écart moyen absolu

p s2x .

L’écart moyen absolu est la somme des valeurs absolues des écarts à la moyenne divisée par le nombre d’observations : n 1X emoy = |xi − x ¯| . n i=1

3.2.6

L’écart médian absolu

L’écart médian absolu est la somme des valeurs absolues des écarts à la médiane divisée par le nombre d’observations : n 1 X emed = xi − x1/2 . n i=1

3.3

Paramètres de forme

Le moment centré d’ordre trois est défini par n

m3 =

1X (xi − x¯)3 . n i=1

Il peut prendre des valeurs positives, négatives ou nulle. L’asymétrie se mesure au moyen du coefficient d’asymétrie de Fisher g1 =

m3 . s3

Il est nul si la distribution est symétrique, négatif si la distribution est alongée à gauche, et positif si la distribution est alongée à droite.

13

Exercices Exercice 3.1 On pèse les 50 élèves d’une classe et nous obtenons les résultats résumés dans le tableau suivant: 43 48 49 52 54 59 63 67 72 81

43 48 50 53 56 59 63 68 72 83

43 48 50 53 56 59 65 70 73 86

47 49 51 53 56 62 65 70 77 92

48 49 51 54 57 62 67 70 77 93

1. De quel type est la variable poids ? 2. Construisez le tableau statistique en adoptant les classes suivantes : [40;45] ]45;50] ]50;55] ]55;60] ]60;65] ]65;70] ]70;80] ]80;100] 3. Construisez l’histogramme des effectifs ainsi que la fonction de répartition. Exercice 3.2 Calculez tous les paramètres (de position, de dispersion et de forme) à partir du tableau de l’exemple 2.4 sans prendre en compte les classes. Exercice 3.3 1. Montrez que s2y

n n 1 XX = 2 (xi − xj )2 . 2n i=1 j=1

2. Montrez que sy ≤ Et

14

r

n−1 . 2n

Chapter 4

Statistique descriptive bivariée 4.1

Série statistique bivariée

On s’intéresse à deux variables x et y. Ces deux variables sont mesurées sur les n unités d’observation. Pour chaque unité, on obtient donc deux mesures. La série statistique est alors une suite de n couples des valeurs prises par les deux variables sur chaque individu : (x1 , y1 ), ...., (xi , yi ), ...., (xn , yn ). Chacune des deux variables peut être, soit quantitative, soit qualitative. On examine deux cas. • Les deux variables sont quantitatives. • Les deux variables sont qualitatives.

4.2 4.2.1

Deux variables quantitatives Représentation graphique de deux variables

Dans ce cas, chaque couple est composé de deux valeurs numériques. Un couple de nombres (entiers ou réels) peut toujours être représenté comme un point dans un plan (x1 , y1 ), ...., (xi , yi ), ...., (xn , yn ). Exemple 4.1. On mesure le poids X et la taille Y de 20 individus. xi 60 61 64 67 68 69 70 70 72 73

4.2.2

yi xi 155 75 162 76 157 78 170 80 164 85 162 90 169 96 170 96 178 98 173 101

yi 180 175 173 175 179 175 180 185 189 187

Analyse des variables

Les variables x et y peuvent être analysées séparément. On peut calculer tous les paramètres dont les moyennes et les variances : n n 1X 1X x ¯= xi , s2x = (xi − x ¯)2 , n i=1 n i=1 15

Figure 4.1: Le nuage de points

190

Taille

180

170

160

150 60

70

80

90

100

Poids

n

n

1X y¯ = yi , n i=1

s2y

1X = (yi − y¯)2 . n i=1

Ces paramètres sont appelés paramètres marginaux : variances marginales, moyennes marginales, écartstypes marginaux, etc...

4.2.3

Covariance

La covariance est définie

n

sxy = Remarque 4.1.

1X (xi − x ¯)(yi − y¯). n i=1

• La covariance peut prendre des valeurs positives, négatives ou nulles. • Quand xi = yi , pour tout i = 1, ..., n, la covariance est égale à la variance. • La covariance peut également s’écrire : n

1X xi yi − x ¯y¯. n i=1

4.2.4

Corrélation

Le coefficient de corrélation est la covariance divisée par les deux écart-types marginaux : rxy =

sxy . sx sy

16

Le coefficient de détermination est le carré du coefficient de corrélation : s2xy . s2x s2y

2 rxy =

Remarque 4.2. • Le coefficient de corrélation mesure la dépendance linéaire entre deux variables : • −1 ≤ rxy ≤ 1, 2 • 0 ≤ rxy ≤ 1.

4.2.5

Droite de régression

La droite de régression est la droite qui ajuste au mieux un nuage de points au sens des moindres carrés. On considère que la variable X est explicative et que la variable Y est dépendante. L’équation d’une droite est y = a + bx. Le principe des moindres carrés consiste à chercher la droite qui minimise M (a, b) =

n X i=1

(yi − a − bxi )2

Le minimum s’obtient en annulant les dérivées partielles par rapport à a et b.  n X ∂M (a, b)   = − 2 (yi − a − bxi ) = 0   ∂a i=1 n X  ∂M (a, b)   2 (yi − a − bxi ) xi = 0 =−  ∂b i=1

On obtient un système de deux équations à deux inconnues, qui peuvent également s’écrire  x   y¯n= a + b¯ n n X X X x2i = 0 x y − a x − b  i i i  i=1

i=1

i=1

La première équation montre que la droite passe par le point (¯ x, y¯). De plus, on obtient a = y¯ − b¯ x.

En remplaçant a par sa valeur dans la seconde équation divisée par n, on a n

n

1X 1X 2 xi yi − (¯ y − b¯ x)¯ x−b x n i=1 n i=1 i n

=

1X xi yi − x¯y¯ − b n i=1

= sxy − bs2x

n

1X 2 x −x ¯2 n i=1 i

= 0, ce qui donne

 sxy   b = 2 pente sx sxy  a = y ¯ − 2 x ¯ constante.  sx 17

!

La droite de régression est donc y = y¯ −

sxy sxy x ¯ + 2 x, s2x sx

ce qui peut s’écrire aussi y − y¯ =

sxy (x − x ¯), s2x

Figure 4.2: La droite de régression

190

Taille

180

170

160

150 60

70

80

90

100

Poids

Remarque 4.3. La droite de régression de y en x n’est pas la même que la droite de régression de x en y.

4.2.6

Résidus et valeurs ajustées

Les valeurs ajustées sont obtenues au moyen de la droite de régression : yi∗ = a + bxi . Les valeurs ajustées sont les ‘prédictions’ des yi réalisées au moyen de la variable x et de la droite de régression de y en x. Remarque 4.4. La moyenne des valeurs ajustées est y¯. Les résidus sont les différences entre les valeurs observées et les valeurs ajustées de la variable dépendante. ei = yi − yi∗ . Les résidus représentent la partie inexpliquée des yi par la droite de régression. Remarque 4.5. • La moyenne des résidus est nulle :

n X

ei = 0.

i=1

• De plus,

n X

xi ei = 0.

i=1

18

4.2.7

Variance de régression et variance résiduelle

La variance de régression est la variance des valeurs ajustées. n

s2Y =

1X ∗ (y − y¯)2 n i=1 i

Théorème 4.1 La variance de régression peut également s’écrire s2Y = s2y r2 , où r2 est le coefficient de détermination. Démonstration n

s2Y

= = = = = =

1X ∗ (y − y¯)2 n i=1 i 2 n  1X sxy y¯ + 2 (xi − x ¯) − y¯ n i=1 sx

n s2xy 1 X (xi − x ¯)2 s4x n i=1

s2xy s2x s2xy s2y 2 2 sx sy s2y r2 .

2

La variance résiduelle est la variance des résidus. n

s2y.x =

1X 2 e . n i=1 i

Théorème 4.2 La variance résiduelle peut également s’écrire où r2 est le coefficient de détermination.

s2y.x = s2y (1 − r2 ),

Démonstration n

s2y.x

=

1X 2 e n i=1 i n

= = =

1X (yi − yi∗ )2 n i=1 2 n  1X sxy yi − y¯ − 2 (xi − x ¯) n i=1 sx

n n n s2xy 1 X sxy 1 X 1X (yi − y¯)2 + 4 (xi − x¯)2 − 2 2 (xi − x ¯)(yi − y¯) n i=1 sx n i=1 sx n i=1

s2xy s2xy − 2 s2x s2 !x s2xy 1− 2 2 . sx sy

= s2y + = s2y

2 19

Théorème 4.3 La variance marginale est la somme de la variance de régression et de la variance résiduelle, s2y = s2Y + s2y.x . La démonstration découle directement des deux théorèmes précédents.

4.3 4.3.1

Deux variables qualitatives Données observées

Si les deux variables x et y sont qualitatives, alors les données observées sont une suite de couples de variables (x1 , y1 ), ..., (xi , yj ), ..., (xn , yn ), chacune des deux variables prend comme valeurs des modalités qualitatives. Les valeurs distinctes de x et y sont notées respectivement x1 , ...., xj , ...., xJ et y1 , ...., yk , ...., yK .

4.3.2

Tableau de contingence

Les données observées peuvent être regroupées sous la forme d’un tableau de contingence x1 .. .

y1 n11 .. .

... ...

yk n1k .. .

... ...

yK n1K .. .

total n1.

xj .. .

nj1 .. .

...

njk .. .

...

njK .. .

nj.

xJ nJ1 total n.1

... ...

nJk n.k

...

nJK n.K

nJ. n

Les nj. et n.k sont appelés les effectifs marginaux. Dans ce tableau, • nj. représente le nombre de fois que la modalité xj apparaît, • n.k représente le nombre de fois que la modalité yk apparaît, • njk représente le nombre de fois que les modalités xj et yk apparaissent ensemble. On a les relations

J X

njk = n.k , pour tout k = 1, ..., K,

j=1

K X

njk = nj. , pour tout j = 1, ..., J,

k=1

et

J X j=1

nj. =

K X

k=1

n.k =

J X K X j=1 k=1

20

njk = n

.

4.3.3

Tableau des fréquences

Le tableau de fréquences s’obtient en divisant tous les effectifs par la taille de l’échantillon : njk , j = 1, ..., J, k = 1, ..., K fjk = n nj. , j = 1, ..., J, fj. = n n.k f.k = , k = 1, ..., K. n Le tableau des fréquences est

4.3.4

x1 .. .

y1 f11 .. .

... ...

yk f1k .. .

... ...

yK f1K .. .

total f1.

xj .. .

fj1 .. .

...

fjk .. .

...

fjK .. .

fj.

xJ fJ1 total f.1

... ...

fJk f.k

...

fJK f.K

fJ. 1

Profils lignes et profils colonnes

Un tableau de contingence s’interprète toujours en comparant des fréquences en lignes ou des fréquences en colonnes (appelés aussi profils lignes et profils colonnes ). Les profils lignes sont définis par (j)

fk = et les profils colonnes par (k)

fj

4.3.5

=

fjk , k = 1, ..., K, j = 1, ..., J, fj. fjk , j = 1, ..., J, k = 1, ..., K. f.k

Effectifs théoriques et khi-carré

On cherche souvent une interaction entre des lignes et des colonnes, un lien entre les variables. Pour mettre en évidence ce lien, on construit un tableau d’effectifs théoriques qui représente la situation où les variables ne sont pas liées (indépendance). Ces effectifs théoriques sont construits de la manière suivante : n∗jk =

nj. n.k . n

Les effectifs observés n∗jk ont les mêmes marges que les effectifs théoriques njk . Enfin, les écarts à l’indépendance sont définis par ejk = njk − n∗jk . La dépendance du tableau se mesure au moyen du khi-carré défini par χ2obs =

K X J X (njk − n∗jk )2 k=1 j=1

n∗jk

=

J K X X e2jk . n∗ j=1 jk

(4.1)

k=1

Le khi-carré peut être normalisé pour ne plus dépendre du nombre d’observations φ2 =

χ2 . n

Il est possible de montrer que φ2 ≤ min(J − 1, K − 1).

Exemple 4.2. Le tableau suivant est extrait de Boudon (1979, p. 57). La variable X est le niveau d’instruction du fils par rapport au père (plus élevé, égal, inférieur), et la variable Y est le statut professionnel du fils par rapport au père (plus élevé, égal, inférieur). 21

Tableau de contingence : effectifs njk Niveau d’instruction Statut professionnel du fils du fils par rapport par rapport au père au père Plus élevé Egal inférieur plus élevé 134 96 61 égal 23 33 24 inférieur 7 16 22 total 164 145 107

total 291 80 45 416

Tableau des fréquences fjk X\Y Plus élevé plus élevé 0, 322 égal 0, 055 inférieur 0, 017 total 0, 394

Egal inférieur total 0, 231 0, 147 0, 700 0, 079 0, 058 0, 192 0, 038 0, 053 0, 108 0, 349 0, 257 1, 000

Tableau des profils lignes X\Y Plus élevé plus élevé 0, 460 égal 0, 288 inférieur 0, 156 total 0, 394

Egal inférieur total 0, 330 0, 210 1 0, 413 0, 300 1 0, 356 0, 489 1 0, 349 0, 257 1

Tableau des profils colonnes X\Y Plus élevé plus élevé 0, 817 égal 0, 140 inférieur 0, 043 total 1

Egal inférieur total 0, 662 0, 570 0, 700 0, 228 0, 224 0, 192 0, 110 0, 206 0, 108 1 1 1

Tableau des effectifs théoriques n∗jk X\Y plus élevé égal inférieur total

Plus élevé Egal inférieur total 114, 72 101, 43 74, 85 291 31, 54 27, 88 20, 58 80 17, 74 15, 69 11, 57 45 164 145 107 416

Tableau des écarts à l’indépendance ejk X\Y Plus élevé Egal inférieur plus élevé 19, 28 −5, 43 −13, 85 égal −8, 54 5, 12 3, 42 inférieur −10, 74 0, 31 10, 43 total 0 0 0

total 0 0 0 0

Tableau des e2jk /n∗jk X\Y plus élevé égal inférieur total

Plus élevé 3, 24 2, 31 6, 50 12, 05

Egal inférieur 0, 29 2, 56 0, 94 0, 57 0, 01 9, 39 1, 24 12, 52

22

total 6, 09 3, 82 15, 90 χ2 = 25, 81

Exercices Exercice 4.1 La consommation de crème glacée d’individus a été mesurée pendant 30 périodes. L’objectif est déterminer si la consommation dépend de la température. Les données sont dans le tableau 4.1. On sait en outre que Table 4.1: Consommation de crème glacée consommation y 386 374 393 425 406 344 327 288 269 256

température x consommation y 41 286 56 298 63 329 318 68 69 381 65 381 61 470 47 443 32 386 24 342

n X

yi = 10783,

i=i

n X

yi2

température x 28 26 32 40 55 63 72 72 67 60

n X

consommation y 319 307 284 326 309 359 376 416 437 548

température x 44 40 32 27 28 33 41 52 64 71

xi = 1473,

i=i

n X

= 4001293,

i=i

x2i = 80145,

i=i

n X

xi yi = 553747,

i=i

1. Donnez les moyennes marginales, les variances marginales et la covariance entre les deux variables. 2. Donnez la droite de régression, avec comme variable dépendante la consommation de glace et comme variable explicative la température. 3. Donnez la valeur ajustée et le résidu pour la première observation du tableau 1. Exercice 4.2 Neuf étudiants émettent un avis pédagogique vis-à-vis d’un professeur selon une échelle d’appréciation de 1 à 20. On relève par ailleurs la note obtenue par ces étudiants l’année précédente auprès de professeur. Y = Avis X = Résultat

5 8

7 11

Etudiants 16 6 12 10 13 9

14 17

10 7

9 15

8 16

1. Représentez graphiquement les deux variables. 2. Déterminez le coefficient de corrélation entre les variables X et Y. Ensuite, donnez une interprétation de ce coefficient. 3. Déterminez la droite de régression Y en fonction de X. 4. Établissez, sur base du modèle, l’avis pour un étudiant ayant obtenu 12/20. 5. Calculez la variance résiduelle et le coefficient de détermination.

23

Exercice 4.3 Considérons un échantillon de 10 fonctionnaires (ayant entre 40 et 50 ans) d’un ministère F. Soit X le nombre d’années de service et Y le nombre de jours d’absence pour raison de maladie (au cours de l’année précédente) déterminé pour chaque personne appartenant à cet échantillon. Xi Yi

2 3

14 16 8 13 20 24 7 5 13 17 12 10 8 20 7 2

11 8

1. Représentez le nuage de points. 2. Calculez le coefficient de corrélation entre X et Y. 3. Déterminer l’équation de la droite de régression de Y en fonction de X. 4. Déterminer la qualité de cet ajustement. 5. Etablissez, sur base de ce modèle, le nombre de jours d’absence pour un fonctionnaire ayant 22 ans de service.

24

Chapter 5

Probabilités 5.1

Événement

Une expérience est dite aléatoire si on ne peut pas prédire a priori son résultat. On note ω un résultat possible de cette expérience aléatoire. L’ensemble de tous les résultats possibles est noté Ω. Par exemple, si on jette deux pièces de monnaie, on peut obtenir les résultats Ω = {(P, P, ), (F, P ), (P, F ), (F, F )} , avec F pour ‘face’ et P pour ‘pile’ . Un événement est une assertion logique sur une expérience aléatoire. Formellement, un événement est un sous-ensemble de Ω. Exemple 5.1. L’expérience peut consister à jeter un dé, alors Ω = {1, 2, 3, 4, 5, 6}, et un événement, noté A, est ‘obtenir un nombre pair’ . On a alors A = {2, 4, 6}.

Soient deux événements A et B, si A ∩ B = ∅, alors on dit qu’ils sont mutuellement exclusifs. Exemple 5.2. Par exemple, si on jette un dé, l’événement ‘obtenir un nombre pair’ et l’événement ‘obtenir un nombre impair’ ne peuvent pas être obtenus en même temps. Ils sont mutuellement exclusifs. D’autre part, si l’on jette un dé, les événements A : ‘obtenir un nombre pair’ n’est pas mutuellement exclusif avec l’événement B : ‘obtenir un nombre inférieur ou égal à 3’ . En effet, l’intersection de A et B est non-vide et consiste en l’événement ‘obtenir 2’ . On appelle complémentaire d’un événement A = Ω\A. On va associer à Ω l’ensemble A de toutes les parties (ou sous-ensembles) de Ω. Exemple 5.3. Si on jette un pièce de monnaie alors Ω = {P, F }, et A = {∅, {F }, {P }, {F, P }} .

Définition 5.1 Les événements A1 , ..., An forment un système complet d’événements, si ils constituent une partition de Ω, c’est-à-dire si • tous les couples Ai , Aj sont mutuellement exclusifs quand i 6= j, S • ni=1 Ai = Ω. 25

5.2

Axiomatique des Probabilités

Définition 5.2 Une probabilité P (.) est une application de A dans [0, 1], telle que : • P r(Ω) = 1, • Pour tout ensemble dénombrable d’événements A1 , .., An tels que Ai ∩ Aj = ∅, pour tout i 6= j, ! n n [ X Pr Ai = P r(Ai ). i=1

i=1

A partir des axiomes, on peut déduire les propriétés suivantes : • P r(∅) = 0, • P r(A) = 1 − P r(A), • P r(A) ≤ P r(B) si A ⊂ B, • P r(A ∪ B) = P r(A) + P r(B) − P r(A ∩ B), S P • P r ( ni=1 Ai ) ≤ ni=1 P r(Ai ),

• Si A1 , ..., An forment un système complet d’événements, alors n X i=1

5.3

P r(B ∩ Ai ) = P r(B).

Probabilités conditionnelles et indépendance

Définition 5.3 Soit deux événements A et B, si P r(B) > 0, alors P r(A|B) =

P r(A ∩ B) . P r(B)

Définition 5.4 Deux événements A et B sont dits indépendants si P r(A|B) = P r(A). On peut montrer facilement que si A et B sont indépendants, alors P r(A ∩ B) = P r(A)P r(B).

Exercices Exercice 5.1 On jette trois dés, quelle est la probabilité d’avoir : 1. trois 6 ; 2. de ne pas avoir de 6 ; 3. d’avoir au moins un 6 ; 4. d’avoir exactement un 6 ?

26

Chapter 6

Variables aléatoires 6.1

Définition

La notion de variable aléatoire formalise l’association d’une valeur au résultat d’une expérience aléatoire. Définition 6.1 Une variable aléatoire X est une application de l’ensemble fondamental Ω dans R. Exemple 6.1. On considère une expérience aléatoire consistant à lancer deux pièces de monnaie. L’ensemble des résultats possibles est Ω = {(F, F ), (F, P ), (P, F ), (F, F )}.

Chacun des éléments de Ω a une probabilité 1/4. Une variable aléatoire va associer une valeur à chacun des éléments de Ω. Considérons la variable aléatoire représentant le nombre de ‘Faces’ obtenus :   0 avec une probabilité 41 1 avec une probabilité 12 X=  2 avec une probabilité 14 .

6.2 6.2.1

Variables aléatoires discrètes Définition, espérance et variance

Une variable aléatoire discrète prend uniquement des valeurs entières (de Z). Une distribution de probabilité pX (x) est une fonction qui associe à chaque valeur entière une probabilité. pX (x) = P r(X = x), x ∈ Z. La fonction de répartition est définie par FX (x) = P r(X ≤ x) =

X

pX (z).

z≤x

L’espérance mathématique d’une variable aléatoire discrète est donné par X µ = E(X) = pX (x)x, x∈Z

et sa variance

2

σ 2 = V ar(X) = E {X − E(X)} =

27

X

x∈Z

pX (x)(x − µ)2 .

6.2.2

Variable indicatrice ou bernoullienne

La variable indicatrice X de paramètre p ∈ [0, 1] a la distribution de probabilité suivante :  1 avec une probabilité p X= 0 avec une probabilité 1 − p. L’espérance vaut µ = E(X) = 0 × (1 − p) + 1 × p = p,

et la variance vaut

σ 2 = V ar(X) = E(X − p)2 = (1 − p)(0 − p)2 + p(1 − p)2 = p(1 − p). Exemple 6.2. On tire au hasard une boule dans une urne contenant 18 boules rouges et 12 boules blanches. Si X vaut 1 si la boule est rouge et 0 sinon, alors X a une loi bernoullienne de paramètre p = 18/(18 + 12) = 0, 6.

6.2.3

Variable binomiale

Une variable X suit une loi binomiale de paramètre 0 < p < 1 et d’exposant n, si n P r(X = x) = px (1 − p)n−x , x = 0, 1, ..., n − 1, n, x où

n x

La somme de ces probabilités vaut 1, en effet n X

P r(X = x) =

x=0

n   X n

x=0

x

=

n! . x!(n − x)! n

px (1 − p)n−x = {p + (1 − p)} = 1.

L’espérance et la variance sont données par E(X) = np,

V ar(X) = np(1 − p).

Exemple 6.3. On tire au hasard avec remise et de manière indépendante 5 boules dans une urne contenant 18 boules rouges et 12 boules blanches. Si X est le nombre de boules rouges obtenues, alors X a une loi binomiale de paramètre p = 18/(18 + 12) = 0, 6, et d’exposant n = 5. Donc   5 P r(X = x) = 0, 6x 0, 45−x , x = 0, 1, ..., 4, 5, x ce qui donne P r(X = 0) = P r(X = 1) = P r(X = 2) = P r(X = 3) = P r(X = 4) = P r(X = 5) =

5! 0, 60 × 0, 45−0 0!(5 − 0)! 5! 0, 61 × 0, 45−1 1!(5 − 1)! 5! 0, 62 × 0, 45−2 2!(5 − 2)! 5! 0, 63 × 0, 45−3 3!(5 − 3)! 5! 0, 64 × 0, 45−4 4!(5 − 4)! 5! 0, 65 × 0, 45−5 5!(5 − 5)!

28

= 1 × 0, 45 = 0, 01024 = 5 × 0, 61 × 0, 44 = 0, 0768 = 10 × 0, 62 × 0, 43 = 0, 2304 = 10 × 0, 63 × 0, 42 = 0, 3456 = 5 × 0, 64 × 0, 41 = 0, 2592 = 1 × 0, 65 = 0, 07776

6.2.4

Variable de Poisson

La variable X suit une loi de Poisson, de paramètre λ ∈ R+ si

e−λ λx , x = 0, 1, 2, 3, ..... x! L’espérance et la variance d’une loi de Poisson sont égales au paramètre λ P r(X = x) =

E(X) = λ,

6.3 6.3.1

V ar(X) = λ.

Variable aléatoire continue Définition, espérance et variance

Une variable aléatoire continue prend des valeurs dans R ou dans un intervalle de R. La probabilité qu’une variable aléatoire continue soit inférieure à une valeur particulière est donnée par sa fonction de répartition. P r(X ≤ x) = F (x). La fonction de répartition d’une variable aléatoire continue est toujours : • dérivable,

• positive : F (x) ≥ 0, pour tout x, • croissante,

• limx→∞ F (x) = 1, • limx→−∞ F (x) = 0.

On a

P r(a ≤ X ≤ b) = F (b) − F (a).

La fonction de densité d’une variable aléatoire continue est la dérivée de la fonction de répartition en en point dF (x) . f (x) = dx Une fonction de densité est toujours : • positive : f (x) > 0, pour tout x, R∞ • d’aire égale à un : −∞ f (x)dx = 1.

On a évidemment la relation :

F (b) =

Z

b

f (x)dx.

−∞

La probabilité que la variable aléatoire soit inférieure à une valeur quelconque vaut : Z a P r[X ≤ a] = f (x)dx = F (a) −∞

La probabilité que la variable aléatoire prenne une valeur comprise entre a et b vaut Z b P r[a ≤ X ≤ b] = f (x)dx = F (b) − F (a). a

Si la variable aléatoire est continue, la probabilité qu’elle prenne exactement une valeur quelconque est nulle : P r[X = a] = 0. L’espérance d’une variable aléatoire continue est définie par : Z ∞ E(X) = xf (x)dx, −∞

et la variance

V ar(X) =

Z



−∞

(x − µ)2 f (x)dx.

29

6.3.2

Variable uniforme

Une variable est dite uniforme dans un intervalle [a,b], (avec   0 F (x) = (x − a)/(b − a)  1

Sa densité est alors

  0 1/(b − a) f (x) =  0

On peut montrer que

µ = E(X) =

a < b) si sa répartition est : si x < a si a ≤ x ≤ b si x > b.

si x < a si a ≤ x ≤ b si x > b.

b+a 2

et

(b − a)2 . 12 Les logiciels générent en général des variables aléatoires uniformes dans [0,1]. σ 2 = V ar(X) =

6.3.3

Variable normale

Une variable aléatoire X est dite normale si sa densité vaut  2 1 1 x−µ fµ,σ2 (x) = √ exp − . 2 σ σ 2π De manière synthétique, pour noter que X a une distribution normale de moyenne µ et de variance σ 2 on écrit : X ∼ N (µ, σ 2 ). On peut montrer que

E(X) = µ, et V ar(X) = σ 2 . La fonction de répartition vaut Fµ,σ2 (x) =

Z

x

−∞

 2 1 1 u−µ √ exp − du. 2 σ σ 2π

Un cas particulier important est la normale centrée réduite avec µ = 0 et σ 2 = 1. Sa fonction de densité vaut 1 x2 f0,1 (x) = √ exp − . 2 2π et sa répartition vaut Φ(x) = F0,1 (x) =

Z

x

−∞

1 u2 √ exp − du. 2 2π

Du fait de la symétrie de la densité, on a la relation

Φ(−x) = 1 − Φ(x). De plus, le calcul de la répartition d’une variable normale de moyenne µ et de variance σ 2 peut toujours être ramené à une normale centrée réduite. En effet, on a   x−µ Fµ,σ2 (x) = Φ . σ 30

6.4

Distribution bivariées et multivariées

Deux variables aléatoires peuvent avoir une distribution jointe.

6.4.1

Cas continu

Soit deux variables aléatoires X et Y continues, leur distribution de densité f (x, y) est une fonction continue, positive, et telle que Z ∞Z ∞ f (x, y)dxdy = 1. −∞

−∞

La fonction de répartition jointe est définie par

F (x, y) = P r(X ≤ x et Y ≤ y) =

Z

x

−∞

Z

y

f (u, v)dudv.

−∞

On appelle densités marginales les fonctions Z ∞ Z fX (x) = f (x, y)dy, et fY (y) = −∞



f (x, y)dx.

−∞

Avec les distributions marginales, on peut définir les moyennes marginales, et les variances marginales : Z ∞ Z ∞ µX = xfX (x)dx, et µY = yfY (y)dy, −∞

2 σX =

Z

−∞



−∞

(x − µX )2 fX (x)dx, et σY2 =

On appelle densités conditionnelles, les fonctions

Z



−∞

(y − µY )2 fY (y)dy.

f (x, y) f (x, y) et f (y|x) = . fY (y) fX (x)

f (x|y) =

Avec les distributions conditionnelles, on peut définir les moyennes conditionnelles, et les variances conditionnelles : Z ∞ Z ∞ µX (y) = xf (x|y)dx, et µY (x) = yf (y|x)dy, 2 σX (y) =

Z

−∞



−∞

{x − µX (y)}2 f (x|y)dx, et σY2 (x) =

Z

−∞ ∞

−∞

{y − µY (x)}2 f (y|x)dy.

Enfin, la covariance entre X et Y est définie par Z ∞Z ∞ σxy = Cov(X, Y ) = (x − µX )(y − µY )f (x, y)dxdy. −∞

6.4.2

−∞

Cas discret

Soit deux variables aléatoires X et Y discrètes, leur distribution de probabilité p(x, y) est une fonction, positive, et telle que XX p(x, y) = 1. x∈Z y∈Z

La fonction de répartition jointe est définie par

F (x, y) = P r(X ≤ x et Y ≤ y) =

XX

p(u, v).

u≤x v≤y

On appelle distributions de probabilité marginales : X X pX (x) = p(x, y), et pY (y) = p(x, y). y∈Z

x∈Z

31

Avec les distributions marginales, on peut définir les moyennes marginales, et les variances marginales : X X µX = pX (x)x, et µY = pY (y)y, x∈Z

2 σX = V ar(X) =

X

x∈Z

x∈Z

pX (x)(x − µX )2 , et σY2 = V ar(Y ) =

On appelle distributions conditionnelles, p(x|y) =

X y∈Z

pY (y)(y − µY )2 .

p(x, y) p(x, y) et p(y|x) = . pY (y) pX (x)

Avec les distributions conditionnelles, on peut définir les moyennes conditionnelles, et les variances conditionnelles : X X µX (y) = p(x|y)x, et µY (x) = p(y|x)y, x∈Z

2 σX (y) =

X

x∈Z

y∈Z

2

p(x|y) {x − µX (y)} , et σY2 (x) =

X y∈Z

p(y|x) {y − µY (x)}2 .

Enfin, la covariance entre X et Y est définie par XX σxy = Cov(X, Y ) = p(x, y)(x − µX )(y − µY ). x∈Z y∈Z

6.5

Indépendance de deux variables aléatoires

Deux variables aléatoires X et Y sont dites indépendantes, si P r(X ≤ x et Y ≤ y) = P r(X ≤ x)P r(Y ≤ y), pour tout x, y ∈ R. • Si X et Y sont discrètes, cela implique que P r(X = x et Y = y) = P r(X = x)P r(Y = y), pour tout x, y ∈ Z. • Si X et Y sont continues, en notant fX (.) et fY (.) les fonctions de densité respectives de X et Y , et en notant fXY (x, y) la densité jointe des deux variables, alors X et Y sont indépendants si fXY (x, y) = fX (x)fY (y), x, y ∈ R.

6.6

Propriétés des espérances et des variances

De manière générale, pour des variables aléatoires X et Y , et avec a et b constants : E(a + bX) = a + bE(X) E(aY + bX) = aE(Y ) + bE(X) V ar(a + bX) = b2 V ar(X). V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ). De plus, si X et Y sont indépendantes : E(XY ) = E(X)E(Y ) Cov(X, Y ) = 0, V ar(X + Y ) = V ar(X) + V ar(Y ). Enfin, il est possible de calculer l’espérance et la variance d’une somme de variables aléatoires indépendantes, et identiquement distribuées. 32

Théorème 6.1 Soit X1 , ..., Xn une suite de variables aléatoires, indépendantes et identiquement distribuées et dont la moyenne µ et la variance σ 2 existent et sont finies, alors si n

X ¯ = 1 Xi , X n i=1

on a

2 ¯ = µ, et V ar(X) ¯ =σ . E(X) n 2 ¯ = σ . V ar(X) n

Démonstration n

1X Xi n i=1



¯ =E E X et

n



¯ = V ar V ar X

6.7

1X Xi n i=1

!

!

n

=

=

n

1X 1X E (Xi ) = µ = µ. n i=1 n i=1

n n 1 X 1 X 2 σ2 V ar (X ) = σ = . i 2 2 n i=1 n i=1 n

2

Théorème central limite

Théorème 6.2 Soit X1 , ..., Xn une suite de variables aléatoires, indépendantes et identiquement distribuées et dont la moyenne µ et la variance σ 2 existent et sont finies, alors si n

X ¯ = 1 X Xi , n i=1 lim P r

n→∞

¯ − E(X) X p ≤a V ar(X)

!

= lim P r n→∞

 ¯  X −µ √ ≤ a = Φ(a) σ/ n

où Φ(a) est la fonction de répartition d’une variable aléatoire normale centrée réduite Z a 2 1 Φ(a) = √ e−u /2 du. 2π −∞

6.8 6.8.1

Autres variables aléatoires Variable de khi-carrée

Soit une suite de variables aléatoires indépendantes, normales, centrées réduites, X1 , . . . , Xp , (c’est-à-dire de moyenne nulle et de variance égale à 1), alors la variable aléatoire χ2 (p) =

p X

Xi2 ,

i=1

est appelée variable aléatoire khi-carré à p degrés de liberté.

6.8.2

Variable de Student

Soit une variable aléatoire X normale centrée réduite, et une variable aléatoire khi-carré χ2 (p) à p degrés de liberté, indépendante de X, alors la variable aléatoire X tp = p 2 χ (p)/p

est appelée variable aléatoire de Student à p degrés de liberté. 33

6.8.3

Variable de Fisher

Soient deux variables aléatoires khi-carrés indépendantes, normales, centrées réduites, χ21 (p), χ22 (q), respectivement à p et q degrés de liberté, alors la variable aléatoire F (p, q) =

χ21 (p)/p χ22 (q)/q

est appelée variable aléatoire de Fisher à p et q degrés de liberté.

6.9 6.9.1

Remarques sur l’utilisation du calcul des probabilités en statistique Statistique et probabilité

L’introduction du calcul des probabilités dans la statistique est récente. Au 19ème siècle, la statistique publique était essentiellement descriptive. L’idée de recourir à un échantillonnage aléatoire n’a été réellement admise par la communauté scientifique qu’au début de 20ème siècle. Le calcul des probabilités a été introduit en statistique avec deux objectifs • l’échantillonnage, • la modélisation, • la randomisation.

6.9.2

L’échantillonnage

La théorie de l’échantillonnage consiste à justifier l’utilisation d’une partie (un échantillon) pour tirer des conclusions sur le tout (la population). Dans la théorie de l’échantillonnage, on sélectionne les unités au hasard dans la population. Ensuite, on construit des intervalles dans lesquels se trouvent certains paramètres (comme des totaux, des moyennes ou des proportions) de la population avec une certaine probabilité. Ces intervalles peuvent être construits, car la distribution de probabilité des paramètres de l’échantillon est connue. L’échantillonnage aléatoire le plus simple est le plan aléatoire simple avec remise de taille fixe. Supposons que la population soit composée de N unités d’observation notées Y1 , ..., YN . La moyenne et la variance de la population sont notées : N N 1 X 1 X µ= Yk , σ 2 = (Yk − µ)2 . N N k=1

k=1

Si on sélectionne n unités notées y1 , ..., yn de manière indépendante au hasard à probabilités égales dans la population, alors les yi sont des variables aléatoires. Les yi sont aléatoires, car ils ont été choisis au hasard parmi les unités de la population. Comme, à chaque tirage, on sélectionne à probabilités égales une unité de la population, on connaît la distribution de probabilités de chacun des yi qui est donnée par :  Y1 avec une probabilité N1     .    .. Yk avec une probabilité N1 , pour i = 1, ..., n. yi =   .  .  .    YN avec une probabilité N1

Comme on connaît la distribution de probabilités, on peut calculer l’espérance et la variance de chacun d’eux E(yi ) =

N X

P r(yi = Yk )Yk =

k=1

et V ar(yi ) =

N X i=1

N X 1 Yk = µ. N k=1

P r(yi = Yk )(Yk − µ)2 = 34

N X 1 (Yk − µ)2 = σ 2 . N i=1

On peut s’intéresser à la moyenne de l’échantillon. n

y¯ =

1X yi . n i=1

Cette moyenne de l’échantillon est également une variable aléatoire, car c’est une moyenne de variables aléatoires indépendantes. On peut calculer son espérance : n

E(¯ y) =

n

1X 1X E(yi ) = µ = µ. n i=1 n i=1

La variance peut être calculée en tenant compte que les yi sont indépendants, et que la variance d’une somme de variables aléatoires indépendantes est la somme des variances de ces variables aléatoires. V ar(¯ y) =

n n 1 X 1 X 2 σ2 V ar(y ) = σ = . i 2 2 n i=1 n i=1 n

La moyenne de l’échantillon y¯ est donc de moyenne µ et de variance σ 2 /n. En échantillonnage, c’est donc le choix aléatoire de l’échantillon qui rend la moyenne de l’échantillon aléatoire. Le théorème central limite nous dit que pour une grande taille d’échantillon, la distribution de probabilité de la moyenne de l’échantillon est approximativement normale. Grâce à la connaissance de la loi de cette moyenne de l’échantillon, on pourra mener une inférence sur la population.

6.9.3

La modélisation

La modélisation est une approche complètement différente pour introduire le calcul des probabilités qui consiste à approximer la réalité par un modèle plus simple. Le modèle ne pourra jamais représenter complètement la réalité dans toute sa complexité. Le modèle est une simplification. La maxime du modélisateur dit que ‘tous les modèles sont faux, mais certains sont utiles’ . Comme le modèle ne peut tout décrire, il restera toujours une partie inexpliquée qui sera supposée aléatoire. Le calcul des probabilités est alors introduit pour prendre en compte la partie inexpliquée par le modèle. Exemple 6.4. Un modèle simple consiste simplement à postuler que les observations sont indépendantes et sont toutes issues de la même loi. On mesure le diamètre de 50 pommes d’un même pommier. On suppose que ces diamètres mesurés sont des réalisations indépendantes de variables aléatoires normales, ce qui s’écrit xi = N (µ, σ 2 ), i = 1, ..., 50, où µ et σ 2 sont deux paramètres inconnus. Sous cette hypothèse, le problème consistera à ‘estimer’ µ et σ 2 . En effet, si µ et σ 2 sont connus, on connaît complètement la distribution de probabilité du diamètre des pommes.

6.9.4

La randomisation

Si lors d’une expérience, on veut réaliser un traitement sur des unités d’observation, on randomise (on affecte au hasard) le traitement sur les unités. En effet, chaque unité statistique est spécifique, et cette spécificité peut évidemment avoir un effet sur le résultat du traitement. Pour étudier l’effet du traitement, on crée deux groupes : un groupe qui recevra le traitement, et un groupe de contrôle. Ces deux groupes sont constitués au hasard de sorte que tous les individus on la même probabilité de se trouver dans chacun des groupes. Ainsi, en espérance, ces deux groupes ont les même moyennes. La randomisation est donc une application du calcul des probabilités souvent nécessaire dans l’élaboration d’un cadre expérimental.

Exercices Exercice 6.1 Donnez les quantiles d’ordre 99%, 97.5% et 95% : 1. d’une variable normale centrée réduite ;

35

2. d’une variable Khi-carrée à 17 degrés de liberté ; 3. d’une variable de Student à 8 degrés de liberté ; 4. d’une variable de Fisher (uniquement d’ordre 95%) à 5 et 7 degrés de liberté. Exercice 6.2 Soit Z ∼ N (0, 1). Déterminez :

1. Pr[Z ≤ 1, 23];

2. Pr[Z ≤ −1, 23]; 3. Pr[Z ∈ [0, 36; 1, 23]] ; 4. Pr[Z ∈ [−0, 88; 1, 23]] ; 5. Pr[Z > 2, 65 ou Z ≤ −1, 49]. Exercice 6.3 Déterminez les valeurs j de la variable normale centrée réduite Z telles que : 1. Pr[Z ≤ j] = 0, 9332; 2. Pr[−j ≤ Z ≤ j] = 0, 3438; 3. Pr[Z ≤ j] = 0, 0125 ; 4. Pr[Z ≥ j] = 0, 0125 ; 5. Pr[j ≤ Z ≤ 3] = 0, 7907. Exercice 6.4 Soit une variable aléatoire X ∼ N (53; σ 2 = 100) représentant le résultat d’un examen pour un étudiant d’une section. Déterminez la probabilité pour que le résultat soit compris entre 33,4 et 72,6. Exercice 6.5 Soit une variable aléatoire X N (50; σ 2 = 100). Déterminez le premier quartile de cette distribution Exercice 6.6 En supposant que les tailles en cm des étudiants d’un pays admettent la distribution normale N (172; σ 2 = 9). On demande de déterminer le pourcentage théorique : a) d’étudiants mesurant au moins 180 cm. b) d’étudiants dont la taille est comprise entre 168 et 180. Exercice 6.7 Sur une route principale où la vitesse est limitée à 80 km/h, un radar a mesuré la vitesse de toutes les automobiles pendant une journée. En supposant que les vitesses recueillies soient distribuées normalement avec une moyenne de 72 km/h et un écart-type de 8 km/h, quelle est approximativement la proportion d’automobiles ayant commis un excès de vitesse ? Exercice 6.8 Pour l’assemblage d’une machine, on produit des cylindres dont le diamètre varie d’après une loi normale de moyenne 10 cm et d’écart-type 0,2 cm. On groupe les cylindres en 3 catégories : A : défectueux et inutilisable si le diamètre est ≤ 9.95, le cylindre est alors détruit. B : utilisable et vendu au prix réduit de Fr. 5.-, si 9,95 le diamètre ≤ 9,99. C : correspond aux normes et est vendu Fr. 15.-, si le diamètre est > 9,99. a) Calculer les proportions de cylindres produits de chaque type A, B et C. b) La production d’un cylindre coûte Fr. 7.-. Quel est le profit moyen par cylindre produit ?

36

Chapter 7

Inférence statistique 7.1

Estimateurs et propriétés

Définition 7.1 Les données observées peuvent être : • l’ensemble des valeurs prises par une variable sur les unités sélectionnées dans l’échantillon. Cet échantillon est sélectionné de manière aléatoire. • une suite de réalisations de variables aléatoires, dont on connaît la distribution de probabilité, mais pas les paramètres. Dans les deux cas, les données observées sont une suite de réalisations de variables aléatoires. Définition 7.2 Une statistique T est une fonction des données observées. Une statistique est donc une fonction de l’échantillon ou une fonction d’une série de réalisations du modèle. La statistique est donc une fonction de ce qui est observé, et est donc toujours calculable. Définition 7.3 Un paramètre θ peut être défini de deux manières. • Dans le cadre de l’échantillonnage dans une population finie, le paramètre désigne une fonction des valeurs prises par la variable sur les différentes unités de la population θ = f (X1 , . . . , XN ). • Dans le cadre d’une modélisation au moyen d’une loi de probabilité, le paramètre est une valeur inconnue dont dépend la distribution de probabilité pθ (x) (cas discret), ou la fonction de densité fθ (x) (cas continu). Dans les deux cas, le paramètre est une valeur inconnue. L’objectif est de donner une valeur approchée du paramètre, de l’estimer. Exemple 7.1. On s’intéresse à la population des habitants du canton de Neuchâtel, l’objectif est d’estimer le revenu moyen, cette moyenne est alors un paramètre à estimer. Exemple 7.2. On mesure le QI sur 300 individus, et on suppose que ces 300 mesures sont des réalisations indépendantes de variables aléatoires normales de même moyenne µ et de même variance σ 2 . Alors, le paramètre est le couple constitué de cette moyenne et de cette variance (µ, σ 2 ). En statistique inférentielle, le paramètre est toujours inconnu. On pourra au mieux essayer de l’estimer. L’inférence statistique vise à essayer de déduire des informations sur le paramètre sur base des données observées. Comme les données observées sont aléatoires, les résultats de cette déduction pourront éventuellement être erronés. Définition 7.4 Un estimateur θˆ est une statistique servant à estimer un paramètre θ. 37

Rappelons d’abord quelques propriétés des estimateurs : ˆ = θ pour toute valeur de θ. • Un estimateur θˆ d’un paramètre θ est sans biais, si E(θ) • Un estimateur est efficace ou de variance minimum si sa variance est plus petite ou égale que tous les estimateurs du paramètre. • Un estimateur θˆ est convergent, s’il converge en probabilité vers le paramètre à estimer, c’est-à-dire lim P r(|θˆ − θ| > ǫ) = 0,

n→∞

où n est le nombre d’observations, etǫ est une quantité arbitrairement petite. • Une statistique est exhaustive si elle épuise toute l’information relative au paramètre.

7.2

Inférence statistique

L’inférence statistique prend essentiellement deux formes : la construction d’intervalles de confiance, et les tests d’hypothèses.

7.2.1

Intervalle de confiance

Pour ne pas donner sèchement la valeur d’un estimateur θb d’un paramètre θ, on préfère produire un intervalle [L− , L+ ] dans lequel pourrait se trouver le paramètre inconnu avec une certaine probabilité que l’on note b Pour pouvoir 1 − α (α est une probabilité petite). On relativise ainsi l’information donnée par l’estimateur θ. b construire un intervalle de confiance, il faut connaître la distribution de probabilité de θ (ou au moins une approximation de cette distribution de probabilités).

7.2.2

Tests d’hypothèses simples

Le test d’hypothèses consiste à énoncer deux hypothèses sur un paramètre θ, dont une seule est vraie. Par exemple, on peut tester • l’hypothèse nulle H0 que θ = θ0 , • l’hypothèse alternative H1 que θ = θ1 . L’objectif est de prendre une décision sur H0 qui consistera à rejeter H0 (RH0 ) ou à ne pas rejeter H0 (RH0 ). La décision est prise sur base des données observées, et peut donc conduire à deux types d’erreurs : • Rejeter H0 alors que H0 est vraie, cette erreur est appelée erreur de première espèce. • Ne pas rejeter H0 alors que H0 est fausse, cette erreur est appelée erreur de deuxième espèce. RH0 RH0

H0 est vraie Erreur de 1ère espèce Décision correcte

H0 est fausse Décision correcte Erreur de 2ème espèce

La probabilité de commettre une erreur de première espèce est notée α, et la probabilité de commettre une erreur de deuxième espèce est notée β. Dans la théorie des tests d’hypothèses, on fixe α petit. La décision prise sur base des données observées ne peut pas être exacte, on calcule donc les probabilités de commettre les erreurs. RH0 RH0

H0 est vraie P r(RH0 |H0 vraie) = α P r(RH0 |H0 vraie) = 1 − α

H0 est fausse P r(RH0 |H0 fausse) = 1 − β P r(RH0 |H0 fausse) = β

La quantité P r(RH0 |H0 fausse) = P r(RH0 |H1 vraie) = 1 − β,

est appelée la puissance du test. Pour construire un test d’hypothèses, on fixe α petit (par ex : 0,05), et on cherche la règle de décision la plus puissante, c’est-à-dire, celle qui maximise 1 − β. 38

7.2.3

Tests d’hypothèses composites

En pratique, on ne teste pas des hypothèses simples, mais des hypothèses composites. En effet, les questions que l’on se pose sur le paramètre sont du type ‘Le paramètre θ est-il plus grand qu’une certaine valeur θ0 ?’ Ce type d’hypothèses composite amène à la construction de test du type :    H0 : θ = θ 0 H0 : θ ≥ θ 0 H0 : θ ≤ θ 0 1) 2) 3) H1 : θ 6= θ0 H1 : θ < θ 0 H1 : θ > θ 0 Remarque 7.1. L’égalité doit toujours être dans l’hypothèse nulle, donc si la question est : ‘θ est-il strictement plus grand que θ0 ?’ on posera l’hypothèse alternative H1 : θ > θ0 et donc H0 : θ ≤ θ0 . Il existe des techniques statistiques qui permettent de construire des tests puissants. Le test aboutit à la construction d’un intervalle d’acceptation que l’on note IA et qui est construit pour un α particulier. La décision se prend en général en fonction d’une statistique T (une statistique est une fonction des observations) et sera du type : • On rejette H0 si T ∈ / IA • On ne rejette pas H0 si T ∈ IA

39

Chapter 8

Techniques de sondage 8.1

Population et variable d’intérêt

Le cadre général des techniques de sondages consiste à étudier une population finie de N unités d’observation : U = {1, ..., N }. Sur ces unités, on mesure une variable Y, dont les valeurs sont notées Y1 , . . . , Yk , . . . , YN . L’objectif est d’estimer le total de ces valeurs Y =

N X

Yk ,

k=1

ou la moyenne de ces valeurs µ=

N 1 X Yk , N k=1

ou encore la variance σ2 =

N 1 X 2 (Yk − µ) . N k=1

2

Pour estimer Y, µ, ou σ , on utilise un échantillon. Un échantillon est un sous-ensemble de la population qui est sélectionné par une procédure aléatoire. La description de cette procédure est appelée ‘plan de sondage’ . En théorie des sondages, on considère que les valeurs prises par les unités sur la population ne sont pas aléatoires. Seul le choix de l’échantillon est aléatoire.

8.2

Plans simples avec remise

Le plan simple avec remise a déjà été décrit dans la section (6.9.2). À chacune des n étapes de tirage, on sélectionne une unité au hasard à probabilités égales. Les unités ne sont jamais retirées de la population. On peut donc sélectionner plusieurs fois la même unité. On note y1 , . . . , yn les n unités sélectionnées dans l’échantillon. On estime µ par n 1X µ b= yi . n i=1

On peut montrer que l’estimateur est sans biais :

E(b µ) = µ. De plus, V ar(b µ) =

40

σ2 . n

8.3

Plans simples sans remise

À chacune des n étapes de tirage, on sélectionne une unité au hasard à probabilités égales. Chacune des unités sélectionnées est retirée de la population. Le plan simple sans remise est plus avantageux, car on ne peut pas sélectionner plusieurs fois la même unité. On note y1 , . . . , yn les n unités sélectionnées dans l’échantillon. On estime µ par n 1X yi . µ b= n i=1 On peut montrer que l’estimateur est sans biais :

E(b µ) = µ. De plus,

N − n σ2 . N −1 n Le tirage sans remise est donc toujours plus précis que le tirage avec remise. V ar(b µ) =

8.4

Plans stratifiés

Pour réaliser un plan stratifié, il faut d’abord partitionner la population en strates U 1 , . . . , UH , de taille respective N1 , . . . , NH . On note respectivement • µh la moyenne dans la strate h, • σh2 la variance dans la strate h. • Sh2 = Nh σh2 /(Nh − 1) la variance corrigée dans la strate h. On a donc la relation µ=

H 1 X Nh µh . N h=1

Dans chacune de ces strates, on sélectionne de manière indépendante un échantillon au moyen d’un plan simple sans remise de taille respective n 1 , . . . , nH . Les nh ne sont pas nécessairement proportionnels aux Nh .

Figure 8.1: Plan stratifié

41

Dans chacune des strates, on calcule la moyenne de l’échantillon qui est notée µ ˆ h . Ensuite, on estime µ par µ b=

H 1 X Nh µ bh . N h=1

La variance de cet estimateur peut être calculée et vaut V ar(b µ) =

H 1 X 2 Nh − nh σh2 Nh . N2 N h − 1 nh h=1

Le choix de nh détermine le type de plan stratifié.

8.4.1

Allocation proportionnelle

L’allocation proportionnelle consiste à prendre des nh proportionnels aux Nh , ce qui donne nh =

nNh . N

(8.1)

Un petit problème se pose cependant. L’expression (8.1) ne fournit pas nécessairement des valeurs entières, il faut donc réaliser des arrondis. Les plans stratifiés avec allocation proportionnelle fournissent pratiquement toujours des résultats plus précis que les plans simples sans remise. On a donc toujours intérêt à stratifier. Le gain de précision est d’autant plus important que la variable de stratification est liée à la variable d’intérêt.

8.4.2

Allocation optimale

Neyman a montré que l’allocation proportionnelle n’est pas nécessairement la solution la plus avantageuse. Neyman a cherché l’allocation n1 , . . . , nH qui minimise la variance de µ ˆ pour une taille d’échantillon fixée n. Le résultat de ce problème d’optimisation est le suivant nNh Sh nh = P H . ℓ=1 Nℓ Sℓ

Ce résultat contredit l’idée de ‘représentativité’ qui sert très souvent de justification pseudo-scientifique. En effet, on voit que l’allocation optimale sur-représente les unités des strates ayant les plus grands écart-types.

8.5

Plans par grappes

Un plan par grappes consiste à sélectionner au hasard au moyen d’un plan de sondage des unités intermédiaires (par exemple des entités géographiques) et ensuite à sélectionner toutes les unités d’intérêt (par exemple des entreprises) dans ces unités géographiques. Ce type de plan a l’avantage de regrouper les unités à échantillonner, ce qui peut réduire considérablement le coût de la collecte des données. Cependant, les estimateurs obtenus par un plan par grappes ont en général une variance plus grande que les estimateurs obtenus avec un plan simple. Cette augmentation de la variance, qui peut être calculée précisément, est appelée ‘effet de grappe’ .

8.6

Plans à probabilités inégales

Quand on veut sélectionner des unités régies par un ‘effet de taille’ , comme des entreprises ou des communes, on a souvent intérêt à sélectionner des unités à probabilités inégales. Par exemple, on peut affecter à chaque commune, une probabilité d’inclusion πk proportionnelle à la taille de la commune. Ensuite on utilise un algorithme de tirage à probabilités inégales. Enfin, on estime la moyenne par l’estimateur de HorvitzThompson n 1 X yj µ ˆπ = . N j=1 πj Chaque individu est pondéré par l’inverse de sa probabilité de sélection. 42

8.7

Plans à deux et plusieurs degrés

Un plan à deux degrés consiste à réaliser d’abord un échantillonnage d’unités primaires (par exemple des communes), ensuite dans chaque commune sélectionnée, on sélectionne un échantillon d’unités secondaires (par exemple des ménages). La plupart des grandes enquêtes sont réalisées sur des plans à deux ou à plusieurs degrés. Un plan de sondage très classique est le sondage à deux degrés autopondéré qui est utilisé pour la plupart des enquêtes sur des ménages. A la première étape, on sélectionne des unités géographiques, avec des probabilités de sélection proportionnelles aux nombres d’unités secondaires présentes dans l’unité primaire. A la seconde étape, on sélectionne un nombre fixe d’unités secondaires dans chaque unité primaire sélectionnée. Ce plan a deux avantages. • Comme on sélectionne un nombre fixe d’unités secondaires dans chaque unité primaire, la répartition du travail des enquêteurs est simplifiée. • Le plan est à probabilités égales sur les unités secondaires. • Le plan est de taille fixe.

8.8

Inférence dans les enquêtes

Dans les grandes enquêtes on se borne souvent à fournir un estimateur et un intervalle de confiance pour cet estimateur. La distribution de probabilité des estimateurs n’est en général pas connue, cependant on suppose que la distribution de µ b est normale, ce qui permet de construire un intervalle de confiance si l’on connaît un estimateur Vd ar(b µ) de V ar(b µ). L’intervalle de confiance à un niveau de 1 − α est alors   q q IC(1 − α) = µ b − z1−α/2 Vd ar(b µ); µ b + z1−α/2 Vd ar(b µ) , où z1−α/2 est le quantile d’ordre 1 − α/2 d’une variable aléatoire centrée réduite.

Exercices Exercice 8.1 1. Voici un extrait d’un cours de marketing dans lequel l’auteur Laurent ZMINKA expose sa vision de l’échantillonnage. (Ce document provient du site WEB : http://perso.wanadoo.fr/as2pic.communication/mkt/mkt/etudes/3.htm#1) ‘L’ECHANTILLONAGE Ayant défini la nature de la population à interroger, il est exclu et inutile dans la plupart des cas d’interroger l’ensemble des individus qui la compose. Il est par contre possible de constituer un échantillon de cette population, c’est-à-dire un groupe restreint et accessible de personnes présentant des caractéristiques identiques à la population étudiée : c’est le principe du sondage. Pour que les résultats obtenus au niveau de l’échantillon soient extrapolables à la population totale avec une précision satisfaisante, il est nécessaire que l’échantillon soit représentatif. La théorie statistique énonce qu’un échantillon est représentatif lorsque tous les individus de la population ont la même chance d’être désignés. En pratique, cette condition est plus ou moins remplie selon la méthode utilisée.’ Cette vision de l’échantillonnage est-elle correcte ? Quel résultat statistique de la théorie des sondages confirme /contredit ce que dit l’auteur ? (réponse sans calcul et en 8 lignes maximum) 2. L’auteur continue en décrivant les méthodes probabilistes : ‘a. La méthode probabiliste Le principe de cette méthode repose sur le tirage au sort des individus à faire figurer dans l’échantillon parmi tous les individus possibles. C’est à cette condition que l’on pourra 43

réellement parler d’échantillon représentatif. Il faut donc : disposer de la liste exhaustive des individus composant l’univers, la base de sondage, procéder à un tirage au sort et fournir une liste nominative aux enquêteurs. En pratique, les bases de sondage nationales rigoureuses ne sont pas très nombreuses pour des raisons de mise à jour et de confidentialité. Le fichier de recensement est, par exemple, fermé aux sociétés de sondage. De plus un tirage au sort sur une population très large est une opération très lourde qui fournit un échantillon très dispersé au plan géographique. Il demeure qu’il est possible d’utiliser certains fichiers pour appliquer la méthode: abonnés du téléphone, annuaire professionnel, fichier Insee des entreprises, etc. Bien que cette méthode soit la seule fondée scientifiquement, ce qui permettra d’estimer les marges d’erreur sur les résultats obtenus puisqu’elle repose sur le calcul des probabilités, elle est relativement peu utilisée par les sociétés d’études car elle suppose l’existence d’une base de sondage complète et son utilisation est relativement plus coûteuse.’ Un échantillonnage aléatoire fournit-il nécessairement un échantillon très dispersé au plan géographique ? Si ce n’est pas le cas, quel(s) type(s) de plan de sondage aléatoire pourrait-il être mis en oeuvre pour réduire la dispersion géographique des unités d’observation ? (réponse sans calcul et en 4 lignes maximum) Exercice 8.2 Soit une population composée de 3 individus : A âgé de 25 ans, B âgé de 33 ans et C âgé de 40 ans. On prélève un échantillon de taille n = 2, en s’intéressant à la variable ‘âge’. 1. On envisage la procédure de sondage aléatoire simple avec remise. Déterminez tous les échantillons possibles et la distribution de probabilité de la moyenne échantillon, déterminer l’espérance et la variance de la moyenne échantillon. 2. On envisage la procédure de sondage aléatoire simple sans remise. Déterminez tous les échantillons possibles et la distribution de probabilité de la moyenne échantillon, déterminer l’espérance et la variance de la moyenne échantillon.

44

Chapter 9

Inférence dans des distributions univariés et bivariées 9.1 9.1.1

Inférence sur une proportion Le problème

On s’intéresse à une caractéristique A dans une population U . On note p la proportion d’unités qui présentent cette caractéristique. Dans cette population, on sélectionne un échantillon de taille n au moyen d’un plan aléatoire simple avec remise. On note r le nombre d’unités présentant cette caractéristique dans l’échantillon.

9.1.2

Estimation d’une proportion

La proportion p de la population peut être estimée par pˆ =

r . n

Il est possible de montrer que r a une distribution binomiale de paramètre p et d’exposant n, ce qui se note r ∼ Bin(n, p). On a donc E(r) V ar(r)

= np = np(1 − p),

et donc E(ˆ p) = p p(1 − p) V ar(ˆ p) = . n La variance de pˆ peut être estimée sans biais par pˆ(1 − pˆ) Vd ar(ˆ p) = . n−1

(9.1)

Si la taille de l’échantillon est grande (n ≥ 30 et np(1 − p) ≥ 9), alors la distribution asymptotique de pˆ est normale ! r p(1 − p) pˆ ∼ N p, . n

45

9.1.3

Intervalle de confiance sur une proportion

En se basant sur la distribution asymptotique et l’expression (9.1), on peut construire un intervalle de confiance de niveau 1 − α pour p : " # r r pˆ(1 − pˆ) pˆ(1 − pˆ) , pb + z1−α/2 . IC(1 − α) = pb − z1−α/2 n−1 n−1

9.1.4

Test d’hypothèses sur une proportion

On considère les trois tests suivants :  H0 : p = p0 1) H1 : p 6= p0

2)



H0 H1

: p ≥ p0 : p < p0

3)



H0 H1

: p ≤ p0 : p > p0

Pour tous les cas, sous H0 , et avec n grand : pˆ = N

p0 ,

r

p0 (1 − p0 ) n

!

.

La règle de décision est RH0 si pˆ ∈ / IA

où (1)

IA(1 − α)

(2)

IA(1 − α)

(3)

IA(1 − α)

"

r

p0 (1 − p0 ) , p0 + z1−α/2 = p0 − z1−α/2 n " ! r p0 (1 − p0 ) = p0 − z1−α ,∞ n # r p0 (1 − p0 ) = −∞, p0 + z1−α . n

r

p0 (1 − p0 ) n

#

Une autre manière d’appliquer la même règle de décision consiste à calculer d’abord : pˆ − p0 z=q

p0 (1−p0 ) n

Ensuite, la règle consiste à RH0 si

.

1. z < −z1−α/2 ou z > z1−α/2 , 2. z < −z1−α , 3. z > z1−α .

9.2 9.2.1

Inférence sur la moyenne Le problème

Soit une suite de variables aléatoires x1 , ..., xn indépendantes de moyenne µ et de variance σ 2 . L’objectif est de mener une inférence sur µ en considérant que σ 2 est inconnue. On distingue deux cas : 1. Les xi ont une distribution normale xi ∼ N (µ, σ 2 ), i = 1, ..., n. 2. Les xi ont une distribution quelconque.

46

9.2.2

Remarque

On considère une population finie de taille N , dans laquelle on sélectionne un échantillon selon un plan aléatoire simple avec remise de taille n. Les valeurs prises par la variable dans l’échantillon sont alors des variables aléatoires indépendantes, de moyenne µ et de variance σ 2 .

9.2.3

Estimation de µ

La moyenne de la population peut être estimée par la moyenne de l’échantillon n

1X xi . µ ˆ = x¯ = n i=1

On a

E(¯ x) = µ, et V ar(¯ x) =

σ2 . n

1. Si les xi ont une distribution normale, alors x ¯ a également une distribution normale, car une somme de variable normale a toujours une distribution normale   σ2 x ¯ ∼ N µ, . n 2. Si les xi n’ont pas une distribution normale, alors x ¯ a asymptotiquement (n ≥ 30) une distribution normale par le théorème central limite. 1. Si les xi ont une distribution normale, alors x ¯−µ √ ∼ tn−1 , S/ n où tn−1 est une variable de Student à n − 1 degrés de liberté et où n

S2 =

1 X (xi − x ¯)2 . n − 1 i=1

2. Si les xi n’ont pas une distribution normale, alors (¯ x −µ)/S a asymptotiquement (≥ 30) une distribution normale centrée réduite x ¯−µ √ ≈ N (0, 1). S/ n

9.2.4

Intervalle de confiance sur la moyenne

1. Les xi ont une distribution normale. L’intervalle de confiance pour µ de niveau 1 − α est donné par   S S IC(1 − α) = x¯ − tn−1;1−α/2 √ ; x ¯ + tn−1;1−α/2 √ . n n 2. Les xi n’ont pas une distribution normale. Si n ≥ 30 ; alors on peut construire un intervalle de confiance de niveau 1 − α ;   S S IC(1 − α) = x ¯ − z1−α/2 √ ; x ¯ + z1−α/2 √ , n n où z1−α/2 est le quantile d’ordre 1-α/2 d’une variable aléatoire normale centrée réduite.

47

9.2.5

Test d’hypothèses sur la moyenne

On considère les trois tests suivants :  H0 : µ = µ0 1) H1 : µ 6= µ0

2)



H0 : µ ≥ µ0 H1 : µ < µ0

3)



H0 : µ ≤ µ0 H1 : µ > µ0

Si les xi ont une distribution normale, alors, sous H0 x ¯ − µ0 √ ∼ tn−1 . S/ n La règle de décision est : RH0 si x ¯∈ / IA où   S S 1) IA(1 − α) = µ0 − tn−1;1−α/2 √ ; µ0 + tn−1;1−α/2 √ n n   S 2) IA(1 − α) = µ0 − tn−1;1−α √ ; +∞ n   S 3) IA(1 − α) = −∞; µ0 + tn−1;1−α √ n où tn−1;1−α/2 est le quantile d’ordre 1 − α/2 d’une variable de Student à n − 1 degrés de liberté. Une autre manière d’appliquer la même règle de décision consiste à calculer d’abord : t=

µ ˆ − µ0 √ . S/ n

Ensuite, la règle consiste à RH0 si 1. t < −tn−1,1−α/2 ou t > tn−1,1−α/2 , 2. t < −tn−1,1−α , 3. t > tn−1,1−α . Si les xi n’ont pas une distribution normale, alors, sous H0 et avec n ≥ 30, x ¯ − µ0 √ ≈ N (0, 1) S/ n La règle de décision est RH0 si x ¯∈ / IA, où



S S 1) IA(1 − α) = µ0 − z1−α/2 √ ; µ0 + z1−α/2 √ n n   S 2) IA(1 − α) = µ0 − z1−α √ ; ∞ n   S 3) IA(1 − α) = −∞; µ0 + z1−α √ n



où z1−α/2 est le quantile d’ordre 1 − α/2 d’une variable aléatoire normale centrée réduite. Une autre manière d’appliquer la même règle de décision consiste à calculer d’abord : z=

µ ˆ − µ0 √ . S/ n

Ensuite, la règle consiste à RH0 si 1. z < −z1−α/2 ou z > z1−α/2 , 2. z < −z1−α , 3. z > z1−α . 48

9.3

Test du coefficient de corrélation

9.3.1

Le problème

Pour tester le coefficient de corrélation, on énonce l’hypothèse que les deux variables X et Y ont une distribution normale bivariée, ce qui signifie que la fonction de densité du couple X, Y est " ( 2  2 #) y − µ2 1 x− µ1 (x − µ1 )(y − µ2 ) 1 p − 2ρ + . f (x, y) = exp − 2(1 − ρ2 ) σ1 σ1 σ2 σ2 2πσ1 σ2 1 − ρ2

La normale bivariée dépend de 5 paramètres µ1 , µ2 , σ12 , σ22 et ρ.

9.3.2

Estimation de ρ

Le coefficient ρ est estimé par ρˆ = r = L’estimateur ρˆ est biaisé. Si ρ = 0, alors

sxy . sx sy

√ r n−2 √ ∼ tn−2 , 1 − r2

où tn − 2 est une variable de Student à n − 2 degrés de liberté. Ce résultat permet de calculer les quantiles de la fonction de répartition de r quand ρ = 0. Le quantile d’ordre 1 − α/2 est noté r1−α/2 .

9.3.3

Test de nullité de ρ 1)



H0 : ρ = 0 H1 : ρ 6= 0

La règle de décision est RH0 si r 6∈ IA où

2)



1) IA = 2) IA = 3) IA =

9.4 9.4.1

H0 : ρ ≥ 0 H1 : ρ < 0 

3)

−r1−α/2 , r1−α/2

[−r1−α ; +∞) [−∞, r1−α )



H0 : ρ ≤ 0 H1 : ρ > 0



Test sur le coefficient de régression Le modèle

Considérons le modèle linéaire yi = α + βxi + ǫi , où 1. les xi sont les valeurs prises par la variable explicative sur les unités d’observation, ces valeurs sont supposées constantes, 2. α et β sont les coefficients de régression inconnus, α est la constante et β la pente, 3. les ǫi sont les résidus du modèle, les ǫi sont indépendants deux à deux, ont une distribution normale, sont de moyennes nulles et de variance σǫ2 , 4. les yi sont les valeurs prises par la variable dépendante. Seuls yi et xi sont observés. 49

9.4.2

Estimation de α et β

On estime les coefficients de régression par

sxy βˆ = b = 2 sx

et α ˆ = a = y¯ − b¯ x.

On estime la variance des résidus par

σ ˆǫ2

=



P

e2i , n−2

ei = yi − a − bxi .

On a

α ˆ−α ∼ tn−2 , ˆ σ ˆ (α)

et

βˆ − β ∼ tn−2 . ˆ σ ˆ (β)

où 2

σ ˆ (ˆ α) =

σ ˆǫ2



1 x¯2 +P n ¯)2 i (xi − x



,

σ ˆǫ2 . ¯)2 i (xi − x

9.4.3

ˆ = P σ ˆ 2 (β)

Test des coefficients de régression

Soit les tests 1) Sous H0 on a



H0 : α = α0 H1 : α 6= α0

1) tα = 2) tβ =

2)

α ˆ − α0 σ ˆ (ˆ α) βˆ − β0 ˆ σ ˆ (β)



H0 : β = β 0 H1 : β 6= β0 .



tn−2 ,



tn−2

La règle de décision consiste à RH0 si 1.ˆ α 6∈ IA(1 − α) 2.βˆ 6∈ IA(1 − α) où   1)IA = α0 − tn−2;1−α/2 σ ˆ (ˆ α); α0 + tn−2;1−α/2 σ ˆ (ˆ α) ; h i ˆ β0 + tn−2;1−α/2 σ ˆ . 2)IA = β0 − tn−2;1−α/2 σ ˆ (β); ˆ (β)

On peut également écrire la règle de décision de la manière suivante 1. RH0 si |tα | > tn−2;1−α/2 , 2. RH0 si |tβ | > tn−2;1−α/2 .

50

9.5 9.5.1

Test χ2 d’indépendance Le problème

On veut étudier l’intensité de la dépendance entre deux variables qualitatives nominales, X et Y . On sélectionne un échantillon de taille n dans la population au moyen d’un plan aléatoire simple sans remise.

9.5.2

Statistique de test

En reprenant la notation de la section (4.1), on utilise la statistique de test χ2obs =

K X J X (njk − n∗jk )2 k=1 j=1

9.5.3

n∗jk

.

(9.2)

Le test χ2

On teste l’indépendance entre les deux variables X et Y.  H0 : X et Y sont indépendants H1 : X et Y ne sont pas indépendants Le test n’est valide que sous les 3 conditions asymptotiques suivantes • n ≥ 30, • n∗jk ≥ 1 pour tout j, k, • au moins 80% des n∗jk sont ≥ 5. Sous H0 on connaît la distribution asymptotique de χ2obs : χ2obs ∼ χ2(J−1)(K−1) . On rejette donc H0 si

χ2obs > χ2(J−1)(K−1);1−α ,

où χ2(J−1)(K−1);1−α est le quantile d’ordre 1 − α d’une variable aléatoire χ2 à (J − 1)(K − 1) degrés de liberté.

Exercices Exercice 9.1 Un sondage effectué en prélevant 1600 téléspectateurs indique que 576 personnes apprécient les programmes sportifs. Recherchez un intervalle de confiance (au niveau de confiance de 0,95) pour la proportion réelle de téléspectateurs qui aiment les émissions sportives.

Exercice 9.2 Supposons que le taux de mortalité, calculé dans un échantillon d’effectif 100 de personnes touchées par une certaine maladie, soit de 0,13. Testez l’hypothèse nulle: H0 : p = 0, 20 par rapport à l’alternative: H1 : p6=0, 20. Exercice 9.3 Un échantillon d’effectif n pris dans l’ensemble des électeurs d’une ville indique que 10% des votes sont en faveur du candidat A. On demande de déterminer l’effectif minimum n à considérer pour que la vraie proportion de votes en faveur de A ne s’écarte pas de 0,10 de plus de 0,02, avec une probabilité de 0.95.

Exercice 9.4 Un échantillon de 1650 personnes, prélevé dans une ville, indique que 198 d’entre elles fument au moins 2 51

paquets de cigarettes par jour. Déterminez un intervalle de confiance, au niveau de confiance 0.95, pour la proportion des personnes qui fument au moins 2 paquets de cigarettes par jour dans la ville.

Exercice 9.5 On suppose que dans une bibliothèque, 10% des livres se détériorent par an. En considérant un échantillon de 400 livres, on en observe 24 qui ont été abîmés au cours d’un an. Testez, au niveau de probabilité 0.05, l’hypothèse selon laquelle la proportion de livres abîmés est strictement supérieure à 0.05. Exercice 9.6 Une épidémie sévit dans le pays Z. Avant de décider des moyens à mettre en oeuvre pour enrayer cette maladie, le ministère de la santé publique décide de procéder à un examen statistique de l’étendue de l’épidémie. Sur un échantillon de 2500 personnes, il apparaît que 300 personnes sont atteintes, à des degrés divers, par la maladie. 1. Construisez un intervalle de confiance, au niveau de confiance 0.95, pour la proportion de personnes atteintes de l’épidémie dans ce pays. 2. Testez, au niveau de probabilité 0.05, l’hypothèse selon laquelle la proportion de personnes atteintes est inférieure ou égale à 0.15. Exercice 9.7 Sur un échantillon de 300 patients traités par un certain remède, 243 ont été guéris. Testez, au niveau de probabilité de 0.05, l’hypothèse selon laquelle la proportion de guérisons est supérieure à 75%. Exercice 9.8 Un échantillon de 90 habitants d’une ville nous indique que le nombre de personnes satisfaites, vis-à-vis d’une réforme politique, est égal 45. Testez l’hypothèse nulle:Ho : p = 0, 42 par rapport à l’alternative:H1 : p 6= 0, 42,où p est la proportion réelle des habitants satisfaits. Exercice 9.9 Dans un échantillon de 82 grandes surfaces d’un pays, on constate que le prix moyen d’un produit alimentaire est de 33 FB et l’écart-type de 4 FB. Déterminez un intervalle de confiance de 0.99, pour le prix moyen µ de ce produit dans ce pays.

Exercice 9.10 On désire tester l’hypothèse selon laquelle le poids moyen des individus d’une population vaut 65 kg. Sachant que l’écart-type des poids dans cette population est de 4, et qu’on prélève un échantillon d’effectif 36, déterminez, au niveau de probabilité 0.05, les valeurs de la moyenne observée x¯ qui conduise au rejet de cette hypothèse.

Exercice 9.11 On examine un échantillon de 81 étudiants d’une section. On désire tester l’hypothèse selon laquelle la taille moyenne des étudiants de la section vaut 165 cm. Sachant que l’ecart-type des tailles dans cette section est 4 cm, déterminez, au niveau de probabilité 0.05, les valeurs de la moyenne observée x¯ qui conduisent au rejet de cette hypothèse .

Exercice 9.12 On s’intéresse au temps de mémorisation d’un texte par les étudiants d’une promotion. Un échantillon de 37 étudiants fournit les valeurs observées suivantes : x ¯ = 25, Sx = 5. En choisissant un niveau de probabilité 0.05, on demande : 1. un intervalle de confiance pour µ

52

2. testez Ho : µ = 27 ←→ H1 : µ 6= 27. 3. testez Ho : µ ≥ 26 ←→ H1 : µ < 26. Où µ est le temps de mémorisation moyen de la promotion. Exercice 9.13 Une population est de moyenne µ inconnue et de variance σ 2 = 100. En se basant sur la moyenne x ¯ = 212 d’un échantillon d’effectif n = 100 prélevé dans cette population et en utilisant le niveau de probabilité α = 0,05. 1. calculer l’intervalle de confiance. 2. testez Ho : µ = 210 ⇔ H1 : µ 6= 210. 3. testez Ho : µ = 210 ⇔ H1 : µ > 210. Exercice 9.14 On examine un échantillon de 82 étudiants ; on trouve une taille moyenne de 170 cm et un écart type de 12 cm. Peut-on admettre, au niveau de probabilités de 0.05, que la moyenne des tailles des étudiants est supérieure à 165 cm ?

Exercice 9.15 Un échantillon est prélevé dans une population au moyen d’un sondage aléatoire simple avec remise de taille fixe 100. En considérant les deux variables ‘sexe’ et ‘prise de position vis-à-vis d’une motion’, on obtient le tableau de contingence suivant : Table 9.1: Tableau de contingence xj yk Femmes Hommes

Pour 48 12

Indifférent 3 7

Contre 9 21

1. Calculez les pourcentages en ligne de ce tableau de contingence. 2. Donnez le tableau des effectifs théoriques. 3. Calculez le χ2 observé de ce tableau de contingence. 4. Testez au niveau de probabilité de 95% l’hypothèse d’indépendance entre les deux variables. Exercice 9.16 Le tableau suivant fournit, pour 300 étudiants de première année universitaire, l’âge X d’entrée dans une faculté et le résultat Y en fin d’année. Xj yk 18 ans 19 ans 20 ans

A S D GD 85 63 35 12 39 21 12 3 21 6 3 0

Où A signifie ‘Ajourné’, S ‘Satisfaction’, D ‘Distinction’ et GD ‘Grande Distinction’. 1. Calculer les effectifs théoriques en cas d’indépendance. 53

2. A partir de ces effectifs théoriques, calculer la mesure d’association χ2obs . 3. Testez l’hypothèse d’indépendance entre l’âge et le résultat de première année universitaire (α = 0.05). Exercice 9.17 Dans une commune, deux candidats S et V se présentent aux élections. Un échantillon de 300 personnes dont l’intention est de voter pour l’un de ces deux candidats, donne lieu aux observations suivantes: RF 32 18

xj yk Votes pour S Votes pour V

RM 84 82

RE 24 60

Où RF signifie ‘Revenu Faible’, RM ‘Revenu Moyen’ et RE ‘Revenu Elevé’. Représentez graphiquement les distributions marginales et conditionnelles des deux variables. Exercice 9.18 Considérons un échantillon de 400 salariés d’une entreprise classés selon deux critères : le niveau hiérarchique (X) et l’origine sociale (Y). Les résultats obtenus sont présentés dans le tableau de contingence suivant : xi /yk Ouvr. empl. Maîtrise Cadre

Agricole 11 8 1

Cadre 12 6 27

Ouvr. empl. 145 71 14

Autre 52 23 30

1. Calculer les effectifs théoriques en cas d’indépendance. 2. A partir de ces effectifs théoriques, calculer la mesure d’association χ2obs . 3. Testez l’hypothèse d’indépendance entre ces deux variables [α = 5%] Exercice 9.19 Les données suivantes sont les tailles et poids d’étudiantes américaines. Les mesures sont exprimées en pouces et livres. 1. Représentez graphiquement le nuage de points de ces données. 2. Calculez les coefficients de régression pour ces données (la variable dépendante est le poids). Interprétez la pente et l’ordonnée à l’origine. 3. Quel est le coefficient de corrélation pour ces données ? La pente diffère-t-elle de manière significative de zéro ? Taille 61 66 68 68 63 70 68 69 69 67 68 66 65.5 66 62 62 63 67

Poids 140 120 130 138 121 125 116 145 150 150 125 130 120 130 131 120 118 125

Taille 65 66 65 65 65 64 67 69 68 63 62 63 64 68 62 61.75 62.75

54

Poids 135 125 118 122 115 102 115 150 110 116 108 95 125 133 110 108 112

Chapter 10

Tests multivariés 10.1 10.1.1

Analyse de la variance Le problème

Le problème examiné par les techniques d’analyse de la variance est la comparaison de J groupes d’unités d’observation. La question posée est : ‘Ces groupes ont-ils la même moyenne ou bien les moyennes sont-elles différentes pour chacun de ces groupes ?’ Afin de pouvoir répondre à cette question, on énonce un modèle sur les observations xij = µ + aj + ǫij . Les observations sont donc supposées être une réalisation du modèle dans lequel apparaissent trois composantes : • µ est la moyenne générale du modèle, ce paramètre est inconnu. • aj est l’effet dû à l’appartenance au groupe j. Cet effet n’est pas aléatoire et est aussi un ensemble de paramètres inconnus. On suppose en outre que J X

aj = 0.

j=1

• ǫij est un résidu aléatoire. On suppose que les ǫij sont des variables aléatoires normales indépendantes d’espérances mathématiques nulles et de variance σǫ2 . Faire l’hypothèse que les moyennes de tous les groupes sont égales consiste à affirmer que tous les aj sont nuls.

10.1.2

Les données

On observe uniquement les xij , et on sait à quel groupe appartient chaque observation. On note nj le nombre d’unités dans le groupe j. La taille de l’échantillon est donc : n=

J X

nj .

j=1

Pour chaque groupe, on peut calculer une moyenne, notée x¯j = On peut également calculer la moyenne générale J

x ¯=

nj 1 X xij . nj i=1

nj

J

1 XX 1X xij = nj x ¯j . n j=1 i=1 n j=1 55

Table 10.1: Analyse de la variance à un facteur Somme Degrés de Carrés Stat. des carrés liberté moyen de test INTER SCIN T ER J −1 CMIN T ER Fobs INTRA SCIN T RA n−J CMIN T RA Totale SCT OT n−1

On appelle somme des carrés intra-groupes la quantité : SCIN T RA =

nj J X X j=1 i=1

(xij − x¯j )2 ,

et somme des carrés inter-groupes SCIN T ER =

J X j=1

et la somme des carrés totale SCT OT =

nj (¯ xj − x ¯)2 ,

nj J X X j=1 i=1

(xij − x ¯)2 .

On peut montrer que la SCT OT se décompose en deux parties. Théorème 10.1 SCT OT = SCIN T RA + SCIN T ER . Démonstration nj J X X j=1 i=1

=

(xij − x ¯)2

nj J X X j=1 i=1

=

nj J X X j=1 i=1

=

nj J X X j=1 i=1

2

(xij − x¯j + x¯j − x ¯) 2

(xij − x¯j ) + 2

(xij − x¯j ) +

nj J X X j=1 i=1

J X j=1

2

(¯ xj − x ¯) + 2 2

nj (¯ xj − x¯) + 2

nj J X X j=1 i=1

J X j=1

(xij − x ¯j ) (¯ xj − x¯)

(¯ xj − x ¯)

= SCIN T RA + SCIN T ER + 0

nj X i=1

|

Le test est basé sur la comparaison de la SCIN T RA à la SCIN T ER . On construit le tableau d’analyse de la variance où CMIN T ER =

SCIN T ER , J −1

CMIN T RA =

SCIN T RA , n−J

et Fobs =

CMIN T ER . CMIN T RA

Si Fobs est ‘grand’ on rejettera l’hypothèse H0 que les moyennes sont égales. 56

(xij − x ¯j ) {z

=0

} 2

10.1.3

Le test

L’hypothèse nulle est donc que les moyennes de tous les groupes sont les mêmes, ce qui s’écrit :  H0 : µj = µ pour tout j H1 : au moins une des µj est différente de µ, où µj = µ + aj . Les hypothèses peuvent également s’écrire  H0 : aj = 0 pour tout j H1 : au moins un des aj est différent de 0. La règle de décision consiste à rejeter H0 si Fobs > FJ−1,n−J,1−α où Fobs > FJ−1,n−J,1−α est le quantile d’ordre 1 − α d’une variable aléatoire de Fisher à J − 1 et , n − J degrés de liberté. Exemple 10.1. Les données sont issues de Loven, Faith. (1981). A Study of the Interlist Equivalency of the CID W-22 Word List Presented in Quiet and in Noise. Unpublished MS Thesis, University of Iowa. L’objectif est de comparer 4 listes de 50 mots pouvant être utilisés dans des testes audiologiques. Chaque liste de mot est lue à 24 sujets, dans les mêmes conditions expérimentales avec un bruit de fond. Les observations contiennent le pourcentage de mots correctement perçus. L’ordre de présentation des mots a été randomisée. L’objectif est de déterminer si les listes ont la même difficulté de compréhension. Les données sont présentées dans le tableau 10.2. Table 10.2: Proportion de mots reconnus pour chacune des listes Liste 1 Liste 2 Liste 3 Liste 4 28 20 24 26 24 16 32 24 32 38 20 22 30 20 14 18 34 34 32 24 30 30 22 30 36 30 20 22 32 28 26 28 48 42 26 30 32 36 38 16 32 32 30 18 38 36 16 34 32 28 36 32 40 38 32 34 28 36 38 32 48 28 14 18 34 34 26 20 28 16 14 20 40 34 38 40 18 22 20 26 20 20 14 14 26 30 18 14 36 20 22 30 40 44 34 42

Un premier calcul nous donne le tableau 10.3 On peut donc calculer la somme des carrés INTRA 57

Table 10.3: Résultats : moyennes et sommes des carrés Liste 1 Liste 2 Liste 3 Liste 4 Total Moyenne 32.750 29.667 25.250 25.583 28.313 Somme des carrées 1262.500 1493.333 1590.500 1391.833 6658.625

SCIN T RA = 1262.500 + 1493.333 + 1590.500 + 1391.833 = 5738.167. On obtient la somme des carrées INTER par différence SCIN T ER = SCT OT − SCIN T RA = 6658.625 − 5738.167 = 920.458. On peut dès lors construire le tableau 10.4 d’analyse de la variance. Comme le niveau de signification

Inter Groupes Intra Groupes Total

Table 10.4: Tableau d’analyse de la variance sommes de carrés degrés de liberté carrés moyens 920.458 3 306.819 5738.167 92 62.371 6658.625 95

F 4.919

Sign. 0.003

vaut 0.003, et est donc inférieur à α = 0.05, on rejette l’hypothèse H0 .

10.2 10.2.1

Régression multivariée Le modèle

Considérons le modèle linéaire yi = β0 + β1 xi1 + · · · + βj xij + · · · + βJ−1 xi,J−1 + ǫi , où 1. Les xij sont les valeurs prises par les J −1 variables explicatives sur les unités d’observation, ces valeurs sont supposées constantes, 2. les βj sont les coefficients de régression inconnus, β0 est la constante, 3. les ǫi sont les résidus du modèle, les ǫi sont indépendants deux à deux, ont une distribution normale, sont de moyennes nulles et de variance σǫ2 , 4. les yi sont les valeurs prises par la variable dépendante. En utilisant le calcul matriciel, il est possible de trouver le meilleur estimateur linéaire sans biais des βj notés βbj . Connaissant les βbj , on peut calculer les valeurs ajustées et les résidus

yi∗ = βb0 + βb1 xi1 + · · · + βbj xij + · · · + βbi,J−1 xJ−1

ei = yi − yi∗ = yi − βb0 − βb1 xi1 − · · · − βbj xij − · · · − βbJ−1 xi,J−1 .

On estime la variance des résidus par

σ ˆǫ2

=

P

e2i , n−J

58

10.2.2

Test global des coefficients de régression

On teste que tous les coefficients de régression (excepté la constante) sont nuls.  H0 βj = 0, j = 1, ..., J − 1, H1 au moins un des βj n’est pas nul. On définit • La somme des carrés totale SCT OT =

n X i=1

(yi − y¯)2 .

• La somme des carrés de la régression SCREGR =

n X i=1

• La somme des carrés des résidus SCRES =

2

(yi∗ − y¯) .

n X

e2i .

i=1

On peut montrer la relation SCT OT = SCREGR + SCRES . De plus, on a les carrés moyens • • • •

CMT OT =

CMREGR =

CMRES =

Fobs =

SCT OT , n−1 SCREGR , J −1 SCRES . n−J

CMREGR CMRES

A nouveau, on peut construire le tableau d’analyse de la variance La règle de décision consiste à rejeter Table 10.5: Tableau d’analyse de la variance pour une régression multiple Somme Degrés de Carrés Stat. des carrés liberté moyen de test Régression SCREGR J −1 CMREGR Fobs Résidu SCRES n−J CMRES TOTALE SCT OT n−1 H0 si Fobs > FJ−1,n−J,1−α , où Fobs > FJ−1,n−J,1−α est le quantile d’ordre 1 − α d’une variable aléatoire de Fisher à J − 1 et , n − J degrés de liberté.

59

10.2.3

Test sur un coefficient de régression

Soit le test



Sous H0 on a

H0 : βj = βj0 H1 : βj 6= βj0 .

βˆj − βj0 σ ˆ (βˆj )



tn−J

La règle de décision consiste à RH0 si βˆj 6∈ IA(1 − α) où h i IA = βj0 − tn−J,1−α/2 σ ˆ (βˆj ); βj0 + tn−J;1−α/2 σ ˆ (βˆj ) .

où σ ˆ 2 (βˆj ) est un estimateur de la variance de βˆj .

Exercices Exercice 10.1 Un ensemble de magazines a été classé selon trois groupes selon qu’ils s’adressent à un public d’un niveau d’instruction élevé (groupe 1) moyen (groupe 2) ou bas (groupe 3). Six publicités ont été sélectionnées au hasard dans chacun de ces magazines. On s’intéresse au nombre de mots dans ces 6 publicités. On cherche à savoir si le nombre de mots dépend du type de public visé. Les données sont présentées dans le tableau 10.6. Le traitement statistique nous donne les résultats présentés dans les tableaux 10.7 et 10.8. Table 10.6: Nombre de mots selon les groupes Groupe 1 Groupe 2 Groupe 3 Groupe 1 Groupe 2 205 191 162 80 94 208 206 203 219 31 229 205 85 89 197 208 57 111 49 68 146 105 88 93 44 230 109 60 46 203 34 139 215 82 97 153 88 169 39 72 205 39 78 88 67

Table 10.7: Moyennes Groupe Moyennes 1 140.00 2 121.39 3 106.50 Total 122.63

Groupe 3 68 32 50 208 81 83 195 111 208

selon les groupes N Ecart-type 18 74.0374 18 64.2698 18 57.6299 54 65.8770

Après avoir calculé les moyennes de chacun des groupes, on a réalisé une analyse de la variance (voir annexe). Peut-on affirmer au niveau de probabilité de 95% que les moyennes sont différentes d’un groupe à l’autre ? (répondez par oui ou non et ensuite justifiez et interprétez ce résultat en 8 lignes maximum).

60

Inter Groupes Intra Groupes Total

Table 10.8: Tableau d’analyse de la variance sommes de carrés degrés de liberté carrés moyens 10141.815 2 5070.907 219866.778 51 4311.113 230008.593 53

F 1.176

Sign. 0.317

Exercice 10.2 Pour étudier le comportement maternel de rats de laboratoire, nous éloignons le bébé rat de sa mère d’une distance fixée et enregistrons le temps nécessaire à la mère (en secondes) pour ramener son bébé au nid. Nous réalisons cette expérience avec des bébés rats de 5, 20 et 35 jours. Les données figurent ci-dessous pour six bébés par groupe. 5 jours 20 jours 35 jours

15 30 40

10 15 35

25 20 50

15 25 43

20 23 45

18 20 40

On donne le tableau d’analyse de la variance suivant :

Inter-groupes Intra-groupe Total

Tableau d’analyse de la variance Sommes des carrés degrés de liberté Carrés moyens 2100.000 2 1050.000 392.500 15 26.167 2492.500 17

F 40.127

Sig. .000

1. Peut-on dire au niveau de probabilité 0.05 que le temps nécessaire pour ramener le bébé dépend de l’âge ? Justifiez votre réponse. 2. Donnez le quantile d’ordre 0.95 de la variable de Fisher correspondant à l’analyse de la variance ? 3. À partir du tableau d’analyse de la variance donnez la variance (marginale) de la variable ‘secondes’ . Exercice 10.3 Une autre partie de l’étude d’Eysenck (1974) mentionnée précédemment comparait les sujets plus jeunes et plus âgés quand à leur aptitude à se rappeler le matériel alors qu’on les avait prévenus qu’ils devaient mémoriser les données de manière à s’en souvenir ultérieurement (cette tâche exigeait vraisemblablement un niveau élevé de traitement.) Les données figurent ci-dessous (la variable dépendante étant le nombre d’éléments rappelés). Sujets plus jeunes : Sujets plus âgés :

21 10

19 19

17 14

15 5

22 10

16 11

22 14

22 15

18 11

21 11

1. Effectuez une analyse de variance afin de comparer les moyennes de ces deux groupes.

Exercice 10.4 Une autre approche des données d’Eysenck (1974) consiste à comparer quatre groupes de sujets. L’un des groupes se composait de jeunes sujets à qui l’on présentait les mots dans une condition qui suscitait un niveau peu élevé de traitement. Un deuxième groupe se composait des sujets jeunes à qui l’on donnait des tâches requérant un niveau de traitement plus élevé. Les deux autres groupes comprenaient des sujets plus âgés à qui l’on donnait des tâches requérant un niveau de traitement soit peu élevé, soit élevé. Les données sont les suivantes : Jeunes/Peu élevé Jeunes/Elevé Agés/Peu élevé Agés/Elevé

8 21 9 10

6 19 8 19

4 17 6 14

6 15 8 5 61

7 22 10 10

6 16 4 11

5 22 6 14

7 22 5 15

9 18 7 11

7 21 7 11

1. Effectuez une analyse de variance à un critère de classification sur ces données. 2. Effectuez à présent une analyse de variance à un critère de classification en opposant les traitements 1 et 3 combinés (n = 2) aux traitements 2 et 4 combinés. A quelle question répondez-vous ?

62

Chapter 11

Exercices Récapitulatifs (Inspirés de ‘Méthodes statistiques en sciences humaines’, David C. Howell, De Boeck Université, 1998.)

Exercice 11.1 Les données suivantes sont utilisées pour étudier la relation entre le stress et la santé mentale chez des universitaires de première année. Elles se composent d’une part des mesures du stress perçu par chaque sujet dans son cadre social et dans son environnement et, d’autre part, des résultats de chaque étudiant ayant rempli la liste de contrôle d’Hopkins qui évalue la présence ou l’absence de 57 syptômes psychologiques. Stress x Symptômes y 30 99 27 94 9 80 20 70 3 100 15 109 5 62 10 81 23 74 34 121 On a déjà réalisé les calculs suivants : x¯ = 17.6, y¯ = 89, 1 n n

n X

xi yi = 1649.9,

i=1

1X (xi − x ¯)2 = 105.64, n i=1 n

1X (yi − y¯)2 = 313, n i=1 n X

x2i = 4154,

i=1

n X

yi2 = 82340.

i=1

63

1. Représentez graphiquement le nuage de points. 2. Calculez l’intervalle interquartile de la variable stress. 3. Donnez la droite de régression, avec comme variable dépendante les symptômes et comme variable explicative le stress. 4. Que vaut la valeur ajustée si la mesure du stress est de 58 ? 5. Quel est le résidu de la dernière observation (stress = 34) ? 6. Calculez le coefficient de détermination. 7. Calculez la variance de régression et l’estimateur de la variance des résidus. 8. Le coefficient de la variable explicative est-il significativement différent de zéro (test bilatéral avec une erreur de première espèce de 0.05) ? Justifiez votre réponse. 9. Quelles conclusions pouvez-vous tirer à propos du pouvoir explicatif de ce modèle (en trois lignes maximum) ? Exercice 11.2 Une étude a été menée par Geller, Witmer et Orebaugh (1976) à propos de la tendance à jeter des dépliants sur la voie publique. Nous voulons savoir s’il serait efficace d’inclure le message ‘Ne pas jeter sur la voie publique’ dans les dépliants distribués au supermarché pour annoncer les promotions du jour. Pour ce faire, deux types de dépliants sont distribués : Un type de dépliants sans message (témoins) et un type de dépliants avec le message ci-dessus. Le soir, les dépliants ont été recherchés dans tout le supermarché de manière à obtenir trois catégories : la catégorie ‘Poubelle’ qui comprend les dépliants jetés à la poubelle, la catégorie ‘Jetés’ qui comprend les dépliants abandonnés dans les caddies, sur le sol et dans d’autres endroits impropres et enfin la catégorie ‘Enlevés’ qui comprend les dépliants non retrouvés, apparemment emportés par les clients. Nous obtenons les résultats empiriques résumés dans le tableau de contingence suivant : Sans message Avec message

Poubelle 41 80

Jetés 385 290

Enlevés 477 499

1. Construisez le tableau des profils lignes. 2. Construisez le tableau des fréquences observées. 3. Construisez le tableau des effectifs théoriques et calculez le khi-carré observé. 4. Peut-on affirmer (avec une erreur de première espèce de 0.05) que la présence du message ‘Ne pas jeter sur la voie publique’ a encouragé les individus à ne pas jeter leur dépliant ? Justifiez votre réponse. 5. Considérons qu’un supermarché distribue en moyenne 2000 dépliants par jour et que les fréquences observées en moyenne sont représentées dans le tableau du point 1. Considérons encore que chaque dépliant jeté par terre coûte 35 centimes en frais de nettoyage. Combien va économiser le supermarché en frais de nettoyage durant trente jours s’il décide d’inscrire le message ‘Ne pas jeter sur la voie publique’ dans chaque dépliant ? Exercice 11.3 Cet exercice est une étude hypothétique similaire à une expérience importante réalisée par Siegel (1975) sur la tolérance à la morphine. La morphine est un médicament souvent utilisé pour atténuer la douleur. Cependant, des administrations répétées de morphine provoquent un phénomène de tolérance : la morphine a de moins en moins d’effet (la réduction de la douleur est de moins en moins forte) au fil du temps. Pour mettre en évidence la tolérance à la morphine, on a souvent recours à une expérience qui consiste à placer un rat sur une surface trop chaude. Lorsque la chaleur devient insupportable, le rat va se mettre à se lécher les pattes ; le temps de latence qui précède le moment où le rat commence à se lécher les pattes est 64

utilisé comme mesure de sa sensibilité à la douleur. Un rat qui vient de recevoir une injection de morphine montre en général un temps de latence plus long, ce qui montre que sa sensibilité à la douleur est réduite. Le développement de la tolérance à la morphine est indiqué par le fait que les latences se raccourcissent progressivement (signe d’une sensibilité accrue) sous l’effet des injections répétées de morphine. Prenons une expérience impliquant cinq groupes de rats. Chaque groupe participe à quatre essais, mais les données d’analyse sont uniquement prélevées lors du dernier essai critique (test). On désigne les groupes en indiquant le traitement appliqué lors des trois premiers essais puis du quatrième. Nous avons les cinq groupes suivant : 1. Le premier groupe (M-M) a reçu des injections de morphine lors des trois premiers essais dans l’environnement de test, puis de nouveau lors du quatrième essai, dans le même environnement ; 2. Le deuxième groupe (M-S) a reçu une injection de morphine (dans l’environnement de test) lors des trois premiers essais puis une solution saline lors du quatrième ; 3. Les animaux du troisième groupe (Mc-M) ont reçu une injection de morphine lors des trois premiers essais, effectués dans leur cage habituelle, puis la même injection lors du quatrième essai, mais dans l’environnement de test standard, qu’ils ne connaissaient pas ; 4. Le quatrième groupe (S-M) a reçu une injection de solution saline durant les trois premiers essais (dans l’environnement de test) et de morphine lors du quatrième ; 5. Enfin, le cinquième groupe (S-S) a reçu une injection de solution saline lors des quatre essais. Nous avons les temps de latence (en secondes) pour chaque groupe dans le tableau ci-dessous : M-S M-M S-S S-M Mc-M 3 2 14 29 24 5 12 6 20 26 1 13 12 36 40 8 6 4 21 32 1 10 19 25 20 1 7 3 18 33 4 11 9 26 27 9 19 21 17 30 Peut-on affirmer que : a. Les cinq groupes ont une perception de la douleur identique malgré les différents traitements (à 99%); Un tableau de l’analyse de la variance a déjà été partiellement calculé : Inter Groupes Intra Groupes Total

sommes de carrés degrés de liberté 3497, 6 ? ? ? ? ?

carrés moyens ? 32

F ?

b. Le groupe M-M et S-S ont une sensibilité différente à la douleur (à 99%). Un tableau de l’analyse de la variance a déjà été partiellement calculé : Inter Groupes Intra Groupes Total

sommes de carrés degrés de liberté 4 ? ? ? 504 ?

Pour répondre aux questions a. et b. (à traiter séparément) : • Posez les hypothèses ; • Complétez les tableaux de l’analyse de la variance ; • Testez les hypothèses.

65

carrés moyens ? ?

F ?

Chapter 12

Tables Statistiques Table 12.1: Table des quantiles d’une variable normale centrée réduite

p 0

−∞

Ordre du quantile (p) 0.500 0.550 0.600 0.650 0.700 0.750 0.800 0.850 0.900 0.950 0.970 0.971 0.972 0.973 0.974

Quantile (zp ) 0.0000 0.1257 0.2533 0.3853 0.5244 0.6745 0.8416 1.0364 1.2816 1.6449 1.8808 1.8957 1.9110 1.9268 1.9431

zp

Ordre du quantile (p) 0.975 0.976 0.977 0.978 0.979 0.990 0.991 0.992 0.993 0.994 0.995 0.996 0.997 0.998 0.999

66

+∞

Quantile (zp ) 1.9600 1.9774 1.9954 2.0141 2.0335 2.3263 2.3656 2.4089 2.4573 2.5121 2.5758 2.6521 2.7478 2.8782 3.0902

Table 12.2: Fonction de répartition de la loi normale centrée réduite (Probabilité de trouver une valeur inférieur à u)

p = F (u) 0

−∞

u

+∞

u 0.0 0.1 0.2 0.3 0.4

0.0 .5000 .5398 .5793 .6179 .6554

.01 .5040 .5438 .5832 .6217 .6591

.02 .5080 .5478 .5871 .6255 .6628

.03 .5120 .5517 .5910 .6293 .6664

.04 .5160 .5557 .5948 .6331 .6700

.05 .5199 .5596 .5987 .6368 .6736

.06 .5239 .5636 .6026 .6406 .6772

.07 .5279 .5675 .6064 .6443 .6808

.08 .5319 .5714 .6103 .6480 .6844

.09 .5359 .5753 .6141 .6517 .6879

0.5 0.6 0.7 0.8 0.9

.6915 .7257 .7580 .7881 .8159

.6950 .7291 .7611 .7910 .8186

.6985 .7324 .7642 .7939 .8212

.7019 .7357 .7673 .7967 .8238

.7054 .7389 .7704 .7995 .8264

.7088 .7422 .7734 .8023 .8289

.7123 .7454 .7764 .8051 .8315

.7157 .7486 .7794 .8078 .8340

.7190 .7517 .7823 .8106 .8365

.7224 .7549 .7852 .8133 .8389

1.0 1.1 1.2 1.3 1.4

.8413 .8643 .8849 .9032 .9192

.8438 .8665 .8869 .9049 .9207

.8461 .8686 .8888 .9066 .9222

.8485 .8708 .8907 .9082 .9236

.8508 .8729 .8925 .9099 .9251

.8531 .8749 .8944 .9115 .9265

.8554 .8770 .8962 .9131 .9279

.8577 .8790 .8980 .9147 .9292

.8599 .8810 .8997 .9162 .9306

.8621 .8830 .9015 .9177 .9319

1.5 1.6 1.7 1.8 1.9

.9332 .9452 .9554 .9641 .9713

.9345 .9463 .9564 .9649 .9719

.9357 .9474 .9573 .9656 .9726

.9370 .9484 .9582 .9664 .9732

.9382 .9495 .9591 .9671 .9738

.9394 .9505 .9599 .9678 .9744

.9406 .9515 .9608 .9686 .9750

.9418 .9525 .9616 .9693 .9756

.9429 .9535 .9625 .9699 .9761

.9441 .9545 .9633 .9706 .9767

2.0 2.1 2.2 2.3 2.4

.9772 .9821 .9861 .9893 .9918

.9778 .9826 .9864 .9896 .9920

.9783 .9830 .9868 .9898 .9922

.9788 .9834 .9871 .9901 .9925

.9793 .9838 .9875 .9904 .9927

.9798 .9842 .4878 .9906 .9929

.9803 .9846 .9881 .9909 .9931

.9808 .9850 .9884 .9911 .9932

.9812 .9854 .9887 .9913 .9934

.9817 .9857 .9890 .9916 .9936

2.5 2.6 2.7 2.8 2.9

.9938 .9953 .9965 .9974 .9981

.9940 .9955 .9966 .9975 .9982

.9941 .9956 .9967 .9976 .9982

.9943 .9957 .9968 .9977 .9983

.9945 .9959 .9969 .9977 .9984

.9946 .9960 .9970 .9978 .9984

.9948 .9961 .9971 .9979 .9985

.9949 .9962 .9972 .9979 .9985

.9951 .9963 .9973 .9980 .9986

.9952 .9964 .9974 .9981 .9986

3.0 3.1 3.2 3.3 3.4

.9987 .9990 .9993 .9995 .9997

.9987 .9991 .9993 .9995 .9997

.9987 .9991 .9994 .9995 .9997

.9988 .9991 .9994 .9996 .9997

.9988 .9992 .9994 .9996 .9997

.9989 .9992 .9994 .9996 .9997

.9989 .9992 .9994 .9996 .9997

.9989 .9992 .9995 .9996 .9997

.9990 .9993 .9995 .9996 .9997

.9990 .9993 .9995 .9997 .9998

67

Table 12.3: Quantiles de la loi normale centrée réduite (u : valeur ayant la probabilité α d’être dépassée en valeur absolue)

α/2 −∞

α/2 −u

0

+u

+∞

68 α 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

0 ∞ 1.6449 1.2816 1.0364 0.8416 0.6745 0.5244 0.3853 0.2533 0.1257

0.01 2.5758 1.5982 1.2536 1.0152 0.8239 0.6588 0.5101 0.3719 0.2404 0.1130

0.02 2.3263 1.5548 1.2265 0.9945 0.8064 0.6433 0.4958 0.3585 0.2275 0.1004

0.03 2.1701 1.5141 1.2004 0.9741 0.7892 0.6280 0.4817 0.3451 0.2147 0.0878

0.04 2.0537 1.4758 1.1750 0.9542 0.7722 0.6128 0.4677 0.3319 0.2019 0.0753

0.05 1.9600 1.4395 1.1503 0.9346 0.7554 0.5978 0.4538 0.3186 0.1891 0.0627

0.06 1.8808 1.4051 1.1264 0.9154 0.7388 0.5828 0.4399 0.3055 0.1764 0.0502

0.07 1.8119 1.3722 1.1031 0.8965 0.7225 0.5681 0.4261 0.2924 0.1637 0.0376

0.08 1.7507 1.3408 1.0803 0.8779 0.7063 0.5534 0.4125 0.2793 0.1510 0.0251

0.09 1.6954 1.3106 1.0581 0.8596 0.6903 0.5388 0.3989 0.2663 0.1383 0.0125

Table 12.4: Table des quantiles d’une variable χ2 à n degrés de liberté ordre du quantile 0.05 0.95 0.003932 3.841 0.103 5.991 0.352 7.815 0.711 9.488 1.145 11.07 1.635 12.59 2.167 14.07 2.733 15.51 3.325 16.92

n=1 2 3 4 5 6 7 8 9

0.01 0.000157 0.02010 0.115 0.297 0.554 0.872 1.239 1.646 2.088

0.025 0.000982 0.05064 0.216 0.484 0.831 1.237 1.690 2.180 2.700

0.975 5.024 7.378 9.348 11.14 12.83 14.45 16.01 17.53 19.02

0.99 6.635 9.210 11.34 13.28 15.09 16.81 18.48 20.09 21.67

10 11 12 13 14 15 16 17 18 19

2.558 3.053 3.571 4.107 4.660 5.229 5.812 6.408 7.015 7.633

3.247 3.816 4.404 5.009 5.629 6.262 6.908 7.564 8.231 8.907

3.940 4.575 5.226 5.892 6.571 7.261 7.962 8.672 9.390 10.12

18.31 19.68 21.03 22.36 23.68 25.00 26.30 27.59 28.87 30.14

20.48 21.92 23.34 24.74 26.12 27.49 28.85 30.19 31.53 32.85

23.21 24.72 26.22 27.69 29.14 30.58 32.00 33.41 34.81 36.19

20 21 22 23 24 25 26 27 28 29

8.260 8.897 9.542 10.20 10.86 11.52 12.20 12.88 13.56 14.26

9.591 10.28 10.98 11.69 12.40 13.12 13.84 14.57 15.31 16.05

10.85 11.59 12.34 13.09 13.85 14.61 15.38 16.15 16.93 17.71

31.41 32.67 33.92 35.17 36.42 37.65 38.89 40.11 41.34 42.56

34.17 35.48 36.78 38.08 39.36 40.65 41.92 43.19 44.46 45.72

37.57 38.93 40.29 41.64 42.98 44.31 45.64 46.96 48.28 49.59

30 31 32 33 34 35 36 37 38 39

14.95 15.66 16.36 17.07 17.79 18.51 19.23 19.96 20.69 21.43

16.79 17.54 18.29 19.05 19.81 20.57 21.34 22.11 22.88 23.65

18.49 19.28 20.07 20.87 21.66 22.47 23.27 24.07 24.88 25.70

43.77 44.99 46.19 47.40 48.60 49.80 51.00 52.19 53.38 54.57

46.98 48.23 49.48 50.73 51.97 53.20 54.44 55.67 56.90 58.12

50.89 52.19 53.49 54.78 56.06 57.34 58.62 59.89 61.16 62.43

40 42 44 46 48

22.16 23.65 25.15 26.66 28.18

24.43 26.00 27.57 29.16 30.75

26.51 28.14 29.79 31.44 33.10

55.76 58.12 60.48 62.83 65.17

59.34 61.78 64.20 66.62 69.02

63.69 66.21 68.71 71.20 73.68

50 60 70 80 90 100 110 120

29.71 37.48 45.44 53.54 61.75 70.06 78.46 86.92

32.36 40.48 48.76 57.15 65.65 74.22 82.87 91.57

34.76 43.19 51.74 60.39 69.13 77.93 86.79 95.70

67.50 79.08 90.53 101.88 113.15 124.34 135.48 146.57

71.42 83.30 95.02 106.63 118.14 129.56 140.92 152.21

76.15 88.38 100.43 112.33 124.12 135.81 147.41 158.95

69

Table 12.5: Table des quantiles d’une variable de Student à n degrés de liberté

n=1 2 3 4 5 6 7 8 9

0.95 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833

ordre du 0.975 12.71 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262

quantile 0.99 31.82 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821

0.995 63.66 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250

10 11 12 13 14 15 16 17 18 19

1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729

2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093

2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539

3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861

20 21 22 23 24 25 26 27 28 29

1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699

2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045

2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462

2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756

30 31 32 33 34 35 36 37 38 39

1.697 1.696 1.694 1.692 1.691 1.690 1.688 1.687 1.686 1.685

2.042 2.040 2.037 2.035 2.032 2.030 2.028 2.026 2.024 2.023

2.457 2.453 2.449 2.445 2.441 2.438 2.434 2.431 2.429 2.426

2.750 2.744 2.738 2.733 2.728 2.724 2.719 2.715 2.712 2.708

40 50 60 70 80 90 100 120 ∞

1.684 1.676 1.671 1.667 1.664 1.662 1.660 1.658 1.645

2.021 2.009 2.000 1.994 1.990 1.987 1.984 1.980 1.960

2.423 2.403 2.390 2.381 2.374 2.368 2.364 2.358 2.327

2.704 2.678 2.660 2.648 2.639 2.632 2.626 2.617 2.576

70

Table 12.6: Table des quantiles d’ordre 0.95 d’une variable de Fisher à n1 et n2 degrés de liberté

n2 =1 2 3 4 5 6 7 8 9

n1 =1 161.4 18.51 10.13 7.709 6.608 5.987 5.591 5.318 5.117

2 199.5 19.00 9.552 6.944 5.786 5.143 4.737 4.459 4.256

3 215.7 19.16 9.277 6.591 5.409 4.757 4.347 4.066 3.863

4 224.6 19.25 9.117 6.388 5.192 4.534 4.120 3.838 3.633

5 230.2 19.30 9.013 6.256 5.050 4.387 3.972 3.687 3.482

6 234.0 19.33 8.941 6.163 4.950 4.284 3.866 3.581 3.374

7 236.8 19.35 8.887 6.094 4.876 4.207 3.787 3.500 3.293

8 238.9 19.37 8.845 6.041 4.818 4.147 3.726 3.438 3.230

9 240.5 19.38 8.812 5.999 4.772 4.099 3.677 3.388 3.179

10 241.9 19.40 8.786 5.964 4.735 4.060 3.637 3.347 3.137

12 243.9 19.41 8.745 5.912 4.678 4.000 3.575 3.284 3.073

14 245.4 19.42 8.715 5.873 4.636 3.956 3.529 3.237 3.025

16 246.5 19.43 8.692 5.844 4.604 3.922 3.494 3.202 2.989

20 248.0 19.45 8.660 5.803 4.558 3.874 3.445 3.150 2.936

30 250.1 19.46 8.617 5.746 4.496 3.808 3.376 3.079 2.864

∞ 254.3 19.50 8.526 5.628 4.365 3.669 3.230 2.928 2.707

10 11 12 13 14 15 16 17 18 19

4.965 4.844 4.747 4.667 4.600 4.543 4.494 4.451 4.414 4.381

4.103 3.982 3.885 3.806 3.739 3.682 3.634 3.592 3.555 3.522

3.708 3.587 3.490 3.411 3.344 3.287 3.239 3.197 3.160 3.127

3.478 3.357 3.259 3.179 3.112 3.056 3.007 2.965 2.928 2.895

3.326 3.204 3.106 3.025 2.958 2.901 2.852 2.810 2.773 2.740

3.217 3.095 2.996 2.915 2.848 2.790 2.741 2.699 2.661 2.628

3.135 3.012 2.913 2.832 2.764 2.707 2.657 2.614 2.577 2.544

3.072 2.948 2.849 2.767 2.699 2.641 2.591 2.548 2.510 2.477

3.020 2.896 2.796 2.714 2.646 2.588 2.538 2.494 2.456 2.423

2.978 2.854 2.753 2.671 2.602 2.544 2.494 2.450 2.412 2.378

2.913 2.788 2.687 2.604 2.534 2.475 2.425 2.381 2.342 2.308

2.865 2.739 2.637 2.554 2.484 2.424 2.373 2.329 2.290 2.256

2.828 2.701 2.599 2.515 2.445 2.385 2.333 2.289 2.250 2.215

2.774 2.646 2.544 2.459 2.388 2.328 2.276 2.230 2.191 2.155

2.700 2.570 2.466 2.380 2.308 2.247 2.194 2.148 2.107 2.071

2.538 2.404 2.296 2.206 2.131 2.066 2.010 1.960 1.917 1.878

20 21 22 23 24 25 26 27 28 29

4.351 4.325 4.301 4.279 4.260 4.242 4.225 4.210 4.196 4.183

3.493 3.467 3.443 3.422 3.403 3.385 3.369 3.354 3.340 3.328

3.098 3.072 3.049 3.028 3.009 2.991 2.975 2.960 2.947 2.934

2.866 2.840 2.817 2.796 2.776 2.759 2.743 2.728 2.714 2.701

2.711 2.685 2.661 2.640 2.621 2.603 2.587 2.572 2.558 2.545

2.599 2.573 2.549 2.528 2.508 2.490 2.474 2.459 2.445 2.432

2.514 2.488 2.464 2.442 2.423 2.405 2.388 2.373 2.359 2.346

2.447 2.420 2.397 2.375 2.355 2.337 2.321 2.305 2.291 2.278

2.393 2.366 2.342 2.320 2.300 2.282 2.265 2.250 2.236 2.223

2.348 2.321 2.297 2.275 2.255 2.236 2.220 2.204 2.190 2.177

2.278 2.250 2.226 2.204 2.183 2.165 2.148 2.132 2.118 2.104

2.225 2.197 2.173 2.150 2.130 2.111 2.094 2.078 2.064 2.050

2.184 2.156 2.131 2.109 2.088 2.069 2.052 2.036 2.021 2.007

2.124 2.096 2.071 2.048 2.027 2.007 1.990 1.974 1.959 1.945

2.039 2.010 1.984 1.961 1.939 1.919 1.901 1.884 1.869 1.854

1.843 1.812 1.783 1.757 1.733 1.711 1.691 1.672 1.654 1.638

30 32 34 36 38

4.171 4.149 4.130 4.113 4.098

3.316 3.295 3.276 3.259 3.245

2.922 2.901 2.883 2.866 2.852

2.690 2.668 2.650 2.634 2.619

2.534 2.512 2.494 2.477 2.463

2.421 2.399 2.380 2.364 2.349

2.334 2.313 2.294 2.277 2.262

2.266 2.244 2.225 2.209 2.194

2.211 2.189 2.170 2.153 2.138

2.165 2.142 2.123 2.106 2.091

2.092 2.070 2.050 2.033 2.017

2.037 2.015 1.995 1.977 1.962

1.995 1.972 1.952 1.934 1.918

1.932 1.908 1.888 1.870 1.853

1.841 1.817 1.795 1.776 1.760

1.622 1.594 1.569 1.547 1.527

40 50 60 120 ∞

4.085 4.034 4.001 3.920 3.841

3.232 3.183 3.150 3.072 2.996

2.839 2.790 2.758 2.680 2.605

2.606 2.557 2.525 2.447 2.372

2.449 2.400 2.368 2.290 2.214

2.336 2.286 2.254 2.175 2.099

2.249 2.199 2.167 2.087 2.010

2.180 2.130 2.097 2.016 1.938

2.124 2.073 2.040 1.959 1.880

2.077 2.026 1.993 1.910 1.831

2.003 1.952 1.917 1.834 1.752

1.948 1.895 1.860 1.775 1.692

1.904 1.850 1.815 1.728 1.644

1.839 1.784 1.748 1.659 1.571

1.744 1.687 1.649 1.554 1.459

1.509 1.438 1.389 1.254 1.000

71

Table 12.7: Table des quantiles d’ordre 0.99 d’une variable de Fisher à n1 et n2 degrés de liberté

n2 =1 2 3 4 5 6 7 8 9

n1 =1 4052 98.50 34.12 21.20 16.26 13.75 12.25 11.26 10.56

2 5000 99.00 30.82 18.00 13.27 10.93 9.547 8.649 8.022

3 5403 99.17 29.46 16.69 12.06 9.780 8.451 7.591 6.992

4 5625 99.25 28.71 15.98 11.39 9.148 7.847 7.006 6.422

5 5764 99.30 28.24 15.52 10.97 8.746 7.460 6.632 6.057

6 5859 99.33 27.91 15.21 10.67 8.466 7.191 6.371 5.802

7 5928 99.36 27.67 14.98 10.46 8.260 6.993 6.178 5.613

8 5981 99.37 27.49 14.80 10.29 8.102 6.840 6.029 5.467

9 6022 99.39 27.35 14.66 10.16 7.976 6.719 5.911 5.351

10 6056 99.40 27.23 14.55 10.05 7.874 6.620 5.814 5.257

12 6106 99.42 27.05 14.37 9.888 7.718 6.469 5.667 5.111

14 6143 99.43 26.92 14.25 9.770 7.605 6.359 5.559 5.005

16 6170 99.44 26.83 14.15 9.680 7.519 6.275 5.477 4.924

20 6209 99.45 26.69 14.02 9.553 7.396 6.155 5.359 4.808

30 6261 99.47 26.51 13.84 9.379 7.229 5.992 5.198 4.649

∞ 6366 99.50 26.13 13.46 9.020 6.880 5.650 4.859 4.311

10 11 12 13 14 15 16 17 18 19

10.04 9.646 9.330 9.074 8.862 8.683 8.531 8.400 8.285 8.185

7.559 7.206 6.927 6.701 6.515 6.359 6.226 6.112 6.013 5.926

6.552 6.217 5.953 5.739 5.564 5.417 5.292 5.185 5.092 5.010

5.994 5.668 5.412 5.205 5.035 4.893 4.773 4.669 4.579 4.500

5.636 5.316 5.064 4.862 4.695 4.556 4.437 4.336 4.248 4.171

5.386 5.069 4.821 4.620 4.456 4.318 4.202 4.102 4.015 3.939

5.200 4.886 4.640 4.441 4.278 4.142 4.026 3.927 3.841 3.765

5.057 4.744 4.499 4.302 4.140 4.004 3.890 3.791 3.705 3.631

4.942 4.632 4.388 4.191 4.030 3.895 3.780 3.682 3.597 3.523

4.849 4.539 4.296 4.100 3.939 3.805 3.691 3.593 3.508 3.434

4.706 4.397 4.155 3.960 3.800 3.666 3.553 3.455 3.371 3.297

4.601 4.293 4.052 3.857 3.698 3.564 3.451 3.353 3.269 3.195

4.520 4.213 3.972 3.778 3.619 3.485 3.372 3.275 3.190 3.116

4.405 4.099 3.858 3.665 3.505 3.372 3.259 3.162 3.077 3.003

4.247 3.941 3.701 3.507 3.348 3.214 3.101 3.003 2.919 2.844

3.909 3.602 3.361 3.165 3.004 2.868 2.753 2.653 2.566 2.489

20 21 22 23 24 25 26 27 28 29

8.096 8.017 7.945 7.881 7.823 7.770 7.721 7.677 7.636 7.598

5.849 5.780 5.719 5.664 5.614 5.568 5.526 5.488 5.453 5.420

4.938 4.874 4.817 4.765 4.718 4.675 4.637 4.601 4.568 4.538

4.431 4.369 4.313 4.264 4.218 4.177 4.140 4.106 4.074 4.045

4.103 4.042 3.988 3.939 3.895 3.855 3.818 3.785 3.754 3.725

3.871 3.812 3.758 3.710 3.667 3.627 3.591 3.558 3.528 3.499

3.699 3.640 3.587 3.539 3.496 3.457 3.421 3.388 3.358 3.330

3.564 3.506 3.453 3.406 3.363 3.324 3.288 3.256 3.226 3.198

3.457 3.398 3.346 3.299 3.256 3.217 3.182 3.149 3.120 3.092

3.368 3.310 3.258 3.211 3.168 3.129 3.094 3.062 3.032 3.005

3.231 3.173 3.121 3.074 3.032 2.993 2.958 2.926 2.896 2.868

3.130 3.072 3.019 2.973 2.930 2.892 2.857 2.824 2.795 2.767

3.051 2.993 2.941 2.894 2.852 2.813 2.778 2.746 2.716 2.689

2.938 2.880 2.827 2.781 2.738 2.699 2.664 2.632 2.602 2.574

2.778 2.720 2.667 2.620 2.577 2.538 2.503 2.470 2.440 2.412

2.421 2.360 2.305 2.256 2.211 2.169 2.131 2.097 2.064 2.034

30 32 34 36 38

7.562 7.499 7.444 7.396 7.353

5.390 5.336 5.289 5.248 5.211

4.510 4.459 4.416 4.377 4.343

4.018 3.969 3.927 3.890 3.858

3.699 3.652 3.611 3.574 3.542

3.473 3.427 3.386 3.351 3.319

3.304 3.258 3.218 3.183 3.152

3.173 3.127 3.087 3.052 3.021

3.067 3.021 2.981 2.946 2.915

2.979 2.934 2.894 2.859 2.828

2.843 2.798 2.758 2.723 2.692

2.742 2.696 2.657 2.622 2.591

2.663 2.618 2.578 2.543 2.512

2.549 2.503 2.463 2.428 2.397

2.386 2.340 2.299 2.263 2.232

2.006 1.956 1.911 1.872 1.837

40 50 60 120 ∞

7.314 7.171 7.077 6.851 6.635

5.179 5.057 4.977 4.787 4.605

4.313 4.199 4.126 3.949 3.782

3.828 3.720 3.649 3.480 3.319

3.514 3.408 3.339 3.174 3.017

3.291 3.186 3.119 2.956 2.802

3.124 3.020 2.953 2.792 2.639

2.993 2.890 2.823 2.663 2.511

2.888 2.785 2.718 2.559 2.407

2.801 2.698 2.632 2.472 2.321

2.665 2.562 2.496 2.336 2.185

2.563 2.461 2.394 2.234 2.082

2.484 2.382 2.315 2.154 2.000

2.369 2.265 2.198 2.035 1.878

2.203 2.098 2.028 1.860 1.696

1.805 1.683 1.601 1.381 1.000

72

Table 12.8: Quantiles du coefficient de corrélation de Pearson d’une variable aléatoire normale bivariée sous l’hypothèse que ρ = 0 n 4 5 6 7 8 9

0.95 0.900 0.805 0.729 0.669 0.621 0.582

ordre du 0.975 0.950 0.878 0.811 0.754 0.707 0.666

10 11 12 13 14 15 16 17 18 19

0.549 0.521 0.497 0.476 0.458 0.441 0.426 0.412 0.400 0.389

0.632 0.602 0.576 0.553 0.532 0.514 0.497 0.482 0.468 0.456

0.765 0.735 0.708 0.684 0.661 0.641 0.623 0.606 0.590 0.575

0.872 0.847 0.823 0.801 0.780 0.760 0.742 0.725 0.708 0.693

20 21 22 23 24 25 26 27 28 29

0.378 0.369 0.360 0.352 0.344 0.337 0.330 0.323 0.317 0.311

0.444 0.433 0.423 0.413 0.404 0.396 0.388 0.381 0.374 0.367

0.561 0.549 0.537 0.526 0.515 0.505 0.496 0.487 0.479 0.471

0.679 0.665 0.652 0.640 0.629 0.618 0.607 0.597 0.588 0.579

30 35 40 45 50 60 70 80 90

0.306 0.283 0.264 0.248 0.235 0.214 0.198 0.185 0.174

0.361 0.334 0.312 0.294 0.279 0.254 0.235 0.220 0.207

0.463 0.430 0.403 0.380 0.361 0.330 0.306 0.286 0.270

0.570 0.532 0.501 0.474 0.451 0.414 0.385 0.361 0.341

100 200 300 400 500 1000

0.165 0.117 0.095 0.082 0.074 0.052

0.197 0.139 0.113 0.098 0.088 0.062

0.256 0.182 0.149 0.129 0.115 0.081

0.324 0.231 0.189 0.164 0.147 0.104

n est la taille de l’échantillon.

73

quantile 0.995 0.9995 0.990 0.999 0.959 0.991 0.917 0.974 0.875 0.951 0.834 0.925 0.798 0.898

List of Tables 2.1 2.2 2.3

Tableau des effectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tableau statistique complet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fonction de répartition d’une distribution groupée . . . . . . . . . . . . . . . . . . . . . . . .

4 5 9

4.1

Consommation de crème glacée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

23

9.1

Tableau de contingence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

53

10.1 10.2 10.3 10.4 10.5 10.6 10.7 10.8

Analyse de la variance à un facteur . . . . . . . . . . . . . . . Proportion de mots reconnus pour chacune des listes . . . . Résultats : moyennes et sommes des carrés . . . . . . . . . . Tableau d’analyse de la variance . . . . . . . . . . . . . . . . Tableau d’analyse de la variance pour une régression multiple Nombre de mots selon les groupes . . . . . . . . . . . . . . . Moyennes selon les groupes . . . . . . . . . . . . . . . . . . . Tableau d’analyse de la variance . . . . . . . . . . . . . . . .

. . . . . . . .

56 57 58 58 59 60 60 61

12.1 12.2 12.3 12.4 12.5 12.6 12.7 12.8

Table des quantiles d’une variable normale centrée réduite . . . . . . . . . . . . . . . . . . . . Fonction de répartition de la loi normale centrée réduite . . . . . . . . . . . . . . . . . . . . . Quantiles de la loi normale centrée réduite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Table des quantiles d’une variable χ2 à n degrés de liberté . . . . . . . . . . . . . . . . . . . . Table des quantiles d’une variable de Student à n degrés de liberté . . . . . . . . . . . . . . . Table des quantiles d’ordre 0.95 d’une variable de Fisher à n1 et n2 degrés de liberté . . . . . Table des quantiles d’ordre 0.99 d’une variable de Fisher à n1 et n2 degrés de liberté . . . . . Quantiles du coefficient de corrélation de Pearson d’une variable aléatoire normale bivariée sous l’hypothèse que ρ = 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

66 67 68 69 70 71 72

74

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

73

List of Figures 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8

Diagramme en secteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diagramme en barres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diagramme en secteurs des fréquences . . . . . . . . . . . . . . . . . . . . . . Diagramme en barres des effectifs . . . . . . . . . . . . . . . . . . . . . . . . Diagramme en barres des effectifs cumulés . . . . . . . . . . . . . . . . . . . Diagramme en bâtonnets des effectifs pour une variable quantitative discrète Fonction de répartition d’une variable quantitative discrète . . . . . . . . . . Histogramme des effectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . .

4 4 5 5 6 6 7 8

4.1 4.2

Le nuage de points . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La droite de régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

16 18

8.1

Plan stratifié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

75

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

Index allocation optimale, 42 proportionnelle, 42 analyse de la variance, 55

estimation d’une proportion, 45 étendue, 12 événement, 25 expérience aléatoire, 25

Boudon, 21

fonction de répartition, 7, 8 jointe, 31 fréquence, 3

coefficient d’asymétrie de Fisher, 13 de corrélation, 16 de détermination , 17 complémentaire d’un événement, 25 covariance, 16 densité conditionnelle, 31 marginale, 31 diagramme en barres, 3 des effectifs, 5 en bâtonnets des effectifs, 6 en secteurs, 3, 4 distribution bivariée, 31 de probabilité marginale, 31 groupée, 8 multivariée, 31 domaine, 1 données observées, 20 droite de régression, 17 écart moyen absolu, 13 médian absolu, 13 à l’indépendance, 21 écart-type, 13 marginal, 16 échantillonnage, 34 effectif, 3 marginal, 20 théorique, 21 effet de grappe, 42 erreur de deuxième espèce, 38 de première espèce, 38 estimateur, 37 convergent, 38 efficace, 38 sans biais, 38

histogramme des effectifs, 8 indépendance, 26, 32 inférence dans des distributions univariés et bivariées, 45 dans les enquêtes, 43 statistique, 37 sur la moyenne, 46 sur une proportion, 45 intervalle de confiance, 38 sur la moyenne, 47 sur une proportion, 46 interquartile, 12 khi-carré, 21 médiane, 11 modalités, 1 mode, 10 modélisation, 35 moindres carrés, 17 moment centré d’ordre trois, 13 moyenne, 10 conditionnelle, 31 marginale, 16, 31 paramètre, 37 paramètres de dispersion, 12 de forme, 13 de position, 10 marginaux, 16 plans par grappes, 42 simples avec remise, 40 sans remise, 41 stratifiés, 41 à deux degrés, 43 76

à plusieurs degrés, 43 à probabilités inégales, 42 probabilités, 25 conditionnelles, 26 profils colonnes, 21 lignes, 21 puissance du test, 38 quantiles, 12 randomisation, 35 régression multivariée, 58 résidus, 18 série statistique, 2 bivariée, 15 somme des carrés de la régression, 59 des résidus, 59 inter-groupes, 56 intra-groupes, 56 totale, 56 statistique, 1, 37 de test, 51 descriptive bivariée, 15 univariée, 10 système complet d’événements, 25

aléatoire, 27 continue, 29 discrète, 27 bernoullienne, 28 binomiale, 28 de Fisher, 34 de khi-carrée, 33 de Poisson, 29 de Student, 33 indicatrice, 28 normale, 30 qualitative, 1 nominale, 1, 3 ordinale, 1, 3 quantitative, 1 continue, 1, 7 discrète, 1, 5 uniforme, 30 variance, 13 conditionnelle, 31 de régression, 19 marginale, 16, 31 résiduelle, 19

tableau de contingence, 20 de fréquences, 21 statistique, 3, 5, 7 test χ2 d’indépendance, 51 de nullité de ρ, 49 du coefficient de corrélation, 49 global des coefficients de régression, 59 sur le coefficient de régression, 49, 60 tests d’hypothèses composites, 39 simples, 38 sur la moyenne, 48 sur une proportion, 46 multivariés, 55 théorème central limite, 33 unités d’observation, 1 statistiques, 1 valeurs ajustées, 18 possibles, 1 variable, 1 77

Contents 1 Introduction 1.1 Définition de la statistique 1.2 Mesure et variable . . . . 1.3 Typologie des variables . . 1.4 Série statistique . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

1 1 1 1 2

2 Tableau statistique et représentation graphique d’une 2.1 Effectifs et fréquences . . . . . . . . . . . . . . . . . . . 2.2 Variable qualitative nominale . . . . . . . . . . . . . . . 2.3 Variable qualitative ordinale . . . . . . . . . . . . . . . . 2.3.1 Le tableau statistique . . . . . . . . . . . . . . . 2.3.2 Diagramme en secteurs . . . . . . . . . . . . . . 2.3.3 Diagramme en barres des effectifs . . . . . . . . . 2.3.4 Diagramme en barres des effectifs cumulés . . . . 2.4 Variable quantitative discrète . . . . . . . . . . . . . . . 2.4.1 Le tableau statistique . . . . . . . . . . . . . . . 2.4.2 Diagramme en bâtonnets des effectifs . . . . . . 2.4.3 Fonction de répartition . . . . . . . . . . . . . . 2.5 Variable quantitative continue . . . . . . . . . . . . . . . 2.5.1 Le tableau statistique . . . . . . . . . . . . . . . 2.5.2 L’histogramme des effectifs . . . . . . . . . . . . 2.5.3 La fonction de répartition . . . . . . . . . . . . .

variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

3 3 3 3 3 4 5 5 5 5 6 7 7 7 8 8

3 Statistique descriptive univariée 3.1 Paramètres de position . . . . . 3.1.1 Le mode . . . . . . . . . 3.1.2 La moyenne . . . . . . . 3.1.3 La médiane . . . . . . . 3.1.4 Quantiles . . . . . . . . 3.2 Paramètres de dispersion . . . 3.2.1 L’étendue . . . . . . . . 3.2.2 L’intervalle interquartile 3.2.3 La variance . . . . . . . 3.2.4 L’écart-type . . . . . . . 3.2.5 L’écart moyen absolu . . 3.2.6 L’écart médian absolu . 3.3 Paramètres de forme . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

10 10 10 10 11 12 12 12 12 13 13 13 13 13

4 Statistique descriptive bivariée 4.1 Série statistique bivariée . . . . . . . . . . . . . . . 4.2 Deux variables quantitatives . . . . . . . . . . . . . 4.2.1 Représentation graphique de deux variables 4.2.2 Analyse des variables . . . . . . . . . . . . . 4.2.3 Covariance . . . . . . . . . . . . . . . . . . 4.2.4 Corrélation . . . . . . . . . . . . . . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

15 15 15 15 15 16 16

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

78

. . . . . . . . . . . . .

. . . . . . . . . . . . .

4.3

4.2.5 4.2.6 4.2.7 Deux 4.3.1 4.3.2 4.3.3 4.3.4 4.3.5

Droite de régression . . . . . . . . . . . . . Résidus et valeurs ajustées . . . . . . . . . Variance de régression et variance résiduelle variables qualitatives . . . . . . . . . . . . . Données observées . . . . . . . . . . . . . . Tableau de contingence . . . . . . . . . . . Tableau des fréquences . . . . . . . . . . . . Profils lignes et profils colonnes . . . . . . . Effectifs théoriques et khi-carré . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

17 18 19 20 20 20 21 21 21

5 Probabilités 25 5.1 Événement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 5.2 Axiomatique des Probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 5.3 Probabilités conditionnelles et indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 6 Variables aléatoires 6.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Variables aléatoires discrètes . . . . . . . . . . . . . . 6.2.1 Définition, espérance et variance . . . . . . . 6.2.2 Variable indicatrice ou bernoullienne . . . . . 6.2.3 Variable binomiale . . . . . . . . . . . . . . . 6.2.4 Variable de Poisson . . . . . . . . . . . . . . . 6.3 Variable aléatoire continue . . . . . . . . . . . . . . . 6.3.1 Définition, espérance et variance . . . . . . . 6.3.2 Variable uniforme . . . . . . . . . . . . . . . 6.3.3 Variable normale . . . . . . . . . . . . . . . . 6.4 Distribution bivariées et multivariées . . . . . . . . . 6.4.1 Cas continu . . . . . . . . . . . . . . . . . . . 6.4.2 Cas discret . . . . . . . . . . . . . . . . . . . 6.5 Indépendance de deux variables aléatoires . . . . . . 6.6 Propriétés des espérances et des variances . . . . . . 6.7 Théorème central limite . . . . . . . . . . . . . . . . 6.8 Autres variables aléatoires . . . . . . . . . . . . . . . 6.8.1 Variable de khi-carrée . . . . . . . . . . . . . 6.8.2 Variable de Student . . . . . . . . . . . . . . 6.8.3 Variable de Fisher . . . . . . . . . . . . . . . 6.9 Remarques sur l’utilisation du calcul des probabilités 6.9.1 Statistique et probabilité . . . . . . . . . . . 6.9.2 L’échantillonnage . . . . . . . . . . . . . . . . 6.9.3 La modélisation . . . . . . . . . . . . . . . . . 6.9.4 La randomisation . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . en statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

27 27 27 27 28 28 29 29 29 30 30 31 31 31 32 32 33 33 33 33 34 34 34 34 35 35

7 Inférence statistique 7.1 Estimateurs et propriétés . . . . . . . 7.2 Inférence statistique . . . . . . . . . . 7.2.1 Intervalle de confiance . . . . . 7.2.2 Tests d’hypothèses simples . . 7.2.3 Tests d’hypothèses composites

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

37 37 38 38 38 39

8 Techniques de sondage 8.1 Population et variable d’intérêt . 8.2 Plans simples avec remise . . . . 8.3 Plans simples sans remise . . . . 8.4 Plans stratifiés . . . . . . . . . . 8.4.1 Allocation proportionnelle 8.4.2 Allocation optimale . . . 8.5 Plans par grappes . . . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

40 40 40 41 41 42 42 42

. . . . . . .

. . . . . . .

. . . . . . .

79

8.6 8.7 8.8

Plans à probabilités inégales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Plans à deux et plusieurs degrés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Inférence dans les enquêtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

42 43 43

9 Inférence dans des distributions univariés et bivariées 9.1 Inférence sur une proportion . . . . . . . . . . . . . . . . 9.1.1 Le problème . . . . . . . . . . . . . . . . . . . . . 9.1.2 Estimation d’une proportion . . . . . . . . . . . 9.1.3 Intervalle de confiance sur une proportion . . . . 9.1.4 Test d’hypothèses sur une proportion . . . . . . . 9.2 Inférence sur la moyenne . . . . . . . . . . . . . . . . . . 9.2.1 Le problème . . . . . . . . . . . . . . . . . . . . . 9.2.2 Remarque . . . . . . . . . . . . . . . . . . . . . . 9.2.3 Estimation de µ . . . . . . . . . . . . . . . . . . 9.2.4 Intervalle de confiance sur la moyenne . . . . . . 9.2.5 Test d’hypothèses sur la moyenne . . . . . . . . . 9.3 Test du coefficient de corrélation . . . . . . . . . . . . . 9.3.1 Le problème . . . . . . . . . . . . . . . . . . . . . 9.3.2 Estimation de ρ . . . . . . . . . . . . . . . . . . . 9.3.3 Test de nullité de ρ . . . . . . . . . . . . . . . . . 9.4 Test sur le coefficient de régression . . . . . . . . . . . . 9.4.1 Le modèle . . . . . . . . . . . . . . . . . . . . . . 9.4.2 Estimation de α et β . . . . . . . . . . . . . . . . 9.4.3 Test des coefficients de régression . . . . . . . . . 9.5 Test χ2 d’indépendance . . . . . . . . . . . . . . . . . . 9.5.1 Le problème . . . . . . . . . . . . . . . . . . . . . 9.5.2 Statistique de test . . . . . . . . . . . . . . . . . 9.5.3 Le test χ2 . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

45 45 45 45 46 46 46 46 47 47 47 48 49 49 49 49 49 49 50 50 51 51 51 51

10 Tests multivariés 10.1 Analyse de la variance . . . . . . . . . . . . . . 10.1.1 Le problème . . . . . . . . . . . . . . . . 10.1.2 Les données . . . . . . . . . . . . . . . . 10.1.3 Le test . . . . . . . . . . . . . . . . . . . 10.2 Régression multivariée . . . . . . . . . . . . . . 10.2.1 Le modèle . . . . . . . . . . . . . . . . . 10.2.2 Test global des coefficients de régression 10.2.3 Test sur un coefficient de régression . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

55 55 55 55 57 58 58 59 60

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

11 Exercices Récapitulatifs (Inspirés de ‘Méthodes statistiques en sciences humaines’, David C. Howell, De Boeck Université, 1998.) 63

12 Tables Statistiques

66

80

Related Documents

818
December 2019 24
818 Canciones
April 2020 13
818-s
April 2020 12
818-1543-1-sm.pdf
October 2019 15

More Documents from ""

1214
December 2019 29
992
December 2019 27
960
December 2019 22
1482
December 2019 21
1463
December 2019 21
1465
December 2019 14