795

  • Uploaded by: Silviu
  • 0
  • 0
  • December 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View 795 as PDF for free.

More details

  • Words: 46,941
  • Pages: 120
Probabilit´ es et Statistique Jean-Michel JOLION D´epartement G´enie Industriel∗ 3`eme Ann´ee Version ´electronique : http://rfv.insa-lyon.fr/˜jolion/STAT/poly.html May 26, 2006



INSA Lyon - Bˆ at. J. Verne - 69621 Villeurbanne Cedex - t´el : 04 72 43 87 59 - Fax : 04 72 43 80 97 - Email : [email protected]

1

Sommaire 1 Probabilit´ es

I-1

1.1

Notions de probabilit´es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-1

1.2

Analyse combinatoire (rappels) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-1 1.2.1

Factorielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-1

1.2.2

Arrangements de p objets parmi n . . . . . . . . . . . . . . . . . . . . . . . . . . . I-1

1.2.3

Permutations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-1

1.2.4

Combinaisons de p parmi n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-2

1.2.5

R´ep´etitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-2

1.3

Epreuves et Ev`enements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-2

1.4

Espace probabilis´e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-3

1.5

1.6

1.4.1

Axiomatique de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-3

1.4.2

Propri´et´es ´el´ementaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-3

Probabilit´e conditionnelle - Th´eor`eme de Bayes . . . . . . . . . . . . . . . . . . . . . . . . I-4 1.5.1

Th´eor`eme des probabilit´es compos´ees . . . . . . . . . . . . . . . . . . . . . . . . . I-4

1.5.2

Cons´equences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-4

1.5.3

Th´eor`eme de Bayes - Probabilit´es des causes . . . . . . . . . . . . . . . . . . . . . I-5

Le paradoxe de Bertrand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-5

2 Variables al´ eatoires

II-1

2.1

Variable al´eatoire : d´efinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-1

2.2

Fonction de r´epartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-1 2.2.1

D´efinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-1

2.2.2

Propri´et´es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-1

2.2.3

Fonction de r´epartition d’une v.a. discr`ete . . . . . . . . . . . . . . . . . . . . . . . II-2

2.3

Fonction de r´epartition d’une v.a. continue . . . . . . . . . . . . . . . . . . . . . . . . . . II-2

2.4

Couple de variables al´eatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-2

2.5

2.4.1

D´efinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-2

2.4.2

Cas d’un couple de v.a. continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-2

2.4.3

Cas d’un couple de v.a. discr`etes . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-3

2.4.4

Distribution conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-3

Loi d’une fonction d’une ou plusieurs variables al´eatoires . . . . . . . . . . . . . . . . . . . II-3

2

2.6

2.7

2.8

2.9

2.5.1

Transformation d’une variable al´eatoire . . . . . . . . . . . . . . . . . . . . . . . . II-3

2.5.2

Densit´e de probabilit´e d’une somme de V.A. ind´ependantes . . . . . . . . . . . . . II-4

Moyenne et esp´erance math´ematique d’une v.a. . . . . . . . . . . . . . . . . . . . . . . . . II-4 2.6.1

Notion de moyenne pour une v.a. discr`ete . . . . . . . . . . . . . . . . . . . . . . . II-4

2.6.2

Esp´erance math´ematique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-5

Moments

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-6

2.7.1

D´efinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-6

2.7.2

Quelques moments particuliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-7

2.7.3

Variance, covariance et ´ecart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . II-7

2.7.4

Variable centr´ee r´eduite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-8

2.7.5

Coefficient de corr´elation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-8

2.7.6

Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-9

2.7.7

In´egalit´es de Bienaym´e - Tchebyshev - Markov . . . . . . . . . . . . . . . . . . . . II-9

Quelques lois de probabilit´es

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-10

2.8.1

Les valeurs principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-10

2.8.2

Liaisons entre lois de probabilit´es . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-10

Quelques relations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-13

2.10 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-14 2.10.1 Convergence stochastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-14 2.10.2 Th´eor`eme central limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-15 2.11 Simulation d’une variable al´eatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-16 2.11.1 M´ethode g´en´erale par transformation inverse . . . . . . . . . . . . . . . . . . . . . II-16 2.11.2 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-16 2.11.3 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-16 2.11.4 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-17 2.11.5 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-17 2.11.6 Loi normale : ℵ(µ, σ 2 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-17 2.12 Autres indicateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-17 2.12.1 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-17 2.12.2 M´ediane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-18 2.12.3 Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-18 2.12.4 Autres moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-18

3

3 Estimation 3.1

III-1

Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-1 3.1.1

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-1

3.1.2

Estimateur convergent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-2

3.1.3

Estimateur sans biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-2

3.1.4

Estimateur efficace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-4

3.1.5

Robustesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-5

3.2

M´ethode du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-5

3.3

Estimation par intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-7

3.4

3.5

3.3.1

Estimation d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-8

3.3.2

Estimation d’une moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-9

3.3.3

Estimation d’une variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-9

Estimation robuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-10 3.4.1

Interpr´etation de donn´ees: l’approche bay´esienne . . . . . . . . . . . . . . . . . . . III-10

3.4.2

Le traitement de l’a priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-11

3.4.3

Le traitement de l’a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-11

3.4.4

Le cas monodimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-12

3.4.5

Le cas g´en´eral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-12

3.4.6

Estimation it´erative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-14

R´egression lin´eaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-14 3.5.1

Formalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-15

3.5.2

R´esolution dans le cas d’une distribution normale des ´ecarts . . . . . . . . . . . . . III-15

3.5.3

Le cas de la droite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-16

3.5.4

Intervalle de confiance sur le coefficient de corr´elation . . . . . . . . . . . . . . . . III-17

3.6

Filtre de Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-17

3.7

Estimation d’un mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-18

3.8

Estimation d’une densit´e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-19

4 Tests d’hypoth` ese 4.1

IV-1

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-1 4.1.1

Hypoth`eses et erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-1

4.1.2

Tests bilat´eral et unilat´eral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-1

4.1.3

R´egion d’acceptation et r´egion critique . . . . . . . . . . . . . . . . . . . . . . . . . IV-2 4

4.2

4.3

4.4

4.1.4

Choix d’un test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-2

4.1.5

Influence de l’´echantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-3

Test entre deux hypoth`eses simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-3 4.2.1

La m´ethode de Neyman et Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-3

4.2.2

Test de la moyenne d’une loi normale d’´ecart-type connu

4.2.3

Test de la moyenne d’une loi normale d’´ecart-type inconnu . . . . . . . . . . . . . IV-5

4.2.4

Test d’une variance de loi normale, la moyenne ´etant connue . . . . . . . . . . . . IV-6

4.2.5

Test d’une variance de loi normale, la moyenne ´etant inconnue . . . . . . . . . . . IV-6

4.2.6

Test d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-7

. . . . . . . . . . . . . . IV-4

Test entre hypoth`eses compos´ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-7 4.3.1

Tests UMP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-7

4.3.2

Test d’une moyenne de loi normale, l’´ecart-type ´etant connu . . . . . . . . . . . . . IV-8

4.3.3

Test d’une moyenne de loi normale, l’´ecart-type ´etant inconnu . . . . . . . . . . . . IV-9

4.3.4

Test d’une variance de loi normale, la moyenne ´etant connue . . . . . . . . . . . . IV-9

4.3.5

Test d’une variance de loi normale, la moyenne ´etant inconnue . . . . . . . . . . . IV-10

4.3.6

Test d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-10

Test de comparaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-10 4.4.1

Comparaison de deux moyennes

. . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-11

4.4.2

Comparaison de deux variances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-12

4.4.3

Comparaison de deux proportions . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-12

4.5

Test du rapport des vraisemblances maximales . . . . . . . . . . . . . . . . . . . . . . . . IV-12

4.6

Test d’ad´equation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-13

4.7

4.8

4.6.1

Test du χ2

4.6.2

Test de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-14

4.6.3

Test de Cramer-Von Mises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-14

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-13

Test d’ind´ependance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-15 4.7.1

Test des diff´erences premi`eres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-15

4.7.2

Test de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-15

Test de comparaison d’´echantillons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-16 4.8.1

Test des variances de Fisher-Sn´ed´ecor . . . . . . . . . . . . . . . . . . . . . . . . . IV-16

4.8.2

Test de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-17

4.8.3

Test de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-17

5

4.9

Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-18 4.9.1

Les donn´ees de l’analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-18

4.9.2

Le test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-19

4.9.3

Analyse des contrastes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-19

5 Le Contrˆ ole Statistique de Process: SPC

V-1

5.1

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . V-1

5.2

Capabilit´e d’un processus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . V-2 5.2.1

Etude de la capabilit´e des processus . . . . . . . . . . . . . . . . . . . . . . . . . . V-2

5.2.2

Indicateurs g´en´eralis´es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . V-3

5.2.3

Les cartes de contrˆ ole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . V-4

6 Tables

T-1

T-1 Fonction de r´epartition de la loi normale centr´ee r´eduite . . . . . . . . . . . . . . . . . . . T-1 T-2 Fractiles de la loi normale centr´ee r´eduite . . . . . . . . . . . . . . . . . . . . . . . . . . . T-2 T-3 Fractiles de la loi du χ2 ` a ν degr´es de libert´e . . . . . . . . . . . . . . . . . . . . . . . . . T-3 T-4 Valeurs f de la variable de Fisher-Sn´ed´ecor F (ν1 ; ν2 ) ayant la probabilit´e 0.10 d’ˆetre d´epass´eesT-5 T-5 Valeurs f de la variable de Fisher-Sn´ed´ecor F (ν1 ; ν2 ) ayant la probabilit´e 0.05 d’ˆetre d´epass´eesT-6 T-6 Valeurs f de la variable de Fisher-Sn´ed´ecor F (ν1 ; ν2 ) ayant la probabilit´e 0.01 d’ˆetre d´epass´eesT-8 T-7 Table de distribution de T (Loi de Student) . . . . . . . . . . . . . . . . . . . . . . . . . . T-10 T-8 Table du coefficient de corr´elation des rangs de Spearman de deux variables al´eatoires ind´ependantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . T-11 T-9 Fonction de r´epartition de la statistique de Cramer-Von Mises . . . . . . . . . . . . . . . . T-13 T-10 Table du test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . T-14 7 Exercices

VII-1

7-1 Probabilit´es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-1 7-2 Variables al´eatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-4 7-3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-9 7-4 Tests d’hypoth`eses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-13 7-5 SPC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-16 7-6 Sujets g´en´eraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-17 7-6 .1 Probl`eme 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-17 7-6 .2 Probl`eme 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-19

6

7-6 .3 Probl`eme 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-21 7-6 .4 Probl`eme 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-24 8 Bibliographie

Bib-1

7

Introduction Ce polycopi´e est un support du cours de “Probabilit´es-Statistique” de 3`eme ann´ee du d´epartement G´enie Industriel de l’INSA de Lyon. Il regroupe les ´el´ements fondamentaux vus dans ce cours. Il couvre plus que ce qui est r´eellement abord´e en cours car il a ´egalement vocation `a introduire des concepts plus avanc´es (comme les statistiques robustes ou la maˆıtrise des syst`emes) en termes de culture g´en´erale. Il n’existe pas de recueil des annales des examens des ann´ees pr´ec´edentes car les exercices et probl`emes figurant dans ces examens sont introduits chaque ann´ee dans la nouvelle liste des exercices fournies en fin de polycopi´e, avec le plus souvent des ´elements de correction. Le contenu de ce polycopi´e n’engage que son auteur, dans le cadre de ce cours de l’INSA de Lyon. Toute reproduction partielle ou totale, pour toute utilisation est assuj´etie `a la demande formul´ee aupr`es de l’auteur. Une version ´electronique est disponible sur le site web http://rfv.insa-lyon.fr/ jolion/STAT/poly.html

8

1

Probabilit´ es

1.1

Notions de probabilit´ es

Il existe plusieurs mani`eres de d´efinir une probabilit´e. Principalement, on parle de probabilit´es inductives ou exp´erimentales et de probabilit´es d´eductives ou th´eoriques. On peut les d´efinir comme suit : Probabilit´e exp´erimentale ou inductive : la probabilit´e est d´eduite de toute la population concern´ee. Par exemple, si sur une population d’un million de naissances, on constate 530000 gar¸cons et 470000 filles, on dit que P[gar¸con] = 0.53 Probabilit´e th´eorique ou d´eductive : cette probabilit´e est connue grˆace `a l’´etude du ph´enom`ene sousjacent sans exp´erimentation. Il s’agit donc d’une connaissance a priori par opposition `a la d´efinition pr´ec´edente qui faisait plutˆ ot r´ef´erence ` a une notion de probabilit´e a posteriori. Par exemple, dans le cas classique du d´e parfait, on peut dire, sans avoir `a jeter un d´e, que P[”obtenir un 4”] = 16 . Comme il n’est pas toujours possible de d´eterminer des probabilit´es a priori, on est souvent amen´e ` a r´ealiser des exp´eriences. Il faut donc pouvoir passer de la premi`ere `a la deuxi`eme solution. Ce passage est suppos´e possible en terme de limite (i.e. avec une population dont la taille tend vers la taille de la population r´eelle).

1.2 1.2.1

Analyse combinatoire (rappels) Factorielle

Si une action peut ˆetre obtenue de n1 fa¸cons diff´erentes, puis suivant cette action, de n2 fa¸cons diff´erentes ind´ependantes des pr´ec´edentes, puis . . . alors, le nombre de possibilit´es correspondant `a l’ensemble de ces Q actions est N = pi=1 ni On appelle factorielle n et l’on note n! le nombre : n! =

Qn

i=1 i

On peut aussi d´efinir la factorielle grˆ ace `a la fonction Γ : Γ(x) =

R ∞ x−1 −u e du 0 u

qui a les propri´et´es suivantes : Γ(n + 1) = n! pour n entier et Γ(x + 1) = xΓ(x). La formule permet de construire une estimation de la factorielle tr`es valable pour n ≥ 10 : √ de Stierling 1 1 n −n n! ≈ n e 2πn(1 + 12n + 288n 2 + . . .) 1.2.2

Arrangements de p objets parmi n

Nombre de possibilit´es de ranger p objets choisis parmi n : Apn =

1.2.3

n! (n−p)!

= n(n − 1) . . . (n − p + 1).

Permutations

Arrangement de n objets parmi n en tenant compte de l’ordre : Pn = Ann = n!. Par exemple, il y a 6 = 3! permutations possibles de 3 symboles a, b, c : (a, b, c), (a, c, b), (b, a, c), (b, c, a), (c, a, b), (c, b, a).

I-1

1.2.4

Combinaisons de p parmi n

On ne tient pas compte de l’ordre des objets dans le rangement : Cpn =

n! p!(n−p)!

=

Apn p!

=

Apn Pp .

La notation anglosaxonne pour les combinaisons est un peu diff´erente : Cnp ≡ (np ). Propri´et´es : • Cn0 = Cnn = 1 • Cnp = Cnn−p p p−1 + Cn−1 • Cnp = Cn−1



Pn

p p=1 Cn

1.2.5

= 2n

R´ ep´ etitions

Soient n objets dont on dispose une infinit´e d’exemplaires. On en choisit p parmi ces n classes d’objets. Il peut donc y avoir r´ep´etitions du mˆeme objet. Dans ce cas, on obtient de nouveaux indicateurs : 0

Anp = np 0

p Cnp = Cn+p−1 =

(n+p−1)! p!(n−1)!

Toujours dans le mˆeme contexte, on cherche le nombre de possibilit´e d’avoir a fois le 1er objet, b 0 fois le 2`eme objet, . . . k fois le n`eme objet. Le nombre de permutations est donn´e par : Pn (a, b, . . . , k) = (a+b+...+k)! a!b!...k!

1.3

Epreuves et Ev` enements

Une exp´ erience est dite al´ eatoire si ses r´esultats ne sont pas pr´evisibles avec certitude en fonction des conditions initiales. On appelle ´ epreuve la r´ealisation d’une exp´erience al´eatoire. On appelle ´ ev` enement la propri´et´e du syst`eme qui une fois l’´epreuve effectu´ee est ou n’est pas r´ealis´ee. Exemple : Soient l’exp´erience al´eatoire ”lancer deux d´es discernables” (et non pip´es si l’on veut vraiment une exp´erience al´eatoire) et l’´ev`enement A ”obtenir un total des nombres > 10”. A se r´ealise pour les ´epreuves (6,5), (5,6), (6,6). Correspondance entre les op´erateurs logiques et les ensembles (la relation liant ces notations est un isomorphisme, on peut donc employer n’importe laquelle).

I-2

Logique ´etat du syst`eme ´ev`enement A ´ev`enement certain ´ev`enement impossible ´ev`enement contraire A ou Ac l’´ev`enement B entraine l’´ev`enement A A et B ´ev`enements incompatibles A ⇒ BetB ⇒ A A ou B (ou non exclusif) ou exclusif

Ensemble ´el´ement w ∈ Ω partie {A} ⊂ Ω espace entier Ω partie vide ∅ partie compl´ementaire {A} = CA/Ω {B} ⊂ {A} intersection {A} ∩ {B} parties disjointes {A} ∩ {B} = ∅ r´eunion {A} ∪ {B} somme {A} + {B} = ({A} ∪ {B}) − ({A} ∩ {B})

A partir de ces notions, on peut pr´eciser le calcul de probabilit´es d’un ´ev`enement A : probabilit´ e th´ eorique : P (A) =

nombre de cas f avorable nombre total de cas . 0

d e´preuves qui r´ ealisent A probabilit´ e exp´ erimentale : P (A) = nombre . Cette approche (aussi appell´ee apnombre total d0 e´preuves proche fr´equentiste) ne permet pas de donner une valeur ni mˆeme un sens `a la probabilit´e d’un ´ev`enement non r´ep´etable du genre ”neigera-t-il le 25 octobre 2990” ce qui limite de fait le champ d’application du calcul des probabilit´es.

Pour les fr´equentistes, seules ont un sens les probabilit´es calcul´ees a posteriori sur la base de la r´ep´etition d’un grand nombre d’´ev`enements identiques; pour les subjectivistes, au contraire, la notion de probabilit´e a priori, ´evaluable en fonction d’un sentiment individuel d’incertitude, peut avoir un sens.

1.4 1.4.1

Espace probabilis´ e Axiomatique de Kolmogorov

A chaque ´ev`enement, on associe un nombre positif compris entre 0 et 1, sa probabilit´e. Afin d’´eviter toute discussion sur cette notion, la th´eorie moderne des probabilit´es repose sur l’axiomatique suivante : D´ efinition 1 On appelle probabilit´e sur (Ω,=) (o` u Ω est l’ensemble des ´ev`evements et = une classe de parties de Ω), ou loi de probabilit´e, une application P de = dans [0, 1] telle que : - P (Ω) = 1 S

- pour tout ensemble d´enombrable d’´ev`enements incompatibles A1 , A2 , . . . , An on a P ( Ai ) =

P

P (Ai ).

D´ efinition 2 On appelle espace probabilis´e le tripl´e (Ω,=,P ) Une loi de probabilit´e n’est donc rien d’autre qu’une mesure positive de masse totale 1. On peut donc relier la th´eorie des probabilit´es ` a celle de la mesure. 1.4.2

Propri´ et´ es ´ el´ ementaires

De l’axiomatique de Kolmogorov, on peut d´eduire les propri´et´es suivantes :

I-3

Propri´et´e 1 : P (∅) = 0 Propri´et´e 2 : P (A) = 1 − P (A) Propri´et´e 3 : P (A) ≤ P (B) si A ⊂ B Propri´et´e 4 : P (A ∪ B) = P (A) + P (B) − P (A ∩ B) Propri´et´e 5 : P ( Ai ) ≤ incompatibles.) S

P

i P (Ai )

(Il n’y a stricte ´egalit´e que si les ´ev`enements Ai sont deux `a deux

Propri´et´e 6 : Continuit´e monotone s´equentielle. Soient A1 ⊃ A2 ⊃ . . . ⊃ An ⊃ ∅. Si lim An = ∅ alors lim P (An ) = 0 n→∞

n→∞

S

Propri´et´e 7 : Th´eor`eme des probabilit´es totales : Soit Ω = Bi un syst`eme complet d’´ev`enements (i.e. P tel que {Bi } constitue une partition de Ω). ∀A : P (A) = i P (A ∩ Bi ) Remarque : P (A) = 0 6⇒ A = ∅. De mˆeme, P (A) = 1 6⇒ A = Ω.

1.5 1.5.1

Probabilit´ e conditionnelle - Th´ eor` eme de Bayes Th´ eor` eme des probabilit´ es compos´ ees

Soient deux ´ev`enements A et B r´ealis´es respectivement n et m fois au cours de N ´epreuves. On a donc n m P (A) = N et P (B) = N . Si de plus A et B sont r´ealis´es simultan´ement k fois, on a P (A ∩ B) = Nk . Que peut-on d´eduire sur la probabilit´e de l’´ev`enement B sachant que l’´ev`enement A est r´ealis´e ? Cette probabilit´e est appell´ee probabilit´ e conditionnelle de B sachant A et se note P(B/A). Dans notre cas, on a P (B/A) = nk . Par d´efinition, on a P(B/A) =

1.5.2

P(A∩B) P(A)

et P(A/B) =

P(A∩B) P(B)

.

Cons´ equences

Deux ´ev`enements A et B sont dits ind´ependants si P (A ∩ B) = P (A).P (B) ou encore si P (B/A) = P (B) (l’information sur la r´ealisation de A n’apporte rien `a l’´ev`enement B) et P (A/B) = P (A). Attention : 1) ind´ependant 6= incompatible. 2) P (A ∩ B) = P (A).P (B) ↔ A et B sont ind´ependants uniquement si vous pouvez prouver que P (A ∩ B) = P (A).P (B) th´eoriquement. En pratique, i.e. sur des valeurs num´eriques, on ne peut pas induire l’ind´ependance ` a partir de cette ´egalit´e constat´ee num´eriquement. On ne peut que supposer tr`es probable cette ind´ependance. Si deux ´ev`enements A et B sont ind´ependants, alors il en est de mˆeme de A et B c , Ac et B, Ac et B c . Tn

Soit A0 , A1 , . . . , An une suite d’´ev`enements ayant une intersection commune non nulle, i.e. P ( ∅, on a alors P

n \

!

Ak

= P (A1 |A0 )P (A2 |A0 ∩ A1 ) . . . P (An |A0 ∩ A1 . . . ∩ An−1 )P (A0 )

k=0

I-4

k=0 Ak )

6=

1.5.3

Th´ eor` eme de Bayes - Probabilit´ es des causes

Soit un ´ev`enement A qui peut d´ependre de N causes Ci diff´erentes et incompatibles deux `a deux (on ne peut avoir deux causes r´ealis´ees simultan´ement). Etant donn´ee la r´ealisation de l’´ev`enement A, quelle est la probabilit´e que ce soit Ci qui en soit la cause ? On peut ´ecrire que A = N eme complet (les causes sont incompati=1 A ∩ Ci car {Ci } constitue un syst` ibles deux `a deux et toutes les causes possibles `a A sont suppos´ees connues). Donc d’apr`es le th´eor`eme P des probabilit´es totales, on a P (A) = i P (A ∩ Ci ). S

En appliquant le th´eor`eme des probabilit´es conditionnelles, on a P (A ∩ Ci ) = P (A).P (Ci /A) = P (Ci ).P (A/Ci ) donc P(Ci /A) = PNP(Ci )P(A/Ci ) k=1

P(Ck )P(A/Ck )

Exemple : Deux machines M1 et M2 produisent respectivement 100 et 200 objets. M1 produit 5% de pi`eces d´efectueuses et M2 en produit 6%. Quelle est la probabilit´e pour qu’un objet d´efectueux ait ´et´e fabriqu´e par la machine M1 ? L’´ev`enement constat´e, A, est donc la pr´esence d’une pi`ece d´efectueuse et les causes sont les machines M1 et M2 . Compte tenu des productions de ces machines, on a P (M1 ) = 13 et P (M2 ) = 23 . De plus, les 5 6 probabilit´es conditionnelles de l’´ev`enement A selon les machines sont P (A|M1 ) = 100 et P (A|M2 ) = 100 . En reportant ces valeurs dans la formule g´en´erale, on obtient

P (M1 |A) =

1.6

1 3

5 × 100 5 ) + ( 23 × ( 13 × 100

6 100 )

=

5 ≈ 0.29 17

Le paradoxe de Bertrand

Ce paradoxe est un exemple classique permettant de mesurer la limite des d´efinitions de probabilit´es. Consid´erons un triangle ´equilat´eral et son cercle circonscrit. On tire une corde au hasard. Quelle est la probabilit´e que sa longueur soit sup´erieure `a celle du cˆot´e du triangle ? On doit `a Renyi les remarques suivantes : Premi` ere solution. Comme la longueur de la corde est d´etermin´ee par la position de son milieu, le choix de la corde peut consister ` a marquer un point au hasard `a l’int´erieur du cercle. La probabilit´e pour que la corde soit plus longue que le cˆ ot´e du triangle ´equilat´eral inscrit est alors ´egale `a la probabilit´e pour que le milieu de la corde soit int´erieur au cercle inscrit dans ce triangle qui est de rayon moiti´e. Si on admet que la r´epartition de ce point est uniforme dans le cercle, on trouve pour la probabilit´e demand´ee : π(r/2)2 πr2

=

1 4

Deuxi` eme solution. La longueur de la corde est d´etermin´ee par la distance de son milieu au centre du cercle. Par raison de sym´etrie, nous pouvons consid´erer que le milieu de la corde est pris sur un rayon donn´e du cercle et supposer que la r´epartition de ce point sur le rayon est uniforme. La corde sera plus longue que le cˆot´e du triangle ´equilat´eral inscrit si son milieu est `a une distance du centre inf´erieure ` a r/2; la probabilit´e recherch´ee est alors 1/2.

I-5

Troisi` eme solution. Par raison de sym´etrie, nous pouvons supposer qu’on a fix´e une des extr´emit´es de la corde en P0 . L’autre sera choisie au hasard sur la circonf´erence. Si on admet que la probabilit´e que l’autre extr´emit´e P tombe sur un arc donn´e de la circonf´erence est proportionnelle `a la longueur de cet arc, la corde P0 P est plus grande que le cˆ ot´e du triangle ´equilat´eral inscrit quand P se trouve sur l’arc π d P1 P2 (tel que P1 P0 P2 = 3 ) dont la longueur est le 1/3 de celle de la circonf´erence; la probabilit´e est donc de 1/3. Il est clair que les trois hypoth`eses de r´epartition sont ´egalement r´ealisable. Il n’y a pas cependant de r´eel paradoxe car il s’agit simplement d’un choix de conditions exp´erimentales de tirage des cordes qui conduisent `a des ´ev`enements diff´erents. Pour en savoir plus : http://www-ensps.u-strasbg.fr/enseignants/harthong/Hist/BERTRAND.HTM

I-6

2

Variables al´ eatoires

2.1

Variable al´ eatoire : d´ efinitions

Une variable al´eatoire (V.A.) est une application de l’ensemble des ´epreuves dans le corps des r´eels. Elle est caract´eris´ee par l’ensemble des probabilit´es associ´ees `a tous ses ´etats possibles. D´ efinition 1 Tout ensemble de parties d’un ensemble Ω, stable par r´eunion, intersection et compl´ementarit´e s’appelle une tribu sur Ω. Soit A une tribu de parties de Ω. Le couple (Ω, A) s’appelle un espace probabilisable ou mesurable et A est l’ensemble des ´ev`enements. Si Ω peut ˆetre muni d’une topologie, alors la tribu engendr´ee par la classe des ouverts de Ω est appell´ee tribu bor´elienne. D´ efinition 2 Une variable al´ eatoire X est une application mesurable d’un espace probabilis´e (Ω,=,P ) dans le corps des r´eels < muni de sa tribu bor´elienne (<,B) (i.e. ensemble des intervalles de la forme ] − ∞, a[). D´ efinition 3 Pour tout bor´elien B (i.e. B ∈ B), on d´efinit une loi de probabilit´ e de X sur (<,B) et l’on note PX : PX (B) = P ({w|X(x) ∈ B}) = P ({X −1 (B)}) D´ efinition 4 Une v.a. X est discr` ete si Card[=] est fini ou d´enombrable. Dans ce cas, X ne peut prendre, avec une probabilit´e non nulle, qu’un nombre fini de valeurs particuli`eres x1 , x2 , . . . , xn . On note g´en´eralement les probabilit´es par P (X = xi ) = pi . D´ efinition 5 Une v.a. X est continue si elle peut prendre toute valeur sur un segment de la forme [a, b], ] − ∞, a], [b, +∞[, ] − ∞, +∞[ et telle que ∀x0 , P (X = x0 ) = 0. D´ efinition 6 Une v.a. X est mixte si 1) ∀i ∈ I ⊂ N , P (X = xi ) = pi 6= 0, 2) ∃i P (X ∈]xi , xi+1 [6= 0

2.2 2.2.1

P

i∈I

pi < 1 et 3)

Fonction de r´ epartition D´ efinition

La fonction de r´ epartition (FR) d’une v.a. X est l’application F de < dans [0, 1] d´efinie par F(x) = P(X < x)

2.2.2

Propri´ et´ es

• F est non d´ecroissante. • F est continue ` a gauche. • F est continue ` a droite dans le cas des v.a. continues.

II-1

• F (−∞) = 0 et F (+∞) = 1 • P (a ≤ X < b) = F (b) − F (a) 2.2.3

Fonction de r´ epartition d’une v.a. discr` ete

Soit X une v.a. discr`ete pouvant prendre les valeurs x1 , x2 , . . . , xn de probabilit´es respectivement p1 , p2 , . . . , pn avec x1 < x2 < . . . < xn . F (x) =

2.3

Pi=k i=1

pi o` u k est donn´e par xk ≤ x < xk+1 .

Fonction de r´ epartition d’une v.a. continue

Soit X une v.a. continue. Sa fonction de r´epartition est continue `a gauche et `a droite. Il existe donc une fonction f telle que l’on puisse ´ecrire : dF (x) ou F (x) = f (x) = dx

Z x

f (u)du −∞

Par d´efinition, f est appell´ee densit´ e de probabilit´ e de X, ou en abr´eg´e, ddp de X. Cette fonction a les propri´et´es suivantes : •

R +∞ −∞

f (x)dx = 1

• ∀x, f (x) ≥ 0 • P (X ∈]x1 , x2 [) = F (x2 ) − F (x1 ) = • P (X = x0 ) =

R x0 x0

2.4.1

x1

f (u)du

f (u)du = 0

• P (X ∈]x0 , x0 + dx0 [) =

2.4

R x2

R x0 +dx0 x0

f (u)du = f (x0 )dx0 = dF (x0 )

Couple de variables al´ eatoires D´ efinitions

Soient X et Y deux v.a. d´efinies sur le mˆeme espace probabilis´e. On appelle fonction de r´ epartition conjointe de X et Y , la fonction F d´efinie par : F (X, Y ) = P (X ∈] − ∞, x] ∩ Y ∈] − ∞, y]) = P (X < x et Y < y) On a par d´efinition, F (−∞, −∞) = 0 et F (+∞, +∞) = 1. 2.4.2

Cas d’un couple de v.a. continues

On note f la ddp conjointe de X et Y et l’on a par d´efinition : Z x Z y

F (x, y) =

f (u, v)dudv −∞ −∞

II-2

avec les propri´et´es suivantes : • ∀x, y : f (x, y) ≥ 0 •

R +∞ R +∞ −∞

−∞

f (u, v)dudv = 1

On peut ´egalement d´efinir une fonction de r´ epartition marginale de X, not´ee FX par FX (x) = P (X < x) = F (x, +∞) (idem pour Y , FY (y) = F (+∞, y)). 2.4.3

Cas d’un couple de v.a. discr` etes

On note Pij = P (X = xi ∩ Y = yj ) pour i ∈ I et j ∈ J. 2.4.4

Distribution conditionnelle

Soient X et Y deux v.a. continues de FR conjointe F et de ddp conjointe f . Comment peut-on ´evaluer la probabilit´e conditionnelle P (X ∈ I1 /Y ∈ I2 ) ? On d´efinit la fonction de r´ epartition conditionnelle F (x/Y = y0 ) par Rx

F (x/Y = y0 ) = R −∞ +∞ −∞

f (u, y0 )du f (v, y0 )dv

et la densit´ e de probabilit´ e conditionnelle f (x/Y = y0 ) par

f (x/Y = y0 ) =

dF (x/Y = y0 ) dx

Si les deux v.a. sont ind´ependantes, alors on a F (x/Y = y0 ) = FX (x)

f (x/Y = y0 ) = fX (x)

2.5

Loi d’une fonction d’une ou plusieurs variables al´ eatoires

Dans la pratique, on est souvent amen´e ` a manipuler des variables al´eatoires qui sont des transformations ou des combinaisons de variables al´eatoires connues. C’est pourquoi on dispose de r`egles de passage d’une loi `a une autre, pour des transformations simples. 2.5.1

Transformation d’une variable al´ eatoire

Transformation d’une loi discr` ete Soit X une v.a. discr`ete de loi PX . Alors, la loi de la v.a. U = ψ(X) est d´efinie par : P (U = k) = P (ψ(X) = k) = P (X = ψ −1 (k)) = PX (ψ −1 (k))

II-3

o` u ψ −1 d´esigne la fonction r´eciproque de ψ. Transformation d’une loi continue Soit X une v.a. continue dont la loi admet la densit´e de probabilit´e fX et ψ une fonction monotone et d´erivable. Alors, la densit´e de la loi de la v.a. U = ψ(X) est d´efinie par : fU (u) = |(ψ −1 )0 (u)|fX (ψ −1 (u)) o` u ψ −1 d´esigne la fonction r´eciproque de ψ. On peut par ces propri´et´es montrer en particulier que la v.a. U = F (X) o` u F est la fonction de r´epartition de la loi de la v.a. X, suit une loi uniforme sur l’intervalle [0, 1]. Exemple : Soit U = ψ(X) = X 2 . On a ψ −1 (u) = la propri´et´e pr´ec´edente, on obtient

p

(u) et donc (ψ −1 )0 (u) = 12 u−1/2 . En application de

1 √ fX ( u) √ fU (u) = 2 u

2.5.2

Densit´ e de probabilit´ e d’une somme de V.A. ind´ ependantes

Soient X et Y deux v.a. continues de ddp f (x) et g(y). Si X et Y sont ind´ependantes, alors la densit´e de probabilit´e h(z) de la v.a. Z d´efinie par Z = X + Y est donn´ee par Z +∞

h(z) = f ? g(z) =

f (x)g(z − x)dx =

−∞

Z +∞

f (z − y)g(y)dy

−∞

Cette propri´et´e se g´en´eralise quel que soit le nombre de variables dans la somme. On peut aussi additionner des variables al´eatoires discr`etes. Soient X et Y deux v.a. discr`etes ` a valeurs dans DX et DY . La loi de S = X + Y est d´efinie par :

P (S = k) =

 P P   i∈DX P (X = i, S = k) = i∈DX ,k−i∈DY P (X = i, Y = k − i)

ou

  P

j∈DY

P (S = k, Y = j) =

P

j∈DY ,k−j∈DX

P (X = k − j, Y = j)

En particulier, si X et Y sont ind´ependantes, on a :

P (S = k) =

 P   i∈DX ,k−i∈DY P (X = i)P (Y = k − i)

ou

  P

j∈DY ,k−j∈DX

P (X = k − j)P (Y = j)

On peut aussi passer par les propri´et´es de l’op´erateur esp´erance math´ematique (voir section suivante).

2.6 2.6.1

Moyenne et esp´ erance math´ ematique d’une v.a. Notion de moyenne pour une v.a. discr` ete

Soit X une v.a. discr`ete prenant ses valeurs dans {x1 , . . . , xn } et dont les probabilit´es associ´ees sont P (X = xi ) = pi . Par d´efinition, on appelle moyenne th´ eorique ou esp´ erance math´ ematique de X, et l’on note Pn E(X), la valeur E(X) = i=1 xi pi . II-4

On ne connait cette v.a. que par le moyen d’un ´echantillon de taille N (dont on supposera qu’il est significatif par rapport au nombre de valeurs possible, n, de la v.a., i.e. N  n). Chaque ´ev`enement P X = xi se r´ealise ki fois dans l’´echantillon (N = i ki ). La moyenne exp´ erimentale est d´efinit par

1 N

Pn

i=1 ki xi

.

Si on admet que la proportion kNi tend vers la propabilit´e th´eorique pi pour un ´echantillon de taille infinie (N → ∞) alors on peut estimer la moyenne th´ eorique par la limite de la moyenne exp´erimentale. 2.6.2

Esp´ erance math´ ematique

Soit X une v.a. On d´efinit l’esp´ erance math´ ematique de X et l’on note E(X) la valeur E(X) =

R +∞ −∞

x dF(x) =

R +∞ −∞

x f (x) dx

o` u F est la fonction de r´epartition de X. Cette int´egrale est dite au sens de Stieljes. Soit X une v.a. d´efinie sur [a, b[. On peut discr´etiser la v.a. X en introduisant une nouvelle v.a. discr`ete Y en d´ecoupant l’intervalle [a, b] en n intervalles [xi−1 , xi ] tels que X ∈ [xi−1 , xi [→ Y = ξi , ξi ∈ [xi−1 , xi ] et donc P (Y = ξi ) = P (X ∈ [xi−1 , xi [) =

R xi xi−1

f (u)du = F (xi ) − F (xi−1 )

Grˆace `a un ´echantillon de taille N , on peut calculer une moyenne exp´erimentale de Y ( N1 ni=1 ξi ki ) P qui tend vers la moyenne th´eorique ni=1 ξi P (Y = ξi ) si N → ∞. Si de plus, on d´ecoupe en une infinit´e d’intervalles de la forme [xi−1 , x [ (n → ∞), alors on obtient la moyenne th´eorique de la v.a. X par Rb i Pn ξ |F (x ) − F (x )| → i i−1 i=1 i a xdF (x) = E(X) P

Remarque : L’esp´erance math´ematique n’est pas toujours d´efinie. C’est en particulier le cas de la loi de R +∞ 1 1 egrale −∞ dx diverge. Cauchy dont la ddp est donn´ee par f (x) = π(1+x 2 ) car l’int´ π(1+x2 ) Propri´et´es : Les propri´et´es de l’esp´erance math´ematique proviennent de celle de l’op´erateur int´egral et en particulier la lin´earit´e. Soit X une v.a. et a une constante. E(a) = a E(aX) = aE(X) E(X + a) = E(X) + a Soient X1 et X2 deux v.a. et a et b deux constantes. E(a1 X1 + a2 X2 ) = a1 E(X1 ) + a2 E(X2 ) Plus g´en´eralement, pour toute fonction h, positive, continue, `a support compact Z ∞

E[h(X)] = −∞

Z ∞

h(x)dFX (x) =

−∞

h(x)fX (x)dx

Exemple : Soient X et Y deux v.a. continues ind´ependantes de mˆeme loi f . On souhaite trouver la loi X de la variable al´eatoire U = X+Y . On a donc II-5

X E[h( )] = X +Y

Z Z

h( <2

x fX,Y (x, y)dxdy x+y

Les deux variables ´etant ind´ependantes, on a fX,Y (x, y) = fX (x)fY (y). Soit le changement de variables suivant :   x    u = x+y  x = uv y = v(1 − u) ⇔ v =x+y    (x, y) ∈ D ⊂ <2  (u, v) ∈ ∆ ⊂ <2 + + dont le jacobien est ∂x ∂(x, y) ∂u = j(u, v) = ∂(u, v) ∂y ∂u

v = ∂y −v ∂v

∂x ∂v

=v 1−u

u

Ce qui nous donne Z Z

E[h(U )] =

h(u)|j(u, v)|f (uv)f (v(1 − u))dudv =

<2

Z

h(u)fU (u)du

d’o` u l’on d´eduit la densit´e de probabilit´e fU Z

fU (u) =

vf (uv)f (v(1 − u))dv

<+

Supposons maintenant que ces deux variables al´eatoires suivent une loi exponentielle de param`etre λ = 1, f (x) = e−x . On a alors Z ∞

fU (u) =

ve−uv e−v(1−u) dv =

0

Z ∞

ve−v dv = 1

0

La v.a. U suit donc une loi uniforme. Comme on doit avoir uv > 0 et v(1 − u) > O, cela donne v > 0 et u ∈]0, 1[.

2.7

Moments

La notion de moment permet d’introduire celle d’indicateur r´esumant et/ou caract´erisant une variable al´eatoire. On y retrouvera la moyenne comme cas particulier. 2.7.1

D´ efinitions

Moment d’ordre n. On appelle moment d’ordre n de la v.a. X et l’on note αn la valeur αn = E(X n ) = R +∞ n −∞ x dF (x). Pour les v.a. discr`etes, cela donne : αn =

n i xi P (X

P

= xi )

Moment d’ordre n rapport´ e` a l’abscisse a. On appelle moment d’ordre n de la v.a. X rapport´e R +∞ n a` l’abscisse a , et l’on note αa,n , la valeur αa,n = E((X − a) ) = −∞ (x − a)n dF (x). Moment centr´ e d’ordre n. On appelle moment centr´e d’ordre n de la v.a. X et l’on note µn la R +∞ n valeur µn = E((X − E(X)) ) = −∞ (x − E(x))n dF (x). Le moment centr´e d’ordre n d’une v.a. est donc le moment d’ordre n de cette v.a. rapport´e `a l’abscisse particuli`ere qu’est sa moyenne (µn = αE[X],n ).

II-6

2.7.2

Quelques moments particuliers

• µ1 = E(X − E(X)) = E(X) − E(X) = 0 • α1 est la moyenne. • µ2 = α2 − α12 • µ2 est la variance (voir plus loin). Tr`es souvent, pour des raisons d’efficacit´e, les moments souhait´es, i.e. µk , sont calcul´es `a partir des moments simples, i.e. αk . En effet, le calcul d’un moment centr´e n´ecessite le calcul pr´ealable de l’esp´erance math´ematique, il y a donc 2 pas de calculs au lieu d’un seul pour les moments non centr´es. • µ3 = α3 − 3α1 α2 + 2α13 • µ4 = α4 − 4α1 α3 + 6α12 α2 − 3α14 µ2 , µ3 et µ4 sont utilis´es pour caract´eriser la forme d’une distribution. Pour cela, on construit des indicateurs sans dimension : Le coefficient d’asym´etrie (skewness) : γ1 =

µ3 3

. Ce coefficient est nul pour une distribution parfaite-

(µ2 ) 2

ment sym´etrique, inf´erieur ` a z´ero si la distribution est plus ´etendue vers la gauche (les valeurs inf´erieures `a la moyenne), et sup´erieur ` a z´ero dans le cas contraire. Le coefficient d’aplatissement (kurtosis) : γ2 = (µµ24)2 . γ2 est toujours sup´erieur `a 1. De plus, on a toujours γ2 ≥ 1 + (γ1 )2 . Plus que l’aplatissement, le coefficient γ2 mesure l’importance des “queues” de distribution. Cet indicateur vaut 3 dans le cas de la loi de Gauss (cf chapitre sur les principales lois de probabilit´e). Il est inf´erieur ` a 3 pour une distribution moins large que la loi de Gauss et sup´erieur ` a3 pour une distribution plus large. Remarque : Ces indicateurs ne sont utilisables, i.e. n’ont de sens, que dans le cas d’une distribution unimodale (un seul maximum). 2.7.3

Variance, covariance et ´ ecart-type

La variance est d´efinie par µ2 = E((X − E(X))2 ) = σ 2 = variance de X = V(X) = E(X2 ) − E(X)2 Elle traduit la dispersion de la distribution de la v.a. autour de sa valeur moyenne. Etant un carr´e, la dimension de la variance n’est pas celle de la moyenne. C’est pourquoi on utilise plus souvent l’´ ecart type, not´e σ, qui est la racine de la variance. On dit aussi que la variance traduit la notion d’incertitude. Plus la variance est faible, moins le r´esultat de l’exp´erience al´eatoire est incertain. A la limite, une v.a. de variance nulle conduit ` a des exp´eriences strictement identiques (i.e. le ph´enom`ene est compl`etement d´eterministe, il n’y a donc plus aucune raison de garder la notion de variable al´eatoire). La variance a ´egalement des propri´et´es int´eressantes vis `a vis de la combinaison lin´eaire de v.a. : Soient X1 et X2 deux v.a. V(X1 + X2 ) = V(X1 ) + V(X2 ) + 2cov(X1 , X2 ) o` u cov(X, Y ) est la covariance des v.a. X et Y d´efinie par : II-7

cov(X, Y ) = µ1,1 = E(XY ) − E(X)E(Y ) = E[(X − E(X))(Y − E(Y ))] La covariance peut ˆetre vue comme le moment centr´e conjoint d’ordre 1 de deux v.a. Si les deux v.a. sont ind´ependantes, alors leur covariance est nulle (mais la r´eciproque n’est pas vraie en g´en´eral). Par ailleurs, soit X une v.a. et a et b deux constantes. On a V(aX + b) = a2 V(X)

2.7.4

Variable centr´ ee r´ eduite

√ On appelle variable al´eatoire centr´ee r´eduite, une v.a. Y construite par : Y = X−E[X] . V [X]

C’est le moyen le plus classique pour normaliser une v.a. Par construction, on obtient E[Y ] = 0 et V [Y ] = 1. 2.7.5

Coefficient de corr´ elation

La relation entre deux v.a. peut ˆetre quantifi´ee par la covariance comme vue pr´ec´edemment. Cependant, `a l’image de la moyenne et de la variance, la covariance est un moment donc poss`ede une dimension ce qui la rend plus difficile ` a interpr´eter. C’est pourquoi on utilise plus g´en´eralement le coefficient de corr´ elation, indicateur sans dimension, d´efini par ρ(X, Y ) =

cov(X,Y ) σX σY

=√

µ1,1 µ2 (X) µ2 (Y )

Le coefficient de corr´elation mesure la qualit´e de la relation lin´eaire entre deux variables al´eatoires X et Y (i.e. de la forme Y = aX + b). On a les propri´et´es suivantes : • ∀X, Y : ρ(X, Y ) ∈ [−1, 1]. • Si X et Y sont ind´ependantes, alors ρ(X, Y ) = 0 (la r´eciproque n’est pas vraie en g´en´eral). • ∀X, Y ∀a1 , a2 , b1 , b2 ∈ < (a1 a2 6= 0) : ρ(a1 X + b1 , a2 Y + b2 ) = sign(a1 a2 )ρ(X, Y ) • Si il existe une relation lin´eaire entre X et Y alors ρ(X, Y ) = ±1. On peut r´e´ecrire la relation sur la variance d’une somme de v.a. corr´elation :

en utilisant le coefficient de

σ 2 (X1 + X2 ) = σ 2 (X1 ) + σ 2 (X2 ) + 2ρ(X1 , X2 )σ(X1 )σ(X2 ) Et en g´en´eralisant, on obtient i=n X

σ2(

i=1

Xi ) =

i=n X i=1

σ 2 (Xi ) + 2

i=n−1 X j=n X i=1

II-8

j>i

ρ(Xi , Xj )σ(Xi )σ(Xj )

2.7.6

Exemple

Soit X une v.a. continue et uniforme sur [− a2 , a2 ] (i.e. ´equiprobabilit´e de toutes les valeurs). L’uniformit´e de X conduit `a une densit´e de probabilit´e constante :

f (x) =

   0

1 a

  0

si x < − a2 si − a2 ≤ x ≤ si x > a2

a 2

Le calcul des moments donne : αn = E(X n ) =

a R +∞ n a n+1 1 R +2 n 1 − (− a2 )n+1 ] x dF (x) = a −∞ a − 2 x dF (x) = a(n+1) [( 2 )

donc α2p+1 = 0 et α2p =

1 2p+1

× ( a2 )2p

La moyenne (n = 1, p = 0) de X est donc nulle et la variance (n = 2, p = 1) est ´egale `a 2.7.7

a2 12 .

In´ egalit´ es de Bienaym´ e - Tchebyshev - Markov

In´ egalit´ e de Tchebyshev : P (g(X) ≥ k) ≤

E[g(X)] k

o` u k est un r´eel positif et g une fonction positive.

En posant, g(X) = X n , on obtient l’in´ egalit´ e de Markov : P (X n ≥ k n ) ≤

E(X n ) kn .

De mˆeme, si l’on pose g(X) = (X − E(X))2 et k = t2 σ 2 , on obtient l’in´ egalit´ e de Bienaym´ e1 Tchebyshev : P ((X − E(X)) ≥ tσ) ≤ t2 . Cette in´egalit´e est la plus connue des trois. Elle est valable quelle que soit la v.a. X, ce qui est une propri´et´e tr`es int´eressante. Malheureusement, elle n’a que peu d’applications pratiques car la majoration qu’elle fournit est la plupart du temps excessive.

II-9

2.8

Quelques lois de probabilit´ es

2.8.1

Les valeurs principales

Loi 0-1 Uniforme Binomiale G´eom´etrique

Type D D D D

Prob. ou ddp P (X = 0) = 1 − p et P (X = 1) = p P (X = x) = n1 , x ∈ [1, n] P (X = x) = Cnx px (1 − p)n−x pour x ∈ [0, n] P (X = x) = p(1 − p)x−1 pour x = 1, 2, . . .

Pascal

D

n−1 n P (X = x) = Cx−1 p (1 − p)x−n

Poisson

D

Uniforme

C

Gauss Cauchy

C C

Gamma

C

Exponentielle

C

Rayleigh

C

Laplace χ2

C C

Student Weibull

C C

e−λ λx pour λ > 0 et x = 1, 2, . . . x! 1 f (x) = b−a avec a ≤ x ≤ b (x−µ)2 1 f (x) = √2πσ e− 2σ2 pour x ∈ < f (x) = π(a2a+x2 ) k k−1 −λx f (x) = λ x Γ(k)e , x > O x f (x) = a1 e− a pour x > 0 et a > 0 x2 f (x) = σx2 e− 2σ2 pour x > 0 f (x) = a2 e−a|x| m x f (x) = m 1 m x 2 −1 e− 2 2 2 Γ( 2 )

Moyenne p

Variance p(1 − p)

n+1 2

n2 −1 12

np

np(1 − p)

1 p n p

1−p p2 n(1−p) p2

P (X = x) =

f (x) =

n+1 2



) nπΓ( n 2



2 1+ xn

(n+1)/2

f (x) = βxβ−1 e−x

β

λ

λ

a+b 2

(b−a)2 12

µ non d´efini

σ2 non d´efini

k λ

k λ2 a2

a σ

q

π 2

σ 2 (2 − π2 ) 2 a2

0 m 0 Γ(1 + β1 )

2m n n−2

; n>2

Γ(1 + β2 ) − E 2 (x)

Type : D ≡ loi discr`ete ; C ≡ loi continue. 2.8.2

Liaisons entre lois de probabilit´ es

Loi 0-1 : on appelle aussi cette loi, loi de Bernoulli. La v.a. associ´ee `a une telle loi est consid´er´ee comme la fonction indicatrice d’un ´ev`enement de probabilit´e p. C’est un cas particulier de la loi Binomiale. Loi binomiale : On obtient une v.a. de loi binomiale B(n, p) par une somme de n v.a. de loi 0-1 (p). En d’autres termes, la loi binomiale est la loi associ´ee `a n r´ep´etitions, dans des conditions identiques et ind´ependamment, d’une exp´erience al´eatoire dont l’issue est l’apparition ou la non apparition d’un ´ev`enement. La somme de deux lois binomiales de mˆeme param`etre est une loi binomiale. Loi g´ eom´ etrique : La loi g´eom´etrique est la loi du nombre d’essais n´ecessaires pour faire apparaˆıtre un ´ev`enement de probabilit´e p. Loi de Pascal d’ordre n : C’est la loi du nombre d’essais n´ecessaires pour observer exactement n fois un ´ev`enement de probabilit´e p. Cette loi est la somme de n lois g´eom´etriques ind´ependantes Loi de Poisson (magistrat fran¸cais du XIX`eme si`ecle) : On obtient une v.a. de loi de Poisson `a partir d’une v.a. de loi binomiale B(n, p) pour laquelle on a n → ∞ et p → 0 et np → λ 6= ∞. On peut aussi introduire la loi de Poisson par la notion de processus de Poisson. Soit un ph´enom`ene tel qu’un seul ´ev`enement puisse se produire ` a la fois (non simultan´e¨ıt´e des r´ealisations) et que le nombre d’´ev`enements se produisant pendant une p´eriode T ne d´epend que de la dur´ee de cette p´eriode. Supposons enfin l’ind´ependance des ´ev`enements. Soit E(N ) = cT l’esp´erance math´ematique d’un nombre N d’´ev`enements pendant la p´eriode de dur´ee T avec la cadence c. c d´esigne donc le nombre moyen d’´ev`enements par

II-10

unit´e de temps. nOn d´emontre alors que la probabilit´e d’obtenir n ´ev`enements pendant un temps T est P (N = n) = (cTn!) e−cT .

Figure 1: Densit´e de probabilit´e de la loi de Poisson de param`etre λ = 10. La somme de deux lois de Poisson de param`etres λ1 et λ2 est une loi de Poisson de param`etre λ1 + λ2 . Loi Normale ou loi de Gauss-Laplace : C’est incontestablement la loi la plus connue. On la doit `a Moivre qui, en 1738, a trouv´e cette loi comme limite de la loi binomiale. On utilisera la notation suivante : ℵ(moyenne, variance) = ℵ(µ, σ 2 ). On la retrouve comme mod`ele le plus courant pour les distributions d’erreurs de mesure autour d’une valeur “vraie”. Elle joue aussi un rˆole important en terme de comportement asymptotique des autres lois de probabilit´es, comme le montre le th´eor`eme central limite. Une propri´et´e int´eressante de cette loi est sa conservation vis `a vis de la combinaison lin´eaire : Soient {Xi } un ensemble de p v.a. normales de param`etres (µi , σi2 ) deux `a deux ind´ependantes, leur somme pond´er´ee par les coefficients αi est une v.a. normale de param`etres la somme pond´er´ee des P P param`etres ( αi µi , αi2 σi2 ) Loi exponentielle : Si Y suit une loi de Poisson, et traduit le nombre d’apparitions d’un certain ph´enom`ene al´eatoire dans un intervalle de temps t, alors la variable al´eatoire 1/Y repr´esente l’intervalle de temps s´eparant deux apparitions d’un ´ev`enement donn´e. Cette nouvelle variable suit une loi exponentielle de param`etre a o` u a est le param`etre de la loi de Poisson. En fiabilit´e, cette loi est tr`es utilis´ee pour repr´esenter la dur´ee de vie de circuits ´electroniques. L’esp´erance a est souvent appel´ee le MTBF (Mean Time Between Failure) et a1 le taux de d´efaillance. La loi exponentielle est un cas particulier de la loi Gamma pour k = 1. La loi exponentielle est souvent utilis´ee pour son caract`ere sans m´emoire. Soit X une variable al´eatoire suivant une loi exponentielle. Soient u et t deux r´eels strictement positifs, on a P (X > t + u|X > t) = P (X > u) Cela signifie que la probabilit´e d’ˆetre dans un intervalle [t, t + u] d´epend uniquement de la largeur de l’intervalle et pas de sa position absolue (d’o` u le vocable “d’effet sans m´emoire“). II-11

Figure 2: Densit´e de probabilit´e de la loi normale centr´ee r´eduite.

Figure 3: Densit´e de probabilit´e de la loi exponentielle de param`etre a = 3. Loi de Weibull : Cette loi est aussi tr`es utilis´ee pour caract´eriser la fiabilit´e des mat´eriels. Elle est reli´ee `a la loi exponentielle par la relation suivante : X suit une loi de Weibull de param`etre β si X β suit une loi exponentielle. On dit que β est le param`etre de forme : β > 1 correspond `a un mat´eriel qui se d´egrade avec le temps (usure); β < 1 ` a un mat´eriel qui se bonifie avec le temps; β = 1 (cas o` u la loi est exponentielle) `a un mat´eriel sans usure (pannes purement accidentelles).

II-12

Figure 4: Densit´e de probabilit´e de la loi de Weibull de param`etre β = 2. Loi Gamma : Soit une v.a. normale X de param`etres (µ, σ) et soit Y une v.a. construite par 2 Y = 12 (X−µ) . Y suit une loi Gamma de param`etres (λ, k) = ( 21 , 1). La distribution gamma est une σ2 g´en´eralisation de la loi exponentielle. En effet, si la loi exponentielle corrrespond `a la distribution de probabilit´e du temps s´eparant l’apparition de deux ´ev`enements donn´es, la loi gamma fournit la distribution de probabilit´e du temps qui s’´ecoule entre la K`eme et la (K+r)`eme apparition de l’´ev`enement. La loi gamma est appliqu´ee comme mod`ele de probabilit´e pour pr´evoir la dur´ee de vie des appareils qui subissent une usure tels les v´ehicules automobiles ou les appareils m´ecaniques. Loi du χ2 : Le param`etre m est le nombre de degr´es de libert´e de cette loi. Cette distribution permet P 2 u les x sont des v.a. normales centr´ de d´efinir la loi de la v.a. χ2m = m ees r´eduites ind´ependantes. i 1 xi o` Pour m tendant vers l’infini, cette loi tend asymptotiquement vers une loi normale. La somme de deux v.a. du χ2 `a respectivement a et b degr´es de libert´e, est une nouvelle v.a. de loi du χ2 `a a + b degr´es de libert´e. On peut aussi relier cette loi ` a la loi Gamma avec (k, λ) = (m/2, 1/2). q

Loi de Rayleigh : C’est la loi de la norme, i.e. R = x21 + x22 o` u x1 et x2 sont des v.a. normales centr´ees. C’est aussi la loi de la d´eriv´ee de la loi normale. La loi de Rayleigh apparaˆıt souvent pour d´ecrire le bruit en sortie de certains r´ecepteurs de transmissions. Loi de Student : Si X : ℵ[0, σ 2 ], et si Y (ind´ ependante de X) est telle que Y 2 /σ 2 suit une loi du χ2 √ X n `a n degr´es de libert´e, alors la variable T = Y suit une loi de Student `a n degr´es de libert´e. Cette loi sert essentiellement pour les tests statistiques d’hypoth`eses.

2.9

Quelques relations

En statistique, on est souvent amen´e ` a construire les variables al´eatoires suivantes :

II-13

¯ = 1 Pi=n Xi X i=1 n 1 Pi=n ¯ 2 S 2 = n−1 i=1 (Xi − X) √ X−µ ¯ T = n S Dans le cas, fr´equent, o` u l’on admet ou v´erifie, que les Xi sont des lois normales de mˆeme param`etrage (µ, σ), alors ¯ suit une loi normale ℵ(µ, √σ ). X n S 2 suit une loi du χ2 ` a n − 1 degr´es de libert´e. T suit une loi de Student n − 1 degr´es de libert´e. Par ailleurs, on sait que seules les affinit´es (et en particulier les sommes) conservent les lois normale, binomiale, uniforme et Gamma (` a param`etres entiers). Xi : B(ni , p) (Xi ) ind´ependantes P Y = ki=1 Xi Xi : P(λi ) (Xi ) ind´ependantes P Y = ki=1 Xi Xi : N (µi , σi2 ) (Xi ) ind´ependantes P Y = ki=1 ai Xi Xi : E(λ) (Xi ) ind´ependantes P Y = ki=1 ai Xi Xi : G(a, pi ) (Xi ) ind´ependantes P Y = ki=1 Xi Xi : χ2 (γi ) (Xi ) ind´ependantes P Y = ki=1 Xi

2.10 2.10.1

Pk

Y : B(

i=1 ni , p)

Pk

Y : P(

i=1 λi )

Pk

Y : N(

i=1 ai µi ,

Pk

2 2 i=1 ai σi )

Y : G(k, λ)

Y : G(a,

Pk

i=1 pi )

Pk

Y : χ2 (

i=1 γi )

Loi des grands nombres Convergence stochastique

On s’int´eresse `a la loi d’une suite de v.a. indentiques, et plus particuli`erement `a la convergence `a l’infini. Pour ´etudier cette convergence, il existe de nombreux outils dont nous r´esumons ici les principaux. Convergence en loi. Soit une suite de v.a. Xn de F.R. Fn (x), et soit X une v.a. de FR F (x). On dit que la suite Xn converge en loi vers la v.a. X ssi Fn (x) converge vers F (x). Convergence en probabilit´ e. On dit que la suite Xn converge en probabilit´e vers la v.a. X ssi ∀η,  (donn´es arbitrairement petits) ∃n0 tel que n > n0 ⇒ P (|Xn − X| > ) < η Cette d´efinition est une g´en´eralisation du th´eor`eme de Bernouilli (dans le cas o` u X est une constante). En cons´equence de ce th´eor`eme, on sait que dans une s´erie d’´epreuves ind´ependantes, la fr´equence relative de l’´ev`enement A converge en probabilit´e vers P(A) quand le nombre d’´epreuves croit ind´efiniment. II-14

Convergence en moyenne. On dit que la suite Xn converge en moyenne d’ordre p vers la v.a. X ssi E(|Xn − X|p ) → 0 pour n tendant vers l’infini. La plus utilis´ee de ces convergences est la convergence en moyenne quadratique (p = 2). La convergence moyenne d’ordre 2 implique la convergence en moyenne d’ordre 1 (ou convergence en moyenne) qui implique la convergence en probabilit´e qui implique la convergence en loi. Cette derni`ere est donc la convergence la plus stricte. Exemple : Th´eor`eme de De Moivre-Laplace : Soit Xn une suite de v.a. binomiales B(n, p). √Xn −np

np(1−p)

converge en loi vers une loi normale centr´ee r´eduite ℵ(0, 1). On admet g´en´eralement que cette convergence est bonne si np > 5 et n(1 − p) > 5. Par exemple, soit une v.a. X : B(40, 0.3). Le crit`ere est valid´e. Soit `a approximer la valeur de P (X = 11). La valeur exacte est 0.1319 d’apr`es les tables. D’apr`es le x+ 1 −np x− 1 −np
np(1−p)



Cette formule d’approximation avec une loi ℵ(12, 8.4) donne √ √ < N < 11.5−12 ) = P (−0.52 < N < −0.17) = P (0.17 < N < 0.52) = P (X = 11) ≈ P ( 10.5−12 8.4 8.4 0.6895 − 0.5675 = 0.131 Soit une erreur de moins de 1%.

2.10.2

Th´ eor` eme central limite

Le th´eor`eme central limite est l’un des r´esultats les plus importants de la th´eorie des probabilit´es. De fa¸con informelle, ce th´eor`eme donne une estimation tr`es pr´ecise de l’erreur que l’on commet en approchant l’esp´erance math´ematique par la moyenne arithm´etique. Ce ph´enom`ene a d’abord ´et´e observ´e par Gauss qui l’appelait loi des erreurs; mais ce dernier n’en a pas donn´e de d´emonstration rigoureuse. La preuve du th´eor`eme a ´et´e apport´ee part Moivre et Laplace; le th´eor`eme porte donc parfois leurs noms. Ce th´eor`eme est fondamental car il justifie toutes les approximations par la loi normale. Th´ eor` eme : Soit Xn une suite de v.a. de mˆeme loi d’esp´erance µ et d’´ecart type σ. Alors la v.a. converge en loi vers une v.a. normale centr´ee r´eduite ℵ(0, 1).

√1 ( X1 +X2 +...+Xn −nµ ) σ n

Exemples : La moyenne exp´erimentale ou arithm´etique ( X1 +X2n+...+Xn ) converge donc vers une loi normale de moyenne µ, la moyenne th´eorique, et d’´ecart-type √σn . eorique p et d’´ecart-type q Une proportion Fn tend vers une loi normale de moyenne la proportion th´ p(1−p) n .

Comme cas particulier de ce th´eor`eme, on retrouve ´egalement la convergence d’une suite de loi binomiale vers la loi normale (th´eor`eme de Bernoulli). Ce th´eor`eme justifie l’utilisation de la loi normale lorsqu’il y a r´ep´etition d’exp´eriences identiques. Par contre, ce th´eor`eme reste strict sur les conditions d’applications. On consid`ere souvent que ce th´eor`eme reste valable mˆeme si les distributions individuelles sont diff´erentes, pour autant que la variance de chacun des termes individuels soit n´egligeable vis-` a-vis de la variance de la somme. C’est en fait un th´eor`eme plus g´en´eral du `a Lindeberg. Th´ eor` eme : Soient X1 , X2 , . . . , Xn des v.a. ind´ependantes, pas forc´ement de mˆeme loi, centr´ees et de variance σi2 . Pi=n P 2 Soient Sn = i=1 Xi , s2n = i=n epartition de la v.a. Xi . Si la condition i=1 σi et Fi (x) la fonction de r´ suivante est r´ealis´ee

II-15

n Z 1 X X 2 dFi (x) s2n i=1 |Xi |>sn i

!

∀ > 0 lim

n→∞

=0

alors Sn L → ℵ(0, 1) sn i La condition de Lindeberg exprime que les v.a. XiS−µ sont “uniform´ement petites” avec une grande i probabilit´e. Le r´esultat veut dire qu’` a force d’ajouter de telles variables, on finit par obtenir une loi normale. Autrement dit, si une variable est la r´esultante d’un grand nombre de causes, petites, ` a effet additif, cette variable suit une loi normale. C’est `a cause de cette interpr´etation que la loi normale est tr`es souvent employ´ee comme mod`ele (malheureusement pas toujours `a raison).

Enfin, notons que ces th´eor`emes supposent l’existence des moments des v.a. On ne peut donc pas les utiliser par exemple pour des v.a. suivant une loi de Cauchy (dans ce cas particulier, la somme produit une v.a. qui a toujours une loi de Cauchy et cela quel que soit le nombre d’´el´ements dans la somme).

2.11

Simulation d’une variable al´ eatoire

Tr`es souvent en simulation, on est amen´e ` a utiliser des ´echantillons fictifs de r´ealisations d’une v.a. de loi d´etermin´ee. Nous abordons ici un ensemble de m´ethodes de construction de tels ´echantillons 2.11.1

M´ ethode g´ en´ erale par transformation inverse

Soit `a construire un ´echantillon de n r´ealisations d’une v.a. X de fonction de r´epartition F . Soit Y la v.a. d´efinie par Y = F (X). Cette v.a. suit une densit´e de probabilit´e uniform´ement distribu´ee sur l’intervalle [0, 1]. Sa fonction de r´epartition G est telle que G(y) = P [Y < y] = y. Soient y1 , . . . , yn un ´echantillon de taille n d’une v.a. uniform´ement distribu´ee sur [0, 1]. Les yi peuvent ˆetre consid´er´es comme des r´ealisations de la v.a. Y . Pour calculer les r´ealisations de xi , il suffira alors de calculer la valeur de xi qui correspond `a une valeur yi de sa fonction de r´epartition : X = F −1 (Y ) ⇒ xi = F −1 (yi ) 2.11.2

Loi uniforme

La construction d’un ´echantillon fictif d’une v.a. de loi quelconque n´ecessite en premier lieu la construction d’un ´echantillon fictif d’une v.a. uniforme entre 0 et 1. Pour une loi uniforme, on ne pourra donc pas se servir de la m´ethode g´en´erale. On utilisera alors soit des tables de nombres au hasard, soit des algorithmes de g´en´eration de nombres pseudo-al´eatoires (fonction random classique sur les machines par exemple). 2.11.3

Loi exponentielle x

x

f (x) = a1 e− a pour x > 0 et a > 0. On a le r´esultat suivant F (x) = 0x f (u)du = 1 − e− a . La m´ethode g´en´erale par transformation inverse nous donne x = F −1 (y). Si on remplace y par 1 − y (ce qui est x possible sans cons´equence car la distribution uniforme est sym´etrique), alors on obtient 1 − y = e− a . On a donc xi = −a Ln yi . R

II-16

2.11.4

Loi binomiale

f (k) = Cnk pk (1 − p)n−k . p et n doivent ˆetre connus. On pose alors k0 = 0 et on g´en`ere n nombres al´eatoires yi uniform´ement distribu´es et pour chaque yi , on fait le test si yi ≤ p alors faire ki = ki−1 + 1 si yi > p alors faire ki = ki−1 kn sera la valeur de la r´ealisation d’une v.a. binomiale de paramˆetres n et p. Cet algorithme utilise la propri´et´e qui relie la loi binomiale ` a la loi 0-1 (p). 2.11.5

Loi de Poisson k

f (k) = e−λ λk! . On utilise le fait que les intervalles de temps s´eparant deux ´ev`enements successifs suivant une loi de Poisson sont distribu´es exponentiellement. On g´en`ere donc les intervalles t1 . . . tn distribu´es suivant une loi exponentielle de moyenne 1. La r´ealisation k de la variable al´eatoire de Poisson de param`etre λ sera alors d´etermin´ee par l’in´egalit´e k X

ti < λ <

i=0

k+1 X

ti

i=0

avec ti = −Ln yi ( yi : v.a. uniforme [0,1] et ti v.a. exponentielle de moyenne 1). 2.11.6

Loi normale : ℵ(µ, σ 2 )

On utilise le th´eor`eme central limite. La distribution de la moyenne Y¯ d’une v.a. Y tend vers une loi normale lorsque la taille n de l’´echantillon est suffisamment grande, et ceci quelle que soit la distribution 1 de la v.a. YP . On peut donc prendre Y : v.a. uniforme sur [0,1]. Donc E(Y ) = 12 et V (Y ) = 12 . La v.a. d´efinie par

n i=1

y −n 2

√ ni

tend vers une loi normale centr´ee r´eduite.

12

Pour obtenir une ´echantillon de v.a. normale de moyenne µ et de variance σ 2 , on utilisera la relation r

xi = µ + σ

n 12 X n yi − n i=1 2

"

#

En pratique, on utilise n ≈ 100.

2.12

Autres indicateurs

Il existe d’autres indicateurs permettant de caract´eriser une v.a. Ils ne sont pas issus du calcul des moments. 2.12.1

Histogramme

L’histogramme est analogue ` a la courbe de densit´e. L’ordonn´ee associ´ee `a chaque abscisse est ´egal ` a la fr´equence d’apparition de la valeur dans l’´echantillon. Dans le cas d’une v.a. discr`ete, la construction de II-17

l’histogramme ne pose pas de probl`eme. Par contre, pour une v.a. continue, il est n´ecessaire de r´esumer les valeurs `a reporter sur la courbe en classes. La d´etermination du nombre de classes d’un histogramme est d´elicate et il n’existe aps de r`egle absolue. Un trop faible nombre de classes fait perdre de l’information et aboutit `a gommer les diff´erences pouvant exister entre des groupes de l’ensemble ´etudi´e. En revanche, un trop grand nombre de classes aboutit `a des graphiques incoh´erents o` u certaines classes deviennent vides ou presque car n, la taille de l’´echantillon, est fini. Sturges propose comme limite maximale du nombre de classes nc = [1 + Log2 (n)] o` u [ ] d´esigne la partie enti`ere. Ainsi pour 100 mesures, il ne faudrait pas construire d’histogrammes de plus de 7 classes. 2.12.2

M´ ediane

Par d´efinition, la m´ediane est la valeur correspondant au milieu de la fonction de r´epartition d’une v.a. Z x˜

x ˜ :

dF (x) = −∞

1 2

Si la loi de la v.a. est sym´etrique, alors la m´ediane est ´egale `a l’esp´erance math´ematique. la m´ediane n’est pas unique. C’est une indicateur insensible aux valeurs extr`emes ce qui en fait un outil tr`es int´eressant dans le domaine des statistiques robustes. Si l’on part d’un ´echantillon de n r´ealisations tri´ees par ordre croissant, la m´ediane sera obtenue par x +x x ˜ = x(n+1)/2 si n est impair. Si n est pair, on prend conventionnellement x ˜ = n/2 2 n/2+1 Exemple : La m´ediane de la s´erie {1, 3, 2, 19, 6, 7, 0} est 3 (la valeur 3 est la 4`eme dans la s´erie tri´ee ({0, 1, 2, 3, 6, 7, 19}) alors que la moyenne est 5.43. Lorsque l’on ne connait qu’une r´epartition en classes, on cherche la classe m´ediane [ei−1 , ei ] telle que F (ei−1 ) < 0.5 et F (ei ) > 0.5. On d´etermine alors x ˜ par une interpolation lin´eaire de la forme x ˜ = ei−1 + (ei − ei−1 )

2.12.3

0.5 − F (ei−1 ) F (ei )

Mode

Par d´efinition, le mode d’une v.a. est sa valeur la plus probable xmode : P (X = xmode ) = M axx P (X = x) Le mode n’est pas unique. Il n’est strictement d´efini que pour une v.a. discr`ete car pour toute v.a. continue, on a ∀ x P (X = x) = 0. Cependant, nous verrons dans le chapitre sur l’estimation qu’il est possible de trouver une valeur que l’on assimile au mode pour les v.a. continues. 2.12.4

Autres moyennes

Dans la pratique, il peut arriver que la nature des r´ealisations d’un ´echantillon ne soit pas adapt´ee ` a l’utilisation de la moyenne classique. Il existe d’autres possibilit´es II-18

• La moyenne g´eom´etrique : µg =

pQ n

i=1 xi

Qn n i=1 xi P • La moyenne harmonique : µh = n x i=1

i

Il est tr`es dur de connaˆıtre les lois de comportements de ces indicateurs particuliers. Il doivent donc ˆetre utilis´es avec pr´ecaution.

II-19

3

Estimation

On consid`ere g´en´eralement deux types d’estimation: l’estimation ponctuelle (on cherche `a estimer une valeur) et l’estimation par intervalle de confiance o` u l’on estime la probabilit´e que la valeur vraie d’un param`etre appartienne ` a un intervalle donn´e.

3.1

Estimation ponctuelle

3.1.1

Introduction

A partir de donn´ees d’´echantillons repr´esentatifs, on va induire des r´esultats sur la population-m`ere (i.e. population dans laquelle les ´echantillons ont ´et´e pr´elev´es). Plus exactement, soit θ un param`etre inconnu 1 intervenant dans la loi de probabilit´e d’une variable al´eatoire X. La loi de probabilit´e de cette variable al´eatoire doit ˆetre connue analytiquement (on choisit parmi les mod`eles existants la loi la plus appropri´ee au ph´enom`ene observ´e). Seule la valeur num´erique du param`etre θ intervenant dans cette loi de probabilit´e est inconnue. Soient x1 , . . . , xi , . . . , xn les n valeurs prises par la v.a. X dans un ´echantillon de taille n pr´elev´e dans la population-m`ere. On appelle estimateur de θ, et l’on note Tn , la fonction qui aux valeurs xi de l’´echantillon fait correspondre la valeur du param`etre θ. On note la valeur num´erique de cette estimation par θˆ = Tn (x1 , . . . , xn ) Par d´efinition, Tn est une fonction des r´ealisations d’une v.a., Tn est donc une v.a. dont on peut chercher `a d´eterminer les caract´eristiques (loi, ddp, FR, moments, . . . ). Exemple: On observe un ph´enom`ene de production de pi`eces manufactur´ees. Chaque pi`ece est associ´ee `a une mesure (un indicateur de qualit´e par exemple). Comme on ne peut pas v´erifier chaque mesure, on proc`ede `a un ´echantillonnage qui nous fournit donc un ´echantillon. Supposons que la connaissance de la nature de cet indicateur nous permet de faire l’hypoth`ese qu’il ob´eit `a une loi de probabilit´e normale. Le probl`eme est maintenant, au vue de l’´echantillon {xi }, de proposer une valeur pour la moyenne de cette loi normale. Il faut proc´eder ` a une estimation du param`etre vrai µ qui se traduit par la valeur µ ˆ. Il y a une infinit´e de mani`ere possible parmi lesquelles on peut citer •µ ˆ=

1 n

P

i xi

•µ ˆ =m´ediane{xi } •µ ˆ =mode{xi } •µ ˆ = x7 Quel est le meilleur estimateur de la moyenne ? Existe-t-il ? Sur ce simple exemple, est r´esum´e le probl`eme fondamental de l’estimation: quelle est la d´efinition math´ematique de meilleur? La r´eponse est simple, il n’en existe pas. Alors comment comparer les estimateurs. Pour cela, on se sert de plusieurs crit`eres, le plus souvent li´es au bon sens: 1

Dans la suite, nous consid`ererons que θ est un scalaire mais les raisonnements peuvent bien sˆ ur ˆetre ´etendus au cas de l’estimation d’un vecteur de param`etres, par exemple le vecteur (moyenne,variance) d´efinissant une loi normale.

III-1

le biais: On souhaite que l’estimation ne soit pas syst´ematiquement d´ecal´ee par rapport `a la valeur vraie. la pr´ ecision: Si l’on r´ep`ete l’estimation sur un autre ´echantillon, on souhaite obtenir une estimation coh´erente, donc peu de variation d’un ´echantillon `a l’autre. On parlera aussi d’efficacit´e. la convergence: Si l’on peut estimer la valeur du param`etre sur toute la population-m`ere, la valeur de l’estimation obtenue doit ˆetre la valeur vraie du param`etre. la compl´ exit´ e: Toute estimation n´ecessite un calcul donc un temps. On s’attachera donc `a ´evaluer la complexit´e du calcul en fonction de la taille des donn´ees (i.e. n). la robustesse: Dans tout cas concr`et, il existe des sources de perturbations. On souhaite que l’estimation ne soit pas sensible ` a la pr´esence de valeurs ab´erantes (outliers en anglais). Ces diff´erents crit`eres ne sont pas forc´ement compatibles entre eux, et l’on retrouve des dilemmes classiques, pr´ecision vs robustesse, convergence vs complexit´e. 3.1.2

Estimateur convergent

Un estimateur Tn est convergent si la valeur estim´ee tend en probabilit´e vers la valeur vraie du param`etre, soit: ∃n0 : ∀n > n0 ∀ξ, ν (arbitrairement petits) P (|Tn (x1 , . . . , xn ) − θ| < ξ) > 1 − ν Si l’estimation est exhaustive (l’´echantillon est ´egal `a la population-m`ere), alors la valeur vraie du param`etre est connue. 3.1.3

Estimateur sans biais

Un estimateur Tn est dit sans biais lorsque son esp´erance math´ematique est ´egale `a la valeur vraie du param`etre. E(Tn ) = θ Un estimateur Tn est dit asymptotiquement sans biais si le biais diminue si la taille de l’´echantillon augmente: lim E(Tn ) = θ n→∞

Exemples: ¯= • X : N (θ, 1): X • X : N (4, θ): S 2 = v.a.

1 n

P

1 n

xi est un estimateur convergent sans biais de la moyenne vraie de cette v.a. (xi − 4)2 est un estimateur convergent sans biais de la variance vraie de cette

P

¯ 2 est un estimateur convergent avec biais de • X : N (µ, θ) (µ est suppos´ee inconnue): S 2 = n1 (xi − X) la variance vraie de cette v.a. Cet estimateur est consid´er´e sans biais asymptotiquement. P

• X : N (µ, θ) (µ est suppos´ee inconnue): S 2 = de la variance vraie de cette v.a.

1 n−1

¯ 2 est un estimateur convergent sans biais (xi − X)

P

La diff´erence entre ces deux derniers exemples se limite au d´enominateur de la formule de calcul de S. Le deuxi`eme estimateur est sans biais car il prend en compte par le terme n − 1 le fait qu’il faut utiliser une estimation pr´ealable de la moyenne pour pouvoir faire l’estimation de la variance, i.e. il n’y a donc III-2

plus n donn´ees disponibles (ou degr´es de libert´es) mais n − 1. Cette appr´eciation intuitive peut bien sˆ ur ˆetre d´emontr´ee. P ¯ 2 un estimateur de la variance. On pose comme hypoth`ese que l’´echantillon Soit S 2 = n1 (xi − X) {xi } est constitu´e de n r´ealisations de V.A. ind´ependantes 2 `a 2 et de mˆeme nature que la V.A. X inconnue et dont on veut estimer la variance. Pour estimer le biais de S 2 , on calcule l’esp´erance math´ematique de l’estimateur  2 X X 1 1 X i − Xj  Vˆ [X] = n n j

o` u Xi est la V.A. associ´ee ` a la r´ealisation xi . 2



1X  1 X Xi − E[Vˆ [X]] = E[ Xj ] n n j Soit µ = E[X]. 2



1 X 1X E Vˆ [X] = E[ Xi − µ − (Xj − µ) ] n n j h

i

En posant Yi = Xi − µ, on obtient une V.A. centr´ee et de mˆeme variance que Xi . 2  1X   1 X Yi − Yj  E Vˆ [X] = E  

h



i

n

n

j

On simplifie l’´equation pr´ec´edente en tenant compte de la lin´earit´e de l’op´erateur esp´erance math´ematique.  2  1 X  1X   E  Yi − Yj  E Vˆ [X] = i

h

n

n

i

j





1X  2 2 X 1 X E Vˆ [X] = E Yi − Yi Yj + 2 ( Yj )2  n i n n j j h

i

E Vˆ [X] =

1X

h

i

n

h

i

E Yi2 −

i

2 X n2





E Yi

X

Yj  +

j

i

1 X n3



 X

E (

i

Yj )2 

j

  h i X h i XX XX 1 2 1 E Vˆ [X] = E Yi2 − 2 E [Yi Yj ] + 2 E  Yi Yj 

n

i

n

i

j

n

i

j

h i 1 X h 2i 1 XX E Vˆ [X] = E Yi − 2 E [Yi Yj ] n i n i j

Pour aller plus loin, on tient compte de quelques propri´et´es : • ∀i 6= j, E[Yi Yj ] = 0 car les V.A. sont ind´ependantes 2 `a 2. • V [Y ] = E[Y 2 ] car Y est centr´ee. • ∀i, V [Yi ] = V [Y ] d’apr`es la propri´et´e ´enonc´ee sur Xi et V [Y ] = V [X] par propri´et´e de la variance.

III-3

h i 1 X h 2i 1X V [Yi ] − 2 E Yi E Vˆ [X] = n i n i h i 1 n−1 n−1 E Vˆ [X] = V [Y ] − V [Y ] = V [Y ] = V [X] n n n

On constate bien un biais qui se traduit par le facteur n−1 n . Pour le compenser, on multiplie n ˆ l’estimateur V par n−1 et on obtient un nouvel estimateur sans biais (car E[aVˆ ] = aE[Vˆ ]) Vˆ [X] =

1 n−1

 X

xi −

i

n 1X

n

2

xj 

j

♦ En d´eveloppant cette formule, on obtient une forme plus efficace

Vˆ [X] =

3.1.4

X 1 X 2 1 xi − xi n−1 i n(n − 1) i

!2

Estimateur efficace

La variance d’un estimateur repr´esente sa pr´ecision. Pour tous les estimateurs (ayant mˆeme moyenne), il est possible de trouver celui dont la pr´ecision sera la meilleure, i.e. dont la variance sera la plus faible. On parle alors d’estimateur ` a variance minimum. Lorsque l’on compare deux estimateurs, on dira ´egalement que Tn est plus efficace que Tn∗ si V (Tn ) < V (Tn∗ ). Une estimation est li´ee ` a un ´echantillon de taille finie. Si la population-m`ere est de taille infinie, il n’est pas possible d’avoir acc`es ` a la valeur vraie θ. La pr´ecision que l’on pourra obtenir sur Tn ne pourra donc pas descendre en de¸ca d’une certaine limite (borne inf´erieure de la variance de l’estimateur ou Minimum Variance Bound (MVB)) qui est d´etermin´ee par l’in´ egalit´ e de Cramer-Rao:

V (Tn ) ≥

τ 0 (θ)2 I(θ)

o` u I(θ), appel´ee quantit´e d’information de l’´echantillon, est d´efinie par: "

I(θ) = E

∂LnL(X, θ) ∂θ

2 #

L(X, θ) est appel´ee fonction de vraisemblance et se calcule par: L(x1 , . . . , xn , θ) =

n Y

f (x1 , θ)f (x2 , θ) . . . f (xn , θ)

i=1

f d´esignant la ddp de la v.a. X et τ (θ) = E[Tn ] τ 0 (θ) = III-4

∂τ (θ) ∂θ

Si un estimateur atteint la limite inf´erieure, on parle alors de MVB estimateur. On d´emontre aussi que cet estimateur est obligatoirement convergent et sans biais. Remarque: La notion d’information a ´et´e propos´ee dans les ann´ees 20 par le chercheur anglais Ronald A. Fisher (consid´er´e comme le p`ere de la statistique math´ematique). La d´emarche de Fisher est la suivante: si l’on s’int´eresse aux caract´eristiques d’une population nombreuse (voire infinie, c’est le cas limite auquel on est en permanence ramen´e), on ne peut ni connaˆıtre ni traiter les informations trop abondantes relatives ` a chacun des individus qui la composent. Le probl`eme devient donc d’ˆetre capable de d´ecrire correctement la population au moyen d’indicateurs de synth`ese pouvant ˆetre fournis par des ´echantillons issus de la population ` a ´etudier. Plus les donn´ees chiffr´ees que l’on peut extraire d’un ´echantillon repr´esentent correctement la population de r´ef´erence et plus l’information contenue dans cet ´echantillon doit ˆetre consid´er´ee comme ´elev´ee. Partant de cette hypoth`ese, Fisher a d´efinie techniquement l’information comme la valeur moyenne du carr´e de la d´eriv´ee du logarithme de la loi de probabilit´e ´etudi´ee. La c´el`ebre in´egalit´e de Cramer permet alors de montrer que la valeur d’une telle information est proportionnelle `a la faible variabilit´e - c’est `a dire au fort degr´e de certitude - des conclusions qu’elle permet de tirer. Cette id´ee, qui est ` a la racine de toute la th´eorie de l’estimation et de l’inf´erence statistique, est exactement celle que l’on retrouvera vingt ans plus tard chez Shannon, exprim´ee cette fois en des termes non plus statistiques mais probabilistes. 3.1.5

Robustesse

Le terme “robuste” a ´et´e pour la premi`ere fois introduit en statistique par G.E.P. Box en 1953. Un estimateur est dit robuste si il est insensible `a des petits ´ecarts sur les hypoth`eses pour lesquelles il a ´et´e optimis´e. Il y a deux sens au terme “petit”: de petites variations sur toutes les donn´ees, ou des ´ecarts importants sur un petit nombre de donn´ees. C’est le deuxi`eme aspect qui est le plus mal pris en compte par les estimateurs classiques. Ainsi, la robustesse traduit le plus souvent la r´esistance de l’estimation aux donn´ees ab´erentes. On la d´efinit math´ematiquement par le plus petit nombre de donn´ees extr`emes qui modifie la valeur de l’estimation ramen´e ` a la taille de l’´echantillon. Consid´erons un ´echantillon constitu´e de n valeurs identiques a, auquel on ajoutera une perturbation sous la forme de valeurs extr`emes b  a. Pour estimer l’esp´erance math´ematique, on peut utiliser la moyenne arithm´etique qui donne bien sˆ ur a sur l’´echantillon. Cependant, cette estimation est modifi´ee d`es l’introduction d’une nouvelle valeur, b, sa robustesse est donc de n1 . Par contre, la m´ediane de cet ´echantillon n’est pas modifi´ee si l’on ajoute une valeur extr`eme. En fait, la m´ediane ne sera modifi´ee que si le nombre de valeurs extr`emes est sup´erieur au nombre de valeurs initiales. On en d´eduit que la n −1 robustesse de l’estimateur m´ediane est ´egale `a 2 n dont la valeur asymptotique est 21 .

3.2

M´ ethode du maximum de vraisemblance

Le crit`ere d’efficacit´e permet de comparer des estimateurs. On peut aussi s’en servir pour construire un estimateur. Soit X une variable al´eatoire de densit´e de probabilit´e f (x, θ) connue analytiquement mais dont l’un des param`etres θ est inconnu (num´eriquement). Le probl`eme consiste donc `a construire une expression analytique fonction des r´ealisations de cette variable dans un ´echantillon de taille n, permettant de trouver la valeur num´erique la plus vraisemblable pour le param`etre θ. Si {x1 , . . . , xn } sont des r´ealisations ind´ependantes de la v.a., on peut dire que

III-5

x1 X1  ..   ..  ~ ~x =  .  est une r´ealisation d’un vecteur al´eatoire X =  .  dont les composantes Xi sont xn Xn ind´ependantes deux ` a deux. 







L’approche retenue consiste ` a chercher la valeur de θ qui rend le plus probable les r´ealisations que l’on vient d’obtenir. La probabilit´e d’apparition a priori de l’´echantillon en question peut alors ˆetre caract´eris´ee par le produit des probabilit´es d’apparition de chacune des r´ealisations (puisque celles-ci sont suppos´ees ind´ependantes deux ` a deux). ~ = ~x) = P (X

n Y

f (xi , θ)

i=1

La m´ethode du maximum de vraisemblance consiste `a rechercher la valeur de θ qui rend cette probabilit´e maximale. Comme nous l’avons vu plus haut, le produit des valeurs f (xi , θ) est aussi not´e L(x1 , . . . , xn , θ) et appel´e fonction de vraisemblance. La valeur θˆ qui rend maximum la fonction de vraisemblance L est donc la solution de: ∂ 2 LnL ∂LnL = 0 ⇒ θˆ : <0 ∂θ ∂θ2 L’emploi du logarithme sur la fonction L permet de passer de la maximisation d’un produit `a celle d’une somme, le r´esultat restant le mˆeme car la fonction logarithme est monotone strictement croissante. Propri´ et´ es de la fonction de vraisemblance: •

R



R


L(~x, θ)d~x = 1


∂L(~ x,θ) x ∂θ d~

h

i

•E •E

∂LnL(~ x,θ) ∂θ



=0 =0

 ∂L(~ x,θ) 2 1 ∂θ L(~ x,θ)



= −E

h

∂ 2 LnL(~ x,θ) ∂θ2

i

Th´ eor` eme: Si il existe un estimateur efficace sans biais, il sera donn´e par la m´ethode du maximum de vraisemblance. Th´ eor` eme: L’estimateur efficace Tn existe si observations xi . On peut alors montrer que

∂L(~ x,θ) ∂θ

= A(θ)[Tn − τ (θ)] o` u A(θ) ne d´epend pas des

0 τ (θ) V [Tn ] = A(θ)

Cette approche est tr`es th´eorique mais poss`ede l’avantage d’ˆetre parfaitement formalis´ee. Exemple 1: Soit X une loi normale N (µ, σ) avec σ connu mais µ inconnue. L’objectif est de construire un estimateur de la valeur µ, ´etant donn´e un ´echantillon de r´ealisation ~x = (x1 , . . . , xn ). Pour cela, on part de la fonction de vraisemblance de cet ´echantillon: n Y

n Y

1 1 √ L(~x, µ) = f (xi , µ) = e− 2 2πσ i=1 i=1

L(~x, µ) = K

n Y − 12

e

i=1

III-6

xi −µ 2 σ



xi −µ 2 σ



n 1X xi − µ 2 i=1 σ



LnL(~x, µ) = K 0 −

2

 n  1X ˆ ∂LnL xi − µ =0 ⇒ µ ˆ: =0 ∂µ σ i=1 σ

µ ˆ=

n 1X xi n i=1

La moyenne arithm´etique est l’estimateur le plus efficace de l’esp´erance math´ematique dans le cas de la loi normale. Quel est le biais de cet estimateur ? ~ = µ ˆn (X)

n 1X Xi n i=1

o` u Xi est une v.a. N (µ, σ).

E[ˆ µ] = E[

n n 1X 1X Xi ] = E[Xi ] = µ n i=1 n i=1

de part la propri´et´e de lin´earit´e de l’op´erateur esp´erance math´ematique. L’estimateur est donc sans biais. ♦

3.3

Estimation par intervalle de confiance

Cette nouvelle approche est souvent pr´ef´er´ee dans la pratique car elle introduit la notion d’incertitude. On cherche `a d´eterminer l’intervalle [a, b] centr´e sur la valeur num´erique estim´ee du param`eter inconnu θ contenant la valeur vraie avec un probabilit´e α fix´ee a priori. Cette probabilit´e permet de s’adapter aux exigences de l’application. P [a < θ < b] = α L’intervalle [a, b] est appel´e intervalle de confiance et α est le coefficient de confiance. Une estimation par intervalle de confiance sera d’autant meilleure que l’intervalle sera petit pour un coefficient de confiance grand. La donn´ee de d´epart, outre l’´echantillon, sera la connaissance de la loi de probabilit´e du param`etre ` a estimer. Comme il n’existe pas de r´esolution g´en´erale de ce probl`eme, nous allons aborder successivement les cas les plus fr´equents (estimation d’une proportion, d’une moyenne, d’une variance de loi normale).

III-7

3.3.1

Estimation d’une proportion

Soit une population dont les individus poss`edent un caract`ere A avec une probabilit´e p (loi 0/1). On cherche `a d´eterminer cette probabilit´e inconnue en pr´elevant un ´echantillon de taille n dans cette population. On constate que x parmi les n individus poss`edent le caract`ere A. Que peut-on en d´eduire, i.e. la proportion fn = nx approxime la valeur vraie p, mais avec quelle confiance. Soit Fn = nx ; Fn est une v.a. construite par la somme de n variables al´eatoires 0/1 et de mˆeme param`etre, p. C’est donc, d’apr`es le th´eor`eme central limite, une eatoire dont la loi de probaq variable al´

bilit´e tend vers une loi normale de moyenne p et d’´ecart-type p(1−p) n . Cette approximation est valable uniquement si la taille de l’´echantillon est suffisamment grande (i.e. n > 30 en pratique). Construisons l’intervalle de confiance autour de p sous la forme: P (|fn − p| < t) = 1 − α o` u αq est le risque (a priori, on construit un intervalle sym´etrique). fn est une r´ealisation d’une v.a. N (p, p(1−p) n ). donc on peut par normalisation et centrage obtenir une nouvelle v.a. U fn − p u= q

p(1−p) n

: N (0, 1)

On en d´eduit donc l’intervalle de confiance sous la forme: 

s

P [a < θ < b] = P  fn − u

p(1 − p) < p < fn + u n

s



p(1 − p)  =1−α n

q

La valeur t = u p(1−p) est donc un r´esultat de calcul. La valeur de u sera lue sur une table de loi n normale N (0, 1). Il existe par ailleurs diff´erentes mani`eres pour approximer la valeur de p: • soit par la proportion fn : 

s

P [a < θ < b] = P  fn − u

fn (1 − fn ) < p < fn + u n

s



fn (1 − fn )  =1−α n

• soit par majoration: en effet, quelle que soit la valeur de p, le produit p(1 − p) est major´e par 14 . 

P [a < θ < b] = P

u u fn − √ < p < fn + √ 2 n 2 n



≥1−α

Exemple: Soit un ´echantillon de taille n = 100 et une proportion estim´ee fn = 0.6. Quelle est la confiance dans cette valeur ou bien quel intervalle donne une confiance de 0.9 (risque de 10%? r

t : P (0.6 − u

0.6 × 0.4 < p < 0.6 + u 100

r

p − 0.6 0.6 × 0.4 ) = P (−t < < t) = 0.9 100 0.049

Par lecture dans la table de la loi normale, on obtient P (X < u) = 0.95 → u = 1.645. L’intervalle ` a 90% de confiance autour de la proportion estim´ee est donc [0.5194; 0.6808]. ♦ III-8

3.3.2

Estimation d’une moyenne

Deux cas sont `a envisager: • La variable al´eatoire mesur´ee est normale et le nombre de r´ealisations est quelconque. • La variable al´eatoire mesur´ee n’est pas normale et le nombre de r´ealisations est sup´erieur `a 30 (dans ce cas, la distribution de la moyenne tend vers une loi normale d’apr`es le th´eor`eme central limite). Soit donc une v.a. X suivant une loi normale de moyenne µ inconnue et d’´ecart-type σ. On dispose d’un ´echantillon de n r´ealisations xi de cette v.a. Comme pr´ec´edemment, l’intervalle de confiance sur la moyenne est:   σ σ =α P [a < µ < b] = P m − t √ < µ < m + t √ n n o` u m est la moyenne arithm´etique calcul´ee `a partir de l’´echantillon. Pour aller plus loin, nous devons consid´erer deux cas 1- La variance σ 2 est connue. La valeur ole d’une constante dans la formule de l’intervalle de confiance et la nouvelle v.a. √ σ joue le rˆ n suit toujours une loi normale. La valeur de t est donc lue dans une table de la loi normale. Y = (m−µ) σ 2- La variance σ 2 est inconnue. Dans ce cas, σ joue le rˆ ole d’une v.a. Soit s2 l’estimation de σ 2 que l’on obtient par: s2 =

n 1 X (xi − m)2 n − 1 i=1 2

Comme X suit une loi normale, on sait que la quantit´e n Sσ2 suit une loi du χ2 `a n − 1 degr´es de libert´e. √

La nouvelle variable al´eatoire Y = L’intervalle de confiance est alors:

(M −µ) n S



P [a < µ < b] = P

suit donc une loi de Student `a n − 1 degr´es de libert´e.

s s m − t√ < µ < m + t√ n n





o` u t est lue dans une table de Student pour n − 1 degr´es de libert´e. A posteriori, on peut ˆetre int´eress´e par la taille minimale de l’´echantillon tel que l’intervalle de confiance, pour un coefficient de confiance α donn´e, soit tel que ses bornes inf´erieures et sup´erieures ne s’´ecartent pas de plus de k% de la valeur moyenne. On impose donc t √σn ≤ kµ, ce qui conduit `a n≥

t2 k2

 2

σ µ

On approche µ par m et σ par s si l’´ecart-type est inconnu. 3.3.3

Estimation d’une variance

Nous n’aborderons que le cas de l’estimation de la variance σ 2 d’une v.a. X normale de moyenne µ ` a partir d’un ´echantillon de n valeurs. III-9

Si µ est connue (tr`es rare), alors l’intervalle de confiance `a α% (risque) est d´efinit par 



nν  nν  ; 2 2 χ1− α (n) χ α (n) 2

2

avec ν = n1 (xi − µ)2 et o` u χ21− α (n) et χ2α (n) sont les quantiles d’ordre 1 − 2 2 degr´es de libert´e. P

α 2

et

α 2

de la loi du χ2 ` an

2

Si µ est inconnue. La quantit´e n Sσ2 d´efinie dans le paragraphe pr´ec´edent suit une loi du χ2 `a n − 1 degr´es de libert´e. L’intervalle de confiance ` a α% (risque) est d´efinit par 



ns2 ns2   ; χ21− α (n − 1) χ2α (n − 1) 2

2

o` u χ21− α (n − 1) et χ2α (n − 1) sont les quantiles d’ordre 1 − α2 et 2

2

α 2

de la loi du χ2 `a n − 1 degr´es de libert´e.

On obtient le r´esultat suivant : "

#

nS 2
2

i

(attention, α repr´esente ici la confiance) avec k lu sur une table du χ2 pour n − 1 degr´es de libert´e, d’o` u l’on tire : " # nS 2 2 P σ > =α k avec S 2 =

3.4

1 n

Pn

i=1 (xi

− m)2 .

Estimation robuste

Nous allons dans ce paragraphe reprendre le probl`eme de l’estimation au tout d´ebut afin de montrer qu’il est possible de d´eriver des estimateurs tr`es diff´erents de ceux que nous avons abord´es jusque l` a. Ces estimateurs rel`event du domaine que l’on nomme les statistiques robustes et dont Legendre (le cr´eateur de la m´ethode des moindres carr´es) a ´et´e le pr´ecurseur puisque parlant des ´ecarts entre les donn´ees et l’interpr´etation, il d´eclarait (en 1805 dans sa premi`ere publication sur les moindres carr´es): Si parmi ces erreurs, certaines apparaissent trop importantes pour ˆetre admises, alors les observations qui ont g´en´er´ees ces erreurs seront rejet´ees, comme provenant d’exp´eriences trop peu fiables, et les inconnues seront d´etermin´ees grˆ ace aux autres observations, qui de ce fait induiront moins d’erreurs. 3.4.1

Interpr´ etation de donn´ ees: l’approche bay´ esienne

Soient g un ensemble de donn´ees, i.e. un ´echantillon, et C un contexte (C englobera tout ce qui n’est pas directement en relation avec le processus sous-jacent aux donn´ees). Le probl`eme de l’estimation est un cas particulier d’un probl`eme plus g´en´eral qui est celui de l’interpr´etation des donn´ees. Soit i cette interpr´etation. Notre probl`eme est donc de d´eterminer i connaissant g et C. Une approche possible est de choisir l’interpr´ etation la plus probable. C’est `a dire chercher i qui maximise la probabilit´e conditionnelle P [i|g, C]. Cette probabilit´e n’est pas directement ´evaluable mais on peut se servir du th´eor`eme de Bayes. III-10

P [i, g, C] = P [i|g, C]P [g, C] = P [g|i, C]P [i, C] = P [g|i, C]P [i|C]P [C] d’o` u l’on d´eduit P [i|g, C] =

P [g|i,C]P [i|C]P [C] P [g,C]

La maximisation de cette expression se faisant sur l’interpr´etation i, on peut supprimer le d´enominateur et ne pas tenir compte de la probabilit´e du contexte P [C]. Si de plus on suppose que le contexte est ind´ependant des donn´ees, on trouve l’interpr´etation la plus probable en maximisant le produit P [g|i]P [i|C]. Dans cette expression, P [g|i] est la validation a posteriori des donn´ees par l’interpr´etation. P [i|C] est l’a priori, ind´ependant des donn´ees. Ce deuxi`eme terme traduit le biais qui fait que l’on ne part jamais avec tous les mod`eles ´equiprobables (soit parce que l’on tient compte de l’application sous-jacente, soit par habitude ou connaissance). 3.4.2

Le traitement de l’a priori

Malheureusement, on ne sait pas traduire l’a priori et donc sa probabilit´e, c’est pourquoi, on suppose toujours qu’il est soit n´egligeable soit qu’il contraint suffisamment l’application pour que toutes les interpr´etations possibles soient de la mˆeme cat´egorie. Prenons le cas de l’interpr´etation de donn´ees bruit´ees. Dans ce cas, on suppose que les donn´ees g sont des pr´el`evements d’un ph´enom`ene f perturb´e par un bruit additif b, ce qui nous donne g = f + b. Dans ce cas, la probabilit´e traduisant l’a priori s’´ecrit P [f, b|C]. Si le bruit n’est pas corr´el´e avec le ph´enom`ene f , on obtient en fait un produit de deux probabilit´es P [f |C]P [b|C]. La maximisation de ce produit ne conduit pas ` a une solution unique car les complexit´es de f et b s’´equilibrent. En effet, pour un jeu de donn´ees fix´e, plus le mod`ele sera d’ordre faible plus il faudra supposer un mod`ele de bruit complexe. A l’inverse, pour n donn´ees, on peut toujours envisager une forme polynomiale de degr´e n − 1 qui pr´edit exactement tous les points, et dans ce cas, le bruit b est nul, donc de complexit´e tr`es faible. Mais avons-nous l’habitude de manipuler des mod`eles d’ordre tr`es ´elev´e ? 3.4.3

Le traitement de l’a posteriori

L’a posteriori traduit l’´ecart entre les donn´ees et la pr´ediction faite par l’interpr´etation / mod`ele. Afin de formaliser cet ´ecart, il est n´ecessaire de faire des hypoth`eses sur la distribution des donn´ees et plus particuli`erement sur la distribution des ´ecarts entre les donn´ees et le mod`ele. Les hypoth`eses minimales sont g´en´eralement au nombre de trois. Soient gj une donn´ee de l’´echantillon et gˆj la pr´ediction du mod`ele. • Sym´etrie: P [gj − gˆj > 0] = P [gj − gˆj < 0] • D´ecroissance avec le module: P [|gj − gˆj |] d´ecroit quand |gj − gˆj | croit. • Ind´ependance des erreurs: P [g|i] =

Qn

j=1 P [gj

− gˆj ]

Pour aller plus loin, on suppose le plus souvent que la distribution des erreurs suit une loi normale de moyenne nulle (pas de biais) et d’´ecart-type σ. On peut donc construire la fonction de vraisemblance − 12

par L(i) = Ke

P

e2 j σ2

o` u ej = gj − gˆj . On peut alors en d´eduire un estimateur par la recherche du maximum de vraisemblance, ce qui conduit `a la m´ethode des moindres carr´es qui est abord´ee dans la suite de ce chapitre. III-11

Depuis l’origine des statistiques, les statisticiens ont toujours ador´e le fait que la distribution de la somme d’un tr`es grand nombre de petites variations al´eatoires converge toujours vers une distribution normale (cf Th´eor`eme central limite). Le principal probl`eme de ce choix est que la probabilit´e d’un ´ecart ´egal `a 20 fois σ est de l’ordre de 2 × 10−88 ce qui est beaucoup trop faible pour traduire la fr´equence d’apparition d’un ´ecart tr`es fort du `a une donn´ee ab´erente. De plus, dans le cas de la loi normale, 95% des ´ecarts doivent se trouver ` a au plus 2 fois l’´ecart type. On peut donc ˆetre amen´e ` a choisir des distributions dont la d´ecroissance est moins rapide. Par exemple, on peut utiliser la distribution de Cauchy, ou une distribution exponentielle. 3.4.4

Le cas monodimensionnel

Prenons le cas de l’estimation d’un param`etre repr´esentant un ´echantillon. Soit a ce param`etre. Si l’on fait l’hypoth`ese d’une distribution normale des ´ecarts, on aboutit `a l’estimateur moyenne. Par contre, si l’on suppose que la distribution est exponentielle (f (x) = Ke−|x| ), on aboutit `a un autre estimateur (toujours par la m´ethode du maximum de vraisemblance) tout aussi simple, la m´ediane. Ces deux estimateurs peuvent ˆetre compar´es grˆace aux indicateurs que nous avons ´evoqu´es au d´ebut de ce chapitre. Ils sont tous les deux convergents et sans biais. La complexit´e de la moyenne est de O(n) alors que celle de la m´ediane est de O(n log n) car il faut faire un tri des donn´ees, la moyenne est donc plus rapide `a calculer. Par contre, la robustesse de la moyenne est asymptotiquement nulle alors que celle de la m´ediane est asymptotiquement de 0.5 ce qui traduit une bien meilleure r´esistance au bruit, i.e. aux donn´ees ab´erentes. 3.4.5

Le cas g´ en´ eral

Reprenons le cas g´en´eral. On veut maximiser la probabilit´e P [g|i] = j`eme donn´ee et J la distribution des ´ecarts.

Qn

j=0 J(ej )

o` u ej est l’´ecart sur la

La maximisation de cette probabilit´e peut se r´e´ecrire sous la forme d’une minimisation d’une fonction de coˆ ut C(a) o` u a est le vecteur des param`etres du mod`ele / interpr´etation i. n X

gj − gˆ(j, a) C(a) = ρ σj j=1

!

avec ρ = log(J −1 ) et o` u σj traduit l’incertitude sur la j`eme donn´ee et permet de relativiser la valeur de chaque ´ecart. Soit ψ(x) = ´equations:

dρ dx (x).

La minimisation de C conduit `a r´esoudre le syst`eme de k (nombre de param`etres) n X 1 j=0

σj

ψ

gj − gˆ(j, a) σj

!

∂ˆ g (j, a) =0 ∂ak

Ce syst`eme n’a bien sur pas de solution g´en´erale et il convient de l’´etudier en fonction du choix de ρ, ce qui donne une classe d’estimateurs connus sous le nom de M-estimateurs. • Mod` ele de Legendre: C’est le cas le plus connu car il correspond `a l’hypoth`ese de normalit´e de la distribution des ´ecarts. On pose ρ(x) = x2 et ψ(x) = 2x III-12

• L-estimateur: Egalement tr`es utilis´e, cet estimateur utilise ρ(x) = |x| et donc ψ(x) = sgn(x) ce qui conduit ` a l’estimateur m´edian. • Mod` ele de Cauchy / Lorentz: Comme nous l’avons vu pr´ec´edemment, ce mod`ele permet de par la plus lente d´ecroissance de la loi de Cauchy, de mieux rendre compte des apparitions de donn´ees ab´erentes. ρ(x) = ln(1 + 12 x2 ) et ψ(x) = recours `a des r´esolutions it´eratives.

x . 1+ 21 x2

La syst`eme `a r´esoudre est alors non lin´eaire et il faut avoir

• Mod` ele de Huber: (

ρ(x) =

ψ(x) =

0.5x2 si |x| ≤ w w|x| − 0.5w2 sinon

   −w

x   w

si x < −w si |x| ≤ w si x > w

Dans ce mod`ele, on utilise un seuil w qui permet d’avoir `a la fois une d´ecroissance rapide (i.e. quadratique) si l’´ecart x est faible et de r´eduire la d´ecroissance (donc augmenter l’importance) des ´ecarts forts (au del`a du seuil). Il r´ealise un bon compromis entre le mod`ele de Legendre et celui du L-estimateur. • Mod` ele de Tuckey: Le mod`ele de Tuckey est du mˆeme type que celui de Hubert mais un peu plus complexe car il permet de s’affranchir de la sensibilit´e au choix du seuil w.       1 1 − 1 − x 2 3 si |x| ≤ cS 6 cS ρ(x) =  1

sinon

6

 



x 1− ψ(x) =  0

 2 x 2 cS

si |x| < cS sinon

La valeur cS est appel´ee point de rejet (rejection point) et joue le rˆole du seuil de Hubert. La valeur c est la constante de confiance est vaut 2.795 (cette valeur a ´et´e d´etermin´ee pour obtenir une bonne ad´equation ` a des ´ecarts distribu´es normalement). La valeur S est un facteur de dimension qui permet d’adapter le seuil ` a l’´etalement de la distribution des ´ecarts. On peut assimiler S `a un ´ecart-type et utiliser l’estimateur correspondant mais Tuckey propose un estimateur plus robuste, la m´ ediane des ´ ecarts absolus (Median of Absolute Deviation) qui vaut S = 1.4826 med (|ej − med(ej )|) On peut aussi d´eterminer le point de rejet en pourcentage du volume de donn´ees. Par exemple, on ellimine les α % plus grandes et plus petites valeurs des ´ecarts. Une valeur g´en´eralement recommand´ee est α = 15%. La m´ediane est le cas extr`eme de cet estimateur tronqu´e avec α = 50%. • R-estimateur (Jaeckel, 1972): Le R-estimateur est un cas particulier car il ne s’appuie plus sur des relations lin´eaires mais tient

III-13

compte essentiellement du classement des ´ecarts. La fonction de cout C est la suivante: C(a) =

X

a(Rj )ej

j

o` u R est le rang de l’´ecart ej dans la liste tri´ee des ´ecarts. La fonction a(Rj ) est normalis´ee telle que P j a(Rj ) = 0. Par exemple, Wilcoxon a propos´e la fonction suivante a(Rj ) = Rj − n+1 2 . Les tests de Kolmogorov-Smirnov et de Spearman sont d’autres exemples de R-estimateurs. • Le mod` ele L.M.S. (Least Median of Squares, Rousseeuw, 1984): Le vecteur de param`etres a est la solution de M ina med{e2j }. Si la robustesse de cet estimateur, n−p+2 egale ` a 12 , sa complexit´e est relativement ´elev´ee O(np+1 log n). 2n+1 , est asymptotiquement ´ 3.4.6

Estimation it´ erative

Tous les estimateurs que nous avons abord´es sont des m´ethodes directes, et, le plus souvent, il faut faire un compromis entre efficacit´e et faible complexit´e d’une part, et robustesse d’autre part. Pour cela on peut proc´eder en plusieurs ´etapes pour essayer de combiner tous les avantages. Dans un premier temps, un estimateur classique non robuste permet de quantifier l’ad´equation de chaque donn´ee au mod`ele, i.e. par l’´ecart. Chaque donn´ee est alors affect´ee d’un poids, le plus souvent inversement proportionnel `a l’´ecart. On peut alors it´erer le processus d’estimation. L’hypoth`ese sousjacente est qu’une donn´ee ab´erente aura un ´ecart initial fort et donc une ad´equation et un poids faibles. Il n’interviendra donc que tr`es peu dans la deuxi`eme phase d’estimation. Le processus peut ˆetre it´er´e jusqu’`a convergence de l’estimation. Prenons pour exemple l’estimation de l’esp´erance math´ematique par la moyenne arithm´etique `a partir d’un ´echantillon {xi , i = 1 . . . n}. On peut r´esumer le processus par l’algorithme suivant: 1. Premi`ere estimation (k = 1): mk =

1 n

Pi=n i=1

xi

2. Calcul des ´ecarts: ei = xi − mk 3. Calcul des poids: wi =

ψ(ei ) ei

(cf le chapitre pr´ec´edent pour diverses possibilit´es pour ψ).

Pi=n w i xi 4. Nouvelle estimation (it´eration k + 1): mk = Pi=1 i=n i=1

wi

5. test de convergence: Si non convergence (par exemple 2.

|mk −mk+1 | mk

>  et k < kmax ) alors retour au pas

Dans cet exemple, on augmente la robustesse au bruit avec comme coˆ ut une complexit´e un peu plus forte (O(kn) au lieu de O(n)). En pratique, on utilise peu d’it´erations car le processus a tendance ` a rejeter de nouveaux points (i.e. wi ≈ 0) ` a chaque it´eration. Le risque est donc non n´egligeable de voi le processus converger vers une estimation reposant sur tr`es peu de donn´ees (une seule r´ealisation ` a la limite). On peut, pour ´eviter cet ´ecueil, arr´eter le processus lorsque α% de la population initiale a un poids nul ou quasi-nul. Puisque l’objectif de l’it´eration est de recherche la robustesse, on fixe le plus souvent αmax = 50%.

3.5

R´ egression lin´ eaire

La r´egression lin´eaire est un cas particulier d’estimation tr`es usit´e car tr`es bien formalis´e et correspondant `a des mod`eles simples (car lin´eaires). C’est l’outil de base de la mod´elisation de donn´ees. Une approche III-14

tr`es g´en´erale de ce probl`eme est fournit dans le cours d’approche conceptuelle des syst`emes. Nous ne traiterons ici que de la facette statistique de ce probl`eme math´ematique. 3.5.1

Formalisation

Soit une fonction f de


C(a) =

n  X



ρ fˆ(~xj , a) − yj =

j=1

n X

ρ(ej )

j=1

(On supposera par simplicit´e que toutes les donn´ees ont la mˆeme incertitude, ce qui permet de ne pas faire intervenir les termes σj .) 3.5.2

R´ esolution dans le cas d’une distribution normale des ´ ecarts

Nous avons vu qu’il est n´ecessaire dans ce type de probl`eme de faire un choix sur la nature de la distribution des ´ecarts. Nous adopterons le choix classique de la distribution normale. Dans ce cas, nous avons vu que cela revient ` a utiliser ρ(x) = x2 . On obtient alors le syst`eme d’´equations lin´eaires suivant:

2

n X j=1

Soit

n  X

ej

∂ fˆ(~xj , a) = 0 k = 1, . . . , p ∂ak



fˆ(~xj , a) − yj xjk = 0 k = 1, . . . , p

j=1

n X

(xj1 xjk a1 + xj2 xjk a2 + . . . + xjp xjk ap ) =

j=1

n X

yj xjk

j=1

Ce syst`eme ´etant lin´eaire, il a une solution unique a ˆ sauf si le d´eterminant du syst`eme est nul. On peut montrer que ce cas intervient si il existe une relation lin´eaire d’ordre m < p entre les vecteurs ~xj . On dit alors que le syst`eme est surdimensionn´e et un traitement des donn´ees est n´ecessaire afin d’elliminer pr´ealablement cette d´ependance. La dimension du nouveau vecteur de param`etres recherch´e est alors de p − m. Le syst`eme `a r´esoudre est de plus sym´etrique. On peut donc faire appel `a des techniques sp´ecifiques telles que la d´ecomposition LU (m´ethode directe de complexit´e O(p3 )) ou les algorithmes Gauss-Seidel ou Jacobi (m´ethodes it´eratives de complexit´e O(bp2 ) o` u b est le nombre d’it´erations n´ecessaires ` a la convergence). Pour plus de d´etails sur ces techniques, r´ef´erez vous au cours d’analyse num´erique ou ` a tout bon livre sur la r´esolution de syst`emes lin´eaires. III-15

3.5.3

Le cas de la droite

Nous abordons ici le cas limit´e o` u le mod`ele est une droite. On parle aussi de regression lin´eaire simple. ˆ On a alors f (x) = y et f (x, a) = αx + β. Le syst`eme lin´eaire `a r´esoudre s’´ecrit:  P  P  P n n  x2j α + xj β = nj=1 xj yj j=1 j=1 P  P n  xj α + nβ = n yj j=1

j=1

Ce syst`eme a une solution unique si et seulement si n

P 2 P xj − ( xj )2 6= 0.

P P P  n xi yi −( xi )( yi )  P 2 P 2  a ˆ= P n2 P xi −(P xi ) P xi )( xi yi ) xi  ˆ Pyi −( P  b= n

x2i −(

xi ) 2

On peut consid´erer que les donn´ees {xj } constituent un ´echantillon d’une v.a. X que l’on peut ˆ caract´eriser par sa moyenne E[X] et sa variance Vˆ [X] estim´ees. La condition d’existence d’une solution 2 2 ˆ ˆ est donc E[X ] − E[X] = Vˆ [X] 6= 0 ce qui ´equivaut `a dire qu’il faut simplement que les donn´ees de l’´echantillon ne soient pas toutes identiques. Le syst`eme peut alors se r´e´ecrire sous la forme: (

ˆ 2 ] α + E[X] ˆ ˆ E[X β = E[XY ] ˆ ˆ E[X] α + β = E[Y ]

dont la solution analytique est:  ˆ ˆ ˆ ] ]−E[X] E[Y )   a ˆ = E[XY = Cov(X,Y 2 ˆ 2 ˆ ˆ E[X ]−E[X]

V [X]

ˆ ˆ 2 ]−E[X] ˆ ˆ E[XY ]  ˆ ]−a ˆ  ˆ = E[Y ˆE[X] b = E[Y ]E[X 2 ˆ 2 ]−E[X] ˆ E[X

Les v.a. X et Y sont reli´ees par ¯ X + ¯b o` ua ¯ et ¯b sont les valeurs vraies. On a vu dans p la relation Y = a 2 ce cas que Cov(X, Y ) = ρ(X, Y ) V [X] V [Y ] et V [Y ] = a ¯ V [X]. On peut donc relier la valeur estim´ee a ˆ `a la valeur vraie a ¯ par: s V [Y ] a ˆ = ρ(X, Y ) = ρ(X, Y ) |¯ a| V [X] L’estimation sera donc parfaite si les v.a. X et Y sont parfaitement corr´el´ees (i.e. ρ(X, Y ) = ±1). Plus cette corr´elation sera faible, moins bonne sera l’estimation. Le coefficient de corr´elation est donc un bon indicateur de la qualit´e de la r´egression lin´eaire simple. De mˆeme, pour le param`etre b, on sait que E[Y ] = a ¯ E[X] + ¯b. Donc, ˆb = a ˆ ˆ ˆ ¯ E[X] + ¯b − a ˆ E[X] = (1 − ρ(X, Y ))E[X]¯ a + ¯b L`a encore, l’estimation sera d’autant meilleure que la corr´elation sera proche de 1. Cependant, on ˆ constate que E[X] et a ¯ interviennent comme un gain sur l’erreur due `a la corr´elation non parfaite. ¯ L’estimation de b sera donc plus vite d´egrad´ee que celle de a ¯.

III-16

3.5.4

Intervalle de confiance sur le coefficient de corr´ elation

On peut d´eterminer un intervalle de confiance sur le coefficient de corr´elation r (afin de quantifier la qualit´e de la r´egression) grˆ ace ` a l’introduction de la transformation zr donn´ee par : 1+r 1 zr = log 2 1−r 

et r=



e2zr − 1 e2zr + 1

L’intervalle de confiance est d´efini par 

s

1 − α = confiance = P zr − zα/2

1 < ξ < zr + zα/2 n−3

s



1  = P (zinf < ξ < zsup ) n−3

avec P (Y < zα/2 ) = 1 − α/2 o` u Y est une loi normale centr´ee r´eduite. Grˆace `a la relation liant les variables z et r, on peut obtenir l’intervalle de confiance sur r. Exemple : Soit r = 0.54 obtenu sur un ´echantillon de taille n = 69. On souhaite construire l’intervalle de confiance `a 99% autour de cette valeur. On obtient successivement zr = 0.604. Dans la table de la loi normale, on lit z0.995 = 2.575 et donc P (0.293 < ξ < 0.927) = 0.99. Par inversion, on obtient l’intervalle de confiance sur l’estimation du coefficient de corr´elation : P (0.285 < ρ < 0.729) = 0.99.

3.6

Filtre de Kalman

Dans tous les probl`emes d’estimation que nous venons d’aborder, on suppose toujours connu et fixe un ´echantillon de donn´ees. L’estimation est un travail a posteriori `a partir de cet ´echantillon. Dans certains contextes (lorsque l’´echantillon est tr`es grand, ou qu’il correspond `a un ´echantillonnage continu donc sans fin r´eel) on peut ˆetre amen´e ` a estimer les param`etres sans attendre d’avoir la totalit´e de l’´echantillon. A chaque nouvelle donn´ee disponible, on cherchera donc `a mettre `a jour la valeur de l’estimation (il n’est bien sˆ ur pas question de recommencer l’estimation `a chaque fois, ce qui serait trop couteux). On parle alors d’estimation incr´ ementale. Nous aborderons dans ce chapitre la technique la plus classique qui r´ealise une r´egression lin´eaire incr´ementale, le filtre de Kalman. Soit (θ1 , S1 ) l’estimation initiale et son incertitude (θ ∈


partir de l’estimation calcul´ee sur les i premi`eres. Le terme yi+1 − Mi+1 θi traduit donc l’´ecart entre la pr´ediction et la donn´ee r´eelle. On peut aussi dire que cet ´ecart est l’innovation apport´ee par la nouvelle donn´ee. Cette innovation va servir ` a mettre a` jour l’estimation. Cette mise `a jour est une simple addition o` u l’on fait cependant intervenir un gain sur la partie innovation, la matrice K appel´ee gain de Kalman. Le gain de Kalman doit tenir compte des incertitudes relatives de l’estimation courante et de la donn´ee. Si l’incertitude de la donn´ee Wi est n´egligeable devant celle du mod`ele Si , on devra avoir un gain fort, i.e. la donn´ee est fiable. A l’inverse, si l’incertitude de la donn´ee est grande par rapport `a celle de l’estimation, le gain doit ˆetre tr`es faible, i.e. la donn´ee ´etant peu fiable, il est normal qu’elle ne modifie pas ou peu l’estimation courante. Ces remarques se traduisent par la relation suivante: t t K = Si Mi+1 (Wi+1 + Mi+1 Si Mi+1 )−1

L’emploi de la matrice M est rendu n´ecessaire par le fait que les matrices d’incertitudes ne sont pas de mˆeme rang. Il ne reste plus qu’` a mettre ` a jour l’incertitude de l’estimation qui tient compte de l’incertitude courante et du gain de Kalman par la relation: Si+1 = (I − KMi+1 )Si Prenons un exemple simple, p = n = 1 et Mi = 1 ∀i. On obtient les formules suivantes: θi+1 = θi + K(yi+1 − θi ) = (1 − K)θi + Kyi+1 2 S Wi+1 i 2 +S 2 Wi+1 i Si2 2 +S 2 Wi+1 i

Si+1 = K=

On peut montrer que l’estimation obtenue par ce processus apr`es m donn´ees est ´egale `a celle que l’on obtiendrait si l’on estimait directement le vecteur θ sur l’´echantillon de m donn´ees.

3.7

Estimation d’un mode

Nous avons vu dans un des chapitres introductifs que la notion de mode n’´etait d´efinie que pour les variables al´eatoires discr`etes. Il existe cependant une g´en´eralisation au v.a. continue. Rappel: xmode est le mode de la v.a. discr`ete X ssi P (X = xmode ) = M axx P (X = x). D´ efinition: Soit X une v.a. continue. On appele mode de X la valeur xmode qui satisfait `a xmode = avec

xsup − xinf 2

Z xsup

Z xi+T

f (x)dx = M axi xinf

f (x)dx xi

et T = sup − inf . Ce qui veut dire que xmode est le milieu de l’intervalle [xinf , xsup ] le plus dense dans la distribution des valeurs de X.

III-18

Comment peut-on estimer cette valeur a` partir d’un ´echantillon? On choisit dans un premier temps la valeur de T (le plus souvent, on fixe T = n2 ). On recherche ensuite l’intervalle le plus dense, i.e. M ini (xi+T −xi ), la liste des r´ealisations xi ´etant pr´ealablement tri´ee par valeurs croissantes. L’estimation finale du mode est obtenue conform´ement ` a la d´efinition, par le mileu de l’intervalle retenu. Les principaux inconv´enients de cette estimation sont la compl´exit´e O(nlogn) et surtout la tr`es forte d´ependance entre l’estimation et la valeur choisie a priori pour T . Afin de tester cette sensibilit´e, on peut bien sˆ ur faire varier l´eg`erement T (au prix d’une complexit´e accrue) et tester la variance de l’estimateur.

3.8

Estimation d’une densit´ e

Nous avons vu pr´ec´edemment que les tests d’ad´equation ne permettait que de valider ou non une hypoth`ese sur la nature d’une loi de probabilit´e en s’appuyant essentiellement sur une distribution empirique, c’est `a dire le plus souvent sur l’histogramme. Si il existe des r`egles simples sur la d´etermination du nombre de classes, il peut arriver que la nature de la loi soit difficile `a d´eduire a priori de la forme de l’histogramme. La th´eorie de l’estimation permet de proposer des solutions visant `a obtenir une bien meilleure approximation de la densit´e r´eelle ` a partir d’un histogramme. La premi`ere approche consiste ` a estimer la densit´e de la v.a. X en x par ni , le nombre d’occurences de r´ealisations xi appartenant ` a la i`eme classe associ´ee `a la valeur x. La densit´e est donc la mˆeme quelque soit la position de x entre les extr´emit´es de cette classe. Une premi`ere am´elioration consiste ` a utiliser une fenˆetre mobile. On construit autour de x une classe de longueur h: Ix = [x − h2 , x + h2 [, et on compte de nouveau le nombre d’occurences appartenant `a cette fenˆetre: fˆ(x) = Card{xi : x − h2 ≤ xi < x + h2 }. On peut ´egalement ´ecrire n 1X x − xi fˆ(x) = K( ) n i=1 h

o` u K est la fonction indicatrice de l’intervalle [−1/2, 1/2[: K(u) = 0 si u ≥ i − 21 ≤ u < 21 . K( x−x h ) vaut donc 1 si xi ∈ Ix .

1 2

ou u < − 21 , et K(u) = 1 si

Cette m´ethode donne une estimation peu r´eguli`ere. Si l’on veut une fonction lisse, il est alors possible de g´en´eraliser la formule pr´ec´edente en utilisant des noyaux, i.e. fonctions K, plus continus. En pratique, 2

on utilise souvent des noyaux sym´etriques et tr`es fr´equemment un noyau gaussien K(u) =   √ 3 u2 pour |u| < 5. parabolique K(u) = 4√ 1 − 5 5

u √1 e− 2 2π

ou

Ce dernier noyau est appel´e noyau d’Epanechnikov. Il a des propri´et´es math´ematique int´eressantes. La constante h est appel´ee constante de lissage. Son rˆole est d´eterminant, `a l’image de la largeur des classes de l’histogramme: si h est faible, fˆ sera tr`es peu r´eguli`ere, si h est grand, fˆ sera tr`es (trop) lisse. Bien que l’on sache que h doit ˆetre proportionnel `a n−1/5 , sa valeur optimale se d´etermine souvent empiriquement. Il n’est pas n´ecessaire que K soit une densit´e positive en tout point. On peut tout `a fait envisager d’utiliser des noyaux prenant des valeurs n´egatives, par exemple le noyau propos´e par M.Lejeune: K(u) =   105 2 2 1 − 3u2 pour |u| ≤ 1. 64 1 − u

III-19

4

Tests d’hypoth` ese

4.1 4.1.1

Introduction Hypoth` eses et erreurs

Une utilisation courante des statistiques est la notion de test. Un test est un m´ecanisme qui permet de trancher entre deux hypoth`eses au vu des r´esultats d’un ´echantillon. Dans les cas qui nous int´eressent, ces hypoth`eses porteront sur des estimations (valeur d’un moment, ´egalit´e de variances, nature d’une loi de probabilit´e . . . ). Soient H0 et H1 ces deux hypoth`eses, dont une et une seule est vraie. La d´ecision aboutira `a choisir H0 ou H1 . Il y a donc 4 cas possibles dont les probabilit´es sont r´esum´ees dans le tableau suivant:

H0 d´ecid´ee H1 d´ecid´ee

H0 vraie 1−α α

H1 vraie β 1−β

α et β sont les erreurs de premi` ere et deuxi` eme esp` ece: • α est la probabilit´e de d´ecider H1 alors que H0 est vraie. • β est la probabilit´e de d´ecider H0 alors que H1 est vraie. Ces deux erreurs sont antogonistes, plus α sera grand (resp. petit), plus β sera petit (resp. grand). Le fait d’imposer un α faible conduit ` a une r`egle de d´ecision plus stricte qui aboutit le plus souvent ` a n’abandonner l’hypoth`ese H0 que dans des cas rarissimes et donc `a conserver cette hypoth`ese quelque fois `a tort. Le compromis entre les valeurs de α et β est donc souhaitable bien que difficile `a r´ealiser. On appelle puissance d’un test la quantit´e 1 − β. Dans la pratique des tests statistiques, il est de r`egle de se fixer α comme donn´e (les valeurs les plus courantes sont 0.05, 0.01 ou 0.1) de pr´ef´erence en fonction du risque de premi`ere esp`ece. En effet, H0 joue le plus souvent un rˆ ole pr´edominant par rapport `a l’hypoth`ese H1 . Cela est la cons´equence du fait que H0 joue le rˆole d’hypoth`ese de r´ef´erence alors que H1 est souvent limit´ee `a l’hypoth`ese contraire. Par exemple, on peut avoir H0 : m = m0 ce qui est relativement facile `a tester et dans ce cas, H1 est tout simplement m 6= m0 . Cette pratique est li´ee au fait que l’´evaluation d’un test passe par l’´evaluation de fonctions complexes qui ont ´et´e tabul´ees pour de nombreuses valeurs de α mais ne sont pas connues ∀ α. On est donc amen´e `a choisir a priori α. Cependant, l’apparition de plus en plus fr´equente de processus num´eriques d’approximation rapides et pr´ecis permet une autre approche consistant `a rechercher la plus petite valeur de α pour laquelle l’hypoth`ese H0 reste vraie. 4.1.2

Tests bilat´ eral et unilat´ eral

Avant d’appliquer tout test statistique, il s’agit de bien d´efinir le probl`eme pos´e. En effet, selon les hypoth`ese formul´ees, on applique soit un test bilat´eral, soit un test unilat´eral. Un test bilat´eral s’applique quand on cherche une diff´erence entre deux estimations, ou entre une estimation et une valeur donn´ee sans se pr´eoccuper du signe ou du sens de la diff´erence. Dans ce cas, la zone de rejet (cf section suivante) de l’hypoth`ese principale se fait de part et d’autre de la distribution de r´ef´erence. IV-1

Un test unilat´eral s’applique quand on cherche `a savoir si une estimation est sup´erieure (ou inf´erieure) `a une autre ou `a une valeur donn´ee. La zone de rejet de l’hypoth`ese principale est situ´ee d’un seul cˆ ot´e de la distribution de probabilit´e de r´ef´erence. Certains test comme l’analyse de la variance ou le test du χ2 sont pratiquement toujours unilat´eraux. 4.1.3

R´ egion d’acceptation et r´ egion critique

Quelle est la d´emarche g´en´erale? α ´etant fix´e, il faut choisir une variable de d´ ecision, variable qui doit apporter de l’information sur le probl`eme pos´e, `a savoir le choix entre les deux hypoth`eses. La loi de cette variable doit ˆetre parfaitement connue dans au moins une hypoth`ese (le plus souvent H0 ) afin de ne pas introduire de nouvelles inconnues dans le probl`eme. On appelle alors r´ egion critique, et l’on note W , l’ensemble des valeurs de la variable de d´ecision qui conduisent `a ´ecarter H0 au profit de H1 . On peut relier W ` a α par P (W |H0 ) = α. On appelle r´ egion d’acceptation, et l’on note W la r´egion compl´ementaire de la r´egion critique. On a ´egalement des relations avec les erreurs de premi`ere et deuxi`eme esp`ece: P (W |H0 ) = 1 − α et P (W |H1 ) = 1 − β. La zone ou r´egion d’acceptation correspond `a l’intervalle dans lequel les diff´erences observ´ees entre les r´ealisations et la th´eorie sont attribuables aux fluctuations d’´echantillonnage. La r´egion critique ou zone de rejet correspond donc aux intervalles dans lesquels les diff´erences sont trop grandes pour ˆetre le fruit du hasard d’´echantillonnage. La construction d’un test est la d´etermination a priori de la r´egion critique sans connaitre le r´esultat de l’exp´erience. On peut donc r´esumer cette d´emarche de la mani`ere suivante: • Choix de H0 et H1 • D´etermination de la variable de d´ecision • Allure de la r´egion critique en fonction de H1 • Calcul de la r´egion critique en fonction de α • Calcul ´eventuel de la puissance du test 1 − β • Calcul exp´erimental de la variable de d´ecision • Conclusion du test: rejet ou acceptation de H0 4.1.4

Choix d’un test

Plusieurs tests de conception tr`es diff´erente sont souvent disponibles pour soumettre `a une ´epreuve de v´erit´e une hypoth`ese principale. Dans un tel cas, le test qui fournit l’erreur β la plus petite, pour une mˆeme valeur de α, est par d´efinition le plus puissant (celui ayant la plus grande valeur de la puissance de test 1 − β). En effet, il peut d´etecter les plus petites diff´erences entre les populations sans pour autant augmenter l’erreur de premi`ere esp`ece. La majorit´e des tests statistiques repose sur le respect d’un certain nombre de conditions. Selon le degr´e de respect de ces conditions d’application, la validit´e des r´esultats se trouve plus ou moins affect´ee et elle l’est d’autant plus que le test est moins robuste. Ainsi, la robustesse d’un test ´equivaut ` a sa tol´erance vis-`a-vis du respect des conditions. Si le statisticien dispose de plusieurs tests pour v´erifier une hypoth`ese, il choisira bien sˆ ur le plus puissant et le plus robuste.

IV-2

Les tests peu puissants augmentent la probabilit´e de commettre une erreur de deuxi`eme esp`ece. Or, cette erreur peut s’av´erer particuli`erement grave. En effet, en m´edecine par exemple, une analyse qui classerait comme malade un individu bien portant peut avoir des cons´equences aussi graves qu’une analyse qui classerait comme bien portants des individus malades (erreur de premi`ere esp`ece). Dans de tels cas, il y a int´erˆet ` a tracer la courbe de puissance du test, aussi appel´ee courbe caract´ eristique d’efficacit´ e qui indique la probabilit´e de prendre une bonne d´ecision si H1 est vraie. La puissance est mesur´ee par la valeur de 1 − β pour un α donn´e. 4.1.5

Influence de l’´ echantillonnage

Pour comparer les moyennes, les variances ou les autres param`etres estim´es de deux ´echantillons, il faut prendre en consid´eration la technique conduisant `a la constitution des deux ´echantillons. Si la s´election des ´el´ements est al´eatoire, et si le choix des ´el´ements du premier ´echantillon n’a aucune influence sur le choix des ´el´ements du second, les deux ´echantillons sont alors appel´es ind´ependants. Si l’on pr´el`eve al´eatoirement des paires d’´el´ements, et non les ´el´ements eux-mˆemes, on constitue deux ´echantillons appari´es. Dans ce cas, le premier ´el´ement de chaque paire appartient au premier ´echantillon et le deuxi`eme est affect´e au second. Parfois, la paire d´el´ements peut se rapporter au mˆeme individu sur lequel on mesure la mˆeme variable ` a deux occasions diff´erentes, par deux moyens diff´erents par exemple. La technique de l’´echantillonnage appari´e pr´esente l’avantage d’´eliminer un maximum de sources de variations non reli´ees au facteur que l’on ´etudie. En r`egele g´en´erale, plus les crit`eres d’appariement des donn´ees sont nombreux, plus grand sera cet avantage. Dans ce qui suit, nous allons aborder quelques tests classiques. Cette liste ne se veut pas exhaustive. Reportez-vous `a des ouvrages plus sp´ecialis´es pour une approche plus syst´ematique des tests statistiques.

4.2 4.2.1

Test entre deux hypoth` eses simples La m´ ethode de Neyman et Pearson

Soit X une v.a. de densit´e f (x, θ) o` u θ est un param`etre r´eel inconnu. L(x, θ) d´esignera la densit´e de l’´echantillon x. Un test entre deux hypoth`eses simples se traduit par: (

H0 : θ = θ 0 H1 : θ = θ 1

Supposons l’erreur de premi`ere esp`ece α connu. On a vu que l’on peut relier α `a une r´egion de l’espace
L(x, θ0 )dx W

On cherche par ailleurs le test le plus puissant, donc celui qui maximise: P (W |H1 ) = 1 − β =

Z

L(x, θ1 )dx W

La solution est donn´ee par le th´eor`eme de Neyman et Pearson.

IV-3

Th´ eor` eme: La r´egion critique optimale est d´efinie par l’ensemble des points x de kα L(x, θ0 ) En cons´equence de ce th´eor`eme, on peut montrer: • 1 − β > α (le test est alors dit sans biais). • si n → ∞ alors 1 − β → 1 (le test est convergent). 4.2.2

Test de la moyenne d’une loi normale d’´ ecart-type connu

Soit X une v.a. normale de moyenne m et d’´ecart-type σ connu. Au vu d’un ´echantillon de n r´ealisations ind´ependantes xi , on d´esire savoir si la moyenne m est ´egale `a m0 ou `a m1 , ce qui se r´esume par: (

H 0 : m = m0 H 1 : m = m1

Les fonctions de vraisemblance, ou densit´e, de l’´echantillon sont: 

L(x, m0 ) =



L(x, m1 ) =



1 2πσ

n 



1 2πσ

n 

e

e





1 2σ 2

P

1 2σ 2

P

i

i

(xi −m0 )2



(xi −m1 )2



La r´egion critique est d´efinie par le ratio de ces deux fonctions. En passant par un op´erateur logarithme, on obtient facilement: X

(xi − m1 )2 −

i

En posant: x ¯=

1 n

P

i xi ,

X

(xi − m0 )2 ≤ 2σ 2 Ln(k)

i

on obtient: 

m0 + m1 σ 2 Ln(k) x ¯− (m0 − m1 ) ≤ 2 n 

Si m0 < m1 , on aboutit ` a: x ¯≥

m0 + m1 σ2 − Ln(k) =λ 2 n(m1 − m0 )

La r´egion critique est donc d´efinie par l’in´egalit´e x ¯ ≥ λ qu’il faut maintenant d´eterminer. Pour cela, nous introduisons l’erreur α. Cette erreur est d´efinie par: α = P (H1 |H0 ). Nous d´ecidons H1 si x ¯ ≥ λ, donc α = P (X ≥ λ|H0 ) o` u X est la v.a. dont x ¯ est une r´ealisation. X ´etant une v.a. normale, la distribution de X est ´egalement normale de moyenne m et d’´ecart-type √σn . On a alors (la condition H0 ´etant vraie) α = P (X ≥ λ) avec X : ℵ[m, √σn ]. IV-4

α=P



X−m √0 σ/ n



√  (λ−m0 ) n σ

La quantit´e Y = 

α=P Y ≥

X−m √0 σ/ n

√  (λ−m0 ) n σ

suit une loi normale centr´ee r´eduite donc:

avec Y : ℵ[0, 1].

Si la ee, √ valeur de α est fix´ (λ−m0 ) n et donc celle de λ. σ

on peut par lecture dans une table de la loi normale, trouver la valeur de

La r`egle de d´ecision du test est donc: Si x ¯ > λ Alors d´ ecider H1 Sinon accepter H0 Par un raisonnement ´equivalent, on peut ´evaluer l’erreur de deuxi`eme esp`ece et donc la puissance du test. √ ! (λ − m1 ) n β = P (X < λ|H1 ) = P Y < σ avec Y =

4.2.3

X−m √1 σ/ n

v.a. normale centr´ee r´eduite.

Test de la moyenne d’une loi normale d’´ ecart-type inconnu

Le raisonnement pr´ec´edent s’applique jusqu’`a la d´etermination de λ.

α=P

√ ! X − m0 (λ − m0 ) n √ ≥ s/ n s

o` u s d´esigne l’estimation de l’´ecart-type inconnu σ. √ 0 ne suit plus une loi normale centr´ La quantit´e Y = X−m ee r´eduite car le d´enominateur n’est plus s/ n une constante mais une r´ealisation de l’estimateur de la variance de la variable X. s est obtenue par

s2 =

1 X (xi − x ¯)2 n−1 i

Par construction, S 2 suit une loi du χ2 . Y est donc une v.a. suivant une loi de Student `a n − 1 degr´es de libert´e. Ce qui nous donne: 

α=P Y ≥

√  (λ−m0 ) n σ

avec Y : Student(n-1).

L`a encore, il est possible grˆ ace ` a une table de la loi de Student de trouver la valeur du seuil et donc celle de λ. La r`egle de d´ecision est toujours la mˆeme. De mˆeme, par un raisonnement analogue, on acc`ede `a l’erreur de deuxi`eme esp`ece et `a la puissance du test.

β = P (X > λ|H1 ) = P avec Y =

X−m √ 1 s/ n

√ ! (λ − m1 ) n Y < s

v.a. de Student ` a n − 1 degr´es de libert´e.

IV-5

4.2.4

Test d’une variance de loi normale, la moyenne ´ etant connue

Soit X une v.a. normale de moyenne m connue. On suppose que l’´ecart-type inconnu ne peut prendre que deux valeurs σ0 et σ1 . Au vu d’un ´echantillon de n r´ealisations ind´ependantes xi , on d´esire savoir si la variance σ 2 est ´egale ` a σ02 ou ` a σ12 , ce qui se r´esume par: (

L’estimateur de la variance sera s2 =

H0 : σ = σ 0 H1 : σ = σ 1 1X (xi − m)2 n i

(On utilise 1/n et non pas 1/(n − 1) car la moyenne est connue.) Les fonctions de vraisemblance, ou densit´e, de l’´echantillon sont: 

L(x, σ0 ) =



L(x, σ1 ) =

1 √ 2πσ0

n

1 √ 2πσ1

n

h

e

h

e



1 2σ 2 0

P



1 2σ 2 1

P

(x −m)2 i i

i

(xi −m)2

i

i

La r´egion critique est d´efinie par le ratio de ces deux fonctions. En passant par un op´erateur logarithme, on obtient facilement: σ1 nLn σ0 



1 1 1X + (xi − m)2 − 2 2 2 i σ1 σ0 



≤ Ln(kα )

Dans le cas σ1 > σ0 , on obtient 2σ12 ns2 σ1 ≥ Ln(kα ) − nLn( ) 2 2 2 σ0 σ0 σ0 − σ1





La valeur de kα est d´etermin´ee ` a partir de l’erreur de premi`ere esp`ece. La quantit´e du χ2 `a n degr´es de libert´e. La valeur seuil sera donc lue dans une table du χ2n . 4.2.5

nS 2 σ02

suit une loi

Test d’une variance de loi normale, la moyenne ´ etant inconnue

Ce cas est plus fr´equent que le pr´ec´edent. Toujours grˆace au raisonnement induit par le th´eor`eme de Neyman et Pearson, on aboutit aux r´esultats suivants: 2

1 nS 2 2 a n−1 La variable de d´ecision est S 2 = n−1 i (Xi − X) qui est telle que σ 2 suit une loi du χ ` 2 degr´es de libert´e. La r´egion critique est d´efinie par S > k et k est d´etermin´e par

P

P (S 2 > k) = P (χ2n−1 >

nk )=α σ02

La r`egle de d´ecision du test est donc: Si S 2 > k Alors d´ ecider H1 Sinon accepter H0 IV-6

4.2.6

Test d’une proportion

Soit une population tr`es grande o` u la proportion d’individus poss´edant le caract`ere A est ´egale `a p. On pense que cette proportion ne peut avoir que deux valeurs p0 ou p1 . Au vu d’un ´echantillon de taille n, on d´esire prendre une d´ecision quant ` a la valeur de cette proportion, avec une signification α. A partir de l’´echantillon, l’estimateur de la proportion th´eorique sera la fr´equence empirique fn = o` u x est le nombre d’individus poss´edant le caract`ere A dans l’´echantillon.

x n

Les hypoth`eses sont donc (

H 0 : p = p0 H 1 : p = p1

La r`egle de d´ecision est donn´ee par (

si fn ≥ π alors H1 si fn < π alors H0

o` u π d´esigne la r´egion critique. fn est une r´ealisation d’une v.a. Fn dont la loi de probabilit´e peut ˆetre d´etermin´ee grˆace au th´eor`eme central limite. Si la taille de l’´echantillon est suffisamment grande (en q pratique, n > 30), on admet que la loi de Fn tend vers une loi normale de moyenne p et d’´ecart-type

p(1−p) n .

Ce qui nous conduit ` a

α = P (Fn ≥ π|H0 vraie) avec Fn : ℵ[p,

q

p(1−p) n ].

Sous l’hypoth`ese H0 , on obtient " √ # √ √ # (π − p0 ) n (Fn − p0 ) n (π − p0 ) n α=P p ≥p =P Y ≥ p p0 (1 − p0 ) p0 (1 − p0 ) p0 (1 − p0 ) "

√n −p0 ) o` u Y = (F



n p0 (1−p0 )

est une v.a. normale centr´ee r´eduite.

La valeur du seuil critique est lue dans une table de la loi normale. L’erreur de seconde esp`ece et la puissance du test sont donn´ees par: " √ # (π − p1 ) n β=P Y ≤ p p1 (1 − p1 ) √n −p1 ) o` u Y = (F



n p1 (1−p1 )

4.3 4.3.1

est une v.a. normale centr´ee r´eduite.

Test entre hypoth` eses compos´ ees Tests UMP

Dans un premier temps, consid´erons que la formulation g´en´erale reste la mˆeme pour l’hypoth`ese principale: H0 : θ = θ 0 IV-7

Par contre, l’hypoth`ese H1 est form´ee d’un ensemble d’hypoth`ese simples. H1 : θ ∈ Ξ avec θ0 6∈ Ξ Les exemples les plus courants sont: H1a : θ > θ0 H1b : θ < θ0

)

tests unilat´eraux.

H1c : θ 6= θ0 test bilat´eral. L’erreur de premi`ere esp`ece ´etant fix´ee, on pourra d´eterminer une r´egion critique W0,i associ´ee ` a chaque valeur θi de Ξ, et une valeur βi de l’erreur de seconde esp`ece. La courbe βi = g(θi ) pour toutes les valeurs θi de Ξ est appel´ee courbe d’efficacit´e. Le test est dit uniform´ ement le plus puissant (Uniformely Most Powerful) ou UMP si les r´egions critiques W0,i ne d´ependent pas des valeurs θi de Ξ. Th´ eor` eme: S’il existe un test UMP, la puissance de ce test est sup´erieure `a la puissance associ´ee ` a tout autre test. Plus g´en´eralement, H0 peut elle-mˆeme ˆetre compos´ee. α d´epend alors de θ selon les valeurs de θ ∈ Ξ0 . On devra donc exiger α(θ) ≤ α donn´e. Le th´eor`eme de Lehmann assure l’existence de tests UMP dans les cas suivants: (

H0 : θ < θ0 et H1 : θ ≥ θ 0

(

H0 : θ ≤ θ1 ou θ ≥ θ2 H1 : θ 1 < θ ≤ θ 2

Par contre, il n’existe pas de tests UMP pour les cas : H0 : θ1 ≤ θ ≤ θ2 contre H1 : θ > θ2 ou θ < θ1 , et a fortiori, H0 : θ = θ0 contre H1 : θ 6= θ0 . Nous allons maintenant introduire quelques exemples. Pour une liste plus exhaustive, reportez-vous `a la bibliographie. Les r`egles de d´ecision ne changent pas dans le principe. Il s’agit toujours de trouver une valeur seuil et de d´ecider H1 au del` a du seuil et H0 en de¸ca du seuil. 4.3.2

Test d’une moyenne de loi normale, l’´ ecart-type ´ etant connu

Test unilat´ eral Soit X une v.a. normale de moyenne m et de variance σ 2 connue. Au vu d’un ´echantillon de n r´ealisations ind´ependantes xi , on veut choisir entre les deux hypoth`eses: H 0 : m = m0 H1 : m < m 0 Comme toujours, l’erreur de premi`ere esp`ece α est fix´ee. Par ailleurs, la moyenne m sera estim´ee par la moyenne arithm´etique x ¯. La construction du test est similaire `a ce que nous avons vu pour le cas du test simple d’une moyenne. On aboutit ` a: √ √ # (λ − m0 ) n (X − m0 ) n α=P ≤ σ σ "

IV-8

avec X : ℵ[m0 , √σn ]. On remarque que la valeur du seuil de d´ecision λ est ind´ependante de la valeur de m sous l’hypoth`ese H1 . Il s’ensuit que le test est uniform´ement le plus puissant. √ 0 suit une loi normale (en effet σ est connue et joue donc le rˆ ole d’une constante) La variable Y = X−m σ/ n centr´ee et r´eduite. La valeur du seuil sera donc d´eduite d’une table de la loi normale. Il en est de mˆeme pour l’erreur de deuxi`eme esp`ece et pour la puissance du test.

Test bilat´ eral Soit X une v.a. normale de moyenne m et de variance σ 2 connue. Au vu d’un ´echantillon de n r´ealisations ind´ependantes xi , on veut choisir entre les deux hypoth`eses: H 0 : m = m0 H1 : m 6= m0 Comme toujours, l’erreur de premi`ere esp`ece α est fix´ee. Par ailleurs, la moyenne m sera estim´ee par la moyenne arithm´etique x ¯. La construction du test est obtenue en remarquant que l’hypoth`ese H1 peut se d´ecomposer en deux hypoth`eses ´el´ementaires: H10 : m < m0 H100 : m > m0 A chacune de ces deux hypoth`eses sera associ´e un seuil de d´ecision λ0 et λ00 . On peut conclure que le test ne sera pas UMP puisque le seuil de d´ecision λ d´epend du sens de l’in´egalit´e. La d´etermination des seuils est simple puisque les deux hypoth`eses H10 et H100 sont disjointes. On a α = P ((X ≥ λ00 ) ou (X ≤ λ0 )) = P (X ≥ λ00 ) + P (X ≤ λ0 ) = α00 + α0 Il en r´esulte une infinit´e de valeurs possibles pour λ0 et λ”. Cependant, la loi de X ´etant sym´etrique (loi normale), on prend g´en´eralement α00 = α0 = α2 ce qui conduit naturellement `a des valeurs de λ sym´etriques par rapport ` a m0 . Chaque cas est en fait une application du test pr´ec´edent mais pour une valeur moindre de α. " √ √ # α (X − m0 ) n (λ − m0 ) n =P Y = ≥ 2 σ σ

avec X : ℵ[m0 , σ] Y ℵ[0, 1]. La valeur du seuil est donc d´eduite d’une table de la loi normale. Il en est de mˆeme pour l’erreur de deuxi`eme esp`ece et pour la puissance du test. 4.3.3

Test d’une moyenne de loi normale, l’´ ecart-type ´ etant inconnu

Les deux tests, bilat´eral et unilat´eral, se construisent selon le mˆeme proc´ed´e. Les valeurs de d´ecision seront lues dans des tables de Student ` a n − 1 degr´es de libert´e. 4.3.4

Test d’une variance de loi normale, la moyenne ´ etant connue

Les deux tests, bilat´eral et unilat´eral, se construisent selon le mˆeme proc´ed´e. Les valeurs de d´ecision seront lues dans des tables du χ2 ` a n degr´es de libert´e. IV-9

4.3.5

Test d’une variance de loi normale, la moyenne ´ etant inconnue

Les deux tests, bilat´eral et unilat´eral, se construisent selon le mˆeme proc´ed´e. Les valeurs de d´ecision seront lues dans des tables du χ2 ` a n − 1 degr´es de libert´e. 4.3.6

Test d’une proportion

Les deux tests, bilat´eral et unilat´eral, se construisent selon le mˆeme proc´ed´e. Les valeurs de d´ecision seront lues dans des tables de loi normale. Dans le cas du test bilat´eral, on s’appuie sur le fait que la proportion empirique q Fn suit approxi-

mativement une loi normale de moyenne p, la proportion th´eorique, et d’´ecart-type critique du test est alors: s

|Fn − p| > uα/2

p(1−p) n .

La r´egion

p(1 − p) n

o` u uα/2 est lu dans une table de la loi normale N (0, 1). Exemple: Sur un ´echantillon de 200 individus d’une commune, 30% sont favorables `a l’implantation d’un centre commercial. Ceci contredit-il l’hypoth`ese selon laquelle un habitant sur trois y est favorable ? Cet ennonc´e conduit ` a la construction d’un test bilat´eral d’hypoth`eses de proportion: H0 : p = 0.33 H1 : p 6= 0.33 avec α = 0.05, on lit u = 1.96 d’o` u la r´egion d’acceptation: |Fn − 0.33| > 1.96 ¯ = [0.265, 0.395]. W

q

0.33×0.67 200

= 0.065 soit

Comme |fn − 0.33| = 0.03 < 0.065, on ne peut pas rejeter H0 au seuil α = 0.05.

4.4

Test de comparaison

Soient X1 et X2 deux variables al´eatoires d´efinies sur deux populations m`eres comparables (´eventuellement ´egales). La loi de X1 (resp. X2 ) d´epend d’un param`etre inconnu θ1 (resp. θ2 ). On souhaite tester l’hypoth`ese ”ces deux param`etres sont ´egaux” contre l’hypoth`ese compl´ementaire ”ces deux param`etres son diff´erents”, soit H0 : θ1 = θ2 contre H1 : θ1 6= θ2 Pour effectuer ce test, on dispose d’un ´echantillon de taille n1 (resp. n2 ) de X1 (resp. X2 ) permettant une estimation ponctuelle Tn1 (resp. Tn2 ) de θ1 (resp. θ2 ). On suppose de plus que les v.a. X1 et X2 sont normales ou approximativement normales. En supposant H0 vraie, on d´etermine un risque de premi`ere esp`ece α, une zone de rejet associ´ee ` a deux valeurs critiques c1 et c2 telles que

IV-10

P (Z < c1 ) = P (Z > c2 ) =

α 2

o` u Z est une fonction de Tn1 et Tn2 . Si Z appartient ` a la zone de rejet, on rejette H0 sinon, on accepte H0 au risque α. 4.4.1

Comparaison de deux moyennes

Soient X1 et X2 deux lois normales de moyennes µ1 et µ2 , et d’´ecart types σ1 et σ2 . On teste H0 : µ1 = µ2 contre H1 : µ1 6= µ2 au risque α On utilise le test de Student (dans sa version la plus g´en´erale). On dispose de deux ´echantillons de tailles n1 et n2 sur lesquels on peut faire des estimations de moyennes m1 et m2 et de d’´ecart types s1 et s2 . Si les ´ecart types σ1 et σ2 sont connus, on calcule m1 − m2 z=r σ12 σ22 n1 + n2 u la valeur t1− α2 est lue dans la table de la loi normale On rejette H0 au risque α si z 6∈ [−t1− α2 , t1− α2 ] o` centr´ee r´eduite. Si les ´ecart types σ1 et σ2 sont inconnus, il faut tenir compte de la taille des ´echantillons a) Si n1 et n2 sont tous les deux sup´erieurs `a 30, on calcule z=r

m1 − m2 s21 n1 −1

+

s22 n2 −1

On rejette H0 au risque α si z 6∈ [−t1− α2 , t1− α2 ] o` u la valeur t1− α2 est lue dans la table de la loi normale centr´ee r´eduite. b) Si n1 ou n2 est inf´erieur ` a 30 et σ1 = σ2 on calcule m1 − m2 z= q σ ˆ n11 + n12 o` u

s

σ ˆ=

n1 s21 + n2 s22 n1 + n2 − 2

On rejette H0 au risque α si z 6∈ [−t1− α2 ;n1 +n2 −2 , t1− α2 ;n1 +n2 −2 ] o` u la valeur t1− α2 ;n1 +n2 −2 est lue dans la table de Student ` a n1 + n2 − 2 degr´es de libert´e. c) Si n1 ou n2 est inf´erieur ` a 30 et σ1 6= σ2 on calcule z=r

m1 − m2 s21 n1 −1

+

IV-11

s22 n2 −1

On rejette H0 au risque α si z 6∈ [−t1− α2 ;ν , t1− α2 ;ν ] o` u la valeur t1− α2 ;ν est lue dans la table de Student a` ν degr´es de libert´e; ν est l’entier le plus proche de i2 s22 s21 + n1 −1 n2 −1 s42 s41 + (n −1)n 2 (n1 −1)n21 2 2 h

Le test de Student est assez robuste mais si l’on s’´eloigne trop des conditions de normalit´e, il est pr´ef´erable d’utiliser un test non param´etrique. 4.4.2

Comparaison de deux variances

Avec les mˆemes notations que pr´ec´edemment, on teste H0 : σ1 = σ2 contre H1 : σ1 6= σ2 au risque α On calcule sˆ21 =

n1 s21 n1 −1 ,

sˆ22 =

n2 s22 n2 −1

et z =

sˆ21 . sˆ22

On rejette H0 au risque α si z 6∈ [F α2 (n1 − 1, n2 − 1), F1− α2 (n1 − 1, n2 − 1)] o` u la valeur Fα est lue dans la table de Fisher-Sn´ed´ecor ` a n1 − 1 et n2 − 1 degr´es de libert´e. 1 F1− α (n1 −1,n2 −1)

Remarque : F α2 (n1 − 1, n2 − 1) = 4.4.3

2

Comparaison de deux proportions

Soit p1 (respectivement p2 ) la proportion d’individus d’une certaine modalit´e A dans la population m`ere M1 (resp. M2 ). On extrait un ´echantillon de taille n1 (resp. n2 ) dans la population M1 (resp. M2 ). On teste `a partir de ces ´echantillons, on dispose d’une estimation f1 (resp. f2 ) de p1 (resp. p2 ) qui suit une loi F1 (resp. F2 ). H0 : p1 = p2 contre H1 : p1 6= p2 au risque α. On suppose que n1 F1 et n2 F2 suivent approximativement des lois normales. On calcule pˆ =

n1 f1 +n2 f2 n1 +n2

puis z = q

f1 −f2

pˆ(1−ˆ p)( n1 + n1 ) 1

2

u la valeur t1− α2 est lue dans la table de la loi normale On rejette H0 au risque α si z 6∈ [−t1− α2 , t1− α2 ] o` centr´ee r´eduite.

4.5

Test du rapport des vraisemblances maximales

Ce test est fort utile l` a o` u les m´ethodes pr´ec´edentes ont echou´e. Test de H0 : θ = θ0 contre H1 : θ 6= θ0 o` u θ est un param`etre vectoriel de dimension p. On construit la quantit´e suivante: λ=

L(x, θ0 ) supθ L(x, θ) IV-12

On a donc 0 ≤ λ ≤ 1. λ est intuitivement une statistique convenable pour un test car plus il est fort, plus l’hypoth`ese H0 est vraisemblable. Cela revient `a remplacer dans H1 θ par son estimation θˆ par la m´ethode du maximum de vraisemblance. La r´egion critique du test sera donn´ee par : λ < K. Th´ eor` eme: La distribution de −2ln(λ) est asymptotiquement celle d’un χ2p dans l’hypoth`ese H0 . De ce th´eor`eme, on d´eduira le proc´ed´e d’estimation de la r´egion critique. On peut ´etendre cette approche au test entre deux hypoth`eses compos´ees. Il suffit de former la quantit´e suivante: supθ∈Ξ0 L(x, θ) λ= supθ∈Ξ1 L(x, θ) pour laquelle le th´eor`eme pr´ec´edent est toujours valable.

4.6

Test d’ad´ equation

Dans cette partie, on suppose que la loi de probabilit´e de la variable al´eatoire X, dont on dispose d’un ´echantillon, est inconnue. Une premi`ere remarque s’impose: les tests d’ad´ equation ne permettent pas de trouver la loi d’une v.a., mais seulement d’accepter ou de rejeter une hypoth` ese simple ´ emise a priori. Ainsi, il est n´ecessaire de faire une ´etude sommaire pr´ealable de l’´echantillon afin de formuler des hypoth`eses plausibles quant ` a la loi de probabilit´e de X: la v.a. X est-elle discr`ete ou continue? Est-elle d´efinie pout tout x, ou seulement pour x > 0? L’histogramme en fr´equence obtenu est-il sym´etrique par rapport `a la valeur moyenne? Existe-t-il une relation simple entre moyenne estim´ee et variance estim´ee? Les r´eponses ` a ces diff´erentes questions, de mˆeme que la nature de la variable repr´esent´ee par X permettent dans la plupart des cas d’´emettre une hypoth`ese plausible. 4.6.1

Test du χ2

Soit {x1 . . . xn } un ´echantillon de n r´ealisations ind´ependantes de la v.a. X. Soit L(x) la loi de distribution inconnue de X. L’hypoth`ese de d´epart sera que la loi de distribution est L∗ (x). Ceci permet de formuler le test: H0 : L(x) = L∗ (x) H1 : L(x) 6= L∗ (x) Les param`etres de L∗ seront soient connus soit estim´es. A partir de l’´echantillon, on construit un histogramme en fr´equence de k classes Ci . On note Oi le P nombre d’observations de X faites dans la classe Ci (avec bien sˆ ur i Oi = n). Si la v.a. suit la loi L∗ alors l’effectif th´eorique Ei de la classe Ci est donn´e par: Ei = np∗i o` u p∗i est la probabilit´e pour que la ∗ v.a. X suivant la loi L prenne une valeur sur le domaine d´efinissant la classe Ci . L’´ecart entre la r´ealit´e issue de l’´echantillon et la th´eorie issue de l’hypoth`ese H0 est mesur´ee par l’indicateur I=

k k X (np∗i − Oi )2 X Oi2 = −n np∗ np∗ i=1

i

i=1

i

Sous l’hypoth`ese H0 , on peut consid´erer que l’´ecart Ei −Oi entre distribution th´eorique et distribution empirique est distribu´e normalement. Dans ces conditions, I tend vers une loi du χ2 `a ν degr´es de libert´e (ν = nombre de classes - 1 - nombre de param`etres n´ecessaires `a la sp´ecification compl`ete de p∗i ). IV-13

La r´egion d’acceptation du test est l’intervalle (0, χ2ν,1−α ) tel que la probabilit´e d’une variable du χ2 `a ν degr´es de libert´e prenne une valeur dans cet intervalle soit ´egale `a 1 − α (α ´etant l’erreur de premi`ere esp`ece relative au test). Si la valeur de l’indicateur est sup´erieure `a χ2ν,1−α , alors on d´ecide l’hypoth`ese H1 . Il n’est gu`ere possible de d´eterminer l’erreur de deuxi`eme esp`ece (et donc la puissance du test), la loi de probabilit´e de X n’´etant pas sp´ecifi´ee sous l’hypoth`ese H1 . On ne peut donc pas d´eterminer la loi de probabilit´e de l’indicateur sous cette hypoth`ese. Pour que la loi (sous l’hypoth`ese H0 ) de l’indicateur d’´ecart tende effectivement vers une loi du χ2 , il est n´ ecessaire que l’effectif 0i d’une classe Ci soit en pratique sup´ erieur ` a 5. Dans le cas contraire, il faudra proc´eder ` a un regroupement des classes jusqu’`a ce que cette contrainte soit satisfaite. 4.6.2

Test de Kolmogorov

Soit {x1 . . . xn } un ´echantillon de n r´ealisations ind´ependantes de la v.a. X. Soit L(x) la loi de distribution inconnue de X. L’hypoth`ese de d´epart sera que la loi de distribution est L∗ (x). Ceci permet de formuler le test: H0 : L(x) = L∗ (x) ∀x H1 : ∃ x L(x) 6= L∗ (x) On suppose que tous les param`etres de la loi L∗ sont connus. Soit S(x) la fonction de r´epartition empirique al´eatoire `a partir de l’´echantillon. S(x) qui est l’histogramme cumul´e peut ˆetre consid´er´e comme une estimation de la fonction de r´epartition de L(x) not´ee FL . L’indicateur d’´ecart de ce test est la valeur absolue de la distance maximum entre S(x) et FL (x): I = maxx |FL (x) − S(x)| La valeur de α ´etant fix´ee, on acceptera l’hypoth`ese H0 si I < w1−α,n . Les valeurs w1−α,n sont lues sur les tables de Kolmogorov (il existe aussi des proc´edures num´eriques pour les estimer). 4.6.3

Test de Cramer-Von Mises

Soit {x1 . . . xn } un ´echantillon de n r´ealisations ind´ependantes de la v.a. X de fonction de r´epartition F inconnue. L’hypoth`ese de d´epart sera que la fonction de r´epartition est F ∗ (x). Ceci permet de formuler le test: H0 : F (x) = F ∗ (x) ∀x H1 : ∃ x F (x) 6= F ∗ (x) On suppose que tous les param`etres de la fonction F ∗ sont connus. L’indicateur d’´ecart de ce test est: Z +∞

I=

[F ∗ (x) − F (x)]2 dF (x)

−∞

La distribution de cet indicateur a ´et´e tabul´ee. On d´emontre que n X 1 2i − 1 + − F ∗ (xi ) 12n i=1 2n



I=

IV-14

2

o` u les valeurs de l’´echantillon sont ordonn´ees en ordre croissant. On rejette H0 si la valeur de cet indicateur est sup´erieure `a une valeur que la v.a. I a une probabilit´e α de d´epasser. Le test de Cramer-Von Mises a les mˆemes applications que le test de Kolmogorov. La diff´erence entre ces deux tests r´eside dans le fait que pour le test de Kolmogorov seul l’´ecart maximum entre la distribution empirique et la distribution d’ajustement entre en consid´erarion alors que l’indicateur d’´ecart du test de Cramer-Von Mises prend mieux en compte l’ensemble des donn´ees en ce sens que la somme des ´ecarts intervient. Le test de Kolmogorov est donc beaucoup plus sensible `a l’existence de points ab´erents dans un ´echantillon que le test de Cramer-Von Mises. On pense g´en´eralement que ce dernier test est plus puissant, mais cela n’a pas ´et´e d´emontr´e th´eoriquement.

4.7

Test d’ind´ ependance

Dans la plupart des tests que nous venons de pr´esenter, on suppose toujours les valeurs de l’´echantillon ind´ependantes. C’est une condition n´ecessaire. Il est donc souvent utile de v´erifier cette hypoth`ese par un test. 4.7.1

Test des diff´ erences premi` eres

Soit un ´echantillon de n valeurs xi successives d’une v.a. X. On d´esire tester l’ind´ependance des r´ealisations xi . Cette ind´ependance constitue l’hypoth`ese principale H0 . Le principe de ce test consiste ` a calculer les diff´erences successives xi − xi−1 , puis `a compter le nombre de diff´erences positives et n´egatives. Si H0 est vraie alors il doit y avoir autant de diff´erences positives que de diff´erences n´egatives. On construit donc la v.a. Y par yi = 1 si xi+1 − xi > 0 yi = 0 si xi+1 − xi < 0 A priori, on suppose qu’il n’y a pas de diff´erences nulles. On note S = premi`eres positives.

P

i Yi

le nombre de diff´erences

Sous l’hypoth`ese H0 , P (Yi = 0) = P (Yi = 1) = 12 . L’esp´erance math´ematique de la v.a. S est donc n+1 E(S) = n−1 2 et l’on peut montrer que sa variance vaut V (S) = 12 . Pour n suffisamment grand (en √ pratique, on fixe n > 12), la quantit´e S−E(S) est approximativement une loi normale centr´ee r´eduite. V (S)

Pour une erreur de premi`ere esp`ece α, on accepte l’hypoth`ese H0 si la quantit´e S − n−1 2 √



n+1

12

est inf´erieure `a la valeur K1− α2 lue dans une table de la loi normale. 4.7.2

Test de Spearman

Soit xi une r´ealisation de la v.a. X. Nous d´esirons savoir si les xi peuvent ˆetre consid´er´es comme des r´ealisations ind´ependantes les unes des autres. Pour cela, Spearman propose le raisonnement suivant: IV-15

si les r´ealisations sont ind´ependantes, l’´echantillon ne pr´esente pas de structure, i.e. d’ordre privil´egi´e. On testera donc la pr´esence de d´ependance en comparant l’ordre de l’´echantillon recueilli avec celui issu d’une proc´edure de tri. Cette comparaison se fait grˆace au coefficient de corr´elation. Sous l’hypoth`ese H0 d’ind´ependance, le coefficient de corr´elation doit ˆetre nul. Ce test est souvent utilis´e comme test de tendance de s´eries chronologiques. Soit R(xi ) le rang occup´e par la r´ealisations xi dans la s´erie ordonn´ee des xi (le rang initial ´etant bien sur i). On note ρS le coefficient de corr´elation de Spearman, donn´e par Cov(R(Xi ), i) ρS = p = V (R(Xi ))V (i) o` uT =

P

i [R(Xi )

P h i

ih

n+1 2 n(n2 −1) 12

R(Xi ) −

i−

n+1 2

i

=1−

6T n(n2 − 1)

− i]2 .

Soit rS la valeur prise par ρS pour l’´echantillon consid´er´e. La distribution de ρS sous l’hypoth`ese H0 est tabul´ ee. Cependant, pour un ´echantillon de grande taille (n > 30) on peut consid´erer que la quantit´e √ n − 1ρS est approximativement distribu´ee selon une loi normale centr´ee r´eduite. Si la quantit´e |rS | est inf´erieure au quantile α du coefficient de corr´elation de Spearman, alors on accepte l’hypoth`ese H0 , sinon il y a rejet. Si n > 30, on peut se servir des valeurs d’une table de la loi normale centr´ee r´eduite.

4.8

Test de comparaison d’´ echantillons

Toujours en consid´erant la propri´et´e d’ind´ependance, on va maintenant s’int´eresser au cas de la comparaison de deux ´echantillons, par le biais de param`etres estim´es (le plus souvent la moyenne et/ou la variance). L’hypoth`ese est : relativement ` a la variable ´etudi´ee, ces deux ´echantillons ont-ils ´et´e pr´elev´es ind´ependamment l’un de l’autre. Par soucis de simplicit´e de formulation des hypoth`eses, on retiendra, pour H0 , l’hypoth`ese n´egative qui se traduit par le fait que les variables observ´ees ne sont pas significativement diff´erentes. De plus, on supposera que les ´echantillons ont des tailles comparables. Des tests entre populations de tailles tr`es diff´erentes peuvent ˆetre trouv´es dans la litt´erature, et en particulier dans l’ouvrage de B.Scherrer (cf Bibliographie). 4.8.1

Test des variances de Fisher-Sn´ ed´ ecor

Ce test ne s’applique qu’au cas de deux ´echantillons gaussiens: X1 : ℵ[m1 , σ1 ] et X2 : ℵ[m2 , σ2 ] On choisit le plus souvent de tester les variances avant les moyennes. Ces derni`eres ne sont test´ees que si le premier test retient l’hypoth`ese de non ind´ependance. On construit les quantit´es

ni Si2 σi2

o` u Si2 est l’estimateur de la variance de la variable al´eatoire Xi . Cette

quantit´e suit une loi du χ2ni −1 . Sous l’hypoth`ese H0 d’´egalit´e des variances (σ1 = σ2 ), la quantit´e Fn1 −1;n2 −1 =

IV-16

n1 S12 n1 −1 n2 S22 n2 −1

suit une loi de Fisher-Sn´ed´ecor. En pratique, on met toujours au num´erateur la plus grande des deux quantit´es afin d’obtenir une variable de d´ecision dont la valeur est sup´erieure `a 1. La r´egion critique est de la forme F > k (avec donc k > 1). La valeur de k est reli´ee ` a l’erreur de premi`ere esp`ece et peut ˆetre lue dans une table de Fisher-Sn´ed´ecor. 4.8.2

Test de Student

Ce test s’applique ` a la comparaison de deux ´echantillons gaussiens de mˆeme variance. Il est donc souvent la suite logique du test de Fisher-Sn´ed´ecor. On dispose des donn´ees suivantes: • Les v.a.

ni Si2 σi2

suivent une loi du χ2 ` a ni − 1 degr´es de libert´e.

• La moyenne arithm´etique x ¯1 (resp. x ¯2 ) est une r´ealisation d’une v.a. X 1 (resp. X 2 ) suivant une loi normale de moyenne m1 (resp. m2 ) et d’´ecart-type √σn1 (resp. √σn2 ). • La quantit´e

n1 S12 +n2 S22 σ2

suit une loi du χ2 ` a n1 + n2 − 2 degr´es de libert´e.

• La v.a. X 1 − X 2 est une v.a. normale de moyenne m1 − m2 et d’´ecart-type σ

q

1 n1

+

1 n2 .

La variance σ ´etant inconnue, on construit une variable de Student d´efinie par X 1 −X q2 −(m1 −m2 ) σ

Tn1 +n2 −2 = r

1 + n1 n1 2

n1 S12 +n2 S22 σ 2 (n1 +n2 −2)

d’o` u l’on peut faire disparaˆıtre le param`etre inconnu σ X 1 − X 2 − (m1 − m2 ) √ Tn1 +n2 −2 = r n1 + n2 − 2  1 1 2 2 n1 + n2 (n1 S1 + n2 S2 ) Sous l’hypoth`ese H0 , la r´egion critique est de la forme |T | > k. Comme habituellement, la valeur seuil k est reli´ee `a l’erreur de premi`ere esp`ece et peut ˆetre trouv´ee dans une table de Student. Il faut noter pour finir que le test de Student est robuste car il s’applique ´egalement lorsque l’hypoth`ese d’´egalit´e des variances n’est plus valide. Il faut cependant pour cela que les tailles des ´echantillons soient grandes (quelques dizaines d’observations pour chaque ´echantillon). 4.8.3

Test de Spearman

On peut ici r´eutiliser le coefficient de corr´elation de Spearman qui va indiquer le degr´e de liaison existant entre le classement des ´el´ements d’un ´echantillon selon la variable x et le classement des mˆemes ´el´ements selon la variable y. Une forte valeur du coefficient de corr´elation de Spearman indiquera une liaison entre les deux variables (puisqu’induisant des classements lin´eairement li´es). Cette approche n’a de sens que si les ´echantillons des v.a. X et Y sont appari´es. Pour calculer le coefficient de corr´elation de Spearman, il s’agit de calculer le rang de chaque ´el´ement dans la s´erie croissante de valeurs de x et de y puis de calculer la diff´erence de classement di o` u i d´enote

IV-17

le i-`eme ´el´ement de l’´echantillon. L’indicateur de Spearman est donn´e par : rs = 1 − 6

Pi=n 2 d i=1

i

n(n2 − 1)

Il existe des versions plus sophistiqu´ees de cet indicateur qui tiennent compte des ex-aequos dans les classements (cette correction n’est n´ecessaire que si ce nombre d’ex aequos devient important). Sous l’hypoth`ese d’ind´ependance entre les deux variables, on peut montrer que E[Rs ] = 0 et V [Rs ] =

1 n−1

o` u Rs est la variable al´eatoire associ´ee ` a l’indicateur de Spearman. De plus, si l’effectif est grand (n ≥ 30), cette vatiable al´eatoire suit approximativement une loi normale. On peut donc construire un test sur la variable √ ZRs = Rs n − 1 qui suit une loi normale centr´ee r´eduite. On retrouve un test ´equivalent `a un test de moyenne de loi normale. Dans le cas d’un test bilat´eral, avec un risque de α, la r`egle de d´ecision est √ Si | n − 1rs | > zα/2 alors H1 sinon H0 et P (Y < zα/2 ) = 1 − α/2 o` u Y d´esigne la loi normale centr´ee r´eduite. Pour les petits ´echantillons, il est n´ecessaire d’avoir recours `a une table sp´ecifique de Spearman.

4.9

Analyse de la variance

L’analyse de la variance est un ensemble de techniques permettant de comparer plusieurs ´echantillons de donn´ees. Cette comparaison est le plus souvent limit´ee `a celle des moyennes dans un cas gaussien. On l’utilise ´egalement pour ´etudier l’effet d’un facteur qualitatif externe. Nous nous limiterons ici ` a une pr´esentation r´esum´ee dans le cas o` u il y a un seul facteur explicatif. 4.9.1

Les donn´ ees de l’analyse

Pour chaque r´ealisation Ai (i = 1 . . . k) d’un facteur explicatif A, on dispose d’un ´echantillon x1i , . . . , xni i P dont la moyenne est x ¯i . La taille totale de la population est donc n = i ni . On consid`ere que chaque ´echantillon est issu d’une v.a. Xi suivant une loi ℵ[mi , σi ]. En terme de test, nous avons donc H 0 : m1 = m2 = . . . = mk = m H1 : ∃i, j mi 6= mj On pose xji = mi + ji o` u ji est une perturbation dont la variation ob´eit `a une v.a. normale centr´ee et d’´ecart-type σ. On peut aussi adopter un mod`ele similaire mais plus g´en´eral de la forme xji = µ + αi + ji o` u µ est une valeur moyenne constante et αi l’effet du niveau i du facteur explicatif. Dans le cas o` u l’hypoth`ese H0 est rejet´ee, l’´etude se poursuit par l’estimation des valeurs moyennes mi (ou µ et αi selon le mod`ele utilis´e).

IV-18

4.9.2

Le test

On note X la moyenne totale que l’on obtient par n

X=

k X k i 1X 1X xji = ni X i n i=1 j=1 n i=1

La variance totale S 2 est estim´ee par n

S2 =

k X i 1X (xj − X)2 n i=1 j=1 i

On montre facilement que cette variance totale peut se d´ecomposer en la somme de la variance des 2 (aussi appel´ 2 (aussi appel´ moyennes, SA ee variance inter-classes) plus la moyenne des variances, SR ee variance intra-classes). n

2 2 S 2 = SA + SR =

k k X i 1X 1X (xj − X i )2 ni (X i − X)2 + n i=1 n i=1 j=1 i

2 repr´ 2 est elle consid´ La variance SA esente la variation du au facteur explicatif A, la variance SR er´ee comme la variabilit´e r´esiduelle.

On peut r´e´ecrire cette variance r´esiduelle en faisant intervenir les variances de chaque ´echantillon 2 = SR

k 1X 2 ni S i n i=1

n S2

Chaque quantit´e iσ i suit une loi du χ2 a` ni −1 degr´es de libert´e. Donc la quantit´e une loi du χ2 `a n − k degr´es de libert´e.

2 nSR σ

suit ´egalement

Sous l’hypoth`ese H0 , les v.a. Xi sont de mˆeme loi donc on a ´egalement le fait que la quantit´e suit une loi du χ2 ` a n − 1 degr´es de libert´e, et

2 nSA σ ,

nS 2 σ

une loi du χ2 `a k − 1 degr´es de libert´e.

On peut donc construire l’indicateur de notre test par F (k − 1, n − k) =

2 SA k−1 2 SR n−k

dont la loi est celle de Fisher-Sn´ed´ecor. Si la valeur de l’indicateur est sup´erieure `a la valeur critique d’une variable de Fisher-Sn´ed´ecor (pour une erreur de premi`ere esp`ece α), alors on conclut `a l’influence du facteur explicatif A, i.e. on rejete l’hypoth`ese H0 . 4.9.3

Analyse des contrastes

Le rejet de l’hypoth`ese H0 ne signifie pas que toutes les moyennes sont diff´erentes. Il est possible qu’un seul couple (mi , mj ) ne valide pas l’hypoth`ese. On est alors int´eress´e par une analyse plus fine des diff´erences mi − mj que l’on appele souvent contraste. IV-19

Une approche possible repose sur un r´esultat du `a Scheff´e: l’´ev`enement s

mi − mj − S σ ˆ

1 1 + ≤x ¯i − x ¯ j ≤ mi − mj + S σ ˆ ni nj

s

1 1 + ni nj

a lieu avec une probabilit´e 1 − α donn´ee par P (Fk−1;n−k ≤

S2 )=1−α k−1

o` uσ ˆ est le carr´e moyen r´esiduel que l’on peut estimer par la quantit´e s

σ ˆ=

2 nSR n−k

On peut montrer que l’hypoth`ese H0 a ´et´e rejet´ee si au moins un des contrastes est significativement diff´erent de 0. Le test de chaque contraste est donc s

si |¯ xi − x ¯j | > S σ ˆ

S sera estim´e par S =

p

1 1 + alors mi 6= mj ni nj

(k − 1)Fα (k − 1; n − k)

Attention, ce test est parall`ele, il n’y a donc pas n´ecessairement de transitivit´e des r´esultats. On peut donc tout `a fait avoir la configuration m1 = m2 et m2 = m3 et m1 6= m3 .

IV-20

5

Le Contrˆ ole Statistique de Process: SPC

5.1

Introduction

La notion de qualit´e est bien sˆ ur tr`es importante dans la production et les statistiques y contribuent en fournissant des outils de mesure mais aussi de d´ecision les plus objectifs possibles. Si l’on suit Montgomery, la qualit´e est inversement proportionnelle ` a la variabilit´e. L’accroissement de la qualit´e s’obtient donc par la r´eduction de cette variabilit´e. Celle-ci s’exprime bien en termes statistiques par le biais de la variance mˆeme si cela n’est pas suffisant. C’est pourquoi il existe de nombreux indicateurs. Afin de les utiliser au mieux il est n´ecessaire d’en bien connaˆıtre et comprendre les hypoth`eses sousjacentes. Dans un syst`eme de production quel qu’il soit (production de produits manufacturiers, de services ou d’information), la variabilit´e provient de l’absence de r´ep´etitivit´e parfaite. Les causes principales en sont l’usure des machines et des mat´eriaux, les op´erateurs, les m´ethodes de transformation et l’environnement. On consid`ere le plus souvent deux classes de variabilit´e • la variabilit´e inh´erente au processus (et peu modifiable) qui induit la notion de distribution des mesures (le plus souvent admise par les entreprises comme ´etant une distribution normale); • la variabilit´e externe qui induit le plus souvent un biais dans les distributions par rapport `a cette hypoth`ese de normalit´e. Le contrˆole statistique de process (SPC : Statistical Process Control) tente de mod´eliser ces causes et leurs effets. Il s’agit plus d’une m´ethodologie que d’une simple liste d’outils. Cette m´ethodologie est compos´ee de trois objectifs: 1. Process control qui tente de maintenir le processus sur sa cible en termes de positionnement nominal et de tol´erances. 2. Process capability qui tente de d´eterminer la variabilit´e inh´erente `a un processus pour ´etablir des sp´ecifications r´ealistes utilisables en particulier `a des fins de comparaisons. 3. Process change qui induit des modifications du processus dans un but d’am´elioration (c’est la partie action du SPC). Le SPC est associ´e ` a une grande liste d’outils dont les plus connus sont: • flowchart; • run charts; • pareto charts and analysis; • cause and effect diagrams; • frequency histograms; • control charts; • process capability studies; • acceptance sampling plans; V-1

• scatter diagrams. Tous ces outils utilisent des donn´ees de type ´echantillon et propose une visualisation (le plus souvent graphique) de la variabilit´e du processus ´etudi´e. Ce chapitre ne va ´evoquer que la notion de capabilit´e. La bibliographie contient les r´ef´erences principales introduisant tous ces outils.

5.2

Capabilit´ e d’un processus

Le contrˆole statistique de process permet de garantir par des outils statistiques que le processus est sous contrˆole. Il permet ainsi de garantir ` a tout moment des conditions de travail satisfaisantes. Il est bas´e sur une connaissance et un suivi du processus. Un processus est sous contrˆole s’il est statistiquement stable. Pour une fabrication comportant diff´erents process, l’´etude porte sur chacun des process pris s´eparemment, sur le principe d’´el´ements plac´es en s´erie. La mise en place de ce syst`eme de contrˆ ole requiert au pr´ealable: 1. Une ´etude de la capabilit´ e des diff´erents process sur lesquels se basent les contrˆoles. 2. La d´etermination de la loi de probabilit´e pour chaque processus. 3. La r´ealisation de cartes de contrˆ ole pour un suivi de l’´evolution du processus. 4. La d´etermination des r´eactions ` a adopter pour chacun des ph´enom`enes d´efaillants mis en ´evidence par les autocontrˆ oles. 5. Une formation sur les autocontrˆ oles pour les op´erateurs directement concern´es. 6. La mise en place d´efinitive des autocontrˆoles dans les ateliers. 5.2.1

Etude de la capabilit´ e des processus

Pour qu’un processus puisse ˆetre d´eclar´e sous contrˆole, il est indispensable de connaˆıtre sa capabilit´e et que cette valeur soit acceptable. Cet indicateur permet de d´eterminer si le processus est capable de produire dans l’intervalle de tol´erance requis. Les indicateurs de capabilit´e les plus courants sont: . Le CAP (coefficient d’aptitude process) est calcul´e `a partir d’un film de production • Cp = U SL−LSL 6σ tra¸cant l’´evolution de 50 ` a 100 valeurs mesur´ees de mani`ere cons´ecutive. Il repr´esente le rapport entre l’intervalle de tol´erance (U SL = Upper Specification Limit et LSL = Lower Specification Limit) et 6 fois l’´ecart type (σ) de l’´echantillon. • Cpk = min(U SL−µ,µ−LSL) o` u µ est l’esp´erance math´ematique de la distribution sousjacente (i.e. la 3σ valeur th´eorique). U SL−LSL • Cpm = √ 2 6

σ +(ξ−T )2

o` u ξ est la moyenne exp´erimentale et T la valeur nominale (sauf contrindication,

on prendra T = µ). • Cpmk =

min(U SL−ξ,ξ−LSL) √ . 3 σ 2 +(ξ−T )2

V-2

Dans la pratique, la valeur nominale T est le plus souvent la valeur de l’esp´erance math´ematique µ. Tous ces indicateurs ont ´et´e construits et tabul´es sous l’hypoth`ese de la loi normale pour la distribution sousjacente. Par exemple, pour implanter un contrˆ ole statistique, le coefficient Cp doit ˆetre ´egal ou sup´erieur ` a 1.33. Ce coefficient, tr`es utilis´e dans le monde industriel, est assuj´eti `a des hypoth`eses qui ne sont pas toujours v´erifi´ees. Tout d’abord, on ne compare que des ´ecarts `a la valeur moyenne sans tenir compte de la r´epartition de ces ´ecarts. On fait donc une hypoth`ese de sym´etrie de la distribution des mesures. Il faut donc, au moins par un trac´e, s’assurer de la validit´e de cette hypoth`ese. Ensuite, les valeurs de r´ef´erence (cf. tableau ci-dessous) sont obtenues dans le cas de la Loi normale et ne sont bien sˆ ur valables que dans ce contexte.

Capabilit´e < 0.67 0.67 1 1.33 1.67 2 >2

Classement Tr`es mauvaise Tr`es mauvaise Mauvaise Tr`es moyenne `a moyenne Moyenne `a bonne Bonne `a tr`es bonne Excellente

L’am´elioration de la capabilit´e peut donc ˆetre obtenue soit par une r´evision de l’intervalle de tol´erance dans le sens d’un ´elargissement, soit par la fiabilisation du process pour diminuer la dispersion sur les valeurs mesur´ees. L’importance des hypoth`eses peut ˆetre montr´ee sur le coefficient Cp . Lorsque celui-ci est faible, cela n’induit pas obligatoirement que la qualit´e du processus l’est ´egalement. En effet, cela peut provenir de la non ad´equation de l’hypoth`ese de normalit´e (ou au minimum de l’hypoth`ese de sym´etrie). Le raisonnement est ´egalement valable pour les fortes valeurs de Cp . En particulier, ce coefficient n’est pas adapt´e `a des distributions de type Gamma pourtant fr´equentes dans les cas r´eels (sauf si le coefficeint d’asym´etrie est proche de 0, i.e. la valeur de r´ef´erence de la loi normale). Un test d’ad´equation pr´ealable `a toute interpr´etation est donc requis. 5.2.2

Indicateurs g´ en´ eralis´ es

Compte tenu des limitations des indicateurs classiques de capabilit´e, des indicateurs g´en´eralis´es ont ´et´e propos´es. Ils permettent de prendre en compte la non normalit´e de la distribution. Cependant, ils sont moins connus et donc moins bien accept´es par le milieu professionnel. Soit un ´echantillon de valeurs {xi , i = 1 . . . n} tri´e en ordre croissant. Les indicateurs de Chang et Lu sont d´efinis par 0

U SL−LSL Up −Lp

• CpU =

0

U SL−m Up −m

0

m−LSL m−Lp

0

0

• Cp =

• CpL =

0

• Cpk = min(CpU , CpL )

V-3

0 • Cpm = r

6

U SL−LSL Up −Lp 6

2

+(m−T )2

0 min(U SL−T,T −LSL) • Cpmk = r 2 

3

Up −Lp 6

+(m−T )2

avec • m, la m´ediane qui remplace la moyenne (m = x n+1 si n est impair et m = 2

x n +1 +x n 2

2

2

si n est pair).

• Up et Lp sont les valeurs correspondant aux quantiles 99.865% de l’´echantillon, c’est `a dire Up = xku + (

99.865n + 0.135 − ku )(xku +1 − xku ) 100

Lp = xkl + (

99.865 + 0.135n − kl )(xkl +1 − xkl ) 100

avec ku = b 99.865n+0.135 c et kl = b 99.865+0.135n c (bc est l’op´erateur partie enti`ere). 100 100 Ces indicateurs donnent les mˆemes r´esultats que les pr´ec´edents en pr´esence de la loi normale et une meilleure appr´ehension lorsque celle-ci n’est pas v´erifi´ee. En effet, la valeur de r´ef´erence 6σ correspond au quantile 99.865% mais uniquement dans le cas de la loi normale. Ces indicateurs sont donc bien des g´en´eralisations. 5.2.3

Les cartes de contrˆ ole

Deux types de cartes sont possibles. Cartes de contrˆ ole ` a valeurs individuelles Elles se composent de relev´es des valeurs sous forme de graphique. Ces cartes sont compos´ees de trois zones: bon, surveillance, rejet (au del`a des valeurs extr`emes U SL et LSL). La valeur cible est mise en ´evidence. L’objectif est de se situer au plus proche de cette valeur. Dans la zone de surveillance, on accepte la production mais on est plus attentif ` a des ph´enom`enes tels que la stagnation dans la zone (plusieurs points consecutifs), une tendance vers le seuil rejet, . . . L’outil graphique est un plus donnant les moyens de r´egler au mieux le process en se basant sur un suivi. Cartes de contrˆ ole par attribut On utilise un calibre. Elles sont `a caract`ere qualitatif (bon, mauvais par d´efaut, mauvais par exc`es). L’atout est de pouvoir suivre plusieurs caract´eristiques sur une mˆeme carte.

V-4

Figure 5: Exemple de carte de contrˆ ole o` u figurent les valeurs de r´ef´erence ansi que le r´esultat de la mesure m(x).

V-5

5B

6 T-1

Tables

Fonction de r´ epartition de la loi normale centr´ ee r´ eduite

Probabilit´e de trouver une valeur inf´erieure `a u.

T-1

T-2

Fractiles de la loi normale centr´ ee r´ eduite

Valeur de u telle que P rob(X < u) = P , P est donn´ee.

T-2

T-3

Fractiles de la loi du χ2 ` a ν degr´ es de libert´ e

T-3

Fractiles de la loi du χ2 ` a ν degr´ es de libert´ e (suite)

T-4

T-4

Valeurs f de la variable de Fisher-Sn´ ed´ ecor F (ν1 ; ν2 ) ayant la probabilit´ e 0.10 d’ˆ etre d´ epass´ ees

T-5

T-5

Valeurs f de la variable de Fisher-Sn´ ed´ ecor F (ν1 ; ν2 ) ayant la probabilit´ e 0.05 d’ˆ etre d´ epass´ ees

T-6

Valeurs f de la variable de Fisher-Sn´ ed´ ecor F (ν1 ; ν2 ) ayant la probabilit´ e 0.05 d’ˆ etre d´ epass´ ees (suite)

T-7

T-6

Valeurs f de la variable de Fisher-Sn´ ed´ ecor F (ν1 ; ν2 ) ayant la probabilit´ e 0.01 d’ˆ etre d´ epass´ ees

T-8

Valeurs f de la variable de Fisher-Sn´ ed´ ecor F (ν1 ; ν2 ) ayant la probabilit´ e 0.01 d’ˆ etre d´ epass´ ees (suite)

T-9

T-7

Table de distribution de T (Loi de Student)

Valeurs de T ayant la probabilit´e P d’ˆetre d´epass´ees en valeur absolue.

T-10

T-8

Table du coefficient de corr´ elation des rangs de Spearman de deux variables al´ eatoires ind´ ependantes

Valeurs r de RS ayant une probabilit´e α d’ˆetre d´epass´ee en valeur absolue: P (|RS | > r) = α

T-11

Table du coefficient de corr´ elation des rangs de Spearman de deux variables al´ eatoires ind´ ependantes (suite) Valeurs r de RS ayant une probabilit´e α d’ˆetre d´epass´ee en valeur absolue: P (|RS | > r) = α

T-12

T-9

Fonction de r´ epartition de la statistique de Cramer-Von Mises

Valeurs de z telles que P (I < z) = 1 − α.

T-13

T-10

Table du test de Kolmogorov-Smirnov

Valeurs de dn telles que P = P rob(supx |Fn∗ (x) − F (x)| < dn )

T-14

Table du test de Kolmogorov-Smirnov (suite) Valeurs de dn telles que P = P rob(supx |Fn∗ (x) − F (x)| < dn )

T-15

7

Exercices

Ce chapitre regroupe quelques excercices d’application des concepts illustr´es dans les chapitres de ce polycopi´e. Ils constituent une base pour vous permettre de tester vos connaissances.

7-1

Probabilit´ es

1- Trois personnes entrent dans une pi`ece o` u se trouvent 7 chaises diff´erentes. De combien de mani`eres diff´erentes peut-on placer les 3 personnes? R´eponse : A37 =

7! 4!

= 210

 2- Quel est le nombre maximum d’immatriculations qu’il est possible de r´ealiser dans le cas des immatriculations de v´ehicules fran¸cais? 3- Un train de marchandises se compose de 14 wagons dont 6, 3, 4 et 1 sont `a laisser respectivement en 4 gares diff´erentes, A, B, C, D. De combien de mani`eres ces wagons peuvent-ils ˆetre dispos´es pour que les wagons `a retirer soient toujours en queue de train? 4- Soient A, B et C des ´ev`enements al´eatoires d´efinis sur une mˆeme ´epreuve. On consid`ere maintenant T T T S deux nouveaux ´ev`enements : E1 = A B c C c et E2 = A (B C). (a) Montrer que E1 et E2 sont S incompatibles. (b) Que signifie l’´ev`enement E1 E2 ? (c) Calculer P (E1 ) et P (E2 ) sachant que P (A) = T T T T T 0.6, P (B) = 0.4, P (C) = 0.3, P (A B) = 0.2, P (B C) = 0.1, P (A C) = 0.1 et P (A B C) = 0.05. 5- Un circuit ´electronique est compos´e de 10 blocs identiques en s´erie, chacun de ces blocs peut ˆetre form´e d’un ´el´ement unique ou de deux ´el´ements identiques en parall`ele (dans ce cas on supposera qu’il suffit qu’un des deux ´el´ements fonctionne pour que le bloc fonctionne). On admet que chaque ´el´ement a une probabilit´e ´egale ` a 0.02 de tomber en panne pendant les 5000 premi`eres heures de fonctionnement et que les pannes des divers ´el´ements sont des ´ev`enements ind´ependants. Calculer les probabilit´es d’une panne de circuit pendant les 5000 premi`eres heures de fonctionnement, si chaque bloc est form´e d’un seul ´el´ement(a), si chaque bloc est form´e de deux ´el´ements(b), si n blocs sont fom´es d’un seul ´el´ement(c). Combien faut-il de blocs ` a 2 ´el´ements pour garantir une probabilit´e de panne du circuit inf´erieure ` a 10%(d). R´eponse : (a) 0.18 (b) 0.004 (c) 1 − (1 − 0.022 )10−n (1 − 0.02)n (d) 5  6- On dispose de N boules dont D sont rouges. On tire (sans remise) n boules. Quelle est la probabilit´e de tirer d boules rouges ? R´eponse : p =

d C D−d Cn N −n D CN

 7- La demande d’un produit P pendant 1 mois peut prendre les valeurs d suivantes avec les probabilit´es P (d): (d, P (d)) ∈ {(0, 0.1), (1, 0.1), (2, 0.2), (3, 0.3), (4, 0.2), (5, 0.1)} a) Pourquoi peut-on parler de probabilit´e ? b) De quel stock minimum doit-on disposer en d´ebut de mois pour que le risque de rupture de stock soit inf´erieur ou ´egal ` a 0.3 ? VII-1

8- On sait que les jumeaux peuvent ˆetre de vrais jumeaux, dans ce cas ils ont mˆeme sexe, ou de faux jumeaux, et dans ce cas la probabilit´e pour qu’ils aient mˆeme sexe est 0.5. On suppose connue la probabilit´e p pour que deux jumeaux soient de vrais jumeaux. (a) D´eterminer en fonction de p la probabilit´e pour que deux jumeaux soient de mˆeme sexe. (b) D´eterminer la probabilit´e pour que deux jumeaux soient de vrais jumeaux sachant qu’ils ont mˆeme sexe. R´eponse : (a)

1+p 1

; (b)

2p 1+p

 9- Les clients d’une entreprise ont ´et´e r´epartis en plusieurs cat´egories en fonction du volume d’affaires annuel trait´e avec eux et en fonction du fait que l’on a d´ej`a eu pour eux ou non des cr´eances impay´ees. Les r´esultats de ce d´ecompte sont donn´es dans le tableau ci-dessous: Volume d’affaire annuel Clients ayant d´ej` a eu des impay´es (I) Clients n’ayant jamais eu d’impay´es (I)

0` a 10 000 (C1 ) 100

10 000 `a 100 000 (C2 ) 25

+ de 100 000 (C3 ) 10

1 200

350

150

D´eterminez pour un client choisi au hasard les probabilit´es suivantes: P (C1 ), P (C2 ), P (C3 ), P (I|C1 ), P (I|C2 ), P (I|C3 ), P (C1 |I), P (C2 |I), P (C3 |I). Y a-t-il d´ependance entre le volume d’affaires et l’existence d’impay´es ? R´eponse : P (C1 ) = 0.708, P (C2 ) = 0.204, P (C3 ) = 0.088, P (I|C1 ) = 0.08, P (I|C2 ) = 0.07, P (I|C3 ) = 0.06, P (C1 |I) = 0.74, P (C2 |I) = 0.19, P (C3 |I) = 0.07. Il y a d´ependance entre le volume d’affaires et l’existence d’impay´es d’apr`es l’analyse des termes P (Ci et I) et P (Ci )P (I).  10- Pour juger de l’efficacit´e d’une campagne publicitaire ayant port´e sur un produit P , on a sond´e 1500 personnes, 1000 dans une r´egion R1 et 500 dans une r´egion R2 . Seule la r´egion R2 avait ´et´e concern´ee par la campagne. Les r´esultats sont les suivants:

R´egion R1 R´egion R2

Connaissent le produit P et le consomment 80 50

Connaissent le produit P et ne le consomment pas 150 130

Ne connaissent pas le produit P 770 320

a) D´eterminer pour chacune des r´egions: la probabilit´e qu’une personne connaisse le produit P , la probabilit´e qu’une personne consomme le produit P et la probabilit´e qu’elle consomme le produit P sachant qu’elle le connait. 11- La probabilit´e pour qu’une ampoule ´electrique ait une dur´ee de vie sup´erieure `a 2 ans est de 0.2. Sachant qu’un lustre est form´e de 5 ampoules, donnez la loi mod´elisant le ph´enom`ene ”il faut changer n ampoules en 2 ans” et les probabilit´es correspondant aux valeurs 0 et 5 de n. R´eponse : L’´ev`enement ”une ampoule `a changer” peut ˆetre mod´elis´e par une loi (0, 1)p=0.8 . La loi de l’´ev`enement ”il faut changer une ampoule en 2 ans” est donc une loi binomiale (si l’on suppose l’ind´ependance entre les 5 ampoules). P (0) = C50 0.80 0.25 = 0.00032 et P (5) = 0.32768.  12- Soient deux urnes contenant respectivement 100 boules rouges et 100 boules noires. On prend 32 boules rouges de la premi`ere urne pour les mettre dans la seconde, puis on m´elange et on reprend 32 VII-2

boules de la 2`eme urne pour les remettre dans la premi`ere. Quelle est la probabilit´e qu’il y ait plus de boules rouges dans la premi`ere urne que dans la deuxi`eme ? 13- Un lot de n articles pr´esente un m´elange des produits de trois usines : n1 articles de l’usine U1 , n2 de l’usine U2 et n3 de l’usine U3 . Pour les articles de l’usine U1 , la probabilit´e de fonctionner sans d´efaillance pendant un temps τ est p1 , p2 pour l’usine U2 et p3 pour l’usine U3 . On tire au hasard un article, calculer la probabilit´e que l’article fonctionnera sans d´efaillance pendant un temps τ . 14- On consid`ere trois lots d’articles de mˆeme type, le premier compte d1 articles d´efectueux parmi les n1 articles. De mˆeme, on compte d2 (resp. d3 ) articles d´efectueux parmi les n2 (resp. n3 ) articles du deuxi`eme (resp. troisi`eme) lot d’articles. On choisit au hasard l’un des lots pour en tirer au hasard deux articles. Le premier article est d´efecteux. Quelle est la probabilit´e que le second article soit d´efecteux lui aussi ? R´eponse : Soient les ´etats D1 et D2 indiquants que les premier et deuxi`eme articles sont d´efecteux. Ce que l’on cherche est donc P (D2 |D1 ). En se servant de la formule de Bayes, on a T

P (D2 |D1 ) =

P (D1 D2 ) P (D1 )

Les deux articles provenant d’un des trois lots, on introduit les lots par P (D1

\

D2 ) =

3 X

P (D1

\

D2

\

Li ) = P (D1 )

3 X

1

P (Li |D1 )P (D2 |D1

\

Li )

1

donc P (D2 |D1 ) =

3 X

P (Li |D1 )P (D2 |D1

\

Li )

1

De la mˆeme mani`ere, on estime les autres probabilit´es conditionnelles par P (D1 Li ) P (Li )P (D1 |Li ) P (Li |D1 ) = = P3 P (D1 ) 1 P (Li )P (D1 |Li ) T

Les probabilit´es qui nous sont n´ecessaires sont ∀i, P (Li ) = 31 P (D1 |Li ) = ndii T P (D2 |D1 Li ) = donc

di −1 ni −1

di

P (Li |D1 ) = Pn3i di

1 ni

Le tout recombin´e donne

P3 di (di −1)

P (D2 |D1 ) =

1 ni (ni −1) P3 di 1 ni

 15- Soient deux v.a. discr`etes ind´ependantes Xi de type

0 1

!

(P (Xi = 1) = pi ). (a) D´eterminez la pi

loi de la v.a. Z1 = min(X1 , X2 ). (b) D´eterminez la loi de la v.a. Z2 = max(X1 , X2 ). (c) D´eterminez la loi du couple (Z1 , Z2 ). (d) Les v.a. Z1 et Z2 sont elles ind´ependantes ? VII-3

7-2

Variables al´ eatoires

1- On admet que le nombre de d´efauts sur le verre d’une ampoule ob´eit `a une loi de Poisson de param`etre λ = 4. Calculer les probabilit´es des ´ev`enements suivants: (a) Aucun d´efaut. (b) Plus de 2 d´efauts. (c) Entre 3 et 7 d´efauts. R´eponse : (a) 0.018 (b) 0.762 (c) 0.711  2- Soit une loi uniforme continue U d´efinie sur l’intervalle sym´etrique [−a, +a]. Quels sont la moyenne et l’´ecart type de cette variable al´eatoire. On proc`ede `a une accumulation d’exp´eriences identiques (n r´ealisations ind´ependantes de la loi U ). Que se passe-t-il quand n devient grand pour la variable U1 +U2 +...+Un ? n 3- Dans une entreprise de 200 salari´es, il se produit en moyenne 4 accidents du travail par mois. On suppose que tous les salari´es ont la mˆeme probabilit´e d’avoir un accident. Quelle loi peut mod´eliser le nombre mensuel d’accidents du travail ? 4- Soit X une v.a. N (1, σ) (o` u σ = 2). Calculer P (X > 5). Donner une borne de cette probabilit´e en utilisant l’in´egalit´e de Bienaym´e-Tchebyshev. Commentaire. 5- Montrer par le calcul que E(X) = σ 1.)

q

π 2

pour X v.a. de Raleigh. (On rappelle que

2

x √ 1 e− 2σ2 dx −∞ 2πσ

R +∞

=

R´eponse: Soit X la v.a. suivant une loi de Raleigh Z ∞

x.

E[X] = 0

Posons U 0 (x) =

x − x22 e σ dx σ2

x − x22 e σ dx σ2

et V (x) = x On en d´eduit

x2

U (x) = −e− σ2 et V 0 (x) = dx Donc

Z ∞

2

E[X] =

x [−xe− σ2 ]∞ 0



Z ∞

E[X] = σ 2π 0

+

x2

e− σ2 dx

0 x2 1 √ e− σ2 dx σ 2π

La forme int´egrale est ´egale ` a P (Y > 0) pour une loi normale de moyenne nulle et d’´ecart type σ. Par sym´etrie de cette loi, cette probabilit´e vaut 0.5. Donc le r´esultat final est r

E[X] = σ 

VII-4

π 2

2 6- Soit Y = i=10 a deux ind´ependantes. Quelle est la loi de Y ? Donner les i=1 Xi avec Xi : N (0, 1) deux ` valeurs de E(Y ) et V ar(Y ).

P

R´eponse : Par d´efinition, Y suit une loi du χ2 dont l’esp´erance math´ematique est 10 et la variance 20.  7- On envisage l’achat d’une machine de valeur 140000 euros et dont la dur´ee de vie est 2 ans. Les d´epenses de fonctionnement de ce mat´eriel seraient de 43050 euros par an. On pourrait fabriquer 1000 pi`eces par an. L’entrepreneur estime que chaque ann´ee, la probabilit´e d’´ecouler cette production est de 0.9. Par contre, en cas de r´ecession, l’une ou l’autre des ann´ees, on ne pourra ´ecouler plus de 750 pi`eces. Le prix de vente d’une pi`ece (impos´e par la concurence) est de 500 euros la premi`ere ann´ee. Pour la seconde ann´ee, il y a une probabilit´e de 0.5 pour qu’il se maintienne, une probabilit´e 0.1 pour qu’il monte de 10% et une probabilit´e 0.4 pour qu’il baisse de 5%. Dans les questions suivantes, il vous est demand´e de formaliser chaque question en termes de v.a. avant de proc´eder aux calculs. a) Calculer l’esp´erance math´ematique et la variance du nombre de pi`eces ´ecoul´ees pour l’ensemble des deux ann´ees. b) Calculer l’esp´erance math´ematique du chiffre d’affaires r´ealis´e la premi`ere ann´ee, puis la seconde ann´ee (les quantit´es ´ecoul´ees et le prix de vente sont suppos´es ind´ependants). c) Quelle est l’esp´erance math´ematique du gain procur´e par cet investissement sur l’ensemble des deux ann´ees ? 8- La demande d’un produit P par mois ` a une entreprise suit une loi normale. Elle a une probabilit´e 0.1 d’ˆetre inf´erieure `a 15000 unit´es, et une probabilit´e 0.1 d’ˆetre sup´erieure `a 25000. a) D´eterminer les param`etres de la loi normale. b) La marge sur coˆ ut variable unitaire est de 10 euros. Les charges fixes mensuelles sont de 175000 euros. D´eterminer la loi de probabilit´e suivie par le r´esultat mensuel. En d´eduire la probabilit´e que le seuil de rentabilit´e mensuel soit atteint. c) Quelle est la loi de probabilit´e du r´esultat trimestriel ? Quelle est la probabilit´e que le seuil de rentabilit´e trimestriel soit atteint ? Quelle commentaire peut-on faire en comparant les probabilit´es mensuelles et trimestrielles ? R´eponse : (a) (µ, σ) = (20000, 3901) (b) Loi normale de param`etres (µ, σ) = (25000, 39010). Prob(seuil de rentabilit´e atteint) = 0.7389. (c) Loi normale de param`etres (µ, σ) = (75000, 67567). Prob(seuil de rentabilit´e atteint) = 0.8665. Il est plus simple d’atteindre un objectif sur 3 mois que 3 fois sur 1 mois.  9- Au contrˆole de la fabrication, une pi`ece est rejet´ee si une au moins de ses deux dimensions ne r´epond pas aux normes tol´er´ees, soit une variation de 0.1mm en plus ou en moins pour la longueur X, et 0.02mm en plus ou en moins pour la largeur Y . Les normes de fabrication sont pour X: 4cm et pour Y : 0.3cm. Les moyennes de X et Y sur des ´echantillons de 300 pi`eces sont respectivement 4.1cm et 0.301cm. Les 5 0.4 ´ecarts types sont ´egaux ` a: σX = 100 mm et σY = 100 mm. Quel pourcentage de rebus obtient-on ` a la sortie de l’atelier de production ? 10- Donnez la valeur de P rob(|X| < 5) sachant que X est une variable al´eatoire normale de moyenne 1 et d’´ecart-type 2. R´eponse : P (|X| < 5) = P (−5 ≤ X ≤ 5) = P (X ≤ 5) − P (X ≤ −5). Par centrage r´eduction, on pose Y = X−1 2 . P (|X| < 5) = P (Y < 2) − P (Y < −3) = P (Y < 2) + P (Y < 3) − 1. Par lecture dans la VII-5

table de la loi normale (0,1), on obtient P (|X| < 5) = 0.9772 + 0.99865 − 1 = 0.9759.  11- Une usine produit 9000 unit´es d’un produit sur un intervalle de temps t. Pour cette mˆeme p´eriode, la demande, exprim´ee en milliers d’unit´es, concernant ce produit peut ˆetre consid´er´ee comme une variable al´eatoire suivant une loi exponentielle de param`etre 3. Quelle est la probabilit´e que la demande d´epasse la production ? Quelle devrait ˆetre la production pour que cette probabilit´e soit inf´erieure `a 4% ? R´eponse : P (Dde > P rod) = 0.05. Pour descendre cette probabilit´e `a 0.04, la production doit ˆetre sup´erieure `a 9657 unit´es.  12- Soient Xi , i = 1 . . . n, n V.A. continues, uniformes sur [0, t[. On construit une nouvelle variable par Mn = M ax(X1 , X2 , . . . , Xn ). a) Calculez P (Mn < a) pour a < t. Que se passe-t-il quand n tend vers l’infini ? b) D´emontrer la nature de Mn par une convergence en probabilit´e. 13- Une machine d´er´egl´ee produit des pi`eces dont 31 sont d´efectueuses. Donnez la loi qui mod´elise le nombre de pi`eces d´efectueuses. Dans un lot de 39 pi`eces fabriqu´ees par cette machine, calculez le nombre moyen de pi`eces d´efectueuses et la probabilit´e associ´ee `a ce nombre. R´eponse : Une pi`ece est d´efectueuse ou non. Ce comportement peut tout `a fait se mod´eliser par une variable de type binaire de param`etre P (X = 1) = 1/3. Dans un lot, si on suppose l’ind´ependance entre les ´ev`enements, l’apparition de pi`eces d´efectueuses s’apparente alors `a une somme de lois binaires ind´ependantes 2 ` a 2. On obtient une loi binomialeB(n, p) = B(39, 13 ). Le nombre moyen th´eorique de pi`eces d´efectueuses est donc E[B] = n × p = 13. De mˆeme, la probabilit´e de ce nombre est donn´ee par 13 1 13 2 26 P (B = 13) = C39 ( ) ( ) = 0.135 3 3

 14- Donnez la valeur de t telle que P rob(X < t) = 0.90 sachant que X est une variable al´eatoire de Student `a 20 degr´es de libert´e. R´eponse : La table de Student ne donne que P (|X| < t). Cependant, comme la loi de Student est sym´etrique, nous avons P (X < t) = 0.9 ↔ P (|X| < t) = 0.8 d’o` u t = 1.325.  15- Montrez que la variance th´eorique d’une v.a. suivant une loi de Rayleigh de param`etre σ est σ 2 (2− π2 ). R 0 R (int´egration par partie U V = [U V ] − U V 0 ). p

R´eponse: L’esp´erance math´ematique d’une loi exponentielle est E = σ π/2et sa densit´e de proba2 2 bilit´e est f (x) = σx2 e−x /(2σ ) . La variance est d´efinie par V = E[X 2 ] − E[X]2 =

Z ∞

x2 f (x)dx − E 2

0

V =

Z ∞ 3 x 0

σ2

e−x

2 /(2σ 2 )

VII-6

dx − E 2

On fait une int´egration par partie V (x) = −x2 et U 0 (x) = −

x −x2 /(2σ2 ) e dx σ2

Ce qui nous donne V 0 (x) = −2xdx et U (x) = e−x et V =

2 2 [−x2 e−x /(2σ ) ]∞ 0

V = 2σ 2 [−e−x

Z ∞

+

2xe−x

2 /(2σ 2 )

2 /(2σ 2 )

dx − E 2

0

2 /(2σ 2 )

2 2 2 ]∞ 0 − E = 2σ − σ

Donc V = σ 2 (2 −

π 2

π ) 2

 16- Donnez la valeur de t telle que P rob(X > t) = 0.70 sachant que X est une variable al´eatoire de Student `a 20 degr´es de libert´e. R´eponse : Cette probabilit´e n’a de sens que si t est n´egatif. En effet, la loi de Student est sym´etrique autour de 0 et donc P (X > 0) = 0.5. On a donc P (X < t) = 0.3) et par sym´etrie, P (X > |t|) = 0.3). Donc la valeur de t est donc obtenue par la lecture de la probabilit´e P (|X| < |t|) = 0.4 ce qui nous donne t = −0.533  17- Donnez la valeur de α telle que P rob(|X| < 1.25) = α sachant que X est une variable al´eatoire normale de moyenne 0.5 et d’´ecart-type 1. R´eponse : α = P (X < 1.25) − P (X < −1.25)

α = P (Y < 0.75) − P (Y < −1.75) o` u Y est une variable al´eatoire normale centr´ee r´eduite. α = P (Y < 0.75) − 1 + P (Y < 1.75) = 0.7734 − 1 + 0.9599 α = 0.7333  18- Donnez la valeur de t telle que P rob(X < t) = 0.90 sachant que X est une variable al´eatoire du χ2 `a 25 degr´es de libert´e. R´eponse : Lectude directe dans la table du χ2 `a 25 ddl : t = 34.382. 

VII-7

19- Donnez la valeur de f telle que P rob(F < f ) = 0.95 sachant que F est une variable al´eatoire de Fisher-Sn´ed´ecor F (10, 25). R´eponse : Lecture directe dans la table de Fisher-Sn´ed´ecor : f = 2.24.  20- On consid`ere la fonction f d´efinie par f (x) = Ce−αx

2

D´eterminez C de sorte que f soit une densit´e de probabilit´e sur <. R´eponse : Pour int´egrer cette fonction, on va construire d’abord la solution d’une int´egrale double associ´ee `a un couple de variables ind´ependantes. Soit la fonction fX,Y d´efinie par fX,Y (x, y) = fX (x)fY (y) = C 2 e−α(x

2 +y 2 )

D´efinissons un domaine Pη du plan par x ≥ 0, y ≥ 0 et x2 + y 2 ≤ η 2 (un quart de disque). Calculons tout d’abord l’int´egrale de fX,Y sur ce domaine RR

I(η) = Pη fX,Y (x, y) dx dy RR 2 −α(x2 +y 2 ) dx dy = C Pη e Faisons le changement de variables polaires (x, y) = (ρcos(θ), ρsin(θ)) dont le jacobien est ∂x ∂(x, y) ∂ρ j(ρ, θ) = = ∂(ρ, θ) ∂y ∂ρ

∂x ∂θ

cos(θ) −ρsin(θ) = =ρ ∂y sin(θ) ρcos(θ) ∂θ

L’int´egrale devient donc R π/2 R

2

2

η −αρ dρ dθ I(η) = C 2 0 0 ρe R R 2 π/2 η = C 2 0 dθ 0 ρe−αρ dρ −αρ2

= C 2 π2 [ −e2α ]η0 2 π = C 2 4α (1 − e−αη ) Afin de couvrir le plan, nous pouvons passer d’abord `a la limite par π lim I(η) = C 2 η→∞ 4α L’int´egrale sur le plan entier est donc C2

π α

Dans cette int´egrale double, les deux variables sont ind´ependantes, donc cette int´egrale double est le carr´e de l’int´egrale simple et nous avons √ C π f (x)dx = √ α −∞

Z ∞

La fonction f sera une densit´e de probabilit´e si cette int´egrale est unit´e, d’o` u l’on d´eduit α C= π VII-8

Dans le cas d’une loi normale, α =

1 2σ 2

ce qui nous redonne bien 1 C= √ σ 2π



7-3

Estimation

1- Soit X une loi normale d’esp´erance µ connue et de variance σ 2 inconnue. Construisez l’estimateur σ ˆ2 de cette variance par la m´ethode du maximum de vraisemblance. Quel est son biais ? ˆ du param`etre d’une loi de Poisson par la m´ethode du maximum de vraisem2- Construisez l’estimateur λ blance. 3- Une machine fabrique des pi`eces ` a une cadence qui ne permet pas de faire un controle qualit´e total. On proc`ede donc ` a un pr´el`evement d’un ´echantillon de n pi`eces qui sont test´ees. Sur cet ´echantillon, n = 30, on constate un pourcentage de 5% de pi`eces d´efectueuses. L’entreprise ayant command´ee ces pi`eces impose un pourcentage maximum de rebut de 6%. Que pouvez-vous conseiller au fabricant des pi`eces ? 4- Soit l’´echantillon {(xi , yi ), i = 1, . . . , n} avec xi = i et yi = 3.13, 5.26, 5.5, 7.47, 8.1, 9.39, 9.86, 10.59, 12.1, 12.94. D´eterminer les param`etres d’un mod`ele lin´eaire de la forme y = ax+b approximant au mieux ces donn´ees. Quelle est la confiance dans ce mod`ele ? 5- On dispose d’un ´echantillon provenant d’une loi normale N (µ, σ). On estime les param`etres par P 1 P ˆ 2 = n−1 (xi − µ ˆ)2 . Les valeurs obtenues sont, n = 30 et σ ˆ 2 = 80. Quelle est la µ ˆ = n1 xi et σ probabilit´e pour que la valeur vraie de l’´ecart type soit sup´erieure `a 8 ? 6- On dispose d’un ensemble de 101 mesures provenant d’un ´echantillonnage que l’on associe `a une v.a. N (µ, σ), µ et σ ´etant inconnus. La variance estim´ee est s2 = 20. Donner l’intervalle de confiance sur σ 2 pour α = 0.1. 7- A partir d’un ´echantillon de 10 r´ealisations, on estime la moyenne d’une variable al´eatoire normale. L’´ecart-type ´etant ´egalement inconnu, on l’estime. On obtient les valeurs 3 pour la moyenne et 9 pour l’´ecart-type. Quel est l’intervalle de confiance (α = 0.9) autour de la moyenne ? R´eponse : [−2.21, 8.21]  8- A partir d’un ´echantillon de 30 valeurs, on estime la moyenne d’une variable al´eatoire normale. L’´ecarttype ´etant inconnu, on l’estime ´egalement et on obtient les valeurs m = 5 et s = 5. Quelle est la confiance d’un intervalle de largeur 1 autour de la moyenne ? R´eponse : P (4 < µ < 6) = 0.7158  9- Un quotidien publie tous les mois la cote du chef du gouvernement `a partir d’un sondage r´ealis´e sur un ´echantillon repr´esentatif de 1000 personnes. En janvier, la cote publi´ee ´etait de 38% d’opinions favorables, en f´evrier de 36%. Un journaliste commente alors ces valeurs par ”Le chef du gouvernement perd 2 points !!” Commentez ce commentaire. R´eponse: On construit un intervalle de confiance autour des proportions. Avec un seuil de 95%, on obtient respectivement [35, 41] et [33, 39] pour les valeurs 38% et 36%. Les deux intervalles ayant une VII-9

intersection non vide, on ne peut pas conclure qu’il y ait eu baisse ou augmentation de la cote du chef q de gouvernement. La largeur de l’intervalle de confiance est donn´ee par t un seuil de sonfiance de 0.95, n = 1000 et pn = 0.36 ou 0.38.

pn (1−pn ) n

avec t = 1.96 pour

 10- Le chiffre d’affaires mensuel de l’entreprise JET suit une loi normale de moyenne µ inconnue mais dont l’´ecart type est connu et ´egal ` a 50 Keuros. Sur les douze derniers mois, la moyenne des chiffres d’affaires mensuels a ´et´e de 200 Keuros. Donnez une estimation de µ par intervalle de confiance au niveau 0.98. R´eponse : µ ∈ [166.37; 233.63]  11- Dans une station service, on suppose que le montant des ch`eques essence suit une loi normale de moyenne µ et d’´ecart type σ. On consid`ere un ´echantillon de taille 50 et on obtient une moyenne de 20 euros et un ´ecart-type de 5 euros. Donnez une estimation de µ par intervalle de confiance au niveau 0.95. R´eponse : On doit proc´eder au calcul d’un intervalle de confiance sur une moyenne d’une loi normale dont l’´ecart-type est inconnu et estim´e. Cet intervalle est d´efinit par u×s P (|m − µ| < √ ) = α n o` u m (respectivement s) est la moyenne (respectivement l’´ecart-type) estim´ee et u est lue dans une table de la loi de Student ` a n − 1 = 49 degr´es de libert´e. Ce qui donne, u = 2.02 et comme intervalle de confiance µ ∈ [18.57, 21.43]  12- Dans une production continue de pi`eces manufacturi`eres, on fait un contrˆole de qualit´e par pr´el`evement avec un ´echantillon de 100 pi`eces. 1. Pour chaque pi`ece, on proc`ede ` a un contrˆ ole de poids. On admet que cette mesure peut ˆetre mod´elis´ee par une variable al´eatoire exponentielle de param`etre a. Le param`etre de cette loi ´etant inconnu, on estime les moments et l’on obtient respectivement, 5 g et 3. g pour la moyenne exp´erimentale, m, et l’´ecart-type, s. Quelle est la confiance d’un intervalle de largeur 0.2 ? R´eponse: La variable al´eatoire poids suit une loi exponentielle de param`etre a qui est aussi sa moyenne th´eorique. On acc`ede ` a ce param`etre par l’estimation de la moyenne. L’on a donc `a d´eterminer un intervalle de confiance autour de la moyenne estim´ee, i.e. IC(a) = IC(m). On est pas dans le cas d’une loi normale mais l’´echantillon est de grande taille, on peut donc appliquer la r`egle standard ts ICα : P (|a − m| < √ ) = α n La largeur de cet intervalle est 0.1 donc ts 0.1 = √ ⇒ t = 0.3333 n Dans la table de la loi de Student ` a 99 ddl, on constate que pour des ddl de 80 et 120, il n’y pas de changements notables et l’on rep`ere VII-10

α = 0.3 − 0.1 ×

0.387 − 0.333 ≈ 0.26 0.387 − 0.254

 2. Sur cet ´echantillon, on estime ` a 5% le taux de pi`eces d´efectueuses. Quel est l’intervalle de confiance ` a 90% autour de cette valeur ? Conclusion. R´eponse: Il s’agit de d´eterminer un intervalle de confiance d’une proportion qui est donn´e par s

α = P rob(|p − fn | < u

p(1 − p) ) n

On utilisera l’approximation p = fn dans l’´evaluation de la racine car la valeur exp´erimentale est loin de 0.5. La valeur de u est lue dans une table de la loi normale centr´ee r´eduite et correspond ` a P (|Y | < u) = 0.9 soit P (Y < u) = 0.95 avec Y : ℵ(0, 1). La lecture donne u = 1.645 et l’on obtient l’intervalle de confiance suivant : IC90% = 5% ± 3.6% La fluctuation est tr`es importante (du mˆeme ordre que l’estimation) et rend difficilement interpr´etable la valeur obtenue pour la proportion. Il faut soit r´eduire la confiance, soit augmenter la taille de l’´echantillon. Ces remarques restent relatives aux attendus de l’application.  3. Donnez la taille minimale de l’´echantillon pour que la largeur de cet intervalle soit au plus ´egale ` a 2%. R´eponse: En reprenant les r´esultats de la question suivante, on a s

2u

fn (1 − fn ) ≤ 0.02 n

avec fn = 0.05 et u = 1.645. Donc on obtient n ≥ 1285  13- Sur un ´echantillon de 20 valeurs, on proc`ede `a une r´egression lin´eaire et on obtient les valeurs suivantes pour les moyennes exp´erimentales : X = 6., Y = 9.7, XY = 60., X 2 = 52.5 et Y 2 = 95. Calculer les param`etres a ˆ et ˆb de la droite de r´egression. Quelle est la confiance dans le mod`ele ? Conclusion. R´eponse : D’apr`es les formules, on a a ˆ = 60−6×9.7 52.5−36 = 0.109 ˆb = 9.7 − a ˆ × 6 = 9.05 ρˆ = √ 60−6×9.7 2 = 0.46 (52.5−36)(95−9.7 )

La qualit´e du mod`ele estim´ee par le coefficient de corr´elation ρˆ est tr`es faible, le mod`ele lin´eaire n’est pas adapt´e.  VII-11

14- Dans une production continue de pi`eces manufacturi`eres, on fait un contrˆole de qualit´e par pr´el`evement avec un ´echantillon de 80 pi`eces. 1. Pour chaque pi`ece, on proc`ede ` a un contrˆole dimensionnel. On admet que cette mesure peut ˆetre mod´elis´ee par une variable al´eatoire normale ℵ(µ, σ 2 ). Les param`etres de cette loi ´etant inconnus, on les estime et l’on obtient, respectivement, 10 cm et 0.20 cm pour la moyenne exp´erimentale, m, et l’´ecart-type, s. Quelle est la confiance d’un intervalle de largeur 0.1 autour de la moyenne ? R´eponse: Il s’agit de d´eterminer un intervalle de confiance d’une moyenne d’une loi normale, son ´ecart-type ´etant inconnu. Donc cet intervalle est donn´e par s s α = P rob(m − t √ < µ < m + t √ ) n n avec 0.1 = 2t √sn d’o` u t = 2.236. On sait par ailleurs que t est `a lire dans la table de la loi de Student pour 79 degr´es de libert´e. Compte tenu de la faible variation autour de 80 on approxime la lecture par celle de la ligne 80 degr´es de libert´e. On obtient

0.05

2.

1−α=p

2.236 0.02 2.39

et donc p = 0.02 + (0.05 − 0.02)

2.39 − 2.236 = 0.032 2.39 − 2.

La confiance de l’intervalle de largeur 0.1 autour de la moyenne exp´erimentale est 96.8%.  2. Sur cet ´echantillon, on estime ` a 4% le taux de pi`eces d´efectueuses. Quel est l’intervalle de confiance ` a 90% autour de cette valeur ? Conclusion. R´eponse: Il s’agit de d´eterminer un intervalle de confiance d’une proportion qui est donn´e par s

α = P rob(|p − fn | < u

p(1 − p) ) n

On utilisera l’approximation p = fn dans l’´evaluation de la racine car la valeur exp´erimentale est loin de 0.5. La valeur de u est lue dans une table de la loi normale centr´ee r´eduite et correspond ` a P (|Y | < u) = 0.9 soit P (Y < u) = 0.95 avec Y : ℵ(0, 1). La lecture donne u = 1.645 et l’on obtient l’intervalle de confiance suivant : IC90% = 4% ± 3.6%. La fluctuation est tr`es importante (du mˆeme ordre que l’estimation) et rend difficilement interpr´etable la valeur obtenue pour la proportion. Il faut soit r´eduire la confiance, soit augmenter la taille de l’´echantillon. Ces remarques restent relatives aux attendus de l’application.  3. Sur le mˆeme ´echantillon, quelle est la probabilit´e que la valeur vraie de σ soit sup´erieure `a 0.25 cm ? R´eponse: Il s’agit de d´eterminer un intervalle de confiance d’une variance d’une loi normale. Donc cet intervalle est donn´e par

VII-12

P rob(σ 2 >

nS 2 = 0.252 ) = α k

o` u S 2 est la variance exp´erimentale avec biais donn´ee par S2 =

n 1X (xi − m)2 n 1

On sait que v u u s = 0.2 = t

n 1 X (xi − m)2 n−1 1

donc S 2 = 0.22 × nS 2 k

79 = 0.0395 80

= 0.252 donc k = 50.56. La valeur k est report´ee dans la table de la loi du χ2 `a 79 degr´es de

libert´e.

0.005 50.376 α

50.56 0.01

52.725

et donc α = 0.005 + (0.01 − 0.005)

50.56 − 50.376 = 0.00539 52.725 − 50.376

La probabilit´e que l’´ecart-type vrai soit plus grand que 0.25 est donc 0.54%. 

7-4

Tests d’hypoth` eses

1- La r´epartition des dur´ees de 670 vols Paris-Alger est donn´ee dans le tableau suivant: Dur´ee 1.9-1.95 1.95-2. 2.-2.05 2.05-2.1 2.1-2.15 2.15-2.2 2.2-2.25 2.25-2.3 2.3-2.35 2.35-2.4 2.4-2.45 2.45-2.5 2.5-2.55

Nombre 19 19 39 48 87 94 104 92 57 44 28 26 13

% 2.8 2.9 5.8 7.2 12.9 14.1 15.5 13.7 8.5 6.6 4.2 3.9 1.9

VII-13

% cumul´e 2.8 5.7 11.5 18.7 31.6 45.7 61.2 74.9 83.4 90.0 94.2 98.1 100

Cette distribution est-elle normale ? 2- Soit la suite de valeurs: 23, 14, 41, 50, 43, 70, 63, 91, 85, 113, 122, 134, 117, 108, 96. Cette suite constituet-elle un ´echantillon form´e de r´ealisations ind´ependantes ? R´eponse : On peut tout d’abord utiliser le test de Spearman. Pour cela, on construit la table suivante i SI R ST

1 23 2 14

2 14 1 23

3 41 3 41

4 50 5 43

5 43 4 50

6 70 7 63

7 63 6 70

8 91 9 85

9 85 8 91

10 113 12 96

11 122 14 108

12 134 15 113

13 117 13 117

14 108 11 122

15 96 10 134

o` u i est le rang initial des valeurs de la s´equence initiale SI et R le rang final de la valeur de la deuxi`eme 6×64 ligne dans s´equence tri´ee ST. L’indicateur de Spearman a donc pour valeur 1 − 15×224 = 0.886. D’apr`es la table de Spearman, on rejete l’hypoth`ese d’ind´ependance quelque soit la valeur du risque. On peut aussi utiliser le test des diff´erences premi`eres. On construit alors la table suivante SI yi

23 -

14 +

41 +

50 -

43 +

70 -

63 +

91 -

85 +

113 +

122 +

134 -

117 -

108 -

96

o` u les yi sont les signes des diff´ √erences entre deux valeurs cons´ecutives. L’indicateur des diff´erences √ 12 = 0. On accepte donc l’hypoth`ese d’ind´ependance quelque soit le premi`eres est donc Ind = |7−7| 16 risque. Si les deux tests sont contradictoires, c’est qu’ils ne testent pas la mˆeme nature d’ind´ependance.  3- On dispose d’un ´echantillon de 500 valeurs dont on veut savoir si il correspond `a une distribution de type loi normale. On proc`ede ` a un test du χ2 et la valeur de l’indicateur est 30. Sachant que l’on a constitu´e 17 classes, d´eterminer si l’ad´equation est acceptable. R´eponse : Le nombre de degr´es de libert´e du test est ν = 17 − 3 = 14 (on doit estimer les deux param`etres de la loi normale). Par lecture dans la table du χ2 on obtient les valeurs suivantes p 0.99 p 0.995

v 29.141 30 31.319

Par une approximation locale, on a alors 30 − 29.141 = 0.992 31.319 − 29.141 L’hypoth`ese est donc acceptable jusqu’` a un risque de 0.8% ce qui est tr`es faible. p = 0.99 + (0.995 − 0.99) ×

 4- On dispose de deux ´echantillons dont on sait qu’ils sont li´es `a deux variables al´eatoires X1 et X2 dont les lois sont, respectivement, N (µ1 , σ1 ) et N (µ2 , σ2 ). Quel test proposez-vous pour tester l’ind´ependance de ces deux ´echantillons ? 5- On introduit une modification sur une chaˆıne de production et l’on souhaite en mesurer l’impact. Pour cela, on utilise un indicateur de performance li´e au nombre de clients servis dans les d´elais. On obtient les valeurs suivantes au cours de l’exp´erimentation: VII-14

Mesure 1 2 3 4 5 6 7 8 9 10

Indicateur avant apr`es 148 165 155 155 144 132 129 152 154 133 144 145 132 151 147 145 151 144 119 143

Commenter l’impact de la modification sur la chaˆıne de production. 6- On dispose d’un ´echantillon de n mat´eriels identiques et on note les dur´ees de vie en heures x1 , x2 , . . . , xn . On obtient les valeurs: x1 = 133 x2 = 169 x3 = 8 x4 = 122 x5 = 58 Tester le caract`ere exponentiel de la loi de fiabilit´e par les tests de Kolmogorov-Smirnov et Cramer-Von Mises. 7- Le temps X mis par une machine A pour fabriquer une pi`ece suit une loi normale de param`etres µ = 48min et σ = 5min. La machine A tombant en panne, on fabrique la mˆeme pi`ece avec une machine B. On suppose que le temps de fabrication suit une loi normale de mˆeme ´ecart type. Pour un ´echantillon de 25 pi`eces r´ealis´ees, on a obtenu un temps moyen de fabrication, m = 51min. La machine B est-elle aussi performante que la machine A au risque 0.05 ? R´eponse : On teste l’hypoth`ese H0 : m = 48 avec un test bilat´eral ou unilat´eral. Dans les deux cas, la conclusion est que la machine B est moins performante.  8- Apr`es une enqu`ete sur un ´echantillon de 500 m´enages, on a constat´e que 415 m´enages poss`edaient une voiture. Au risque 5%, cela contredit-il l’hypoth`ese que 80% des m´enages poss`edent une voiture ? Quel est l’intervalle de confiance au risque 5% autour de la valeur trouv´ee ? R´eponse : Il s’agit dans un premier temps de r´ealiser un test bilat´eral sur un proportion. L’hypoth`ese H0 porte sur la valeur vraie 0.8 (H0 : p = 0.8 contre H1 : p 6= 0.8). La r´egion critique du test est donn´ee par r

|fn − 0.8| > u α2

0.8 × 0.2 = 0.018u α2 500

o` u u α2 est lu dans la table de la loi ℵ(0, 1). Pour α = 5%, on obtient u = 1.96 et donc |fn − p| > 0.035 Dans notre exemple, fn = 0.830, donc |fn − p| = 0.03 < 0.035, on peut donc accepter l’hypoth`ese H0 . Cependant, on se trouve au voisinage de la valeur seuil. L’intervalle de confiance ` a 95% autour de la valeur trouv´ee fn est d´efinie par r

P (|p − 0.83| < u

0.83 × 0.17 )=α 500

VII-15

o` u u est lu dans la table de la loi ℵ(0, 1). On trouve u = 1.96 et donc l’intervalle [0.797, 0.863]. La valeur vraie 0.8 est bien dans l’intervalle mais de justesse de mˆeme que pour le test pr´ec´edent. Il y a donc une sensibilit´e ` a envisager en fonction de la valeur du risque dans les deux cas.  9- Une entreprise fait un test de conformit´e sur un produit qu’elle fabrique par une analyse de sa chaˆıne de production. Une ´etude th´eorique permet de conduire `a un pourcentage de conformit´e C = 97%. Compte tenu de la valeur marchande des pi`eces, on veut proc´eder `a un test bilat´eral sur cette proportion par rapport `a la valeur nominale au risque 0.5%. Commentez le choix de ce risque. On r´ealise le pr´el`evement d’un ´echantillon de taille n = 30 et on obtient Cn = 0.933. Doit-on rejeter la valeur th´eorique ? R´eponse : Le risque de 0.5% est tr`es tr`es faible et conduira tr`es vraisemblablement `a une acceptation syst´ematique sans r´eelle signification. Ce risque peut cependant se justifier par la valeur marchande ´elev´ee des pi`eces qui pousse ` a ne pas les mettre au rebut sauf si on est sˆ ur de leur non conformit´e. On construit le test suivant : H0 : C = 0.97 H1 : C 6= 0.97 La r´egion critique est donn´ee par s

|Cn − C| > uα/2

C(1 − C) n

o` u la valeur de uα/2 est lue dans une table de la loi normale N (0, 1). Dans notre cas, on a P (Y < u) = 0.9975 → u = 2.81 et donc l’´ecart maximal entre estimation et valeur th´eorique est s 0.97(1 − 0.97) |Cn − C|max = 2.81 = 0.0875 = λ 30 L’´ecart constat´e sur l’´echantillon est 0.97 − 0.933 = 0.037 < λ, on accepte donc l’hypoth`ese H0 sur la valeur th´eorique. 

7-5

SPC

1- Sur une chaˆıne de production, on proc`ede `a une campagne de mesures (n = 100). Cet ´echantillon est caract´eris´e par sa moyenne x ¯ = 70 et son ´ecart-type σ = 5. Les sp´ecifications de cette production sont (LSL, µ, T, U SL) = (50, 70, 75, 100). Calculer les 4 indicateurs de capabilit´e. Que pouvez-vous en d´eduire ? Interpr´etation. R´eponse : Les indicateurs sont Cp Cpk Cpm Cpmk

1.67 1.33 1.18 0.94

VII-16

Cp est sup´erieur ` a 1.33, on peut donc envisager d’implanter un contrˆole statistique. Mais les trois autres indicateurs sont moins satisfaisant. Une campagne plus approfondie est n´ecessaire.  2- On souhaite construire une carte-contrˆ ole pour une fabrication dans laquelle on consid`ere comme acceptable une proportion de pi`eces d´efectueuses p1 = 0.02. (a) Sachant qu’on pr´el`eve un ´echantillon de taille n, quelle est la loi de la v.a. K, nombre de pi`eces d´efectueuses contenue dans l’´echantillon ? (b) D´eterminer les nombres k1 et k2 tels que Prob(K < k1 ) = 0.95 Prob(K < k2 ) = 0.99 sachant que n = 100. (c) Construisez la carte de contrˆ ole. Indiquez en le mode d’emploi. (d) En utilisant cette carte contrˆ ole, quelle est la probabilit´e de laisser la fabrication se poursuivre alors que la proportion de d´efecteux est en r´ealit´e p2 = 0.04 ou p2 = 0.08 ? Qu’en pensez-vous ?

7-6 7-6 .1

Sujets g´ en´ eraux Probl` eme 1

1- (8 pts) Une machine fabrique des pi`eces rectangulaires dont les deux cˆ ot´es sont X et Y . Cette machine est sujette ` a des d´er`eglements qui induisent, ind´ependamment, des variations dans les cotes th´eoriques qui rendent al´eatoires les cotes mesur´ees. Une analyse syst´ematique des pi`eces a montr´e que ces erreurs sont faibles en valeur, sym´etriques et de mˆeme amplitude et variation pour les deux cotes. 1.1 (1 pt) Proposer un mod`ele (loi) pour les deux variables X et Y . Compte tenu des hypoth`eses sur les erreurs, on peut faire une hypoth`ese de r´epartition selon des lois normales. On posera X : ℵ(E[X], σ 2 ) et Y : ℵ(E[Y ], σ 2 ). Les amplitudes et variations des deux variables ´etant les mˆemes, on peut faire l’hypoth`ese d’´egalit´e des variances. A partir de ces deux variables, on construit deux nouvelles variables al´eatoires d’erreur EX et EY par EX = X − E[X] et EY = Y − E[Y ]. Afinqde simplifier le test de validit´e des pi`eces, on impose une seule 2 + E 2 . On supposera par la suite que V ar[X] = V ar[Y ]. tol´erance sur la norme de l’erreur, N = EX Y 1.2 (2 pts) Quelles sont les lois (avec moyennes et ´ecarts types) des variables al´eatoires EX et EY ? Par simple propri´et´e de la loi normale, on obtient EX : ℵ(0, σ 2 ) et EY : ℵ(0, σ 2 ). 1.3 (2 pts) Quelle est la loi de la variable al´eatoire N ? Compte tenu de l’hypoth`ese d’ind´ependance entre les variables et par d´efinition, la variable N suit une loi de Raleigh. 1.4 (3 pts) On pr´el`eve un ´echantillon relatif ` a la variable al´eatoire N . Cependant, celui-ci est perturb´e par des donn´ees non significatives. On ne peut pas se fier au calcul de la moyenne empirique ni a ` celui de la variance pour d´eterminer le param`etre σN de la loi. Proposez une autre m´ethode pour estimer le param`etre de la loi. VII-17

La densit´e de probabilit´e de la loi de Raleigh est donn´ee par 2

x − x2 f (x) = 2 e 2σN σN La densit´e de Raleigh est une fonction unimodale (courbe de Gauss l´eg`erement asym´etrique). Elle a donc un seul maximum qui est situ´e ` a la valeur qui annule sa d´eriv´ee donn´ee par 2

1 − x2 2x2 f (x) = 2 e 2σN (1 − 2 ) σN 2σN 0

qui s’annule pour x = σN . On peut donc, ` a partir de la densit´e empirique, rep´erer la valeur maximale, i.e., eduire q le mode, et en d´ π une estimation de σ et de fait de la moyenne empirique puisque celle-ci vaut σ 2 . 2- (6 pts) On consid`ere une unit´e de production organis´ee en ˆılots. Sur chacun, on r´esume la qualit´e de la production par une mesure calibr´ee entre -1 et 1. On d´esire tester l’architecture et particuli`erement les effets de propagation des dysfonctionnements d’approvisionnement en provenance du stock central. Sous l’hypoth`ese de r´epartition uniforme des dysfonctionnements, on peut d´eterminer les valeurs th´eoriques de la moyenne et de la variance de l’indicateur de qualit´e. Pour la configuration concern´ee, compos´ee de 250 ˆılots, et sous cette hypoth`ese, on obtient les valeurs vraies suivantes : E[Q] = 0., V [Q] = 0.05. Une ˆ s´erie de mesures sur les ˆılots conduit ` a l’estimation suivante : E[X] = 0.035. Que pouvez-vous conclure ? L’estimateur d’une moyenne peut ˆetre consid´er´e comme une variable al´eatoire de loi normale (l’´echantillon est de taille significative). Soit M cet estimateur, on a donc M : ℵ(E[X], V [X] n ). Pour tester la valeur l’hypoth`ese, on va se ramener `a un test sur la valeur de la moyenne th´eorique, variance connue. On proc`ede au test bilat´eral suivant : H0 : E[X] = 0 H1 : E[X] 6= 0 Nous choisissons un risque de 5%. La r`egle de d´ecision fait intervenir P (Y > t) = 0.025 avec Y loi normale centr´ee et r´eduite. La table correspondante nous donne t = 1.96. La d´etermination du seuil de la r´egion critique du test donne tσ = 0 + 0.028 λ = E[X] + √ 250 La r`egle de d´ecision est donc ˆ si |E[X] − E[X]| < 0.028 alors E[X] = 0 sinon E[X] 6= 0. Donc dans notre cas, on conclut au rejet de l’hypoth`ese H0 . On peut aussi raisonner ` a l’envers en recherchant la valeur du risque associ´ee `a l’hypoth`ese H0 . Dans ce cas, tσ → t = 2.475 λ = 0.035 = E[X] + √ 250 Par lecture dans la table de la loi normale, on obtient P (Y > 2.475) = 1 − 0.9933 = 0.67%. L’erreur de premi`ere esp`ece est donc tr`es tr`es faible (inf´erieure `a 1%) ce qui revient `a dire que l’on est dans un cas o` u l’on serait amener ` a ne jamais rejeter l’hypoth`ese H0 . VII-18

Ces deux approches donne donc un mˆeme raisonnement qui conduit `a conclure que l’hypoth`ese de distribution uniforme des dysfonctionnements n’est pas valid´ee par les donn´ees empiriques. 3- (3 pts) Une machine fabrique des pi`eces dont la longueur suit une loi normale de param`etres µ et σ. On veut proc´eder ` a un test bilat´eral sur la moyenne pour tester cette valeur par rapport ` a la valeur nominale qui est 100 cm au risque 5%. Pour cela, on r´ealise un pr´el`evement d’un ´echantillon de taille n = 100 et on obtient µ ˆ = 99 cm et σ ˆ = 2 cm. Doit-on rejeter H0 ? On proc`ede au test bilat´eral suivant : H0 : µ = 100 H1 : µ 6= 100 La r`egle de d´ecision fait intervenir P (Y > t) = 0.025 avec Y loi de Student `a 99 degr´es de libert´e. La table correspondante nous donne t = 1.99. La d´etermination du seuil de la r´egion critique du test donne tˆ σ λ=µ+ √ = 100 + 0.398 100 La r`egle de d´ecision est donc si |µ − µ ˆ| < 0.398 alors µ = 100 sinon µ 6= 100. Donc dans notre cas, on conclut au rejet de l’hypoth`ese H0 . 5- (3 pts) Afin de tester l’ad´equation d’une loi ` a la loi exponentielle ` a partir d’un ´echantillon (de 50 valeurs), on proc`ede ` a deux tests. Le test du χ2 (8 classes) accepte l’ad´equation. Par contre, sur le mˆeme ´echantillon, le test de Kolmogorov-Smirnov rejette l’hypoth`ese. Que pouvez-vous conclure ? On peut pr´ef´erer le test du KS qui est plus contraignant car pour le test du χ2 , on a 8 classes pour un ´echantillon de taille 50 soit en moyenne 6 valeurs par classes ce qui est peu. 7-6 .2

Probl` eme 2

1- (8 pts) Une machine fabrique des pi`eces rectangulaires dont les deux cˆ ot´es sont X et Y . Cette machine est sujette ` a des d´er`eglements qui induisent, ind´ependamment, des variations dans les cotes th´eoriques qui rendent al´eatoires les cotes mesur´ees. Une analyse syst´ematique des pi`eces a montr´e que ces erreurs sont ind´ependantes, faibles en valeur, sym´etriques et de mˆeme moyenne et variation pour les deux cotes. 1.1 (2 pts) Proposer un mod`ele (loi) pour les deux variables X et Y . Compte tenu des hypoth`eses sur les erreurs, on peut faire une hypoth`ese de r´epartition selon des lois normales. On posera X : ℵ(E[X], σ 2 ) et Y : ℵ(E[Y ], σ 2 ). Les amplitudes et variations des deux variables ´etant les mˆemes, on peut faire l’hypoth`ese d’´egalit´e des variances. A partir de ces deux variables, on construit une variable al´eatoire d’erreur normalis´ee par N=

1 (X + Y − E[X + Y ])2 2 V ar[X + Y ]

1.2 (3 pts) Quelle est la loi (avec moyenne et ´ecarts type) de la variable al´eatoire N ? On obtient une loi Gamma de param`etres (λ, k) = (0.5, 1). Par d´efinition, nous avons E[N ] = V [N ] =

k λ =2 k =4 λ2



VII-19

p

V [N ] = 2

La densit´e de probabilit´e est donn´ee par f (x) =

λk xk−1 e−λx 1 x = e− 2 Γ(k) 2

1.3 (3 pts) On pr´el`eve un ´echantillon relatif ` a la variable al´eatoire N dont on souhaite v´erifier la loi. Cependant, celui-ci est perturb´e par des donn´ees non significatives. On ne peut pas se fier au calcul de la moyenne empirique ni ` a celui de la variance pour valider l’ad´equation de la loi au mod`ele ´etablit. Proposez, en la justifiant, une autre m´ethode. Puisque l’on connait la loi th´eorique avec ses param`etres, on peut construire, pour chaque valeur de l’´echantillon, une mesure de validit´e pourt rejeter ou accepter cette valeur. Ensuite, sur les donn´ees non perturb´ees, on pourra proc´eder ` a un test de type KS ou χ2 . 2- (6 pts) On consid`ere une unit´e de production organis´ee en n ˆılots. Sur chacun, on r´esume la qualit´e de la production par une mesure. Une analyse a montr´e que cette mesure, sur chaque ˆılots, i suit une loi normale Xi de param`etres µi et σi . Pour tester le comportement global, on construit une mesure P Mn = ni Xi2 . On utilise le carr´e pour se ramener ` a une mesure d’amplitude sans prendre en compte le signe. 2.1 (1 pt) Quelle est la loi de la variable Mn ? Il n’y a pas de loi connue pour cette variable al´eatoire. 2.2 (3 pts) Proposez, en le justifiant, une nouvelle mesure Tn dont on pourrait exploiter la loi. Si on proc`ede ` a un centrage r´eduction des Xi donnant ainsi les variables Yi avant d’en faire la somme, alors la nouvelle loi n Tn =

X

Xi2

i

χ2

suivrait une loi du a n degr´es de libert´e. Cette op´eration peut se justifier si on veut compenser des ` probl`emes de calibrage entre les mesures Xi . 2.3 (2 pts) Sur une campagne de mesures, on obtient une r´ealisation de cette variable al´eatoire, tn = 137. Sachant qu’il y a 100 ˆılots, donnez la valeur que cette nouvelle variable prenne une valeur inf´erieure ` a cette mesure. Pour une loi du χ2 ` a 100 degr´es de libert´es, on a les valeurs suivantes : P (Tn < 135.8) = 0.99 P (Tn < 140.16) = 0.995 Par approximation lin´eaire entre ces deux valeurs, on obtient P (Tn < 137) = 0.99 + 0.005 ×

137 − 135.8 = 0.9914 140.16 − 135.8

3- (3 pts) Une entreprise fait un test de validit´e sur un produit qu’elle fabrique. Une ´etude th´eorique donne un pourcentage de rebuts p = 0.05. On veut proc´eder ` a un test bilat´eral sur cette proportion par rapport ` a la valeur nominale au risque 5%. Pour cela, on r´ealise un pr´el`evement d’un ´echantillon de taille n = 100 et on obtient fn = 0.065 cm. Doit-on rejeter H0 ? Le test d’hypoth`ese est donc : H0 : p = 0.05 H1 : p 6= 0.05 VII-20

au risque 5%. La r´egion critique du test est alors s

|Fn − p| > uα/2

p(1 − p) n

o` u uα/2 est lu dans la table de la loi normale centr´ee r´eduite. Pour α = 0.05, on lit u = 1.96 d’o` u la q

r´egion critique |Fn − 0.05| > 1.96 au risque 5%.

0.05×0.95 100

= 0.0218. Comme |fn − 0.05| = 0.015, on peut accepter H0

4- (3 pts) Afin de tester l’ad´equation d’une loi ` a la loi binomiale ` a partir d’un ´echantillon (de 80 valeurs), 2 on proc`ede ` a deux tests. Le test du χ (10 classes) accepte l’ad´equation. Par contre, sur le mˆeme ´echantillon, le test de Kolmogorov-Smirnov rejette l’hypoth`ese. Que pouvez-vous conclure ? L’application du test du χ2 se fait dans de bonnes conditions puisque le nombre d’´echantillons et le nombre de classes sont significatifs. On peut donc accepter le r´esultat du test. Le rejet du test du KS indique simplement qu’une approche plus restrictive donne un r´esultat contraire. Une analyse de l’´echantillon est donc n´ecessaire pour savoir si il n’a pas ´et´e perturb´e. 7-6 .3

Probl` eme 3

1- (6 pts) On souhaite ´etablir un contrˆ ole statistique de fabrication sur une unit´e de production. Sur un ´echantillon de taille 100, on proc`ede ` a une estimation de la mesure de r´ef´erence. On obtient une moyenne de 70 et un ´ecart type de 7. 1.1 (3 pts) Construisez l’intervalle de confiance ` a 90% autour de l’estimation de l’´ecart type. On doit tout d’abord faire une hypoth`ese sur la distribution des mesures. Afin de pouvoir faire un intervalle de confiance sur la moyenne, on supposera que les donn´ees sont distribu´ees selon une loi normale. Comme la moyenne est inconnue (et donc estim´ee), l’intervalle de confiance est donn´e par  

ns2

ns2



 ; χ21− α (n − 1) χ2α (n − 1) 2

2

avec n = 100 et α = .90 D’apr`es la table du χ2 on obtient χ21− α (n − 1) = χ20.95 (99) = 123.25 2

χ2α (n − 1) = χ20.05 (99) = 77.046 2

et donc l’intervalle de confiance sur l’´ecart type est 

7 × 10 7 × 10 √ ;√ = [6.31; 7.98] 123.25 77.05 

VII-21

1.2 (1 pt) On d´efinit la capabilit´e Cp de l’unit´e de production par Cp = 50/(6ˆ σ ) o` uσ ˆ est l’estimation de l’´ecart-type. Quelles sont les valeurs extr`emes de cette capabilit´e ` a 90% de confiance ? Les valeurs extr`emes sont donn´ees par Cp (min) =

50 = 1.045 6 × 7.98

Cp (max) =

50 = 1.32 6 × 6.31

et

1.3 (2 pts) En vous r´ef´erant ` a la table page V-3, qualifiez les capabilit´es obtenues. En se r´ef´erant `a la table de la page V-3 du polycopi´e, on d´eduit que les capabilit´es min et max sont entre mauvaises (1) et tr`es moyennes (1.33). Il est donc difficile d’implanter un contrˆole statistique sur cette unit´e de production. Ce commentaire, interpr´etant la capabilit´e, est rendu possible par l’hypoth`ese de loi normale formul´ee au d´ebut. 2- (6 pts) Dans un processus de production, un syst`eme de surveillance arr`ete le processus si un indicateur de s´ecurit´e atteint une valeur de r´ef´erence. On estime ` a p la probabilit´e que cet indicateur atteigne la valeur de r´ef´erence sur une unit´e de temps. Apr`es chaque unit´e de temps, l’indicateur est r´einitialis´e. Celui-ci est sans m´emoire. On note X la variable al´eatoire qui donne la dur´ee de fonctionnement (en nombre d’unit´es de temps) du processus sans interruption. 2.1 (2 pts) Quelle est la loi de la variable X ? La loi de X est une loi g´eom´etrique de param`etre p (loi du nombre d’essais pour faire appraˆıtre un ´ev`enement de probabilit´e p). 2.2 (2 pts) On constate que P rob(X = 10) = 0.0165. Sachant que p est tr`es petit, proposez une estimation de p. La probabilit´e d’une loi g´eom´etrique de param`etre p est P (X = x) = p(1 − p)x−1 Pour p tr`es petit, on peut approximer cette probabilit´e par P (X = x) ≈ p(1 − (x − 1)p). Donc 0.0165 = p − 9p2 d’o` u p ∈ {0.02; 0.09} Par remplacement, on trouve ais´ement que la deuxi`eme valeur constitue une erreur d’approximation car ne redonnant pas la probabilit´e correcte (P (X = 10) = 0.039). C’est donc l’approximation p = 0.02 que l’on retiendra. 2.3 (2 pts) Quelle est la probabilit´e que le processus se d´eroule sans interruption sur 23 unit´es de temps ? En application des r´esultats pr´ec´edents, on trouve P (X = 23) = 0.02 × (1 − 0.02)22 = 0.0128 3- (3 pts) Une entreprise fait un test de conformit´e sur un produit qu’elle fabrique par une analyse de sa chaˆıne de production. Une ´etude th´eorique permet de conduire ` a un pourcentage de conformit´e VII-22

C = 97%. Compte tenu de la valeur marchande des pi`eces, on veut proc´eder ` a un test bilat´eral sur cette proportion par rapport ` a la valeur nominale au risque 0.5%. Commentez le choix de ce risque. On r´ealise le pr´el`evement d’un ´echantillon de taille n = 30 et on obtient Cn = 0.933. Doit-on rejeter la valeur th´eorique ? Le risque de 0.5% est tr`es tr`es faible et conduira tr`es vraisemblablement `a une acceptation syst´ematique sans r´eelle signification. Ce risque peut cependant se justifier par la valeur marchande ´elev´ee des pi`eces qui pousse `a ne pas les mettre au rebut sauf si on est sˆ ur de leur non conformit´e. On construit le test suivant : H0 : C = 0.97 H1 : C 6= 0.97 La r´egion critique est donn´ee par s

|Cn − C| > uα/2

C(1 − C) n

o` u la valeur de uα/2 est lue dans une table de la loi normale N (0, 1). Dans notre cas, on a P (Y < u) = 0.9975 → u = 2.81 et donc l’´ecart maximal entre estimation et valeur th´eorique est s 0.97(1 − 0.97) = 0.0875 = λ |Cn − C|max = 2.81 30 L’´ecart constat´e sur l’´echantillon est 0.97 − 0.933 = 0.037 < λ, on accepte donc l’hypoth`ese H0 sur la valeur th´eorique. 4- (2 pts) Afin de tester l’ad´equation d’une loi ` a la loi binomiale ` a partir d’un ´echantillon, on dispose de 25 valeurs. Quel test pr´econisez-vous ? Pourquoi ? Dans ce cas, avec un tr`es faible ´echantillon, il n’est pas envisageable de r´eellement utiliser le test du χ2 . On pr´ef`erera donc un test de Kolmogorov-Smirnov. On peut aussi pr´ef´erer le test de Cramer-Von Mises qui est plus puissant (au sens de la puissance du test, 1 − β). 5- (3 pts) D´emontrez que l’estimateur du maximum de vraisemblance du param`etre λ d’une loi de Poisson est la moyenne exp´erimentale. La fonction de vraisemblance de la loi de Poisson est donn´ee par L(~x, λ) =

i=n Y i=1

λxi e−λ xi !

Soit en passant par le logarithme, log L(~x, λ) =

i=n X

(xi × log(λ) − λ − log(xi !))

i=1

En d´erivant par rapport au param`etre λ, on obtient X ∂ log L(~x, λ) i=n 1 = (xi × − 1) = ∂ λ i=1

VII-23

Pi=n i=1

λ

xi

−n

L’estimateur de λ au sens du maximum de vraisemblance est obtenu en annulant cette expression, on retouve donc bien la formule de la moyenne exp´erimentale ˆ= λ

7-6 .4

Pi=n i=1

xi

n

Probl` eme 4

1- (6 pts) Le merle ` a plastron est un oiseau qui en automne erre dans les bois clairs et les buissons des montagnes. En 1968, une station ornithologique du Col de la Gol`eze situ´ee dans les Alpes fran¸caises, a captur´e 48 merles ` a plastron au filet durant les 89 jours d’ouverture de la station. On note X la variable al´eatoire qui donne le nombre de merles captur´es en fonction du nombre de jours. 1.1 (2 pts) Quelle est la loi de la variable X ? R´eponse : Si la r´epartition dans le temps des captures de merles `a plastron est al´eatoire, la distribution de probabilit´e ob´eit ` a une loi de Poisson. En effet, chaque ´epreuve consiste en la capture d’un merle. Cette capture se produit ou non un jour J donn´e. La probabilit´e qu’elle se produise le jour J est donc 1/89 = 0.011. Cette probabilit´e est faible et le nombre d’´epreuves est important (48). Si ces ´epreuves sont ind´ependantes (pas de ph´enom`ene d’habituation chez les merles), on peut faire l’hypoth`ese de la loi de Poisson. 1.2 (2 pts) Quelle est la valeur du param`etre de cette loi ? R´eponse : Dans le cas de la loi de Poisson, le param`etre λ est obtenu par λ = n × p = 48 ×

1 = 0.539 89

1.3 (2 pts) Quelle est la probabilit´e de capturer 2 merles en une journ´ee ? R´eponse : La valeur est donn´ee par P (X = 2) =

e−0.539 0.5392 = 0.085 2!

2- (4 pts) Une entreprise fait un test de conformit´e sur deux machines. Sur des ´echantillons de tailles respectivement pour les deux machines, 75 et 55, les nombres de d´efauts sont, respectivement pour les deux machines, 7 et 5. Les deux machines sont-elles aussi fiables au risque 5% ? R´eponse : On veut tester l’hypoth`ese d’´egalit´e des proportions th´eoriques de d´efauts sur les deux machines. H 0 : p1 = p2 H1 : p1 6= p2 Pour cela, on construit l’indicateur f1 − f2 z=q pˆ(1 − pˆ)( n11 + avec pˆ =

n1 f1 + n2 f2 n1 + n2 VII-24

1 n2 )

Dans notre cas, on obtient 5+7 = 0.0923 55 + 75

pˆ = et

0.0909 − 0.0933 z=q 1 0.0923(1 − 0.0923)( 55 +

= −0.0467

1 75 )

La r´egion d’acceptation est d´efinie par [−t1− α2 , t1− α2 ] o` u t1− α2 = t0.975 est lue dans la table de la loi normale centr´ee r´eduite par P (Y < t0.975 ) = 1.96. Sans ambigu¨ıt´e (0.0467 << 1.96), les deux machines sont ´equivalentes. 3- (4 pts) Soit X, une variable repr´esentant le r´esultat des ´etudiants ` a un examen de math´ematique. Sur les 500 ´etudiants, on en a choisi 50 au hasard (sans remise). Leurs points sont les suivants : 40 ´el`eves ont eu 60 points; 5 ´el`eves ont eu 50 points et les autres 30 points. Donner un intervalle de confiance pour la moyenne ´echantillon ` a un niveau de confiance de 99%. R´eponse: Comme on ne sait rien sur la variable, on ne peut pas faire d’hypoth`ese de loi normale mais on a plus de 30 valeurs pour faire les estimations. Donc on peut proc´eder aux estimations des moments. m=

s2 =

40 5 5 × 60 + × 50 + × 30 = 56 50 50 50

5 5 40 × (60 − 56)2 + × (50 − 56)2 + × (30 − 56)2 = 84 50 50 50

On peut aussi utiliser un estimateur sans biais qui donne, s2 =

50 49 84

= 85.71

Pour la moyenne, cela donne m = 56 et pour l’´ecart type, on a s = 9.26. On veut P (a < µ < b) = 0.99. On prend un intervalle sym´etrique de la forme P (m− √tsn < µ < m+ √tsn ) o` u t est lue dans une table de la loi de Student `a 49 degr´es de libert´es, soit environ t = 2.69 ce qui nous donne finalement un intervalle de confiance de la forme: I99% = [52.5; 59.5] 4- (3 pts) D´eterminez la valeur de l’esp´erance math´ematique de la loi Gamma. (On rappelle que le domaine de d´efinition de cette loi est <+ .) R´eponse : La loi Gamma a pour densit´e de probabilit´e f (x) =

λk xk−1 e−λx Γ(k)

Et son esp´erance math´ematique est E[] =

Z +∞ λk xk−1 e−λx

x

0

E[] =

Γ(k)

Z +∞ k k −λx λ x e 0

Γ(k) VII-25

dx

dx

On rappelle de plus que Z +∞

Γ(x) =

ux−1 e−u du

0

On pose tout d’abord y = λx, avec dy = λdx. On obtient alors E[] =

Z +∞ k −y y e 0

λΓ(k)

dy =

1 λΓ(k)

Z +∞

y k e−y dy =

0

1 Γ(k + 1) λΓ(k)

La fonction Γ() est telle que Γ(k + 1) = kΓ(k) Donc k λ

E[] =

On peut aussi obtenir ce r´esultat par int´egration par partie, en posant U 0 (y) = e−y dy U (y) = −e−y V (y) = y k V 0 (y) = ky k−1 On obtient alors E[] = Soit E[] =

[−y k e−y ]+∞ 0

Z +∞ ky k−1 e−y

+

Z +∞ ky k−1 e−y 0

λΓ(k)

o` u

Z +∞

Ik =

λΓ(k)

0

dy =

dy

k Ik−1 λΓ(k)

y k e−y dy

0

Par r´ecurrence, on obtient alors E[] =

k.(k − 1) . . . 1 k! I0 = λΓ(k) λΓ(k)

Z +∞ 0

E[] =

e−y dy =

k k [−e−y ]+∞ = 0 λ λ

k λ

5- (3 pts) Dans l’hˆ opital Hiks, la salle Igrec contient 30 patients contamin´es par le virus Zed. Le traitement que l’on fournit, gu´erit avec une probabilit´e de r´eussite de 4/7. Quelles sont les probabilit´es de ne pas gu´erir 10 patients ? Et 25 patients ? R´eponse : On suppose que tous les patients sont ´equivalents en regard du traitement. Soit la variable al´eatoire X, vrai/faux, associ´e ` a l’´ev`enement ”ne pas gu´erir un patient”. On construit, par r´ep´etition, une variable al´eatoire Y de type binomiale. Y = n est donc associ´e `a l’´ev`enement, ”ne pas gu´erir n patients”. On peut donc dire que 10 4 20 3 10 P (ne pas gu´erir 10 patients) = P (Y = 10) = C30 ( ) ( ) = 0.0865 7 7

De mˆeme, on obtient 25 4 5 3 25 P (ne pas gu´erir 25 patients) = P (Y = 25) = C30 ( ) ( ) ≈ 5.5 × 10−6 7 7

VII-26

8

Bibliographie

Cette bibliographie ne se veut pas repr´esentative des centaines de livres couvrant le domaine des probabilit´es et statistiques. Il s’agit simplement de la liste des documents qui ont ´et´e utilis´es lors de la r´ealisation de ce polycopi´e. [Cha 94] P.Chang & K.Lu (1994) PCI Calculations for Any Shape of Distribution with Percentile, Quality World-Technical Supplement, Sep., 110–114. [Deh 96] O.Deheuvels (1996) La probabilit´e, le hasard et la certitude, Presses Universitaires de France, Que sais-je, 3. [Dio 97]

E.Dion (1997) Invitation ` a la th´eorie de l’information, Edition du Seuil, Collection Point Sciences.

[Dud 73] R.O.Duda & P.E.Hart (1973) Pattern Classification and Scene Analysis, John Wiley & Sons, New York. [Gho]

D. Ghorbanzadeh (1998) Probabilit´es : Exercices corrig´es, Editions Technip.

[Gou 81] C.Goujet & C.Nicolas (1981) Math´ematiques Appliqu´ees: probabilit´es, initiation ` a la recherche op´erationnelle, Masson. [Iso 95]

ISO Standard (1995) Statistical methods for Quality Control, 4th edition, ISO Standards Handbook.

[Joh 93]

N.L.Johnson & S.Kotz (1993) Process Capability Indices, Chapman & Hall.

[Kun 91] M.Kunt (1991) Techniques modernes de traitement num´erique des signaux, Presses polytechniques et universitaires romandes. [Mon 96] D.C.Mongomery (1996) Introduction to Statistical Quality Control, 3rd edition, Wiley and sons, Inc. [Per 00]

G.Perrin (2000) Effects of non-normality on Cost of Quality, University of Nottingham, Division of Manufacturing Engineering and Operations Management.

[Pre86]

W.H.Press, B..Flannery, S.A.Teukolsky & W.T.Vetterling, Numerical Recipes: The Art of Scientific Computing, Cambridge University Press, 1986.

[Rea96]

J.P.Reau & G.Chauvat, Probabilit´es et statistiques. Excercices et corrig´es, Armand Colin, Collection cursus TD, s´erie ´economie, 1996.

[Sap 90] G.Saporta (1990) Probabilit´es, Analyse des donn´ees et statistique, Edition Technip. [Sch 84]

D.Schwartz (1984) M´ethodes statistiques ` a l’usage des m´edecins et des biologistes, Flammarion, M´edecine-Sciences, Collection Statistique en biologie et m´edecine.

[Sch 80]

J.J.Schwarz (1980) Combinatoire et Probabilit´es, Polycopi´e de cours, D´epartement Informatique, INSA Lyon.

[Sch 80b] J.J.Schwarz (1980) Statistique: rappels de cours et exemples, Polycopi´e de cours, D´epartement Informatique, INSA Lyon. [Sch 88]

B.Scherrer (1988) Biostatistique, Edition Gaetan Morin.

Bib-1

De mˆeme, les liens suivants (valides au moment du tirage du polycopi´e) sont quelques points d’entr´ee sur le Web. Cette liste s’intensifiera si vous trouvez des liens int´eressants et que vous m’en faites part. • http://www.statsoft.com/textbook/stathome.html : une bible en anglais de tout ce que vous pouvez r´ever en statistique. • http://www.fourmilab.com/rpkp/experiments/contents.html : pour ceux qui s’int´eressent au pouvoir de la pens´ee sur les nombres. • http://www.dagnelie.be : une introduction sur les livres de statistiques de Pierre Dagnelie. • http://www.cons-dev.org/elearning/stat/St1.html : un cours tr`es complet sur les tests.

Bib-2


Related Documents


More Documents from "Celina Rodrigues"

1214
December 2019 29
992
December 2019 27
960
December 2019 22
1482
December 2019 21
1463
December 2019 21
1465
December 2019 14