Cours De Statistique

  • Uploaded by: Rafael
  • 0
  • 0
  • June 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Cours De Statistique as PDF for free.

More details

  • Words: 32,308
  • Pages: 326
1

STATISTIQUE I (STAT-D-101) ECTS: 5 (th´eorie: 2, exercices: 2, travaux personnels: 1) Catherine Dehon Bˆatiment S - 11`eme ´etage - bureau S11.226 T´el.: (02) 6503858 e-mail: [email protected] Universit´e libre de Bruxelles Ann´ee 2009-2010

1`ere ann´ee - Bachelier en sciences ´economiques

Version 2

2

AVERTISSEMENT

Ce syllabus a ´et´e r´edig´e dans le but de faciliter la prise de notes pendant le cours th´eorique. La mise a` jour du pr´esent syllabus sera faite via le cours th´eorique. Il est bien entendu que l’examen portera sur l’ensemble de la mati`ere vue au cours th´eorique (des ´el´ements pourraient ˆetre ajout´es oralement au cours) ainsi que la mati`ere des travaux pratiques.

3

A savoir .... • Buts du cours: 1. Introduction des concepts statistiques afin de r´ealiser des analyses descriptives sur des variables quantitatives et/ou qualitatives. 2. Introduction des ´el´ements du calcul de probabilit´es et des lois de probabilit´e univari´ee discr`ete pour pr´eparer les probl`emes d’inf´erence statistique qui seront ´etudi´es en 2`eme ann´ee. 3. Mise en pratique des connaissances dans des situations de la vie de tous les jours. • M´ ethode d’enseignement et support: Th´eorie : Cours ex cathedra. Syllabus de th´eorie contenant la copie des transparents projet´es (et comment´es) au cours disponible sur le site: http://www.ulb.ac.be/soco/statrope/.

4

• Exercices: Subdivision des ´etudiants en groupes de T.P. Les ´enonc´es des exercices sont disponibles sur le site ci-avant. Quelques examens r´esolus des ann´ees pr´ec´edentes sont ´egalement t´el´echargeables sur ce site. En outre, des permanences et des guidances sont organis´ees. • M´ ethode d’´ evaluation: Une ´epreuve ´ecrite dispensatoire est organis´ee durant la session de janvier. L’examen comporte une partie th´eorique et une partie pratique, sans interruption entre les deux. Aucune note personnelle n’est autoris´ee. Les ´etudiants peuvent (re)pr´esenter une ´epreuve durant la session de mai/juin. Dans ce cas, la note obtenue remplace celle de l’´epreuve de janvier.

Chapitre 1 INTRODUCTION A LA STATISTIQUE But: Transformer des donn´ees en information La Statistique: ensemble de m´ethodes et outils math´ematiques visant `a collecter, d´ecrire et analyser des donn´ees afin d’obtenir de l’information permettant de prendre des d´ecisions malgr´e la pr´esence d’incertitude (erreur, bruit)

5

CHAPITRE 1. INTRODUCTION A LA STATISTIQUE

6

La statistique joue un rˆole essentiel dans de nombreuses disciplines: • en ´economie: taux de croissance, nombre de brevets d´epos´es, prix de l’immobilier,... • en finance: rentabilit´e d’un investissement,... • en marketing: ´etude de march´e, ... • en gestion des ressources humaines: absent´eisme,... • en m´edecine: mise sur le march´e de nouveaux m´edicaments, ... • en sciences sociales, en sciences politiques, etc

⇓ la statistique est l’outil de confrontation d’une th´eorie scientifique a` l’observation

CHAPITRE 1. INTRODUCTION A LA STATISTIQUE

1.1 1.1.1

7

EXEMPLES RENTABILITE D’UN INVESTISSEMENT

Pour investir intelligemment vos ´economies, vous allez voir le conseiller de votre banque qui vous sugg`ere 2 types d’investissement: - investir dans le secteur de l’informatique - investir dans le secteur agro-alimentaire. Votre but est double: - maximiser les profits - minimiser les risques. Pour prendre la d´ecision, vous r´ealisez une ´etude statistique.

CHAPITRE 1. INTRODUCTION A LA STATISTIQUE

8

1. Collecte des donn´ ees S´electionner au hasard un ´echantillon de 100 entreprises dans le secteur de l’informatique et 100 dans le secteur de l’agro-alimentaire. Calculer le taux de rentabilit´e de l’investissement pour chaque entreprise (rate of return on investissment): ROI = B´en´efice/Valeur de l’investissement. Exemples: - investir 100 euros en 2004 et avoir 106 euros en 2005 donc b´en´efice de 6 euros: ROI = 6/100 = 0.06 = 6% - investir 100 euros en 2004 et avoir 80 euros en 2005 donc perte de 20 euros: ROI = -20/100 = -20%.

CHAPITRE 1. INTRODUCTION A LA STATISTIQUE

9

2. Statistique Descriptive: Tableaux-Graphiques • Variable ´etudi´ee: taux de rentabilit´e. • Variable quantitative continue. • Variable ´etudi´ee sur 2 populations: Info et Agro alimentaire. • Effectif: n=100 dans chaque secteur. Informatique ROI(%)

Agro-Ali

ROI(%)

Entreprise 1

10

Entreprise 1

7

Entreprise 2

-5

Entreprise 2

3

···

···

···

···

Entreprise 99

30

Entreprise 99

-2

Entreprise 100

-25

Entreprise 100

10

CHAPITRE 1. INTRODUCTION A LA STATISTIQUE

10

Graphiques: Histogrammes

4 0

2

effectif

6

8

Secteur de l’informatique

-10

-5

0

5

10

5

10

ROI

6 0

2

4

effectif

8

10

12

Secteur de l’agroalimentaire

-10

-5

0 ROI

Comparaison des 2 histogrammes: • centre de la distribution plus a` gauche pour le secteur informatique donc moins rentable • dispersion plus grande en informatique donc plus risqu´e =⇒ Investir dans l’agro alimentaire.

CHAPITRE 1. INTRODUCTION A LA STATISTIQUE

11

Statistiques descriptives: Param` etres Calculs de quelques statistiques: Param`etres Informatique Agro-Ali Minimum

-6.92

-0.66

Maximum

10.56

7.21

M´ediane

1.79

3.53

Moyenne

1.50

3.40

Ecart-type

2.99

1.96

Asym´etrie ...

CHAPITRE 1. INTRODUCTION A LA STATISTIQUE

12

3. Inf´ erence statistique (BA2)

• Tester l’´egalit´e des moyennes des taux de rentabilit´e dans les 2 secteurs • Tester si la moyenne des ROI dans le secteur de l’informatique est significativement plus petite que dans le secteur agro alimentaire (donc moins rentable en moyenne) • Tester si la dispersion dans les 2 secteurs est identique, tester si le secteur de l’informatique est plus risqu´e • ...

CHAPITRE 1. INTRODUCTION A LA STATISTIQUE

1.1.2

13

PROBLEME D’ABSENTEISME EN ENTREPRISES

(Chadhury, Ng, “Canadian Journal of Economics”, 1992)

L’absent´eisme r´eduit la production de ± 10% ⇓ Deux ´economistes ont s´electionn´e 100 firmes et mesur´e le nombre moyen de jours d’absence par employ´e sur une ann´ee. Cette variable (X1) est quantitative. Ils ont ´egalement mesur´e plusieurs variables susceptibles d’influencer le taux d’absent´eisme: X2 = salaire moyen (quantitative continue) X3 = % d’employ´es part-time (idem) X4 = capacit´e `a travailler en ´equipe (0=non, 1=oui =⇒ variable qualitatitve dichotomique) X5 = qualit´e des relations avec le manager (0=mauvais, 1=bon =⇒ Idem)

CHAPITRE 1. INTRODUCTION A LA STATISTIQUE

14

1. Statistique Descriptive: Graphiques

Hist. du salaire moyen

Hist. du pourcentage de Part Time

0

5

10

15

0

10000

30000

50000

0

10

20

30

40

Graphique 2 dimensions

Graphique 2 dimensions

Graphique 2 dimensions

0.0

0.2

0.4

0.6

Manager

0.8

1.0

12 2

4

6

8

Absent

10

12 10 8 6 4 2

4

6

8

Absent

10

12

14

Part Time

14

Salaire

14

Absenteisme

2

Absent

0

0

0

5

5

5

effectif

10 effectif

15 10

effectif

10

20

15

15

Histogramme du taux d’absenteisme

15000

25000 Salaire

35000

0

5

10

15 Part.Time

20

25

30

CHAPITRE 1. INTRODUCTION A LA STATISTIQUE

15

2. Statistiques descriptives univari´ ees Absent Salaire Minimum

2.10

12023

Maximum

14.8

M´ediane

PT Equipe Manager 0

0

0

42986 30.80

1

1

5.65

22586

1

1

Moyenne

6.23

23587 11.52

0.67

0.64

Ecart-type

3.36

6656.19 8.08

0.47

0.48

Skewness

0.66

0.80

0.58

-

-

Kurtosis

2.44

3.38

2.46

-

-

9.10

Diff´erents types de variables ⇓ Attention aux interpr´etations !!!!

CHAPITRE 1. INTRODUCTION A LA STATISTIQUE

16

3. R´ egression lin´ eaire multiple (Stat2) Le taux d’absent´eisme peut ˆetre expliqu´e en partie par les autres variables (en supposant un lien lin´eaire). Dependent Variable: ABSENT Variable

Coefficient

t-Statistic

SALAIRE

-0.000211

-5.319899

PART-TIME -0.093396

-2.862929

1.491396

2.671433

MANAGER -2.706436

-4.951130

EQUIPE C R-squared

13.01733

11.43809

0.416499 F-statistic: 16.95260

Le taux d’absent´eisme diminue si - le salaire moyen augmente - le pourcentage de part time augmente - non capacit´e a` travailler en ´equipe - les relations avec le manager sont bonnes

CHAPITRE 1. INTRODUCTION A LA STATISTIQUE

1.2

17

MOTS CLEFS

• Population: collection compl`ete (dans le sens o`u elle inclut tous les individus a` ´etudier) d’individus sur laquelle porte l’´etude • Param`etre: mesure num´erique d´ecrivant une caract´eristique de la population • Echantillon: sous-ensemble d’individus obtenus a` partir de la population (m´ethodes de sondage) • Une statistique: mesure num´erique d´ecrivant une caract´eristique de l’´echantillon • Donn´ee: fait num´erique ou non porteur d’information

CHAPITRE 1. INTRODUCTION A LA STATISTIQUE

18

• Variable: Caract´eristique dont la valeur change d’un individu a` l’autre dans la population • Type de variable: - variable directe: mesurable directement (salaire) - indicateur: non mesurable directement (sant´e des entreprises belges cot´ees en bourse: BEL20) - variable qualitative: caract´eristiques (modalit´es) non num´eriques (profession) - variable dichotomique: variable qualitative ne prenant que 2 modalit´es (sexe) - variable quantitative dicr`ete: valeurs num´eriques discr`etes, isol´ees (nombre d’enfants) - variable quantitative continue: valeurs num´eriques sur un intervalle continu (salaire)

CHAPITRE 1. INTRODUCTION A LA STATISTIQUE

19

• Le choix d’une ´echelle de mesure n’est pas unique: - ´echelle nominale: donn´ees non num´eriques qui ne peuvent pas ˆetre ordonn´ees (type de film) - ´echelle ordinale: donn´ees non num´eriques poss´edant un ordre naturel (avis p´edagogiques) - ´echelle d’intervalle: donn´ees num´eriques avec interpr´etation possible des diff´erences entre individus mais pas de z´ero unique (date) - ´echelle de rapport: ´echelle d’intervalle avec la notion suppl´ementaire de z´ero naturel (ˆage) ECHELLE

ECHELLE

NOMINALE

ORDINALE

D´enombrement D´enombrement Comparaison

ECHELLE

ECHELLE

D’INTERVALLE DE RAPPORT D´enombrement

D´enombrement

Comparaison

Comparaison

Diff´erence

Diff´erence Rapports

CHAPITRE 1. INTRODUCTION A LA STATISTIQUE

1.3

20

DEMARCHE SCIENTIFIQUE

Objectif(s) a` atteindre, Question(s) `a poser ⇓ Collecte des donn´ees:relev´e direct, exp´erimentation, enquˆete exhaustive (recensement), enquˆete partielle (sondage) ⇓ Analyse descriptive: univari´ee (Stat 1) et bivari´ee (Stat 1) P-vari´ee (Analyse des donn´ees) ⇓ Analyse confirmatoire: Inf´erence statistique Estimation, Tests d’hypoth`ese (Stat 2) R´egression Lin´eaire et S´eries Chrono. (Econom´etrie) ⇓ Pr´evisions, Conclusions, D´ecisions

CHAPITRE 1. INTRODUCTION A LA STATISTIQUE

21

=⇒ Deux grandes aires d’´ etude: • Statistique descriptive: Etape pr´eliminaire qui ´etudie l’´echantillon en produisant des graphiques et des valeurs num´eriques (statistiques) r´esumant l’information du jeu de donn´ees • Inf´erence statistique: facilite le processus de d´ecision en utilisant des proc´edure d’estimation, de probl`emes de tests, ...qui permettent de tirer des conclusions sur la populatipon a` partir de l’´echantillon Lien entre Statistique et Probabilit´ e: Probabilit´e Population −→ Echantillon Inf´erence Statistique Echantillon −→ Population

CHAPITRE 1. INTRODUCTION A LA STATISTIQUE

1.4

22

PLAN DU COURS

• Introduction • Analyse descriptive: s´erie statistique univari´ee • Probabilit´e • Analyse descriptive: s´erie statistique bivari´ee • Analyse d’une s´erie chronologique • Variables al´eatoires et lois de probabilit´es discr`etes

CHAPITRE 1. INTRODUCTION A LA STATISTIQUE

1.5

23

REFERENCES

• Anderson D., Sweeney D., Williams T. (2001), Statistiques pour l’´economie et la gestion, Bruxelles, De Boeck Universit´e. • Dagnelie P. (1998), Statistique th´eorique et appliqu´ee. Tome 1: Statistique descriptive et bases de l’inf´erence statistique, Bruxelles, De Boeck Universit´e. • Dehon, C. , Droesbeke, J-J. et Vermandele C. (2008), El´ements de statistique, Bruxelles, Editions de L’Unviversit´e de Bruxelles. • http://www.ulb.ac.be/soco/statrope/ (notes de cours)

Chapitre 2 STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE • Etape pr´eliminaire `a toute ´etude statistique. • Permet de “prendre contact” avec l’´echantillon. • Se divise en 2 aires: - ´elaboration de tableaux et graphiques - valeurs num´eriques r´esumant l’´echantillon (statistiques).

24

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

2.1

25

NOTATIONS

Les donn´ees sont souvent collect´ees dans un tableau Individus × Caract` eres Var-Ind 1

1

2

...

j

...

p

2

x11 x12 . . . x1j . . . x1p x21 x22 . . . x2j . . . x2p

···

··· ··· ··· ··· ··· ···

i ···

xi1 xi2 . . . xij . . . xip ··· ··· ··· ··· ··· ···

n

xn1 xn2 . . . xnj . . . xnp

• n: Taille de l’´echantillon • p: nombre de variables ⇓ Matrice de donn´ees de dimension n × p =⇒ S´erie statistique `a p-dimension.

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

26

Remarques • S´erie univari´ee si p = 1: {x1, x2, . . . , xn} = {xi; i = 1, . . . , n} • S´erie bivari´ee si p = 2: {(x1, y1), . . . , (xn, yn)} = {(xi, yi); i = 1, . . . , n} • S´erie ordonn´ee: D´efinition: La s´erie ordonn´ee {x(1), x(2), . . . , x(n)} est telle que : x(i) ≤ x(j) si i ≤ j, o`u ≤ d´efinit la relation d’ordre. (i) est appel´e le rang de l’observation x(i). Exemple: S´erie observ´ee: {xi; i = 1, . . . , 6} = {2, 0, −1, 1, 4, 3} S´erie ordonn´ee: {x(i); i = 1, . . . , 6} = {−1, 0, 1, 2, 3, 4} Ainsi: x(1) = x3, x(3) = x4, x(6) = x5.

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

2.2

27

TABLEAUX ET GRAPHIQUES

A. Donn´ ees nominales (qualitatives) Exemple 1: Donn´ees reprenant tous les achats par carte de cr´edit aux USA durant les 6 premiers mois de 1998. La variable ´etudi´ee est la nature de la carte utilis´ee (The Nilson Report, Oct. 8, 1998). Sur les 200 milliards achats effectu´es, on a la r´epartition suivante: • 36 milliards d’achats avec la carte American express • 2 milliards d’achats avec la carte Diners Club • 12 milliards d’achats avec la carte Discover • 50 milliards d’achats avec la Master card • 100 milliards d’achats avec la carte VISA

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

28

R´esum´e de l’information: Tableau des effectifs xj

nj (unit´e: milliard)

American express

36

Diners Club

2

Discover

12

Master card

50

Visa

100

PJ

j=1 nj =

n=200

• x1, x2, x3, x4, x5 repr´esentent les 5 modalit´es disctinctes observ´ees • J est le nombre de modalit´es disctinctes observ´ees (ici J = 5). • nj est l’effectif associ´e `a xj pour j = 1, . . . , 5 • La s´erie univari´ee est donc r´esum´ee par { (xj , nj ); j = 1, . . . , J} = { (AE, 36), (DC, 2), (D, 12), (M C, 50), (V, 100)}

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

29

Alternative aux effectifs (nj ) : l’utilisation des fr´equences: nj (j = 1, . . . , J) fj = n Les fr´equences repr´esentent le pourcentage d’obervations ´egales a` xj . Tableau des fr´ equences xj

nj

fj

American express 36 0.18 Diners Club

2 0.01

Discover

12 0.06

Master card

50 0.25

Visa

100 0.50 200

Remarque:

PJ

j=1 fj = 1.

1

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

30

Repr´esentations graphiques Bar Chart

80 60 Effectif(nj) 40 20 0

0

20

40

Effectif(nj)

60

80

100

Ordre DØcroissant

100

Ordre AlphabØtique

AE

DC

D

ModalitØ

MC

VISA

VISA

MC

AE

D

DC

ModalitØ

=⇒ Choix arbitraire sur les axes puisqu’il n’existe pas d’ordre naturel entre les modalit´es.

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

Diagramme en secteurs (Pie Chart) Concept de proportion

6.0% 1.0% 25.0% 18.0%

50.0%

xj

nj

fj (%)

Degr´e

American express

36

0.18

64.8

Diners Club

2

0.01

3.6◦

Discover

12

0.06

21.6

Master card

50

0.25

90◦

Visa

100

0.50

180◦

200

1

360◦

31

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

32

Tableau disjonctif complet • Nombre de lignes = nombre d’individus (achats) • Nombre de colonnes = nombre de modalit´es (5 cartes de cr´edit) • Chaque colonne est une variable binaire prenant la valeur 1 si l’individu poss`ede cette modalit´e et 0 sinon. Individu

1 2

3

4 . . . 200 ∗ 109

Type de cartes V D AE V . . . 0

0

0

0

1

0

0

1

0

0

X= 1

0

0

0

0

0

0

0

0

1

··· ··· ··· ··· ··· 0

1

0

0

0

DC

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

33

B. Donn´ ees ordinales (qualitatives) Exemple 1: Avis p´edagogique: ´evaluation d’un cours par les ´etudiants. • Tableau des effectifs avec n = 100 et J = 5: xj TD D M F TF nj

1

9 40 35 15

Ordre naturel entre les modalit´es ⇓ Tableau des fr´ equences cumul´ ees o`u: • Effectif cumul´e: Nj = n1 + . . . + nj (nombre d’observations ≤ xj ) Nj • Fr´equence cumul´ee: Fj = n

(pourcentage d’observations ≤ xj )

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

34

• Tableau des effectifs cumul´ es et des fr´ equences cumul´ ees xj nj

Nj Fj TD 1 0.01 1 0.01 D

fj

9 0.09 10 0.10

M 40 0.40 50 0.50 F

35 0.35 85 0.85

TF 15 0.15 100 100

1

1

• 10% des ´el`eves interrog´es ont un avis tr`es d´efavorable ou d´efavorable. • 85 ´el`eves sur 100 ont un avis ´egal ou inf´erieur a` la notation favorable. • 15% des ´el`eves ont un avis tr`es favorable.

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

35

Repr´esentations graphiques Diagramme en barres des effectifs et des fr´equences (Bar Chart) Diagramme en barres (frØquences)

0.2

Frequence(fj)

0.1

20 0

0.0

10

Effectif(nj)

30

0.3

40

0.4

Diagramme en barres (effectifs)

TD

D

M

F

TF

Avis PØdagogiques

TD

D

M

F

TF

Avis PØdagogiques

Diagramme en blocs

120 TD

D

M

F

100

80

60 TF

40

20

0

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

36

Exemple 2: Etude sur le niveau de diplˆome des 25 managers am´ericians les mieux pay´es (Forbes, May 17, 1999). Top

Noms

Soci´et´e

Niveau de diplˆome

1.

Michael d. Eisner

Walt Disney

Bachelier

2.

Mel Karmazin

CBS

Bachelier

3.

Stephen M. Case

American Online

Bachelier

4.

Stephen C. Hilbert

Conseco

None

5.

Craig R. Barrett

Intel

Doctorat

6.

Millard Drexler

Gap

Master

7.

John F. Welsch, Jr.

General Electric

Doctorat

...

...

...

...

10.

Reuben Mark

Colgate-Palmolive

Master

...

...

...

...

13.

Margaret C. Whitman

eBay

Master

14.

Louis V. Gerstner,Jr.

IBM

Master

...

...

...

...

17.

M. Douglas Ivester

Coca-Cola

Bachelier

...

...

...

...

20.

William R. Steere, Jr

Pfizer

Bachelor

21.

Nolan D. Archibald

Black-Decker

Master

...

...

...

...

25.

Richard Jay Kogan

Schering-Plough

Master

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

• Tableau des effectifs: n = 25, J = 4 xj None Bachelier Master Doctorat/Droit nj

1

7

11

6

Diagramme en barres (Bar Chart)

3 2 1 0

Effectif(nj)

4

5

6

25 Best−Paid Executives

None

Bachelor

Master

Doctorate

37

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

38

• Tableau des fr´ equences cumul´ ees o`u: Effectif cumul´e: Nj = n1 + . . . + nj (nombre d’observations ≤ xj ) Nj Fr´equence cumul´ee: Fj = n

(pourcentage d’observations ≤ xj ) Highest Degree nj fj Nj Fj None 1 0.04 1 0.04 Bachelors

7 0.28 8 0.32

Masters

11 0.44 19 0.76

Doctorale/law 6 0.24 25 25

1

1

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

39

Remarque: on peut aussi calculer les effectifs et fr´equences cumul´es a` droite: • Effectif cumul´e `a droite: Nj∗ = nj + nj+1 + . . . + nJ (nombre d’observation ≥ xj ) ∗ N j • Fr´equence cumul´ee a` droite: Fj∗ = n

(pourcentage d’observations ≥ xj ) Exercice: r´ealiser le tableau des effectifs et fr´equences cumul´es `a droite. Highest Degree nj fj Nj∗ Fj∗ None 1 0.04 Bachelors

7 0.28

Masters

11 0.44

Doctorale/law 6 0.24 25

1

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

40

C. Donn´ ees quantitatives Exemple 1 - Variable discr`ete: Pour ´etudier la qualit´e de la recherche a` l’ULB, on utilise comme indicateur le nombre de publications par an. L’´echantillon est constitu´e de 25 jeunes professeurs. • Tableau r´ecapitulatif de la s´erie observ´ee: xj nj fj Nj Fj Nj∗ Fj∗ 0 5 0.20 5 0.20 25 1 1 10 0.40 15 0.60 20 0.80 2 4 0.16 19 0.76 10 0.40 3 3 0.12 22 0.88 6 0.24 4 2 0.08 24 0.96 3 0.12 5 1 0.04 25 25

1

1

Remarque: Nj = Nj−1 + nj

1 0.04

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

41

Repr´esentations graphiques Diagramme en bˆ atons

6 4 2

Effectif

8

10

Etude sur la qualitØ de la recherche

0

1

2

3

Nombre de publications

4

5

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

Courbe cumulative: y = N (x)

0

5

10

Nj

15

20

25

N (x) ´etant le nombre d’observations ≤ x.

0

2

4

Nombre de publications

6

42

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

Courbe cumulative a` droite : y = N ∗(x) N ∗(x) ´etant le nombre d’observations ≥ x.

0

5

10

Nj

15

20

25

Etude sur la qualitØ de la recherche

0

2

4

6

Nombre de publications

Remarques: • Si x = xj =⇒ N (x) + N ∗(x) = n + nj • Si x 6= xj =⇒ N (x) + N ∗(x) = n De fa¸con g´en´erale: N (x) + N ∗(x) ≥ n

43

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

44

Exemple 2 - Variable continue: Le manager du marketing d’une compagnie t´el´ephonique commande une ´etude sur le profil des nouveaux abonn´es. Pour ce faire il r´ecolte la 1`ere note en Euro de t´el´ephone de 120 nouveaux clients. S´ erie Statistique: 83 83 18 65 99 96 7 94 62 98 71 20 97 88 38 55 81 51 68 19 36 41 56 49 33 85 75 97 35 36 32 59 88 28 63 60 99 7 31 13 34 33 15 12 62 41 13 27 74 24 67 98 22 13 32 9 54 84 35 62 14 90 91 59 77 38 31 22 92 39 54 90 47 89 81 79 9 88 30 50 41 16 49 44 45 87 23 5065 20 88 83 7 53 73 64 45 78 60 38 75 83 28 11 27 34 15 94 33 76 86 36 42 52 61 52 78 54 53 58

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

45

S´ erie Ordonn´ ee: 7 7 7 9 9 11 12 13 13 13 14 15 15 16 18 19 20 20 22 22 23 24 27 27 28 28 30 31 31 32 32 33 33 33 34 34 35 35 36 36 36 38 38 38 39 41 41 41 42 44 45 45 47 49 49 50 50 51 52 52 53 53 54 54 54 55 56 58 59 59 60 60 61 62 62 62 63 64 65 65 67 68 71 73 74 75 75 76 77 78 78 79 81 81 83 83 83 83 84 85 86 87 88 88 88 88 89 90 90 91 92 94 94 96 97 97 98 98 99 99

• Grands nombres de valeurs distinctes • Beaucoup de petits effectifs

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

Diagramme en bˆ atons

2 0

1

Effectif

3

4

Diagramme en b tons

20

40

60

80

100

note

MAIS ... Grand nombre de valeurs distinctes ⇓ R´esumer l’information

46

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

47

Solution 1: Diagramme en tiges et feuilles (stem and leaf display). 0|77997

0|77799

1|89352334615

1|12333455689

2|0874223087

2|0022347788

3|8635621432581908436

3|0112233344556668889

4|1917194552

4|1112455799

5|516949400322438

5|001223344456899

6|528302725401

6|001222345578

7|1547938568

7|1345567889

8|338158491878336

8|113333456788889

9|9648779801204

9|0012446778899

Remarque: Autre alternative: Dot Plots

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

48

Solution 2: Regrouper les individus par classes Comment faire les classes ? • Logique: le minimum est inclus dans la 1`ere classe, le maximum est inclus dans la derni`ere classe, mˆeme largeur des classes (pas obligatoire mais facilite la lecture des graphes). • R`egle empirique de Sturges: choisir le nombre de classes: J ≈ 1 + log2 n

Notations: Classes: 1,. . . ,J. −−|−−−−−−−|−−−−−−−|−− lj−

xcj

lj+

o`u nj = nombre d’observations dans la classe j et hj = longueur de la classe.

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

49

S´ erie regroup´ ee par classe Regroupement des 120 observations en 5 classes (j = 1, . . . , 5) de longueur ´egale hj = 20 ∀j ∈ {1, . . . , 5}. [lj−, lj+[ xcj [0, 20[ 10

16

Nj Fj Nj∗ Fj∗ 0.13 16 0.13 120 1

nj

fj

[20, 40[

30

29

0.24 45 0.37 104 0.87

[40, 60[

50

25

0.21 70 0.58 75 0.63

[60, 80[

70

22

0.19 92 0.77 50 0.42

[80, 100[ 90

28

0.23 120

n=120

1

28 0.23

1

NB Attention aux arrondis !!! NB La r`egle de Sturges proposait 8 classes

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

50

15 0

5

10

nj

20

25

Histogramme des effectifs

0

20

40

60

80

100

Note de tØlØphone

nj NB: Parfois, on prends comme ordonn´ee hj de

telle sorte que la surface de chaque barre est ´egale `a nj

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

15 10 5 0

nj

20

25

30

Polygone des effectifs

0

20

40

60

Note de tØlØphone

80

100

51

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

52

Histogramme des effectifs cumul´es et Courbe

60 0

20

40

Nj

80

100

120

cumulative: y = N (x)

0

20

40

60

80

100

Note de tØlØphone

Nj : nombre d’observations ≤ lj+ N (x) ´etant le nombre d’observations ≤ x (hypoth`ese d’´equir´epartition)

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

53

Courbe cumulative a` droite : y = N ∗(x) Exercice: Construisez la courbe cumulative a` droite.

N ∗(x) ´etant le nombre d’observations ≥ x (hypoth`ese d’´equir´epartition)

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

Remarques (exercices) • Si x 6= xj ∀j: N (x) + N ∗(x) = n • Fonctions N (x) et N ∗(x):  −  0 x < l  1    n1 −) − ≤ x < l+  (x − l l  1 1 1  h1    ... ... N (x) = nj −) l− ≤ x < l+  N + (x − l  j−1 hj j j j      ... ...    n lJ+ ≤ x  −   n x < l  1     ...   ... n N ∗(x) = Nj∗ − hj (x − lj−) lj− ≤ x < lj+ j     ... ...     0 lJ+ ≤ x

54

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

55

D. Conclusions • Inclure toutes les informations utiles a` la compr´ehension du graphique • Eviter les informations, mentions, lignes inutiles • Un graphique simple sera pr´ef´er´e a` un graphique sophistiqu´e • Choisir les unit´es et les axes de la mani`ere la plus neutre possible (ne pas influencer le lecteur) • Comparer des graphiques ayant des unit´es communes

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

56

• Il existe d’autres types de graphiques: Cartographie, Pyramide des aˆges, Graphiques de comparaison, ...

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

2.3

57

TECHNIQUES DESCRIPTIVES NUMERIQUES

Apr`es les graphiques, il est n´ecessaire de d´ecrire les diff´erentes caract´eristiques des donn´ees de mani`ere plus pr´ecise. Rappel: • mesure d’une caract´eristique de la population (lettre grecque) • mesure d’une caract´eristique de l’´echantillon (lettre latine). Bien souvent il est impossible d’´etudier l’ensemble de la population (N grand ou infini) ⇓ Se limiter a` l’´etude d’un ´echantillon de taille n

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

58

Exemple: Etude sur le salaire des belges =⇒ N ≈ 4 millions de travailleurs La moyenne population µ est inconnue. Pour la connaitre il faudrait interroger tous les travailleurs belges, mais on n’a pas les moyens financiers ⇓ S´electionner un ´echantillon de taille n <<< N . Calcul sur base de l’´echantillon de la moyenne ´echantillon x¯. ⇓ On esp`ere que x¯ est une “bonne ” estimation de la moyenne population µ.

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

59

Trois types de caract´ eristiques • Tendance centrale (position): moyenne, mode, m´ediane, quantiles, . . .

-2

0

2

x

0

2

4 y

6

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

60

• Variabilit´e, dispersion, risque: ´ecart-type, variance, ´etendue, . . .

-40

-20

0

20

x

-40

-20

0 y

20

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

61

• Forme (asym´etrie, aplatissement): Skewness, Kurtosis, . . .

1

2

3

x

-2

0 y

2

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

2.3.1

62

A. MESURES DE POSITION (tendance centrale)

BUT: D´eterminer une valeur centrale. 1. Moyenne arithm´etique x¯ Soit {x1, . . . , xn} un ´echantillon de donn´ees num´eriques, alors x¯ =

n X 1

n

xi

i=1

Exemples: • Soit l’´echantillon {1, 1, 2, 2, 2, 2, 3, 3} ⇓ 1 x¯ = (1 + 1 + 2 + 2 + 2 + 2 + 3 + 3) = 2. 8

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

63

• Reprenons l’exemple de la soci´et´e t´el´ephonique r´ecoltant la 1`ere note en Euro de t´el´ephone de 120 nouveaux clients. S´ erie Statistique: 83 83 18 65 99 96 7 94 62 98 71 20 97 88 38 55 81 51 68 19 36 41 56 49 33 85 75 97 35 36 32 59 88 28 63 60 99 7 31 13 34 33 15 12 62 41 13 27 74 24 67 98 22 13 32 9 54 84 35 62 14 90 91 59 77 38 31 22 92 39 54 90 47 89 81 79 9 88 30 50 41 16 49 44 45 87 23 5065 20 88 83 7 53 73 64 45 78 60 38 75 83 28 11 27 34 15 94 33 76 86 36 42 52 61 52 78 54 53 58 ⇓ 1 (83+83+18+65+. . .+53+58) = 53.12 x¯ = 120

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

64

Calcul reprenant la somme de 120 chiffres (long) ⇓ Mˆeme base de donn´ees mais regroup´ees en classes: [lj−, lj+[ xcj [0, 20[ 10

16

Nj Fj Nj∗ Fj∗ 0.13 16 0.13 120 1

nj

fj

[20, 40[

30

29

0.24 45 0.37 104 0.87

[40, 60[

50

25

0.21 70 0.58 75 0.63

[60, 80[

70

22

0.19 92 0.77 50 0.42

[80, 100[ 90

28

0.23 120

n=120

x¯ =

J X 1

n

1

28 0.23

1

nj xcj

j=1

10 × 16 + 30 × 29 + . . . + 90 × 28 = 120 = 52.83

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

65

Propri´ et´ es • Sensible face aux points aberrants. Echantillon {1, 1, 2, 2, 2, 2, 3, 3}

→ x¯ = 2.

Echantillon {1, 1, 2, 2, 2, 2, 3, 300} → x¯ = 39.125. • Valeurs centr´ees: Echantillon {1, 1, 2, 2, 2, 2, 3, 3} =⇒ x¯ = 2. Alors l’´echantillon des valeurs centr´ees: {xi − x¯} = {−1, −1, 0, 0, 0, 0, 1, 1} est de moyenne nulle: n X 1 (xi − x¯) = 0 n i=1

(exercice). • R´e´ecriture de la formule de la moyenne: n X xi = n¯ x i=1

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

66

• Agr´egation de 2 ´echantillons. Echantillon 1: {n1, x¯1}, Echantillon 2:{n2, x¯2} ⇓ la moyenne de l’´echantillon global comprenant n = n1 + n2 individus est donn´e par: n1x¯1 + n2x¯2 x¯ = n Remarque: Posons w1 = nn1 et w2 = nn2 , ainsi la moyenne globale n’est rien d’autre qu’une moyenne pond´er´ee: x¯ = w1x¯1 + w2x¯2 Cas particulier: Ajout d’une observation x˜ a` l’´echantillon {n1, x¯1} → n2 = 1 et n = n1 + 1 ⇓ n1x¯1 + x˜ x¯ = n

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

67

• Moyenne pond´er´ee. - La moyenne est par unit´e ´el´ementaire. - La moyenne pond´er´ee est par unit´e de poids. Remarque: Soit C est le nombre d’´el´ements a` pond´erer, alors C X

wi = 1

i=1

Par exemple: - La moyenne des points de vos cours est votre “moyenne par cours”. - Votre grade final est une moyenne pond´er´ee, utilisant comme poids le cr´edit d’heures (1 cr´edit pour 12 h de cours th´eorique, 2 cr´edits pour 24 h, etc). La moyenne pond´er´ee est donc votre “moyenne par cr´edit d’heures”

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

68

Exemple: Rentabilit´ e d’un portefeuille La rentabilit´e attendue d’un portefeuille est donn´ee par la moyenne pond´er´ee des rentabilit´es attendues des investissements de celui-ci, pond´er´e par le montant investi en $. Le portefeuille est compos´e de 3 actions: -la 1´ere ($1, 000) est suppos´ee rapporter 20% -la 2`eme ($1, 800 investis) 15% -la 3`eme ($2, 200 investis) 30%. ⇓ Total investi: 1, 000 + 1, 800 + 2, 200 = $5, 000

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

69

Les poids sont donc: w1 = $1, 000/$5, 000 = 0.20 w2 = $1, 800/$5, 000 = 0.36 w3 = $2, 200/$5, 000 = 0.44 Moyenne pond´er´ee: 3 X

wixi = 0.20 × 20% + 0.36 × 15% + 0.44 × 30%

i=1

= 22.6% La rentabilit´e attendue du portefeuille est donc de 22.6%. Chacun des investissement est repr´esent´e par le montant en $ investi. NB: Si tous les poids sont ´egaux, on revient `a la moyenne arithm´etique (exercice).

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

70

2. M´ediane x1/2 • Calcul de la m´ediane: a) Mettre les observations en ordre croissant: {x(1), . . . , x(n)} b) Prendre l’observation centrale (ou la moyenne des 2 observations centrales si n est pair). ⇓ Si n est impair: x1/2 = x( n+1 ) 2 Si n est pair: x1/2 =

x( n )+x( n +1) 2

2

2

• Exemples: Echantillon: {2, 5, 9, 11, 13} =⇒ x1/2 = 9 Echantilon: {2, 5, 9, 11, 13, 20} =⇒ x1/2 = 9+11 2

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

71

• Pas influenc´ee par des valeurs extrˆemes. • Pour des distributions dissym´etriques, la m´ediane offre une meilleure repr´esentation que la moyenne. Par exemple: les revenus des m´enages: - Le revenu moyen pour un pays somme tous les revenus dont certains peuvent ˆetre extr`emement ´elev´es - Le revenu m´edian repr´esente le revenu de la personne au centre (la moiti´e ayant plus, l’autre moiti`e ayant moins). • Echantillon donn´e avec des classes: − , l+ ) - D´eterminer la classe m´ediane: (lm m

- Valeur de la m´ediane: n−N m−1 −+h 2 x1/2 = lm m nm

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

72

3. Quantiles xp o` u p ∈ (0, 1) • Construire la s´erie ordonn´ee. Soit p ∈ (0, 1) (appel´e ordre du quantile), on cherche xp tel que N (xp) ≥ np

N ∗(xp) ≥ n(1 − p)

et p

1-p

-l————-l—————l x(1)

xp

x(n)

• Quantiles particuliers: -Mediane x1/2: quantile 50% -Premier quartile x1/4: quantile 25% -Troisi`eme quartile x3/4: quantile 75% -D´eciles: p = 0.10, 0.20, . . . , 0.90

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

73

• Graphique bas´e sur les quantiles: Box Plot (boˆıte `a moustache)

Exercice (ELST, P114): R´esultats de 10 ´etudiants pour 7 cours. C1 C2 C3 C4 C5 C6 C7 04 42 19 33 21 14 18 12 44 23 47 24 75 19 23 46 25 59 27 76 21 35 47 27 67 29 77 23 46 49 31 69 77 78 24 52 51 43 73 79 79 25 67 54 48 75 83 80 27 75 56 51 77 85 81 29 83 57 63 83 86 83 30 92 58 73 85 87 84 93

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

74

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

75

4. Mode xM • D´efinition: Valeur la plus fr´equente. • Probl`emes: - d´epend de la mani`ere dont vous construisez l’histogramme (bin width) - il est possible d’avoir plusieurs modes • Utiliser pour les donn´ees qualitatives.

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

5. Autres valeurs centrales c1 = c2 =

x(1) + x(n) 2

x1/4 + 2x1/2 + x3/4

c3 =

4 x1/4 + x3/4 2

Moyenne tronqu´ee: 1 c4 = n−2

n−1 X

x(i)

i=2

Moyenne g´eom´etrique: p c5 = Πixi

···

76

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

77

6. Cas particulier : Distribution gaussienne • Distribution normale (introduite en 2`eme ann´ee). Distribution gaussienne

Moyenne, Médiane et Mode -2

-1

0

1

2

x

Caract´eristique: distribution sym´etrique avec un unique mode ↓ La moyenne est ´egale a` la m´ediane et au mode

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

78

• Distribution asym´etrique. Distribution asymétrique

Mode

5

Moyenne

Médiane

10

15

x

La moyenne, la m´ediane et le mode sont diff´erents: • les grandes observations rares influencent beaucoup la moyenne • la valeur la plus fr´equente est d´ecentr´ee.

A priori, il vaut mieux utiliser la m´ediane (exemple: revenus des m´enages).

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

79

7. R´esum´e en fonction du type de la variable Quantitative Ordinale Nominale Moyenne

OUI

NON

NON

M´ediane

OUI

OUI

NON

Quantiles

OUI

OUI

NON

Mode

OUI

OUI

OUI

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

2.3.2

80

MESURE DE DISPERSION

Aussi connue sous le nom de variabilit´e, diversit´e, risque, . . . Questions: • Sur le march´e, les valeurs boursi`eres changent jours apr`es jours =⇒ incertitude ! • Risk of a business venture Les gains sont possibles mais ´egalement les pertes. • Aversion au risque: Pr´ef´erez-vous avoir - 100$ avec certitude - 0 ou 200$ avec probabilit´e ´egale Les 2 ont la mˆeme moyenne (100$)! Pr´ef´erez vous r´eduire l’incertain ou aimez vous le risque?

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

1. Etendue E = x(n) − x(1) • Facile et rapide `a calculer • Tr`es sensible aux points aberrants 2. Ecart interquartile Il contient 50% des observations: EQ = x3/4 − x1/4 3. Ecart interd´ecile Il contient 80% des observations: ED = x9/10 − x1/10

81

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

4. Le peigne x1/2 Q x1/4 E x(1)

Dispersion

x3/4

x3/4 − x1/4

x(n)

x(n) − x(1)

Position x3/4+x1/4 2 x(1)+x(n) 2

5. Le Box Plot • D´efinition de base:

• D´efinition des valeurs pivots: a1 = x1/4 − 1.5(x3/4 − x1/4) a2 = x3/4 + 1.5(x3/4 − x1/4)

82

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

83

• D´efinition des valeurs adjacentes: xg : plus petite observation ≥ a1 xd: plus grande observation ≤ a2 =⇒ Deuxi`eme d´efinition du box plot:

NB: si tous les xi ∈ (a1, a2): xg = x(1) et xd = x(n). • D´efinition des valeurs ext´erieures: Observations en dehors de l’intervalle [xg , xd] ⇒ Pr´esomption de valeurs extrˆemes (aberrantes). Exercice (ELST, P114-116): R´esultats de 10 ´etudiants pour 7 cours.

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

84

6. Ecart moyen absolu n

1X em = |xi − x¯| n i=1

Remarque: Changeons le param`etre de position. Alors, em(c) =

n X 1

n

|xi − c|

i=1

est minimum quand c = x1/2. 7. Ecart m´edian absolu e∗m =

n X 1

n

i=1

|xi − x1/2|

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

85

8. Variance Version fran¸caise: n

1X 2 s = (xi − x¯)2 n i=1

Version anglaise (on l’utilisera en 2`eme ann´ee) S2 =

1 n−1

n X

(xi − x¯)2

i=1

• Agr´egation: Soient 2 ´echantillons: n1

n2

x¯1 s21 x¯2 s22 Notons n = n1 + n2, x¯ et s2 la moyenne et la variance de l’´echantillon regroupant les 2 ´echantillons. Exercice: 2 + n s2 n (¯ 2 + n (¯ 2 n s ¯ ¯ x − x ) x − x ) 1 2 1 1 2 2 1 2+ s2 = n1 + n2 n1 + n2 (variance dans les groupes) +(variance entre les groupes)

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

• Th´eor`eme de Konig-Huyghens: 1X (xi − c)2 = s2 + (¯ x − c)2 n

86

c ∈ IR

i

D´emonstration X 1 1X (xi − c)2 = (xi − x¯ + x¯ − c)2 n n i i n o 1X = (xi − x¯)2 + 2(xi − x¯)(¯ x − c) + (¯ x − c)2 n i 1X = (xi − x¯)2 + (¯ x − c)2 n i   X 1 (xi − x¯) + 2(¯ x − c)  n i

= s2 + (¯ x − c)2 P 1 Cons´equence: n i(xi−c)2 est minimum quand c = x¯ Exercice: Appliquez ce th´eor`eme avec c = 0.

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

87

9. Ecart-type s=

p

s2

• Interpr´etations: - 2 ´echantillons: l’´echantillon avec l’´ecart-type le plus grand est le plus dispers´e des deux - 1 ´echantillon: R`egle de Chebyshev: au moins (1 − k12 ) des observations se trouvent dans l’intervalle (¯ x ± ks) Pour k = 2: au moins 75% des observations ∈ a` l’intervalle (¯ x ± 2s) Pour k = 3: au moins 89% des observations ∈ a` l’intervalle (¯ x ± 3s)

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

88

Pour les distributions en “forme de cloche ” et relativement sym´etrique, on a des intervalles remarquables plus pr´ecis: Distribution gaussienne

Moyenne, Médiane et Mode -2

-1

0

1

2

x

2 3

des observations ∈ a` l’intervalle (¯ x ± s)

95% des observations ∈ a` l’intervalle (¯ x ± 2s) 99% des observations ∈ a` l’intervalle (¯ x ± 3s)

=⇒ Pour faciliter les interpr´etations: construction des valeurs centr´ees r´eduites (z-score): x − x¯ z= s

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

89

9. Coefficient de variation s CV = x¯ • Mesure relative de variabilit´e. Nombre sans unit´e (pure number). • Answers: “Typically, in percentage terms, how far are data values from average?” • Utile pour comparer des situations pour lesquelles les unit´es diff`erents

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

2.3.3

MESURES DE FORMES

GRAPHIQUES

1. Box Plot

90

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

2. Graphique des quantiles

91

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE ASYMETRIE - SKEWNESS

• Moment centr´e d’ordre 3 n 1X m3 = (xi − x¯)3 n i=1

m3 > 0: asym´etrie a` gauche m3 < 0: asym´etrie a` droite m3 = 0: sym´etrie

3 • Coefficient de Fisher: g1 = m s3

• Coefficient empirique de Yule et Kendall: x1/4 − 2x1/2 + x3/4 Yk = x3/4 − x1/4 • Coefficient empirique de Pearson: x¯ − xM Sk = s

92

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE APLATISSEMENT - KURTOSIS

• Coefficient de Pearson m4 b2 = 4 s o`u m4 est le moment centr´e d’ordre 4 n X 1 m4 = (xi − x¯)4 n i=1

• Coefficient de Fisher: g2 = b2 − 3 b2=3, g2=0 b2>3, g2>0 b2<3, g2<0

-2

-1

0

1

2

93

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

2.3.4

94

INDICE DE CONCENTRATION DE GINI ET COURBE DE LORENTZ

Exemple: Mesurer le degr´e d’in´egalit´e dans la distribution des revenus des familles belges. Formalisation: Soit une distribution, d’une variable continue positive, regroup´ee en J classes. Notons xjc le centre de la classe j et nj l’effectif de la classe j pour (j = 1, . . . , J). Courbe de concentration de Lorentz: Pj nk xck k=1 pj = Fj et qj = PJ k=1 nk xck

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

95

Indice de concentration de Gini: γ = 2A o`u A est l’aire comprise entre la courbe de Lorentz et la 1`ere bissectrice. Propri´ et´ es •0≤γ≤1 • γ ≈ 0: ´equir´epartion • γ ≈ 1: concentration. Exemple: Site de la CIA reprenant “Distribution of family income - Gini index“ http://www.odci.gov/cia/publications/factbook/fields/2172.html

Belgium 28, 7% Paraguay 57, 7% Sweden

25%

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

2.4

96

TRANSFORMATION DE VARIABLES ET INDICES

BUTS: • Facilit´e l’encodage, la lecture des donn´ees

• “Lin´eariser” une relation entre 2 variables

• Se rapprocher d’une distribution sym´etrique

• Rem´edier a` d’´eventuelles in´egalit´es de variances lorsque l’on ´etudie plusieurs ´echantillons

• ...

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

2.4.1

97

TRANSFORMATION LINEAIRE

But: Changer l’origine et l’unit´e pour facilit´e la lecture des donn´ees sans changer le forme (asym´etrie, aplatissement,. . .). D´ efinition: Soit xi, 1, . . . , n un ´echantillon de taille n. Appelons zi, 1, . . . , n la s´erie translat´ee de la constante c et r´eduite par la constante d: xi − c zi = i = 1, . . . , n d Influence sur les mesures de position: Toutes ces mesures vont subir la mˆeme transformation que les donn´ees. Par exemple: x¯ − c z¯ = d Exercices: Preuve pour z¯, z1/2, zM , . . ..

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

98

Influence sur les mesures de dispersion: • Changement d’origine (translation) - pas d’influence sur E, EQ, ED , s2, s - influence sur CV = xs¯ • Changement d’unit´e - influence sur E, EQ, ED , s2, s - pas d’influence sur CV = xs¯ Exemple: n n X X 1 xi − c x¯ − c 2 1 2 2 (zi − z¯) = ( − ) sz = n n d d i=1 n X

1 = n i=1 1 2 = 2 sx d

i=1

n X xi x¯ 2 1 ( − ) = 2 (xi − x¯)2 d d d n i=1

Influence sur les mesures de formes: Pas d’influence sur g1, SK , YK , b2, g2, . . ..

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

99

Exemple Soit un ´echantillon reprenant le salaire brut de 10 travailleurs en FB. La variable z aura comme unit´e l’Euro et comme moyenne 0. i

xi

zi

1

98000FB

114,03

2

96000FB

3

104000FB

4

66000FB

5

120000FB

6

75000FB

7

88000FB

8

84000FB

9

93000FB

10 110000FB 411,50

70000

80000

90000

100000

110000

x

-500

0 z

500

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

2.4.2

100

TRANSFORMATION LOGARITHMIQUE

Objectifs: Simplifier l’analyse en rendant les ph´enom`enes plus sym´etriques, plus lin´eaires, de variabilit´e plus constante,. . .

0.8

1.5

0.4

2.0

0.6

2.5

y

log(y)

3.0

1.0

3.5

1.2

Exemple: Relation entre deux variables

0.0

0.5

1.0

1.5 x

2.0

2.5

3.0

-3

-2

-1

0

1

log(x)

NB: Les relations du type: y = axb deviennent apr`es transformation logarithmique (log − log): log y = log a + b log x

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

101

Exemple: Comparaison de plusieurs ´echantillons. Comparons le nombres d’iules (mille-pattes) soumises a` 4 substances nocives (“Statistique Th´eorique et Aplliqu´ee, Tome 2”, Pierre Dagnelie, page 97).

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

2.4.3

102

TRANSFORMATIONS DE BOX-COX

D´ efinition: Soit xi, 1, . . . , n un ´echantillon de taille n. Appelons zi, 1, . . . , n la s´erie transform´ee par une relation de Box-Cox de param`etre λ: zi =

  (xλi−1) λ

si λ 6= 0

 log x si λ = 0 e i Ces transformations ont les mˆemes objectifs que la transformation logarithmique. Remarque • La transformation logarithmique est un cas particulier (λ = 0) √

• Si λ = 1/2 alors zi = xi − 1 • Ce groupe de transformation englobe aussi les transformations racine carr´ee inverse √1x , inverse x1 , . . .

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

2.4.4

103

TRANSFORMATION ´´DIFFERENCE”

But: Utilis´e en s´erie chronologique pour ´eliminer un trend (tendance) constant. D´ efinition: Soit xt(1, . . . , T ) une s´erie chronologique. La s´erie diff´erencie est donn´ee par: ∇xt = xt − xt−1 Exemple ELST, p. 29: Population en millions Ann´ees 1910 1920 1930 1940 1950 1960 1970 1980 xt

1.1

1.3

2.2

4.0

6.6

8.3

9.3

9.6

∇xt

-

0.2

0.9

1.8

2.6

1.7

1.0

0.3

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

2.4.5

104

LES INDICES

But: Mesurer l’´evolution d’une variable (ou de plusieurs variables) dans le temps. INDICE ELEMENTAIRE D´ efinition. Soit 0 l’´epoque de base (r´ef´erence). L’indice de la variable x pour le temps t est: xt it/0(x) = . x0 L’indice mesure le pourcentage d’augmentation ou diminution de la variable par rapport a` l’´epoque de r´ef´erence. Remarque: La variable ´etudi´ee peut ˆetre le prix (p), la quantit´e (q) ou la valeur (v=pq) d’un bien.

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

105

Exemple: Etudions l’´evolution du prix d’un bien de consommation de janvier 1989 `a janvier 1996. Ann´ee de base: 1989 (ELST, p. 69). Ann´ees 1989 1990 1991 1992 1993 1994 1995 1996 xt

25

25

27

28

32

33

34

35

it/0(x) 1.00 1.00 1.08 1.12 1.28 1.32 1.36 1.40

Commentaires: 8% d’augmentation en 1991 par rapport `a 1989. Forte augmentation entre 1992 et 1993, . . ..

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

106

INDICE SYNTHETIQUE SIMPLE But: Etude de l’´evolution dans le temps d’un panier de consommation. Soit x = (x(1), x(2), . . . , x(n)) le vecteur donnant le prix (ou quantit´e, . . .) des n produits du panier de consommation. • Indice de Bradstreet: P

(j)

j xt Bt/0(x) = P (j) x j 0 • Indice Moyenne arithm´etique: (j) X xt 1 At/0(x) = (j) n j x0 • Autres indices: moyenne harmonqiue, moyenne

g´eom´etrique, . . .

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

107

INDICE SYNTHETIQUE PONDERE But: Etude de l’´evolution dans le temps d’un panier de consommation en mettant des poids associ´es `a chacun des produits. Soit x = (x(1), x(2), . . . , x(n)) le vecteur donnant le prix (ou quantit´e, . . .) des n produits du panier de consommation. • Indice de Laspeyres: (j) (j) j w 0 xt Lt/0(x) = P (j) (j) j w 0 x0

P

(j)

o`u w0 peut donner repr´esenter le prix ou la quantit´e du produit j au temps de r´ef´erence.

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE

108

• Indice de Paasche: P

(j) (j)

j wt xt Pt/0(x) = P (j) (j) w j t x0

(j) o`u wt peut donner repr´esenter le prix ou la

quantit´e du produit j au temps t. • Indice de Sidgwick: Lt/0(x) + Pt/0(x) St/0(x) = 2 • Indice de Fisher: q Ft/0(x) = Lt/0(x) × Pt/0(x) • Indice de Edgeworth: P (j) (j) (j) (w + w j 0 t )xt Et/0(x) = P (j) (j) (j) (w + w j 0 t )x0

Chapitre 3 INTRODUCTION A LA THEORIE PROBABILISTE “Le hasard est le pseudonyme de Dieu quand il ne voulait pas signer” Anatole France “Un coup de d´es jamais n’abolira le hasard” Mallarm´e “Rien ne d´epasse la beaut´e du myst`ere” Einstein

109

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

110

1. Quelles sont les chances que les ventes dans les friteries baissent si le prix des pommes de terre augmente? 2. Quelle est la probabilit´e que Justine devienne num´ero 1 a` l’ATP? 3. Quelles sont les chances qu’un nouvel investissement soit rentable? 4. Quelle est la probabilit´e de r´eussir l’examen de statistique en 1`ere session? 5. Quelle est la probabilit´e de gagner au Lotto? 6. . . . La probabilit´ e peut: • exprimer une propri´ et´ e intrins` eque d’une exp´ erience • mesurer la vraisemblance d’un ´ ev´ enement.

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

3.1

111

UN PEU D’HISTOIRE

“ . . . un probl`eme relatif aux jeux de hasard, propos´e par un aust`ere jans´eniste par un homme du monde, a ´et´e a` l’origine du Calcul des probabilit´es . . .” Il s’agit du probl`eme des partis, propos´e par le Chevalier de M´er´e a` Blaise Pascal et r´esolu par celui-ci, ainsi que par Pierre de Fermat en 1654: “2 joueurs, rompant de gr´e a` gr´e le jeu avant la fin, cherchent `a op´erer entre eux la juste r´epartition de l’enjeu suivant la probabilit´e qu’avait chacun d’eux de gagner.”

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

3.2

112

LOGIQUE ET INTUITION . . .

Exemple 1: Th´ eorie des sept gar¸ cons Quelle est la probabilit´e d’avoir 7 gar¸cons?  7 1 1 = P (7G) = 2 128 Peu, mais pourquoi n’y a-t-il pas plus de familles de 7 gar¸cons?? R´eponse: parce que ceci est la probabilit´e d’avoir 7 gar¸cons si on a 7 enfants, or il y a peu de familles de 7 enfants.

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

113

Exemple 2: Articles de presse. “ Il y a eu plus de tu´es dans des accidents d’avion en 1993 qu’en 1920 ” Peut-on en d´eduire que les avions sont devenus plus dangereux? “ Pendant la 1`ere guerre mondiale, le nombre de bless´es `a la tˆete ´etait nettement plus grand parmi ceux qui portaient un casque ” Peut-on en d´eduire que le port du casque est dangereux ? “ En 2002, il y a eut 20.343 chˆomeurs ayant un diplˆome universitaire et 8.657 chˆomeurs de l’enseignement non universitaire type long ” (voir ECOPOL)

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

114

Exemple 3: 1er Probl` eme du chevalier de M´ er´ e. ”Supposez qu’on joue plusieurs fois avec un d´e, combien faudra-t-il de lanc´es au minimum pour que l’on puisse parier avec avantage, apr`es avoir jou´e ces coups, d’avoir au moins un 6 ? ” R´eponse: 4 lanc´es en effet, (voir exercice) P (avoir au moins un 6) = 671/1296 > 0.5 Sc´ema du d´eveloppement: P (avoir au moins un 6) = 1−P (ne jamais avoir de 6) et nous savons que: P (ne pas avoir de 6 sur un lanc´e) = 5/6 P (ne pas avoir de 6 sur n lanc´e) = (5/6)n

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

115

Exemple 4: Paradoxe du jour d’anniversaire. Si vous rencontrez quelqu’un par hasard au bistrot du coin, il y a environ 1 chance sur 365 que vous soyez n´e le mˆeme jour. Maintenant supposez que vous ˆetes 10 dans une mˆeme pi`ece, quelle est la probabilit´e que deux personnes aient la mˆeme date d’anniversaire ????? (r´eponse: 11,69% de chance) Et avec 23 personnes dans la pi`ece? (r´eponse: 50,7% de chance)

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

116

Exemple 5: T´ emoignage Etre un bon jur´ e. Accident avec d´elit de fuite MAIS il y a un t´emoin oculaire. Faits: • le t´emoin affirme avoir vu un taxi jaune • il y a 2 types de taxi: jaune et orange • difficult´e: le soir tombait et un test pratiqu´e dans des conditions similaires a montr´e que le t´emoin ne pouvait distinguer correctement la couleur que dans 80% des cas Conclusion a priori: L’hypoth`ese la plus probable est celle du taxi jaune.

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

117

Information manquante: Proportion de taxis jaunes et de taxis oranges? R´eponse: 85% d’oranges et 15% de jaunes. Conclusion correcte: (Th´eor`eme de Bayes) La probabilit´e que le taxi soit jaune sachant que le t´emoin affirme qu’il ´etait jaune est de 41.38%. ⇓ Donc il y a plus de chance que le taxi soit orange.

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

118

Exemple 6: Le jeu de la Cadillac Jeu t´ el´ evis´ e: 3 portes et derri`ere l’une d’elle il y a une cadillac. Etape1: Le candidat choisit au hasard une porte: 1 chance sur 3 de gagner la cadillac. Etape2: Le pr´esentateur ouvre une des 2 portes restantes mais bien ´evidemment pas la porte `a la cadillac. Question: Le candidat a-t-il int´erˆet de changer de porte ou de garder son choix initial ? R´eponse: Choix initial: 1 chance sur 3 de gagner S’il change de porte: 2 chance sur 3 de gagner!!

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

3.3

119

PROBABILITE, EXPERIENCE ALEATOIRE, EVENEMENT

3.3.1

DEFINITIONS

• Probabilit´e: sera d´efinie par une approche classique, fr´equentiste et axiomatique. • Exp´erience al´eatoire: action ou processus qui engendre des observations et dont on ne peut pr´edire avec certitude le r´esultat. • Ensemble (espace) fondamental Ω: ensemble de tous les r´esultats possibles. • Ev´enement: sous-ensemble ou partie de Ω. • Famille F des ´ev`enements: ensemble de tous les ´ev`enements associ´es a` une exp´erience al´eatoire.

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

3.3.2

120

EXEMPLES

Lancement d’un d´ e L’ensemble fondamental Ω: 1 2 3 4 5 6 Exemples d’´ev`enements et Diagramme de Venn: • Avoir le nombre “1” : A={1} • Avoir un nombre divisible par 3: B={3,6} • Avoir un nombre pair: C={2,4,6} • Avoir un nombre impair: D={1,3,5} • Avoir un nombre plus petit que 7: E={1,2,3,4,5,6}.

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

3.3.3

121

CAS PARTICULIERS D’EVENEMENTS

• Ev`evement ´elementaire: ne contient qu’un seul ´el´ement de Ω: Exemple: Avoir le nombre “1”: A = {1}

• Ev`enement impossible: ne contient aucun ´ev`enement: Exemple: Avoir un nombre plus grand que 6: F = {} = ∅

• Ev`enement certain: contient tous les ´el´ements de Ω: Exemple: Avoir un nombre plus petit que 7: E = {1, 2, 3, 4, 5, 6} = Ω

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

3.3.4

122

OPERATIONS SUR LES EVENEMENTS

Soient E1, E2, . . . des ´ev´enements de F. • Implication (= inclusion): E1 ⊂ E2 signifie:

E1 se r´ealise ⇒ E2 se r´ealise. • Conjonction (= intersection = produit logique) E1 ∩ E2: E1 et E2 se r´ealisent tous les deux

Ev´enements mutuellement exclusifs (incompatibles): E1 ∩ E2 = ∅

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

123

• R´eunion (= somme logique) E1 ∪ E2: E1 ou E2 se r´ealisent (au moins un des deux)

• Diff´erence E1\E2: E1 se r´ealise sans que E2 se r´ealise

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

124

• Compl´ementaire: Soit E un ´ev´enement, le compl´ementaire de E est not´e E: E = Ω\E

Remarques 1. E ∩ E = ∅ ⇒ E et E sont mutuellement exclusifs 2. E ∪ E = Ω 3. E et E constituent une partition de Ω.

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

• Partition de E {E1, E2, . . . , Em} tel que: 1. E1, E2, . . . , Em ⊂ E 2. Ei ∩ Ej = ∅ (i 6= j) 3. E = E1 ∪ E2 ∪ . . . ∪ Em

• Syst`eme complet d’´ev´enements: Partition de Ω

125

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

126

• Fonction d’ensemble: Fonction qui associe a` chaque ´ev´enement de Ω un nombre r´eel. Exemples: Soit E ∈ F 1. n(E) = nombre d’´el´ements de E n(E)

2. f (E) = n(Ω) Propri´et´es:

1. f (E) ≥ 0, pour tout E ⊂ Ω 2. f (Ω) = 1 3. Si E1, E2, . . . sont mutuellement exclusifs (Ei ⊂ Ω): f (E1 ∪ E2 ∪ . . .) = f (E1) + f (E2) + . . .

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

3.3.5

127

FAMILLE F D’EVENEMENTS

Rappel: F est l’ensemble de tous les ´ev`enements associ´es `a une exp´erience al´eatoire. • Si Ω est fini alors a` tout sous-ensemble correspond un ´ev`enement =⇒ la famille F des ´ev`enements est confondue avec l’ensemble des parties de Ω. • Si Ω est infini ⇓ on se restreint `a une classe F de parties, strictement contenue dans l’ensemble des parties de Ω, qui contient les ´ev`enements ´el´ementaires, les ´ev`enements impossibles et certain, ainsi que tous ceux qui sont obtenus par les op´erations ci-avant.

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

3.3.6

128

TROIS DEFINITIONS DE LA PROBABILITE

• D´ efinition classique Exp´erience: - N r´esultats possibles “´equivalents” (sym´etrie des r´esultats) - NS r´esultats donnent le succ`es S. =⇒ Probabilit´e de succ`es: NS . P (S) = N

Exemple: Lancement d’un d´e ´equilibr´e. Succ`es si nombre pair. Probabilit´e de succ`es: 3 P (pair) = = 0.5 6 Remarque: Cette d´efinition n’est valable que si tout les ´ev`enements ´el´ementaires sont ´equiprobables (contre exemple: avion).

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

129

• D´ efinition fr´ equentiste (approche exp´ erimentale) Exp´erience r´ep´et´ee n fois de mani`ere ind´ependante et identique (ex: lanc´e d’un d´e). On s’int´er`esse `a l’´ev`enement E (ex: avoir 3). Notons n(E) le nombre de r´ealisations de E ⇓ n(E) Fr´equence: fn(E) = n .

On d´efinit alors la fr´equence th´eorique (probabilit´e) par: P (E) = lim fn(E). n→∞

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

130

• D´ efinition axiomatique Cas o` u Ω est fini P (.) est une fonction d’ensemble a` valeurs r´eelles, d´efinie sur F = P(Ω), satisfaisant aux axiomes suivants: A.1: P (E) ≥ 0, pour tout E ∈ F A.2: P (Ω) = 1 A.3: Si E1, E2, E3, . . . sont mutuellement exclusifs (Ei ∩ Ej = ∅, ∀i = 6 j): P (E1 ∪ E2 ∪ E3 ∪ . . .) = P (E1) + P (E2) + P (E3) + . . .

N.B. Les d´efinitions classique et fr´equentiste satisfont a` ces axiomes

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

131

Cas o` u Ω est infini Ici, l’ensemble des ´ev´enements ne sera plus P(Ω) mais une famille F de sous-ensembles poss´edant les propri´et´es suivantes: 1. Ω ∈ F 2. si E ∈ F, alors E ∈ F 3. Pour tout ensemble fini ou d´enombrable d’´ev´enements E1, E2, E3, . . . de F, (∪Ei) ∈ F Une telle famille est appel´ee une σ-alg`ebre (ou corps de Borel ou encore tribu). Remarques: 1. Les propri´et´es ci-dessus impliquent que ∅ ∈ F et ∩Ei ∈ F 2. (Ω, F) est appel´e un espace probabiliste 3. (Ω, F, P ) est appel´e un espace probabilis´e

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

3.3.7

132

QUELQUES PROPRIETES SIMPLES

• Propri´et´e 1 Si un ´ev´enement E est partitionn´e en deux ´ev´enements E1 et E2: P (E) = P (E1) + P (E2).

• Propri´et´e 2 Extension a` plus de 2 ´ev´enements. • Propri´et´e 3 Si E1 ⊂ E2: P (E1) ≤ P (E2).

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

• Propri´et´e 4 Pour tout ´ev´enement E, P (E) ≤ 1. • Propri´et´e 5 Si E est le compl´ementaire de E: P (E) = 1 − P (E) .

• Propri´et´e 6 Le compl´ementaire de Ω est ∅ ⇒ P (∅) = 0.

133

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

3.3.8

134

LOI D’ADDITION

Cas de deux ´ ev´ enements Soient A et B ∈ F: P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

D´emonstration: A ∪ B = (A\B) ∪ (A ∩ B) ∪ (B\A)

P (A ∪ B) = P (A\B) + P (A ∩ B) + P (B\A) ⇒ P (A ∪ B) = P (A) − P (A ∩ B) +P (A ∩ B) + P (B) −P (A ∩ B) = P (A) + P (B) − P (A ∩ B).

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

135

Exemple: B = {3, 6}, C = {2, 4, 6}

P (B ∪ C) = P (B) + P (C) − P (B ∩ C) 2 3 1 4 = + − = 6 6 6 6 Si A et B sont mutuellement exclusifs: A∩B =∅ ⇒ P (A ∪ B) = P (A) + P (B) (Axiome 3) Exercice th´eorique: Cas de 3 ´ev`enements ou plus

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

3.3.9

136

REGLE DE MULTIPLICATION

• Probabilit´ e conditionnelle Pr´esentation ` a partir de l’exemple 4.1 (ELST, p.149)

1. Prenons C (=nbre pair) comme condition, donc on suppose que C se r´ealise: 1 1/6 P (B ∩ C) ⇒ P (B|C) = = = 3 3/6 P (C)

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

2. Prenons B = {3, 6} comme condition: 1 1/6 P (B ∩ C) P (C|B) = = = 2 2/6 P (B)

D´efinition des probabilit´es conditionnelles Soient A et B deux ´ev´enements de F (P (A) 6= 0; P (B) 6= 0): P (A ∩ B) P (A|B) = P (B) P (A ∩ B) P (B|A) = P (A)

137

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

138

• R` egle de multiplication Cas de deux ´ev´enements Soient A et B deux ´ev´enements de probabilit´e non nulle: P (A ∩ B) = P (A).P (B|A) P (A ∩ B) = P (B).P (A|B)

Exemple: Choix de 2 cartes sans remise dans un jeu de 52 cartes Ev´enements: R1=choix d’un roi pour la premi`ere carte R2=choix d’un roi pour la seconde carte P (R1 ∩ R2) = P (R1).P (R2|R1) 1 4 3 = . = 52 51 221

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

139

Cas de trois ´ev´enements • Soient A, B, C ∈ F: P (A∩B ∩C) = P (A).P (B|A).P (C|A∩B) • Ordre de prise en compte de A, B et C

• Exemple: Choix de trois cartes sans remise dans un jeu de 52 cartes: P (R1 ∩ R2 ∩ R3) = P (R1).P (R2|R1).P (R3|R1 ∩ R2) 4 3 2 1 = . . = 52 51 50 5525 Extension ` a plus de trois ´ev´enements

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

3.3.10

140

INDEPENDANCE STOCHASTIQUE

Cas de 2 ´ ev´ enements 1. D´efinition Deux ´ev´enements A et B de probabilit´e non nulle sont (stochastiquement) ind´ependants si et seulement si: P (A ∩ B) = P (A).P (B) 2. Si deux ´ev´enements sont ind´ependants alors: P (A|B) = P (A) et P (B|A) = P (B) 3. Exemple 4.6 (ELST, p.166) F1: premi`ere pi`ece =face F2: deuxi`eme pi`ece =face 11 1 = P (F1 ∩ F2) = P (F1).P (F2) = 22 4

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

141

Cas de trois ´ ev´ enements 1. D´efinition A, B et C sont ind´ependants ssi: P (A ∩ B) = P (A).P (B) P (A ∩ C) = P (A).P (C) P (B ∩ C) = P (B).P (C) P (A ∩ B ∩ C) = P (A).P (B).P (C) ⇒ R`egle de multiplication dans le cas d’´ev´enements ind´ependants 2. Exemple Lancement de 3 pi`eces de monnaie: P (F1 ∩ F2 ∩ F3) = P (F1).P (F2).P (F3) 111 1 = . . = 222 8 Cas de plus de trois ´ ev´ enements Exercice th´eorique

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

3.3.11

142

THEOREME DES PROBABILITES TOTALES ET DE BAYES

• D´ efinition d’un syst` eme complet d’´ ev´ enements ou syst` eme exhaustif Soit la partition {E1, . . . , Em} de Ω telle que P (Ei) ≥ 0

(i = 1 . . . , m).

• Th´ eor` eme des probabilit´ es totales Soit {E1, . . . , Em} un syst`eme exhaustif d´efini sur Ω et un ´ev´enement quelconque de A ∈ F: m X P (A) = P (Ei)P (A|Ei). i=1

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

143

• Th´ eor` eme de Bayes Soit {E1, . . . , Em} un syst`eme exhaustif d´efini sur Ω et un ´ev´enement quelconque de A ∈ F, de probabilit´e non nulle. Supposons connaˆıtre les probabilit´es a priori P (Ei) et les probabilit´es conditionnelles P (A|Ei) (pour i = 1, . . . , m). On peut alors calculer les probabilit´es a posteriori par la relation: P (Ei)P (A|Ei) . P (Ei|A) = Pm j=1 P (Ej )P (A|Ej )

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

3.3.12

144

QUELQUES APPLICATIONS DES PROPRIETES FONDAMENTALES

• La formule du binˆ ome Sch´ema de Bernoulli Dans une exp´erience al´eatoire ξ, nous nous int´er`essons a` l’av`enement ou non de l’´ev´enement E: ¯ = q = 1 − p. P (E) = p et P (E) L’exp´erience ξ est r´ep´et´ee n fois de fa¸con ind´ependante et sous des conditions identiques (p constant). ⇓ P (E se r´ealise n fois) = pp . . . p = pn P (E ne se r´ealise jamais) = qq . . . q = q n P (E se r´ealise au moins 1 fois) = 1 − q n P (E se r´ealise r fois dans ordre pr´ecis) = pr q n−r

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

145

Par la formule du binˆ ome, on peut aussi calculer des probabilit´es plus difficiles: P (E se pr´esente r fois dans ordre quelconque) ! n = pr q n−r r ! n n! = Cnr o`u = r!(n−r)! r ! n Il existe en effet suites mutuellement exr clusives et de mˆeme probabilit´e contenant r ´el´ements ¯ E et (n − r) ´el´ements E. Remarque: ! n X n pr q n−r = (q + p)n = 1. r r=0 Exemple: 10 lanc´es d’une pi`ece ´equilibr´ee: ! 10 1 3 1 7 120 P (3 fois face) = ( ) ( ) = = 0.117 2 2 1024 3

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

146

• Pr´ el` evements avec ou sans remise Soit un sac de billes avec N1 billes jaunes (J) ¯ Notons et N2 billes de couleurs diff´erentes (J). N = N1 + N2.

1. Pr´el`evement de n billes avec remise (AR) ! n pr q n−r P (r fois Jaune) = r o`u N2 N1 et q = p= N N (formule du binˆome)

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE

147

2. Pr´el`evement de n billes sans remise (SR) Formule hyperg´eom´etrique: N1 P (r fois Jaune) =

!

N2

r N

!

n−r !

n si r ≤ N1 et n − r ≤ N2. 3. Remarque N1

!

N2

r N

n−r !

! −→

n r

n 1 = p. pour N1, N2 → ∞ et N N

! pr q n−r

Chapitre 4 STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE • Donn´ees : S´erie statistique bivari´ee: {(xi, yi); i = 1, 2, . . . , n} collect´ees dans un tableau Individus × Caract`eres Var-Ind

1

2

1

x1

y1

2

x2

y2

···

··· ···

i ··· n

xi

yi

··· ··· xn

yn

• But : Mettre en ´evidence les relations existant entre 2 s´eries d’observations 148

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

149

Exemple Mode de payement La soci´et´e X g`ere une chaˆıne de supermarch´e, et elle s’int´eresse aux modes de payement. Le tableau suivant reprend pour 100 clients le montant en euros d´epens´e sur 1 mois en liquide et par carte bancaire (Source : donn´ees simul´ees). Payement liquide

115 45

99 154 201 27

62

32

44

...

Payement par carte 227 459 151 376 321 555 698 159 323 . . . Payement liquide

...

95

93

Payement par carte . . . 298 59

83 103 103 100 95 73

80

95

13 253 175 175 164

Questions: • Quel est le mode de payement favori des clients? • Les clients qui d´epensent plus que la moyenne en liquide d´epensent-ils ´egalement plus que la moyenne par carte ? • etc

94

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

150

Exemple Bourse: Donn´ees contenant les informations financi`eres de 25 entreprises. Entreprises

Place boursi`ere

Prix de l’action (en dollars)

Award Software

OTC

11.500

Chesapeake Energy

NYSE

7.880

Craig Corporation

NYSE

17.000

Edisto Resources

AMEX

9.688

Franklin Elect. Pbls.

NYSE

12.880

Gentia Softaware

OTC

5.750

Giant Group

NYSE

6.563

Hot Topic

OTC

15.750

Hudson General

AMEX

39.750

ICU Medical

OTC

8.500

Jackpot Enterprises

NYSE

10.875

Kentek Information

OTC

9.500

Larscom, Inc

OTC

10.313

Lumisys, Inc

OTC

7.375

Maynard Oil

OTC

10.750

Mechanical Dynamics

OTC

6.688

Metrika Systems

AMEX

15.250

National Home Health

OTC

5.130

National Tech Team

OTC

10.875

OrCad

OTC

11.375

OroAmerica

OTC

5.125

Overland Data

OTC

7.000

PIA Merchandising

OTC

7.500

Plenum Publishing

OTC

44.000

Premier Research

OTC

8.250

Source : Stock Investor Pro, Association am´ericaine des investisseurs individuels , 31 aoˆut 1997.

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

151

Place boursi`ere : Endroit o`u les titres des entreprises sont ´echang´es: • NYSE (bourse de New York) • AMEX (Bourse am´ericaine) • OTC (march´e parall`ele) ⇓ Variable nominale.

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

152

Exemple Seconde session: Echantillon compos´e de 20 bacheliers en ´economiques. L’´etude porte sur le nombre de 2`emes sessions pr´esent´ees dans le secondaire (x) et `a l’universit´e (y). i

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

X

0

0

0

0

0

0

0

0

0

0

0

1

1

1

1

2

2

2

2

3

Y

0

0

1

1

1

2

2

2

2

3

3

3

3

4

4

0

1

3

4

5

Commentaires: • Beaucoup d’´etudiants s’engageant dans les ´etudes en ´economie n’ont jamais eu de 2`eme session dans le secondaire. • Ne pas avoir eu de 2`eme session dans le secondaire n’est pas une garantie de r´eussite en 1`ere session a` l’universit´e • Les ´etudiants sans 2`eme session dans le secondaire ont-ils plus de chances de r´eussite en 1`ere session que les autres ?

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

153

Nous envisagerons 4 situations en fonction de la nature des variables x/y

Quantitatif Ordinal Nominal

Quantitatif

I

IV

IV

Ordinal

IV

II

III

Nominal

IV

III

III

Etude dans 2 directions: • Elaboration de tableaux et graphiques • R´eduction des donn´ees.

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

4.1

154

RELATIONS ENTRE 2 VARIABLES QUANTITATIVES

4.1.1

VISUALISATION DES DONNEES (Scatter Plot)

Exemple Mode de payement Mode de payement

50

100

150

200

Dépenses mensuelles en liquide

Conclusion : Lien positif entre les deux variables donc une personne d´epensi`ere en liquide le sera ´egalement par carte. (Logique ? Autres variables a` prendre en compte ? Nombre de personnes dans le m´enage, . . .)

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

4.1.2

155

DISTRIBUTION MARGINALE, DISTRIBUTION CONDITIONNELLE

1. Tableau de contingence (TC) Soit {(xi, yi); i = 1, 2, . . . , n} la s´erie statistique bivari´ee =⇒ construction d’un tableau de contingence: x|y y1 y2 . . . yk . . . yK x1 n11 n12 . . . n1k . . . n1K x2 n21 n22 . . . n2k . . . n2K ··· ··· ··· ··· ··· ··· ··· xj nj1 nj2 . . . njk . . . niK ··· ··· ··· ··· ··· ··· ··· xJ nJ1 nJ2 . . . nJk . . . nJK o`u njk : effectif associ´e au couple (xj , yk ). =⇒ R´e´ecriture de la s´erie statistique bivari´ee: {(xj , yk , njk ), j = 1, . . . J, k = 1, . . . K}.

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

156

Exemple sur les secondes sessions njk y = 0 y = 1 y = 2 y = 3 y = 4 y = 5

P

x=0

2

3

4

2

0

0

11

x=1

0

0

0

2

2

0

4

x=2

1

1

0

1

1

0

4

x=3 P

0

0

0

0

0

1

1

3

4

4

5

3

1

20

Commentaires : • Deux ´etudiants de l’´echantillon n’ont jamais eu de 2`eme session • Un ´etudiant a eu trois 2`emes sessions en secondaire et cinq 2`emes sessions `a l’universit´e • L’effectif maximal est 4 pour des ´etudiants n’ayant jamais eu de 2`eme session en secondaire mais deux 2`emes sessions a` l’universit´e • ...

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

157

Si le nombre de lignes et de colonnes d’un TC sont trop grands =⇒ faire des classes Exemple: Mode de payement njk

[0, 175[ [175, 350[ [350, 525[

P

[0, 100[

26

24

1

51

[100, 200[

16

25

7

48

[200, 300[ P

0

1

0

1

42 50 8 100 xcj et yck : valeurs centrales des classes ∆x et ∆y: longueurs de classes. Commentaires: • 26 clients sur 100 ont achet´e en liquide entre 0 et 100 euros et par carte entre 0 et 175 euros. • Plus de la moiti´e de l’´echantillon (51 sur 100) ont achet´e pour moins de 100 euros en liquide • 8% ont achet´e entre 350 et 525 euros par carte.

NB : Parfois on a des distributions de type mixte o`u une des deux s´eries est regroup´ee en classes.

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

158

2. Distributions marginales Etude d’une seule s´erie observ´ee (abstraction de l’autre s´erie) =⇒ ´etude de s´eries univari´ees. a) S´erie marginale en x :{xi; i = 1, 2, . . . , n} ou encore {(xj , nj.); j = 1, . . . , J} o`u nj. =

K X

njk

k=1

sont les effectifs marginaux. Fr´equence marginale en x : nj. o`u j = 1, . . . , J =⇒ fj. = n n J 1X 1X x¯ = xi = nj.xj n n 1 2 sx = n

i=1 n X i=1

j=1

J

1X 2 (xi − x¯) = nj.(xj − x¯)2 n j=1

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

159

b) S´erie marginale en y :{yi; i = 1, 2, . . . , n} ou encore {(yk , n.k ); k = 1, . . . , K} o`u n.k =

J X

njk

j=1

sont les effectifs marginaux. Fr´equence marginale en y : n.k f.k = o`u k = 1, . . . , K =⇒ n y¯ =

n X 1

n

1 2 sy =

n

Exercice: J X j=1

i=1 n X

yi =

K X 1

n

k=1

(yi − y¯)2 =

i=1

nj. =

K X k=1

n.k yk

n.k =

K X 1

n

n.k (yk − y¯)2

k=1

J X K X j=1 k=1

njk = n

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

160

Exemple sur les secondes sessions njk y = 0 y = 1 y = 2 y = 3 y = 4 y = 5 nj. x=0

2

3

4

2

0

0

11

x=1

0

0

0

2

2

0

4

x=2

1

1

0

1

1

0

4

x=3

0

0

0

0

0

1

1

n.k

3

4

4

5

3

1

20

{(xj , nj.), j = 1, . . . , J} = {(0, 11), (1, 4), (2, 4), (3, 1)} {(yk , n.k ), k = 1, . . . , K} = {(0, 3), (1, 4), (2, 4), (3, 5), (4, 3), (5, 1)}

Diagramme en bˆatons des effectifs marginaux en x. 11

4

4

1

0.0

0.5

1.0

1.5

xj

2.0

2.5

3.0

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

161

3. Distributions conditionnelles Etude d’une s´erie observ´ee en fixant la valeur de l’autre s´erie observ´ee. Questions : • Parmi les ´etudiants n’ayant jamais eu de 2`eme session dans le secondaire, quel est le pourcentage d’´etudiants r´eussissant sans 2`eme session a` l’universit´e ? • Quelle est la moyenne du prix d’une action pour les titres ´echang´es sur la bourse de New York ? • Sachant que les d´epenses en liquides par mois sont inf´erieures a` 100 euros pour certains individus de l’´echantillon, quelle sera la moyenne des d´epenses de ces individus par carte ? • ...

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

162

Distribution conditionnelle de y en x : Fixons x = xj : {(yk , njk ), k = 1, . . . , K} =⇒ ´etude sur un ´echantillon de taille nj. Fr´equence conditionnelle (profil-lignes) : njk fyk |xj = fk|j = nj.

j fix´e ; k = 1, . . . , K

On peut calculer les moyennes, variances,. . . conditionnelles : K

1 X y¯|xj = njk yk nj. k=1 K X

1 2 sy|x = njk (yk − y¯|xj )2 nj. j k=1

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

163

Distribution conditionnelle de x en y: Fixons y = yk : {(xj , njk ), j = 1, . . . , J} =⇒ ´etude sur un ´echantillon de taille n.k Fr´equence conditionnelle (profil-colonnes) : njk k fix´e ; j = 1, . . . , J fxj |yk = fj|j = n.k On peut calculer les moyennes, variances,. . . conditionnelles : J X 1 x¯|yk = njk xj n.k j=1 J X

1 2 sx|y = njk (xj − x¯|yk )2 n.k k j=1

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

164

Exemple sur les secondes sessions Nombre moyen de secondes sessions `a l’universit´e sachant le nombre de secondes sessions dans le secondaire : xj

y¯|xj

0 1.5455 1

3.5

2

2

3

5

Exemple : Bourse Moyenne des prix d’une action pour les titres ´echang´es sur la bourse de New York : 7.88 + 17.000 + 12.888 + 6.563 + 10.865 = 11.0396 5 9.688 + 39.750 + 15.250 = = 21.5627 3

y¯x=N Y SE = y¯x=AM EX

Exercice: y¯x=OT C = . . .

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

4.1.3

165

MOMENTS, COVARIANCE ET CORRELATION

1. Les moments G´en´eralisation `a 2 dimensions de la notion de moment : a) Moments centr´es mrs =

n X 1

n

(xi − x¯)r (yi − y¯)s

r, s ∈ IN

i=1

Cas particuliers : n

1X (xi − x¯)2 = s2x m20 = n 1 m02 = n 1 m11 = n

i=1 n X i=1 n X

(yi − y¯)2 = s2y (xi − x¯)(yi − y¯) = sxy

i=1

o`u sxy est appel´e covariance

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

166

b) Moments par rapport a` l’origine n X 1 0 xri yis mrs = n i=1

Cas particuliers m001 = y¯

m010 = x¯ c)Propri´et´es de mrs

Soient x0, y0 ∈ IR et dx, dy ∈ IR+ Posons : ui = xid−x0 , vi = yid−y0 (i = 1, . . . , n) x

et ˜ rs = m

n X 1

n

y

(ui − u¯)r (vi − v¯)s

i=1

⇓ mrs ˜ rs = r s (exercice) m dxdy Cas particulier : sxy suv = dxdy

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

167

2. Covariance Moment centr´e d’ordre (1,1): m11 = sxy = cov(x, y) =

n X 1

n

((xi − x¯)(yi − y¯))

i=1

La covariance sera positive (n´egative) s’il existe une relation croissante (d´ecroissante) entre les 2 variables. Exemple: Mode de payement Modes de payement

+ 50

100

150

Dépenses mensuelles en liquide

200

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

168

Propri´et´es • Influenc´ee par les changements d’unit´es mais pas d’origine. Soient yi − y0 xi − x0 et vi = ui = dx dy cov(x, y) =⇒ cov(u, v) = dxdy • |cov(x, y)| ≤ sxsy (exercice)

(i = 1, . . . , n) (exercice)

Aide: d´evelopper l’expression suivante: n X 1 (b(xi − x¯) − (yi − y¯))2 n i=1

• Expression liant m11 et m011 (exercice): m11 = sxy = n

n X 1

n

((xi − x¯)(yi − y¯))

i=1

1X = xiyi − x¯y¯ = m011 − m001m010 n i=1 Pn 1 2 Mettre en parall`ele avec : sx = n i=1 x2i − x¯2.

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

3. Coefficient de corr´ elation (Bravais-Pearson) D´efinition: sxy o`u sx 6= 0, sy 6= 0 r= s x sy

169

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

170

Commentaires: r = 1 quand tous les points observ´es se trouvent sur une mˆeme droite de pente positive r ≈ 1 quand tous les points observ´es sont situ´es `a proximit´e d’une telle droite r = 0 quand le nuage de points est allong´e parall`element a` l’un des axes de coordonn´ees , ou forme arrondie r = −1 quand tous les points observ´es se trouvent sur une mˆeme droite de pente n´egative r ≈ −1 quand tous les points observ´es sont situ´es `a proximit´e d’une telle droite =⇒ r mesure l’intensit´e de la “d´ependance” lin´eaire entre x et y

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

171

Propri´ et´ es • Ne peut pas ˆetre utilis´e avec des variables qualitatives • signe(r) = signe(cov(x, y)) • −1 ≤ r ≤ 1 • r est ind´ependant des unit´es de mesures (origine et unit´e des ´echelles de mesure) =⇒ r est ind´ependant de toute transformation lin´eaire. Ainsi, on a que rxy = ruv quand yi − y0 xi − x0 et vi = (i = 1, . . . , n) ui = dx dy avec dx et dy strictement positifs.

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

172

!!Corr´ elation n’implique pas toujours causalit´ e!! Une forte corr´elation n’implique pas automatiquement une relation directe de cause `a effet. Ceci peut simplement ˆetre dˆu au fait que les 2 variables sont soumises `a des influences communes. Exemple des cigognes.

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

4.1.4

173

VECTEUR MOYENNE ET MATRICE DE VARIANCECOVARIANCE

Il est fr´equent de repr´esenter les moments du 1er et du 2`eme ordres d’une s´eri´e bivari´ee sous forme matricielle (notation ais´ee, temps de calculs r´eduits). Soit {xi, yi; i = 1, . . . , n}, une s´erie bivari´ee: a) Vecteur moyenne: g¯ =



!



NB: g¯ d´efinit le centre de gravit´e des donn´ees. b) Matrice variance-covariance: ! s2x sxy V = sxy s2y NB: V est une matrice sym´etrique.

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

c) Soit X la matrice des  x1  x  2 X=  ..  xn

174

observations:  y1  y2   ..    yn

et Xc la matricedes valeurs centr´e es: x − x¯ y1 − y¯  1   x − x¯ y − y¯   2  2 Xc =  , . .  .  .   xn − x¯ yn − y¯ =⇒ V = n1 Xc0 Xc 



=

1 n

x − x¯ y1 − y¯  ! 1  x1 − x¯ x2 − x¯ . . . xn − x¯  x2 − x¯ y2 − y¯   .  . . y1 − y¯ y2 − y¯ . . . yn − y¯  .   .  xn − x¯ yn − y¯

Exercice: Ecriture matricielle avec trois variables (x, y, z).

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

4.1.5

175

REGRESSION LINEAIRE SIMPLE

Objectif : D´efinir une relation de d´ependance statistique entre 2 variables. La variable a` expliquer sera not´ee Y (variable r´eponse, variable d´ependante), et la variable explicative sera not´e X (variable ind´ependante)

0 -4

-2

y2

2

4

Exemples

1

0

1

2

-2

-1

0

1 x1

0 -2

-1

y4

1

2

x1

1

0

1 x1

2

-2

-1

0

1 x1

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

176

D´ ependance simple : relation lin´ eaire =⇒ d´etermination d’une droite de r´egression. Exemple: Essayons d’estimer le prix d’une maison PRICE (en milliers de dollars) en fonction de la superficie totale FLR (en pieds carr´es). La variable d´ependante est PRICE, la variable explicative est FLR. Ajustons “au mieux” ces donn´ees par une droite

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

177

L’erreur commise entre la vraie valeur Price et la valeur ajust´ee par la droite est appel´ee “r´esidu” (residual)

Remarquons qu’en moyenne nous ne faisons pas d’erreur, en effet la moyenne des r´esidus est nulle d`es qu’un terme constant est dans le mod`ele.

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

178

CADRE THEORIQUE

Soit {(xi, yi); i = 1, . . . , n} une s´erie statistique bivari´ee. Soit y la variable d´ependante et x la variable explicative. Notons la droite de regression: yˆi = a + bxi

(a, b ∈ IR).

Alors, il est possible de calculer les r´esidus: ei = yi − yˆi = yi − a − bxi Id´ ee: Minimiser les erreurs commises entre la vraie valeur de l’observation yi et la pr´evision bas´ee sur la variable explicative yˆi. Diff´ erentes pistes: Minimiser n n X X ou e2i |ei| ou m´ediane(ei) i=1

i=1

ou . . .

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

179

CRITERE DES MOINDRES CARRES (MC)

Point de vue math´ematique: crit`ere simple. But: Minimiser: n X i=1

e2i =

n X

(yi − a − bxi)2.

i=1

=⇒ Syst`eme d’´equations normales. Pour avoir un minimum, il faut que ∂ (i) Q(a, b) = 0 ∂a ∂ (ii) Q(a, b) = 0. ∂b

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

180

R´ esolution: D´erivons la somme des r´esidus carr´es par rapport a` a: n

X ∂ Q(a, b) = −2 (yi − a − bxi) ∂a i=1

Il s’ensuit de (i) que ⇔ ⇔ ⇔

n X i=1 n X i=1 n X

(yi − a − bxi) = 0 yi − na − b yi = na + b

i=1

n X i=1 n X

xi = 0 xi

i=1

⇔ y¯ = a + b¯ x, ce qui implique que le centre de gravit´e est sur la droite de r´egression.

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

181

D´erivons la somme des r´esidus carr´es par rapport a` b: n

X ∂ Q(a, b) = −2 (yi − a − bxi)(xi) ∂b i=1

Il s’ensuit de (ii) que n X ⇔ (yi − a − bxi)(xi) = 0 ⇔

i=1 n X

xi y i − a

i=1 n X

1 ⇔ n 1 ⇔ n

i=1 n X

xi − b

i=1

1 xiyi − (¯ y − b¯ x) n

n X i=1 n X

x2i − x¯2) =

n X 1

n

x2i = 0 xi − b

i=1

xiyi − y¯x¯ + b¯ x2 − b

i=1 n X

1 ⇔ b( n

n X

n X 1

n

n X 1

n

x2i = 0

i=1

x2i = 0

i=1

xiyi − y¯x¯

i=1 i=1 P Pn n 1 1 ¯ n i=1(xi − x¯)(yi − y¯) i=1 xiyi − y¯x n = ⇔ b = 1 Pn Pn 1 2 2 2 ¯ ¯ x − x (x − x ) i i=1 i i=1 n n

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

182

Solution au probl` eme de minimisation: a = y¯ − b¯ x sxy b = 2 sx

Remarque: en calculant les d´eriv´ees secondes, on peut montrer que la solution est bien un minimum (exercice).

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

183

Variances r´ esiduelle et de r´ egression D´ecomposons la variance de la variable a` expliqu´e (y) en deux parties: d’une part la partie expliqu´ee par la droite de r´egression (variance de r´egression) et d’autre part la partie non expliqu´ee (variance r´esiduelle)

s2y =

n X 1

n

i=1

(yi −yˆi)2 +

n X 1

n

i=1

(ˆ yi −y¯)2 = s2e +s2reg

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

184

D´emonstration: n n X X 1 1 2 2 sy = (yi − y¯) = (yi − yˆi + yˆi − y¯)2 n n 1 = n 2 + n

i=1 n X i=1 n X

1 2 (yi − yˆi) +

n

i=1 n X

(ˆ yi − y¯)2

i=1

(yi − yˆi)(ˆ yi − y¯)

i=1

Montrons que le double produit est nul. Rappel: yˆi = a + bxi = y¯ − b¯ x + bxi = y¯ + b(xi − x¯) Donc, nous avons que: n

n

2X 2X (yi − yˆi)(ˆ yi − y¯) = (yi − y¯ − b(xi − x¯))(b(xi − x¯)) n i=1 n i=1 n n X 2b X = [ (yi − y¯)(xi − x¯) − b (xi − x¯)2] n i=1 i=1 sxy = 2b[sxy − bs2x] = 2b[sxy − 2 s2x] = 0 sx

Ceci prouve la d´ecomposition de la variance en une variance r´esiduelle et une variance de r´egression.

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

185

Coefficient de corr´ elation (r) et coefficient de d´ etermination (R2) • Lien entre le signe de r et la pente de la droite de r´egression. On peut prouver que sy yˆi − y¯ = r (xi − x¯) sx De cette relation, il est ais´e de voir que: r > 0 =⇒ pente positive r < 0 =⇒ pente n´egative • Pourcentage de variance de la variable y expliqu´e par la variable x. On peut montrer: 2 s reg s2e = s2y (1 − r2) ⇐⇒ r2 = 2 sy Interpr´etation : r2 qui sera ´etendu dans le cas de r´egression multiple a` R2 mesure le % de variance de la variable r´eponse (y) expliqu´e par la variable explicative (x).

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

186

D´emonstration: s2e = s2y (1 − r2) n n X X 1 1 (yi − yˆi)2 = (yi − y¯ − b(xi − x¯))2 s2e = n n 1 = n

i=1 n X

2b − n

b 2 (yi − y¯) +

i=1 n X

i=1 n 2X

n

(xi − x¯)2

i=1

(yi − y¯)(xi − x¯)

i=1

2 s sxy xy 2 2 = sy + 4 sx − 2 2 sxy sx sx 2 s xy = s2y − 2 sx 2 s xy 2 = sy (1 − 2 2 ) s x sy

= s2y (1 − r2)

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

187

Exemple Argent de poche donn´e a` de jeunes adolescents: • x = aˆge • y = montant hebdomadaire moyen en euro xi 12 12 15

14

16 14 12 13 11 11

yi 4.1 3.4 11.3 10.2 11.5 7.2 6.0 7.8 3.5 3.0

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

188

xi − x¯ yi − y¯ (xi − x¯)2 (yi − y¯)2 (xi − x¯)(yi − y¯)

xi

yi

12

4.1

-1

-2.7

1

7.29

2.7

12

3.4

-1

-3.4

1

11.56

3.4

15 11.3

2

4.5

4

20.25

9

14 10.2

1

3.4

1

11.56

3.4

16 11.5

3

4.7

9

22.09

14.1

14

7.2

1

0.4

1

0.16

0.4

12

6

-1

-0.8

1

0.64

0.8

13

7.8

0

1

0

1

0

11

3.5

-2

-3.3

4

10.89

6.6

11

3

-2

-3.8

4

14.44

7.6

130 68

0

0

26

99.88

48

g¯ =

x¯ y¯

! =

13 6.8

! et V =

s2x sxy sxy s2y

! =

2.6 4.8 4.8 9.99

Donc la droite de r´egression est donn´ee par: 4.8 yˆ = 6.8 + (x − 13) = −17.2 + 1.85x 2.6

!

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

189

Importance de l’analyse des graphiques • Examen du graphique des donn´ees =⇒ information sur la relation ´eventuelle entre deux variables • Analyse des r´esidus ei = yi−ˆ yi (i = 1, . . . , n). • Exemple dˆu a` Anscombe (p. 398) Ensemble A Ensemble B Ensemble C Ensemble D x

y

x

y

x

y

x

y

10

8.04

10

9.14

10

7.46

8

6.58

8

6.95

8

8.14

8

6.77

8

5.76

13

7.58

13

8.74

13

12.74

8

7.71

9

8.81

9

8.77

9

7.11

8

8.84

11

8.33

11

9.26

11

7.81

8

8.47

14

9.96

14

8.10

14

8.84

8

7.14

6

7.24

6

6.13

6

6.08

8

5.25

4

4.26

4

3.10

4

5.39

19

12.50

12

10.84

12

9.13

12

8.15

8

5.56

7

4.82

7

7.26

7

6.42

8

7.91

5

5.68

5

4.74

5

5.73

8

6.89

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

190

Repr´esentations graphiques des exemples d’Anscombe:

Que pensez-vous de l’hypoth`ese de relation lin´eaire entre x et y pour chacun de ces cas? • N.B.: Calculez les r´esidus et commentez leurs graphiques.

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

4.2

191

RELATIONS ENTRE UNE VARIABLE QUANTITATIVE ET UNE VARIABLE QUALITATIVE

Soient: - Y une variable quantitative (p.e. le salaire) - X une variable qualitative (p.e. le niveau de diplˆome) prenant les modalit´es x1, . . . , xj , . . . , xJ .

• Moyennes conditionnelles: Quel est le salaire moyen pour un travailleur ayant un diplˆome de bachelier ?? 1 y¯|xj = nj.

X

yj

y tq x=xj

=⇒ Graphique des moyennes conditionnelles.

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

192

• Mesure de l’intensit´e de la d´ependance non lin´eaire de y en x. Effectuons une d´ecomposition de la variance marginale :

s2y =

n X 1

n

1 = n 1 = n 1 = n 1 + n

(yi − y¯)2 =

i=1 J X K X j=i k=1 J X K X j=i k=1 J X K X

K X 1

n

n.k (yk − y¯)2

k=1

njk (yk − y¯)2 njk (yk − y¯|xj + y¯|xj − y¯)2 njk (yk − y¯|xj )2

j=i k=1 J X

nj.(¯ y |xj − y¯)2

j=i

= moyenne des variances conditionnelles + variance des moyennes conditionnelles

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

193

• Le rapport de corr´elation ηy.x est d´efini par son carr´e: 1 PJ n (¯ 2 ¯ y |x − y ) j. j j=i 2 = n ηy.x s2y

Interpr´etation: Pourcentage de la variance expliqu´ee par la connaissance de la variable X. Remarques: - expression a` comparer avec R2 2 est ind´ - ηy.x ependant des origines et des

unit´es 2 ≤1 - 0 ≤ ηy.x

- Si y¯|xj = y¯ - Si s2y|x = 0 j

2 =0 ∀j =⇒ ηy.x 2 =1 ∀j =⇒ ηy.x

2 − r2 - Indice de non lin´earit´e: ηy.x

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

4.3

194

RELATION ENTRE 2 VARIABLES QUALITATIVES ORDINALES

Exemple: Sondage d’opinion aupr`es de 10 clients du restaurant Lobster Pot dans l’Etat de Floride.

i

1 2 3 4 5 6 7 8 9 10

QN E B B E S S I B E S QS B B B E S B I E B S R

B B E B B I I E B B

P

S B E E B I I B S B

G

B B E B E B I S S E

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

4.3.1

195

CORRELATIONS DE RANG

Echelle ordinale donc il n’existe plus de lien lin´eaire ⇒ Information `a exploiter pour comparer les 2 seri´es: ORDRE. Soit {(xi, yi); i = 1, . . . , n} la s´erie statistique bivari´ee. Soient les 2 s´eries marginales ordonn´ees: {x(1), . . . , x(n)} et {y(1), . . . , y(n)}. L’indice (i) est appel´e rang de l’observation correspondante. Notons R(xi) le rang de l’observation xi et R(yi) le rang de l’observation yi. Exemples: S´erie observ´ee: QNi = {E, B, E, B, S, S, I, B, E, S} S´erie ordonn´ee: QN(i) = {I, S, S, S, B, B, B, E, E, E} Rang de la s´erie ordonn´ee: R(QN(i)) = {1, 3, 3, 3, 6, 6, 6, 9, 9, 9} Rang de la s´erie observ´ee: R(QNi) = {9, 6, 9, 6, 3, 3, 1, 6, 9, 3}

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

196

• Corr´ elation de Spearman (rs) D´efinition: Rs = corr(R(x), R(y)). Par d´efinition de la corr´elation de Pearson: Rs =

 Pn 1 ¯ i=1 R(xi ) − Rx n q P  1 n 1 2 ¯ i=1 (R(xi ) − Rx ) n n

 ¯ R(yi) − Ry  Pn 2 ¯ i=1 (R(yi ) − Ry )

• Corr´ elation du quadrant Bas´e sur la division de l’espace en 4 parties au moyen des m´edianes. • Corr´ elation de Kendall Bas´e sur la notion de paire d’observations concordantes et discordantes.

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

4.4

197

RELATIONS ENTRE 2 VARIABLES QUALITATIVES NOMINALES

S´erie statistique bivari´ee {(xj , yk , njk ); j = 1, . . . , J et k = 1, . . . , K} • Exemple: Enquˆete aupr`es de 200 ´etudiants Variable X: “Provenance des ´etudiants” 3 modalit´es: R1, R2, R3 (3 r´egions). Variable Y : “Choix de l’universit´e” 3 modalit´es: U1, U2, U3 (3 universit´es). Tableau de contingence njk U1 U2 U3 nj. R1 28 73 29 130 R2

0

2

18 20

R3 12 25 13 50 n.k 40 100 60 200

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

198

Formalisation • 2 variables qualitatives (nominales) X et Y : - X prend J modalit´es: A1, . . . , AJ - Y prend K modalit´es: B1, . . . , BK . • X et Y sont observ´es sur un ´echantillon de taille n =⇒ Tableau de contingence (N): PK X|Y B1 . . . Bk . . . BK k=1 A1

n11 . . . n1k . . . n1K

···

··· ··· ··· ··· ···

Aj

nj1 . . . njk . . . niP

···

··· ··· ··· ··· ···

AJ PJ

nJ1 . . . nJk . . . nJK

j=1 n.1 . . . n.k . . . n.K

n1. nj. nJ. n

o`u les effectifs njk repr´esentent le nombre d’individus ayant simultan´ement les modalit´es Aj et Bk . PK PJ Notons que nj. = k=1 njk et n.k = j=1 njk .

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

199

Tableau des fr´ equences relatives F Proportion d’individus poss´edant simultan´ement les modalit´es Aj et Bk : njk fjk = (j = 1 . . . , J; k = 1, . . . , K). n Fr´equences relatives marginales sont donn´ees par: nj. fj. = (j = 1 . . . , J) n et n.k f.k = (k = 1, . . . , K). n Remarquons que: fjk est une estimation de πjk = P (X ∈ Aj , Y ∈ Bk ) fj. est une estimation de πj. = P (X ∈ Aj ) f.k est une estimation de π.k = P (Y ∈ Bk )

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

200

Exemple R´egions-Universit´es. fjk U1

U2

U3

fj.

R1 0.14 0.365 0.145 0.65 R2

0

0.010 0.090 0.10

R3 0.06 0.125 0.065 0.25 f.k 0.20 0.50 0.30

1

Commentaires • 14% des 200 ´etudiants viennent de la r´egion R1 et sont a` l’universit´e U1 • 65% des ´etudiants viennent de la r´egion R1 • 30% des ´etudiants sont `a l’universit´e U3 • ...

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

201

Tableaux des fr´ equences conditionnelles • Tableau des profils-lignes Proportion des individus pr´esentant la modalit´e Bk parmi les individus ayant la modalit´e Aj : njk njk /n fjk fk|j = = = (j = fix´e; k = 1, . . . , K). nj. nj./n fj. =⇒ estimation de la probabilit´e conditionnelle: P (Y ∈ Bk |X ∈ Aj ) fjk fj.

U1

U2

U3

Totaux

R1 0.215 0.562 0.223

1

R2

0.100 0.900

1

R3 0.240 0.500 0.260

1

f.k 0.200 0.500 0.300

1

0

Commentaires • Dans les ´etudiants venant de la r´egion R2, 10% ont choisi l’universit´e U2.

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

202

• Tableau des profils-colonnes Proportion des individus pr´esentant la modalit´e Aj parmi les individus ayant la modalit´e Bk : njk njk /n fjk = = (j = 1, . . . , J; k = fix´e). fj|k = n.k n.k /n f.k =⇒ estimation de la probabilit´e conditionnelle: P (X ∈ Aj |Y ∈ Bk ) Exemple 1: fjk f.k

R1 R2 R3 Totaux

U1

U2

U3

fj.

0.700 0.730 0.483 0.65 0

0.020 0.300 0.10

0.300 0.250 0.217 0.25 1

1

1

1

Commentaires • Dans les ´etudiants ayant choisi l’universit´e U3, 30% viennet de la r´egion R2.

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

203

Situation d’ind´ ependance • Si 2 variables al´eatoires X et Y sont ind´ependantes, alors ∀j ∈ {1, . . . , J} et ∀k ∈ {1, . . . , K}: a)P (X ∈ Aj , Y ∈ Bk ) = P (X ∈ Aj )P (Y ∈ Bk ) b)P (Y ∈ Bk |X ∈ Aj ) = P (Y ∈ Bk ) c)P (X ∈ Aj |Y ∈ Bk ) = P (X ∈ Aj ) • L’´echantillon de taille n nous permet d’estimer ces quantit´es, d`es lors sous l’hypoth`ese d’ind´ependance, on devrait avoir: a )fjk ≈ fj.f.k ∀j ∈ {1, . . . , J} ∀k ∈ {1, . . . , K} fjk ≈ f.k ∀j, ∀k b )fk|j = fj. fjk c )fj|k = ∀j, ∀k. ≈ fj. f.k Ainsi tous les profils-lignes et les profils-colonnes sont pratiquement ´egaux.

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

204

• D´efinissons les fr´equences (relatives) th´eoriques esp´er´ees sous l’hypoth`ese d’ind´ependance: nj.n.k ∗ ∗ ∗ fjk = fj.f.k et njk = nfjk = n • Exemple R´egions-Universit´es. Effectifs et effectifs th´eoriques: njk U1 U2 U3 nj. R1 28 73 29 130 R2

0

2

18 20

R3 12 25 13 50 n.k 40 100 60 200 n∗jk U1 U2 U3 nj. R1 26 65 39 130 R2

4

10

6

20

R3 10 25 15 50 n.k 40 100 60 200

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

205

Fr´equences observ´ees et fr´equences th´eoriques esp´er´ees sous l’hypoth`ese d’ind´ependance: fjk U1

U2

U3

fj.

R1 0.14 0.365 0.145 0.65 R2

0

0.010 0.090 0.10

R3 0.06 0.125 0.065 0.25 f.k 0.20 0.50 0.30 ∗ U fjk 1

U2

U3

1 fj.

R1 0.13 0.325 0.195 0.65 R2 0.02 0.050 0.030 0.10 R3 0.05 0.125 0.075 0.25 f.k 0.20 0.50 0.30

1

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

206

Ecarts ` a l’ind´ ependance Les ´ecarts a` l’ind´ependance sont donn´es par ejk = njk − n∗jk La matrice des ´ecarts est calcul´ee en soustrayant de la matrice des effectifs observ´es N , la matrice des effectifs th´eoriques esp´er´es sous l’hypoth`ese d’ind´ependance N ∗. • Exemple R´egions-Universit´es njk U1 U2 U3 nj. n∗jk U1 U2 U3 nj. R1 28 73 29 130 R1 26 65 39 130 R2

0

2

18 20

R3 12 25 13 50

R2

4

10

6

20

R3 10 25 15 50

n.k 40 100 60 200 n.k 40 100 60 200

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

207

=⇒ ejk U1 U2 U3 R1 2 8 -10 R2 -4 -8 12 R3 2

0

-2

• Interpr´etations: ∗ =f f ejk > 0 ↔ njk > n∗jk ↔ fjk > fjk j. .k → on dit que les modalit´es Aj et Bk “s’attirent” ∗ =f f ejk < 0 ↔ njk < n∗jk ↔ fjk < fjk j. .k → on dit que les modalit´es Aj et Bk “se re-

poussent”.

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

208

Mesures d’association du chi-carr´ e: J X K (n − n∗ )2 J X K e2 X X jk jk jk 2 D = = n∗jk n∗jk j=1 k=1

j=1 k=1

Exemple R´egions-Universit´es: e2jk n∗jk

U1

U2

U3

Totaux

R1

0.1538 0.9846 2.5641

3.7025

R2

4.0000 6.4000 24.0000 34.4000

R3

0.4000 0.0000 0.2667

0.6667

Totaux 4.5538 7.3846 26.8308 38.7692 • Interpr´etation : Plus la valeur est grande, plus on s’´ecarte de l’ind´ependance donc association (en 2`eme ann´ee dans le chapitre des probl`emes de test, vous utiliserez cette statistique pour tester l’ind´ependance).

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

4.5

209

EXTENSIONS (cours ` a option en 4` eme): ANALYSE DES DONNEES MULTIDIMENSIONNELLES

But: pr´esenter les diff´erentes m´ethodes statistiques permettant de visualiser et r´esumer l’information contenue dans des bases de donn´ees contenant un grand nombre de variables. Analyse en composantes principales (ACP) Technique de repr´esentation et de r´eduction d’un ensemble de variables quantitatives continues. Analyse des correspondances binaires (ACOBI) M´ethode adapt´ee a` l’´etude des ´eventuelles relations existantes entre 2 variables nominales (´etude des tableaux de contingence).

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE

210

Analyse des correspondances multiples (AFCM) G´en´eralisation de l’analyse des correspondances. Permet de d´ecrire les relations entre plusieurs variables nominales. M´ ethodes de classification M´ethodes permettant de grouper les individus ou variables suivant certains crit`eres de proximit´e. Analyse discriminante Techniques destin´ees a` classer (affecter `a des classes pr´eexistantes) des individus caract´eris´es par un certain nombre de variables quantitatives ou qualitatives

Chapitre 5 SERIES CHRONOLOGIQUES

211

Chapitre 5 : Analyse d’une série chronologique 1. Introduction. Série chronologique : Suite de valeurs observées {yt1, yt2, ….ytn} d’une variable Y effectuées dans le temps aux instants : {t1, t2, …, tn}.

1

Hypothèse simplificatrice : On suppose que les dates d’observations sont équidistantes → {y1, y2, …yn}. Variable de niveau : Etat à un moment donné : - montant des avoirs le 31 décembre - nombre de chômeurs le 1er de chaque mois - etc Variable de flux : Mouvement intervenu durant une certaine période : - quantité produite pendant 1 mois - nombre de navetteurs sur la E411 sur une journée - etc

2

Prévisions :Exemples Prévision à court terme : - prévision des ventes futures du produit X pour faire face à la demande

Prévision à moyen terme : - rendement d’un investissement

Prévision à long terme : - prévisions des besoins en service publics (hôpitaux, écoles, etc).

Les méthodes présentées dans ce chapitre se rapportent à la prévision à court terme Origine de la prévision (T) : moment où le prévision est effectuée Horizon de la prévision (h) : intervalle de temps qui sépare l’origine de la prévision et le moment pour lequel on désire la prévision Prévision ponctuelle : yˆT ( h) 3

2. Composante d’une série chronologique Le principe de décomposition est basé sur la maxime : «diviser pour régner». Décomposition en 4 composantes : T= tendance C= composante cyclique S= composante saisonnière E= composante résiduelle (irrégulière) Combinaisons possibles des composantes : Modèle additif : yt = Tt + Ct + St + Et

NB : composante extra-saisonnière : ft = Tt + Ct

Modèle multiplicatif : yt= Tt * Ct * St * Et NB : composante extra-saisonnière : ft = Tt * Ct

Modèle mixte : tout autre modèle où additions et multiplications sont utilisées. 4

Composition d’une série chronologique. Modèle additif : yt = Tt + Ct + St + Et Graphique 1 : T = Tendance linéaire

Graphique 2 : T + C = Tendance linéaire + composante cyclique

5

Graphique 3 : T + C + S = idem+ composante saisonnière

Graphique 4 : T + C + S + E= idem+ composante résiduelle

6

Modèle multiplicatif : yt = Tt * Ct * St * Et

Graphique 1 : T = Tendance linéaire

Graphique 2 : T * C = Tendance linéaire * composante cyclique

7

Graphique 3 : T * C * S = idem * composante saisonnière

Graphique 4 : T * C * S * E= idem * composante résiduelle

CONCLUSION :

8

3. Etude de la tendance a) Approche exploratoire Difficulté pratique de procéder, souvent lié à: - la longueur de la série - l’importance des fluctuations

Solution : essayer de « lisser » la série pour avoir une idée générale de la tendance Outils : - filtres linéaires (moyenne mobile, etc) - régression linéaire simple après avoir linéarisé par différenciation, transformation logarithmique, etc 9

b) Filtres linéaires. Soit {y1,…,yt,…,yn} la série chronologique → une valeur filtrée linéairement:

Donc la série filtrée est donnée par :

où wt est indépendant de t Exemple : {y1, y2, …, y8}, posons p1=1, p2=2 Donc

y = * t

2

∑w y j =−1

j

t+ j

= w−1 yt −1 + w0 yt + w1 yt +1 + w2 yt + 2

Série filtrée : {y*2, y*3,…,y*6} 10

Cas particuliers :Moyennes Mobiles (MM)

11

12

13

14

15

5°) Choix de l’ordre de la moyenne mobile.

16

17

Donc le choix « idéal » dépend de la saisonnalité.

18

c) Ajustement analytique (régression linéaire) Variable y fonction du temps : y=f(t) + erreur Procédure : - étape 1 : si y n’est pas une fonction linéaire : f(t) = a + bt, essayer de la linéariser Tendance quadratique

y2

20 40 60 80

0

0

20

40

y1

60

80

120

100

Tendance lineaire

10

20

30

40

50

0

10

20

30

40

t

t

Tendance exponentielle

Tendance hyperbolique

50

y4

-0.6

60 40

-1.0

20

y3

80

-0.2

100 120

0

0

10

20

30 t

40

50

0

10

20

30

40

50

t

- étape 2 : utiliser la méthode des moindres carrés sur les données linéarisées (modèle de régression) 19

Etape 1 : Linéariser la relation. NB : en série chronologique, la variable explicative x est le temps t Régression exponentielle : y = 10 a +bx ⇒ log10 y = a + b x

⇒ régression linéaire pour {(xi , zi)} où zi = log10 yi

Régression hyperbolique :

y=

1 a + bx



1 = a + bx y

⇒ régression linéaire pour {(xi , zi )} où zi = 1 yi

20

Régression quadratique: la parabole y = b0 + b1 x + b 2 x 2

( i

Min Q (b0 , b1 , b2 ) = ∑

)

2 2 yi − b0 − b1 xi − b2 xi

Système d’équations normales :

 ∂ Q = −2 y − b − b x − b x 2 = 0 ∑ i 0 1 i 2 i  ∂ b0 i  ∂Q  = −2 ∑ yi − b0 − b1 xi − b2 xi2 (xi ) = 0  ∂ b1 i  ∂Q = −2 ∑ yi − b0 − b1 xi − b2 xi2 xi2 = 0  ∂ b2 i  

(

)

(

)

(

)( )

21

Etape 2 : Estimation de la tendance par la méthode des moindres carrés Soit {(ti,yi); i=1,2,…,n} la série statistique

bivariée. Soit y la variable dépendante et t le temps Notons la droite de régression par:

yˆi = a + bti

(a, b ∈ R)

⇒ on peut calculer les résidus: ei = yi − yˆi = yi − a − bti

Idée : Minimiser les erreurs commises entre la vraie valeur de l’observation yi et la prévision basée sur la tendance : n

Critère des moindres carrés :

2 e i ∑ i =1

22

Critère des moindres carrés (MC) On veut minimiser : Q(a,b)=Σi ei2 = Σi (yi- a- b ti)2

⇒ Système d’équations normales : pour avoir un minimum il faut que :

∂Q (a, b) =0 ∂a ∂Q (a, b) =0 ∂b On obtient donc comme solution du problème de minimisation :

a = y − bt

b =

s ty

2 t Remarque : en calculant les dérivées secondes, on peut montrer que la solution est bien un minimum

s

23

Cas particulier : Soit l’échantillon : {(y1,1), (y2,2), …(yT,T)} ⇒ et

1+ 2+...+T =

T(T +1) 2

12 + 22 +...+T 2 =

T(T +1)(2T +1) 6



t = T +1 2



2 −1 T st2 = 12

Ce qui implique que l’ajustement linéaire au sens des MCO est donné par : yˆt = a +b t



a= y −bT +1 2 T

et

T

T +1 yt ty − t ∑ 2 ∑ t =1 t =1 b= 1 T(T 2 −1) 12

24

4. Etude de la composante saisonnière a). Introduction.

25

b) Modèle additif

26

27

28

29

30

31

32

33

34

c) Modèle multiplicatif

35

5. Elimination de la tendance ou/et de la composante saisonnière a) Elimination de la tendance. Solution 1 : On détermine T et ensuite on effectue les opérations suivantes : 1°) Cas additif : y-T 2°) Cas multiplicatif : y/T Solution 2 : Utilisation des différences Cas d’une tendance linéaire : Cas d’une tendance quadratique :

36

b) Elimination de la saisonnalité. Solution 1 : On détermine Sj (ou 1+ sj) et ensuite on effectue les opérations suivantes : 1°) Cas additif : dij = yij - Sj 2°) Cas multiplicatif : dij = yij / (1+sj)

Solution 2 : Utilisation des différences saisonnières.

37

6. Méthodes de Prévision

38

39

40

41

42

43

44

45

46

Chapitre 6 VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES Citibank, Long Island City, Etat de New York (Anderson, Sweeney, & Williams, 2001)

212

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES213

6.1

D´ efinitions, Variables al´ eatoires

Exp´ erience al´ eatoire: processus dont on ne peut pas pr´evoir le r´esultat: • lancer un d´e • jouer au lotto • faire une offre de vente • qualit´e d’une pi`ece (d´efectueuse ou non) dans un processus industriel, . . . Espace-´ echantillon: ensemble des r´esultats possibles Exemple : on lance 2 pi`eces de monnaie Ω ω1 : P 1 ∩ P 2

'

$

ω2 : P 1 ∩ F 2 ω3 : F1 ∩ P2 ω4 : F 1 ∩ F 2

&

%

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES214

Variable al´ eatoire: sa valeur est d´etermin´ee par le r´esultat d’une exp´erience al´eatoire. Exemple: on lance 2 pi`eces de monnaie et on s’int´eresse au nombre X de r´esultats face obtenus

'



$

V

ω1 : P 1 ∩ P 2 H H

'

HH

H jH H

HH HH

ω2 : P1 ∩ F2 XXXX ω3 : F1 ∩ P2 

X zXX XXX X      *  , ,

$

0 1 2

, , , ,  , ,

ω4 : F 1 ∩ F 2 , &

, , %

&

%

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES215

Notons Ex l’´ev´enement compos´e des r´esultats associ´es `a la valeur x ∈ V '

Ω '

$ $

E0 & P1 ∩ P2 % HH H

'

HH jH

'

E1

V

$

HH H

HH

P1 ∩ F2 XXXX

X zXX X

F1 ∩ P2 &

 *    %

XXX    , ,

$

0 1 2

, , ,

'

E2 & F 1 ∩ F2

&

,  $, , , , , % %

&

%

On a donc: 1 P (E0) = P (X = 0) = 4 1 1 1 P (E1) = P (X = 1) = + = 4 4 2 1 P (E2) = P (X = 2) = 4

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES216

px 1

6

3 4 1 2 1 4 -

0

1

2

x

D´ efinition d’une variable al´ eatoire: Une variable al´eatoire (v.a.) X est une fonction d´efinie sur Ω a` valeurs dans un ensemble not´e V. A chaque ω de Ω on associe une valeur x = X(ω) ∈ V. '



$

V '

$

•```````z`` ``` ω `• x & &

%

%

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES217

Discr` ete et continue Si V est un ensemble discret, la v.a. est dite discr`ete (par exemples V = {0, 1, . . . , n} o`u n ∈ N ; V = Z) Exp´erience

Variable al´eatoire X

Valeurs possibles V

Contacter 5 clients

Nbre de clients

0, 1, 2, 3, 4, 5

qui commandent Inspecter une

Nbre de radios d´efectueuses 0, 1, . . . , 50

cargaison de 50 radios G´erer un restaurant

Nombre de clients

0, 1, 2, 3, . . .

pendant une journ´ee

Si V est continu, la v.a. sera dire continue (par exemple V = IR) Exp´erience

Variable al´eatoire X Valeurs possibles V

Jouer au lotto

Montant gagner

G´erer un restaurant B´en´efices pendant une journ´ee

Intervalle de IR+ Intervalle de IR+

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES218

6.2

Loi d’une v.a. discr` ete

Associons `a la valeur x ∈ V l’ensemble d’´ev`enements: Ex = {w tel que w ∈ Ω et X(w) = x} On peut donc calculer pour tout x ∈ V : px = PX (x) = P (X = x) = P (Ex) ⇓ Loi de probabilit´ e de X: {(x, px), x ∈ V }. Remarque : {(x, px), x ∈ V } est une DP ssi X px ≥ 0 ∀x ∈ V et px = 1 x

Exemples: distribution uniforme, binomiale, de Bernouilli, de Poisson, g´eom´etrique, binomiale n´egative, hyperg´eom´etrique, etc

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES219

6.3

Fonction de r´ epartition d’une v.a. dicr` ete

• Rappel: Statistique descriptive Fj est la fr´equence cumul´ee c’est-`a-dire le pourcentage d’observations ≤ xj . • D´efinition au niveau population: F (x) = P (X ≤ x) o`u x ∈ IR Donc pour une DP {(xj , pj ), j = 1 . . . , J}: X F (x) = pj xj ≤x

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES220

Propri´ et´ es • F (x) ∈ [0, 1] • F (−∞) = 0 et F (∞) = 1 • F (a) ≤ F (b), ∀a ≤ b

(a, b ∈ IR)

• P (a < X ≤ b) = P (X ≤ b) − P (X ≤ a) = F (b) − F (a), (a < b) • Si xi et xj sont deux valeurs de la v.a. telle que xi ≤ xj alors: P (xi ≤ X ≤ xj ) = F (xj ) − F (xi−1) En particulier P (X = xj ) = F (xj ) − F (xj−1). • F(x) est continue `a droite ∀x ∈ IR.

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES221

6.4

Esp´ erance math´ ematique (EPM)

1. Approche historique: Probl` eme des partis • 2 joueurs misent chacun 32 euros • La partie comprends plusieurs jeux successifs o`u chacun a` la mˆeme probabilit´e de gagner • On gagne la mise d`es que on a gagn´e 3 jeux. La partie est d´ej`a commenc´ee :

1 1 E[gain pour A] = 64 + 32 = 48 2 2 1 1 E[gain pour B] = 0 + 32 = 16 2 2

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES222

2. D´ efinition Soit la distribution de probabilit´e: {(x, px), x ∈ V } et la fonction X → g(X) : x → g(x). Alors l’esp´erance math´ematique est d´efinie X E[g(X)] = g(x)px x

3. Propri´ et´ es • Si b est une constante: E(b) = b D´emonstration: X X E(b) = bpx = b px = b. x

x

• Si a est une constante : E(aX) = aE(X) D´emonstration: X X E(aX) = (ax)px = a xpx = aE(X). x

x

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES223

• Si a et b sont des constantes: E(aX + b) = aE(X) + b D´emonstration: exercice • Notons E(X) = µ. Alors Y = X − µ est tel que E(Y ) = 0 =⇒ Y est la v.a. centr´ee. D´emonstration: E(Y ) = E(X − µ) = E(X) − µ = 0.

• Soient a et b deux constantes, g(X) et h(X) deux fonctions de X a` valeurs r´eelles : E[ag(X) + bh(X)] = aE(g(X)) + bE(h(X)) D´emonstration: exercice.

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES224

6.5

Param` etres (moyenne, variance, moments, m´ ediane,...)

• Moyenne Cas particulier de l’EPM pour g(X) = X: X E(X) = xpx := µ x

Remarque : analogie avec la statistique descriptive bas´ee sur un ´echantillon : X 1X nj xj = f j xj x¯ = n j

j

Exemple: Lancement de 2 pi`eces px 1

6

3 4 1 2 1 4

0

1

-

2

x

1 1 1 µ= xpx = 0 + 1 + 2 = 1 4 2 4 x X

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES225

• Variance et Ecart-type Cas particulier de l’EPM: g(X) = (X −E(X))2 E((X−E(X))2) =

X

(x−µ)2px := σ 2 = V (X)

x

Remarque : analogie avec la statistique descriptive bas´ee sur un ´echantillon : X X 1 nj (xj − x¯)2 = fj (xj − x¯)2 s2 = n j

j

Exemple: Lancement de 2 pi`eces px 1

6

3 4 1 2 1 4

0

µ=1

-

2

x

1 1 1 1 2 σ = (0 − 1) + (1 − 1) + (2 − 1) = 4

2

p Ecart-type: σ = (σ 2).

4

2

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES226

PROPPRIETES: 1. Si b est une constante: V (b) = 0 D´emonstration: Puisque E(b) = b, on a: X 2 V (b) = E((b−E(b)) ) = (b−E(b))2px = 0. x

2. Si a est une constante: V (aX) = a2V (X) D´emonstration: Puisque E(aX) = aE(X): V (aX) = E((aX − E(aX))2) = E[a2(X − E(X))2] = a2E[(X − E(X))2] = a2V (X). 3. Si Y = X − a alors V (Y ) = V (X) D´emonstration: Exercice. ⇓ La variance est ind´ependante d’un changement d’origine.

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES227

4. En particulier, si Y = X−µ alors V(Y)=V(X) D´emonstration: Puisque E(X − µ) = 0, on a: V (Y ) = E((Y − E(Y ))2) = E[((X − µ) − E(X − µ))2] = E[(X − µ)2] = V (X). 5. Soit Z = X−µ σ alors V (Z) = 1 ⇓ Z est dite v.a. centr´ee-r´eduite D´emonstration: V (Z) = = = =

X −µ ) V( σ 1 V ( (X − µ)) σ 1 V (X − µ) 2 σ 1.

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES228

• Les Moments D´efinition: Moments d’ordre r par rapport a` c µr (c) = E[(X − c)r ]

r ∈ IN , c ∈ IR

Cas particuliers: 1. Moment par rapport `a l’origine (c = 0): X 0 r µr = E[X ] = xr p x x

Exemple: La moyenne est le moment par rapport a` l’origine d’ordre 1 (r = 1) 2. Moment centr´e (c = µ): X r µr = E[(X − µ) ] = (x − µ)r px x

Exemple: La variance est le moment centr´e d’ordre 2 (r = 2)

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES229

PROPRIETES: µ00 = µ0 = 1 µ01 = E(X) = µ µ1 = 0 µ2 = E[(X − µ)2] = σ 2 D´emonstration: exercice.

Expression utile: E(X 2) = σ 2 + µ2 D´emonstration: σ 2 = E[(X − µ)2] = E(X 2 − 2Xµ + µ2) = E(X 2) − 2µE(X) + µ2 = E(X 2) − µ2

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES230

• M´ediane D´efinition: La m´ediane x1/2 est telle que: 1 1 P (X < x1/2) ≤ et P (X ≤ x1/2) ≥ 2 2

Remarque: analogie avec la statistique descriptive.

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES231

6.6

Fonctions g´ en´ eratrices des moments

• D´efinition: Soit une DP {(x, px), x ∈ V }. La fonction g´en´eratrice des moments est: X tX MX (t) = E[e ] = etxpx ∀t ∈ IR. x

Remarque: MX (t) n’existe pas toujours (condition d’existence). • D´ecomposition en utilisant le d´eveloppement en s´erie de etx: X t2x2 tr xr (1 + tx + MX (t) = + ... + + . . .)px 2! r! x X X tr X r = px + t xpx + . . . + x px + . . . r! x x x r t = 1 + tµ01 + . . . + µ0r + . . . r!

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES232

Ce r´esultat nous fournit la propri´et´e suivante: • Propri´et´e: Si M (t) existe et admet des d´eriv´ees d’ordre r (r = 1, 2, . . .): r M (t) d µ0r = [ ]t=0 r dt px • Exemple: 1 6 3 41 21 4

0 M (t) = E(etX ) =

1 2 X x=0

2 x -

1 1 t 1 2t tx e px = + e + e 4

2

4

1 t 1 2t dM (t) ]t=0 = [ e + e ]t=0 = 1 →µ = [ dt 2 2 2M (t) d 1 t 3 0 2t → µ2 = [ ]t=0 = [ e + e ]t=0 = 2 2 2 dt 3 1 2 0 2 ⇒ σ = µ2 − µ = − 1 = 2 2

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES233

6.7

Lois discr` etes particuli` eres

1. Distribution uniforme a) D´efinition: X ∼ U [1, . . . , n] si 1 P (X = x) = ∀x ∈ V = {1, . . . , n} n

b) Exemples • valeur obtenue par un lanc´e de d´e (n=6) • dans une ´etude bas´ee sur un ´echantillon de taille n, il est souvent assum´e que chaque individu de l’´echantillon a` un poids 1/n.

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES234

c) Quelques param`etres • Moyenne (param`etre de position): µ = E(X) =

n X x=1

Aide:

n X x=1

n

1X n+1 xpx = x= n 2 x=1

n(n + 1) x= 2

• Variance (param`etre de dispersion): 2 (n + 1) σ 2 = E(X−µ)2 = E(X 2)−µ2 = E(X 2)− 4 or n n X X 1 2 2 x2 E(X ) = x px = n x=1

x=1

Aide: n X x=1

n(n + 1)(2n + 1) 2 x = 6

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES235

Preuve: (x + 1)3 = x3 + 3x2 + 3x + 3 ⇒ (x + 1)3 − x3 = 3x2 + 3x + 1 n X et [(x + 1)3 − x3] = (n + 1)3 − 1 x=1

En outre n n X X [(x + 1)3 − x3] = (3x2 + 3x + 1) x=1

x=1

= 3(1 + 22 + . . . + n2) + 3(1 + 2 + . . . + n) + n Nous avons donc que: n n X X (n + 1)3 − 1 = 3 x2 + 3 x+n ⇒ ⇒

n X x=1 n X x=1

x=1

x=1

n(n + 1) 1 3 2 − n] x = [(n + 1) − 1 − 3 3

1 2 x = n(n + 1)(2n + 1) 6

2

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES236

Donc nous avons: 2 (n + 1)(2n + 1) (n + 1) σ 2 = E(X 2) − µ2 = − 6 4 (n + 1) [4n + 2 − 3(n + 1)] = 12 (n + 1)(n − 1) n2 − 1 = = 12 12

• Skewness (param`etre d’asym´etrie): La distribution ´etant sym´etrique µ3 = 0. Exercice: Prouver formellement le r´esultat en utilisant l’aide: n X x=1

2(n + 1)2 n x3 = 4

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES237

2. Distribution de Bernouilli a) D´efinition: X ∼ B(1, p) si les valeurs possibles pour X sont succ`es (x = 1) et ´echec (x = 0). En outre la probabilit´e de succ`es est ´egale `a p (P (X = 1) = p). b) Exemples • inspection d’une pi`ece dans un processus industriel (d´efectueux ou pas) • r´esultat (r´eussite ou ´echec) a` l’examen de statistique. c) Quelques param`etres (exercice) µ = p σ 2 = pq o`u q = 1 − p µ3 = pq(q − p)

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES238

d) Sch´ema de Bernouilli: Soient - X ∼ B(1, p) ⇒ Exp`erience o`u l’´ev`enement “succ`es” a une probabilit´e p de se r´ealiser - Nous r´ealisons n exp´erience sous des conditions uniformes (p est constant) - Les n exp´eriences sont ind´ependantes Notons x le nombre de succ`es, y le nombre d’´echec ⇓ Plusieurs distributions peuvent ˆetre d´eduites: - si Z=nombre de succ`es → distribution binomiale - si Z=nombre d’´echec avant le premier succ`es → distribution g´eom´etrique - si Z=nombre d’´echec avant le ri`eme succ`es → distribution n´egative binomiale

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES239

3. Distribution binomiale a) D´efinition: X ∼ B(n, p) si on proc`ede a` un sch´ema de Bernouilli (n exp´eriences uniformes et ind´ependante avec probabilit´e de succ`es ´egale a` p) et que X=nombre de succ`es. b) Exemples • S´election al´eatoire n pi`eces dans une production et on compte le nombre de pi`eces conformes • On compte le nombre de fois que l’on gagne (avoir pile) dans un jeu de n pile ou face. c) Distribution de probabilit´e: - x ∈ {0, 1, ! . . . , n} n - px = pxq n−x (formule du binˆome) x

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES240

d) Fonction g´en´eratrice des moments Rappel: Puissance d’un binˆome ! n X n n bxan−x (a + b) = x=0 x Avec cette aide, nous pouvons d´evelopper la fonction g´en´eratrice des moments: M (t) = E(etX ) = =

n X

n

x=0

x

n X

etxpx =

! x=0

n X

etx

x=0

n

!

x

(pet)xq n−x = (q + pet)n

d) Quelques param`etres • Moyenne: dM (t) µ = [ ]t=0 dt = [n(q + pet)n−1pet]t=0 = n(q + p)n−1p = np

pxq n−x

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES241

• Variance: 2(t) dM µ02 = [ ]t=0 2 dt = np[(n − 1)(q + pet)n−2pe2t + (q + pet)n−1et]t=0 = np[(n − 1)p + 1] = np(np + q) Ainsi la variance est d´eduite par: 2p2 +npq −n2p2 = npq σ 2 = µ2 = µ02 −µ02 = n 1

• Param`etre d’asym´etrie (exercice): µ3 = npq(q − p)

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES242

e) Fr´equence de succ`es • Soit X le nombre de succ`es et Y la fr´equence de succ`es: X Y = n

• Valeurs de Y: y ∈ {0, n1 , . . . , 1} • Calculs des probabilit´es: X py = P (Y = y) = P ( = y) = P (X = ny) n! n = P (X = x) = pxq n−x x • Liens entre les moments de X et Y : X E(Y ) = E( ) = p n X pq V (Y ) = V ( ) = n n

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES243

4. Distribution de Poisson a) Contexte: D´ecrit le nombre d’´ev`enements se produisant sur une p´eriode de temps donn´ee T b) Exemples • Le nombre de faillites sur une journ´ee dans un secteur industriel. • Le nombre d’accidents d’avion sur une ann´ee. c) Distribution de probabilit´e: X ∼ P (λ) avec comme support x ∈ {0, 1, 2, . . .} o`u e−λλx λ ∈ IR+ P (X = x) = px = 0 x! Remarque: ∞ ∞ −λ x ∞ x X X X λ e λ −λ px = =e = e−λeλ = 1 x! x!

x=0

x=0

x=0

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES244

d) Fonction g´en´eratrice des moments: ∞ ∞ −λλx X X e M (t) = E(etX ) = etxpx = etx x! = e−λ

x=0 ∞ x X (λet)

x=0

x!

x=0

t−1) t λ(e −λ λe =e e =e

e) Quelques moments: • La moyenne: t−1) dM (t) t λ(e µ=[ ]t=0 = [λe e ]t=0 = λ dt • Moments d’ordre 2 2(t) t−1) t−1) dM 0 t λ(e t t λ(e µ2 = [ ]t=0 = λ[e e + e λe e ]t=0 2 dt = λ + λ2 ⇓ 2 − λ2 = λ σ 2 = µ2 = µ02 − µ02 = λ + λ 1

• Moments d’ordre 3 et 4 µ3 = λ

µ4 = λ + 3λ2

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES245

f) Limite de la distribution binomiale quand la probabilit´e de succ`es est faible (p → 0) et que le nombre d’essais est grand (n → ∞) Preuve: Soit X ∼ Bin(n, p) o`u p = λ/n n! pxq n−x P (X = x) = x!(n − x)! nx x n! n−x = x p (1 − p) n x!(n − x)! n! nx x (1 − p)n = xp n (1 − p)x x!(n − x)! (np)x 1 n! n = (1 − p) x x x! (1 − p) n (n − x)! (λ)x 1 λ n = (1 − ) x x! (1 − p) n n(n − 1) . . . (n − x + 1) nx Pour n → ∞, p → 0 et np → λ, on obtient: (λ)x −λ P (X = x) → e ∗1 x!

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES246

La qualit´e de l’approximation d´epend des valeurs de n et p. Exemples • X ∼ Bin(50, 0.10) P(X=5)=0,1849 F(5)=0,6161 • X ∼ Bin(100, 0.05) P(X=5)=0,1800 F(5)=0,6160 • X ∼ P (5) P(X=5)=0,1755 F(5)=0,6160

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES247

g) Introduction intuitive de la loi de Poisson: Soit X le nombre d’arriv´ees d’un ph´enom`ene dans l’intervalle de temps: −−−|−−−−|−−−−−−|−−−−|−−−−|−−−− 0





t

t + ∆t

Posons les hypoth`eses suivantes: • P(1 arriv´ee dans ∆t) = α∆t • P(plus qu’une arriv´ee dans ∆t) ≈ 0 • Des ´ev´enements arrivant dans des intervalles disjoints sont ind´ependants. Notons px(t+∆t) la probabilit´e d’avoir x arriv´ee dans l’intervalle de temps [0, t + ∆t] Deux possibilit´es: • x arriv´ees dans [0, t] et 0 arriv´ee dans [t, ∆t] • x − 1 arriv´ees dans [0, t] et une dans [t, ∆t]

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES248

Donc, px(t + ∆t) = px(t)[1 − α∆t] + px−1(t)α∆t = px(t) − α∆tpx(t) + α∆tpx−1(t) px(t + ∆t) − px(t) ⇒A= = α[px−1(t)−px(t)] ∆t En prenant comme conditions initiales: • p0(0) = 1 • px(0) = 0, la d´eriv´ee: dpx(t) = α[px−1(t) − px(t)] lim A = dt ∆t→0 a comme solution: e−λλx px(t) = o`u λ = αt x! qui est la fonction de probabilit´e d’une variable al´eatoire de Poisson de param`etre αt.

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES249

5. Distribution g´ eom´ etrique a) D´efinition: Sch´ema de Bernouilli (exp´eriences uniformes et ind´ependantes avec probabilit´e de succ`es ´egale `a p) o`u n n’est pas fix´e a priori. X=nombre d’essais pr´ec´edant le premier succ`es. b) Exemples: • Nombre de lanc´e d’un d´e avant d’avoir 1. • En r´epondant au hasard: le nombre de QCM faux avant d’avoir une bonne r´eponse. c) Distribution de probabilit´e: P (X = x) = px = pq x

x ∈ {0, 1, 2, . . .}

d) Fonction g´en´eratrice des moments: M (t) = E(etX ) =

∞ X x=0

etxpq x = p

∞ X x=0

(qet)x =

p 1 − qet

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES250

e) Quelques moments: • La moyenne: dM (t) pqet pq q µ=[ ]t=0 = [ ]t=0 = 2 = t 2 dt p (1 − qe ) p • Moments d’ordre 2 2(t) dM µ02 = [ ]t=0 2 dt et(1 − qet)2 + 2etqet(1 − qet) ]t=0 = pq[ t 4 (1 − qe ) (1 − q)2 + 2qp q(p + 2q) q(1 + q) = pq = = 4 2 p p p2 2 q q q(1 + q) 2 − 2= 2 ⇒σ = 2 p p p e) D´efinition alternative: Y =nombre d’essais n´ecessaire pour avoir le premier succ`es. • Y = X+1; P(Y=y)=pqy−1 pet tY • M (t) = E(e ) = 1−qet dM (t) • µ = [ dt ]t=0 = p1 et σ 2 = pq2 .

y ∈ {1, 2, . . .}

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES251

6. Distribution binomiale n´ egative a) D´efinition: Sch´ema de Bernouilli (exp´eriences uniformes et ind´ependantes avec probabilit´e de succ`es ´egale `a p) o`u n n’est pas fix´e a priori. X=nombre d’´echec avant le ri`eme succ`es. b) Exemples • Nombre de pile obtenus avant d’avoir 5 faces. • En r´epondant au hasard: le nombre de QCM faux avant d’avoir 3 bonnes r´eponses. c) Distribution de probabilit´e: r−1 pr q x P (X = x) = Cx+r−1

x ∈ {0, 1, 2, . . .}

d) Fonction g´en´eratrice des moments: M (t) = E(etX ) = = pr

∞ X x=0

∞ X

r−1 pr q x etxCx+r−1

x=0 r−1 (qet)x = Cx+r−1

pr (1 − qet)r

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES252

e) Quelques moments (exercice): • La moyenne: rq µ= p

rq 2 σ = 2 p

e) D´efinition alternative: Y =nombre d’exp´erience n´ecessaire pour avoir r succ`es. b) Exemples • Nombre de lanc´es n´ecessaires pour obtenir 5 faces. • En r´epondant au hasard: le nombre de QCM n´ecessaires avant d’avoir 3 bonnes r´eponses.

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES253

7. Distribution hyperg´ eom´ etrique a) D´efinition: On pr´el`eve n individus dans une population de taille N de mani`ere al´eatoire, mais sans remise. Chaque individu poss`ede (succ`es) ou ne poss`ede pas (´echec) une certaine caract´eristique. Dans la population M individus poss`edent cette caract´eristique. Soit X=nombre de succ`es. b) Distribution de probabilit´e: ! ! M N −M P (X = x) =

x N

n−x !

n o`u x ∈ {max(0, n−(N −M )), . . . , min(n, M )}. c) Moyenne et variance: Notons π = M N N −n 2 µ = nπ σ = nπ(1 − π) N −1

Universit´ e Libre de Bruxelles

Ann´ ee acad´ emique 2009-2010

STAT-D-101 Catherine Dehon

S´ eance 1 : Introduction1 Exercice 1 Utilisez le signe de sommation pour ´ecrire les expressions suivantes : 1. y1 + y2 + y3 + y4 + y5 ; 2. n1 x1 + n2 x2 + . . . + nJ xJ ; 3. f1 (x1 − a)2 + f2 (x2 − a)2 + . . . + fJ (xJ − a)2 .

Exercice 2 L’´etudiant nomm´e Cr´esus re¸coit de ses parents chaque mois 100 Euros comme argent de poche. 1. Calculez l’argent de poche re¸cu sur une ann´ee. Cr´esus, ´etant relativement d´epensier, travaille ´egalement pour gagner de l’argent. La somme d’argent gagn´ee varie selon les mois : Mois Somme d’argent

Jan 100

Fev 125

Mars 100

Avril 150

Mai 175

Juin 125

Juil 150

Aˆout 200

Sept 250

Oct 100

Nov 150

2. Calculez le montant total d’argent dont Cr´esus peut disposer sur une ann´ee. N´eanmoins, Cr´esus a un GSM dont le coˆ ut fixe par mois est de 15 Euros. 3. Calculez la somme d’argent disponible pour une ann´ee apr´es avoir retenu les frais de son GSM.

Exercice 3 Consid´erons la s´erie statistique de taille 5 :{x1 = 1; x2 = 4; x3 = 5; x4 = 3; x5 = 2}. D´eterminez la valeur des sommes suivantes : P5 1. i=1 xi ; P5 2. i=1 4xi ; P 3. x = 15 5i=1 xi ; P5 4. i=1 (xi − x) ; P5 2 5. i=1 xi . 1

Les ´enonc´es sont disponibles sur le site www.ulb.ac.be/soco/statrope

1

Dec 125

Exercice 4 Trouver la valeur minimale de n (n ≥ 1) tel que :   n 5 2 1− ≥ 0.95. 3

Exercice 5 Consid´erons l’ensemble E de R suivant : {1, 3, 15, 31, 42, 100}. On note A = {1, 15, 42}, B = {1, 15, 100} et C = {3, 31}. 1. D´eterminer les ensembles A, A ∪ B, A ∩ B et A \ B. 2. V´erifier que A ∪ B = A ∩ B, A ∩ B = A ∪ B et A ∪ B = (A \ B) ∪ (A ∩ B) ∪ (B \ A).

Exercice 6 Calculer les sommes suivantes : P10 2 k P10 2 k 1. k=1 ( 5 ) et k=0 ( ) ; P∞ 1 k P∞ 51 k 2. k=1 ( 5 ) et k=0 ( 5 ) .

Exercice 7 Soient p et n deux entiers naturels tel que, 1 ≤ p ≤ n. Montrez que :     n n . = 1. n−p p       n+1 n n . = + 2. p+1 p p+1   Pn n k = 0. 3. k=0 (−1) k   Pn n = 2n . 4. k=0 k

Exercice 8 Consid´erons la s´erie de variables suivante : nombre d’enfants dans une famille, couleur des yeux, cat´egorie socio-professionnelle, commune de naissance, niveau de scolarit´e, revenu, poids, sexe, age, langue maternelle, type de voiture, taille, nombre de grains de beaut´e sur la peau, taille de grains de beaut´e. Sp´ecifier pour chacune de ces variables si elle est qualitative, quantitative, continue, discr`ete, ordinale ou nominale.

2

Universit´ e Libre de Bruxelles

Ann´ ee acad´ emique 2009-2010

STAT-D-101 Catherine Dehon

S´ eances 2, 3 et 4 : Statistique descriptive d’une s´ erie 1 univari´ ee Exercice 1 Un constructeur d’automobiles a demand´e a` 150 individus de faire part de leur pr´ef´erence concernant la couleur de la voiture. Les r´esultats qu’il obtient sont les suivants : Couleurs Effectifs

Blanc 43

Noir 30

Rouge 15

Bleu 32

Vert 30

1. De quel type est la variable ? 2. Donnez le tableau de la distribution observ´ee. 3. Repr´esentez graphiquement la distribution de la variable. 4. Quels param`etres de cette distribution peuvent ˆetre calcul´es ? 5. D´eterminez la valeur de ces param`etres.

Exercice 2 Lors d’une ´etude en psychologie sociale sur la mobilit´e g´eographique, on a interrog´e 50 personnes pour savoir si elles passaient leurs vacances a` l’´etranger. Les effectifs obtenus sont les suivants : Vacances ` a l’´ etranger Effectifs

Jamais 5

Parfois 19

Souvent 23

Toujours 3

1. De quel type est la variable ? 2. Donnez le tableau de la distribution observ´ee (effectifs et effectifs cumul´es). 3. Repr´esentez graphiquement la distribution de la variable. 4. Quels param`etres de cette distribution peuvent ˆetre calcul´es ? 5. D´eterminez la valeur de ces param`etres. 1

Les ´enonc´es sont disponibles sur le site www.ulb.ac.be/soco/statrope

1

Exercice 3 Soit la population des ´etudiants de premi`ere bachelor a` l’ULB en ing´enieur de gestion. Une ´etude de la Communaut´e Fran¸caise (en charge de l’enseignement secondaire) s’int´eresse a` l’ˆage de ces ´etudiants. Pour ce faire, on pr´el`eve un ´echantillon de taille n = 50. Les r´esultats sont les suivants : 17 18 21 17 18

20 18 18 17 17

19 17 19 19 19

18 18 20 18 21

21 18 18 18 18

18 20 17 17 20

18 20 21 21 18

19 17 19 19 17

19 18 17 17 19

18 17 18 20 17

1. De quel type est la variable ? 2. Donnez le tableau de la distribution observ´ee (effectifs et effectifs cumul´es). 3. Repr´esentez graphiquement la distribution de la variable. 4. Quels param`etres de cette distribution peuvent ˆetre calcul´es ? 5. D´eterminez la valeur de ces param`etres.

Exercice 4 On a mesur´e, en millisecondes, a` quelle vitesse 50 enfants de quatre ans identifiaient des images simples (ours, lapin, chat . . . ). Les r´esultats sont les suivants : 24 27 33 21 29

27 30 27 25 24

33 15 20 25 23

21 27 32 29 27

27 24 28 25 17

19 34 27 24 15

23 18 22 32 21

23 20 17 31 28

24 21 30 28 24

19 15 18 20 23

1. De quel type est la variable ? 2. Regroupez les 50 valeurs en classes. Prenez des classes de longueur 4 et le d´ebut de la premi`ere classe en 14,5. Donnez le tableau de la distribution group´ee (effectifs et effectifs cumul´es). 3. Repr´esentez graphiquement la distribution group´ee. 4. Quels param`etres de cette distribution group´ee peuvent ˆetre calcul´es ? 5. D´eterminez la valeur de ces param`etres.

2

Exercice 5 Consid´erons une s´erie statistique {x1 , . . . , xi , . . . , xn } relative a` un caract`ere quantitatif X et le changement d’origine et d’unit´e suivant :

yi =

xi −a d ,i

= 1, . . . , n.

Soient x et s2x la moyenne et la variance de la s´erie {x1 , . . . , xi , . . . , xn } et y et s2y celles de la s´erie {y1 , . . . , yi , . . . , yn }. D´emontrez que : x−a d ; 2 s2y = sdx2 .

1. y = 2.

Exercice 6 Une enquˆete sur le taux de chˆomage des jeunes femmes en 2002 dans les directions subr´egionales de Namur et Charleroi a ´et´e r´ealis´ee. La direction subr´egionale de Namur comprend 31 communes et celle de Charleroi 26 communes. Le taux de chˆomage moyen des jeunes femmes `a Namur est de x1 = 32% avec un ´ecart-type de s1 = 10%. Le taux de chˆomage moyen des jeunes femmes `a Charleroi est de x2 = 34% avec un ´ecart-type de s2 = 5%. 1. Enoncez les formules d’agr´egation de la moyenne et de la variance en d´efinissant soigneusement chacune des composantes. 2. Calculez la moyenne globale x et la variance globale s2 du taux de chˆomage pour l’´echantillon obtenu en regroupant les communes de Namur et de Charleroi.

Exercice 7 Rom´eo quitte son domicile a` 20 heures pour se rendre chez Juliette a` la vitesse moyenne de 200 km/h. Il la quitte `a 23 heures et retourne chez lui a` la vitesse moyenne de 40 km/h. Supposons que la distance `a l’aller ´egale celle du retour. 1. Quelle est dans ce cas la vitesse moyenne de Rom´eo sur l’aller-retour ? 2. Comment calculer cette vitesse rapidement ?

Exercice 8 Une personne place une somme d’argent K dans une banque pendant une p´eriode de 3 ans. Dans cette banque le taux d’int´erˆet varie d’une ann´ee a` une autre. Il est de 20% la premi`ere ann´ee, 10% la seconde ann´ee et de 6% la troisi`eme ann´ee. 1. Le taux d’int´erˆet moyen pour l’ensemble de ces trois ann´ees est-il de 12% ? 2. Comment calculer ce taux rapidement ?

3

Exercice suppl´ ementaire 1 Consid´erons la s´erie statistique de taille n : {x1 ; x2 ; . . . ; xn }. Montrez que : Pn Pn 1 1. xi ; i=1 (xi − x) = 0, si x = n Pn Pn i=1 2 1 1 2 2 2. sx = n i=1 (xi − x) = n i=1 xi − x2 .

Exercice suppl´ ementaire 2 Soit {x1 , . . . , xn } une s´erie statistique univari´ee de moyenne x et de variance s2x . Calculez la moyenne et la variance de la s´erie des valeurs centr´ees et r´eduites {z1 , . . . , zn } o` u zi = xis−x . x

Exercice suppl´ ementaire 3 On a calcul´e la moyenne et la variance d’une s´erie de 10 observations et on a obtenu les r´esultats suivants : x = 5.9 et s2x = 4.83. On a constat´e ult´erieurement qu’une des observations initiales avait ´et´e transcrite de fa¸con erron´ee : la valeur consid´er´ee au cours des calculs ´etait 8.5 alors que la valeur exacte est en r´ealit´e 6.5. La moyenne et la variance sont recalcul´ees sur les donn´ees corrig´ees. Calculez la moyenne et la variance exactes.

Exercice suppl´ ementaire 4 (suite de l’exercice 6) Dans les 2 ´echantillons, nous avons centr´e les donn´ees par rapport `a la moyenne globale x de telle sorte que la moyenne globale sur les donn´ees centr´ees soit : xnew = 0. 1. Calculez les nouvelles moyennes et variances des 2 comit´es subr´egionaux : x1,new , x2,new , s21,new et s22,new . 2. Calculez la variance globale s2new pour l’´echantillon obtenu en regroupant les communes de Namur et de Charleroi.

Exercice suppl´ ementaire 5 Construisez deux s´eries statistiques univari´ees constitu´ees de 6 observations chacune, {x1 , x2 , . . . , x6 } et {y1 , y2 , . . . , y6 }, telles que, 1. x1/2 = y1/2 mais x¯ > y¯, o` u x1/2 et y1/2 d´esignent les m´edianes des deux s´eries statistiques. 2. x1/2 = y1/2 mais EDx > EDy , o` u EDx et EDy d´esignent les deux ´ecarts interd´eciles des deux s´eries statistiques. 3. Ex = Ey mais x¯ > y¯, o` u Ex et Ey d´esignent les deux ´etendues des deux s´eries statistiques. 4. xM = yM et x¯ > y¯, o` u xM et yM d´esignent les modes des deux s´eries statistiques. 5. x¯ = y¯ et sx > sy . 4

Universit´ e Libre de Bruxelles

Ann´ ee acad´ emique 2008-2009

STAT-D-101 Catherine Dehon

1

S´ eances 5, 6 et 7 2 : Introduction ` a la th´ eorie probabiliste

1

Exercice 1 a) Avec les chiffres 0 et 1, on peut former 8 s´equences de longueur 3 : 000, 001, 010, 011, 100, 101, 110, 111. Combien de s´equences de longueur 10 peut-on former ? b) Combien de mots de longueur 100 peut-on former avec les lettres K, A, H, J, D, I ? c) Combien de mots de longueur n peut-on former avec un alphabet de m lettres ?

Exercice 2 Trois filles (Annie, Julie et Nathalie) et trois gar¸cons (Damien, Eric et Jonathan) font la file devant un distributeur automatique de billets. a) Il y a combien d’arrangements possibles ? b) Il y a combien d’arrangements possibles si les trois filles doivent ˆetre ensemble et les trois gar¸cons doivent ˆetre ensemble ? c) Il y a combien d’arrangements possibles si on exige seulement que les trois filles soient ensemble ?

Exercice 3 On lance simultan´ement deux d´es num´erot´es de 1 `a 6. D´eterminer l’ensemble fondamental Ω dans les cas suivants : a) les deux d´es sont distincts (par exemple un rouge et un bleu). b) les deux d´es sont identiques. c) les deux d´es sont identiques et on s’int´eresse seulement `a la parit´e du r´esultat.

Exercice 4 Soit L’exp´erience al´eatoire consistant au lanc´e de deux d´es `a 6 faces. Nous sommes int´eress´es par les deux ´ev`enements suivants : – A : avoir comme r´esultat deux fois le mˆeme nombre (la mˆeme face) – B : avoir au moins une fois la face num´erot´ee 5. a) D´emontrez `a partir des 3 axiomes d´efinissant la probabilit´e que : P (A ∪ B) = P (A) + P (B) − P (A ∩ B). b) Calculez chacune des 4 probabilit´es ´enonc´ees dans la formule par rapport au cas concret explicit´e ci-dessus et montrez que l’´egalit´e ´enonc´ee ci-dessus est bien correcte. c) Les ´ev´enements A et B sont-ils d´ependants ? mutuellement exclusifs ? 1

Les ´enonc´es sont disponibles sur le site www.ulb.ac.be/soco/statrope

1

Exercice 5 Dix couples sont r´eunis dans une soir´ee. On admet que, pour danser, chaque homme choisit une femme au hasard. a) Quelle est la probabilit´e pour que chacun des 10 hommes danse avec son ´epouse ? b) Quelle est la probabilit´e pour que monsieur Dupond danse avec son ´epouse ? c) Quelle est la probabilit´e pour que monsieur Dupond et monsieur Durand dansent avec leur ´epouse ? d) Quelle est la probabilit´e pour que monsieur Dupond ou monsieur Durand dansent avec leur ´epouse ?

Exercice 6 On cherche une lettre qui a la probabilit´e 0.2 de se trouver dans l’un des quatre tiroirs d’un secr´etaire. On note A l’´ev´enement “la lettre est dans le quatri`eme tiroir” et B l’´ev´enement “la lettre n’est pas dans les trois premiers tiroirs”. ¯ et P (A ∩ B). ¯ a) Calculez les probabilit´es P (A ∩ B), P (B ∩ A) b) En d´eduire les probablit´es P (A), P (B) et P (A|B). c) Les ´ev´enements A et B sont-ils ind´ependants ?

Exercice 7 Sept personnes prennent place au rez-de-chauss´ee dans un ascenseur d’un immeuble de dix ´etages. Chacune choisit l’´etage o` u elle sort de l’ascenseur. Quelle est la probabilit´e que : a) elles sortent toutes `a des ´etages diff´erents ? b) deux personnes au moins descendent `a un mˆeme ´etage ? c) trois personnes d´etermin´ees `a l’avance descendent `a un mˆeme ´etage et toutes les autres ` a des ´etages diff´erents ? d) trois personnes (n’importe lesquelles) descendent `a un mˆeme ´etage et toutes les autres ` a des ´etages diff´erents ? e) trois personnes (n’importe lesquelles) descendent `a un mˆeme ´etage, deux autres (n’importe lesquelles) descendent `a un autre ´etage et les deux derni`eres encore `a un autre ´etage ?

Exercice 8 Un livre contient cinq fautes d’orthographe. A chaque relecture, on a une probabilit´e de 1/3 de d´etecter et de corriger une faute. On effectue successivement plusieurs relectures ind´ependantes. Soit n le nombre de relectures n´ecessaires pour qu’il ne reste aucune faute avec une probabilit´e sup´erieure ou ´egale `a 0.9. a) Pour chaque faute, quelle est la probabilit´e pour qu’elle soit corrig´ee en n relectures ? b) Quelle est la valeur minimale de n ?

Exercice 9 Dans une rue, un panneau publicitaire est remarqu´e par un passant sur quatre. On suppose que, pour un passant, l’´ev´enement ” remarquer le panneau num´ero i ” est ind´ependant de l’´ev´enement ” remarquer le panneau num´ero j ”. a) Sachant que l’on dispose de deux panneaux dans la mˆeme rue, calculer la probabilit´e qu’un passant remarque exactement un seul panneau publicitaire.

2

b) Sachant que l’on dispose de trois panneaux dans la mˆeme rue, calculer la probabilit´e qu’un passant remarque au moins un panneau publicitaire. c) Combien doit-il y avoir de panneaux pour que plus de 95% des passants remarque au moins une publicit´e ?

Exercice 10 Dans l’entrepˆot d’une certaine usine de fabrication de clous, 50% des clous ont ´et´e fabriqu´es par la machine A, 30% par la machine B et 20% par la machine C. Parmi les clous fabriqu´es par la machine A, 3% sont d´efectueux. Parmi ceux fabriqu´es par la machine B, 5% sont d´efectueux et parmi ceux fabriqu´es par la machine C, 8% sont d´efectueux. On tire un clou au hasard d’un lot constitu´e de clous fabriqu´es. a) Quelle est la probabilit´e que ce clou ne soit pas d´efectueux ? b) Sachant que le clou est d´efectueux, quelle est la probabilit´e qu’il soit fabriqu´e par la machine B?

Exercice suppl´ ementaire 1 Une personne rentre chez elle apr`es une soir´ee un peu trop arros´ee. Elle ne sait plus laquelle des 10 cl´es qui se trouvent dans sa poche ouvre la porte de son domicile. Elle essaie donc les clefs une ` a une sans utiliser deux fois la mˆeme. D´eterminer la probabilit´e pour que la k-i`eme cl´e soit la bonne (1 ≤ k ≤ 10).

Exercice suppl´ ementaire 2 On cherche un parapluie qui se trouve dans un immeuble de sept ´etages. La probabilit´e qu’il se trouve dans l’un des sept ´etages est 0.6 et qu’il se trouve au rez-de-chauss´ee est 0.4. Chacun des sept ´etages est susceptible de cacher le parapluie avec la mˆeme probabilit´e. On a fouill´e les six premiers ´etages et on en a rien trouv´e. Quelle est la probabilit´e que le parapluie se trouve au septi`eme ´etage ?

Exercice suppl´ ementaire 3 Deux ´etudiants et 14 ´etudiantes sont assis au hasard sur 16 chaises formant une ligne. a) Quelle est la probabilit´e que les deux ´etudiants soient assis un `a cˆot´e de l’autre ? b) Quelle est la probabilit´e que les deux ´etudiants occupent les deux extr´emit´es de la ligne ?

Exercice suppl´ ementaire 4 Deux ´etudiants et 14 ´etudiantes sont assis au hasard sur 16 chaises formant un cercle. a) Quelle est la probabilit´e que les deux ´etudiants soient assis un `a cˆot´e de l’autre ? b) Quelle est la probabilit´e que les deux ´etudiants occupent deux chaisses diam´etralement oppos´ees ?

Exercice suppl´ ementaire 5 On tire au hasard un nombre de 9 chiffres. Calculez la probabilit´e p que tous les chiffres soient diff´erents.

3

Exercice suppl´ ementaire 6 Soient A et B des ´ev´enements tels que P (A) = 51 et P (A ∪ B) = 12 . a) Supposons que A et B soient des ´ev´enements mutuellements exclusifs. Calculez P (B). b) Supposons que A et B soient des ´ev´enements ind´ependants. Calculez P (B).

Exercice suppl´ ementaire 7 Une ´etude a class´e les g´erants de portefeuilles en deux cat´egories : ceux qui sont bien inform´es et ceux qui ne le sont pas. Lorsqu’un g´erant bien inform´e ach`ete une valeur boursi`ere pour son client, la probabilit´e que le cours de celle-ci monte est de 0,8. Dans le cas d’un g´erant mal inform´e, cette probabilit´e ne vaut que 0,5. Si on choisit au hasard un g´erant dans un annuaire professionnel, la probabilit´e qu’il soit bien inform´e est de 0,2. Calculez la probabilit´e qu’un g´erant choisi au hasard soit mal inform´e, sachant que la valeur qu’il a achet´ee a mont´e.

Exercice suppl´ ementaire 8 Un ´etudiant r´epond `a une question `a choix multiple. De deux choses l’une : soit il connaˆıt la r´eponse, soit il la devine. Soit p la probabilit´e que l’´etudiant connaise la r´eponse (et donc 1 − p celle qu’il la devine). On admet que l’´etudiant qui tente de deviner la r´eponse, r´epondra correctement avec une probabilit´e 1/m, o` u m est le nombre de modalit´e qu’offre la question. Quelle est la probabilit´e qu’un ´etudiant connaisse la r´eponse `a la question s’il y a r´epondu correctement ?

Exercice suppl´ ementaire 9 Un ´etudiant doit suivre 2 cours de math (M1, M2), 3 cours de chimie (C1, C2, C3), et 4 cours de physique (P1, P2, P3, P4). Il d´ecide de n’assister qu’`a 3 cours. S’il choisit au hasard, quelle est la probabilit´e qu’il assiste aux deux cours de math ? n’assiste `a aucun cours de math ? n’assiste qu’` a un cours de math ?

Exercice suppl´ ementaire 10 On consid`ere une classe de 42 ´el`eves. On suppose qu’il n’y a pas d’ann´ee bissextile. a) Quelle est la probabilit´e pour que deux ´el`eves au moins aient la mˆeme date d’anniversaire ? b) Quelle est la probabilt´e pour qu’au moins un ´el`eve ait la mˆeme date d’anniversaire que Socrate ?

Exercice suppl´ ementaire 11 Dans une classe de 21 ´etudiants, une personne raconte une histoire `a une seconde personne qui la raconte `a une troisi`eme et ainsi de suite. A chaque ´etape, l’individu, `a qui l’on raconte l’histoire, est choisi au hasard. Chacune des ´etapes est ind´ependantes des autres. Notons p1 la probabilit´e que l’histoire ne revienne pas `a son inventeur et p2 la probabilit´e qu’elle ne soit jamais r´ep´et´ee deux fois `a la mˆeme personne. L’histoire ´etant racont´ee 8 fois, calculer p1 et p2 .

Exercice suppl´ ementaire 12 Dans une population donn´ee, un individu peut ˆetre atteint d’une affection A avec la probabilit´e pA = 1/100 et d’une affection B, ind´ependante de A, avec une probabilit´e pB = 1/20. Quelle est la probabilit´e pour qu’un individu choisi au hasard soit atteint d’au moins une des deux maladies ? 4

Universit´ e Libre de Bruxelles

Ann´ ee acad´ emique 2008-2009

STAT-D-101 Catherine Dehon

1

erie S´ eances 7 2 et 8 : Statistique descriptive d’une s´ 1 bivari´ ee Exercice 1 Une enquˆete r´ealis´ee aupr`es des familles d’une ville comporte les deux questions suivantes : – Combien avez-vous eu d’enfants jusqu’`a ce jour ? – Combien de t´el´evisions avez-vous ? En ne consid´erant que 257 familles ayant au moins une t´el´evision et au moins un enfant, on construit un tableau de contingence r´esumant les r´eponses donn´ees a` ces deux questions. Le tableau de contingence observ´e est le suivant :

Nombre de t´ el´ evision X 1 2 3 4

Nombre d’enfants 1 2 3 4 5 12 11 15 15 7 9 6 8 3 4 11 12 11 15 17 10 12 11 15 17

Y 6 10 6 10 10

1. D´eterminez les distributions marginales. 2. D´eterminez les moyennes et variances marginales. 3. D´eterminez le nombre moyen de t´el´eviseurs que poss`ede une famille de 4 enfants. D´eterminez ´egalement la variance dans ce cas. 4. Calculez la covariance entre X et Y . 5. Calculez le coefficient de corr´elation entre X et Y .

Exercice 2 L’association nationale des entrepreneurs du bˆatiment ´evalue les march´es immobiliers les plus abordables et les moins abordables. Les donn´ees sur le revenu moyen (en milliers de dollars) et le prix de vente moyen (en milliers de dollars) d’un ´echantillon de 12 march´es immobiliers choisis parmi la liste des march´es les plus abordables, sont pr´esent´es ci-dessous (The Wall Street Journal Almanac 1998).

1

Les ´enonc´es sont disponibles sur le site www.ulb.ac.be/soco/statrope

1

March´ e Syracuse, NY Springfield, IL Lima, OH Dayton, OH Beaumont, TX Lakeland, FL Baton Rouge, LA Nashau, NH Racine, WI Des Moines, IA Minneapolis-St. Paul, MN Wilmington, DE-MD

Revenu 41.8 47.7 40 44.3 37.3 35.9 39.3 56.9 46.7 48.3 54.6 55.5

Prix 76 91 65 88 70 73 85 118 81 89 110 110

1. 2. 3. 4. 5. 6. 7.

D´eduisez de cet ´enonc´e la variable explicative et la variable r´eponse. Repr´esentez graphiquement ces donn´ees. D´eterminez les moyennes et variances marginales, ainsi que la covariance. D´eterminez l’´equation de la droite de r´egression correspondante. Est-ce que cette ´equation est bien adapt´ee aux donn´ees ? Expliquez. Calculez les variances r´esiduelle et de r´egression. Le revenu moyen a` Binghamton, dans l’Etat de New York, s’´el`eve a` 40100 dollars. Utilisez l’´equation estim´ee de la r´egression pour pr´evoir le prix de vente moyen des maisons vendues sur le march´e de Binghamton. 8. Calculez la valeur pr´edite et le r´esidu correspondants `a l’observation Springfield. 9. Que valent la moyenne des r´esidus et la moyenne des valeurs pr´edites ?

Exercice 3 Dans une enquˆete r´ealis´ee aupr`es de 200 personnes en activit´e, deux variables qualitatives ´etaient mesur´ees. La premi`ere consistait a` savoir leur niveau d’´etudes et la deuxi`eme portait sur le secteur o` u ils travaillaient. Le tableau de contingence observ´e est le suivant : njk Primaire Secondaire Sup´erieur

1. 2. 3. 4.

Public 10 25 35

Priv´e 4 16 60

Autre 30 15 5

D´eterminez les profils-lignes et les profils-colonnes. Calculer les effectifs th´eoriques esp´er´es sous l’hypoth`ese d’ind´ependance. Calculer les ´ecarts a` l’ind´ependance. Interpr´eter ces ´ecarts. Calculer la mesure d’association D2 . 2

Exercice suppl´ ementaire 1 Une soci´et´e de consultance a relev´e le revenu annuel X (en milliers d’euros) et l’´epargne correspondante Y (en milliers d’euros) de 12 familles. Les r´esultats sont dans le tableau suivant : Famille Revenu Epargne

1 2 3 4 5 6 7 8 9 10 11 12 21 21 19 23 19 20 24 18 19 21 21 22 2.2 1.8 1.9 1.9 2.3 1.9 2.0 2.4 1.8 1.9 2.1 2.2

1. D´eterminez les moyennes et les variances marginales. 2. D´eterminez la moyenne et la variance de l’´epargne des familles qui ont un revenu sup´erieur ou ´egal a` 21 mille euros. 3. D´eterminez l’´equation de la droite de r´egression de Y en X. 4. Est-ce que cette ´equation est bien adapt´ee aux donn´ees ? Expliquez. 5. Calculez les variances r´esiduelle et de r´egression. 6. Calculez la valeur pr´edite et le r´esidu correspondant `a la famille 8.

Exercice suppl´ ementaire 2 Un ´echantillon de 82 femmes aˆg´ees de plus de 40 ans et ayant au moins un enfant, a ´et´e class´e selon les deux crit`eres suivants : le nombre de fr`eres et soeurs (vivants ou d´ec´ed´es) (Y ) et le nombre d’enfants (X). Les r´esultats obtenus sont pr´esent´ees dans le tableau suivant : Nombre d’enfants X 1 2 3 4 5

Nombre de fr` eres et soeurs Y 0 1 2 3 4 4 4 1 1 0 9 15 5 2 0 4 11 9 2 0 1 5 1 1 2 0 2 1 0 2

1. D´eterminez les distributions marginales. 2. D´eterminez les moyennes et variances marginales. 3. D´eterminez les distribution conditionnelles de Y en X = 3 et de X en Y = 2. D´eterminez ´egalement les moyennes et variances conditionnelles. 4. Calculez la covariance entre X et Y . 5. Calculez le coefficient de corr´elation entre X et Y .

3

Exercice suppl´ ementaire 3 Le tableau suivant donne la r´epartition de 200 ´etudiants de premi`ere ann´ee universitaire selon deux caract`eres statistiques : l’ˆage X et le principal sport pratiqu´e Y . njk 18 ans 19 ans 20 ans 21 ans

Football 45 29 18 14

Natation 23 18 10 8

Tennis 15 8 3 2

Equitation 3 2 2 0

1. De quels types sont les deux variables ? 2. Quels param`etres peuvent ˆetre calcul´es pour chacune de ces deux variables ? 3. Calculer la moyenne et la variance de la distribution marginale en X. 4. Calculer les effectifs th´eoriques esp´er´es sous l’hypoth`ese d’ind´ependance entre X et Y. 5. Calculer les ´ecarts a` l’ind´ependance. 6. Calculer la mesure d’association D2 .

Exercice suppl´ ementaire 4 Dans une classe, on a mesur´e la taille (en pouces) et le poids (en livres) de 10 ´el`eves. L’objectif est d’´etudier le poids (Y ) en fonction de la taille (X). Le tableau ci-dessous pr´esente les r´esultats obtenus par les 10 ´el`eves Nom Taille Poids

Albert 69.0 112.5

Alice Cindy Carol Henry July Jane Janet Jack John 56.5 65.3 62.8 63.5 57.3 59.8 62.5 62.5 59.0 84.0 98.0 102.5 102.5 83.0 84.5 112.5 84.0 99.5

1. Calculez le coefficient de corr´elation entre X et Y . 2. D´eterminez l’´equation de la droite de r´egression de Y en X. 3. Est-ce que cette ´equation est bien adapt´ee aux donn´ees ? Expliquez. 4. Calculez les variances r´esiduelle et de r´egression. 5. Sachant que 1 pouce = 2.54 cm et 1 livre = 0.454 kg. A quel poids (en kg) peut-on s’attendre chez un ´el`eve qui mesure 177.8 cm ?

4

Universit´ e Libre de Bruxelles

Ann´ ee acad´ emique 2009-2010

STAT-D-101 Catherine Dehon

1

S´ eances 9 et 10 2 : Analyse d’une s´ erie chronologique

1

Exercice 1 Pendant trois semaines cons´ecutives, on a observ´e le nombre de visiteurs d’un mus´ee dont les jours de fermeture sont le samedi et le dimanche.

Premi`ere semaine Deuxi`eme semaine Troisi`eme semaine

Lundi 7 8 10

Mardi 5 9 11

Mercredi 35 45 25

Jeudi 5 8 9

Vendredi 6 9 11

Consid´erons un mod`ele additif sans composante cyclique : Y = T + S + E. 1. Repr´esentez graphiquement Y en fonction du temps. Pourquoi prend-on un mod`ele additif ? 2. Calculez les moyennes mobiles d’ordre 5, not´ees M M (5). Repr´esentez graphiquement cette moyenne mobile. Pourquoi prend-on un ordre 5 ? 3. Effectuez un ajustement lin´eaire sur cette s´erie chronologique Y . Repr´esentez graphiquement cet ajustement. 4. D´eterminez les composantes saisonni`eres par la m´ethode de comparaison `a la tendance. 5. Sur base du mod`ele additif et des r´esultats ci-dessus, donnez la pr´evision pour le lundi et le mardi de la 4i`eme semaine.

Exercice 2 Les 12 observations suivantes repr´esentent le nombre de magasins ouverts, par trimestre et pendant trois ann´ees, dans une station de sport d’hiver :

Ann´ ees 2002 2003 2004

T1 60 72 86

Trimestres T2 T3 30 10 36 18 29 20

T4 85 74 100

1. Calculez les moyennes mobiles centr´ees d’ordre 4, not´ees M M C(4). 2. D´eterminez les composantes saisonni`eres par la m´ethode de comparaison `a la moyenne mobile. 1

Les ´enonc´es sont disponibles sur le site www.ulb.ac.be/soco/statrope

1

Exercice 3 Les 10 observations suivantes repr´esentent la valeur d’une action observ´ee pendant 10 mois cons´ecutifs : t Y

1 40

2 41

3 40

4 39

5 77

6 70

7 40

8 17

9 25

10 39

1. Effectuez une pr´evision par lissage exponentiel simple de la valeur de cette action pour le 11i`eme mois, avec comme valeur de α = 0.3. 2. Supposons que l’observation pour le 11i`eme mois soit 50. Effectuez alors une pr´evision de la valeur de cette action pour le 12i`eme mois en utilisant votre r´esultat en 1.

Exercice suppl´ ementaire 1 Le tableau ci-dessous contient des valeurs exp´erimentales de la pression P (en Pascals) d’un certain gaz en fonction de son volume V (en m3 ) : P V

65 50

50 60

40 70

35 80

50 55

On suspecte entre P et V une relation de la forme ” P.V b = c ”, o` u b et c sont des constantes. 1. Estimez la valeur de ces constantes en utilisant les r´esultats d’un certain ajustement lin´eaire au sens des moindres carr´es. 2. En utilisant cet ajustement, estimez la valeur de P pour le cas o` u V vaut 100 m3 .

Exercice suppl´ ementaire 2 La production annuelle d’´electricit´e pour les entreprises publiques d’un pays pendant ces 7 derni`eres ann´ees est : t Y

1998 3.5

1999 2.5

2000 4.3

2001 3

2002 1.5

2003 3.2

2004 3

1. Effectuez un ajustement hyperbolique ( prendre une hyperbole ´equilat`ere) sur ces donn´ees. 2. Sur base de cet ajustement, donnez une pr´evision de la production annuelle d’´electricit´e pour l’ann´ee 2005.

2

Universit´ e Libre de Bruxelles

Ann´ ee acad´ emique 2008-2009

STAT-D-101 Catherine Dehon

1

eatoires et lois de S´ eances 10 2 , 11 et 12 : Variables al´ probabilit´ e discr` etes 1 Exercice 1 Soit X la variable al´eatoire dont la loi est d´efinie par le tableau suivant : k P (X = k)

1 0.25

2 0.1

3 0.2

4 p

5 0.35

1. D´eterminer la valeur de p. 2. Calculer l’esp´erance math´ematique et la variance de X. 3. Calculer le mode et la m´ediane de X. 4. Calculer la valeur de la fonction de r´epartition de X en 2, 2.76 et 7.

Exercice 2 On d´esigne par X la variable al´eatoire qui repr´esente le nombre de boules rouges obtenues apr`es cinq tirages avec remise dans une urne qui contient deux boules rouges et six boules blanches. 1. D´eterminer la loi de probabilit´e de X. 2. Calculer E(X) et V ar(X). 3. Calculer la probabilit´e de tirer au moins une boule rouge. 4. Calculer la probabilit´e que le nombre de boules rouges soit sup´erieur ou ´egal `a 1 et inf´erieur `au ´egal `a 3. 5. Calculer les quantiles d’ordre 0.25, 0.5, 0.75 de X. 6. D´eterminer la distribution du nombre de boules blanches, parmi les 5 boules tir´ees. 1

Les ´enonc´es sont disponibles sur le site www.ulb.ac.be/soco/statrope

1

Exercice 3 Le nombre de micro-ordinateurs vendus chaque jour dans un magasin informatique suit une loi de Poisson de moyenne 8. Calculer la probabilit´e que dans une journ´ee : 1. on ne vende aucun micro-ordinateur, 2. on vende au moins un micro-ordinateur, 3. le nombre de micro-ordinateurs vendus soit sup´erieur ou ´egal `a 2 et inf´erieur ou ´egal `a 6.

Exercice 4 On lance 8 balles pour atteindre une cible. Les diff´erents lancements sont ind´ependants. Si on lance une balle, la probabilit´e qu’elle atteingne la cible est 0.95. Soit X la variable al´eatoire qui compte le nombre de fois que la cible a ´et´e atteinte. 1. D´eterminez la loi de probabilt´e de X. 2. Combien de balles seront n´ecessaires pour ˆetre sˆ ur que la cible ait ´et´e atteinte au moins une fois avec une probabilit´e sup´erieure ou ´egale `a 0.99. 3. Calculez la probabilit´e que la cible soit atteinte au moins quatre fois. 4. Supposons qu’on lance 100 balles, calculez la probabilit´e que : i) la cible soit atteinte exactement 96 fois, ii) la cible soit atteinte plus que 92 fois.

Exercice 5 Un gardien de nuit doit ouvrir une porte dans le noir, avec 10 clefs dont une seule est la bonne. Soit X la variable al´eatoire qui compte le nombre d’essais n´ecessaires jusqu’`a l’ouverture de la porte. Le gardien ´etant ivre, il m´elange toutes les clefs `a chaque tentative. 1. Quelles sont les valeurs possibles de X ? 2. Calculez la probabilit´e de l’´ev´enement [X = k], o` u k est une valeur prise par X. 3. De quel type de distribution s’agit-il ? 4. Donnez les valeurs de la moyenne et de la variance de X. 5. Quelle est la probabilit´e que la porte soit ouverte apr`es n tentatives ? 6. Le gardien se dit avant de commencer : “ Si j’essaie n fois, j’ai une probabilit´e d’au moins 0.95 de r´eussir `a ouvrir la porte”. Quelle est la valeur minimale de n ?

Exercice 6 Dans une urne qui contient 10 boules num´erot´ees de 1 `a 10, on extrait 3 boules avec remise. Soient X la variable al´eatoire ´egale au plus grand des 3 num´eros tir´es. 1. Quelles sont les valeurs possibles de X ? 2

2. Calculez la probabilit´e de l’´ev´enement [X ≤ k], o` u k est une valeur prise par X. 3. D´eduire la loi de probabilit´e de X. 4. Calculez P (1 < X ≤ 3). 5. Les deux ´ev´enements (X = 1) et (X = 3) sont-ils ind´ependants ? (Justifiez votre r´eponse). 6. Calculez la probabilit´e que X soit paire.

Exercice 7 Soit X une variable al´eatoire discr`ete qui ne peut prendre que les valeurs 1, 3 et 6 avec des probabilit´es 14 , 12 et 14 . 1. Quelle est la fonction g´en´eratrice des moments de X ? 2. En utilisant le r´esultat pr´ec´edent, calculez l’esp´erance math´ematique et la variance de X.

Exercice suppl´ ementaire 1 Dans une entreprise travaillent 6 ouvriers et 5 employ´es. Le PDG, souhaitant prendre l’avis de son personnel, interroge 7 personnes choisies au hasard parmi ces 11 personnes. Soit X la variable al´eatoire : ”nombre d’ouvriers interrog´es”. D´eterminer la loi de probabilit´e de X.

Exercice suppl´ ementaire 2 Une variable al´eatoire X peut prendre l’une des trois valeurs 0, 1 ou 2 avec des probabilit´es positives. D´eterminer sa loi de probabilit´e sachant que E(X) = 1 et V ar(X) = 1/2.

Exercice suppl´ ementaire 3 Soit X la variable al´eatoire discr`ete qui associe `a chaque enfant de 8 ans le nombre de bonnes r´eponses qu’il fournit lors d’un test de discrimination droite-gauche des mains. X ob´eit `a la distribution de probabilit´e suivante : Nombre de bonnes r´eponses k P (X = k)

0 0.05

1 0.15

2 0.20

3 0.25

4 0.20

5 0.10

6 0.05

1. On choisit au hasard un enfant de 8 ans. Calculez la probabilit´e des ´ev´enements suivants : i) L’enfant fournit au moins 2 bonnes r´eponses mais pas plus de 5. ii) Le nombre de bonnes r´eponses fournies par l’enfant est strictement sup´erieur `a 4.

3

2. Calculez le mode et la m´ediane de X. 3. Calculez la moyenne de X et la valeur de la fonction de r´epartition de X en 3.4. 4. Supposons que l’on s´electionne, par tirages al´eatoires `a probabilit´es ´egales avec remise, un ´echantillon de 25 enfants de 8 ans. i) Quelle est la distribution de probabilit´e de la variable al´eatoire Y correspondant au nombre d’enfants donnant 4 bonnes r´eponses dans l’´echantillon ? ii) A combien d’enfants donnant 4 bonnes r´eponses peut-on raisonnablement s’attendre dans l’´echantillon ?

Exercice suppl´ ementaire 4 Soit X une loi binomiale de moyenne 3 et de variance 2. Calculez P (X = 7).

Exercice suppl´ ementaire 5 Un gardien de nuit doit ouvrir une porte dans le noir, avec n clefs dont une seule est la bonne. Soit X la variable al´eatoire qui compte le nombre d’essais n´ecessaires jusqu’`a l’ouverture de la porte. D´eterminez la loi de probabilit´e de X si le gardien essaie les clefs une `a une sans utiliser deux fois la mˆeme. Calculez l’esp´erance et la variance de X.

Exercice suppl´ ementaire 6 On consid`ere une succession d’´epreuves de Bernoulli ind´ependantes de mˆeme param`etre. A chaque ´epreuve la probabilit´e de succ`es est not´ee p (p ∈]0, 1[). On note X la longueur al´eatoire du “run” demarrant au premier coup, o` u l’on appelle “run” une succession soit de succ`es ou d’´echecs interrompue par l’´ev´enement contraire. Par exemple pour une s´equence d´ebutant par SSSE...le premier run est de longueur 3 et est un run de succ`es. Trouver la loi de X et son esp´erance.

Exercice suppl´ ementaire 7 On consid`ere un point M se d´epla¸cant sur un axe d’origine O, en partant de O et par sauts d’une unit´e vers la droite avec la probabilit´e 0.2 et vers la gauche avec la probabilit´e 0.8. Les sauts ´etant suppos´es ind´ependants. Soit X la variable al´eatoire ´egale `a l’abscisse du point `a l’issue du 8i`eme d´eplacement et Y la variable al´eatoire ´egale au nombre de sauts vers la droite. 1. D´eterminer la loi de probabilit´e de Y . 2. Donner les valeurs de la moyenne et de la variance de Y . 3. Calculer les quantiles d’ordre 0.25, 0.5, 0.75 de Y . 4. Exprimer la variable al´eatoire ´egale au nombre de sauts vers la gauche en fonction de Y . 5. D´eduire l’expression de X en fonction de Y .

4

6. Quelles sont les valeurs prises par X ? 7. D´eterminer la loi de probabilit´e de X.

Exercice suppl´ ementaire 8 Un fumeur dispose d’un nombre infini d’allumettes. La probabilit´e qu’une allumette s’´eteigne est 0.2 . Le fumeur tente d’allumer sa cigarette, chaque essai est ind´ependant des autres. S’il allume sa cigarette, il cesse d’allumer des allumettes. Soit X la variable al´eatoire ´egale au nombre d’allumettes utilis´ees. 1. Quelles sont les valeurs prises par X ? 2. Calculez la probabilit´e de l’´ev´enement [X = k], o` u k est une valeur prise par X. 3. De quel type de distribution s’agit-il ? 4. Donnez les valeurs de la moyenne et de la variance de X. 5. Quelle est la probabilit´e qu’il r´eussisse `a allumer sa cigarette avec n allumettes ? 6. Combien d’allumettes seront n´ecessaires pour qu’il r´eussisse `a allumer sa cigarette avec une probabilt´e sup´erieure ou ´egale `a 0.95. 7. Pour tout k ≥ 1, montrez que P (X = n + k|X > n) = P (X = k). 8. Sachant que le nombre d’allumettes utilis´ees est sup´erieure strictement `a 10, quelle est la probabilit´e qu’il r´eussisse `a allumer sa cigarette avec exactement 18 allumettes ?

Exercice suppl´ ementaire 9 Les valeurs prises par une variable binˆomiale X de param`etres n et p sont affich´ees par un compteur de la fa¸con suivante : – Si X prend une valeur non nulle, le compteur affiche correctement cette valeur. – Si X prend la valeur 0, le compteur affiche n’importe quoi, au hasard, entre 1 et n. On note Y la variable al´eatoire “nombre affich´e par le compteur”. 1. Quelle sont les valeurs prises par Y ? 2. Calculer la probabilit´e P (Y = k|X = 0), pour un k ∈ VY .

5

Universit´ e Libre de Bruxelles

Ann´ ee acad´ emique 2008-2009

STAT-D-101 Catherine Dehon Exercices suppl´ ementaires

Exercice 1 Questions `a choix multiples : il y a au moins une r´eponse exacte par question. (a) Pour une s´erie d’observations d’une variable quantitative : 1. on peut calculer quatre quartiles ; 2. l’´ecart interquartile contient 50% des observations ; 3. le cinqui`eme d´ecile est ´egal `a la m´ediane ; 4. 50% des observations sont sup´erieures au premier quartile ; 5. l’´ecart interd´ecile contient 90% des observations. (b) Si on veut minimiser l’influence des valeurs extrˆemes : 1. on pr´ef`ere la m´ediane `a la moyenne ; 2. on pr´ef`ere l’´etendue `a l’´ecart interquartile ; 3. on pr´ef`ere l’´ecart interd´ecile `a l’´etendue ; 4. on pr´ef`ere le coefficient empirique de Yule et Kendall au coefficient de Fisher ; 5. on pr´ef`ere l’´ecart interquartile `a l’´ecart-type. (c) Une ´etude des notes obtenues par deux groupes de premi`ere bachelor `a l’ULB en sciences ´economiques `a un test commun a fourni les r´esultats suivants : Groupe Groupe 1 Groupe 2 Effectif 20 30 Moyenne 16 13 Ecart-type 6 6 Mode 14 11 M´ediane 14 11

1. la note moyenne des deux groupes r´eunies est comprise strictement entre 14, 25 et 14, 45 ; 2. l’´ecart-type des notes des deux groupes r´eunies est sup´erieur strictement `a 6, 12 ; 3. la m´ediane des notes des deux groupes r´eunies est ´egale `a 12 ; 4. la distribution du premier groupe pr´esente une asym´etrie `a gauche ; 5. la dispersion dans le deuxi`eme groupe est plus importante que dans le premier. 1

(d) Soit {x1 , x2 , . . . , xn } un ´echantillon de donn´ees num´eriques, d´eterminez la ou les affirmation(s) toujours exacte(s) : P 1. n1 ni=1 (xi − x¯) = 0 ; P P 2. n1 ni=1 |xi − x9/10 | ≥ n1 ni=1 |xi − x1/2 | ; Pn 2 Pn 1 2 3. i=1 xi ≥ n ( i=1 xi ) ; P 4. n1 ni=1 x2i ≤ s2x ; P P 5. n1 ni=1 (xi − x¯)2 ≥ n1 ni=1 (xi − x1/2 )2 ; 6. si la distribution pr´esente une asym´etrie `a droite alors x¯ ≤ x1/2 ≤ xM ; ; 7. EQ ≤ 12 (a2 − a1 ), o` u EQ est l’´ecart interquartile, a1 et a2 sont les valeurs pivots ; 8. si tous les xi ∈ (a1 , a2 ) alors xg = x(1) et xd = x(n) , o` u xg et xd sont les valeurs adjacentes. (e) Pour une distribution observ´ee {(xj , nj ); j = 1, . . . , J} relative `a une variable quantitaive X,  P 2 P 1. pour que la variance soit nulle, il suffit que n1 Jj=1 nj x2j = n1 Jj=1 nj xj ; P 2. n1 Jj=1 nj (xj − x¯) ≤ s2x ; P 3. la variance est : s2x = n1 Jj=1 (nj x2j − x¯2 ) ; 4. pout tout j = 1, . . . , J, Nj = n1 + n2 + . . . + nj ; 5. Nj∗ est le nombre d’observations ≤ xj ; 6. la courbe cumulative `a gauche est une fonction en escalier (continue `a droite). (f) Consid´erons une s´erie statistique {x1 , . . . , xn } relative `a un caract`ere quantitatif X et le changement d’origine et d’unit´e suivant : yi = (xi − 2)/10, i = 1, . . . , n. Dans ces conditions, comment se transforment la moyenne, le mode, la m´ediane, l’´ecart-type, etc de la s´erie statistique {y1 , . . . , yn }. D´eterminez la ou les affirmation(s) totalement exacte(s) : 1. la moyenne et la m´ediane diminuent de 2 et la variance reste inchang´ee ; 2. la moyenne et le mode diminuent de 2 et ensuite divis´es par 10, et la variance est divis´ee par 10 ; 3. la moyenne, le mode, le premier d´ecile et le troisi`eme quartile sont diminu´es de 2 et ensuite divis´es par 10. 4. l’´etendue, l’´ecart-type et l’´ecart interquartile sont divis´es par 10 et le coefficient de Fisher reste inchang´e ; 5. le coefficient de variation, le coefficient empirique de Yule et Kendall et le coefficient empirique de Pearson restent inchang´es.

2

(g) Pour une variable quantitative de distribution sym´etrique, d´eterminez la ou les affirmation(s) toujours exacte(s) : 1. 50% des observations sont sup´erieures `a la moyenne ; 2. la moyenne est ´egale au mode ; 3. x3/4 − x1/4 = 2(x1/2 − x1/4 ) ; P 4. n1 ni=1 (xi − x1/2 ) = 0 ; P 5. s2x + x21/2 = n1 ni=1 x2i . (h) Pour comparer des distributions de variables statistiques exprim´ees dans des unit´es diff´erentes (par exemple des distributions de salaires exprim´es dans des monnaies diff´erentes), on peut utiliser les caract´eristiques suivantes : 1. la m´ediane ; 2. l’´ecart interquartile ; 3. le coefficient de variation ; 4. le rapport interd´ecile

x9/10 x1/10

;

5. la moyenne. (i) Soient deux ´ev´enements ind´ependants A et B d’un mˆeme espace probabilis´e tels que : P (A) = 0, 3 et P (B) = 0, 2. D´eterminez la ou les affirmation(s) correcte(s) : 1. P (A ∪ B) = 0, 44 ; 2. P (A ∩ B) = 0, 6 ; 3. P (A ∩ B) = 0, 06 ; 4. P (A \ B) = 0, 24 ; 5. P (A¯ ∪ B) = 0, 84 ; ¯ sont ind´ependants ; 6. A¯ et B ¯ 7. P (A|B) = 0, 7 ; 8. A¯ et B ne sont pas ind´ependants. (j) Trois chasseurs visent simultan´ement un mˆeme li`evre et tirent en mˆeme temps. Soient p1 , p2 et p3 les probabilit´es respectives de toucher le li`evre pour chaque chasseur (p1 ≤ p2 ≤ p3 ), alors la probabilit´e que le li`evre soit touch´e par au moins un des chasseurs : 1. peut ˆetre inf´erieure `a p1 ; 2. est ´egale `a (p1 + p2 + p3 ) ; 3. est ´egale `a [1 − (1 − p1 )(1 − p2 )(1 − p3 )] ; 4. est comprise entre (p1 .p2 .p3 ) et (p1 + p2 + p3 ) ; 5. est comprise entre [1 − (1 − p1 )3 ] et [1 − (1 − p3 )3 ]. (k) Soient A et B deux ´ev´enements d’un espace probabilis´e tels que P (A) = P (B) = 43 . D´eterminez la ou les affirmation(s) toujours exacte(s) : 3

1. A et B sont des ´ev`enements mutuellement exclusifs ; 2. P (A ∩ B) ≤ P (A ∪ B) ; 3. 4.

3 4 1 2

≤ P (A ∪ B) ≤ 1 et ≤ P (A ∪ B) <

3 4

et

1 2 3 4

≤ P (A ∩ B) ≤ 43 ; < P (A ∩ B) ≤ 1 ;

5. aucune des affirmations ci-dessus n’est correcte. (l) Dans une classe, on a mesur´e la taille (en pouces) et le poids (en livres) de 10 ´el`eves. L’objectif est d’´etudier le poids en fonction de la taille. Le tableau ci-dessous pr´esente les r´esultats obtenus pour 10 ´el`eves (4 d´ecimales dans cet exercice). Nom Taille Poids

Albert Alice 69.0 56.5 112.5 84.0

Cindy Carol 65.3 62.8 98.0 102.5

Henry July Jane Janet Jack John 63.5 57.3 59.8 62.5 62.5 59.0 102.5 83.0 84.5 112.5 84.0 99.5

Sachant que 1 pouce = 2.54 cm et 1 livre = 0.454 kg, d´eterminez la ou les affirmation(s) toujours exacte(s) : 1. La pente de la droite de r´egression de y en x est inf´erieure strictement `a 2.1997 ; 2. La pr´evision du poids chez un ´el`eve qui mesure 177.8 cm est une valeur inf´erieure strictement `a 116 livre ; 3. La pr´evision du poids chez un ´el`eve qui mesure 177.8 cm est une valeur comprise strictement entre 53 et 55 kg ; 4. Le r´esidu correspondant `a l’´etudiant Henry est sup´erieure strictement `a 1 kg ; 5. L’equation de la droite de r´egression de y en x est bien adapt´ee aux donn´ees. (m) Le tableau suivant donne la r´epartition de 200 ´etudiants de premi`ere ann´ee universitaire selon deux caract`eres statistiques : l’ˆage X et le principal sport pratiqu´e Y. njk 18 ans 19 ans 20 ans 21 ans

Football 45 29 18 14

Natation 23 18 10 8

Tennis 15 8 3 2

Equitation 3 2 2 0

D´eterminez la ou les affirmation(s) toujours exacte(s) : 1. Le coefficient empirique de Pearson de la variable X est sup´erieur strictement `a 0, 961 ; 2. Le coefficient de Fisher de la variable X est compris strictement entre 0.55 et 0.75 ; 3. Le coefficient de variation de la variable ˆage est inf´erieur strictement `a 0.08 ; 4. La somme des ´ecarts `a l’ind´ependance est nulle ; 5. La mesure d’association est inf´erieure strictement `a 4.456. 4

(n) Un jouet se trouve cach´e dans l’une des N boˆıtes ferm´ees o` u un enfant le cherche. Celui-ci ouvre une boˆıte au hasard et recommence jusqu’`a ce qu’il trouve le jouet. On suppose qu’`a chaque tentative il a oubli´e le r´esultat de toutes les pr´ec´edentes. Soit X le nombre de tentatives effectu´ees jusqu’`a la d´ecouverte du jouet. D´eterminez la ou les affirmation(s) toujours exacte(s) : 1. V ar(X) = (E(X))2 − E(X) ; 2. Il faut 5 boˆıtes pour que l’enfant ait environ trois chances sur quatre de trouver le jouet `a l’issue de ses trois premi`eres tentatives ; 3. Aucune des affirmations ci-dessus n’est correcte ; 4. X suit une distribution g´eom´etrique de param`etre 1/N ; 5. Le jouet est trouv´e `a l’issue de n tentatives avec une probabilit´e ´egale `a 1 − (1 − n1 )N . (o) Dans une urne qui contient 10 boules num´erot´ees de 1 `a 10, on extrait 3 boules avec remise. Soient X la variable al´eatoire ´egale au plus grand des 3 num´eros tir´es. D´eterminez la ou les affirmation(s) toujours exacte(s) : 1. X est une variable al´eatoire Binomiale de moyenne 0.3 ; 2. La probabilit´e que X soit paire est comprise strictement entre 0.567 et 0.578 ; 3. La probabilit´e que X soit impaire est inf´erieure `a 0.578 ; 4. 0.025 < P (1 < X ≤ 3) < 0.03 ; 5. Les deux ´ev´enements (X = 1) et (X = 3) sont d´ependants.

Exercice 2 Considerons la distribution des salaires (en euros) dans les entreprises du secteur priv´e en france pour les ann´ees 1975 et 2005. L’intervalle de variation des salaires est partag´e en 5 classes. Notons xcj le centre de la classe j et nj l’effectif de la classe j pour (j = 1, . . . , 5). 1975 Classe xcj 1 1130 2 1400 3 1850 4 2590 5 5150

2005 Classe xcj 1 1706 2 2030 3 2475 4 3200 5 5815

nj 20 20 20 20 20

nj 20 20 20 20 20

1. Construisez les courbes de Lorentz pour les ann´ees 1975 et 2005. Comparez la concentration des salaires entre ces deux ann´ees. 2. Calculez le coefficient de Gini pour les deux ann´ees. Interpr´etez ces coefficient.

5

Exercice 3 Le tableau ci-dessous pr´esente les prix et les quantit´es de Coca-Cola et de BigMac achet´ees par un consommateur en 2000 et 2005. BigMac (j = 1) Prix en $ (`a la pi`ece) Quantit´e (pi`ece) (1) (1) pi qi 2000(i = 0) 2 12 2005(i = 1) 3 13

BigMac (j = 2) Prix en $ (au litre) Quantit´e (litre) (2) (2) pi qi 1.5 7 2 10

Comment donner une mesure de la variation de prix du panier compos´e des ces deux produits ?

Exercice 4 Une mˆeme somme S a ´et´e confi´ee `a deux banques B1 et B2 pour une dur´ee de 10 ans. Les rendements successifs des placements effectu´es par les dux banques ont ´et´e les suivants : – Bnaque B1 : 12% pendant 2 ans, puis 8% pendant 4 ans, puis 6% pendant 4 ans ; – Bnaque B2 : 10% pendant 3 ans, puis 8% pendant 3 ans, puis 7% pendant 4 ans. 1. Calculez le taux moyen de croissance dans chaque banque. 2. A quel taux la moins performante des deux banques aurait-elle dˆ u placer l’argent pendant la troisi`eme p´eriode pour ´egaler l’autre ?

Exercice 5 Un jeu de cartes ordinaire comprend 52 cartes. Chacune de ces 52 cartes appartient `a une couleur (le carreau, le coeur, le tr`efle et le pique) et poss`ede une valeur (2, 3, 4, 5, 6, 7, 8, 9, 10, J (valet), Q (dame), K (roi) et A (as)). Pour les questions qui suivent, on consid`ere une main de poker, c’est-`a-dire une combinaison de 5 cartes tir´ees au hasard `a partir d’un jeu de 52 cartes. Quelle est la probabilit´e qu’une main contienne : 1. une paire, c’est-`a-dire une main de poker contenant en tout 4 valeurs diff´erentes ? 2. deux paires, (Les deux paires ne peuvent pas avoir la mˆeme valeur et la valeur de la cinqui`eme cartes doit ˆetre diff´erente des valeurs des deux paires) ? 3. un brelan, c’est-`a-dire une main de poker contenant trois cartes de la mˆeme valeur (Les deux autres cartes doivent ˆetre de valeurs diff´erentes entre elles et diff´erentes de la valeur commune aux trois premi`eres cartes) ? 4. une main pleine, c’est-`a-dire une main de poker contenant trois cartes d’une valeur et deux cartes d’une autre valeur ? 5. un carr´e, c’est-`a-dire une main de poker contenant quatre cartes de la mˆeme valeur (et une cinqui`eme carte quelconque) ?

6

Related Documents

Cours De Statistique
June 2020 5
Statistique
April 2020 10
Statistique E2
November 2019 17
Formulaire Statistique
December 2019 19

More Documents from ""

Abdome Agudo
November 2019 17
May 2020 9
Problemas De Mate
May 2020 9
May 2020 12
October 2019 21
October 2019 18