Cours1-3_2pp

  • November 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Cours1-3_2pp as PDF for free.

More details

  • Words: 4,359
  • Pages: 25
Premi`ere partie I Cours 1 `a 3 : Introduction, Mod`eles statistiques, Bornes d’estimation (version corrig´ee, 27 f´ev. 2007)

Introduction

MAP433 Statistique

L’´equipe enseignante Cours Olivier Capp´e, laboratoire traitement et communication de l’information, CNRS — ENST Petites classes Randal Douc, d´epartement de math´ematiques appliqu´ees, Ecole Polytechnique Gabriel Lang, laboratoire Gestion du Risque en Sciences de l’Eau, ENGREF St´ephane Gr´egoir, Centre de Recherche en ´ Economie et Statistique, INSEE

Introduction

MAP433 Statistique Le cours Amphis & PC Vendredi 2 f´evrier, 9 f´evrier, 16 f´evrier, 2 mars, 9 mars, 16 mars, 30 mars, 6 avril, 20 avril Les transparents du cours sont disponibles `a partir de http://www.catalogue.polytechnique.fr/ Les codes scilab utilis´ees pour illustrer le cours sont ´egalement disponibles (mˆeme adresse) Tutorat Le mardi `a 17h30, `a partir du 27 f´ev. (informations aupr`es de la scolarit´e) Projet facultatif Les sujets seront pr´esent´es le 9 mars, s’incrire pour le 30 mars, `a rendre pour le 1er juin (imp´erativement) CC Mercredi 2 mai (attention : date modifi´ee) Introduction

1 Introduction

Introduction `a la statistique Un exemple ´el´ementaire Statistiques descriptives 2 Mod´ elisation statistique 3 Bornes d’estimation

Introduction

Introduction ` a la statistique

La statistique

A pour but de fournir un ensemble de m´ethodes permettant, `a partir d’observations, d’analyser (de d´ecrire) les donn´ees observ´ees, mais ´egalement d’en d´eduire des traitements (mod`eles/interpr´etations) : aide `a la d´ecision, mise en ´evidence de facteurs explicatifs, pr´ediction du comportement futur, . . .

Repose sur la mod´elisation probabiliste des observations

Introduction

Introduction ` a la statistique

Exemples Pr´edire le r´esultat d’une ´election, `a partir de sondage(s) Dire si la qualit´e de l’air s’est ou non am´elior´ee suite `a un am´enagement routier, `a partir de donn´ees de pollution Analyser les r´esultats d’un vote, `a partir de questionnaires Analyser les facteurs d’´echec scolaire, `a partir de donn´ees sociologiques recueillies lors de recensements Valider l’efficacit´e d’un traitement m´edicamenteux, sur la base d’essais cliniques Mesurer l’impact d’un site web, `a partir de mesure de connectivit´e (analyse des liens hypertextes) D´etecter automatiquement des courriels non-sollicit´es, `a partir de corpus d’exemples Optimiser une strat´egie de gestion de portefeuille, `a partir de donn´ees historiques

Introduction

Introduction ` a la statistique

Les observations sont vues comme des r´ealisations de variables al´eatoires d´efinies sur un espace probabilisable (Ω, F) Probabilités

Loi de probabilité

Observations

Statistique

La th´eorie des probabilit´es vise `a ´evaluer le comportement des observations (esp´erance, moments, probabilit´es de d´epassement, comportement de sommes, . . .) ´etant donn´e la loi de probabilit´e P La statistique fournit des m´ethodes pour r´esoudre le probl`eme inverse dit d’inf´erence statistique : caract´eriser P au vu des observations

Introduction

Introduction ` a la statistique

En g´en´eral, l’objectif de d´eterminer compl`etement P `a partir d’observations est trop ambitieux et il est n´ecessaire 1

de faire des hypoth`eses plus restrictives sur la loi P ; ces hypoth`eses refl`etent nos connaissances a priori sur le processus qui g´en`ere les donn´ees (cf. cours suivant)

2

de consid´erer des observations dont la structure probabiliste est raisonnablement simple

Mod`ele statique ou d’´echantillonnage Dans ce cours, on consid´erera uniquement le cas d’observations Y1 , . . . , Yn ind´ependantes et, le plus souvent, de mˆeme loi

Introduction

Un exemple ´ el´ ementaire

Mod`ele d’´echantillonnage de Bernoulli On suppose que les observations Y1 , . . . , Yn sont des variables ind´ependantes et de mˆeme loi (ou IID) `a valeur dans {0, 1} Le mod`ele statistique le plus simple, n´eanmoins rencontr´e dans de nombreuses applications (tests de qualit´e, questionnaires . . .)

1

2

La loi des observations est enti`erement d´etermin´ee par def θ = P(Yi = 1)* L’inf´erence statistique, (( d´eterminer θ `a partir des observations )), est un objectif raisonnable du fait de la loi des grands nombres n 1 X p.s. Yi −→ θ n i=1

*

Un petit souci de notation ici (cf. cours suivant) Introduction

Un exemple ´ el´ ementaire

Dans ce mod`ele particuli`erement simple, on sait ´egalement quantifier les performances de l’inf´erence statistique `a l’aide de r´esultats Asymptotiques comme le th´eor`eme de la limite centrale ! n √ 1X L Yi − θ −→ N (0, θ(1 − θ)) n n i=1

c’est `a dire "r P

# n n 1 X Yi − θ > ε → 2 (1 − Φ(ε)) θ(1 − θ) n i=1

Non-asymptotiques comme l’in´egalit´e d’Hoeffding " n # 1 X  P Yi − θ > ε ≤ 2 exp −2nε2 n i=1

Introduction

Un exemple ´ el´ ementaire

n = 10

1.00

0.95

0.90

n = 100

n = 1000

2.0

0.50

0.50

1.8

0.45

0.45

1.6

0.40

0.40

1.4

0.35

0.35

1.2

0.30

0.30

1.0

0.25

0.25

0.8

0.20

0.20

0.6

0.15

0.15

0.4

0.10

0.10

0.2

0.05

0.0 −3

0.00 −3

−2

−1

0

1

2

3

0.05 −2

−1

0

1

2

3

0.00 −3

3

3

3

2

2

2

1

1

1

0

0

0

−1

−1

−1

−2

−1

0

1

2

3

−2

−1

0

1

2

3

0.85

0.80

0.75

−2 −3 −3

0.70

−2

−2

−1

0

1

2

3

−3 −3

−2

−2

−1

0

1

2

3

−3 −3

n

0.65 0

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

Fig.: p Histogrammes Pn et QQ-plots de 1/ nθ(1 − θ) i=1 (Yi − θ) (θ = 0.9, 100 r´ealisations)

Pn

Fig.: 1/n i=1 Yi (θ = 0.9, 10 r´ealisations)

quantiles empiriques

Introduction

Un exemple ´ el´ ementaire

P Approcher θ par n1 ni=1 Yi constitue un exemple d’estimation : θ P est un param`etre et n1 ni=1 Yi un estimateur On peut ´egalement s’int´eresser aux tests, par ex., (( les donn´ees sont-elles compatibles avec l’hypoth`ese θ = θ0 ? )) aux r´egions de confiance (( au vu des donn´ees, quelles sont les valeurs de θ qui sont cr´edibles ? ))

Introduction

Un exemple ´ el´ ementaire

Une r´eponse possible (via Hoeffding) r " n # 1 X log(1/α) P Yi − θ > ≤ 2α n 2n i=1

q 1 Pn Si n i=1 Yi − θ0 est sup´erieur `a log(1/α) , par exemple 2n pour α = 0.025, l’affirmation (( θ = θ0 )) est peu vraisemblable q P Les valeurs de θ situ´ees au del`a de n1 ni=1 Yi ± log(1/α) 2n sont peu cr´edibles

Introduction

Un exemple ´ el´ ementaire

1.5

1.0

0.5

0.0

−0.5

−1.0

n

−1.5 0

50

100

150

200

250

300

Pn Fig.: 1/n pi=1 (Yi − 0.9) pour θ = 0.9 et θ = 0.75 (5 r´ealisations) compar´e `a log(1/α)/2n pour α = 0.025

Introduction

Un exemple ´ el´ ementaire

Plus g´en´eralement Au del`a ce cas tr`es simple L’inf´erence statistique est-elle toujours un objectif raisonnable ? Quel type de mod´elisation utiliser pour la loi des observations ? Comment syst´ematiser l’intuition bas´ee sur la loi des grands nombres ? Peut-on traiter les cas o` u la loi des observations d´epend de fa¸con plus complexe des param`etres θ ? Comment quantifier les performances de l’estimation ? Le comportement en n observ´e pr´ec´edemment est-il g´en´eralisable ? Peut-on rationaliser et g´en´eraliser les constructions de test et de r´egion de confiance ?

Introduction

Statistiques descriptives

Un peu de terminologie L’´echantillon d´esigne l’ensemble des donn´ees observ´ees Y1 , . . . , Yn Une statistique est une fonction P des observations : par exemple, Sn = ni=1 Yi et Rn = max{Yi } − min{Yi } sont des statistiques ; les estimateurs sont des statistiques bien choisies en fonction d’un objectif Les statistiques sont des variables al´eatoires . . . Les moments empiriques P Moyenne 1/n ni=1 Yi P P Variance 1/n ni=1 Yi2 − (1/n ni=1 Yi )2 2 Pn  Pn = 1/n i=1 Yi − 1/n j=1 Yj Les quantiles empiriques P M´ediane Xi tel que nj=1 1{Xj ≥ Xi } = bn/2c Quartiles m´edianes de {Xj : Xj ≤ m´ediane} et {Xj : Xj ≥ m´ediane} QQ-plot

Introduction

Statistiques descriptives

Repr´esentations graphiques 0.09

0.08

0.07

0.06

0.05

0.04

0.03

0.02

0.01

0.00 −50

−40

−30

−20

−10

0

10

20

30

40

50

Fig.: Mesures historiques de la vitesse de la lumi`ere (Newcomb, 1891) : Donn´ees, histogramme, moyenne, quartiles Introduction

Statistiques descriptives

Nous consid´ererons souvent des donn´ees multivari´ees temperature 20

15

10

5

0

−5

−10

−15

−20 25

latitude 30

35

40

45

50

Fig.: Temp´eratures relev´ees aux Etats-Unis : Temp´erature en fonction de la latitude

Mod´ elisation statistique

1 Introduction 2 Mod´ elisation statistique

Mod`eles statistiques Mod`eles conditionnels Probl`emes statistiques 3 Bornes d’estimation

Mod´ elisation statistique

Mod` eles statistiques

Mod`ele statistique, mod`ele domin´e

[D´efinitions 1.1, 1.6]

Famille de lois de probabilit´e P = {Pθ , θ ∈ Θ} sur un espace Y Un mod`ele est dit domin´e lorsque pour tout θ ∈ Θ, Pθ admet une densit´e not´ee `(y; θ) par rapport `a une mesure de domination µ fixe*

Classes de mod`eles statistiques Mod`ele param´etrique P = {Pθ , θ ∈ Θ ⊂ Rp }, θ est le param`etre du mod`ele

Exemple (Mod`ele de Bernoulli pour des r´eponses binaires) Y = {0, 1}, Pθ (Y = 1) = θ, θ ∈ [0, 1] *

On note Pθ la probabilit´e, Eθ l’esp´erance, Vθ la variance (ou matrice de variance-covariance) pour une valeur de θ donn´ee

Mod´ elisation statistique

Mod` eles statistiques

Classes de mod`eles statistiques (suite)

Mod`ele param´etrique avec param`etre(s) de nuisance (ou non identifiable) P = {Pθ , θ ∈ Θ ⊂ Rp }, g(θ) est le param`etre d’int´erˆet

Exemple (Mod`ele de dispersion gaussien) Y = R,

  1 (y − µ)2 `(y; µ, σ) = √ exp − , µ ∈ R, σ ∈ R+ 2 2σ 2πσ

Mod´ elisation statistique

Mod` eles statistiques

Mod`ele non-param´etrique P = {Pf , f ∈ F} o`u F n’est pas un sous ensemble d’un espace vectoriel de dimension finie

Exemple (Estimation d’une loi discr`ete) Y = N, F est l’ensemble des probabilit´es sur N

Mod`ele semi-param´etrique P = {Pθ,f , θ ∈ Θ, f ∈ F}, θ est le param`etre d’int´erˆet

Exemple (Mod`ele de translation) Y = R, Θ = R, `(y; θ) = f (y − θ) o` u f est une densit´e de probabilit´e sym´etrique (inconnue) sur R

Mod´ elisation statistique

Mod` eles statistiques

Mod`ele `a variable latente L’observation Y est une fonction d’une variable al´eatoire Z, dont la loi d´epend de θ, et qui n’est pas totalement observable

Exemples Donn´ees censur´ees Y = min(Y ∗ , τ ) avec Y = R, Y ∗ ∼ Pθ , τ ∈ R Donn´ees bruit´ees Y = Y ∗ + U o` u Y ∗ ∼ Pθ et U et Y sont ind´ependants Donn´ees corrompues (par des valeurs aberrantes) ( Y1∗ si U > ε Y = Y2∗ sinon avec Y1∗ ∼ Pθ , Y2∗ ∼ Q, U ∼ Uniforme([0, 1]) (Y1∗ , Y2∗ et U ind´ependants) et ε ∈]0, 1[ Mod´ elisation statistique

Mod` eles conditionnels

Mod`ele conditionnel

[Section 2.2]

Les observations sont form´ees de couples X, Y tels que La famille de lois conditionnelles Pθ,x (ou de densit´es conditionnelles `(y|x; θ) pour un mod`ele domin´e) d´epend du param`etre θ ∈ Θ ⊂ Rp X est de loi marginale inconnue, ne d´ependant pas de θ

Dans le cadre de ce cours, on consid´erera uniquement les mod`eles statiques (ou M.C.S.) dans lesquels les couples (Xi , Yi ) observ´es sont ind´ependants et de mˆeme loi Y est dite variable endog`ene ou de r´eponse X est dite variable exog`ene ou explicative

Mod´ elisation statistique

Mod` eles conditionnels

Mod`ele de r´egression lin´eaire

[Section 2.2.2]

Y = R, X = Rp , β ∈ Rp , Eθ [Y |X] = X 0 β

ou, de fa¸con ´equivalente

Y = X 0β + U

avec Eθ [U |X] = 0 C’est toujours un mod`ele semi-param´etrique (si on ne sp´ecifie pas la loi de X), mais conditionnellement, il sera dit 1

Param´etrique Si la loi conditionnelle de U sachant X est sp´ecifi´ee (par ex. U |X ∼ N (0, σ 2 Id) — mod`ele gaussien ou normal)

2

Semi-param´etrique Si on suppose juste, par exemple, que Eθ [kU k2 |X] < ∞

Mod´ elisation statistique

Mod` eles conditionnels

0.12

temperature

0.10

20 0.08

0.06

15

0.04

10

0.02

latitude

0.00 25

30

35

40

45

50

5

Fig.: Histogramme des latitudes

0

−5

−10

−15

−20 25

latitude 30

35

40

45

50

Fig.: Temp´erature en fonction de la latitude dans 56 villes am´ericaines

Mod` eles conditionnels

Mod´ elisation statistique

Dans le polycopi´e une grande partie des r´esultats sont donn´ees dans le cas (plus g´en´eral) o` u X est al´eatoire, mais on s’int´eresse aussi souvent au cas ou X est d´eterministe

Exemple (Donn´ees de dur´ee du jour) ms 3.0

2.5

FIG. : Variation de la dur´ee du jour en ms (mesures journali`eres sur 10 ans)

2.0

1.5

1.0

0.5

0.0

−0.5

−1.0

−1.5 1997

année 1998

1999

2000

2001

2002

2003

2004

2005

Mod´ elisation statistique

2006

2007

Mod` eles conditionnels

Notation EX esp´erance par rapport `a la loi des variables exog`enes

Principales propri´et´es de l’esp´erance conditionnelle 1

Soit h et g des fonctions (Eθ |h(Y )| < ∞, Eθ |g(X)h(Y )| < ∞) Eθ [g(X)h(Y )|X] = g(X)Eθ [h(Y )|X]

2

Soit une fonction h (Eθ |h(Y )| < ∞) Eθ [h(Y )] = E {Eθ [h(Y )|X]}

3

Soit une fonction h (Eθ [h(Y )2 ] < ∞) Vθ [h(Y )] = V {Eθ [h(Y )|X]} + E {Vθ [h(Y )|X]} i h def 2 o` u Vθ [h(Y )|X] = Eθ (h(Y ) − Eθ [ h(Y )| X]) X

Mod´ elisation statistique

Probl` emes statistiques

Les grandes classes de probl`emes statistiques [Section 1.2] Estimation D´eterminer la valeur du param`etre θ, ou de g(θ) (o` u g n’est pas n´ecessairement injective) ; r´eponse : valeur estim´ee θˆ ∈ Θ Test D´eterminer si θ (ou g(θ)) est ou non ´el´ement de G ⊂ Θ ; r´eponse : d´ecision binaire ∈ {0, 1} R´egion de confiance D´eterminer un ensemble G ⊂ Θ contenant θ ; ˆ⊂Θ r´eponse : G Dans les trois cas, on souhaite fournir, en plus du r´esultat, une fa¸con de quantifier sa fiabilit´e Remarque : Les observations ´etant al´eatoires, les r´esultats de l’inf´erence statistiques le sont aussi. Il existe donc toujours une probabilit´e non nulle de fournir un r´esultat (( incorrect )). On peut n´eanmoins s’attendre `a ce que cette probabilit´e devienne arbitrairement faible lorsque le nombre d’observations augmente Bornes d’estimation

1 Introduction 2 Mod´ elisation statistique 3 Bornes d’estimation

Risque quadratique, biais, variance Conditions de r´egularit´e Information de Fisher Borne de Cramer-Rao (In´egalit´e d’information) Mod`eles exponentiels

Bornes d’estimation

Risque quadratique, biais, variance

Risque quadratique (cas scalaire)

[Section 4.1]

Pour quantifier la performance d’un estimateur θˆ = δ(Y ) On d´efinit une fonction de perte l(ϕ; θ) `a valeur dans R+ qui repr´esente la p´enalit´e li´ee `a l’approximation de θ par ϕ Pour un param`etre θ r´eel, le choix le plus courant est la perte quadratique l(ϕ; θ) = (ϕ − θ)2 Le risque mesure, en moyenne, la perte li´ee `a l’estimation de θ par l’estimateur θˆ Dans le cas de la perte quadratique, on obtient le risque quadratique : ˆ θ) = Eθ (δ(Y ) − θ)2 r(θ;

Bornes d’estimation

Risque quadratique, biais, variance

D´ecomposition biais/variance ˆ θ) = Vθ (δ(Y )) + b2 (θ; ˆ θ) r(θ; o` u def

ˆ θ) = Eθ [δ(Y )] − θ est le biais, b(θ; ˆ = Eθ (δ(Y ) − Eθ [δ(Y )])2 est la variance de l’estimateur Vθ [θ]

Preuve (δ(Y ) − θ)2 = {[δ(Y ) − Eθ (δ(Y ))] + [Eθ (δ(Y )) − θ]}2 Puis d´evelopper le carr´e et prendre l’esp´erance

Bornes d’estimation

Risque quadratique, biais, variance

Exemple (Estimateur `a r´etr´ecissement) Soit θˆ un estimateur sans biais de θ de variance υ(θ) ˆ L’estimateur γ θ, avec γ ∈ [0, 1], a pour risque quadratique :

υ(θ) θ2 θ2 υ(θ) θ2 +υ(θ)

(γ − 1)2 θ2 + γ 2 υ(θ) | {z } | {z } biais2

0

variance

θ2 2 θ +υ(θ)

1

p Si |θ| est suffisamment faible, en particulier si |θ| ≤ υ(θ), γ θˆ est pr´ef´erable `a θˆ ; l’inverse est vrai pour les grandes valeurs de |θ| En g´en´eral, le risque quadratique ne permet pas d’ordonner totalement les estimateurs Bornes d’estimation

Risque quadratique, biais, variance

Risque quadratique (cas vectoriel)

[Proposition 4.2]

Dans le cas vectoriel, on d´efinit le risque matriciel d’un estimateur θˆ = δ(Y ) par   ˆ θ) = Eθ (δ(Y ) − θ)(δ(Y ) − θ)0 r(θ;

Comme dans le cas scalaire, ˆ θ) = (Eθ [δ(Y )] − θ) (Eθ [δ(Y )] − θ)0 + Vθ [δ(Y )] r(θ; | {z } | {z } biais matrice de covariance ˜ θ)  r(θ; ˆ θ), l’estimateur θˆ sera dit pr´ef´erable `a θ˜ (mˆeme `a Si r(θ; θ fix´e, il s’agit d’une relation d’ordre partiel)

Bornes d’estimation

Risque quadratique, biais, variance

Les bornes d’estimation On cherche `a r´epondre `a la question (( quelles sont les meilleures performances envisageables en terme de risque quadratique ? )) Intuitivement, la r´eponse `a cette question est li´ee `a la sensibilit´e de la vraisemblance `(·; θ) vis `a vis de θ : θ θ+∆θ θ−∆θ

θ θ+∆θ θ−∆θ

Bornes d’estimation

Conditions de r´ egularit´ e

Mod`ele r´egulier

[Section 3.3.1]

Le mod`ele {Pθ , θ ∈ Θ}, avec Θ sous-ensemble ouvert de Rp est domin´e par une mesure µ avec des densit´es de probabilit´es {`(y, θ), θ ∈ Θ} telles que C1 `(y; θ) > 0 (mod`ele homog`ene) C2 `(y; θ) est deux fois diff´erentiable en θ

∂ log `(Y ;θ) 2 C3 Eθ

<∞ ∂θ R C4 Pour tout B ∈ B(Y), B `(y; θ)µ(dy) peut ˆetre d´eriv´e deux fois sous l’int´egrale

Estimateur r´egulier

[Section 4.4]

Un estimateur θˆ = δ(Y ) de θ est dit r´egulier si Eθ kδ(Y )k2 < ∞, pour tout θ ∈ Θ R δ(y)`(y; θ)µ(dy) peut ˆetre d´eriv´e en θ sous le signe int´egrale

Bornes d’estimation

Information de Fisher

Information de Fisher

[D´efinition 3.7]

Pour un mod`ele r´egulier, la matrice d’information de Fisher* est d´efinie par   ∂ log `(Y ; θ) IF (θ) = Vθ ∂θ o` u, pour un param`etre vectoriel, Vθ d´esigne la matrice de covariance

Propri´et´e

[Th´eor`eme 3.8]  IF (θ) = −Eθ

*

∂ 2 log `(Y ; θ) ∂θ∂θ0



Ronald A. Fisher (1890 – 1962) Bornes d’estimation

Information de Fisher

Preuve  ∂ 2 log `(Y ; θ) − Eθ = ∂θ∂θ0   ∂`(Y ; θ) ∂`(Y ; θ) 1 1 ∂ 2 `(Y ; θ) − Eθ − 2 `(Y ; θ) ∂θ∂θ0 ` (Y ; θ) ∂θ ∂θ0 {z } {z } | | 

R

∂ 2 `(y;θ) µ(dy) ∂θ∂θ 0

∂ log `(Y ;θ) ∂ log `(Y ;θ) ∂θ ∂θ 0

 = Vθ

∂ log `(Y ; θ) ∂θ



R En notant que `(y; θ)µ(dy) = 1 pour tout θ ∈ Θ implique que h i R 2 ∂ log `(Y ;θ) `(y;θ) Eθ et ∂∂θ∂θ 0 µ(dy) sont nuls ∂θ

Information de Fisher

Bornes d’estimation

Propri´et´es de l’information de Fisher

∂ log `(Y ;θ) IF (θ) = 0 ssi

= 0 avec Pθ probabilit´e 1 ∂θ Si X et Y sont ind´ependants, IFX,Y (θ) = IFX (θ) + IFY (θ) en particulier, si Y1 , . . . , Yn sont IID, IFY1 ,...,Yn (θ) = nIFY1 (θ)

De fa¸con g´en´erale, IFX,Y (θ)  IFX (θ), avec ´egalit´e uniquement si la loi conditionnelle de Y sachant X ne d´epend pas de θ, avec Pθ probabilit´e 1 [Section 3.2] Dans un mod`ele conditionnel, ( )  2 ∂ log `(Y |X; θ) IF (θ) = E −Eθ X ∂θ∂θ0 | {z } information conditionnelle

Borne de Cramer-Rao (In´ egalit´ e d’information)

Bornes d’estimation

Borne de (Fr´echet-Darmois)-Cram´er-Rao*

[Th´eor`eme 4.9]

Si le mod`ele est r´egulier et IF (θ) est d´efinie positive pour tout θ ∈ Θ ⊂ Rp ; pour tout estimateur r´egulier θˆ = δ(Y ) sans biais de θ Vθ [δ(Y )]  IF−1 (θ)

Remarque M1  M2 ⇐⇒ ∀α ∈ Rp , αM1 α0 ≥ αM2 α0 , d’o`u Vθ

p X

! αk θˆk

≥ αIF−1 (θ)α0

k=1

(pour tout vecteur α ∈

*

Rd ),

 −1 ˆ en particulier Vθ (θk ) ≥ IF (θ) kk

Maurice Fr´echet (1878 – 1973), Georges Darmois (1888 – 1960) Harald Cram´er (1893 – 1985), Calyampudi R. Rao (1920)

Borne de Cramer-Rao (In´ egalit´ e d’information)

Bornes d’estimation

Preuve (Cas d’un param`etre scalaire) Z

d d log `(y; θ) `(y; θ)µ(dy) = dθ

R

`(y; θ)µ(dy) =0 dθ

(1)

θ

zZ Z

d log `(y; θ) `(y; θ)µ(dy) = δ(y) dθ

d’o` u

Z (δ(y) − θ)

d

}|

{

δ(y)`(y; θ)µ(dy) = 1 (2)



d log `(y; θ) `(y; θ)µ(dy) = 1 dθ

et par application de l’in´egalit´e de Cauchy-Schwarz 12 ≤

Z 

Z

(δ(y) − θ)2 `(y; θ)µ(dy) | {z }| ˆ Vθ (θ)

Bornes d’estimation

 d log `(y; θ) 2 `(y; θ)µ(dy) dθ {z } IF (θ)

Borne de Cramer-Rao (In´ egalit´ e d’information)

Preuve (Cas d’un param`etre vectoriel) En proc´edant comme pr´ec´edemment  Z

∂ log `(y; θ) def  (δ(y) − θ) `(y; θ)µ(dy) = Id = 0 | {z } | ∂θ | {z } {z } a(y)

Puis

R

b0 (y)

λ(dy)



1 ..

 

. 1

def R a(y)b0 (y)λ(dy) = Id et M = b(y)b0 (y)λ(dy)  0 implique Z  0 a(y) − M −1 b(y) a(y) − M −1 b(y) λ(dy)  0 {z } | R a(y)a0 (y)λ(dy)−M −1

c’est `a dire

Z

a(y)a0 (y)λ(dy)  M −1

Bornes d’estimation

Borne de Cramer-Rao (In´ egalit´ e d’information)

Exemple (Mod`ele d’´echantillonnage de Poisson) Y1 , . . . , Yn sont ind´ependants de loi

0.40 0.5 5 10

0.35

Pθ (Y = y) = e

−θ θ

y

y!

0.30

pour y ∈ N

0.25

0.20

0.15

0.10

(Eθ [Y ] = θ, Vθ [Y ] = θ)

0.05

0.00 0

IFY1 (θ)

= Vθ −1 +

Y1 θ



2

4

= 1θ , d’o` u IFY1 ,...,Yn (θ) =

6

8

n θ

10

12

14

16

18

et

θ Vθ (θˆn ) ≥ n pour tout estimateur θˆn non biais´e 1 Pn ˆ θn = n i=1 Yi atteint la borne, il est dit estimateur efficace de θ

Bornes d’estimation

Borne de Cramer-Rao (In´ egalit´ e d’information)

Remarque En examinant la preuve de l’in´egalit´e de FDCR (cas scalaire), on obtient un crit`ere d’efficacit´e puisque cette derni`ere correspond au cas d’´egalit´e dans l’in´egalit´e de Cauchy-Schwarz, c’est `a dire au cas o` u ∃C ∈ R : δ(y) − θ = C

d log `(y; θ) dθ

(Pθ presque partout)

`(y;θ) La fonction s(y; θ) = d logdθ est dite fonction de score (nous avons en particulier montr´e que Eθ [s(Y ; θ)] = 0)

Dans le cas du mod`ele de Poisson s(y; θ) = −1 + Y /θ, ce qui montre l’efficacit´e Le crit`ere se g´en´eralise au cas multidimensionnel

20

Bornes d’estimation

Borne de Cramer-Rao (In´ egalit´ e d’information)

G´en´eralisation

[Th´eor`eme 4.9]

Si δ(Y ) est un estimateur sans biais de g(θ) ∈ Rr ∂g(θ) −1 ∂g 0 (θ) I (θ) Vθ (δ(Y ))  ∂θ0 F ∂θ (voir la preuve dans le polycopi´e)

Remarque (1) Dans le cas o`u ϕ = g(θ) correspond `a une reparam´etrisation (g bijective), on a  IF (ϕ) =

∂g 0 (θ) ∂θ

−1

 IF (θ)

∂g(θ) ∂θ0

−1

0 ∂ g −1 (ϕ) ∂g −1 (ϕ) IF (θ) = ∂ϕ ∂ϕ0 (o` u θ = g −1 (ϕ)) Bornes d’estimation

Borne de Cramer-Rao (In´ egalit´ e d’information)

Remarque (2) Si θˆ est un estimateur biais´e de θ, c’est un estimateur non biais´e de g(θ) = b(θ) + θ d’o` u     0 (θ) ∂b ∂b(θ) −1 ˆ  Id + Vθ (θ) I (θ) Id + F ∂θ0 ∂θ

Remarque (3) La borne n’est pas n´ecessairement atteignable [Example 4.10] Dans un mod`ele r´egulier, la variance d’un estimateur θˆn r´egulier d´ecroˆıt (au mieux) `a la vitesse 1/n

Bornes d’estimation

Mod` eles exponentiels

Mod`ele exponentiel

[D´efinition 3.20]

Un mod`ele statistique est dit exponentiel sous forme naturelle si   `(y; θ) = C(θ)h(y) exp θ0 T (y) o` u T (y) est la statistique canonique (vectorielle) et θ le param`etre naturel du mod`ele

Exemples Loi exponentielle f (y; θ) = θ exp(−θy) Loi gaussienne `a variance connue   1 (y − µ)2 f (y; µ) = √ exp − 2σ 2 2πσ     h y i 1 µ2 y2 =√ exp − 2 exp − 2 exp µ 2 2σ 2σ σ 2πσ Bornes d’estimation

Mod` eles exponentiels

Exhaustivit´e de la statistique naturelle

[Proposition 3.21]

La statistique T (y) est exhaustive, ce qui implique en particulier T (Y ) que IF (θ) = IFY (θ)

Mod`ele d’´echantillonnage de Bernoulli Si Y1 , . . . , Yn ∈ {0, 1} sont IID de loi Pθ (Yi = 1) = θ, `n (Y1 , . . . , Yn ; θ) = n Y

n Y

f (Yi ; θ) =

i=1 n Y

Yi θ = θiY (1 − θ)Yi −1 = 1−θ i=1 i=1 " !   #  n n  X Y n 1 θ exp Yi log = 1 + eβ exp β Yi 1−θ 1−θ i=1 i=1 | {z } 1 1−θ



param` etre naturel β

Bornes d’estimation

Mod` eles exponentiels

Information dans le mod`ele exponentiel

[Proposition 3.22]

IF (θ) = Vθ [T (Y )]

On montre de plus que les conditions de r´egularit´e du mod`ele se ram`enent au fait que la matrice de covariance Vθ [T (Y )] soit d´efinie positive (pour tout θ)

Bornes d’estimation

Mod` eles exponentiels

Preuve `(y; θ) = C(θ)h(y) exp [θ0 T (y)] implique que ∂ log `(y; θ) ∂ log C(θ) = + T (y) ∂θ ∂θ −1 R 0 h(y) exp [θ T (y)] µ(dy) , donc Par ailleurs, C(θ) = ∂ log C(θ) =− ∂θ

Z

  T (y)C(θ)h(y) exp θ0 T (y) µ(dy) | {z } Eθ [T (Y )]

D’o` u  0 IF (θ) = Eθ (T (y) − Eθ [T (Y )]) (T (y) − Eθ [T (Y )]) = Vθ [T (Y )]