Premi`ere partie I Cours 1 `a 3 : Introduction, Mod`eles statistiques, Bornes d’estimation (version corrig´ee, 27 f´ev. 2007)
Introduction
MAP433 Statistique
L’´equipe enseignante Cours Olivier Capp´e, laboratoire traitement et communication de l’information, CNRS — ENST Petites classes Randal Douc, d´epartement de math´ematiques appliqu´ees, Ecole Polytechnique Gabriel Lang, laboratoire Gestion du Risque en Sciences de l’Eau, ENGREF St´ephane Gr´egoir, Centre de Recherche en ´ Economie et Statistique, INSEE
Introduction
MAP433 Statistique Le cours Amphis & PC Vendredi 2 f´evrier, 9 f´evrier, 16 f´evrier, 2 mars, 9 mars, 16 mars, 30 mars, 6 avril, 20 avril Les transparents du cours sont disponibles `a partir de http://www.catalogue.polytechnique.fr/ Les codes scilab utilis´ees pour illustrer le cours sont ´egalement disponibles (mˆeme adresse) Tutorat Le mardi `a 17h30, `a partir du 27 f´ev. (informations aupr`es de la scolarit´e) Projet facultatif Les sujets seront pr´esent´es le 9 mars, s’incrire pour le 30 mars, `a rendre pour le 1er juin (imp´erativement) CC Mercredi 2 mai (attention : date modifi´ee) Introduction
1 Introduction
Introduction `a la statistique Un exemple ´el´ementaire Statistiques descriptives 2 Mod´ elisation statistique 3 Bornes d’estimation
Introduction
Introduction ` a la statistique
La statistique
A pour but de fournir un ensemble de m´ethodes permettant, `a partir d’observations, d’analyser (de d´ecrire) les donn´ees observ´ees, mais ´egalement d’en d´eduire des traitements (mod`eles/interpr´etations) : aide `a la d´ecision, mise en ´evidence de facteurs explicatifs, pr´ediction du comportement futur, . . .
Repose sur la mod´elisation probabiliste des observations
Introduction
Introduction ` a la statistique
Exemples Pr´edire le r´esultat d’une ´election, `a partir de sondage(s) Dire si la qualit´e de l’air s’est ou non am´elior´ee suite `a un am´enagement routier, `a partir de donn´ees de pollution Analyser les r´esultats d’un vote, `a partir de questionnaires Analyser les facteurs d’´echec scolaire, `a partir de donn´ees sociologiques recueillies lors de recensements Valider l’efficacit´e d’un traitement m´edicamenteux, sur la base d’essais cliniques Mesurer l’impact d’un site web, `a partir de mesure de connectivit´e (analyse des liens hypertextes) D´etecter automatiquement des courriels non-sollicit´es, `a partir de corpus d’exemples Optimiser une strat´egie de gestion de portefeuille, `a partir de donn´ees historiques
Introduction
Introduction ` a la statistique
Les observations sont vues comme des r´ealisations de variables al´eatoires d´efinies sur un espace probabilisable (Ω, F) Probabilités
Loi de probabilité
Observations
Statistique
La th´eorie des probabilit´es vise `a ´evaluer le comportement des observations (esp´erance, moments, probabilit´es de d´epassement, comportement de sommes, . . .) ´etant donn´e la loi de probabilit´e P La statistique fournit des m´ethodes pour r´esoudre le probl`eme inverse dit d’inf´erence statistique : caract´eriser P au vu des observations
Introduction
Introduction ` a la statistique
En g´en´eral, l’objectif de d´eterminer compl`etement P `a partir d’observations est trop ambitieux et il est n´ecessaire 1
de faire des hypoth`eses plus restrictives sur la loi P ; ces hypoth`eses refl`etent nos connaissances a priori sur le processus qui g´en`ere les donn´ees (cf. cours suivant)
2
de consid´erer des observations dont la structure probabiliste est raisonnablement simple
Mod`ele statique ou d’´echantillonnage Dans ce cours, on consid´erera uniquement le cas d’observations Y1 , . . . , Yn ind´ependantes et, le plus souvent, de mˆeme loi
Introduction
Un exemple ´ el´ ementaire
Mod`ele d’´echantillonnage de Bernoulli On suppose que les observations Y1 , . . . , Yn sont des variables ind´ependantes et de mˆeme loi (ou IID) `a valeur dans {0, 1} Le mod`ele statistique le plus simple, n´eanmoins rencontr´e dans de nombreuses applications (tests de qualit´e, questionnaires . . .)
1
2
La loi des observations est enti`erement d´etermin´ee par def θ = P(Yi = 1)* L’inf´erence statistique, (( d´eterminer θ `a partir des observations )), est un objectif raisonnable du fait de la loi des grands nombres n 1 X p.s. Yi −→ θ n i=1
*
Un petit souci de notation ici (cf. cours suivant) Introduction
Un exemple ´ el´ ementaire
Dans ce mod`ele particuli`erement simple, on sait ´egalement quantifier les performances de l’inf´erence statistique `a l’aide de r´esultats Asymptotiques comme le th´eor`eme de la limite centrale ! n √ 1X L Yi − θ −→ N (0, θ(1 − θ)) n n i=1
c’est `a dire "r P
# n n 1 X Yi − θ > ε → 2 (1 − Φ(ε)) θ(1 − θ) n i=1
Non-asymptotiques comme l’in´egalit´e d’Hoeffding " n # 1 X P Yi − θ > ε ≤ 2 exp −2nε2 n i=1
Introduction
Un exemple ´ el´ ementaire
n = 10
1.00
0.95
0.90
n = 100
n = 1000
2.0
0.50
0.50
1.8
0.45
0.45
1.6
0.40
0.40
1.4
0.35
0.35
1.2
0.30
0.30
1.0
0.25
0.25
0.8
0.20
0.20
0.6
0.15
0.15
0.4
0.10
0.10
0.2
0.05
0.0 −3
0.00 −3
−2
−1
0
1
2
3
0.05 −2
−1
0
1
2
3
0.00 −3
3
3
3
2
2
2
1
1
1
0
0
0
−1
−1
−1
−2
−1
0
1
2
3
−2
−1
0
1
2
3
0.85
0.80
0.75
−2 −3 −3
0.70
−2
−2
−1
0
1
2
3
−3 −3
−2
−2
−1
0
1
2
3
−3 −3
n
0.65 0
500
1000
1500
2000
2500
3000
3500
4000
4500
5000
Fig.: p Histogrammes Pn et QQ-plots de 1/ nθ(1 − θ) i=1 (Yi − θ) (θ = 0.9, 100 r´ealisations)
Pn
Fig.: 1/n i=1 Yi (θ = 0.9, 10 r´ealisations)
quantiles empiriques
Introduction
Un exemple ´ el´ ementaire
P Approcher θ par n1 ni=1 Yi constitue un exemple d’estimation : θ P est un param`etre et n1 ni=1 Yi un estimateur On peut ´egalement s’int´eresser aux tests, par ex., (( les donn´ees sont-elles compatibles avec l’hypoth`ese θ = θ0 ? )) aux r´egions de confiance (( au vu des donn´ees, quelles sont les valeurs de θ qui sont cr´edibles ? ))
Introduction
Un exemple ´ el´ ementaire
Une r´eponse possible (via Hoeffding) r " n # 1 X log(1/α) P Yi − θ > ≤ 2α n 2n i=1
q 1 Pn Si n i=1 Yi − θ0 est sup´erieur `a log(1/α) , par exemple 2n pour α = 0.025, l’affirmation (( θ = θ0 )) est peu vraisemblable q P Les valeurs de θ situ´ees au del`a de n1 ni=1 Yi ± log(1/α) 2n sont peu cr´edibles
Introduction
Un exemple ´ el´ ementaire
1.5
1.0
0.5
0.0
−0.5
−1.0
n
−1.5 0
50
100
150
200
250
300
Pn Fig.: 1/n pi=1 (Yi − 0.9) pour θ = 0.9 et θ = 0.75 (5 r´ealisations) compar´e `a log(1/α)/2n pour α = 0.025
Introduction
Un exemple ´ el´ ementaire
Plus g´en´eralement Au del`a ce cas tr`es simple L’inf´erence statistique est-elle toujours un objectif raisonnable ? Quel type de mod´elisation utiliser pour la loi des observations ? Comment syst´ematiser l’intuition bas´ee sur la loi des grands nombres ? Peut-on traiter les cas o` u la loi des observations d´epend de fa¸con plus complexe des param`etres θ ? Comment quantifier les performances de l’estimation ? Le comportement en n observ´e pr´ec´edemment est-il g´en´eralisable ? Peut-on rationaliser et g´en´eraliser les constructions de test et de r´egion de confiance ?
Introduction
Statistiques descriptives
Un peu de terminologie L’´echantillon d´esigne l’ensemble des donn´ees observ´ees Y1 , . . . , Yn Une statistique est une fonction P des observations : par exemple, Sn = ni=1 Yi et Rn = max{Yi } − min{Yi } sont des statistiques ; les estimateurs sont des statistiques bien choisies en fonction d’un objectif Les statistiques sont des variables al´eatoires . . . Les moments empiriques P Moyenne 1/n ni=1 Yi P P Variance 1/n ni=1 Yi2 − (1/n ni=1 Yi )2 2 Pn Pn = 1/n i=1 Yi − 1/n j=1 Yj Les quantiles empiriques P M´ediane Xi tel que nj=1 1{Xj ≥ Xi } = bn/2c Quartiles m´edianes de {Xj : Xj ≤ m´ediane} et {Xj : Xj ≥ m´ediane} QQ-plot
Introduction
Statistiques descriptives
Repr´esentations graphiques 0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0.00 −50
−40
−30
−20
−10
0
10
20
30
40
50
Fig.: Mesures historiques de la vitesse de la lumi`ere (Newcomb, 1891) : Donn´ees, histogramme, moyenne, quartiles Introduction
Statistiques descriptives
Nous consid´ererons souvent des donn´ees multivari´ees temperature 20
15
10
5
0
−5
−10
−15
−20 25
latitude 30
35
40
45
50
Fig.: Temp´eratures relev´ees aux Etats-Unis : Temp´erature en fonction de la latitude
Mod´ elisation statistique
1 Introduction 2 Mod´ elisation statistique
Mod`eles statistiques Mod`eles conditionnels Probl`emes statistiques 3 Bornes d’estimation
Mod´ elisation statistique
Mod` eles statistiques
Mod`ele statistique, mod`ele domin´e
[D´efinitions 1.1, 1.6]
Famille de lois de probabilit´e P = {Pθ , θ ∈ Θ} sur un espace Y Un mod`ele est dit domin´e lorsque pour tout θ ∈ Θ, Pθ admet une densit´e not´ee `(y; θ) par rapport `a une mesure de domination µ fixe*
Classes de mod`eles statistiques Mod`ele param´etrique P = {Pθ , θ ∈ Θ ⊂ Rp }, θ est le param`etre du mod`ele
Exemple (Mod`ele de Bernoulli pour des r´eponses binaires) Y = {0, 1}, Pθ (Y = 1) = θ, θ ∈ [0, 1] *
On note Pθ la probabilit´e, Eθ l’esp´erance, Vθ la variance (ou matrice de variance-covariance) pour une valeur de θ donn´ee
Mod´ elisation statistique
Mod` eles statistiques
Classes de mod`eles statistiques (suite)
Mod`ele param´etrique avec param`etre(s) de nuisance (ou non identifiable) P = {Pθ , θ ∈ Θ ⊂ Rp }, g(θ) est le param`etre d’int´erˆet
Exemple (Mod`ele de dispersion gaussien) Y = R,
1 (y − µ)2 `(y; µ, σ) = √ exp − , µ ∈ R, σ ∈ R+ 2 2σ 2πσ
Mod´ elisation statistique
Mod` eles statistiques
Mod`ele non-param´etrique P = {Pf , f ∈ F} o`u F n’est pas un sous ensemble d’un espace vectoriel de dimension finie
Exemple (Estimation d’une loi discr`ete) Y = N, F est l’ensemble des probabilit´es sur N
Mod`ele semi-param´etrique P = {Pθ,f , θ ∈ Θ, f ∈ F}, θ est le param`etre d’int´erˆet
Exemple (Mod`ele de translation) Y = R, Θ = R, `(y; θ) = f (y − θ) o` u f est une densit´e de probabilit´e sym´etrique (inconnue) sur R
Mod´ elisation statistique
Mod` eles statistiques
Mod`ele `a variable latente L’observation Y est une fonction d’une variable al´eatoire Z, dont la loi d´epend de θ, et qui n’est pas totalement observable
Exemples Donn´ees censur´ees Y = min(Y ∗ , τ ) avec Y = R, Y ∗ ∼ Pθ , τ ∈ R Donn´ees bruit´ees Y = Y ∗ + U o` u Y ∗ ∼ Pθ et U et Y sont ind´ependants Donn´ees corrompues (par des valeurs aberrantes) ( Y1∗ si U > ε Y = Y2∗ sinon avec Y1∗ ∼ Pθ , Y2∗ ∼ Q, U ∼ Uniforme([0, 1]) (Y1∗ , Y2∗ et U ind´ependants) et ε ∈]0, 1[ Mod´ elisation statistique
Mod` eles conditionnels
Mod`ele conditionnel
[Section 2.2]
Les observations sont form´ees de couples X, Y tels que La famille de lois conditionnelles Pθ,x (ou de densit´es conditionnelles `(y|x; θ) pour un mod`ele domin´e) d´epend du param`etre θ ∈ Θ ⊂ Rp X est de loi marginale inconnue, ne d´ependant pas de θ
Dans le cadre de ce cours, on consid´erera uniquement les mod`eles statiques (ou M.C.S.) dans lesquels les couples (Xi , Yi ) observ´es sont ind´ependants et de mˆeme loi Y est dite variable endog`ene ou de r´eponse X est dite variable exog`ene ou explicative
Mod´ elisation statistique
Mod` eles conditionnels
Mod`ele de r´egression lin´eaire
[Section 2.2.2]
Y = R, X = Rp , β ∈ Rp , Eθ [Y |X] = X 0 β
ou, de fa¸con ´equivalente
Y = X 0β + U
avec Eθ [U |X] = 0 C’est toujours un mod`ele semi-param´etrique (si on ne sp´ecifie pas la loi de X), mais conditionnellement, il sera dit 1
Param´etrique Si la loi conditionnelle de U sachant X est sp´ecifi´ee (par ex. U |X ∼ N (0, σ 2 Id) — mod`ele gaussien ou normal)
2
Semi-param´etrique Si on suppose juste, par exemple, que Eθ [kU k2 |X] < ∞
Mod´ elisation statistique
Mod` eles conditionnels
0.12
temperature
0.10
20 0.08
0.06
15
0.04
10
0.02
latitude
0.00 25
30
35
40
45
50
5
Fig.: Histogramme des latitudes
0
−5
−10
−15
−20 25
latitude 30
35
40
45
50
Fig.: Temp´erature en fonction de la latitude dans 56 villes am´ericaines
Mod` eles conditionnels
Mod´ elisation statistique
Dans le polycopi´e une grande partie des r´esultats sont donn´ees dans le cas (plus g´en´eral) o` u X est al´eatoire, mais on s’int´eresse aussi souvent au cas ou X est d´eterministe
Exemple (Donn´ees de dur´ee du jour) ms 3.0
2.5
FIG. : Variation de la dur´ee du jour en ms (mesures journali`eres sur 10 ans)
2.0
1.5
1.0
0.5
0.0
−0.5
−1.0
−1.5 1997
année 1998
1999
2000
2001
2002
2003
2004
2005
Mod´ elisation statistique
2006
2007
Mod` eles conditionnels
Notation EX esp´erance par rapport `a la loi des variables exog`enes
Principales propri´et´es de l’esp´erance conditionnelle 1
Soit h et g des fonctions (Eθ |h(Y )| < ∞, Eθ |g(X)h(Y )| < ∞) Eθ [g(X)h(Y )|X] = g(X)Eθ [h(Y )|X]
2
Soit une fonction h (Eθ |h(Y )| < ∞) Eθ [h(Y )] = E {Eθ [h(Y )|X]}
3
Soit une fonction h (Eθ [h(Y )2 ] < ∞) Vθ [h(Y )] = V {Eθ [h(Y )|X]} + E {Vθ [h(Y )|X]} i h def 2 o` u Vθ [h(Y )|X] = Eθ (h(Y ) − Eθ [ h(Y )| X]) X
Mod´ elisation statistique
Probl` emes statistiques
Les grandes classes de probl`emes statistiques [Section 1.2] Estimation D´eterminer la valeur du param`etre θ, ou de g(θ) (o` u g n’est pas n´ecessairement injective) ; r´eponse : valeur estim´ee θˆ ∈ Θ Test D´eterminer si θ (ou g(θ)) est ou non ´el´ement de G ⊂ Θ ; r´eponse : d´ecision binaire ∈ {0, 1} R´egion de confiance D´eterminer un ensemble G ⊂ Θ contenant θ ; ˆ⊂Θ r´eponse : G Dans les trois cas, on souhaite fournir, en plus du r´esultat, une fa¸con de quantifier sa fiabilit´e Remarque : Les observations ´etant al´eatoires, les r´esultats de l’inf´erence statistiques le sont aussi. Il existe donc toujours une probabilit´e non nulle de fournir un r´esultat (( incorrect )). On peut n´eanmoins s’attendre `a ce que cette probabilit´e devienne arbitrairement faible lorsque le nombre d’observations augmente Bornes d’estimation
1 Introduction 2 Mod´ elisation statistique 3 Bornes d’estimation
Risque quadratique, biais, variance Conditions de r´egularit´e Information de Fisher Borne de Cramer-Rao (In´egalit´e d’information) Mod`eles exponentiels
Bornes d’estimation
Risque quadratique, biais, variance
Risque quadratique (cas scalaire)
[Section 4.1]
Pour quantifier la performance d’un estimateur θˆ = δ(Y ) On d´efinit une fonction de perte l(ϕ; θ) `a valeur dans R+ qui repr´esente la p´enalit´e li´ee `a l’approximation de θ par ϕ Pour un param`etre θ r´eel, le choix le plus courant est la perte quadratique l(ϕ; θ) = (ϕ − θ)2 Le risque mesure, en moyenne, la perte li´ee `a l’estimation de θ par l’estimateur θˆ Dans le cas de la perte quadratique, on obtient le risque quadratique : ˆ θ) = Eθ (δ(Y ) − θ)2 r(θ;
Bornes d’estimation
Risque quadratique, biais, variance
D´ecomposition biais/variance ˆ θ) = Vθ (δ(Y )) + b2 (θ; ˆ θ) r(θ; o` u def
ˆ θ) = Eθ [δ(Y )] − θ est le biais, b(θ; ˆ = Eθ (δ(Y ) − Eθ [δ(Y )])2 est la variance de l’estimateur Vθ [θ]
Preuve (δ(Y ) − θ)2 = {[δ(Y ) − Eθ (δ(Y ))] + [Eθ (δ(Y )) − θ]}2 Puis d´evelopper le carr´e et prendre l’esp´erance
Bornes d’estimation
Risque quadratique, biais, variance
Exemple (Estimateur `a r´etr´ecissement) Soit θˆ un estimateur sans biais de θ de variance υ(θ) ˆ L’estimateur γ θ, avec γ ∈ [0, 1], a pour risque quadratique :
υ(θ) θ2 θ2 υ(θ) θ2 +υ(θ)
(γ − 1)2 θ2 + γ 2 υ(θ) | {z } | {z } biais2
0
variance
θ2 2 θ +υ(θ)
1
p Si |θ| est suffisamment faible, en particulier si |θ| ≤ υ(θ), γ θˆ est pr´ef´erable `a θˆ ; l’inverse est vrai pour les grandes valeurs de |θ| En g´en´eral, le risque quadratique ne permet pas d’ordonner totalement les estimateurs Bornes d’estimation
Risque quadratique, biais, variance
Risque quadratique (cas vectoriel)
[Proposition 4.2]
Dans le cas vectoriel, on d´efinit le risque matriciel d’un estimateur θˆ = δ(Y ) par ˆ θ) = Eθ (δ(Y ) − θ)(δ(Y ) − θ)0 r(θ;
Comme dans le cas scalaire, ˆ θ) = (Eθ [δ(Y )] − θ) (Eθ [δ(Y )] − θ)0 + Vθ [δ(Y )] r(θ; | {z } | {z } biais matrice de covariance ˜ θ) r(θ; ˆ θ), l’estimateur θˆ sera dit pr´ef´erable `a θ˜ (mˆeme `a Si r(θ; θ fix´e, il s’agit d’une relation d’ordre partiel)
Bornes d’estimation
Risque quadratique, biais, variance
Les bornes d’estimation On cherche `a r´epondre `a la question (( quelles sont les meilleures performances envisageables en terme de risque quadratique ? )) Intuitivement, la r´eponse `a cette question est li´ee `a la sensibilit´e de la vraisemblance `(·; θ) vis `a vis de θ : θ θ+∆θ θ−∆θ
θ θ+∆θ θ−∆θ
Bornes d’estimation
Conditions de r´ egularit´ e
Mod`ele r´egulier
[Section 3.3.1]
Le mod`ele {Pθ , θ ∈ Θ}, avec Θ sous-ensemble ouvert de Rp est domin´e par une mesure µ avec des densit´es de probabilit´es {`(y, θ), θ ∈ Θ} telles que C1 `(y; θ) > 0 (mod`ele homog`ene) C2 `(y; θ) est deux fois diff´erentiable en θ
∂ log `(Y ;θ) 2 C3 Eθ
<∞ ∂θ R C4 Pour tout B ∈ B(Y), B `(y; θ)µ(dy) peut ˆetre d´eriv´e deux fois sous l’int´egrale
Estimateur r´egulier
[Section 4.4]
Un estimateur θˆ = δ(Y ) de θ est dit r´egulier si Eθ kδ(Y )k2 < ∞, pour tout θ ∈ Θ R δ(y)`(y; θ)µ(dy) peut ˆetre d´eriv´e en θ sous le signe int´egrale
Bornes d’estimation
Information de Fisher
Information de Fisher
[D´efinition 3.7]
Pour un mod`ele r´egulier, la matrice d’information de Fisher* est d´efinie par ∂ log `(Y ; θ) IF (θ) = Vθ ∂θ o` u, pour un param`etre vectoriel, Vθ d´esigne la matrice de covariance
Propri´et´e
[Th´eor`eme 3.8] IF (θ) = −Eθ
*
∂ 2 log `(Y ; θ) ∂θ∂θ0
Ronald A. Fisher (1890 – 1962) Bornes d’estimation
Information de Fisher
Preuve ∂ 2 log `(Y ; θ) − Eθ = ∂θ∂θ0 ∂`(Y ; θ) ∂`(Y ; θ) 1 1 ∂ 2 `(Y ; θ) − Eθ − 2 `(Y ; θ) ∂θ∂θ0 ` (Y ; θ) ∂θ ∂θ0 {z } {z } | |
R
∂ 2 `(y;θ) µ(dy) ∂θ∂θ 0
∂ log `(Y ;θ) ∂ log `(Y ;θ) ∂θ ∂θ 0
= Vθ
∂ log `(Y ; θ) ∂θ
R En notant que `(y; θ)µ(dy) = 1 pour tout θ ∈ Θ implique que h i R 2 ∂ log `(Y ;θ) `(y;θ) Eθ et ∂∂θ∂θ 0 µ(dy) sont nuls ∂θ
Information de Fisher
Bornes d’estimation
Propri´et´es de l’information de Fisher
∂ log `(Y ;θ) IF (θ) = 0 ssi
= 0 avec Pθ probabilit´e 1 ∂θ Si X et Y sont ind´ependants, IFX,Y (θ) = IFX (θ) + IFY (θ) en particulier, si Y1 , . . . , Yn sont IID, IFY1 ,...,Yn (θ) = nIFY1 (θ)
De fa¸con g´en´erale, IFX,Y (θ) IFX (θ), avec ´egalit´e uniquement si la loi conditionnelle de Y sachant X ne d´epend pas de θ, avec Pθ probabilit´e 1 [Section 3.2] Dans un mod`ele conditionnel, ( ) 2 ∂ log `(Y |X; θ) IF (θ) = E −Eθ X ∂θ∂θ0 | {z } information conditionnelle
Borne de Cramer-Rao (In´ egalit´ e d’information)
Bornes d’estimation
Borne de (Fr´echet-Darmois)-Cram´er-Rao*
[Th´eor`eme 4.9]
Si le mod`ele est r´egulier et IF (θ) est d´efinie positive pour tout θ ∈ Θ ⊂ Rp ; pour tout estimateur r´egulier θˆ = δ(Y ) sans biais de θ Vθ [δ(Y )] IF−1 (θ)
Remarque M1 M2 ⇐⇒ ∀α ∈ Rp , αM1 α0 ≥ αM2 α0 , d’o`u Vθ
p X
! αk θˆk
≥ αIF−1 (θ)α0
k=1
(pour tout vecteur α ∈
*
Rd ),
−1 ˆ en particulier Vθ (θk ) ≥ IF (θ) kk
Maurice Fr´echet (1878 – 1973), Georges Darmois (1888 – 1960) Harald Cram´er (1893 – 1985), Calyampudi R. Rao (1920)
Borne de Cramer-Rao (In´ egalit´ e d’information)
Bornes d’estimation
Preuve (Cas d’un param`etre scalaire) Z
d d log `(y; θ) `(y; θ)µ(dy) = dθ
R
`(y; θ)µ(dy) =0 dθ
(1)
θ
zZ Z
d log `(y; θ) `(y; θ)µ(dy) = δ(y) dθ
d’o` u
Z (δ(y) − θ)
d
}|
{
δ(y)`(y; θ)µ(dy) = 1 (2)
dθ
d log `(y; θ) `(y; θ)µ(dy) = 1 dθ
et par application de l’in´egalit´e de Cauchy-Schwarz 12 ≤
Z
Z
(δ(y) − θ)2 `(y; θ)µ(dy) | {z }| ˆ Vθ (θ)
Bornes d’estimation
d log `(y; θ) 2 `(y; θ)µ(dy) dθ {z } IF (θ)
Borne de Cramer-Rao (In´ egalit´ e d’information)
Preuve (Cas d’un param`etre vectoriel) En proc´edant comme pr´ec´edemment Z
∂ log `(y; θ) def (δ(y) − θ) `(y; θ)µ(dy) = Id = 0 | {z } | ∂θ | {z } {z } a(y)
Puis
R
b0 (y)
λ(dy)
1 ..
. 1
def R a(y)b0 (y)λ(dy) = Id et M = b(y)b0 (y)λ(dy) 0 implique Z 0 a(y) − M −1 b(y) a(y) − M −1 b(y) λ(dy) 0 {z } | R a(y)a0 (y)λ(dy)−M −1
c’est `a dire
Z
a(y)a0 (y)λ(dy) M −1
Bornes d’estimation
Borne de Cramer-Rao (In´ egalit´ e d’information)
Exemple (Mod`ele d’´echantillonnage de Poisson) Y1 , . . . , Yn sont ind´ependants de loi
0.40 0.5 5 10
0.35
Pθ (Y = y) = e
−θ θ
y
y!
0.30
pour y ∈ N
0.25
0.20
0.15
0.10
(Eθ [Y ] = θ, Vθ [Y ] = θ)
0.05
0.00 0
IFY1 (θ)
= Vθ −1 +
Y1 θ
2
4
= 1θ , d’o` u IFY1 ,...,Yn (θ) =
6
8
n θ
10
12
14
16
18
et
θ Vθ (θˆn ) ≥ n pour tout estimateur θˆn non biais´e 1 Pn ˆ θn = n i=1 Yi atteint la borne, il est dit estimateur efficace de θ
Bornes d’estimation
Borne de Cramer-Rao (In´ egalit´ e d’information)
Remarque En examinant la preuve de l’in´egalit´e de FDCR (cas scalaire), on obtient un crit`ere d’efficacit´e puisque cette derni`ere correspond au cas d’´egalit´e dans l’in´egalit´e de Cauchy-Schwarz, c’est `a dire au cas o` u ∃C ∈ R : δ(y) − θ = C
d log `(y; θ) dθ
(Pθ presque partout)
`(y;θ) La fonction s(y; θ) = d logdθ est dite fonction de score (nous avons en particulier montr´e que Eθ [s(Y ; θ)] = 0)
Dans le cas du mod`ele de Poisson s(y; θ) = −1 + Y /θ, ce qui montre l’efficacit´e Le crit`ere se g´en´eralise au cas multidimensionnel
20
Bornes d’estimation
Borne de Cramer-Rao (In´ egalit´ e d’information)
G´en´eralisation
[Th´eor`eme 4.9]
Si δ(Y ) est un estimateur sans biais de g(θ) ∈ Rr ∂g(θ) −1 ∂g 0 (θ) I (θ) Vθ (δ(Y )) ∂θ0 F ∂θ (voir la preuve dans le polycopi´e)
Remarque (1) Dans le cas o`u ϕ = g(θ) correspond `a une reparam´etrisation (g bijective), on a IF (ϕ) =
∂g 0 (θ) ∂θ
−1
IF (θ)
∂g(θ) ∂θ0
−1
0 ∂ g −1 (ϕ) ∂g −1 (ϕ) IF (θ) = ∂ϕ ∂ϕ0 (o` u θ = g −1 (ϕ)) Bornes d’estimation
Borne de Cramer-Rao (In´ egalit´ e d’information)
Remarque (2) Si θˆ est un estimateur biais´e de θ, c’est un estimateur non biais´e de g(θ) = b(θ) + θ d’o` u 0 (θ) ∂b ∂b(θ) −1 ˆ Id + Vθ (θ) I (θ) Id + F ∂θ0 ∂θ
Remarque (3) La borne n’est pas n´ecessairement atteignable [Example 4.10] Dans un mod`ele r´egulier, la variance d’un estimateur θˆn r´egulier d´ecroˆıt (au mieux) `a la vitesse 1/n
Bornes d’estimation
Mod` eles exponentiels
Mod`ele exponentiel
[D´efinition 3.20]
Un mod`ele statistique est dit exponentiel sous forme naturelle si `(y; θ) = C(θ)h(y) exp θ0 T (y) o` u T (y) est la statistique canonique (vectorielle) et θ le param`etre naturel du mod`ele
Exemples Loi exponentielle f (y; θ) = θ exp(−θy) Loi gaussienne `a variance connue 1 (y − µ)2 f (y; µ) = √ exp − 2σ 2 2πσ h y i 1 µ2 y2 =√ exp − 2 exp − 2 exp µ 2 2σ 2σ σ 2πσ Bornes d’estimation
Mod` eles exponentiels
Exhaustivit´e de la statistique naturelle
[Proposition 3.21]
La statistique T (y) est exhaustive, ce qui implique en particulier T (Y ) que IF (θ) = IFY (θ)
Mod`ele d’´echantillonnage de Bernoulli Si Y1 , . . . , Yn ∈ {0, 1} sont IID de loi Pθ (Yi = 1) = θ, `n (Y1 , . . . , Yn ; θ) = n Y
n Y
f (Yi ; θ) =
i=1 n Y
Yi θ = θiY (1 − θ)Yi −1 = 1−θ i=1 i=1 " ! # n n X Y n 1 θ exp Yi log = 1 + eβ exp β Yi 1−θ 1−θ i=1 i=1 | {z } 1 1−θ
param` etre naturel β
Bornes d’estimation
Mod` eles exponentiels
Information dans le mod`ele exponentiel
[Proposition 3.22]
IF (θ) = Vθ [T (Y )]
On montre de plus que les conditions de r´egularit´e du mod`ele se ram`enent au fait que la matrice de covariance Vθ [T (Y )] soit d´efinie positive (pour tout θ)
Bornes d’estimation
Mod` eles exponentiels
Preuve `(y; θ) = C(θ)h(y) exp [θ0 T (y)] implique que ∂ log `(y; θ) ∂ log C(θ) = + T (y) ∂θ ∂θ −1 R 0 h(y) exp [θ T (y)] µ(dy) , donc Par ailleurs, C(θ) = ∂ log C(θ) =− ∂θ
Z
T (y)C(θ)h(y) exp θ0 T (y) µ(dy) | {z } Eθ [T (Y )]
D’o` u 0 IF (θ) = Eθ (T (y) − Eθ [T (Y )]) (T (y) − Eθ [T (Y )]) = Vθ [T (Y )]