Unversité de Metz IUT Thionville-Yutz S1M1 - Mathématiques
Doc S1 - Statistiques - Fondamentaux
Introduction Les outils statistiques de base correspondent à ce qu’on appelle la ‘statistique descriptive’. Ils permettent de synthétiser des données, c’est-à-dire une information fournie par des observations réalisées sur un nombre généralement limité d’individus ou d’entités considérées, constituant une fraction, un échantillon de la population totale. Les outils en question vous sont déjà partiellement connus, il s’agit par exemple de la moyenne (arithmétique), de la médiane, de la variance, de l’écart-type, du coefficient de variation… Ces outils correspondent à une analyse à posteriori des données. L’accumulation de données a permis également de théoriser, de modéliser les comportements statistiques observés, et d’en tirer des modèles de répartition, de distribution des données (par exemple la loi la normale, la loi de Student…). Ces modèles de référence permettent alors par exemple d’associer une probabilité d’occurrence (de réalisation) aux événements observés ou susceptibles d’être observés. C’est par exemple sur la base de l’acceptation d’un modèle de référence (loi normale, loi de Student) décrivant la répartition supposée de la variable observée, que l’on peut fournir un intervalle de confiance autour d’une valeur calculée sur un échantillon restreint. Il s’agit donc déjà de ‘statistique inférentielle’, où l’on infère (prédit) un résultat en associant un petit nombre de données à un comportement (de la variable retenue) sensé suivre un modèle donné. Ce faisant, on génère de l’information à priori, sous la forme par exemple d’une probabilité de réalisation, ou qu’une hypothèse peut être rejetée ou non, pour un niveau de risque consenti. Après le rappel des outils statistiques de base, nous considérerons le domaine de la quantification en microbiologie, et plus particulièrement du dénombrement bactérien.
Outils statistiques de base Soit X la variable aléatoire qui décrit la densité cellulaire (nombre de cellules par unité de volume) d’un échantillon. Différents prélèvements indépendants du même échantillon permettent d’obtenir diverses réalisations de cette variable. (La variable X prend les valeurs x1, x2, …, xn.) La détermination de la densité cellulaire réelle, µ, serait fournie par l’analyse de l’intégralité de l’échantillon, renfermant N cellules dans un volume V ( . Cependant, avec un nombre limité d’observations (n = 3), la densité cellulaire moyenne est estimée. Cette estimation est centrée autour de la moyenne arithmétique :
Frédéric Quignon
1
Unversité de Metz IUT Thionville-Yutz S1M1 - Mathématiques
Ce ‘x barre’ est une variable aléatoire (jamais exactement la même série d’observations), qui présente une certaine distribution de probabilité. Or, l’accumulation des données de même nature indique que la distribution de cette variable ‘x barre’ s’approche du modèle gaussien (loi normale), même si la distribution de la population cellulaire initiale ne suit pas ce modèle. En fait, les mesures de nombreux phénomènes biologiques ou physiques présentent une distribution gaussienne. En effet, ces mesures peuvent initialement être correctement modélisés à l’aide de la loi binomiale ( ) ) ou de la loi de Poisson ( ), qui peuvent elles-mêmes être approximées par une loi normale (théorème central limite), pour un grand nombre (n > 30) d’observations. Fonction de densité de probabilité d’une loi Normale (Les paramètres µ et définissent la position et l’amplitude de la courbe.)
En se basant sur ce modèle de loi normale, il est alors possible de fournir, pour une série d’observations données (x1, x2, …, xn)), non seulement une estimation centrale (‘x barre’), mais aussi une valeur qui traduit l’imprécision de la série d’observation autour de la valeur moyenne (ou l’étalement de la distribution autour de sa valeur centrale), à savoir l’écart-type (UK : standard deviation), ou encore la racine carrée de la variance :
Remarque : cet écart-type est dénommé
Frédéric Quignon
(n) sur
certaines calculatrices
2
Unversité de Metz IUT Thionville-Yutz S1M1 - Mathématiques Plus précisément, pour un petit nombre d’observations (n < 10), l’écart-type de l’échantillon est plus sûrement calculé selon :
Remarque : dénommé
(n-1) sur
certaines calculatrices
L’estimation de la densité cellulaire d’un échantillon sera donc centrée autour de , avec une incertitude qui est fonction de la valeur de .
Remarque : le rapport est appelé variance relative ou coefficient de variation (CV). Il s’exprime en % et fournit une indication simple et rapide de la qualité de l’estimation. L’interprétation de cette valeur est cependant fonction du domaine d’application considéré. Par exemple, au niveau d’un dénombrement bactérien sur gélose, un CV de 5% est considéré comme très bon, tandis qu’un CV de 5% du temps de rétention d’un composé par analyse chromatographique est tout juste acceptable. La moyenne arithmétique est très sensible à la prise en compte de quelques valeurs extrêmes (UK : outliers) pour son calcul, et n’est pas bien adaptée à la description de distributions dissymétriques (UK : skewed). Aussi, il est souvent plus judicieux de considérer la moyenne géométrique des différentes observations (x1, x2,…, xn) pour estimer la densité en micro-organismes d’un échantillon.
ce qui s’écrit encore :
La moyenne géométrique est particulièrement adaptée lorsqu’il s’agit de moyenner des ratios. Dans l’exemple un peu forcé où seraient à moyenner les ratios 10 000 et 0.0001, la moyenne arithmétique donne environ 5 000, tandis que la moyenne géométrique fournit 1, soit une représentation plus honnête de la valeur ‘moyenne’ des deux ratios obtenus. La moyenne géométrique est toujours inférieure ou égale à la moyenne arithmétique de la même série d’observations. (Il y a égalité lorsque tous les xi sont égaux.) La dernière écriture de la moyenne géométrique fait apparaître la formule de la moyenne arithmétique appliquée non plus aux xi, mais aux log(xi). Ce qui signifie qu’elle correspond au cas où ce n’est pas la variable de base qui suit une loi normale, mais le logarithme de cette variable. Dans ce cas, la variable suit une loi dite log-normale.
Frédéric Quignon
3
Unversité de Metz IUT Thionville-Yutz S1M1 - Mathématiques De la même façon, on peut facilement retenir la formule de l’écart-type géométrique en appliquant la formule de l’écart-type arithmétique au logarithme de la variable considérée (la puissance de 10 permettant au final de revenir à la variable initiale) :
Fonction de densité de probabilité d’une loi log-normale (µ est ici fixé à 1 et différentes valeurs de définissent l’allure de la courbe.)
Intervalles de confiance L’intervalle de confiance (IC) autour d’une valeur moyenne fournit la plage de valeurs qui N renferme la densité cellulaire vraie ( ) ; que l’on obtiendrait si l’on pouvait analyser V tout le volume de suspension bactérienne). L’étendue de cette plage de valeurs est fonction du niveau de certitude souhaité ou du risque (de se tromper) consenti. En fait, il y a deux façons de se tromper lors d'un test statistique. Ce dernier est formulé à l’aide de deux hypothèses : l’hypothèse nulle (H0) et l’hypothèse alternative (H1), afin de pouvoir réfuter ce qu'on pense faux (H0). Exemple: si l’on croit que les moyennes de deux populations sont différentes, on testera : H0: les deux moyennes sont égales, contre H1 : les deux moyennes sont différentes. Les risques de se tromper sont : le risque de première espèce ( ) = risque de rejeter à tort H0 (alors qu’elle est vrai) (C’est aussi la probabilité de générer des faux-négatifs.) le risque de deuxième espèce ( ) = risque d’accepter à tort H1 (alors qu’elle est fausse). (C’est aussi la probabilité de générer des faux-positifs.) Pour les tests classiques (non bayésiens), ces deux risques jouent un rôle asymétrique et on choisit le niveau de risque . Il est en effet souvent moins grave de rejeter à tort H0 que Frédéric Quignon
4
Unversité de Metz IUT Thionville-Yutz S1M1 - Mathématiques d’accepter à tort H1. (En choisissant le niveau de , on subit le niveau de performance du test.).
(= niveau de
Dans le monde anglo-saxon, on fait plus souvent référence à la ‘p-value’, qui correspond en fait à la probabilité critique à partir de laquelle H0 est rejetée, ou encore la probabilité de se tromper en rejetant les résultats observés alors qu’ils sont valides, ‘représentatifs de la population entière’ ou ‘statistiquement significatifs’. Ici, il n’est pas fait de choix arbitraire d’un niveau de risque (e.g., à 1% ou 5%), mais le résultat du test statistique est traduit en le niveau seuil de risque (ou probabilité critique) à considérer pour ne pas rejeter à tort H0. Par exemple, si la probabilité critique calculée à l’issue d’un test est de 6.4%, cela indique qu’au seuil arbitraire de 5%, l’hypothèse H0 serait rejetée, mais de peu en fait. Ainsi, un risque (ou même une p-value) de 0.05 (= 5% = 1/20) indique qu’il y a 5% de chance de rejeter à tort H0. Accepter ce niveau de risque, c’est accepter de se tromper dans 1 cas sur 20. Ayant choisi un niveau de risque, le modèle sous-jacent de distribution de la variable à l’étude permet alors de calculer les bornes de l’intervalle de confiance d’une estimation. Ici, la variable considérée est une loi normale Limite).
, et l’on sait que cette variable aléatoire suit d’autant mieux
que le taille n de l’échantillon s’accroît (Théorème Central
L’intervalle de confiance (ou d’estimation) a donc la forme : Cette erreur d’échantillonnage est le produit de 2 termes : l’écart-type de l’estimation : n la traduction, en référence à un modèle de distribution (e.g., loi normale, loi de Student), du niveau de risque choisi. Si l’on choisit par exemple un risque de 5% (p = 0.05), cela signifie que l’on considère comme acceptable une valeur de qui ne s’éloigne pas trop de la valeur vraie ( ) dans 95% des cas. L’aire sous la courbe de distribution ( = intégrale de la fonction de densité de probabilité d’une loi continue) d’une variable z qui suit une loi normale centrée réduite ( ) vaut 95% si elle est limitée à gauche par la valeur de z à 2.5% ( ) et à droite par la valeur de z à 97.5% ( ). (cf. infra ‘The Normal Distribution’). Autrement dit :
La loi normale étant symétrique, on a : [valeur lue dans table ou obtenue dans Excel avec : « =loi.normale.standard.inverse(0.975) » ou « =NORMSINV(0.975) »].
Frédéric Quignon
5
Unversité de Metz IUT Thionville-Yutz S1M1 - Mathématiques Il y a donc 95% de chance que la valeur de la V.A.
tombe entre
et
. Autrement dit :
D’où l’intervalle de confiance, au seuil de 95% (p = 0.05) autour de
:
Sur le graphique, on peut lire également que pour un risque moindre, par exemple de 1% (p = 0.01), l’intervalle de confiance est élargi puisqu’il correspond alors à 99% des chances que tombe entre
et
.
[Dans Excel, la valeur de la distribution normale standard pour un risque symétrique (bilatéral) de 2x 0.5% est obtenue avec : « =loi.normale.standard.inverse(0.995) ».] De même, un risque de 0.1% correspond à l’intervalle de confiance autour de la valeur vraie : . Frédéric Quignon
6
Unversité de Metz IUT Thionville-Yutz S1M1 - Mathématiques En diminuant le risque de se tromper, l’estimation devient plus ‘certaine’, mais aussi plus imprécise (UK : inaccurate).
Enfin, de la même façon que les IC sont calculés pour une variable normale ( ) à l’aide de µ et de
, ces intervalles sont également facilement calculés pour une loi log-normale,
puisque
et
.
Ainsi, l’intervalle de confiance défini par
pour une variable normale est limité,
pour une variable log-normale, par
, soit par les bornes
et
, avec
.
Quantile Pour une population de valeurs discrètes ou pour une densité de population continue, le kième q-quantile est la valeur pour laquelle la fonction de distribution cumulative (fonction de répartition) coupe k/q. Pour la variable X, la valeur x est le k-ième q-quantile si
Pr( X
x)
k
q
et
Pr( X
x)
k
q
Les 100-quantiles sont appelés centiles Les 10-quantiles sont appelés déciles Les 5-quantiles sont appelés quintiles Les 4-quantiles sont appelés quartiles Les 3-quantiles sont appelés terciles Le 2-quantile est appelé médiane. Les quantiles (e.g., la médiane ou 2-quantile) sont des valeurs moins sensibles aux distributions allongées (e.g. exponentielles) et aux valeurs aberrantes que la moyenne ou l’écart-type par exemple. Une des applications graphiques des quantiles est la génération des ‘Q-Q plots’ (représentation Quantile-Quantile), où il s’agit de représenter ‘dos-à-dos’ les quantiles de 2 distributions de probabilité à des fins comparatives. Un Q-Q plot permet par exemple de comparer - deux séries de données de taille inégale ou - une série de données et un modèle théorique de distribution.
Frédéric Quignon
7
Unversité de Metz IUT Thionville-Yutz S1M1 - Mathématiques Dans la figure ci-dessous, un alignement des points signifie que la distribution des valeurs observées est bien en accord avec le modèle théorique (pris comme référence). Pour des modèles différents du modèle gaussien (loi normale), un autre intérêt est l’estimation graphique des paramètres de ‘localisation’ (= intersection) et de ‘dispersion’ (ou d’échelle) (= pente) d’une série de valeurs données, ces paramètres étant par contre aisément calculables (= moyenne et écart-type) d’après le modèle de loi normale.
Frédéric Quignon
8