Auteur : Sylvain Hanneton (26/09/08)
Corrélation (covariance et coefficient de corrélation) Définition proposée
La covariance et le coefficient de corrélation sont des mesures quantitatives du lien qui peut exister entre deux variables aléatoires X et Y. Le coefficient de corrélation donne une idée de l’intensité de la liaison entre X et Y indépendamment des variances de X et de Y. Il est compris entre 1 (corrélation) et 1 (anticorrélation). Un coefficient de corrélation proche de 0 indique que les deux variables aléatoires sont faiblements liées (faiblement corrélées). Définition de la covariance
Considérons un nuage de n points M i ( i ∈[ 1..n ] ) de coordonnées x i et y i correspondant à deux variables aléatoires X et Y. La covariance des variables X et Y est donnée par les formules suivantes : Covariance d'une population Covariance d'un échantillon n
cov X , Y = où
X et
n
∑ x i− X y i – Y
∑ xi − X y i – Y
i =1
cov X , Y = i=1
n
Y sont les moyennes de X et de Y.
où
X
Y
et
n−1
sont les moyennes de X et de Y.
Coefficient de corrélation de Pearson
Le coefficient de corrélation est donné par r = et Y.
cov X , Y où s X et s Y sont les écart types de X s x⋅s y
Qualité d'une modélisation linéaire du nuage de points
Le calcul de la pente a d'une droite de régression (régression simple) se fait à partir de la covariance des variables X et Y :
a=
cov X ,Y sX et r = a⋅ 2 sX sY n
Y ∑ xi yi – n⋅X⋅ Un calcul plus rapide de la pente se fait en utilisant la formule a=
i=1 n
∑ xi ² – n⋅X ² i=1
La qualité d'une régression linéaire, c'est à dire sa capacité à modéliser le nuage de points peut être quantifiée en utilisant le calcul du coefficient de détermination obtenu à partir du calcul du coefficient de corrélation r entre X et Y. Le coefficient de détermination donne une idée du pourcentage de variance expliquée (PVE) par le modèle. Sauf mention contraire, le contenu du site est placé sous la protection de cette licence Creative Commons.
1
Auteur : Sylvain Hanneton (26/09/08)
Coefficient de détermination
cd = r²
Pourcentage de variance expliquée
PVE =100⋅r²
Par exemple un PVE de 10% (cd=0,1) indique que le modèle linéaire n'explique que 10% de la variance du nuage de points. Tests statistiques associés : test de corrélation
Le test d’indépendance entre deux variables X et Y à partie d’un échantillon de n couples de valeurs est basé sur le calcul de r qui est la valeur de la pente en coordonnées réduites1. Le risque correspondant au coefficient de corrélation r peut être obtenu : ● soit par la table du coefficient de corrélation pour un nombre de degrés de liberté égal à n2 ●
soit lorsque celleci est insuffisante en formant t =
r
⋅ n − 2 et en cherchant le risque
1− r 2
correspondant dans la table du t de Student pour (n2) degrés de liberté. Si 0.05 alors la liaison n’est pas significative et si ≤0.05 la liaison est significative. Statut de la fiche :
fiche provisoire à revoir
1 Coordonnées réduites : chacune des données se voit retrancher sa moyenne et est divisée par son écart type... Sauf mention contraire, le contenu du site est placé sous la protection de cette licence Creative Commons.
2