On considère $X$ et $Y$ deux variables quantitatives. On dispose de $n$ couples $(x_i,y_i)$ d’observations de $(X,Y)$ qui forment un nuage de points.
Corrélation
- Pour exprimer la corrélation, on utilise la notion de covariance : $cov(X,Y)=\displaystyle\frac{\sum x_i y_i}{n}-m_Xm_Y$
Avec $m_X=\displaystyle\frac{\sum_i x_i}{n}$ et $m_Y=\displaystyle\frac{\sum_i y_i}{n}$.
L’unité de la covariance est le produit des unités des variables.
Si la covariance est positive, le nuage de points est croissant : les variables $X$ et $Y$ évoluent dans le même sens. - Le coefficient de corrélation de Pearson permet d’étudier la liaison linéaire entre deux variables $X$ et $Y$.
Il peut être estimé par $r=\displaystyle\frac{cov(X,Y)}{\sqrt{Var(X)Var(Y)}}$ avec $Var(X)=s_X^2$ et $Var(Y)=s_Y^2$
Un coefficient de corrélation est un nombre toujours compris entre -1 et 1.
Un coefficient de corrélation nul entre $X$ et $Y$ signifie qu’il n’y a aucune liaison linéaire entre les deux variables.
Test du coefficient de corrélation à 0 :
Ce test permet de mettre en évidence une éventuelle relation significative entre $X$ et $Y$.
- $H_0$ : les variables $X$ et $Y$ sont indépendantes.
- Calcul du paramètre : $t=\displaystyle\frac{|r|\sqrt{n-2}}{\sqrt{1-r^2}}$
- On obtient la valeur seuil $t_{seuil}$ dans la table de Student avec $n-2$ degrés de liberté.
- Si $t < t_{seuil}$, on ne rejette pas $H_0$.
- Sinon on rejette $H_0$.