Retour

Corrélation et régression

🎲 Quiz GRATUIT

📝 Mini-cours GRATUIT

Corrélation

On considère $X$ et $Y$ deux variables quantitatives. On dispose de $n$ couples $(x_i,y_i)$ d’observations de $(X,Y)$ qui forment un nuage de points.

Corrélation

  • Pour exprimer la corrélation, on utilise la notion de covariance : $cov(X,Y)=\displaystyle\frac{\sum x_i y_i}{n}-m_Xm_Y$
    Avec $m_X=\displaystyle\frac{\sum_i x_i}{n}$ et $m_Y=\displaystyle\frac{\sum_i y_i}{n}$.
    L’unité de la covariance est le produit des unités des variables.
    Si la covariance est positive, le nuage de points est croissant : les variables $X$ et $Y$ évoluent dans le même sens.
  • Le coefficient de corrélation de Pearson permet d’étudier la liaison linéaire entre deux variables $X$ et $Y$.
    Il peut être estimé par $r=\displaystyle\frac{cov(X,Y)}{\sqrt{Var(X)Var(Y)}}$
    avec $Var(X)=s_X^2$ et $Var(Y)=s_Y^2$
    Un coefficient de corrélation est un nombre toujours compris entre -1 et 1.
    Un coefficient de corrélation nul entre $X$ et $Y$ signifie qu’il n’y a aucune liaison linéaire entre les deux variables.
  • Test du coefficient de corrélation à 0 :
    Ce test permet de mettre en évidence une éventuelle relation significative entre $X$ et $Y$.
    $\blacktriangleright$ $H_0$ : les variables $X$ et $Y$ sont indépendantes.
    $\blacktriangleright$ Calcul du paramètre : $t=\displaystyle\frac{|r|\sqrt{n-2}}{\sqrt{1-r^2}}$
    $\blacktriangleright$ On obtient la valeur seuil $t_{seuil}$ dans la table de Student avec $n-2$ degrés de liberté.
    $\blacktriangleright$ Si $t < t_{seuil}$, on ne rejette pas $H_0$.
    $\blacktriangleright$ Sinon on rejette $H_0$.

Régression

  • Droite de régression

On appelle droite de régression, la droite qui passe au plus près des points du nuage de points suivant la méthode des moindres carrés.

La droite de régression de $Y$ en fonction de $X$ passe par le centre de gravité du nuage de points de coordonnées $(m_X ;m_Y)$.

Elle a pour équation : $Y=aX+b$

Avec $ a=\displaystyle\frac{Cov(X,Y)}{s_X^2}$ et l’ordonnée à l’origine $b=m_Y-a\times m_X$.

La valeur de $a$ correspond à une augmentation moyenne de $Y$ lorsque $X$ augmente de 1.

$X$ est la variable explicative (=prédicteur) et $Y$ la variable à expliquer (=critère).

On ne peut prédire des valeurs de $Y$ que pour des valeurs de $X$ dans l’intervalle qui a servi à construire la droite de régression.

Il n’est pas nécessaire que les variables $X$ et $Y$ aient la même unité pour calculer la droite de régression.

  • Test de la pente à 0 :

Ce test permet de mettre en évidence une éventuelle relation significative entre $X$ et $Y$.

Nomad+, Le pass illimité vers la réussite 🔥

NOMAD EDUCATION

L’app unique pour réussir !