1) Analyse de deux caractères qualitatifs

On considère $\rm X$ et $\rm Y$ deux variables qualitatives avec un effectif de la population considérée égal à $n$.

  • Les fréquences s’obtiennent en divisant chaque valeur $n_{ij}$ par l’effectif de la population $n$.
  • Les fréquences marginales s’obtiennent aves les formules suivantes :
    • $f_{i\cdot}=\displaystyle\frac{n_{i\cdot}}{n}$
    • $f_{\cdot j}=\displaystyle\frac{n_{\cdot j}}{n}$
  • Les fréquences conditionnelles s’obtiennent aves les formules suivantes :
    • $f_{j/i}=\displaystyle\frac{n_{ij}}{n_{i\cdot}}$
    • $f_{i/j}=\displaystyle\frac{n_{ij}}{n_{\cdot j}}$

On ne raisonne pas sur l’ensemble de la population d’étude, mais sur une des catégories.

Exemple :

On interroge un ensemble de 100 personnes sur la couleur qu’ils préfèrent entre rouge, bleu et vert.

  • Fréquence marginale :
    • $f_{1\cdot}=\displaystyle\frac{n_{1\cdot}}{n}=\frac{40}{100}=40$%
      Parmi l’ensemble des individus considérés, 40% des individus sont des hommes.
  • Fréquence conditionnelle :
    • Pour la couleur rouge :
      $f_{1/1}=\displaystyle\frac{n_{11}}{n_{1\cdot}}=\frac{5}{40}=\frac{1}{8}$
      Parmi les hommes de l’étude, 1/8 préfère le rouge.

2) Analyse de deux caractères quantitatifs

On considère $\rm X$ et $\rm Y$ deux variables quantitatives. On dispose de $n$ couples $(x_i,y_i)$ d’observations de $\rm (X,Y)$ qui forment un nuage de points.

  • Pour exprimer la corrélation, on utilise la notion de covariance :

$\mathrm{cov(X,Y)}=\displaystyle\frac{\sum x_i y_i}{n}-m_{\rm X}m_{\rm Y}$

Avec $m_{\rm X}=\displaystyle\frac{\sum_i x_i}{n}$ et $m_{\rm Y}=\displaystyle\frac{\sum_i y_i}{n}$.
L’unité de la covariance est le produit des unités des variables.

Si la covariance est positive, le nuage de points est croissant : les variables $\rm X$ et $\rm Y$ évoluent dans le même sens.

  • Le coefficient de corrélation permet d’étudier la liaison linéaire entre deux variables $\rm X$ et $\rm Y$.

Il peut être estimé par $r=\displaystyle\frac{\rm cov(X,Y)}{\rm \sqrt{Var(X)Var(Y)}}$ avec $\rm Var(X)=s_X^2$ et $\rm Var(Y)=s_Y^2$

Un coefficient de corrélation est un nombre toujours compris entre $-1$ et $1$.

Un coefficient de corrélation nul entre $\rm X$ et $\rm Y$ signifie qu’il n’y a aucune liaison linéaire entre les deux variables.

  • Droite de régression

On appelle droite de régression, la droite qui passe au plus près des points du nuage de points suivant la méthode des moindres carrés.

La droite de régression de $\rm Y$ en fonction de $\rm X$ passe par le centre de gravité du nuage de points de coordonnées $(m_{\rm X}~ ;m_{\rm Y})$.

Elle a pour équation : $\mathrm Y=a\mathrm X+b$

Avec $a=\displaystyle\frac{\rm Cov(X,Y)}{\rm s_X^2}$ et l’ordonnée à l’origine $b=m_{\rm Y}-a\times m_{\rm X}$.

La valeur de $a$ correspond à une augmentation moyenne de $\rm Y$ lorsque $\rm X$ augmente de 1.

$\rm X$ est la variable explicative (=prédicteur) et $\rm Y$ la variable à expliquer (=critère).

On ne peut prédire des valeurs de $\rm Y$ que pour des valeurs de $\rm X$ dans l’intervalle qui a servi à construire la droite de régression.

Il n’est pas nécessaire que les variables $\rm X$ et $\rm Y$ aient la même unité pour calculer la droite de régression.