Paramètres de position des variables quantitatives
- Moyenne :
Série de $p$ valeurs :
$m=\displaystyle\frac{x_1+x_2+...+x_p}{p}$
Si la variable est quantitative continue discrétisée on utilise la formule en remplaçant $x_i$ par le milieu de la classe. On obtient alors en réalité une approximation de la moyenne.
- Médiane : elle partage la série de données en deux groupes de même effectif
- Mode : c'est la valeur qui a la fréquence la plus grande
Remarque :
Pour des distributions symétriques (par exemple la loi normale), il y a égalité entre mode, médiane et moyenne.
- Quartiles: ils partagent la série de données en quatre groupes de même effectif : $Q1$, $Q2$ (médiane), $Q3$
- $\mathrm{q^{ème}}$ quantile : valeur en dessous de laquelle se trouvent $\mathrm{q}\%$ des observations. Par exemple le $\mathrm{25^{ème}}$ quantile correspond à $Q1$.
Paramètres de dispersion des variables quantitatives
- Variance $s^2$ :
Série de $p$ valeurs :
$s^2=\displaystyle\frac{1}{p}\sum_{i=1}^p(x_i-m)^2=\displaystyle\frac{1}{p}(\sum_{i=1}^px_i^2)-m^2$
- Ecart type : racine carrée de la variance
- Extrêmes : valeurs minimale et maximale.
- Etendue : valeur maximale-valeur minimale.
- Coefficient de variation : $CV=\frac{s}{m}$ (exprimé en pourcentage).
Corrélation et régression
- Covariance :
$cov(X, Y) = E((X – E(X)) (Y – E(Y))) = E(XY) – E(X)E(Y)$
$cov(X,Y)=\displaystyle\frac{\sum x_i y_i}{n}-m_Xm_Y$
- Coefficient de corrélation de Pearson : il permet d’étudier la liaison linéaire entre deux variables X et Y.
Il peut être estimé par $r=\displaystyle\frac{cov(X,Y)}{\sqrt{Var(X)Var(Y)}}$
- On appelle droite de régression, la droite qui passe au plus près des points du nuage de points (formé par les couples $(x_i,y_i)$ ) suivant la méthode des moindres carrés.
La droite de régression de $Y$ en fonction de $X$ passe par le point de coordonnées $(m_X ;m_Y)$.
Elle a pour équation :
$Y=aX+b$
Avec :
$ a=\displaystyle\frac{Cov(X,Y)}{s_X^2}$ et $b=m_Y-a\times m_X$.