1) Population-échantillon

L’ensemble des individus auquel on s’intéresse est appelé population.
Un échantillon est une liste d’individus de la population.
Le caractère étudié est appelé variable statistique. Il peut être quantitatif ou qualitatif.

2) Paramètres de position des variables quantitatives

  • Moyenne :

Série de $p$ valeurs :

\[m=\displaystyle\frac{x_1+x_2+\ldots +x_p}{p}\]

Si la variable est quantitative continue discrétisée on utilise la formule en remplaçant $x_i$ par le milieu de la classe. On obtient alors en réalité une approximation de la moyenne.

  • Médiane : elle partage la série de données en deux groupes de même effectif.
    La médiane n’est pas sensible aux valeurs extrêmes contrairement à la moyenne.
  • Mode : c'est la valeur qui a la fréquence la plus grande
    Remarque :
    Pour des distributions symétriques (par exemple la loi normale), il y a égalité entre mode, médiane et moyenne.
  • Quartiles : ils partagent la série de données en quatre groupes de même effectif : Q1, Q2 (médiane), Q3
  • $\bf q^{ème}$ quantile : valeur en dessous de laquelle se trouvent $q%$ des observations. Par exemple le 25ème quantile correspond à Q1.

3) Paramètres de dispersion des variables quantitatives

  • Variance $s^2$ :

Série de $p$ valeurs:
\[s^2=\displaystyle\frac{1}{p}\sum_{i=1}^p(x_i-m)^2\\s^2=\displaystyle\frac{1}{p}(\sum_{i=1}^px_i^2)-m^2\]

  • Ecart type : racine carrée de la variance.
  • Extrêmes : valeurs minimale et maximale.
  • Etendue : valeur maximale-valeur minimale.

4) Types de graphiques

Pour représenter des distributions non cumulées, on peut utiliser les graphiques suivants :

Pour représenter des distributions cumulées de variables quantitatives, on peut utiliser des polygones de fréquence et des histogrammes.

5) Box-plot

La box-plot est aussi appelée diagramme de Tuckey ou boîte à moustaches. Elle permet de représenter des paramètres de la variable étudiée.