Retour

Outils statistiques

🎲 Quiz GRATUIT

📝 Mini-cours GRATUIT

Statistiques à deux variables

Définition

Une série statistique est dite à deux variables lorsque l’on étudie deux grandeurs pour lesquelles les relevés statistiques donnent n valeurs $x_1$, $x_2$, ... et $x_n$ pour la première, n valeurs $y_1$, $y_2$, ... et $y_n$ pour la seconde, et que chaque valeur $y_i$ ($1 \leq i \leq n$) est fonction de la valeur $x_i$.
On peut représenter une série statistique à deux variables dans un tableau à deux lignes, puis graphiquement par un nuage de points composé des points de coordonnées ($x_i$ ; $y_i$) avec $1 \leq i \leq n$.

Point moyen 

Pour une série statistique à deux variables ($x_i$ ; $y_i$) avec $1 \leq i \leq n$, on appelle point moyen le point G ($\bar{x}$ ; $\bar{y}$) où $\bar{x}$ est la moyenne des valeurs $x_i$ et $\bar{y}$ la moyenne des valeurs $y_i$.

Droites d’ajustement

Dans certains cas, le nuage de points associé à une série statistique à deux variables a une forme allongée et il semble possible de tracer des droites autour desquelles sont situés les points du nuage : ce sont des droites d’ajustement.

Variables aléatoires et probabilités associées

Loi du $\chi^2$ (Chi 2)

Cette loi dépend d’un paramètre $n$ : le nombre de degrés de liberté.
Sa représentation graphique est une cloche unimodale asymétrique.
Un $\chi^2$ à $n$ degrés de liberté est la somme des carrés de $n$ variables normales centrées réduites.
Quand $n\to+\infty$, la loi du $\chi^2$ tend vers la loi normale centrée réduite (ce qui est en pratique le cas pour $n>30$).

Loi de Student

Cette loi dépend d’un paramètre $n$ : le nombre de degrés de liberté.
Sa représentation graphique est une cloche unimodale symétrique.
Quand $n\to+\infty$, la loi de Student tend vers la loi normale centrée réduite (ce qui est en pratique le cas pour $n>30$).

Loi de Fisher

Cette loi dépend de deux paramètres $(\nu_1,\nu_2)$ les degrés de liberté.
Sa représentation graphique est une cloche unimodale asymétrique.
La loi est définie par un quotient :

$F=\frac{\displaystyle\frac{\chi_1^2}{\nu_1}}{\displaystyle\frac{\chi_2^2}{\nu_2}}$ où $\chi_1^2$ et $\chi_2^2$ sont deux lois du Chi 2.

Somme de variables aléatoires

Somme de variables aléatoires

La somme de deux variables aléatoires indépendantes binomiales de lois respectives $B(n_1 ;p)$ et $B(n_2 ;p)$ suit la loi binomiale $B(n_1+n_2 ;p)$.

La somme de $n$ variables aléatoires indépendantes suivant des lois de Poisson de paramètres $\lambda_1 ;\lambda_2 ;…\lambda_n$ suit une loi de Poisson de paramètre $\displaystyle\sum_{i=1}^n\lambda_i$.

La somme de $n$ variables aléatoires indépendantes suivant des lois normales de paramètres $(\mu_1 ;\sigma_1)$, $(\mu_2 ;\sigma_2)$,…$(\mu_n ;\sigma_n)$ suit une loi normale de paramètres $\left(\displaystyle \sum_{i=1}^n \mu_i ;\sqrt{\displaystyle \sum_{i=1}^n \sigma_i^2}\right)$.

La somme de deux variables aléatoires indépendantes suivant des lois du $\chi^2$ à respectivement $n_1$ et $n_2$ degrés de liberté est une loi du $\chi^2$ à $n_1+n_2$ degrés de liberté.

Principaux descripteurs d'une série de données

Paramètres de position des variables quantitatives

  • Moyenne :

Série de $p$ valeurs :

$m=\displaystyle\frac{x_1+x_2+...+x_p}{p}$

Si la variable est quantitative continue discrétisée on utilise la formule en remplaçant $x_i$ par le milieu de la classe. On obtient alors en réalité une approximation de la moyenne.

  • Médiane : elle partage la série de données en deux groupes de même effectif 
  • Mode : c'est la valeur qui a la fréquence la plus grande
    Remarque : Pour des distributions symétriques (par exemple la loi normale), il y a égalité entre mode, médiane et moyenne.
  • Quartiles : ils partagent la série de données en quatre groupes de même effectif : Q1, Q2 (médiane), Q3
  • $q^\mathrm{{ème}}$ quantile : valeur en dessous de laquelle se trouvent $q\%$ des observations. Par exemple le $\mathrm{25^{ème}}$ quantile correspond à Q1.

Paramètres de dispersion des variables quantitatives

  • Variance $s^2$ :

Série de $p$ valeurs : 

$s^2=\displaystyle\frac{1}{p}\sum_{i=1}^p(x_im)^2=\displaystyle\frac{1}{p}(\sum_{i=1}^px_i^2)-m^2$

  • Ecart type : racine carrée de la variance 
  • Extrêmes : valeurs minimale et maximale.
  • Etendue : valeur maximale-valeur minimale.
  • Coefficient de variation : $CV=\frac{s}{m}$ (exprimé en pourcentage).

Tests statistiques

Un test statistique (ou test d’hypothèse) permet de choisir entre deux hypothèses en fonction des résultats obtenus sur un ou deux échantillons par rapport à un risque $\alpha$ fixé à l’avance (a priori). 

$H_0$= « Pas de différence » (hypothèse nulle)

$H_1$= « Il y a une différence » (hypothèse alternative)

Si on rejette $H_0$, on peut conclure qu’il y a une différence significative au risque $\alpha$.

Si on veut savoir s’il existe une différence quel que soit le sens de cette différence, on réalise un test bilatéral (par exemple : $H_1 : \mu_A\neq \mu_B$). 

Si on souhaite privilégier un sens, on réalise un test unilatéral. On doit alors préciser l’hypothèse (par exemple : $H_1 : \mu_A > \mu_B$).

Méthode de résolution d’un test :

  • On formule les hypothèses $H_0$ et $H_1$ du test
  • On identifie le test à utiliser 
  • On se fixe un risque $\alpha$ (par exemple $5\%$)
  • On vérifie les conditions de validité éventuelles du test
  • On calcule le paramètre du test $z$
  • On détermine la valeur seuil $z_\alpha$ en fonction du risque $\alpha$
  • On conclut le test : si $|z|\geq z_\alpha$, on rejette $H_0$.

Exemple : Tests sur des moyennes :

Estimation par intervalle de confiance

L’estimation ponctuelle consiste à estimer des paramètres d’une population (par exemple une moyenne) à partir des valeurs observées sur un échantillon de cette population.

A partir de l’estimation ponctuelle obtenue avec l’échantillon, on peut construire un intervalle de confiance qui va contenir la valeur du paramètre de la population avec un niveau de confiance fixé.

Intervalle de confiance d’une moyenne pour un paramètre suivant une loi $X$ :

La valeur de $u_{\alpha}$ s’obtient dans la table de la loi normale centrée réduite. Elle vaut par exemple $1,96$ lorsque l’on recherche un intervalle de confiance à $95\%$ (donc $\alpha=5\%$).

Nomad+, Le pass illimité vers la réussite 🔥

NOMAD EDUCATION

L’app unique pour réussir !