Retour

Indicateurs de tendance centrale, de dispersion

🎲 Quiz GRATUIT

📝 Mini-cours GRATUIT

Série statistique (Rappels)

Espérance, variance et écart-type

On considère une série statistique $X$ de taille $n$ composée des valeurs suivantes :
$x_1$ d’effectif $n_1$, $x_2$ d’effectif $n_2$, $x_3$ d’effectif $n_3$, ... et $x_k$ d’effectif $n_k$ ($n_1$ + $n_2$ + ... + $n_k$ = $n$).

L’espérance de $X$ est :

$E(X) = \displaystyle \frac{n_1 \times x_1 + n_2 \times x_2 + ... + n_k \times x_k}{n}$

La variance de $X$ est :

$V(X) = \displaystyle \frac{1}{n} \sum_{i=1}^{k} n_i {(x_i - \mathrm{E(X))}}^2$

L’écart-type de $X$ est :

$\displaystyle \sigma (X) = \sqrt{\mathrm{V(X)}}$

Moyenne, médiane, premier et troisième quartile

La moyenne d’un ensemble de valeurs est la somme de ces valeurs divisée par le nombre de valeurs.

La médiane d'une série statistique est la valeur qui partage la série en deux ensembles de même effectif. 50 % des valeurs sont inférieures à cette valeur et 50 % des valeurs sont supérieures à cette valeur.

Quand l’effectif $n = 2p +1$ est impair, il s’agit de la $p$-ième des valeurs classées dans l’ordre croissant.
Quand l’effectif $n = 2p$ est pair, on prend la moyenne de la $p$-ième et de la $p+1$-ième des valeurs classées dans l’ordre croissant.

Le premier quartile, noté $Q_1$, est la valeur minimale pour laquelle 25 % des valeurs sont inférieures ou égales à $Q_1$. 

Le troisième quartile, noté $Q_3$, est la valeur minimale pour laquelle 75 % des valeurs sont inférieures ou égales à $Q_3$. 

Ajustement linéaire par la méthode des moindres carrés, prévision

• Le principe

Cette méthode consiste à projeter l'ensemble des points $M_i$ de coordonnées $(x_i,y_i)$  sur une courbe (déterminée par la forme du nuage), parallèlement à l'axe des ordonnées, de telle sorte que l'ensemble des écarts entre les points observés $M_i$  et les points projetés $P_i$ sur la courbe, de coordonnées $(x_i, \hat y_i)$ , soient les plus faibles possible. Si l'on note les écarts $e_i$ ($e_i$ est appelé aussi erreur) , alors $e_i=y_i - \hat y_i$ avec $i \in\: 1, 2, ..., n$. Et le critère des moindres carrés s'écrit :
$\text{Minimiser} \displaystyle\sum_{i=1}^n e_i^2 $

• La droite de régression de Y en X

On formule l'hypothèse a priori que la courbe représentative lors de l'ajustement du nuage de points est une droite non verticale, son équation étant donc de la forme $y = ax +b$, $a$ et $b$ étant deux réels.

Il s'agit alors d'obtenir les meilleurs coefficients $a$ et $b$, notés $\hat a$ et $\hat b$, c'est-à-dire ceux permettant de minimiser les écarts :
$\displaystyle \sum_{i=1}^{i=n} [y_i - (ax_i+b)]^2$ 
Les estimateurs que l'on trouve sont : $\displaystyle \hat a = \frac{s_{XY}}{s_X^2}$ et $\mathbf {\hat b = \overline Y-\hat a \overline X}$  (avec $s_{XY}  = cov (x,y)$ et $s_X^2 = Var (x)$)

L'équation de la droite des moindres carrés de $Y$ en $X$ s'écrit donc : $\boxed {\hat Y  = \hat a X+ \hat b \:(1)}$
Cette droite constitue une approximation du nuage de points par une droite. 

Nota bene : on peut faire la même chose en inversant les rôles de $X$ et $Y$ (si cela a un sens dans le problème statistique que l'on étudie) ; on obtient alors la droite de régression de $X$ en $Y$, l'équation de cette droite sera distincte ; les deux droites obtenues se coupent au point moyen $(\overline X,\overline Y)$ de la série statistique $(X, Y)$.

Une nouvelle valeur de la variable $X$ permettra de "prévoir" la valeur de $Y$ avec l'égalité $(1)$.

Introduction aux étapes de base pour le calcul des coefficients saisonniers et la correction des variations saisonnières des séries chronologiques

Etape n°1 : représentation graphique

On représente graphiquement la série chronologique pour observer les 3 composantes de la série ($T$ = tendance, $S$ = saisonnalité, $R$ = résidu/accident) et éventuellement pour repérer les points "aberrants".

Etape n°2 : correction des points aberrants

On élimine par un calcul simple (estimation graphique, par moyenne ou autre méthode) les points aberrants pour qu'ils ne soient pas pris en compte dans les calculs (ex. demi-somme des 2 points encadrant un point aberrant).

Etape n° 3 : le choix du modèle

On détermine quel type de modèle utiliser pour la correction des variations saisonnières; deux grands modèles disponibles: additif $(y_t = T_t + S_t + R_t)$ ou multiplicatif $(y_t = T_t (1 + S_t) + R_t)$. Plusieurs méthodes = profil, bande, tableau de Buys et Ballot.

Etape n° 4 : filtrage de la série

On supprime ici la composante saisonnière en appliquant un filtre : il s'agit de déterminer la longueur p de la moyenne mobile à appliquer à cette fin; on admet qu'elle doit être au moins égale à la saison de la série; on envisage 2 cas : modèle additif ; modèle multiplicatif ; dans chaque cas on recherche le moyenne des coefficients saisonniers puis on corrige ces coefficients.

Etape n° 5 : la série corrigée des variations saisonnières

On achève de construire la série chronologique corrigée des variations saisonnières, la méthode étant différente, on procède par soustraction (resp. par division) selon que le modèle est additif (resp. multiplicatif).

Nomad+, Le pass illimité vers la réussite 🔥

NOMAD EDUCATION

L’app unique pour réussir !