Les statistiques inférentielles consistent à déterminer des paramètres d'une population complète à partir de ceux d'un échantillon.
Construction d'un test de validité d'hypothèse :
- Détermination de la variable aléatoire de décision et de ses paramètres.
- Choix des deux hypothèses: l'hypothèse nulle $H_0$ et l'hypothèse alternative $H_1$.
- Détermination de la zone critique selon le risque $\alpha$ donné.
- Rédaction d'une règle de décision
Utilisation du test d'hypothèse : calcul des caractéristiques d'un échantillon particulier puis application de la règle de décision.
Exemple d'un test bilatéral relatif à une moyenne :
Une machine produit des rondelles dont l'épaisseur est une variable aléatoire $X$ d'écart type 0,3 mm. La machine a été réglée pour obtenir des épaisseurs de 5 mm. Un contrôle portant sur un échantillon de 100 rondelles a donnée 5,07 mm comme moyenne des épaisseurs de ces 100 rondelles. Peut-on affirmer que la machine est bien réglée au seuil de risque de 5% ?
- On appelle $m$ l'espérance de $X$. On note $M$ la variable aléatoire qui à chaque échantillon de taille 100 associe sa moyenne. Comme la taille des échantillons est suffisamment grand, on peut considérer que $M$ suit la loi normale $\mathcal{N}(m;\frac{0,3}{\sqrt{100}}) = \mathcal{N}(m;0,03)$. $M$ sera la variable aléatoire de décision.
- On estime que la machine est bien réglée, si la moyenne de toutes les rondelles produites par la machine est 5 mm. C'est l'hypothèse $H_0$. L'hypothèse alternative est $H_1$: $m \neq 5$.
- Cherchons la zone critique. Dans le cas où l'hypothèse $H_0$ est vraie la variable $M$ suit la loi $\mathcal{N}(5;0,03)$. On cherche alors le réel $d$ tel que $$P(5-d \leq M \leq 5+d) =0,95.$$ En posant $T=\frac{M-5}{0,03}$ qui suit la loi normale centrée réduite $\mathcal{N}(0,1)$, cela revient à chercher $d$ tel que $$P\left(-\frac{d}{0,03} \leq T \leq \frac{d}{0,03}\right) = 0,95 \iff 2 \Phi\left(\frac{d}{0,03}\right)-1=0,95 \iff \Phi\left(\frac{d}{0,03}\right)=0,975$$ où $\Phi$ désigne la fonction de répartition de la loi normale centrée réduite. Les tables (ou la calculatrice) donnent alors $\frac{d}{0,03}=1,96$ soit $d \simeq 0,06$. L'intervalle de confiance est donc $$[5-0,06;5+0,06] = [4,94;5,06].$$ La probabilité qu'un échantillon ait une moyenne située hors de cet intervalle étant de 0,05, on peut considérer que cet événement est rare. Ainsi, la moyenne de notre échantillon $m_e = 5,07$ nous amène à douter de l'hypothèse $H_0$.
- On décide alors de la règle de décision suivante: si la moyenne de l'échantillon n'est pas située dans la zone critique (c'est-à-dire si la moyenne est dans l'intervalle de confiance), on accepte $H_0$ sinon on refuse $H_0$ et on accepte $H_1$.
- Ici, puisque $5,07$ appartient à la zone critique, on décide de rejeter l'hypothèse $H_0$ et d'accepter l'hypothèse alternative $H_1$: $m \neq 5$ (la machine n'est pas bien réglée).