Estimation ponctuelle

Soit $\theta$ un paramètre inconnu que l’on cherche à estimer à partir d’un échantillon de données $x_1,\ldots ,x_n$.

On suppose que cet échantillon est la réalisation de $n$ variables aléatoires $\mathrm X_1,\ldots ,\mathrm X_n$ indépendantes et de même loi.

Un estimateur de $\theta$ est une variable aléatoire de la forme $\mathrm T_n=\varphi(\mathrm X_1,\ldots ,\mathrm X_n)$.

La réalisation $\varphi(\mathrm X_1,\ldots ,\mathrm X_n)$ de l’estimateur $\mathrm T_n$ est l’estimation de $\theta$.

Si pour tout $\theta$, $\mathrm T_n$ admet une espérance, on appelle biais de $\mathrm T_n$ le réel $b_{\theta}(\mathrm T_n)=\mathrm E_{\theta}(\mathrm T_n)-\theta$.

L’estimateur $\mathrm T_n$ de $\theta$ est sans biais (ou non biaisé) si $\mathrm E_{\theta}(\mathrm T_n)=\theta$ pour tout $\theta$. Dans le cas contraire, l’estimateur est dit biaisé.

Si pour tout $\theta$, $\mathrm T_n^2$ admet une espérance, on appelle risque quadratique de $\mathrm T_n$ le réel $r_{\theta}(\mathrm T_n)=\mathrm E_{\theta}((\mathrm T_n-\theta)^2)$.

Propriété :

$r_{\theta}(\mathrm T_n)=b_{\theta}(\mathrm T_n)^2+\mathrm V_{\theta}(\mathrm T_n)$.

Exemple : Soit $(\mathrm X_1,\ldots ,\mathrm X_n)$ variables aléatoires indépendantes de loi $\mathcal{B}(p)$. Alors $\overline{\mathrm X_n} = \dfrac{\mathrm X_1+\ldots +\mathrm X_n}{n}$ est un estimateur de $p$.

En pratique, on utilise les estimateurs suivants :

Estimation par intervalle de confiance

Au lieu de chercher une estimation ponctuelle de $\theta$, on peut déterminer un intervalle aléatoire, appelé intervalle de confiance, qui contiendra $\theta$ avec une probabilité fixée.

Définition :

Soient $\mathrm U_n$ et $\mathrm V_n$ deux estimateurs. $[\mathrm U_n~ ;\mathrm V_n]$ est un intervalle de confiance de $\theta$ au niveau de confiance $1-\alpha$ (avec le risque $\alpha \in [0~ ;1]$) si pour tout $\theta$, $\mathrm P_{\theta}(\mathrm U_n\leq \theta\leq \mathrm V_n)\geq 1-\alpha$.
Les réalisations de $\mathrm U_n$ et $\mathrm V_n$ sont calculables à partir de l’échantillon $x_1,\ldots ,x_n$.

Exemple : Soit $\rm X$ variable aléatoire de loi $\mathcal{B}(p)$ : $\rm X$ prend la valeur $1$ si un individu possède une propriété $\rm A$ et $0$ sinon. On cherche à estimer la proportion $p$ d’individus possédant la propriété $\rm A$.

Un intervalle de confiance de $p$ au niveau de confiance $1-\alpha$ (c’est-à-dire au risque $\alpha$) est donné par :

$\left[p_0-\dfrac{t_{\alpha}}{2\sqrt{n}}~ ; p_0+\dfrac{t_{\alpha}}{2\sqrt{n}}\right]$

Où $p_0$ est la proportion observée d’individus possédant la caractéristique A dans l’échantillon de taille $n$.

Remarque : Pour $\alpha=0,05$, $t_{\alpha}=1,96$.

Exemple 2 : Un intervalle de confiance d’une moyenne $\mu$ d’une population pour la variable $\rm X$ au niveau de confiance $1-\alpha$ (c’est-à-dire au risque $\alpha$) est donné par :

$ic_{1-\alpha}=\left[\displaystyle m-t_{\alpha}\frac{\sigma}{\sqrt{n}} ; m+t_{\alpha}\frac{\sigma}{\sqrt{n}}\right]$

Où $\sigma$ est l’écart-type de la variable $\rm X$ et $n$ la taille de l’échantillon sur lequel est calculé la moyenne $m$.

Cet intervalle de confiance est valable pour un grand échantillon (en général $n\geq 30$) ou si la variable $\rm X$ suit une loi normale (si l’échantillon est plus petit).

Remarque : La précision d’un intervalle de confiance correspond à la demi-largeur de cet intervalle.