Retour

Échantillonnage et estimation

🎲 Quiz GRATUIT

📝 Mini-cours GRATUIT

Définitions

Lors d’une enquête, l’ensemble des individus auquel on s’intéresse est appelé population, précisément population étudiée.

On appelle population cible la population sur laquelle on veut étendre les résultats de l’enquête effectuée sur la population étudiée.

Si tous les individus de la population étudiée sont observés, l’enquête est exhaustive, on parle de recensement.
Un sondage est un échantillonnage qui permet de constituer un échantillon à partir de la population pour n’observer qu’une partie de la population.

Un estimateur est un résultat, estimé à partir des données observées dans l’échantillon, qui représente une caractéristique de la population, avec un certain degré d’incertitude.
La qualité de l’estimation dépend de sa précision (qui dépend du degré d’erreur de la mesure) et de l’absence de biais (qui dépend d’une bonne représentativité de l’échantillon). La qualité dépend donc de la méthode d’échantillonnage choisie et de la taille de l’échantillon.

Un biais de caractérisation ou d’information est une erreur qui aboutit à classer l’observation dans une mauvaise catégorie (par exemple si l’individu interrogé se trompe en répondant).

Un biais de sélection : erreur « d’inclusion-exclusion » qui fait que les populations cibles et étudiées ne sont pas comparables (par exemple si l’échantillon n’est pas représentatif de la population).

Types de sondages

Les sondages empiriques : l’échantillon est constitué sans fondement théorique.
Par exemple dans la méthode des quotas, l’enquêteur s’arrête quand il a atteint le quota recherché pour chaque catégorie (exemple : hommes/femmes, quotas suivant l’âge, la catégorie socio-professionnelle…).

Les sondages probabilistes : chaque élément de l’échantillon a une probabilité connue à l’avance d’être dans l’échantillon. On peut donc généraliser l’estimation du phénomène étudié à la population à partir des résultats observés sur l’échantillon et mesurer le degré d’incertitude de cet estimateur (par exemple avec un intervalle de confiance).

Les sondages probabilistes regroupent plusieurs sondages :

  • Les sondages aléatoires simples
  • Les sondages stratifiés
  • Les sondages pseudo-aléatoires…

Les sondages aléatoires simples : chaque sujet de la population a la même probabilité d’être inclus dans l’échantillon (équiprobabilité). Cette méthode requiert une base de sondage, c’est-à-dire une liste préétablie des sujets (annuaire, liste électorale…), dans laquelle les sujets sont tirés au sort.

Les sondages stratifiés : l’échantillon est constitué par un sondage aléatoire simple dans chaque strate (= catégorie de la variable étudiée).

Les sondages pseudo-aléatoires : lorsqu’on ne dispose pas de base de sondage, on choisit un critère de choix supposé indépendant du phénomène étudié. La méthode est dite alors systématique.

Estimation

Estimation ponctuelle

L’estimation ponctuelle consiste à estimer des paramètres d’une population à partir des valeurs observées sur un échantillon de cette population.

L’erreur-type est l’estimation de l’écart-type de la moyenne : $\displaystyle\frac{s}{\sqrt{n}}$

Estimation par intervalle de confiance

A partir de l’estimation ponctuelle obtenue avec l’échantillon, on peut construire un intervalle de confiance qui va contenir la valeur du paramètre de la population avec un niveau de confiance fixé. 

Intervalle de confiance d’une moyenne pour un paramètre suivant une loi $X$ :

Intervalle de confiance d’une proportion :

La valeur de $u_{\alpha}$ s’obtient dans la table de la loi normale centrée réduite. Elle vaut par exemple 1,96 lorsque l’on recherche un intervalle de confiance à 95% (donc $\alpha=$5%).

La précision d’un intervalle de confiance correspond à la demi-largeur de cet intervalle.

Intervalles de fluctuation

Dans la population, la moyenne $\mu$ et l’écart-type $\sigma$ sont connus. A partir de $\mu$ et $\sigma$, on peut construire un intervalle qui va contenir, avec une probabilité de 0,95, la moyenne qu’on observera dans un échantillon (intervalle de fluctuation de la moyenne). 

La valeur complémentaire 0,05 est le risque que la moyenne observée n’appartienne pas à l’intervalle. 

Nomad+, Le pass illimité vers la réussite 🔥

NOMAD EDUCATION

L’app unique pour réussir !