Le choix du bon modèle à estimer est primordial. Deux logiques s'opposent : (1) l'ajout progressif de variables explicatives et (2) l'utilisation d'abord au complet des variables explicatives en retirant une à une les variables. Dans les deux cas, il faut se référer aux F-tests pour évaluer la signification jointe ainsi qu'aux tests de Student. Si les coefficients ou leur significativité statistique change, alors on peut être en présence de multicollinéarité. En toutes situations, il convient de s'en référer au bon sens : on ne peut interpréter correctement un modèle si l'on met une variable seule alors qu'on l'a d'ores et déjà mise dans un terme quadratique ou dans une variable d'interaction. Ce travail permet d'affiner sa compréhension du/des mécanisme(s) envisagé(s) et est à ne pas confondre avec le travail à faire en cas de variable clé omise en cas de données manquantes.
Plus loin dans la spécification des modèles
🎲 Quiz GRATUIT
Plus loin dans la spécification des modèles
📝 Mini-cours GRATUIT
Le biais de variable omise
Que faire en cas de variables explicatives manquantes ? S'il s'agit d'une variable explicative clé, alors cela va générer un biais sur les coefficients d'autres variables explicatives, du fait de leurs corrélations. Ce biais de variable omise peut être résolu en utilisant un proxy, à savoir une variable approximant relativement bien les caractéristiques de la variable recherchée (un exemple classique est le niveau de QI pour remplacer l'intelligence ou l'habilité d'une personne). Formellement, prenons le modèle $Y_{i} = \beta_{0} + \beta_{1} X_{1,i} + X_{2,i} + u_{i}$ avec $X_{2,i}$ comme variable manquante. Cette dernière va être approximée par la variable $H_{i}$.
L'utilisation d'une telle variable est soumise à un certain nombre d'hypothèses :
- le proxy $H_{i}$ doit être décorrélé des autres variables explicatives et du terme d'erreur $u_{i}$.
- le terme d'erreur $z_{i}$ de ce proxy vis-à-vis de la variable explicative considérée, dans le cadre de l'équation $H_{i} =\delta_{0} + \delta_{1} X_{2,i} + z_{i}$, doit être indépendant de l'ensemble des variables explicatives $(X_{1,i}, X_{2,i})$. Cela permet d'être sûr que ce proxy n'est pas relié à d'autres variables explicatives.
Problèmes de données : données manquantes, échantillon endogène et données aberrantes
Les problèmes de données peuvent être une cause sérieuse de biais pour les estimateurs de moindres carrés ordinaires : il peut s'agit de données manquantes, d'échantillon biaisé de la population ou de données aberrantes. Ces différents éléments rentrent en effet en contradiction avec la deuxième hypothèse utilisée dans le théorème Gauss-Markov (l'échantillon de n données est aléatoire). Les estimateurs MCO peuvent rester efficaces sous certaines conditions :
- Dans le cas de données manquantes ou d'échantillon biaisé, il faut savoir si la sélection des données est endogène ou exogène. En clair, est-ce que la sélection des données est due à la question posée ou non ? Si l'on cherche à voir l'efficacité des politiques de retour au travail des femmes après un accouchement et que l'on dispose uniquement des données de femmes effectivement de retour au travail, il y a ici un biais lié à une sélection endogène des données. A l'inverse, si on dispose de l'ensemble des données de femmes après un accouchement, qu'elles soient femmes au foyer ou en emploi, mais que l'on ne dispose par exemple pas de données sur un département précis ou sur une année précise, alors on peut penser que la sélection est ici exogène.
- Dans le cas de points aberrants, comme un élément 1 000 fois supérieur à la valeur des autres points, il faut être prudent. Supprimer les données n'est sûrement pas la meilleure solution, car cela correspond sans doute à (1) une erreur dans les données ou (2) peut correspondre à une sous-population reliée à des caractéristiques précises, avec l'utilisation potentiellement bénéfique d'une variable qualitative sur ces points. Cela indique en tout cas l'importance de statistiques descriptives, notamment par des graphiques permettant de clairement visualiser les points aberrants.