Retour

Probabilité linéaire, logit et probit

📝 Mini-cours GRATUIT

L'estimateur du maximum de vraisemblance

Dans le cadre de logit et de probit, on estime les $\beta$ par la méthode dite du maximum de vraisemblance. On utilise la fonction de vraisemblance notée $L (\widehat{\beta}) $ et égale à $P(Y=1|\beta_{0} + \beta^{'}X^{'})$ pour l'ensemble des observations. L'efficacité du maximum de vraisemblance est vérifiée asymptotiquement, avec aucun autre estimateur plus efficace. La fonction de distribution de la probabilité doit suivre 3 conditions : 

  1. la fonction $F(\beta^{'} X^{'})$ est croissante par rapport à $\beta^{'} X^{'}$ ;
  2. la probabilité $P(Y=1)$ tend vers $1$ quand $\beta^{'} X^{'}$ tend vers $+ \infty$ ; 
  3. la probabilité $P(Y=1)$ tend vers $0$ quand $\beta^{'} X^{'}$ tend vers $- \infty$.

Le choix d'une loi normale $N(0,1)$ signifie que l'on considère le modèle probit, alors que le choix de la loi logistique, modèle encore plus facile à utiliser, signifie que l'on considère le modèle logit.

Le critère ROC

Un des critères indiquant la pertinence du modèle de probabilité est le critère $\mathrm{ROC}$, dit Receiver Operating Characteristics. Chaque modèle va être plus ou moins performant pour déterminer les vrais positifs (le modèle indique une forte probabilité de succès et il y a effectivement un "succès") et les faux positifs (le modèle indique une forte probabilité de succès alors qu'il n'y en a pas). Il faut noter que cette performance est aussi dépendante du seuil choisi pour déterminer si la probabilité est suffisamment haute pour indiquer qu'il y a un succès ou non.

En effet, si l'on décide que le seuil sera à $40\%$, et qu'un modèle indique une probabilité de réussite de $45\%$ pour une observation donnée effectivement considérée comme un succès, alors cette dernière sera considérée comme un vrai positif. Si, au contraire, le seuil est à $50\%$, la même observation sera considérée comme un échec. Le critère $\mathrm{ROC}$ permet d'englober toutes les situations, en essayant à chaque fois chaque seuil. Lorsque le seuil est très faible, la probabilité d'annoncer un succès sera très grande, donc il y a aura beaucoup de vrais positifs comme beaucoup de faux positifs. A l'inverse, lorsque le seuil est très élevés, il y aura très peu de vrais positifs comme de faux positifs. 

Graphiquement, cette méthode se place dans le repère (faux positifs, vrais positifs) et on regarde la courbure de la courbe vis-à-vis de la première bissectrice. Plus l'aire est grande, plus la courbe est éloignée de la première bissectrice et donc plus le contenu informatif du modèle est grand. Le critère $\mathrm{ROC}$ correspondant à cette aire, il est compris entre $0$ et $1$. Plus le critère est proche de $1$, plus le contenu informatif du modèle est grand. Si au contraire, le critère $\mathrm{ROC}$ est proche de $0,5$ alors le modèle ne prédit rien, car cela signifie qu'il y a autant de vrais positifs que de faux positifs, et ce, quel que soit le seuil utilisé.

Nomad+, Le pass illimité vers la réussite 🔥

NOMAD EDUCATION

L’app unique pour réussir !