Pour faire un corpus une méthodologie précise est de rigueur. Dans un premier temps, il s’agit de délimiter avec précision l’objet de l’étude (un même corpus ne sera pas toujours pertinent en fonction de l’objectif de l’étude). Cela peut-être un thème, un personnage, un auteur, un phénomène linguistique… Il est ensuite intéressant d’établir une première bibliographie afin de préciser son objet de recherche et de découvrir les réalités linguistiques et éditoriales de l’époque analysée.

Puis, il est nécessaire de définir des critères de sélection :

  • Le mode du texte (écrit, oral, électronique)
  • Le type (roman, article de journal, lettre, annonce, sms)
  • La taille
  • Le registre : familier, académique, populaire
  • La langue, les limites linguistiques (quelles langues retient-on pour le corpus ? va-t-on prendre en compte les traductions ou non…)
  • L’époque
  • Les variations : internes, externes
  • Le lieu de publication

Cette première étape sert à poser les limites de son sujet : limites géographiques, chronologiques et linguistiques.

Il faut ensuite identifier les sources pertinentes et vérifier qu’elles respectent deux points fondamentaux :

  • Être homogènes : les documents retenus doivent obéir à des critères de choix précis et ne pas présenter trop de singularités en dehors des critères de choix
  • Être représentatives : obtenir un échantillon représentatif du phénomène que l’on cherche à étudier

Il est également primordial de définir à ce moment-là les aspects techniques et organisationnels du corpus : quelles sont les informations d’annotation que l’on va mettre et les outils qu’on va utiliser pour rassembler et noter les textes (par exemple Annotea, Gate, Oxygène,XLM Starlet, Notepad ++).

Le dernier temps est consacré au nettoyage du corpus, c’est-à-dire à la vérification du corpus et à son éventuelle correction à la main. Il s’agit de vérifier qu’il n’y a pas de doublon, que l’ensemble des documents respecte bien les critères établis au préalable. Il est important de garder à l’esprit que si le corpus est de taille trop importante, cette vérification manuelle sera impossible.