Un corpus peut être composé de :

  • Textes complets
  • Ensemble de textes complets
  • Échantillons de textes complets
  • Ensemble de citations
  • Dictionnaires
  • Textes dans une seule ou plusieurs langues

Un corpus peut avoir plusieurs objectifs :

  • Étudier un phénomène linguistique particulier
  • Constituer des ressources linguistiques pour une analyse automatique
  • Étudier l’évolution d’un dialecte ou d’une langue
  • Comparer les travaux d’auteurs
  • Vérifier les emplois pour la traduction
  • Retrouver des informations liées à un phénomène précis, un pays, un personnage
  • Analyser les sources d’un conflit social

En fonction de cet objectif, plusieurs typologies de corpus sont envisageables. On trouve des corpus de références (dits corpus équilibrés ou généraux) et des corpus spécialisés (d’entrainement et de tests, régionaux, de dialectes, d’apprenants, multilingues). Chaque corpus possède ensuite des sous-sous-caractéristiques en fonction :

De la langue du corpus:

  • Corpus monolingue
  • Corpus bilingue
  • Corpus multilingue

De la nature du corpus:

  • Fermé : collecté en se limitant au nombre de textes, de mots ou même d’expressions
  • Ouvert :  apte pour évolution
  • Non annoté (données brutes)
  • Annoté

De l’usage de la langue:

  • Corpus écrit
  • Corpus oral

Du besoin :

  • Le corpus de référence : est constitué d’un ensemble de textes sur lequel on va contraster les corpus d’étude.
  • Le corpus d’étude : est délimité par les besoins de l’application.
  • Le sous-corpus : varie selon l’étude menée et selon les chapitres de travail.

En linguistique, Mayaffre (2005) identifie 3 catégories de corpus :

  • Lexicographiques : de vastes ensembles de mots collectés dans un but de traitement automatique de la langue (TAL) (école de Lancaster)
  • Textuels : regroupements (non complètement représentatifs et non complètement exhaustifs) de données attestées et des textes dans leur ensemble (Sinclair, école de Birmingham)
  • Phrastiques : des phrases construites pour valider ou non des hypothèses linguistiques. Ces corpus n’entrent pas dans le domaine de la linguistique de corpus puisqu’ils ne contiennent pas de texte authentique.

Deux exemples de corpus :

Frantext est la plus ancienne base textuelle composée de textes littéraires, philosophiques, scientifiques et techniques entiers. Elle a été utilisée par les lexicographes pour faire l’inventaire des mots de la langue française et construire un dictionnaire, le Trésor Langue Française (TLF).

Frantext s’apparente à un réservoir à partir duquel le chercheur peut créer son propre corpus en sélectionnant des textes à partir de critères pertinents. Chaque texte est accompagné d’informations pouvant aider à créer son corpus.

Comme Frantexte, Clapi est une base d’enregistrements audio et vidéo qui permet à chacun de faire son propre corpus. Son but est de permettre d’étudier les interactions et le fonctionnement de la langue parlée. Pour cela elle met à disposition des métadonnées (date, auteur, genre, etc, source, nombre de locuteurs) et des listes de phénomènes interactionnels (pause, longues, courtes, chevauchements).