Un corpus peut être composé : de textes complets, d’un regroupement d’échantillons ou de textes complets, de citations. Il peut également être écrit ou oral. La quantité de mots ou de phrases varie aussi (pour Bibber (1988), 1000 mots sont suffisants).

Sinclair considérait le corpus comme un « vaste ensemble de mots ».  Aujourd’hui, le corpus est davantage défini comme un ensemble de textes (oraux ou écrits) et non simplement comme un ensemble de mots ou de phrases qui ne s’observent pas de manière isolée : ils restent toujours relatifs à un genre et un discours, à un contexte.

Néanmoins, comme le note Rastier (2011) « Tout regroupement de textes ne mérite pas le nom de corpus ».

En 1996, John Sinclair (1996, p. 4), propose ainsi une définition largement reprise depuis : « Un corpus est une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques explicites pour servir d'échantillon du langage. ». En d’autres termes, le corpus est une sélection et une organisation de données représentatives utilisées en vue d’un objectif.

Rastier affine cette définition : « Un corpus est un regroupement structuré de textes intégraux, documentés, éventuellement enrichis par des étiquetages, et rassemblés : (i) de manière théorique réflexive en tenant compte des discours et des genres, et (ii) de manière pratique en vue d’une gamme d’applications.»

Ainsi, une banque textuelle ou une banque d’archive ne forment pas nécessairement des corpus. Elles forment des assemblages non-structurés de textes ou de mots, aucun critère linguistique n’est établi au préalable, à l’inverse de la démarche structurée du corpus.

On trouve habituellement des études de corpus bibliques, littéraires, lexicologiques, dialectologiques, didactiques.