La linguistique de corpus est une branche de la linguistique qui étudie le langage à travers des exemples contenus dans des textes réels, c’est-à-dire la langue dite « authentique », non idéalisée. Jusqu’alors la linguistique construisait des exemples pour illustrer une hypothèse préexistante. Avec la linguistique de corpus, le principe est de se confronter au langage réel, c’est pourquoi on parle aussi de linguistique d’usage, de terrain. Son but est de trouver des explications à des phénomènes langagiers réels.
Pour se faire, la linguistique de corpus se propose de travailler sur ou à partir d’un corpus. Son objectif est de mettre en évidence des phénomènes qui seraient non perceptibles de manière isolée, comme par exemple la présence simultanée de deux ou plusieurs unités linguistiques non nécessairement liés par des relations formelles ou syntaxiques, mais possédant pourtant un lien linguistique (nuit/noire ; port/bateau). On nomme ce phénomène des cooccurrences.
Effectivement, le corpus, par sa dimension quantitative, permet de calculer la fréquence ou la signifiance d’un phénomène. Il permet également de s’éloigner de la binarité du classique jugement de grammaticalité possible / impossible en parlant plutôt de production syntaxique rare ou productive.
C’est pour ces raisons que nous retrouvons la linguistique de corpus dans toutes les disciplines linguistiques : lexicologie, syntaxe, pragmatique, sociolinguistique, langues de spécialité.
Cette approche de la langue à travers ses usages renouvelle les études linguistiques. Comme l’écrit François Rastier (2002), « Le nouveau rapport à l’empirique entraîne un nouveau rapport au théorique. ». La linguistique de corpus atténue ainsi, par exemple, la dualité entre langue (acte social) et parole (acte individuel) proposée par Saussure.