Au départ, la linguistique de corpus caractérise des recherches britanniques, néerlandaises et scandinaves travaillant sur des corpus informatisés anglais. Au sein de ces travaux, deux courants se distinguent clairement.
Ces deux courants, qui apparaissent dans les années 60, sont issus de la London School fondée par le phonéticien Daniel Jones et le linguiste John Rupert Firth. Il s’agit des courants « corpus-based » et « corpus-driven ».
Le premier, le « corpus-based » - souvent rattaché à la figure de Leech - considère le corpus comme un réservoir d’exemples. Ces exemples sont des données permettant de confirmer ou d’infirmer une hypothèse de travail ou une théorie linguistique. Le corpus est une méthode de recherche en lui-même. Leech s’oppose à l’approche générative de Chomsky, qui étudie plutôt la compétence de la langue que sa performance Pour ce dernier, la performance est à la fois plus concrète, plus utile pour la didactique que la compétence. Il remet aussi en question l’opposition compétence/performance qui ne serait pas si nette que cela.
Le « corpus-driven », aussi appelé l’approche contextualiste inductive (William), à l’inverse, va à l’encontre d’un corpus envisagé comme un réservoir. Pour les représentants de cette approche, dont Sinclair, héritier de Firth, est l’un des représentants iconiques, le corpus est la seule source de théories et d’hypothèses linguistiques.
Cette branche considère qu’il faut « laisser parler le texte ». Pour Sinclair, le sens des mots provient de leur utilisation dans le contexte. Il prend ainsi ses distances avec la dimension sociolinguistique et s’attache principalement au contexte de situation. Dans Corpus, Concordance, Collocation, sortir en 1991, Sinclair formule ainsi que la grammaire émerge du texte sans a priori théorique, se distinguant clairement de l’approche « corpus-based ».
Si dans l’approche « corpus-driven », on pense qu’il faut faire un minimum d’intervention sur le corpus (idée de zéro annotation), l’approche « corpus-based » va justement se concentrer sur la conception d’outils d’annotation vont développer des méthodes comme les TAL (traitement automatique du langage naturel).
Enfin, le « corpus-driven » s’inscrit dans la lignée de la linguistique empiriste firthienne, alors que le courant « corpus-based » est en rupture radicale avec celle-ci. Leur idée est de créer d’une nouvelle linguistique (Léon, 2008).