Une fois le corpus préparé le chercheur doit procéder à des analyses et soumettre les textes à toute une série d’interrogations, de filtres. Il faut déterminer dans un premier temps la nature des informations à étudier.
C’est à partir de ce travail, du repérage et de la description des indicateurs, que l’on pourra déterminer le mode de « nettoyage », le codage (codage manuel ou codage automatique), l’étiquetage. Pour analyser les résultats, il est indispensable de nettoyer le corpus en enlevant les mots utilisés dans un contexte inutile ou erroné. Les données sont systématiquement catégorisées par rapport aux variables retenues au préalable puis retranscrites sur une feuille de calcul comme Excel pour être dénombrées et analysées.
Deux grandes catégories d’analyses sont alors possibles :
- Les quantitatives : permettent d’analyser un volume important de données (analyses factorielles, de fréquence, de distance inter textuelle). Les données récoltées sont ainsi structurées.
- Les qualitatives : permettent une analyse fine du contenu, à travers notamment les informations linguistiques comme les catégories lexicales, les fonctions syntaxiques, les informations sémantiques. Contrairement aux données quantitatives les données sont ici moins structurées et limitées en termes de volume.
Wallis et Nelson (2001), identifient trois étapes différentes qu’ils appellent 3 A perspective : Annotation, Abstraction, Analyse. Elles permettent du passer du texte aux hypothèses :
- L'annotation consiste à appliquer au corpus des données qui ne sont pas explicitement présentes lors de la compilation de données. En d’autres termes, l’annotation permet d’ajouter des structures linguistiques spécifiques aux données brutes du corpus, comme des étiquettes pour l’analyse syntaxique. (Voir chapitre 10)
- L'abstraction prévoit la traduction des termes spécifiques qui se trouvent dans un ensemble de données.
- L'analyse consiste à examiner, modifier et généraliser cet ensemble de données souvent à travers des évaluations statistiques.
La linguistique de corpus permet une diversité d’approches : extraction de patrons lexico-syntaxiques en utilisant les concordancier ou en créant des grammaires locales, textométrie (tris et calculs statistiques pour l'étude d'un corpus de textes numérisés), TAL, annotation, etc. Les linguistes peuvent tester leurs hypothèses ou vérifier leurs théories grâce aux logiciels (étiqueteur, concordancier ou logiciel d’aide à la transcription de l’oral) dédiés à un traitement automatique des données linguistiques.