Une annotation est un court texte ou quelques mots dont l’objectif est « d’enrichir » le texte initial à un endroit précis, en général un mot. L’annotation est un apport informationnel de nature différente, Leech parle de « valeur ajoutée » (1997). Elle permet de mettre en avant, d’expliciter, de clarifier, de définir, de commenter, ou de proposer une interprétation d’un mot du texte initial (Garside et al. 1997).
L’annotation est envisagée selon deux points de vue différents, celui de Sinclair, qui privilégie l'annotation minimale (annotation zéro) pour que les textes puissent parler pour "eux-mêmes", et celui de Leech ou de l'équipe de Survey of English Usage qui envisage l'annotation comme une compréhension linguistique plus efficace.
On distingue plusieurs types d’annotations :
• Les morphosyntaxiques : chaque mot du texte est associé une annotation explicitant sa catégorie morphosyntaxique : nom commun, pronom, déterminant, etc. Ce type d’annotation est obtenu grâce à un analyseur, c’est-à-dire un outil de TAL, qui étiquette automatiquement du texte brut tout venant.
• Les sémantiques : on associe « une interprétation stabilisée » aux données brutes (Habert 2005) pour désambiguïser le contenu.
• Les commentaires : correction d’un mot, traduction, expression d’une opinion… En ce sens, l’annotation constitue une intervention postérieure au document et lui demeure extérieure.
La majorité des annotations sémantiques et commentaires sont soit non automatisables dans l’état actuel du TAL, soit automatisables mais avec un taux d’erreur non négligeable.
Le choix de l’annotation se fait essentiellement par rapport à sa finalité. Une annotation automatique facilitera les possibilités d’exploration du texte alors qu’une annotation manuelle pourra, selon les cas, servir à appuyer les arguments d’un chercheur.
Quand c’est l’étude linguistique qui est recherchée, l’essentiel est d’annoter un phénomène linguistique précis, comme les rôles thématiques des groupes nominaux présents dans la même phrase. A l’inverse, quand on cherche l’exploitation de techniques, on valorise la couverture et à la répartition des annotations dans le texte plutôt que leur approfondissement linguistique. Plutôt que des annotations très fines mais éparses, il est souvent préféré un ensemble d’annotations consensuelles telles que les lemmes ou les catégories morphosyntaxiques.