Les signaux sonores vocaux ou musicaux sont des signaux qui varient de façon continue au cours du temps, c'est-à-dire analogiques. Pour être stockés ou transmis, ces signaux doivent être numérisés, convertis en signaux numériques par un convertisseur analogique-numérique $\rm (CAN)$. Les signaux numériques varient de manière discontinue au cours du temps, autrement dit par paliers.

Le procédé de numérisation est composé de deux étapes :

  • L'échantillonnage qui consiste à prélever des échantillons du signal analogique périodiquement. La fréquence d’échantillonnage $\rm f_e$ est le nombre de prélèvements effectués par seconde.
  • La quantification consiste à donner une valeur à l’échantillon prélevé, cette valeur étant quantifiée, et ne pouvant donc prendre que des valeurs permises.

Une numérisation de bonne qualité doit permettre d’obtenir un signal numérique aussi fidèle que possible au signal analogique initial.
Pour cela, il faut découper le signal en échantillons (« samples » en anglais) de durée égale $\rm T_e$. La fréquence d’échantillonnage $\rm f_e$ correspond au nombre d’échantillons par seconde : $\rm f_e = \dfrac{1}{T_e}$

Plus la fréquence d’échantillonnage sera grande, plus le nombre d’échantillons sera grand, plus le signal numérique « collera » au signal analogique et donc meilleure sera la numérisation :

Théorème de Shannon :

Pour numériser convenablement un signal, il faut que la fréquence d'échantillonnage soit au moins deux fois supérieure à la fréquence du signal à numériser. 

De même, plus la quantification est grande, plus l’amplitude du signal numérique sera proche de celle du signal analogique.

Plus la fréquence d’échantillonnage est élevée et plus la quantification est grande, alors plus la taille du fichier audio est grande.
La taille du fichier numérique se calcule avec :

  1. Taille du fichier (en nombre de bit) = fréquence d’échantillonnage $\times$ quantification (en bit) $\times$ durée (en seconde) $\times$ nombre de voies utilisées (2 voies si l’enregistrement est en stéréo).
  2. Taille du fichier (en octets) = taille du fichier (en nombre de bit) / 8.

Plus la numérisation est fidèle, plus la taille du fichier audio est grande, donc plus il faut le compresser pour diminuer sa taille afin d’en faciliter le stockage et la transmission. Le taux de compression est le rapport de taille entre le fichier de départ et le fichier compressé.
Les techniques de compression spécifiques au son, dites « avec perte d’information », éliminent les informations sonores auxquelles l’oreille est peu sensible.