Tout d’abord, une diphtongaison se définit comme un groupe de deux voyelles appartenant à la même syllabe, prononcées en une seule émission de voix. Toutes les voyelles libres accentuées peuvent se diphtonguer sous l’influence de l’accent d’intensité, à l’exception du i long et du u long. Après s’être allongée, la voyelle est segmentée en deux éléments vocaliques dont le premier porte l’accent (diphtongue décroissante) et se distingue du second par le degré d’aperture vers le IIe–IIIe siècle. Cela aboutit à la formation d'une diphtongaison dite spontanée.
La diphtongaison a alors lieu vers le IIIe s.–IVe s. pour le é et le o brefs accentués : ce sont les diphtongaisons dites romanes : après l’étape de la segmentation au IIe s. (ĕ ou ae > ẹ́ę et ǫ > ǫ́ǫ), survient, au IIIe s., la différenciation qui conduit à la fermeture de la première voyelle (ẹ́ę > íę et ǫ́ǫ > úǫ) avant la fermeture de la première voyelle de la diphtongue ainsi obtenue :
ĕ́ ou áe > IIe s. ẹ́ę > IIIe s. íę
ŏ́ > ǫ́ > ǫ́ǫ > úǫ
L’écart d’aperture se réduit ensuite par la fermeture du deuxième élément vocalique vers le VIIe siècle, par assimilation d’aperture (íe/úe), avant le basculement de l’accent sur la deuxième voyelle, qui conduit à la consonnification de la première et donc à la disparition de la diphtongue (yé/ ẅœ̣́) vers le XIIe siècle. La loi de position, au XVIIe s., ouvre le deuxième élément uniquement devant une consonne articulée.
Ainsi, l’évolution de la diphtongaison romane suit le schéma suivant à partir du VIIe siècle :
- VIIe s. íę >íẹ > XIIe s. yẹ́ > XVIIe s. yẹ́ / yę́ avec un é fermé ou ouvert devant une consonne articulée ;
- VIIe s. úǫ > úọ > XIIe s. úẹ > üœ̣ > XIIIe s. ẅœ̣́ > œ̣́ (disparition du ü après sa consonnification) > XVIIe s. œ̣́ ou œ̨ devant une consonne articulée (loi de position).