Après avoir réduit les redondances spatiales à l'intérieur de chaque image grâce à l'algorithme JPEG, la compression MPEG se poursuit en s'appliquant à des groupes d'images appelés Gop ("Group of pictures"). Ils constituent l'entité redondante de la structure MPEG et se compose de trois types d'image :

L'image I (Intra) : elle est codée en mode intra-image et est entièrement décrite par elle-même, sans aucune référence à d'autres, elle contient tous les éléments nécessaires à sa reconstruction. Ce sont les images les plus volumineuses d'un Gop. 

L'image P (Prédite) : elle est prédite à partir d'une image I ou P. Elle est codée uniquement à l'aide de vecteurs de mouvement indiquant les déplacements de ces éléments par rapport à l'image de référence. Elle est moins volumineuse qu'une image I mais peut transmettre des erreurs de codage.

L'image B (Bi-directionnelle) : elle est construite à l'aide de vecteurs mouvement par interpolation bi-directionnelle entre les images passées ou futures I ou P voisines. Elle offre le taux de compression le plus élevé mais ne transmet pas d'erreur car elle n'est jamais utilisée en référence. Elle est 6 fois moins volumineuse qu'une image I. C'est grâce aux images B que l'on peut faire chuter de manière drastique le débit d'un flux MPEG.

Un Gop se commence toujours par une image I et se termine par une dernière image précédant la prochaine image I. Il peut être composé seulement d'une image I, ou alors être composé d'une combinaison d'images I et P, I et B ou bien I, P, et B.