Les 3 dimensions
Volume
Les données du Big Data sont présentes en très gros volume. Les traitements à réaliser nécessitent l’emploi d’un super-calculateur ou d’un réseau de machines sur lesquelles les données et/ou leur traitement seront distribués.
Variété
Les données du Big Data sont d’une grande variété (variety) et sont issues de sources très diverses. Les données du Big Data peuvent notamment être sous forme structurées, semi-structurées ou non structurées.
Vélocité
Les données du Big Data sont produites et manipulées avec une très grande vitesse/vélocité (velocity). Leur traitement en temps réel (real-time) est compliqué : le principe « stocker d’abord traiter ensuite » est souvent appliqué.
Une part importante de la collecte de données du Big Data se fait sous forme de flux ininterrompu : la fouille de flots de données (data stream mining). Seul un échantillon des données du flux est prélevé.
Autres V
D’autres dimensions sont parfois ajoutées aux 3V, comme la véracité (veracity) ou la valeur (value).
Forme des données
Les données structurées
Les données structurées peuvent être rangées et classées dans des structures de type tableaux, avec une structure fixe et bien définie. Stockage type : bases de données relationnelles normalisées.
Les données semi-structurées
Les données semi-structurées sont des données possédant une certaine structure. Cette structure n’est pas uniforme pour l’ensemble des données. Stockage type : bases de données NoSQL.
Les données non structurées
Les données sont dites non structurées lorsqu’elles se trouvent sous forme brute, sans aucune structure. C’est le cas des données arrivant depuis des flux de données, comme les données IoT, les actions utilisateurs sur les réseaux sociaux (like, share...), etc.
Les fichiers multimédias (image, vidéo) et les éléments/fichiers textuels (factures, mails, commentaires sur les réseaux, etc.) font aussi partie de cette catégorie.