Retour

Les données structurées et leur traitement

🎲 Quiz GRATUIT

📝 Mini-cours GRATUIT

Introduction

Toute activité numérique est représentée à partir de données.

On peut distinguer :

  • Les données structurées qui sont des informations (codant des mots, des chiffres ou des signes) qui peuvent être stockées dans des champs d'une base de données ou dans des fichiers textes.

  • Des données non structurées qui ne sont pas organisées en base de données. On peut citer les fichiers bureautiques, les images, les sons, les vidéos, les courriels.

Effectuer un traitement sur des données c'est :

  • Utiliser des données en entrée ;
  • Effectuer des opérations de calcul sur ces données ;
  • Afficher les résultats.

Les données en tant qu'objets numériques forment un bien non rival.

En économie, la non-rivalité désigne le fait que la consommation d'un bien par une personne n'a pas d'effet sur la quantité disponible de ce bien pour les autres individus.

En effet, les données numériques dont la copie ne coûte quasiment rien, peuvent être dupliquées sans être consommées.

Repères historiques

  • 1930 : utilisation des cartes perforées, premier support de stockage de données.

  • 1956 : invention du disque dur permettant de stocker de plus grandes quantités de données, avec un accès de plus en plus rapide.

  • 1970 : invention du modèle relationnel (E. L. Codd) pour la structuration des bases de données.

  • 1979 : création du premier tableur : VisiCalc.

  • 2009 : Open Government Initiative du président Obama.

  • 2013 : charte du G8 pour l’ouverture des données publiques.

  • En 2015, une journée dans le monde numérique c’est :
    • 540 millions de SMS envoyés ;
    • 145 milliards d’e-mails échangés ;
    • 104 000 heures de vidéos mises en ligne sur Youtube ;
    • 4,5 milliards de recherches sur Google ;
    • 552 millions d’utilisateurs connectés à Facebook ;
    • 400 millions de tweets envoyés.

Les formats des données

Une donnée est une valeur décrivant un objet ou une personne.

Le descripteur d'une donnée est un identifiant décrivant le type de la donnée (Exemple : les descripteurs utiles pour un contact dans un agenda sont : le nom, le prénom, l'adresse postale, un courriel, un numéro de téléphone de la personne).

Une collection regroupe des objets partageant les mêmes descripteurs (par exemple, la collection des contacts d’un carnet d’adresses).

Les tables de données

Les données sont souvent représentées sous la forme de tableaux.

La structure de table permet de présenter une collection : les objets en ligne, les descripteurs en colonne et les données à l’intersection. 

Pour assurer la persistance des données, ces dernières sont stockées dans des fichiers.

Quelques exemples de format de fichier stockant des données

  • Le format CSV (Comma Separated Values).

C'est un format de fichier simple permettant d’enregistrer une table de données.

Exemple de fichier csv : 

La première ligne est une entête qui donne les noms des colonnes du fichier.

La représentation de ce fichier en table est la suivante :

Dans cet exemple, le fichier CSV contient une liste de films avec comme informations : le titre, le réalisateur et l'année de sortie du film.

Il est possible d'utiliser un autre caractère de séparateur que la virgule.

  • Le format VCard (Visit Card : carte de visite)
    Il permet de stocker une collection de contacts.

Exemple de fiche vcf : Jean_Dupont.vcf

  • Le format JSON (JavaScript Object Notation) (JSON)

C'est un format de données textuelles dérivé de la notation des objets du langage JavaScript.

Exemple de fichier JSON :

Ce fichier est une transposition au format JSON du fichier CSV précédent sur les réalisateurs de films.

Les bases de données

Une structuration plus fine qui évite la redondance (c’est-à-dire la répétition) et améliore la sécurité des données peut être réalisée avec l'utilisation de base de données.

Une base de données est une collection de données structurées relatives à un ou plusieurs domaines du monde réel.

Le modèle le plus couramment utilisé dans le domaine des bases de données est qualifié de relationnel (on le note avec le sigle SGBDR pour Système de Base de Données Relationnelle).

Les objets d'une base de données relationnelles sont des tables reliées entre elles par des relations.

Exemple sur les films :

Ici ce modèle très simple contient deux tables : Film et Personne.

Chaque enregistrement des deux tables est caractérisé par un identifiant unique : id_film pour la table Films et id_personne pour la table Personne.

Ces identifiants sont des nombres entiers.

Le réalisateur et l'acteur principal d'un film sont aussi caractérisés par des identifiants (id_realisateur et id_acteur_principal) qui sont en correspondance avec l'attribut id_personne de la table Personne.

Dans notre exemple, le contenu de la table Film est le suivant :

Et celui de la table Personne est :

Un langage spécifique nommé SQL (Structured Query Language) permet de mettre à jour ou d'interroger les bases de données relationnelles à l'aide de requêtes.

Les métadonnées

Une métadonnée est littéralement une donnée sur une donnée.

Ainsi à tout fichier sont associées des métadonnées qui permettent d’en décrire le contenu. Ces métadonnées varient selon le type de fichier (date et coordonnées de géolocalisation d’une photographie, auteur et titre d’un fichier texte, etc.)

Les données comme les métadonnées sont de différents types (numériques, textes, dates) et peuvent être traitées différemment (calcul, tri, affichage, etc.)

Les opérations effectuées sur les tables de données

Une table de données peut faire l’objet de différentes opérations : rechercher une information précise dans la collection, trier la collection sur une ou plusieurs propriétés, filtrer la collection selon un ou plusieurs critères, effectuer des calculs, mettre en forme les informations produites pour une visualisation par les utilisateurs.

Le stockage des données

Les fichiers de données sont stockés sur des supports de stockage : internes (disque dur ou SSD) ou externes (disque, clé USB), locaux ou distants (cloud). Ces supports pouvant être endommagés, des sauvegardes régulières doivent être effectuées.

Les grandes bases de données sont souvent stockées sur des serveurs dédiés (machines puissantes avec une importante capacité de stockage sur disques). Ces centres de données doivent être alimentés en électricité et maintenus à des températures suffisamment basses pour fonctionner correctement.

Big Data et accès aux données

L’évolution des capacités de stockage, de traitement et de diffusion des données fait qu’on assiste aujourd’hui à un phénomène de surabondance des données et au développement de nouveaux algorithmes capables de les exploiter.

En 2018, le volume total d’informations stockées dans les systèmes informatiques du monde entier atteint 33 zettaoctets (1 zo = $10^{21}$ octets = mille milliards de milliards d'octets).

Des datacenter (centres de données) stockent toutes ces données.
Ces datacenters consomment beaucoup d'énergie et génèrent une pollution importante. 

De ce fait, une réflexion structurée est à mettre en œuvre pour limiter l'impact négatif d'une utilisation massive des Big data et de leur hébergement dans le cloud.

Certaines de ces données sont en libre accès (on les nomme OpenData)
Cependant certaines données sensibles sont parfois monnayées à l'insu des utilisateurs sur lesquelles elles portent.

En 2018, un règlement général sur la protection des données (RGPD) a été mis en place en Europe pour régir la collecte et l'utilisation des données numériques.

Ce règlement renforce et unifie la protection des données pour les individus au sein de l'Union européenne.

🍀 Fiches de révision PREMIUM

PREMIUM

Architecture Client Serveur

PREMIUM

Le réseau

PREMIUM

Les réseaux sociaux

PREMIUM

Html et CSS

PREMIUM

Html formulaire

PREMIUM

Python

Nomad+, Le pass illimité vers la réussite 🔥

NOMAD EDUCATION

L’app unique pour réussir !