Conférencier :

  • – Cédric Raud, Data Scientist chez Trainline

Objectif : Introduire l’intérêt de la visualisation de données et les formats de demain

Résumé de la conférence :

Les données sont partout. Par exemple pour chaque achat que nous réalisons au quotidien, une donnée est produite sur la date d’achat, le produit, le lieu ou encore le prix. Des flux de données sont ainsi constitués : comment les analyser et comment les communiquer ?
La visualisation de données consiste à opérer une sélection et une priorisation pour éviter la surcharge d’information : extraire le signal du bruit. On ne communique pas la donnée brute, mais une donnée transformée.
L’enjeu de la visualisation de données est de favoriser par l’agrégation et la représentation visuelle de l’information, la compréhension et l’exploitation des données. C’est une clé d’aide à la décision et de partage de la connaissance au sein de l’entreprise.

Le processus de modélisation de la donnée

  • / Partir de la donnée brute, conduire une analyse et produire les visualisations, qui sont transmise à l’équipe qui consomme la visualisation. Ce processus ne permet pas une mise à jour rapide de la visualisation car il repose sur des échanges de mail, des mises à jour par itérations voire la production de nouveaux documents.
  • / Le processus cible part de la donnée, transmise dans l’outil de visualisation utilisé directement par l’analyste et l’équipe. Cela permet un accès en permanence à des données mises à jour, la possibilité d’exporter directement la donnée brute, et de réaliser des analyses croisées et évolutives.

Les différents formats de data visualisation

Nous connaissons tous les représentations de données habituelles, telles que :

  • / Le tableau : c’est un point de départ, qui peut s’avérer suffisant pour certains cas d’usage si les informations sont suffisamment synthétiques
  • / Les diagrammes (en bâton, en ligne, par zones) : des outils tels que Sparkline ou Slope permettent d’afficher des données qui évoluent dans le temps
  • / Les données ordonnées : le camembert permet d’afficher des données classées

D’autres formats de data visualisation sont de plus en plus utilisés, comme :

  • / La boite à moustache : représente la répartition des populations
  • / Le Sankey Bar chart, ou la Cascade (Waterfall) : permettent de visualiser une cascade d’évènement, utilisée par exemple dans les navigateurs internet pour afficher le flux de téléchargement des pages
  • / Données spatiales : utilisées pour la visualisation sur une carte, par exemple pour représenter des flux de personnes, à travers plusieurs types de visualisation (carte choroplèthe, carte de chaleur, carte de flux…)
  • / Demain, les alertes automatiques et rapports actionnables seront des formats de plus en plus recherchés en visualisation de données, reposant au maximum sur des requêtes en langage naturel (permettant de s’affranchir des requêtes techniques)

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *