Découverte du concept de granularité
Objectifs de formation
Une fois cette unité terminée, vous pourrez :
- Définir la granularité
- Identifier les effets de l’agrégation et de la granularité sur les données
Présentation du concept de granularité
Le terme « granularité » fait référence au niveau de détail des données. Dans l’unité précédente, vous avez observé le graphique à barres suivant, avec toutes les valeurs du champ Age (Âge) agrégées sous forme de somme. L’information n’y étant pas très détaillée, elle a une faible granularité.
Le graphique à barres affiche des données entièrement agrégées, avec un nombre unique pour l’ensemble des données. Le graphique de dispersion affiche des données entièrement désagrégées, avec un repère pour chaque valeur. Le graphique de dispersion est plus détaillé et présente donc une granularité plus élevée que le graphique à barres. Le graphique à barres présente une agrégation élevée et une faible granularité. Le graphique de dispersion présente une agrégation faible et une haute granularité.
Ces données désagrégées ont le niveau de détail le plus fin, ce qui fournit la granularité la plus élevée parmi toutes les visualisations. La « finesse du niveau de détail » est l’une des caractéristiques des données pertinentes, comme l’explique le module Des données bien structurées.
Exemples de granularité
Poursuivons la découverte du concept de granularité. Nous allons utiliser un ensemble de données avec des informations sur les ventes d’une entreprise et examiner les données à l’aide de différents niveaux de granularité.
Cet ensemble de données contient plus de 50 000 lignes. Chacune de ces lignes contient des informations au sujet d’une seule transaction. La granularité la plus faible (agrégation la plus élevée) vous présente des tendances générales. Lorsque vous augmentez la granularité (agrégation plus faible), vous pouvez avoir une vue plus détaillée des tendances.
Un nuage de points est un graphique qui permet de placer des données numériques (variables quantitatives) sur l’axe vertical et l’axe horizontal pour observer des corrélations ou des relations entre les deux valeurs. Dans cet exemple, nous utilisons un nuage de points pour explorer la relation entre les ventes et les bénéfices d’une entreprise.
Affichage d’un nuage de points avec deux variables quantitatives
Nous commençons avec les variables quantitatives Profit (Bénéfices) et Sales (Ventes), présentées dans le nuage de points suivant.
Ici, le graphique présente le montant du chiffre d’affaires par rapport à celui des bénéfices. Les deux nombres sont comparés à un seul point de données ou repère, car les ventes et les bénéfices sont entièrement regroupés en un seul nombre (somme des ventes et somme des bénéfices).
Ces données ne sont pas très détaillées, elles ont donc une faible granularité. Pour en savoir plus sur les bénéfices et les ventes de l’entreprise, les données doivent être plus granulaires.
Affichage d’un nuage de points avec ajout d’une variable qualitative
Lorsque vous ajoutez une variable qualitative au nuage de points, la granularité des données augmente.
Avec la variable qualitative Catégorie fonctionnant avec un code couleur, les données sont maintenant séparées en trois repères, un par catégorie de produits vendus. Les données sont plus granulaires que dans le nuage de points avec un seul repère, mais vous souhaitez peut-être consulter les données de manière encore plus détaillée.
Observez les bénéfices par catégorie dans le nuage de points suivant. Les bénéfices relatifs au mobilier sont inférieurs à ceux des deux autres catégories. Pour aller plus loin, il peut être judicieux d’augmenter la granularité en vérifiant si cette tendance est présente au sein de tous les marchés géographiques.
Affichage d’un nuage de points avec ajout d’une deuxième variable qualitative
Lorsque la variable qualitative Region (Zone) est ajoutée à la visualisation suivante, vous pouvez déterminer si le mobilier génère des bénéfices inférieurs sur tous les marchés géographiques. Le nombre de zones discrètes dans la source de données est multiplié par le nombre de catégories, afin de créer des repères dans le nuage de points. Ainsi, les 13 régions sont multipliées par les trois catégories pour créer 39 repères sur le nuage de points.
Les données sont maintenant suffisamment granulaires pour que vous puissiez voir une cause potentielle des faibles bénéfices enregistrés pour le mobilier. La zone Asie du Sud-Est présente une rentabilité pour le mobilier sensiblement plus faible que les autres zones. Vous pouvez continuer à augmenter la granularité des données pour analyser plus en détail les pertes relatives au mobilier dans cette zone.
Affichage d’un nuage de points avec des données filtrées
Vous pouvez remarquer que la zone d’Asie du Sud-Est présente des bénéfices en matière de mobilier sensiblement plus faibles que les autres zones. Vous voulez déterminer si cette absence de rentabilité est due à seulement une ou deux transactions, ou si de nombreuses transactions ne sont pas lucratives.
Vous savez que l’ensemble de données contient une seule ligne pour chaque transaction. Si les données sont désagrégées, vous pouvez observer un point de données (repère) pour chaque transaction de l’ensemble de données. Cependant, avant de désagréger les données à ce niveau, filtrez-les pour ne conserver que les transactions concernant le mobilier dans la région Asie du Sud-Est.
Le nuage de points suivant montre que les données filtrées ne contiennent qu’un seul repère relatif au mobilier en Southeast Asia (Asie du Sud-Est).
Affichage des données désagrégées
Les données étant filtrées pour n’afficher que celles concernant le mobilier en Asie du Sud-Est, vous êtes maintenant en mesure de voir les données à leur niveau de granularité le plus élevé.
La désagrégation des données affiche un repère distinct pour chaque valeur de données dans chacune des lignes des données sélectionnées. Dans la visualisation suivante, vous pouvez voir un repère pour chaque transaction concernant le mobilier dans la zone Asie du Sud-Est. Une telle exploration des niveaux de granularité conduit à une découverte importante : dans la zone d’Asie du Sud-Est, de nombreuses transactions relatives au mobilier ne sont pas rentables.
Vous savez maintenant quels effets les agrégations prédéfinies ont sur les données, et quelle incidence les différents niveaux de granularité ont sur l’analyse des données.
Ressources
-
Aide Tableau : Nuages de points, agrégation et granularité
-
Site Tableau : vidéos de formation gratuites
-
Site externe : Tutoriels Tableau : comment créer un graphique de dispersion