Découverte du concept de granularité

Objectifs de formation

Une fois cette unité terminée, vous pourrez :

Définir la granularité
Identifier les effets de l’agrégation et de la granularité sur les données

Présentation du concept de granularité

Le terme « granularité » fait référence au niveau de détail des données. Dans l’unité précédente, vous avez observé le graphique à barres suivant, avec toutes les valeurs du champ Age (Âge) agrégées sous forme de somme. L’information n’y étant pas très détaillée, elle a une faible granularité.

Le graphique à barres affiche des données entièrement agrégées, avec un nombre unique pour l’ensemble des données. Le graphique de dispersion affiche des données entièrement désagrégées, avec un repère pour chaque valeur. Le graphique de dispersion est plus détaillé et présente donc une granularité plus élevée que le graphique à barres. Le graphique à barres présente une agrégation élevée et une faible granularité. Le graphique de dispersion présente une agrégation faible et une haute granularité.

Ces données désagrégées ont le niveau de détail le plus élevé, ce qui fournit la granularité la plus élevée parmi toutes les visualisations. La « finesse du niveau de détail » est l’une des caractéristiques des données pertinentes, comme l’explique le module Des données bien structurées.

Exemples de granularité

Poursuivons la découverte du concept de granularité. Nous allons utiliser un ensemble de données avec des informations sur les ventes d’une entreprise et examiner les données à l’aide de différents niveaux de granularité.

Cet ensemble de données contient plus de 50 000 lignes. Chacune de ces lignes contient des informations au sujet d’une seule transaction. La granularité la plus faible (agrégation la plus élevée) vous présente des tendances générales. Lorsque vous augmentez la granularité (agrégation plus faible), vous pouvez avoir une vue plus détaillée des tendances.

Un nuage de points est un graphique qui permet de placer des données numériques (variables quantitatives) sur l’axe vertical et l’axe horizontal pour observer des corrélations ou des relations entre les deux valeurs. Dans cet exemple, nous utilisons un nuage de points pour explorer la relation entre les ventes et les bénéfices d’une entreprise.

Affichage d’un nuage de points avec deux variables quantitatives

Nous commençons avec les variables quantitatives Profit (Bénéfices) et Sales (Ventes), présentées dans le nuage de points suivant.

Ici, le graphique présente le montant du chiffre d’affaires par rapport à celui des bénéfices. Les deux nombres sont comparés à un seul point de données ou repère, car les ventes et les bénéfices sont entièrement regroupés en un seul nombre (somme des ventes et somme des bénéfices).

Ces données ne sont pas très détaillées, elles ont donc une faible granularité. Pour en savoir plus sur les bénéfices et les ventes de l’entreprise, les données doivent être plus granulaires.

Un nuage de points avec un seul point de données, ou repère.

Affichage d’un nuage de points avec ajout d’une variable qualitative

Lorsque vous ajoutez une variable qualitative au nuage de points, la granularité des données augmente.

Avec la variable qualitative Catégorie fonctionnant avec un code couleur, les données sont maintenant séparées en trois repères, un par catégorie de produits vendus. Les données sont plus granulaires que dans le nuage de points avec un seul repère, mais vous souhaitez peut-être consulter les données de manière encore plus détaillée.

Observez les bénéfices par catégorie dans le nuage de points suivant. Les bénéfices relatifs au mobilier sont inférieurs à ceux des deux autres catégories. Pour aller plus loin, il peut être judicieux d’augmenter la granularité en vérifiant si cette tendance est présente au sein de tous les marchés géographiques.

Un nuage de points avec trois points de données, ou repères.

Affichage d’un nuage de points avec ajout d’une deuxième variable qualitative

Lorsque la variable qualitative Region (Zone) est ajoutée à la visualisation suivante, vous pouvez déterminer si le mobilier génère des bénéfices inférieurs sur tous les marchés géographiques. Le nombre de zones discrètes dans la source de données est multiplié par le nombre de catégories, afin de créer des repères dans le nuage de points. Ainsi, les 13 régions sont multipliées par les trois catégories pour créer 39 repères sur le nuage de points.

Les données sont maintenant suffisamment granulaires pour que vous puissiez voir une cause potentielle des faibles bénéfices enregistrés pour le mobilier. La zone Asie du Sud-Est présente une rentabilité pour le mobilier sensiblement plus faible que les autres zones. Vous pouvez continuer à augmenter la granularité des données pour analyser plus en détail les pertes relatives au mobilier dans cette zone.

Un nuage de points avec 39 points de données (repères), et le repère Asie du Sud-Est mis en évidence.

Affichage d’un nuage de points avec des données filtrées

Vous pouvez remarquer que la zone d’Asie du Sud-Est présente des bénéfices en matière de mobilier sensiblement plus faibles que les autres zones. Vous voulez déterminer si cette absence de rentabilité est due à seulement une ou deux transactions, ou si de nombreuses transactions ne sont pas lucratives.

Vous savez que l’ensemble de données contient une seule ligne pour chaque transaction. Si les données sont désagrégées, vous pouvez observer un point de données (repère) pour chaque transaction de l’ensemble de données. Cependant, avant de désagréger les données à ce niveau, filtrez-les pour ne conserver que les transactions concernant le mobilier dans la région Asie du Sud-Est.

Le nuage de points suivant montre que les données filtrées ne contiennent qu’un seul repère relatif au mobilier en Southeast Asia (Asie du Sud-Est).

Le nuage de points ne contient qu’un seul repère, concernant le mobilier dans la zone Asie du Sud-Est.

Les filtres ne modifient pas la granularité des données, car le niveau de détail reste le même. Les filtres excluent simplement les transactions qui ne sont pas pertinentes pour votre analyse.

Affichage des données désagrégées

Les données étant filtrées pour n’afficher que celles concernant le mobilier en Asie du Sud-Est, vous êtes maintenant en mesure de voir les données à leur niveau de granularité le plus élevé.

La désagrégation des données affiche un repère distinct pour chaque valeur de données dans chacune des lignes des données sélectionnées. Dans la visualisation suivante, vous pouvez voir un repère pour chaque transaction concernant le mobilier dans la zone Asie du Sud-Est. Une telle exploration des niveaux de granularité conduit à une découverte importante : dans la zone d’Asie du Sud-Est, de nombreuses transactions relatives au mobilier ne sont pas rentables.

Un nuage de points avec toutes les transactions concernant le mobilier en Asie du Sud-Est. La valeur 0 $ est mise en surbrillance pour indiquer les transactions non rentables.

Vous savez maintenant quels effets les agrégations prédéfinies ont sur les données, et quelle incidence les différents niveaux de granularité ont sur l’analyse des données.

Durée estimée

Thèmes

Besoin d'aide ?

Ressources Tableau

Découverte du concept de granularité

Objectifs de formation

Présentation du concept de granularité

Exemples de granularité

Ressources