Skip to main content
Join the Agentforce Hackathon on Nov. 18-19 to compete for a $20,000 Grand Prize. Sign up now. Terms apply.

Examen de la corrélation entre des données

Objectifs de formation

Une fois cette unité terminée, vous pourrez :

  • Donner la définition de la corrélation
  • Faire la différence entre les corrélations faibles et fortes

Vers la maîtrise des données

La data literacy constitue la compétence de base pour pouvoir utiliser les données avec aisance et s’en servir pour communiquer. 

Le module Concepts de base de la data literacy décrit les variables quantitatives comme étant des caractéristiques mesurables numériquement, telles qu’un nombre d’heures passées à regarder la télévision chaque jour, une vitesse mesurée en kilomètres par heure, le nombre total de centimètres de précipitations annuelles dans une ville, un chiffre d’affaires en dollars ou le montant d’un budget consacré à des initiatives de marketing.

Lorsque vous examinez les relations au sein de vos données, comment déterminez-vous dans quelle mesure deux variables, comme le chiffre d’affaires et le montant dépensé pour les initiatives de marketing, sont liées ? Pouvez-vous utiliser l’une des variables pour prédire l’autre ? 

La corrélation et la régression sont des techniques fondamentales employées pour découvrir des tendances et émettre des prédictions. Bien qu’il en existe d’autres variantes importantes, nous nous concentrerons ici sur leurs formes les plus simples utilisées dans les domaines de l’IA et de l’analyse : la corrélation et la régression linéaires.

Dans cette unité, vous vous familiarisez avec le concept de corrélation, qui décrit si et dans quelle mesure deux variables évoluent l’une par rapport à l’autre. Vous découvrirez comment une corrélation permet de mesurer l’association entre des valeurs, sans pour autant prouver une causalité. Dans l’unité suivante, vous découvrirez comment une régression linéaire permet de calculer ou de prédire la valeur d’une variable en fonction d’une autre, en plus de mesurer l’adéquation de ce modèle avec vos données. 

Présentation du concept de corrélation

La corrélation est une technique permettant de déterminer l’existence d’une relation entre des paires de variables quantitatives, et, le cas échéant, d’indiquer la force de cette relation. 

Remarque

Cette unité traite de la corrélation de Pearson. Il existe d’autres corrélations non linéaires, qui ne sont pas abordées ici.

Par exemple, existe-t-il un lien entre le nombre de calories consommées quotidiennement et le poids du corps ? Les personnes qui consomment davantage de calories ont-elles un poids plus élevé ? La corrélation peut vous indiquer dans quelle mesure le poids des individus est lié à leur apport calorique.

La corrélation entre le poids et l’apport calorique est un exemple simple, mais parfois, les données avec lesquelles vous travaillez ne sont pas liées de la manière à laquelle vous vous attendez. Il peut également vous arriver de suspecter l’existence de corrélations, sans savoir laquelle est la plus forte. Les analyses des corrélations vous aident à comprendre vos données.

Lorsque vous commencez votre analyse de corrélation, vous pouvez créer un nuage de points pour étudier la relation entre deux variables quantitatives. Les variables sont tracées sous forme de coordonnées cartésiennes, indiquant la position des points de données sur l’axe horizontal des abscisses et l’axe vertical des ordonnées. Dans le nuage de points ci-dessous, vous voyez la relation entre le chiffre d’affaires et le montant dépensé dans les initiatives de marketing. Il semble qu’il y ait une corrélation : lorsqu’une variable augmente, l’autre semble également augmenter.

Nuage de points indiquant une corrélation entre deux variables quantitatives

Remarque

Les concepts énoncés dans cette unité sont adaptés de l’ouvrage en ligne Introduction to Statistics de David M. Lane, appartenant au domaine public.

Comparaison entre corrélation et causalité

Maintenant que vous connaissez la définition de la corrélation et sa représentation graphique, voyons comment mieux comprendre ce concept. 

Tout d’abord, il est important de savoir que la corrélation ne prouve jamais une quelconque causalité

La corrélation de Pearson indique uniquement le degré de relation linéaire entre une paire de variables quantitatives. Elle n’explique en aucun cas la raison de ce lien ou la manière dont les variables sont liées. 

Par exemple, il existe une corrélation entre les ventes de climatiseurs et les ventes de crème solaire. Toutefois, les achats de climatiseurs ne sont pas dus aux achats de crème solaire, et vice versa. Ces deux types d’achats sont effectués en raison de la chaleur.

Méthode de mesure de la corrélation

La corrélation de Pearson, ou coefficient de corrélation permet de mesurer la force et la direction (positive ou négative) de la relation linéaire entre deux variables quantitatives. Lorsque la corrélation est mesurée au sein d’un échantillon de données, le coefficient de corrélation est indiqué par la lettre r. Le coefficient de corrélation de Pearson est compris entre -1 et 1. 

Le coefficient r = 1 indique qu’il existe une relation linéaire positive parfaite entre les variables, ce qui signifie que les deux variables sont parfaitement corrélées à mesure que les valeurs augmentent. Lorsque r = -1, il existe une relation linéaire négative parfaite entre les variables. Dans une corrélation négative parfaite, lorsqu’une variable augmente, l’autre variable diminue avec la même amplitude.  Lorsque r = 0, il n’existe aucune relation linéaire entre les variables.

Avec des données réelles, il est rare d’observer un coefficient r égal à -1, 0 ou 1. 

En général, plus le coefficient r se rapproche de 1 ou -1, plus la corrélation est forte, comme indiqué dans le tableau suivant.

Valeur de r Corrélation

Comprise entre 0,90 et 1

ou

Comprise entre -0,90 et -1

Très forte corrélation

Comprise entre 0,70 et 0,89

ou

Comprise entre -0,70 et -0,89

Forte corrélation

Comprise entre 0,40 et 0,69

ou

Comprise entre -0,40 et -0,69

Corrélation modérée

Comprise entre 0,20 et 0,39

ou

Comprise entre -0,20 et -0,39

Faible corrélation

Comprise entre 0 et 0,19

ou

Comprise entre 0 et -0,19

Corrélation très faible ou inexistante

Remarque

certaines ressources relatives à ce sujet classent les corrélations uniquement comme pouvant être fortes, modérées ou faibles.

Conditions de corrélation linéaire

Pour que les corrélations soient pertinentes, vous devez tenir compte de certaines conditions : elles doivent employer des variables quantitatives, décrire des relations linéaires et prendre en compte l’effet de toute valeur aberrante. Vous devez vérifier que ces conditions sont bien respectées avant d’effectuer une analyse de corrélation. 

En 1973, un statisticien du nom de Francis Anscombe a élaboré le quartet d’Anscombe pour montrer l’importance de représenter visuellement les données, par opposition à la simple exécution de tests statistiques. Les quatre visualisations dans le quartet montrent toutes une même équation de courbe de tendance. Le quartet illustre pourquoi les visualisations sont si importantes : elles nous aident à identifier des tendances dans nos données qui peuvent être masquées par des tests statistiques.

Dans l’exemple ci-dessous, seul le nuage de points en haut à gauche du quartet répond aux critères de linéarité sans présenter de valeur aberrante. Le nuage de points en haut à droite ne présente pas de relation linéaire et l’utilisation d’un modèle non linéaire serait plus appropriée. Les deux nuages de points en bas présentent chacun des valeurs aberrantes qui peuvent affecter considérablement les résultats.  

Quatre nuages de points, avec celui en haut à gauche mis en évidence et montrant une relation linéaire sans valeurs aberrantes

Maintenant que vous connaissez mieux les concepts liés à la technique statistique de la corrélation, vous pouvez aborder l’unité suivante, où vous découvrirez la régression linéaire.

Ressources

Partagez vos commentaires sur Trailhead dans l'aide Salesforce.

Nous aimerions connaître votre expérience avec Trailhead. Vous pouvez désormais accéder au nouveau formulaire de commentaires à tout moment depuis le site d'aide Salesforce.

En savoir plus Continuer à partager vos commentaires