Skip to main content
Rejoignez-nous lors de l'Ă©vĂ©nement TDX Ă  San Francisco ou sur Salesforce+ les 5 et 6 mars pour la confĂ©rence des dĂ©veloppeurs Ă  l'ère des agents IA. Inscrivez-vous dès maintenant.

Inférences

Objectifs de formation

Une fois cette unitĂ© terminĂ©e, vous pourrez :

  • DĂ©crire l’utilitĂ© des tests d’hypothèses
  • DĂ©finir l’utilisation et les limites des valeurs p dans le cadre des tests d’hypothèses

Introduction

Dans l’unité précédente, vous avez pu vous familiariser avec les concepts relatifs à l’utilisation de la variation et de la distribution normale pour explorer des phénomènes, interpréter des situations et communiquer grâce aux données. Vous avez également étudié les intervalles de confiance, qui constituent un exemple d’inférence.

Dans cette unité, vous allez en apprendre davantage sur l’inférence. L’inférence désigne le fait de tirer des conclusions au sujet d’une population à partir d’un échantillon de données. Il s’agit d’un procédé utile, car, dans la plupart des situations, il n’est pas envisageable d’obtenir toutes les mesures concernant une population donnée.

En d’autres termes, lorsque nous disposons de données concernant l’ensemble des membres d’une population, il n’est pas nécessaire d’effectuer des inférences au sujet des différences entre les groupes constituant cette population. Lorsqu’il n’est pas possible de collecter des données sur chaque élément ou membre d’une population, nous collectons des données à partir d’échantillons, que nous utilisons pour effectuer des inférences.Silhouettes dans un ovale représentant une population totale, et silhouettes dans un ovale plus petit représentant un échantillon

Dans son ouvrage Avoiding Data Pitfalls, Ben Jones, fondateur et prĂ©sident de Data Literacy, LLC, et membre de la communautĂ© Tableau, souligne que le recensement aux États-Unis n’a lieu que tous les 10 ans, en raison de la difficultĂ© et du coĂ»t pour dĂ©compter « chaque personne dans chaque structure rĂ©sidentielle du pays, sans parler du fait qu’une telle entreprise est forcĂ©ment source d’erreur et de biais Â». La plupart des organisations ne disposant pas des ressources humaines et financières du gouvernement fĂ©dĂ©ral des États-Unis, elles prennent leurs dĂ©cisions en fonction d’infĂ©rences effectuĂ©es Ă  partir d’échantillons de donnĂ©es.

Tests d’hypothèses

De nombreuses organisations de différents types utilisent les tests d’hypothèses. Certaines entreprises, par exemple, utilisent les tests d’hypothèses dans le cadre du contrôle qualité, afin de déterminer si un produit répond à une norme spécifique, ou s’en servent pour comparer de nouvelles méthodes de vente aux anciennes.

La recherche médicale fonde aussi souvent ses inférences sur des échantillons de données. Imaginons qu’une entreprise du secteur pharmaceutique mette au point un nouveau médicament. Pour déterminer s’il est efficace, elle doit mener une étude expérimentale. Étant donné qu’il n’est pas possible de tester le médicament sur toutes les personnes souffrant de la maladie qu’il combat, des tests sont effectués sur un sous-ensemble de malades choisi de manière aléatoire.

Organigramme avec des rectangles colorés qui illustre la répartition aléatoire des groupes et les effets mesurés pour chaque groupe

Au sein de cet Ă©chantillon, le groupe expĂ©rimental reçoit le mĂ©dicament, tandis que le groupe de contrĂ´le reçoit un placebo. Les groupes sont dĂ©terminĂ©s alĂ©atoirement afin de pouvoir attribuer les diffĂ©rences observĂ©es dans les rĂ©sultats aux effets du mĂ©dicament. 

Les deux groupes sont soumis à des tests et différentes mesures sont effectuées. Lorsque des mesures différentes sont observées entre les deux groupes, les chercheurs doivent fixer le seuil à partir duquel les différences observées entre le groupe expérimental et le groupe de contrôle doivent être considérées comme significatives.

Les chercheurs collectent des données à partir des groupes échantillons et effectuent des tests statistiques. Ensuite, ils s’appuient sur les résultats des tests pour déterminer si les différences entre les groupes sont significatives. Une fois qu’ils disposent des données, ils doivent effectuer des inférences sur la population entière (à savoir, la totalité des personnes souffrant de la maladie). C’est ce qu’on appelle le test d’hypothèses.

Les tests d’hypothèses commencent par l’élaboration d’hypothèses nulles et alternatives.

  • L’hypothèse nulle dĂ©clare que le mĂ©dicament n’aura aucun effet sur la santĂ©. Elle suppose que l’état de santĂ© des personnes recevant le mĂ©dicament sera identique Ă  celui de celles qui ne le reçoivent pas.
  • L’hypothèse alternative part du principe qu’une diffĂ©rence sera observĂ©e. Elle suppose que l’état de santĂ© des personnes recevant le mĂ©dicament sera meilleur que celui de celles qui ne le reçoivent pas.

Les tests d’hypothèses commencent par considĂ©rer que l’hypothèse nulle est vraie. Ensuite, les tests cherchent Ă  dĂ©terminer la probabilitĂ© d’observer des rĂ©sultats au moins aussi bons lors de l’expĂ©rimentation, en considĂ©rant que l’hypothèse nulle est vraie. 

En d’autres termes, s’il y a une probabilitĂ© faible d’observer des rĂ©sultats Ă©quivalents alors que l’hypothèse nulle est vraie, alors l’hypothèse alternative est probablement vraie. S’il y a une probabilitĂ© Ă©levĂ©e que les rĂ©sultats soient aussi bons alors que l’hypothèse nulle est vraie, alors l’hypothèse alternative est rejetĂ©e et les chercheurs doivent trouver une autre solution. 

Les tests d’hypothèses tiennent compte du nombre d’échantillons, de l’importance de la différence mesurée et du nombre de variations observées dans chaque groupe.

Le rĂ©sultat numĂ©rique d’un test d’hypothèses (la probabilitĂ© que l’hypothèse nulle soit vraie) est appelĂ© valeur p. Une valeur p permet de dĂ©terminer s’il est nĂ©cessaire de rejeter l’hypothèse nulle. Dans ce cas, le rejet de l’hypothèse nulle signifie que le mĂ©dicament serait efficace sur l’ensemble de la population. Une valeur p faible indique qu’il y a suffisamment d’élĂ©ments permettant de rejeter l’hypothèse nulle et de soutenir l’hypothèse alternative.

Cependant, il est important de souligner que la valeur p elle-mĂŞme ne prouve ni ne rĂ©fute rien. Une valeur p Ă©levĂ©e ne prouve pas que l’hypothèse nulle est valide, pas plus qu’une valeur p faible ne prouve qu’elle n’est pas valide. C’est pourquoi il faut faire preuve de prudence avec les valeurs p.

Comment utiliser les valeurs p

Ă€ une certaine Ă©poque, les chercheurs Ă©taient formĂ©s de manière Ă  utiliser une valeur p de 0,05 comme valeur dĂ©terminante. En d’autres termes, une valeur p infĂ©rieure ou Ă©gale Ă  0,05 Ă©tait considĂ©rĂ©e comme suffisante pour rejeter l’hypothèse nulle. Le seuil de 0,05 correspond aux extrĂ©mitĂ©s d’une courbe de distribution normale. Gardez Ă  l’esprit que les intervalles de confiance de 95 % correspondent Ă  l’aire d’une courbe de distribution normale situĂ©e dans un Ă©cart type allant de -2 Ă  +2 autour de la moyenne. Le seuil de 0,05 (ou 5 %) correspond Ă  l’aire situĂ©e en dehors de l’écart type allant de -2 Ă  +2 autour de la moyenne.

Cette approche a changĂ© ces dernières annĂ©es. Dans le cadre des tests de mĂ©dicaments, si un seuil plus faible Ă©tait utilisĂ© (ce qui amènerait l’intervalle de confiance au-dessus de 95 %), il serait plus difficile de rejeter l’hypothèse nulle. 

Pour toutes ces raisons, entre autres, l’American Statistical Association a dĂ©clarĂ© officiellement en 2016 que « la valeur p en elle-mĂŞme ne constitue pas une mesure efficace de la validitĂ© d’un modèle ou d’une hypothèse Â». 

Les valeurs p peuvent Ă©galement ĂŞtre falsifiĂ©es par le type de donnĂ©es analysĂ©. 

Pour dĂ©couvrir un exemple de falsification des valeurs p, reportez-vous Ă  cet exercice interactif de manipulation de la valeur p, Hack Your Way to Scientific Glory, sur FiveThirtyEight, un site d’agrĂ©gation analysant les sondages d’opinion sur la politique, l’économie et le sport. 

Vous en savez maintenant davantage sur les inférences, les tests d’hypothèses et les valeurs p. Le fait de comprendre ces concepts peut vous aider à mesurer, décrire, résumer et comparer vos données afin d’en tirer des conclusions vous permettant de prendre des décisions éclairées.

Ressources

Partagez vos commentaires sur Trailhead dans l'aide Salesforce.

Nous aimerions connaître votre expérience avec Trailhead. Vous pouvez désormais accéder au nouveau formulaire de commentaires à tout moment depuis le site d'aide Salesforce.

En savoir plus Continuer Ă  partager vos commentaires