Esaminare la correlazione nei dati

Obiettivi di apprendimento

Al completamento di questa unità, sarai in grado di:

Definire la correlazione.
Distinguere tra correlazioni forti e correlazioni deboli.

Verso la data fluency

La Data Literacy è alla base della capacità di utilizzare e comunicare con i dati senza fatica.

Il modulo Nozioni di base sulla Data Literacy descrive le variabili quantitative come caratteristiche misurabili numericamente quali, ad esempio, il numero di ore trascorse ogni giorno a guardare la TV, la velocità misurata in chilometri orari, la piovosità annua totale per una città espressa in millimetri, le vendite in dollari e l'importo speso per il marketing.

Quando esamini le relazioni tra i tuoi dati, come fai a determinare quanto è stretta la relazione tra due variabili, ad esempio le vendite e l'importo speso per il marketing? Puoi utilizzare una variabile per prevedere l'altra?

La correlazione e la regressione sono due tecniche importanti usate per far emergere le tendenze ed elaborare previsioni. Anche se vi sono altre forme importanti usate per le analisi, ci concentriamo su quella più semplice usata per l'intelligenza artificiale e le analisi, ovvero la regressione e la correlazione lineare.

In questa unità acquisirai familiarità con il concetto di correlazione, che descrive se e quanto strettamente due variabili si muovono l'una in relazione all'altra. Comprenderai come la correlazione misuri l'associazione, ma non dimostri la causalità. Nella prossima unità, esplorerai come la regressione lineare può essere utilizzata per calcolare o prevedere il valore di una variabile sulla base del valore di un'altra, oltre a misurare quanto questo modello si adatti ai tuoi dati.

Definizione di correlazione

La correlazione è una tecnica che può mostrare se e quanto strettamente coppie di variabili quantitative sono correlate.

In questa unità esamineremo la correlazione di Pearson. Esistono altre correlazioni non lineari, che non sono trattate qui.

Ad esempio, esiste una relazione tra il numero di ore di studio e i voti ottenuti agli esami? Gli studenti che studiano per più ore ottengono regolarmente voti più alti? La correlazione può dirti quanto sia stretta la relazione tra le prestazioni accademiche e il tempo investito nel preparare gli esami.

La correlazione tra le ore di studio e i risultati degli esami è un esempio semplice, ma a volte tra i dati con cui lavori potrebbero non sussistere le relazioni che ti aspettavi. Altre volte potresti sospettare correlazioni senza sapere quali siano le più forti. L'analisi delle correlazioni ti permette di comprendere i dati a tua disposizione.

Quando inizi ad analizzare le correlazioni, puoi creare un grafico a dispersione per indagare sulla relazione tra due variabili quantitative. Le variabili vengono tracciate come coordinate cartesiane, che indicano la distanza sull'asse X orizzontale e l'altezza sull'asse Y verticale di ciascun punto di dati. Il grafico a dispersione qui sotto illustra la relazione tra le vendite e l'importo speso per il marketing. A quanto pare esiste una correlazione: quando una variabile aumenta, sembra lo faccia anche l'altra.

Grafico a dispersione che indica una correlazione tra due variabili quantitative

I concetti illustrati in questa unità sono adattati dall’opera online di dominio pubblico di David M. Lane, Introduction to Statistics (Introduzione alla statistica).

Confronto tra correlazione e causalità

Ora che conosci il modo in cui si definisce una correlazione e come viene rappresentata graficamente, vediamo come si può capirla meglio.

In primo luogo, è importante sapere che la correlazione non è mai prova di causalità.

La correlazione di Pearson evidenzia solo quanto strettamente siano correlate linearmente due variabili quantitative. Non spiega le modalità in cui sono correlate o il motivo della correlazione.

Ad esempio, le vendite di condizionatori d'aria sono correlate alle vendite di protezioni solari. Le persone non acquistano condizionatori d'aria perché hanno comprato protezioni solari, o viceversa. Entrambi gli acquisti sono dovuti alle alte temperature stagionali.

Come si misura la correlazione?

La correlazione di Pearson, detta anche coefficiente di correlazione, è usata per misurare la forza e la direzione (positiva o negativa) della relazione lineare tra due variabili quantitative. Quando si misura la correlazione in un campione di dati, il simbolo utilizzato è la lettera r. Il valore della r di Pearson può variare da -1 a 1.

Se r = 1, esiste una relazione lineare positiva perfetta tra le variabili, il che significa che entrambe le variabili sono perfettamente correlate all'aumentare dei valori. Se r = -1, esiste una relazione lineare negativa perfetta tra le variabili. In una correlazione negativa perfetta, quando una variabile aumenta, l'altra diminuisce della stessa misura. Se r = 0, non è indicata alcuna relazione lineare tra le variabili.

Con dati reali, non ci si aspetterebbe di vedere valori di r pari a -1, 0 o 1.

In generale, più r è vicino a 1 o a -1, più forte è la correlazione, come mostrato nella tabella seguente.

r =	Correlazione
Da 0,90 a 1 oppure Da -0,90 a -1	Correlazione molto forte
Da 0,70 a 0,89 oppure Da -0,70 a -0,89	Correlazione forte
Da 0,40 a 0,69 oppure Da -0,40 a -0,69	Correlazione modesta
Da 0,20 a 0,39 oppure Da -0,20 a -0,39	Correlazione debole
Da 0 a 0,19 oppure Da 0 a -0,19	Correlazione molto debole o assente

Alcune risorse su questo argomento classificano le correlazioni semplicemente come forti, modeste o deboli.

Condizioni delle correlazioni lineari

Affinché le correlazioni siano significative, è necessario prendere in considerazione alcune condizioni: devono utilizzare variabili quantitative, descrivere relazioni lineari e tenere conto dell'effetto di eventuali outlier. Queste condizioni vanno verificate prima di eseguire un’analisi di correlazione. .

Nel 1973, uno statistico di nome Francis Anscombe ha sviluppato il "quartetto di Anscombe" per dimostrare l'importanza di rappresentare graficamente i dati, invece di limitarsi a eseguire test statistici. Le quattro visualizzazioni del quartetto mostrano tutte la stessa equazione della linea di tendenza. Il quartetto illustra il motivo per cui le visualizzazioni sono così importanti: ci aiutano a identificare le tendenze all'interno dei dati che potrebbero essere oscurate dai test statistici.

Nell'esempio seguente, solo il diagramma a dispersione in alto a sinistra del quartetto soddisfa i criteri di linearità senza outlier. Il diagramma a dispersione in alto a destra non mostra una relazione lineare e sarebbe più appropriato un modello non lineare. I due diagrammi a dispersione in basso presentano ciascuno degli outlier che possono influenzare sensibilmente i risultati.

Quattro diagrammi a dispersione con quello in alto a sinistra, che mostra una relazione lineare senza outlier, evidenziato.

Ora che hai acquisito maggiore familiarità con i concetti relativi alla tecnica statistica della correlazione, puoi passare all'unità successiva, in cui sarà presa in esame la regressione lineare.

Tempo stimato

Argomenti

Hai bisogno di aiuto?

Risorse per Tableau