Esaminare la correlazione nei dati
Obiettivi di apprendimento
Al completamento di questa unità, sarai in grado di:
- Definire la correlazione.
- Distinguere tra correlazioni forti e correlazioni deboli.
Verso la data fluency
La Data Literacy è alla base della capacità di utilizzare e comunicare con i dati senza fatica.
Il modulo Nozioni di base sulla Data Literacy descrive le variabili quantitative come caratteristiche misurabili numericamente quali, ad esempio, il numero di ore trascorse ogni giorno a guardare la TV, la velocità misurata in chilometri orari, la piovosità annua totale per una città espressa in millimetri, le vendite in dollari e l'importo speso per il marketing.
Quando esamini le relazioni tra i tuoi dati, come fai a determinare quanto è stretta la relazione tra due variabili, ad esempio le vendite e l'importo speso per il marketing? Puoi utilizzare una variabile per prevedere l'altra?
La correlazione e la regressione sono due tecniche importanti usate per far emergere le tendenze ed elaborare previsioni. Anche se vi sono altre forme importanti usate per le analisi, ci concentriamo su quella più semplice usata per l'intelligenza artificiale e le analisi, ovvero la regressione e la correlazione lineare.
In questa unità acquisirai familiarità con il concetto di correlazione, che descrive se e quanto strettamente due variabili si muovono l'una in relazione all'altra. Comprenderai come la correlazione misuri l'associazione, ma non dimostri la causalità. Nella prossima unità, esplorerai come la regressione lineare può essere utilizzata per calcolare o prevedere il valore di una variabile sulla base del valore di un'altra, oltre a misurare quanto questo modello si adatti ai tuoi dati.
Definizione di correlazione
La correlazione è una tecnica che può mostrare se e quanto strettamente coppie di variabili quantitative sono correlate.
Ad esempio, esiste una relazione tra il numero di calorie consumate quotidianamente e il peso corporeo? Le persone che consumano più calorie pesano di più? La correlazione può dirti quanto sia stretta la relazione tra il peso delle persone e la loro assunzione di calorie.
La correlazione tra il peso e l'assunzione di calorie è un esempio semplice, ma a volte tra i dati con cui lavori potrebbero non sussistere le relazioni che hai previsto. Altre volte potresti sospettare correlazioni senza sapere quali siano le più forti. L'analisi delle correlazioni ti permette di comprendere i dati a tua disposizione.
Quando inizi ad analizzare le correlazioni, puoi creare un grafico a dispersione per indagare sulla relazione tra due variabili quantitative. Le variabili vengono tracciate come coordinate cartesiane, che indicano la distanza sull'asse X orizzontale e l'altezza sull'asse Y verticale di ciascun punto di dati. Il grafico a dispersione qui sotto illustra la relazione tra le vendite e l'importo speso per il marketing. A quanto pare esiste una correlazione: quando una variabile aumenta, sembra lo faccia anche l'altra.
Confronto tra correlazione e causalità
Ora che conosci il modo in cui si definisce una correlazione e come viene rappresentata graficamente, vediamo come si può capirla meglio.
In primo luogo, è importante sapere che la correlazione non è mai prova di causalità.
La correlazione di Pearson evidenzia solo quanto strettamente siano correlate linearmente due variabili quantitative. Non spiega le modalità in cui sono correlate o il motivo della correlazione.
Ad esempio, le vendite di condizionatori d'aria sono correlate alle vendite di protezioni solari. Le persone non acquistano condizionatori d'aria perché hanno comprato protezioni solari, o viceversa. Entrambi gli acquisti sono dovuti alle alte temperature stagionali.
Come si misura la correlazione?
La correlazione di Pearson, detta anche coefficiente di correlazione, è usata per misurare la forza e la direzione (positiva o negativa) della relazione lineare tra due variabili quantitative. Quando si misura la correlazione in un campione di dati, il simbolo utilizzato è la lettera r. Il valore della r di Pearson può variare da -1 a 1.
Se r = 1, esiste una relazione lineare positiva perfetta tra le variabili, il che significa che entrambe le variabili sono perfettamente correlate all'aumentare dei valori. Se r = -1, esiste una relazione lineare negativa perfetta tra le variabili. In una correlazione negativa perfetta, quando una variabile aumenta, l'altra diminuisce della stessa misura. Se r = 0, non è indicata alcuna relazione lineare tra le variabili.
Con dati reali, non ci si aspetterebbe di vedere valori di r pari a -1, 0 o 1.
In generale, più r è vicino a 1 o a -1, più forte è la correlazione, come mostrato nella tabella seguente.
r = | Correlazione |
---|---|
Da 0,90 a 1 oppure Da -0,90 a -1 |
Correlazione molto forte |
Da 0,70 a 0,89 oppure Da -0,70 a -0,89 |
Correlazione forte |
Da 0,40 a 0,69 oppure Da -0,40 a -0,69 |
Correlazione modesta |
Da 0,20 a 0,39 oppure Da -0,20 a -0,39 |
Correlazione debole |
Da 0 a 0,19 oppure Da 0 a -0,19 |
Correlazione molto debole o assente |
Condizioni delle correlazioni lineari
Affinché le correlazioni siano significative, è necessario prendere in considerazione alcune condizioni: devono utilizzare variabili quantitative, descrivere relazioni lineari e tenere conto dell'effetto di eventuali outlier. Queste condizioni vanno verificate prima di eseguire un'analisi di correlazione.
Nel 1973, uno statistico di nome Francis Anscombe ha sviluppato il "quartetto di Anscombe" per dimostrare l'importanza di rappresentare graficamente i dati, invece di limitarsi a eseguire test statistici. Le quattro visualizzazioni del quartetto mostrano tutte la stessa equazione della linea di tendenza. Il quartetto illustra il motivo per cui le visualizzazioni sono così importanti: ci aiutano a identificare le tendenze all'interno dei dati che potrebbero essere oscurate dai test statistici.
Nell'esempio seguente, solo il diagramma a dispersione in alto a sinistra del quartetto soddisfa i criteri di linearità senza outlier. Il diagramma a dispersione in alto a destra non mostra una relazione lineare e sarebbe più appropriato un modello non lineare. I due diagrammi a dispersione in basso presentano ciascuno degli outlier che possono influenzare sensibilmente i risultati.
Ora che hai acquisito maggiore familiarità con i concetti relativi alla tecnica statistica della correlazione, puoi passare all'unità successiva, in cui sarà presa in esame la regressione lineare.