Trovare relazioni usando la regressione lineare
Obiettivi di apprendimento
Al completamento di questa unità, sarai in grado di:
- Definire la regressione lineare.
- Distinguere le caratteristiche della correlazione da quelle della regressione lineare.
Definizione di regressione lineare
Nell'unità precedente hai appreso che la correlazione si riferisce alla direzione (positiva o negativa) e alla forza (da molto forte a molto debole) della relazione tra due variabili quantitative.
Come la correlazione, anche la regressione lineare mostra la direzione e la forza della relazione tra due variabili numeriche, ma, a differenza della correlazione, la regressione utilizza la retta di migliore adattamento passante per i punti di un grafico a dispersione per prevedere i valori di Y a partire dai valori di X. Con la correlazione, i valori di X e Y sono interscambiabili. Con la regressione, i risultati dell'analisi cambiano se X e Y vengono scambiati.
La retta di regressione lineare
Analogamente a quanto accade per le correlazioni, per avere regressioni significative è necessario:
- Utilizzare variabili quantitative
- Verificare l'esistenza di relazioni lineari
- Prestare attenzione agli outlier
Come la correlazione, la regressione lineare è visualizzabile su un grafico a dispersione.
La retta di regressione sul grafico a dispersione è la retta di migliore adattamento passante per i punti del grafico. In altre parole, si tratta di una retta che passa per i punti la cui distanza dalla retta è minore.
Utilità della retta Possiamo usare il calcolo della regressione lineare per calcolare o prevedere il valore di Y se abbiamo un valore di X conosciuto.
Per maggiore chiarezza, vediamo un esempio.
Esempio di regressione
Immaginiamo che tu voglia calcolare quanto dovrai spendere per acquistare una casa di 140 metri quadrati. Usiamo la regressione lineare per effettuare questa previsione.
- Metti la variabile che vuoi prevedere, ovvero i prezzi delle case, sull'asse Y (detta anche variabile dipendente).
- Metti la variabile su cui basi le previsioni, ovvero la metratura, sull'asse X (detta anche variabile indipendente).
Ecco un grafico a dispersione che mostra i prezzi (asse Y) e la metratura (asse X) delle case.
Il grafico a dispersione mostra che le case con metratura maggiore tendono ad avere prezzi più elevati; ma quanto dovrai spendere per una casa di 140 metri quadrati?
Per rispondere alla domanda, crea una retta che passa tra i punti. Questa è una regressione lineare. La retta di regressione ti permette di prevedere il costo probabile di una casa tipica con una determinata metratura. In questo esempio puoi vedere l'equazione per la retta di regressione.
L'equazione della retta è Y = 113*X + 98.653 (con arrotondamento).
Cosa significa questa equazione? Se acquisti un lotto senza metratura (ad esempio un lotto vuoto), il prezzo sarà di € 98.653. Ecco i passaggi per risolvere l'equazione.
Per trovare il valore di Y, moltiplica il valore di X per 113 e aggiungi 98.653. In questo caso non abbiamo una metratura, quindi il valore di X è 0.
- Y = (113 * 0) + 98.653
- Y = 0 + 98.653
- Y = 98.653
Il valore 98.653 è chiamato intersezione Y poiché è il punto in cui la retta incrocia, o interseca, l'asse Y. Si tratta del valore di Y quando X è uguale a 0.
Il numero 113 corrisponde al coefficiente angolare della retta. Il coefficiente angolare è un numero che descrive sia la direzione, sia la pendenza della retta. In questo caso, il coefficiente angolare prevede che per ogni metro quadrato aggiuntivo il prezzo della casa aumenterà di € 113.
Ecco dunque quanto dovrai spendere per una casa di 140 metri quadrati:
Y = (113 * 140) + 98.653 = € 114.473
Dai ancora un'occhiata al grafico di dispersione. I contrassegni blu sono i dati reali. Come puoi vedere, i dati a tua disposizione riguardano le case di metratura compresa tra 102 e 230 metri quadrati.
Tieni presente che questa equazione non può essere utilizzata per prevedere il prezzo di tutte le case. Dato che una casa da 50 e un'altra da 1000 metri quadrati sarebbero entrambe al di fuori dell'intervallo di dati considerato, dovresti valutare attentamente l'opportunità di elaborare previsioni con questa equazione utilizzando quei valori.
Il valore R quadro
In questo esempio, oltre all'equazione notiamo anche la presenza di un valore R quadro (noto anche come coefficiente di determinazione).
Questo valore è una misura statistica di quanto i dati si avvicinino alla retta di regressione o di quanto il modello si adatti alle osservazioni. Se i dati sono distribuiti perfettamente sulla retta, il valore di R quadro sarà pari a 1, o al 100%, il che significa che il modello si adatta perfettamente (tutti i punti di dati osservati si trovano sulla retta).
Per i nostri dati sui prezzi delle case, il valore R quadro è 0,70, o 70%.
Confronto tra regressione lineare e correlazione
A questo punto forse ti chiederai come si fa a distinguere tra regressione lineare e correlazione. Consulta la tabella qui sotto per un riepilogo di ciascun concetto.
Regressione lineare | Correlazione |
---|---|
Mostra un modello lineare e una previsione del valore di Y a partire dal valore di X. |
Mostra una relazione lineare tra due valori. |
Utilizza R quadro per misurare la percentuale di variazione spiegata dal modello. |
Utilizza R quadro per misurare la forza e la direzione della correlazione. |
Non utilizza X e Y come valori interscambiabili (poiché Y è previsto in base a X). |
Utilizza X e Y come valori interscambiabili. |
Acquisire familiarità con i concetti statistici di correlazione e regressione ti permette di esplorare e comprendere i dati con cui lavori attraverso l'esame delle relazioni.