La regressione lineare semplice è uno dei primi argomenti che si affrontano in un qualsiasi corso di statistica di base, che sia esso universitario o di altra natura. In linea di massima possiamo dire che la regressione lineare è uno strumento statistico di fondamentale importanza poiché ci permette di studiare la relazione (lineare), il legame matematico, tra due o più variabili. In questo breve articolo cercherò di spiegare il funzionamento e l’interpretazione di un modello di regressione lineare semplice, sia a livello teorico concettuale, sia più pratico, aiutandomi con esempi grafici tratti da STATA, un software statistico.
Una breve descrizione
In quel rigoroso mondo statistico popolato da numeri con la virgola, per regressione lineare si intende quella specifica metodologia che gli scienziati utilizzano per studiare la relazione lineare fra due o più variabili. In gergo, spesso, si indica con Y la variabile dipendente, ovvero quella che “si muove” in funzione di un’altra variabile, detta variabile indipendente, indicata con X. Secondo la definizione matematica infatti, una funzione è una relazione che sussiste tra due insiemi, chiamati dominio e codominio, che associa ad ogni elemento del dominio uno ed un solo elemento del codominio.
La regressione lineare utilizza questa semplice, per così dire, logica matematica. Per essere subito chiari, esistono grosso modo due modelli di regressione lineare; il modello di regressione lineare semplice e il modello di regressione lineare multipla. Ora, prima di descrivere la differenza tra i due, diremo che la regressione lineare è composta da una variabile dipendente; da uno o più regressori, ovvero le variabili indipendenti; da un coefficiente di regressione e da un termine di errore che viene chiamato residuo.
A mano a mano che avanzeremo spiegheremo tutti questi concetti. Tornando però alla differenza fra regressione lineare semplice e regressione lineare multipla, ci basterà dire che esse si distinguono per il numero di regressori che vengono inseriti nel modello. La regressione lineare semplice opera con un solo regressore, una sola variabile indipendente. La regressione lineare multipla opera invece con due o più regressori. In questo articolo ci concentreremo esclusivamente sul modello di regressione lineare semplice.
Qual è l’idea di base della regressione lineare semplice?
La regressione lineare semplice è spiegata dall’equazione y=β0+β1x, dove β0 è l’intercetta, β1 è il coefficiente angolare della retta, x è la variabile indipendente. Nella figura sottostante, possiamo osservare una prima rappresentazione teorica della retta di regressione.
Uno dei principali problemi che affrontiamo nella costruzione di un modello di questo tipo è quello di trovare la retta che presenta il miglior adattamento (best fit) ai punti osservati. Facciamo un esempio semplice e pratico per capire meglio il punto.
Nel grafico in figura 2 troviamo rispettivamente sull’asse delle y la nostra variabile dipendente, che in questo caso è lo stipendio mensile. Sull’asse delle x giace la variabile indipendente, ovvero gli anni di istruzione completati. Vogliamo capire se lo stipendio mensile cresce o decresce (e di quanto) al crescere degli anni di educazione. Quando ho accennato alla problematica inerente alla costruzione della retta che si adatta maggiormente ai punti, mi riferivo a quella che mostro in figura 3.
Ovviamente non è sempre possibile costruire un modello di regressione lineare, la prima cosa da fare è accertarsi tramite il grafico di dispersione (figura 2) che i punti si dispongono secondo una linea retta, come nel nostro caso. In caso contrario la regressione lineare non sarà un buon modello per il nostro studio ma lo sarà ad esempio una regressione non lineare. Tornando a noi, la retta ci permette quindi di realizzare il modello matematico su cui si basa la regressione lineare semplice e per far ciò è importante capire come essa si costruisce, come si calcolano i parametri di cui abbiamo bisogno.
Come si calcola la regressione lineare semplice?
Prima di iniziare ci tengo a precisare che non spiegherò meticolosamente tutte le formule, poiché l’obiettivo dell’articolo è quello di far comprendere l’idea e l’interpretazione del modello di regressione lineare semplice. Per chi volesse approfondire questo punto, lascerò degli articoli da consultare. Ora mi limiterò a dire che per calcolare la retta di regressione lineare si utilizza uno strumento matematico chiamato metodo dei minimi quadrati o OLS, acronimo di ordinary least square.
Con il metodo dei minimi quadrati si assegnano ai parametri β0 e β1, rispettivamente intercetta e coefficiente angolare della retta, i valori (b0 e b1) per cui è minima la somma dei quadrati residui. Concettualmente dobbiamo andare a minimizzare la sommatoria delle distanze, elevate al quadrato, tra i valori osservati e la retta. L’elevamento al quadrato ci serve perché non abbiamo bisogno di scarti negativi, la distanza va calcolata in valore assoluto. Riassumendo, come propongo in questo esempio che consiglio di consultare, dobbiamo trovare la retta che riduce al minimo la somma dei quadrati degli scarti.
A livello pratico come troviamo questi valori? Fortunatamente c’è chi ci ha già pensato molto prima di noi, trovando la risposta alla domanda. Queste sono le formule dei due parametri necessari per calcolare la retta di regressione lineare semplice, dove con u è indicata la media.
Dove a numeratore abbiamo la Covarianza di x ed y, mentre a denominatore la varianza di x. Con questi due parametri (più i residui di cui parleremo dopo), costruiamo la retta del modello di regressione lineare semplice. Difatti, l’equazione della retta di regressione è la seguente:
Come è evidente, per calcolare la regressione lineare è necessario calcolare la media. Se nella distribuzione non è possibile calcolare la media delle “variabili” o dei dati, allora la regressione non sarà un buon modello di analisi statistica. Per concludere ed essere più precisi, anche se non parleremo approfonditamente della cosiddetta analisi dei residui, diciamo che all’interno del modello di equazione y=b0+b1x dobbiamo inserire quel parametro che viene chiamato residuo. I residui rappresentano la parte di errore di previsione del modello di regressione. Essi sono la differenza fra i valori teorici del modello e quelli reali, i valori osservati. Per completare l’equazione della retta scriveremo allora:
dove
Come si interpreta?
Per ciò che concerne la fase dell’interpretazione della retta di regressione dobbiamo introdurre un indice, non è il solo ma è uno dei più usati, chiamato coefficiente di determinazione e indicato con r2. La funzione di questo strumento è quella di descrivere la bontà di adattamento della retta ai valori osservati. L’indice r2 ha valori compresi tra 0 ed 1, per facilitarne la lettura e l’interpretazione. Esso rappresenta la proporzione di variabilità della variabile dipendente spiegata dalla retta di regressione. Per esempio, se r2 = 0.5, significa che la retta di regressione spiega il 50% della variabilità della variabile dipendente, Y.
Nell’esempio pratico proposto prima, osserviamo che r2 = 0.6761, il che significa che circa il 67% della variabilità del reddito è spiegata dal numero di anni di istruzione. Ora, se ad esempio volessimo prevedere il valore di y dato un x arbitrario, avendo costruito il modello di regressione lineare, ci basterà sostituire alla x presente nell’equazione il valore desiderato.
Se vi ricordate avevamo accennato al fatto che il modello di regressione, oltre che misurare la dipendenza di due variabili, ci permette, tramite la costruzione del modello, di prevedere i valori della variabile indipendente Y, dati valori di x. Questa tecnica si riassume in interpolazione ed estrapolazione. Interpolazione si ha quando vogliamo prevedere il valore di Y dato un x appartenente all’intervallo dei valori osservati, in cui la nostra relazione è lineare. Estrapolazione si ha invece quando x non appartiene a quell’intervallo di riferimento, può essere più grande o più piccola. La differenza sta nel fatto che, facendo estrapolazione, più ci si allontana dall’estremo superiore/inferiore dell’intervallo più i risultati rischiano di diventare assurdi.
Questo perché noi non sappiamo se per quelle x fuori dall’intervallo vale la relazione lineare che abbiamo studiato. L’estrapolazione va grosso modo evitata o al massimo limitata ai valori appena fuori dall’intervallo di riferimento. Infatti la retta di regressione è stata determinata usando i valori x dell’intervallo rilevante e non vi è alcun modo di sapere come la retta si modificherebbe aggiungendo valori x esterni all’intervallo rilevante; facendo estrapolazioni si assume implicitamente che aggiungendo valori x esterni la retta rimarrebbe sostanzialmente invariata, ma tale ipotesi non è verificabile ed è tanto meno plausibile quanto più i punti considerati sono lontani dall’intervallo rilevante.
Passiamo subito all’esempio pratico.
Nel modello di regressione costruito prima, osserviamo che la retta di regressione lineare è rappresentata dall’equazione: y=320.3408+91.43589x. Ora, se volessimo prevedere il valore di Y (quindi il reddito mensile) di una persona con 16 anni di istruzione (variabile X), ci basterà sostituire il valore desiderato al posto della x, in modo da ottenere: y=320.3408+(91.43589*16)= 1783.315. Il reddito previsto per una persona con 16 anni di istruzione sarà quindi 1783€.
Conclusione
Il concetto di regressione lineare, a differenza di quello di correlazione, non si limita a dirci se due variabili sono più o meno correlate (positivamente o negativamente). La regressione aggiunge a questa informazione un vero e proprio modello matematico, ovvero l’equazione che abbiamo visto prima. Ciò risulta essere molto importante poiché ci permette di produrre delle stime, delle previsioni che con la sola analisi di correlazione non potremmo fare.
Ora, è importante ricordare che l’analisi di regressione e quella di correlazione non ci dicono necessariamente se la variabile Y è causata interamente dalla variabile X, poiché, causazione (o causalità) e correlazione sono due concetti profondamente differenti. Di ciò però abbiamo già accennato qualcosa in questo articolo. Per chi volesse infine approfondire la parte relativa alla matematica che sta dietro il modello di regressione lineare, lascio questo articolo di cui consiglio vivamente la consultazione.
Laureato in Sociologia, attualmente sono studente doppiamente iscritto alla facoltà Sociologia e ricerca sociale (LM-88) e di Statistica (L-41), presso l’Università degli studi di Firenze. Mi piace raccontare la realtà sociale aiutandomi con i dati. Fra i miei attuali interessi di ricerca rientrano gli studi sociali quantitativi e scienza sociale computazionale.