Regressione lineare: variabili dipendente e indipendenti devono essere distribuite normalmente?

Quando sviluppi un modello di regressione lineare è necessario avere variabili distribuite normalmente? Vediamo.

Una delle domande più comuni che si pone un ricercatore che sta per analizzare i propri dati attraverso un modello di regressione lineare è: le variabili, sia quella dipendente che i predittori, devono essere distribuite normalmente per avere un modello corretto?

Per cui, se non lo fossero, devo normalizzarle tramite una trasformazione, ad esempio quella logaritmica?

La risposta è no: il metodo di stima usato nella regressione lineare, i minimi quadrati ordinari (OLS, Ordinary Least Squares, se vogliamo fare gli anglofoni), non richiede l’assunzione di normalità. Per cui se vedi che una variabile è distribuita in modo non-normale non fare quella faccia affranta e vai oltre: è perfettamente inutile che tu cerchi di normalizzare tutto.

L’unica verifica di normalità che dovrai necessariamente effettuare, dopo aver costruito il tuo modello di regressione. è quella dei residui (cioè le differenze tra le y stimate dalla regressione e le y osservate che hai nel tuo dataset). Come puoi farlo? Chiedi al tuo programma statistico di calcolarti questi residui e di mostrarti la loro distribuzione (come fossero una qualunque altra variabile).

In alternativa puoi chiedergli di mostrarti un grafico ad hoc per testare la normalità (ad esempio un qq-plot). Se, invece, vuoi proprio usare un criterio decisionale più oggettivo e non basato sull’interpretazione di un grafico, allora puoi effettuare uno dei tanti test di normalità a disposizione (ad esempio Shapiro-Wilk Test). Alcuni programmi statistici, tra l’altro, fanno quasi tutto questo di default (ad esempio SAS, tramite il comando PROC REG).

Tuttavia ci sono almeno un paio di motivi per cui un’occhiata alla distribuzione della tua “Y” e di tutte le tue “x” dovresti darla:

la presenza di variabili fortemente lontane dalla gaussianità possono impattare con maggiore probabilità sulla distribuzione dei residui rendendoli a loro volta non-normali;
il fatto di avere delle variabili con code molto estese di outliers potrebbero richiedere una complessa analisi di leverage (cioè di quanto questi outlier impattano sulla stima dei coefficienti di regressione).

E allora ecco che, per queste variabili molto skewed potrebbe essere una buona idea una trasformazione dei dati per contenere questi effetti dannosi.

Riassumendo: è buona abitudine verificare graficamente le distribuzioni di tutte le variabili, sia quella dipendente che quelle indipendenti.

Se alcune di esse sono leggermente lontane dalla normalità tienile così come sono. Le variabili fortemente skewed ti conviene, invece, cominciare a normalizzarle ancora prima di costruire il modello. Finita la costruzione del modello, affinchè esso sia tecnicamente corretto, occorre accertarsi che i residui siano distribuiti normalmente.

Do per scontato che tu vada poi a verificare tutte le altre assunzioni della regressione lineare: linearità, omoschedasticità, assenza di autocorrelazione e di multicollinearità su tutte.

Prima di chiudere, un’ultima nota per approfondire: la verifica di normalità dei residui di cui ti ho detto prima, è necessaria non tanto per stimare i coefficienti di regressione, ma per il calcolo degli intervalli di confidenza e dei p-value che otterrai nel tuo output (che alla fine è quello che interessa di più a te e tutti ricercatori, nella maggior parte dei casi).

Regressione lineare: variabili dipendente e indipendenti devono essere distribuite normalmente?

Lascia un commento Annulla risposta