In alternativa puoi chiedergli di mostrarti un grafico ad hoc per testare la normalità (ad esempio un qq-plot). Se, invece, vuoi proprio usare un criterio decisionale più oggettivo e non basato sull’interpretazione di un grafico, allora puoi effettuare uno dei tanti test di normalità a disposizione (ad esempio Shapiro-Wilk Test). Alcuni programmi statistici, tra l’altro, fanno quasi tutto questo di default (ad esempio SAS, tramite il comando PROC REG).
Tuttavia ci sono almeno un paio di motivi per cui un’occhiata alla distribuzione della tua “Y” e di tutte le tue “x” dovresti darla:
- la presenza di variabili fortemente lontane dalla gaussianità possono impattare con maggiore probabilità sulla distribuzione dei residui rendendoli a loro volta non-normali;
- il fatto di avere delle variabili con code molto estese di outliers potrebbero richiedere una complessa analisi di leverage (cioè di quanto questi outlier impattano sulla stima dei coefficienti di regressione).
E allora ecco che, per queste variabili molto skewed potrebbe essere una buona idea una trasformazione dei dati per contenere questi effetti dannosi.
Riassumendo: è buona abitudine verificare graficamente le distribuzioni di tutte le variabili, sia quella dipendente che quelle indipendenti.
Do per scontato che tu vada poi a verificare tutte le altre assunzioni della regressione lineare: linearità, omoschedasticità, assenza di autocorrelazione e di multicollinearità su tutte.
Prima di chiudere, un’ultima nota per approfondire: la verifica di normalità dei residui di cui ti ho detto prima, è necessaria non tanto per stimare i coefficienti di regressione, ma per il calcolo degli intervalli di confidenza e dei p-value che otterrai nel tuo output (che alla fine è quello che interessa di più a te e tutti ricercatori, nella maggior parte dei casi).