(ebook - Ita - Economia Amisano, Gianni - Lezioni Di A

  • December 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View (ebook - Ita - Economia Amisano, Gianni - Lezioni Di A as PDF for free.

More details

  • Words: 53,132
  • Pages: 185
Lezioni di Econometria Gianni Amisano Febbraio 1999

2

Premessa Queste note, che costituiscono il materiale di riferimento per gli studenti del corso di econometria attivato presso la Facolt`a di Economia dell’Universit`a di Brescia, sono il risultato della composizione di diverse fonti di riferimento. Un elenco (purtroppo non esaustivo) di tali fonti deve necessariamente cominciare con l’ottimo testo di Maddala (Maddala, 1992: “Introductory Econometrics”) che a tutt’oggi rappresenta uno dei migliori testi di econometria adatti per un primo corso. La trattazione di Maddala, carente sotto l’aspetto della rappresentazione matriciale degli argomenti, e` stato integrata facendo riferimento ad altre fonti. Ho attinto largamente dallo splendido libro di W. Greene (“Econometric Analysis”, 3rd edition, 1997), dove si trovano trattati ad un ottimo livello teorico una vastissima gamma di tecniche econometriche. Le parti relative all’analisi delle serie storiche sono ispirate alla lettura del libro di J.D.Hamilton (“Time Series Analysis”, Princeton University Press, 1994). Queste note si articolano in diverse parti. La prima parte copre tutti gli argomenti fondamentali di un primo corso di econometria, mentre la seconda e` una parte monografica che ricomprende alcuni argomenti particolari e pi`u avanzati. Ciascun capitolo di queste note si chiude con un insieme di esercizi svolti che servono ad aiutare gli studenti nella preparazione per l’esame. Un aspetto complementare della preparazione all’esame e` costituito dalla parallela attivit`a di esercitazione che sar`a svolta in classe utilizzando i software applicativi Gauss e Microfit disponibili presso il laboratorio informatico della Facolt`a di Economia dell’Universit`a di Brescia. Gli studenti sono caldamente invitati a contattarmi ogni volta che abbiano problemi di comprensione o di ogni altro tipo. Sono contattabile presso il Dipartimento di Scienze Economiche dell’Universit`a di Brescia (via San Faustino 74B) o tramite e-mail all’indirizzo [email protected]. Tutto il materiale distribuito agli studenti sar`a depositato alla CLUB (corso Mameli) e disponibile elettronicamente alla mia pagina web: (http://www.eco.unibs.it/˜amisano/index.html) Desidero ringraziare gli studenti del corso di econometria dell’anno accademico 1997/8 e anticipatamente quelli del corrente anno accademico, che mi hanno segnalato e sicuramente mi segnaleranno molti tra i refusi sicuramente presenti in queste note. 3

4

Indice 1

2

Modelli economici e modelli econometrici 1.1 Il significato del termine econometria . . . 1.2 Forma usuale dei modelli econometrici . . . 1.3 Modelli econometrici . . . . . . . . . . . . 1.4 Aspetti essenziali dell’analisi econometrica

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

Richiami matematici 2.1 Operatori sommatoria e produttoria . . . . . . . . . . . . . 2.2 Matrici e vettori . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Tipologia di matrici . . . . . . . . . . . . . . . . . 2.2.2 Operazioni matriciali . . . . . . . . . . . . . . . . 2.2.3 Vettori particolari . . . . . . . . . . . . . . . . . . 2.2.4 Traccia di una matrice quadrata . . . . . . . . . . 2.2.5 Matrici partizionate . . . . . . . . . . . . . . . . . 2.2.6 Il determinante di una matrice quadrata . . . . . . 2.2.7 La matrice aggiunta . . . . . . . . . . . . . . . . . 2.2.8 La matrice inversa . . . . . . . . . . . . . . . . . 2.2.9 Alcune propriet`a rilevanti . . . . . . . . . . . . . 2.2.10 Matrici idempotenti . . . . . . . . . . . . . . . . . 2.2.11 Spazio vettoriale . . . . . . . . . . . . . . . . . . 2.2.12 Base di uno spazio vettoriale . . . . . . . . . . . . 2.2.13 Sottospazio vettoriale . . . . . . . . . . . . . . . . 2.2.14 Rango di una matrice . . . . . . . . . . . . . . . . 2.2.15 Indipendenza lineare di vettori . . . . . . . . . . . 2.2.16 Autovalori e autovettori . . . . . . . . . . . . . . 2.2.17 Serie geometriche di matrici . . . . . . . . . . . . 2.2.18 Matrici definite, semidefinite positive e negative . . 2.2.19 Prodotto di Kronecker (prodotto tensore) . . . . . 2.2.20 L’operatore vec . . . . . . . . . . . . . . . . . . . 2.3 Funzioni in pi`u variabili . . . . . . . . . . . . . . . . . . . 2.3.1 Derivate parziali prime e seconde . . . . . . . . . 2.3.2 Alcune semplici regole di derivazione per funzioni variabili . . . . . . . . . . . . . . . . . . . . . . . 5

. . . .

. . . .

. . . .

. . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . in pi`u . . . .

9 9 10 11 12 13 13 13 14 16 17 19 19 19 20 20 21 22 22 23 23 24 25 25 27 27 29 30 31 31 33

6

INDICE . . . .

33 34 36 37

Richiami di inferenza statistica 3.1 Variabile casuale . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Distribuzione di probabilit`a . . . . . . . . . . . . . . . . . . . . . 3.3 Funzione di ripartizione . . . . . . . . . . . . . . . . . . . . . . . 3.4 Momenti di una variabile casuale . . . . . . . . . . . . . . . . . . 3.5 La distribuzione normale . . . . . . . . . . . . . . . . . . . . . . 3.6 Inferenza statistica parametrica . . . . . . . . . . . . . . . . . . . 3.7 Propriet`a degli stimatori . . . . . . . . . . . . . . . . . . . . . . 3.7.1 Non distorsione o correttezza . . . . . . . . . . . . . . . . 3.7.2 Efficienza . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7.3 Consistenza . . . . . . . . . . . . . . . . . . . . . . . . . 3.7.4 La legge dei grandi numeri (Versione pi`u semplice) . . . . 3.7.5 Teorema centrale del limite . . . . . . . . . . . . . . . . . 3.8 Variabili casuali in pi`u dimensioni . . . . . . . . . . . . . . . . . 3.8.1 La covarianza . . . . . . . . . . . . . . . . . . . . . . . . 3.9 Distribuzione normale multivariata . . . . . . . . . . . . . . . . . 3.10 Alcune distribuzioni notevoli . . . . . . . . . . . . . . . . . . . . 3.10.1 La distribuzione χ2 . . . . . . . . . . . . . . . . . . . . . 3.10.2 La distribuzione t di Student . . . . . . . . . . . . . . . . 3.10.3 La distribuzione F di Fisher . . . . . . . . . . . . . . . . 3.11 La funzione di verosimiglianza . . . . . . . . . . . . . . . . . . . 3.12 Stima di massima verosimiglianza . . . . . . . . . . . . . . . . . 3.13 Metodo dei momenti . . . . . . . . . . . . . . . . . . . . . . . . 3.14 Propriet`a degli stimatori ottenuti per campionamento da una distribuzione gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . . 3.15 Stima per intervallo . . . . . . . . . . . . . . . . . . . . . . . . . 3.16 Prova delle ipotesi . . . . . . . . . . . . . . . . . . . . . . . . . . 3.17 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.18 Soluzioni agli esercizi . . . . . . . . . . . . . . . . . . . . . . . .

43 43 43 44 46 47 48 49 49 49 50 51 52 53 54 55 57 57 57 59 60 62 62

Il modello di regressione lineare 4.1 Concetti fondamentali . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 Il ruolo del termine di disturbo e le sue propriet`a . . . . . 4.1.2 Ipotesi sui regressori . . . . . . . . . . . . . . . . . . . . 4.1.3 Rappresentazione matriciale del modello di regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.4 Ricapitolando . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Stima dei parametri . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Metodo dei momenti (MM) . . . . . . . . . . . . . . . .

81 81 82 83

2.4 2.5 3

4

2.3.3 Ottimizzazione . . . . . . 2.3.4 Ottimizzazione vincolata . Esercizi su richiami di matematica Soluzioni agli esercizi . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

63 64 66 70 72

84 85 86 86

7

INDICE

4.3 4.4 4.5 4.6 4.7

4.8 4.9

4.10 4.11 4.12 4.13 4.14

4.15

4.16

4.2.2 Metodo della massima verosimiglianza. . . . . . . . . . . 4.2.3 Metodo dei minimi quadrati (OLS=ordinary least squares) 4.2.4 Aspetti algebrici dello stimatore OLS . . . . . . . . . . . 4.2.5 Ricapitolazione sulla stima OLS dei parametri β . . . . . 4.2.6 Interpretazioni alternative della stima OLS di un MRL . . Stima del momento secondo (σ 2 ) . . . . . . . . . . . . . . . . . . Analisi della varianza . . . . . . . . . . . . . . . . . . . . . . . . Regressione partizionata . . . . . . . . . . . . . . . . . . . . . . Anticipazione su test congiunti . . . . . . . . . . . . . . . . . . . Inferenza statistica sul modello di regressione . . . . . . . . . . . 4.7.1 Costruzione di intervalli di confidenza . . . . . . . . . . . 4.7.2 Prova delle ipotesi . . . . . . . . . . . . . . . . . . . . . 4.7.3 Un utile esempio: il MRL con 3 regressori . . . . . . . . 4.7.4 Inferenza statistica nel modello di regressione multipla . . 4.7.5 Esempio di regressione multipla con k = 3 regressori . . . La previsione . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diversi modi di costruire Test: Test LR, di Wald, LM . . . . . . . 4.9.1 Il test LR . . . . . . . . . . . . . . . . . . . . . . . . . . 4.9.2 Il test di Wald . . . . . . . . . . . . . . . . . . . . . . . . 4.9.3 Test LM (Lagrange Multipliers) (test dei moltiplicatori di Lagrange) . . . . . . . . . . . . . . . . . . . . . . . . . . 4.9.4 Ricapitolazione sulle modalit`a di costruzione dei test . . . Stima del modello soggetto a vincoli lineari sui parametri . . . . . 4.10.1 Alcuni esempi . . . . . . . . . . . . . . . . . . . . . . . Effetti dell’omissione di variabili rilevanti . . . . . . . . . . . . . Effetti dell’inclusione di variabili irrilevanti . . . . . . . . . . . . Gradi di libert`a e indice R2 . . . . . . . . . . . . . . . . . . . . . ¯2 . . 4.13.1 Relazione tra test di significativit`a t, test F e indice R Test di stabilit`a del MRL . . . . . . . . . . . . . . . . . . . . . . 4.14.1 Test basati sull’analisi della varianza . . . . . . . . . . . . 4.14.2 Test previsivo di stabilit`a . . . . . . . . . . . . . . . . . . 4.14.3 Alcuni commenti ai test di stabilit`a strutturale . . . . . . . Eserciziario sulla regressione lineare . . . . . . . . . . . . . . . . 4.15.1 Esercizio 1 . . . . . . . . . . . . . . . . . . . . . . . . . 4.15.2 Esercizio 2 . . . . . . . . . . . . . . . . . . . . . . . . . 4.15.3 Esercizio 3 . . . . . . . . . . . . . . . . . . . . . . . . . 4.15.4 Esercizio 4 . . . . . . . . . . . . . . . . . . . . . . . . . 4.15.5 Esercizio 5 . . . . . . . . . . . . . . . . . . . . . . . . . 4.15.6 Esercizio 6 . . . . . . . . . . . . . . . . . . . . . . . . . Soluzioni agli esercizi . . . . . . . . . . . . . . . . . . . . . . . . 4.16.1 Esercizio 1 . . . . . . . . . . . . . . . . . . . . . . . . . 4.16.2 Esercizio 2 . . . . . . . . . . . . . . . . . . . . . . . . . 4.16.3 Esercizio 3 . . . . . . . . . . . . . . . . . . . . . . . . . 4.16.4 Esercizio 4 . . . . . . . . . . . . . . . . . . . . . . . . .

88 90 93 96 96 100 101 102 103 104 104 106 109 112 114 117 119 119 121 124 126 127 129 131 134 136 137 138 138 139 140 141 141 141 142 142 143 143 143 143 145 145 147

8

INDICE 4.16.5 Esercizio 5 . . . . . . . . . . . . . . . . . . . . . . . . . 149 4.16.6 Esercizio 6 . . . . . . . . . . . . . . . . . . . . . . . . . 150

5

Variabili di comodo e variabili troncate 5.1 Variabili di comodo come variabili esplicative . . . . . . . . . . . 5.1.1 Variabili di comodo a correzione di intercetta . . . . . . . 5.1.2 Variabili dummy a correzione di intercetta per trattare dati con stagionalit`a . . . . . . . . . . . . . . . . . . . . . . . 5.1.3 Variabili dummy a correzione di intercetta per ”outliers” . 5.1.4 Variabili dummy a correzione di intercetta e di pendenza . 5.1.5 Variabili dummy per provare l’ipotesi di stabilit`a dei coefficienti di regressione . . . . . . . . . . . . . . . . . . . . 5.1.6 Test di Chow del secondo tipo (o test di validit`a previsiva) 5.2 Variabili dummy come variabili dipendenti . . . . . . . . . . . . . 5.2.1 Modello di probabilit`a lineare . . . . . . . . . . . . . . . 5.2.2 Alcune anticipazioni sulla stima di modelli con disturbi eteroschedastici . . . . . . . . . . . . . . . . . . . . . . . 5.2.3 Stima del modello di probabilit`a lineare . . . . . . . . . . 5.2.4 Modelli probit e logit . . . . . . . . . . . . . . . . . . . . 5.2.5 Modello Probit . . . . . . . . . . . . . . . . . . . . . . . 5.2.6 Effetti di variazioni delle variabili esplicative . . . . . . . 5.2.7 Indici di bont`a di adattamento del modello . . . . . . . . . 5.3 Il modello Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5 Soluzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

153 153 153 155 156 157 158 159 160 161 162 164 165 169 170 171 173 176 178

Capitolo 1

Modelli economici e modelli econometrici 1.1 Il significato del termine econometria Il termine econometria significa letteralmente misurazione in economia. Con il termine econometria ci si riferisce ad una disciplina scientifica basata sull’applicazione di metodi statistici e matematici per l’analisi di dati economici con l’intento di dare riscontro empirico alle teorie economiche. Nel 1933 viene pubblicato il primo numero della rivista scientifica Econometrica , fondata dalla Econometric Society. Nel primo numero della rivista l’editoriale stabiliva: “obiettivo della Econometric Society e` la promozione di studi che unifichino gli aspetti teorico-quantitativo e empirico quantitativo e che siano caratterizzato dal modo di pensare rigoroso proprio delle scienze naturali”. L’econometria quindi si compone dell’unione di matematica, statistica, teoria economica e di aspetti computazionali per i quali e` stato sicuramente rilevante l’enorme sviluppo delle capacit`a di calcolo degli elaboratori elettronici avvenuto negli ultimi venti anni. L’econometria si basa sullo studio formalizzato di modelli economici. Per modello economico intendiamo una rappresentazione schematizzata della realt`a di un fenomeno economico, quali ad esempio il comportamento individuale o collettivo dei consumatori, l’offerta di lavoro, le modalit`a operative delle autorit`a di politica monetaria. Generalmente, un modello economico fornisce una rappresentazione semplificata della realt`a che intende spiegare. La semplicit`a del modello e` funzionale a consentire di comunicare facilmente i risultati ottenuti dall’analisi del modello. La semplicit`a del modello deriva dall’adozione di ipotesi di partenza semplificatrici, finalizzate ad astrarre da quegli aspetti della realt`a osservata che non sono rilevanti 9

10

CAPITOLO 1. MODELLI ECONOMICI E MODELLI ECONOMETRICI

per il fenomeno che si intende studiare. In sintesi, per modello economico si intende un insieme di assunzioni finalizzate alla descrizione di un particolare fenomeno economico. Negli ultimi decenni la teoria economica ha assunto aspetti di crescente formalizzazione. Molto spesso i modelli economici prendono la forma di equazioni che connettono misurazioni dei fenomeni che si intendono spiegare (ad esempio la disoccupazione, il consumo aggregato, i profitti di un settore industriale . . . ) ai valori assunti da una serie di variabili che si intendono misurare le cause del fenomeno oggetto di indagine. Quando il modello economico prende la forma di relazioni matematiche, e` possibile utilizzare i dati disponibili sul fenomeno studiato per verificare la rispondenza del modello stesso alla realt`a osservata. La verifica empirica (sulla base dei dati disponibili) della validit`a dei modelli economici costituisce uno degli scopi fondamentali dell’analisi econometrica.

1.2 Forma usuale dei modelli econometrici In generale, un modello econometrico assume la forma: yt = f (xt ) + t , t = 1, 2, . . . , T, dove yt e` un vettore (n × 1) di variabili che il modello intende spiegare (variabili endogene) che si riferiscono all’osservazione t-esima del campione in esame, f e` una funzione che fa dipendere yt da un vettore (k × 1) di variabili esogene xt (variabili esplicative), e t rappresenta un vettore (n × 1) di termini di disturbo casuali. La componente f (xt ) viene detta parte sistematica del modello, mentre la componente t inviene indicata come parte stocastica (o casuale) del modello. Il pi`u semplice esempio di modello econometrico e` il seguente, dove yt , xt e εt sono tutte grandezze scalari: yt = α + βxt + εt , t = 1, 2, . . . , T. Tale modello viene detto modello di regressione lineare semplice: la variabile dipendente yt viene fatta dipendere in modo lineare da ulla grandezza esplicativa xt ed e` influenzata dalla variabile casuale εt . La presenza della componente stocastica implica che il modello debba essere trattato con tecniche inferenziali. L’aspetto fondamentale e` quello della stima, cio`e dell’utilizzazione di un campione di dati osservabili sulle variabili yt e xt per determinare quale sia la configurazione della parte sistematica del modello meglio in grado di spiegare il comportamento campionario delle variabili endogene. Accanto allo scopo di verifica empirica dei modelli economici, l’econometria si rivolge tradizionalmente anche alla produzione di modelli previsivi utilizzati da diverse istituzioni. Gli intermediari finanziari, e pi`u in generale ogni impresa produttiva in grado di dedicare risorse alla programmazione delle proprie attivit`a future trova naturalmente utile disporre di scenari sul valore futuro delle variabili economiche che influiscono sull’andamento dei costi e dei ricavi. Accanto alle istituzioni

1.3. MODELLI ECONOMETRICI

11

private, anche le autorit`a di politica economica (governi e banche centrali) e le istituzioni di coordinamento internazionale (Fondo Monetario Internazionale, Banca Mondiale ecc. . . ) necessitano di disporre di previsioni affidabili sull’andamento di grandezze economiche di rilievo nazionale o internazionale (cambi, prezzi, entrate ed uscite del settore pubblico). Tali previsioni possono essere fondate sull’utilizzo di modelli econometrici adattati ai dati osservati per i fenomeni di interesse.

1.3 Modelli econometrici Per modello econometrico intendiamo: • un insieme di equazioni comportamentali che collegano tra loro pi`u variabili economiche e una struttura di componenti casuali, detti termini di disturbo; • un insieme di affermazioni relative alla qualit`a dei dati utilizzati per la stima del modello: per esempio la presenza o la rilevanza di errori di misurazione nelle variabili utilizzate; • la specificazione della distribuzione di probabilit`a dei disturbi e degli errori di misurazione nelle variabili utilizzate. Ad esempio, il famoso modello di M. Friedman del comportamento dei consumatori basato sul reddito permanente pu`o essere formalizzato nel modo seguente: ci = α · yi∗ + εi yi∗ = yi + ηi p(εi ) ∼ N (0, σε2 ) p(ηi ) ∼ N (0, ση2 ) In questo esempio la spesa per consumo individuale dell’individuo i-esimo (ci ) viene ipotizzata proporzionale al reddito permanente di tale individuo (yi∗ ). Inoltre si ipotizza che le decisioni di consumo individuali siano influenzata da un termine di disturbo εi che rappresenta le caratteristiche individuali non esplicitamente misurabili dell’individuo i-esimo. Il reddito permanente dell’individuo i-esimo yi∗ non e` osservabile e differisce dal suo livello di reddito corrente (yi ) per via di un termine casuale ηi che costituisce necessariamente l’errore di misurazione quando si intenda spiegare il comportamento di consumo sulla base del reddito osservabile.Si ipotizza che i termini di disturbo i e gli errori di misurazione ηi siano variabili casuali distribuite secondo una legge di distribuzione gaussiana (o Normale). Il simbolo ∼ indica “si distribuisce come”. Un altro esempio e` dato dalla funzione di domanda di un determinato bene: qtd = α + β · pt + ut ut ∼ N (0, σu2 )

12

CAPITOLO 1. MODELLI ECONOMICI E MODELLI ECONOMETRICI

In questo esempio, la quantit`a domandata del bene all’istante t-esimo (qtd ) viene ipotizzata dipendere linearmente dal prezzo del bene allo stesso istante (pt ). Inoltre si ipotizza che la domanda sia influenzata da un termine di disturbo ut distribuito normalmente. Nei modelli econometrici i termini di disturbo sono variabili inosservabili che descrivono l’effetto sulla varibile dipendente di tutto quello che non pu`o essere ricompreso nella parte sistematica del modello.

1.4

Aspetti essenziali dell’analisi econometrica

Le fasi dell’analisi econometrica sono le seguenti. 1. Formulare un modello in forma empiricamente verificabile attraverso la scelta di alcuni aspetti fondamentali quali: • forma funzionale della relazione. A questo proposito, nella maggior parte delle applicazioni econometriche si e` soliti ricorrere ad una forma funzionale di tipo lineare. Tale scelta risponde essenzialmente alla necessit`a di rendere pi`u semplici gli aspetti computazionali. • Variabili da inserire: si tratta di definire l’insieme di variabili esplicative (dette “regressori”) contenute nel vettore xt . • Struttura probabilistica dei disturbi. Nell’analisi econometrica tradizionale e` consuetamente utilizzata l’ipotesi di distribuzione normale dei termini di disturbo. 2. Stima del modello. I dati disponibili vengono utilizzati per generare stime del modello econometrico. Nella maggior parte dei casi, la stima si concreta nell’ottenimento di valori per i parametri del modello. 3. Uso del modello: il modello viene utilizzato per verificare la validit`a di teorie economiche, per produrre previsioni, per svolgere simulazioni di politica economica, cio`e per simulare gli effetti di manovre di politiche economiche alternative.

Capitolo 2

Richiami matematici In questo capitolo esponiamo gli elementi di algebra matriciale e di matematica che sono necessari all’analisi econometrica oggetto degli argomenti trattati nel corso. Gli argomenti sono raggruppati per omogeneit`a e sono trattati al livello di formalizzazione richiesto dalla loro successiva utilizzazione. Gli studenti sono caldamente invitati a svolgere molti esercizi per impratichirsi con le operazioni matriciali.

2.1 Operatori sommatoria e produttoria P L’operatore sommatoria e` indicato con il simbolo e serve ad indicare operazioni di somma in modo compatto. L’operatore sommatoria e` accompagnato da una coppia di indici che determinano l’insieme degli addendi. Ad esempio: n X

ai = a1 + a2 + . . . + an

i=1

Q L’operatore produttoria e` indicato con il simbolo e serve ad indicare operazioni di prodotto in modo compatto. L’operatore produttoria e` accompagnato da una coppia di indici che determinano l’insieme dei fattori. Ad esempio: n Y

ai = a1 · a2 · . . . · an

i=1

Le propriet`a di questi operatori sono intuitive e facilmente verificabili.

2.2 Matrici e vettori In questa sezione vengono descritti alcuni elementi fondamentali dell’algebra delle matrici necessari per la trattazione degli argomenti ricompresi all’interno del corso. Per matrice si intende un insieme di numeri ordinati su m ≥ 1 righe e n ≥ 1 colonne. Per indicare una matrice si utilizza la notazione: 13

14

CAPITOLO 2. RICHIAMI MATEMATICI



a11 a12  a21 a22 A = {aij } =   ... ... (m×n) an1 an2

 . . . a1n . . . a2n   ... ...  . . . ann

Si noti che gli elementi della matrice A sono caratterizzati da due indici, il primo dei quali identifica la riga ed il secondo identifica la colonna di appartenza. Ad esempio, l’elemento sulla quarta riga, sesta colonna e` indicato con a46 . Una matrice si dice di ordini m e n quando ha m righe e n colonne. Per vettore si indica una matrice particolare caratterizzata dall’avere una sola riga (vettore riga) o una sola colonna (vettore colonna ). Ad esempio: 

a (4×1)

b

 1  2   =   4 , 7   4 3 2 5 7 =

(1×5)

2.2.1

Tipologia di matrici

Una matrice (n × n) si dice quadrata di ordine n quando il numero di righe e` pari al numero delle sue colonne. Una matrice quadrata A (n × n) si dice simmetrica quando: aij = aji , ∀i, j Ad esempio la matrice: 

2 5 7

 4 7  4



2 5 7

 5 7  4

1  2 = A (3×3) 4 e` simmetrica, mentre la matrice 1 A = 2 (3×3) 4

non lo e` (confrontate gli elementi a13 e a31 ). Una matrice quadrata A, di dimensione (n × n) si dice diagonale quando: A = {aij } , aij = 0, ∀i 6= j. Ad esempio, la matrice

15

2.2. MATRICI E VETTORI



2  A= 0 0

 0 0  7

0 4 0

e` chiaramente diagonale. Una matrice quadrata A, di dimensione (n × n) si dice triangolare inferiore quando: A = {aij } , aij = 0, ∀i < j. Ad esempio, la matrice 

3  4 A=  5 8

0 7 5 5

0 0 2 6

 0 0   0  4

e` triangolare inferiore. Una matrice quadrata A, di dimensione (n × n) si dice triangolare superiore quando: A = {aij } , aij = 0, ∀i > j. Ad esempio, la matrice 

3  0 A=  0 0

4 7 0 0

5 3 2 0

 8 3   6  4

e` triangolare superiore. Una matrice quadrata A, di dimensione (n × n) si dice matrice identit`a e si indica In se: A = {aij } , aij

= 0, ∀i 6= j,

aii = 1, ∀i. Ad esempio: 

1  0 I4 =   0 0

0 1 0 0

0 0 1 0

 0 0  . 0  1

Data una matrice A di dimensioni (n×m), la matrice B, di dimensione (m×n) si dice trasposta di A, e si indica con il simbolo A0 ed e` definita come:

16

CAPITOLO 2. RICHIAMI MATEMATICI

B = A0 = {bij } , bij = aji , , ∀i, j. La matrice A0 viene quindi ottenuta “trasformando” le colonne di A in righe di A0 . Ad esempio:  A=

2.2.2

1 4

2 3



0



,A =

1 2

4 3

 .

Operazioni matriciali

Somma e differenza tra matrici Date due matrici A e B, entrambe di dimensioni (m × n), e` possibile definire la matrice (m × n) C, definita comme somma di A e B:

C = A + B = {cij } , cij

= aij + bij , ∀i, j.

Nello stesso modo si definisce la differenza tra due matrici A e B, entrambe di dimensioni (m × n), la matrice (m × n) C: C = A − B = {cij } , cij

= aij − bij , ∀i, j.

Prodotto Dati due vettori (n × 1) a e b, si definisce prodotto interno tra tali vettori la grandezza scalare: a0 b = b0 a =

n X

(ai · bi ) .

i=1

Date le matrici A, di dimensioni (m×n) e B, di dimensioni (n×p), il prodotto matriciale tra A e B e` la matrice C, di dimensione (m × p)definita come:

C = A · B = {cij } , n X cij = aik · bkj , i = 1, 2, . . . m, j = 1, 2, . . . , p. k=1

In altri termini C e` una matrice il cui elemento generico cij e` dato dal prodotto interno tra la i-esima riga di A e la j-esima colonna di B. Ad esempio:

17

2.2. MATRICI E VETTORI



1 2

3 3

6 4





1  · 1 0

  0 4  1 = 5 3

21 15

 .

Si noti che l’operazione di prodotto matriciale non e` definita per qualsiasi coppia di matrici A e B, ma tali matrici debbono verificare la condizione di conformabilit`a per il prodotto: il numero di colonne del primo fattore A deve essere pari al numero di righe del secondo fattore B. Si noti che ovviamente, A · B in generale e` diverso da B · A: in generale quando il prodotto A · B e` possibile non e` neppure detto che B · A lo sia. Il prodotto e la somma matriciale hanno le seguenti propriet`a: 1. Propriet`a distributiva: se A e` una matrice (m × n) e B e C sono matrici (n × q): A·(B + C) = A · B + A · C. 2. Propriet`a associativa: date le matrici A, B, C di dimensioni opportune, si ha: (A + B) + C = A + (B + C), (A · B) ·C = A· (B · C) Moltiplicazione per una grandezza scalare Data la matrice (m × n) A e la grandezza scalare c, e` possibile definire la matrice C, di dimensioni (m × n) derivante dal prodotto scalare di c per A: C = c · A = A·c = {cij } , cij = c · aij , i = 1, 2, . . . , m, , j = 1, 2, . . . n.

2.2.3

Vettori particolari

Il vettore somma Si definisca il vettore somma di dimensione (n × 1): 

 1  1   in =   ...  1 Tale vettore se post-moltiplica una matrice A di dimensione (m × n) genera un vettore c (m × 1) che contiene le somme degli elementi sulle singole righe di A: n X A · in = c = {ci } , ci = aij , i = 1, 2, . . . , m. j=1

18

CAPITOLO 2. RICHIAMI MATEMATICI

Ad esempio: 



1 3

2 6

1 1

4 0



 1    1  8   · = . 1  10 1

Il vettore somma di dimensione (m × 1), se trasposto e utilizzato a premoltiplicare una matrice A di dimensione (m × n), genera un vettore c0 , di dimensione (1 × n) che contiene le somme degli elementi sulle singole colonne di A: i0n

0

· A = c = {cj } , cj =

n X

aij , j = 1, 2, . . . , n.

i=1

Il vettore estrazione Il vettore estrazione uin , di dimensione (n × 1), e` definito come un vettore di elementi tutti pari a zero tranne l’elemento i-esimo che e` pari a uno. In altri termini e` la colonna i-esima della matrice In :     i un =    



0 0 ... 1 ... 0

     → i-esimo elemento  

Il vettore estrazione uin , se utilizzato per post-moltiplicare una matrice A di dimensione (m × n) genera un vettore c di dimensione (n × 1) che coincide con la i-esima colonna di A. Ad esempio: 

A · u34 =



1 3

2 6

1 1

4 0



 0    0  1  ·  1 = 1 . 0

Se invece il vettore estrazione uim viene trasposto e utilizzato per pre-moltiplicare una matrice A di dimensione (m × n) genera un vettore di dimensione (1 × n) che coincide con la i-esima riga di A. Ad esempio: 



0

0

 1 1  2 4

0 0 5

5 4 5

 6  3 = 4 4

5

5

4



.

19

2.2. MATRICI E VETTORI

2.2.4

Traccia di una matrice quadrata

Sia data una matrice quadrata A di dimensione (n × n). Si definice traccia di A (indicata come tr(A)) la somma degli elementi diagonali di A: tr(A) =

n X

aii .

i=1

Le propriet`a dell’operatore traccia sono le seguenti: tr(A · B) = tr(B · A), tr(A · B · C) = tr(C · A · B) = tr(B · C · A), (invarianza rispetto a permutazioni cicliche), tr(λ · A) = λ · tr(A), dove λ e` una grandezza scalare.

2.2.5

Matrici partizionate

Data la matrice A, di dimensione (m × n), e` possibile partizionare tale matrice in diversi blocchi. Ad esempio:   A=



A11

A12

(m1 ×n1 )

(m1 ×n2 )

A21

A22

(m2 ×n1 )

(m2 ×n2 )

  , m = m1 + m2 , n = n1 + n2

In caso di prodotto matriciale tra matrici conformabili per il prodotto all’interno delle quali siano stati definiti blocchi conformabili per prodotto, si pu`o ricavare:  A· B

(mn)(np)

 = 

A11

A12

 

B11

B12

(m1 ×n1 )

(m1 ×n2 )

(n1 ×p2 )

A22

  ·

(n1 ×p1 )

A21

B21

B22

(m2 ×n1 )

(m2 ×n2 )

(n2 ×p1 )

(n2 ×p2 )



2.2.6

 =

(A11 · B11 + A12 · B21 ) (A11 · B12 + A12 · B22 ) (A21 · B11 + A22 · B21 ) (A21 · B12 + A22 · B22 ) = m, n1 + n2 = n, p1 + p2 = p.

= m1 + m2



 ,

Il determinante di una matrice quadrata

Data una matrice quadrata A, di dimensione (n × n), si definisce determinante di A (e lo si indica con |A|) la quantit`a scalare: |A| =

n X j=1

(−1)i+j · aij · |Aij | ,

(2.1)

20

CAPITOLO 2. RICHIAMI MATEMATICI

dove Aij e` la matrice che si ottiene a partire da A sopprimendone la riga i-esima e la colonna j-esima. Ad esempio:   1 2 4 1 0 3 0 3 1 =   3 1 0 =1· |A| = −2· +4· 0 1 1 1 1 0 1 0 1 = 1 − 6 − 4 = −9 Data l’espressione con cui si ricava il determinante, risulta particolarmente facile calcolare il determinante di una matrice triangolare. Infatti se A, di dimensione (n × n), e` triangolare (superiore o inferiore), data la (2.1), allora si ha: |A| =

n Y

aii

i=1

In altri termini, per una matrice triangolare, il determinante e` pari al prodotto degli elementi diagonali. Nel caso della matrice identit`a, e` facile mostrare che il determinante e` pari a 1: |In | = 1, ∀n. Si noti che, date le matrici quadrate (n × n) A e B, si ha: |A · B| = |A| · |B| .

2.2.7

La matrice aggiunta

Data la matrice quadrata (n × n) A, si definisce A+ ,matrice aggiunta di A, la matrice che soddisfa: A+ · A = A · A+ = |A| · In . (la matrice aggiunta pre-moltiplicata o post-moltiplicata per A genera una matrice diagonale con elementi tutti pari al determinante di A sulla diagonale). La matrice A+ viene ottenuta come: n o A+ = a+ ij , i+j a+ · |Aji | . ij = (−1)

2.2.8

La matrice inversa

Data la matrice quadrata (n×n) A,con |A| = 6 0,si definisce A−1 la matrice inversa tale per cui: A−1 · A = A · A−1 = In . Data la matrice quadrata (n × n) A,con |A| = 6 0, si ha: −1 A = |A|−1

21

2.2. MATRICI E VETTORI

(il determinante dell’inversa e` pari al reciproco del determinante, quando il determinante e` diverso da zero). Si noti che e` possibile ottenere la matrice inversa di A come: A−1 = |A|−1 · A+ . (la matrice inversa pu`o essere calcolata a partire dalla matrice aggiunta dividendo ciascun elemento della matrice aggiunta per il determinante di A ). Si noti che e` possibile calcolare la matrice inversa solo per matrici con determinante diverso da zero. Tali matrici vengono per questo motivo dette invertibili. Ad esempio, data la matrice:   1 3 5 A =  0 1 0 , 2 1 0 si ha: 

 0 5 −5 A+ =  0 −10 0  , −2 5 1 |A| = −10,   1 0 − 21 2 0 . A−1 =  0 1 1 1 1 5 − 2 − 10

2.2.9

Alcune propriet`a rilevanti

• Date due matrici conformabili per prodotto A (m × n) e B (n × p) : (A · B)0 = B0 · A0 (si noti l’inversione di ordine tra i fattori) • Date due matrici quadrate, di dimensioni (nn) ed invertibili A (mn) e B (np), vale: (A · B)−1 = B−1 · A−1 (si noti l’inversione di ordine tra i fattori). • Data una matrice quadrata ed invertibile A (n×n), la trasposta della matrice inversa e` uguale all’inversa della trasposta: (A−1 )0 = (A0 )−1 . • Data una matrice quadrata ed invertibile A (n × n) ed uno scalare c, si ha: (c · A)−1 =

1 · A−1 , ∀c 6= 0. c

22

CAPITOLO 2. RICHIAMI MATEMATICI

2.2.10

Matrici idempotenti

La matrice quadrata A (n × n) si dice idempotente se: Ak = A, ∀k > 0. In altri termini, moltiplicando per s`e stessa la matrice A quante volte si vuole si ottiene sempre A. Alcuni esempi di matrice idempotente sono i seguenti: A =

[0] , (n×n)

A = In , 

1  1 1 1 A = in · (i0n · in )−1 · i0n = · in · i0n = ·  n n  ... 1

1 1 ... 1

... ... ... ...

 1 1  . ...  1

Data la matrice (n × k) A tale per cui: 0 A A 6= 0, si noti che le matrici: = A · (A0 · A)−1 · A0 ,

B (n×n)

C

= In − A · (A0 · A)−1 · A0

(n×n)

sono idempotenti (lo si verifichi moltiplicando ciascuna matrice per se stessa ).

2.2.11

Spazio vettoriale

Si consideri il vettore (k × 1) a: 

 a1  a2   a = (k×1)  . . .  ak pu`o essere inteso come espressione delle coordinate del punto a nello spazio reale k-dimensionale (Rk ), cos`ı come da figura (2.2.11) per k = 2. Si noti che qualunque vettore ottenuto come risultato del prodotto tra uno scalare λ ed il vettore a (a∗ =λ · a) rappresenta le coordinate di un punto a∗ che si trova sulla semiretta che unisce l’origine degli assi e il punto a. Inoltre si noti (figura 2.2.11) che, dati due vettori (2 × 1) a e b, che la somma (C) e la differenza (d) tra a e b rappresentano rispettivamente i punti c e d nello spazio reale bidimensionale. Definiamo spazio k-dimensionale Rk l’insieme di tutti i vettori reali di dimensione (k × 1). Le propriet`a elementari di Rk sono:

23

2.2. MATRICI E VETTORI 7

6

b=2a 5

4

3

a 2

1

0

1

2

3

4

5

6

7

8

9

1. Chiusura rispetto alla somma: dati a ∈ Rk e b ∈ Rk , il vettore derivante dalla somma c = a + b appartiene a Rk . 2. Chiusura rispetto al prodotto scalare: dato qualunque vettore a ∈ Rk e qualunque grandezza scalare λ, il vettore a∗ = λ·a appartiene a Rk . Si definisce spazio vettoriale qualsiasi insieme di vettori chiuso rispetto alla moltiplicazione scalare ed alla somma.

2.2.12

Base di uno spazio vettoriale

Dato uno spazio vettoriale S, si definisce base di S un insieme di vettori a1 , a2 , . . . , ak che appartengono a S con la propriet`a che qualunque vettore appartenente a S pu`o essere ottenuto come combinazione lineare di a1 , a2 , . . . , ak : X c= λi · ai , ∀c ∈ S. Ad esempio, per lo spazio vettoriale R2 , i vettori:     1 0 a1 = , a2 = 0 1 sono una base dato che qualunque vettore (2 × 1) pu`o essere ottenuto come combinazione lineare di a1 e a2 .

2.2.13

Sottospazio vettoriale

Si definisce S(a1 , a2 , . . . , ak ), sottospazio vettoriale associato ad un insieme di vettori a1 , a2 , . . . , ak lo spazio vettoriale “coperto” da tali vettori: qualunque vettore appartenente a S(a1 , a2 , . . . , ak ) pu`o essere espresso come combinazione lineare

24

CAPITOLO 2. RICHIAMI MATEMATICI 7

6

5

c

4

a

d

3

b

2

1

−2

−1

0

1

2

3

4

5

6

7

di a1 , a2 , . . . , ak : c=

X

λi · ai , ∀c ∈ S(a1 , a2 , . . . , ak ).

Ad esempio, i vettori: 

   1 2 a =  2 ,b =  3 , 0 0 non coprono R3 . Infatti il vettore: 

 1 c =  2 , 3 non pu`o essere espresso come combinazione lineare di a e b. Il sottospazio vettoriale generato da a e b e` invece l’insieme di tutti i vettori appartenenti a R3 che hanno terzo elemento pari a zero.

2.2.14

Rango di una matrice

Si definisce spazio colonna di una matrice A di dimensione (m × n), lo spazio vettoriale coperto dai vettori colonna contenuti nella matrice. Si definisce rango colonna la dimensione di tale spazio vettoriale. Ad esempio, data la matrice:   3 8 A= 4 6

25

2.2. MATRICI E VETTORI

ha dimensione pari a 1. Si noti infatti (figura 2.2.11) che sia la prima colonna che la seconda della matrice A rappresentano punti che giacciono sulla retta passante dall’origine di R2 e avente inclinazione +2. Qualunque combinazione lineare delle colonne di A rappresenta punti su tale semiretta. Si noti che per ogni matrice A (m × n) vale: Rango riga ≡ Rango colonna, ossia: dimensione(spazio riga) ≡ dimensione(spazio colonna). Si noti inoltre che, date due matrici conformabili per prodotto A (m × n) e B (n × p), si ha: rango(A · B) ≤ min(rango(A), rango(B)).

2.2.15

Indipendenza lineare di vettori

Dati n vettori di dimensione (n×1) a1 , a2 , . . . , an , tali vettori si dicono linearmente indipendenti se: n X λ i · ai = 0 i=1

vale solo per: λ1 = λ2 = . . . = λn = 0. In altri termini i vettori a1 , a2 , . . . , an sono linearmente indipendenti se nessuno tra essi pu`o essere espresso come combinazione lineare degli altri n − 1. Si noti che data la matrice A (n × n), tale matrice avr`a determinante diverso da zero se e solo se i suoi vettori riga (o, che e` lo stesso, i suoi vettori colonna) sono linearmente indipendenti. Ad esempio, per la matrice:   1 15 A= 2 30 ha determinante pari a zero e i suoi vettori colonna (riga) non sono linearmente indipendenti: ad esempio la seconda riga pu`o essere ottenuta moltiplicando per 2 la prima.

2.2.16

Autovalori e autovettori

Data la matrice A , di dimensione (n × n), il sistema: A · (n×n)

x = λ ·

(n×1)

(1×1)

x ⇒ (A − λ · In ) · x = [0]

(n×1)

(n×1)

26

CAPITOLO 2. RICHIAMI MATEMATICI

ammette soluzioni x 6= [0] se e solo se: (n×1)

|A − λ · In | = 0.

(2.2)

altrimenti la matrice (A − λ · In ) pu`o essere invertita e l’unica soluzione e` x = [0]. Le radici λi (i = 1, 2, . . . , n) dell’equazione (2.2): sono chiamati autovalori. Le soluzioni xi (i = 1, 2, . . . , n) associate ad ogni autovalore λi : A · xi = λi · xi , i = 1, 2, . . . , n. sono detti autovettori. Ad esempio,per la matrice: 1−λ 2 A = , |A − λ · I2 | = 2 2−λ √ √ 1 3 1 3 17, λ2 = − 17. −2 − 3λ + λ2 = 0 ⇒ λ1 = + 2 2 2 2 

1 2

2 2





Si noti che la relazioni tra autovalori, autovettori e la matrice A pu`o essere scritta in modo compatto come: A · X (n×n)

=

(n×n)

X Λ=

X · Λ , (n×n)

(n×n)

= [x1 , x2 , . . . , xn ] ,  λ1 0 0 0  0 λ2 0 0   0 0 ... 0 0 0 0 λn

   

Un utile risultato relativo agli autovalori e` il seguente: se tutti gli autovalori λ1 , λ2 , . . . , λn sono distinti allora gli autovettori x1 , x2 , . . . , xn sono linearmente indipendenti. Data l’indipendenza lineare delle colonne di X (e quindi la sua invertibilit`a), e` possibile scrivere: A = X · Λ · X−1 . Una importante propriet`a degli autovalori di una qualunque matrice quadrata A di dimensioni (n × n) e` che il determinante di tale matrice e` pari al prodotto dei suoi autovalori: n Y |A| = λi i=1

27

2.2. MATRICI E VETTORI

2.2.17

Serie geometriche di matrici

Data la matrice quadrata (n × n) A, si definisca la somma: T X

ST = In + A + A2 + . . . AT =

Ai .

i=0

Pre-moltiplicando ST per A, si ottiene: 2

A · ST = A + A + . . . A

T +1

=

T +1 X

Ai+1 .

i=0

Sottraendo le due precedenti espressioni tra loro, si ricava: (In − A) · ST =

T X

Ai −

i=0

T +1 X

Ai+1 = (In − AT +1 ).

i=0

Se la matrice (In − A) e` invertibile (in termini equivalenti, se λ = 1 NON e` autovalore di A), allora e` possibile pre-moltiplicare per (In − A)−1 l’espressione precedente ed ottenere: ST = (In − A)−1 ·(In − AT +1 ). E` possibile mostrare che che se tutti gli autovalori di A sono minori di 1 in modulo: |λi | < 1, i = 1, 2, . . . , n, allora: lim AT +1 = [0] ,

T →∞

(n×n)

e quindi: lim ST = (In − A)−1 .

T →∞

2.2.18

Matrici definite, semidefinite positive e negative

La matrice A simmetrica (n × n) viene detta definita positiva se: x0 · A ·

(1×n)

(n×n)

x > 0, ∀ (n×1)

x 6= [0] . (n×1)

(n×1)

A simmetrica (n × n) viene detta semidefinita positiva se: x0 · A ·

(1×n)

(n×n)

x ≥ 0, ∀ (n×1)

x 6= [0] . (n×1)

(n×1)

28

CAPITOLO 2. RICHIAMI MATEMATICI

A simmetrica (n × n) viene detta definita negativa se: x0 · A ·

(1×n)

(n×n)

x < 0, ∀ (n×1)

x 6= [0] . (n×1)

(n×1)

A simmetrica (n × n) viene detta semi-definita negativa se: x0 · A ·

(1×n)

(n×n)

x ≤ 0, ∀ (n×1)

x 6= [0] . (n×1)

(n×1)

Gli autovalori di una matrice positiva sono tutti positivi, dato che: A · xi = λi · xi , x0i

· A · xi = λi · x0i · xi >0=⇒λi > 0, i = 1, 2, . . . , n.

Con ragionamenti simili si pu`o mostrare che tutti gli autovalori di matrici semidefinite positive sono non-negativi, che tutti gli autovalori di matrici definite negative sono negative e che tutti gli autovalori di matrici semidefinite negative sono non positivi. Quindi un modo per verificare le propriet´a di definitezza di una matrice e` quello di controllare il segno degli autovalori. Ci`o non e` molto agevole per una matrice di dimensioni superiori a (2 × 2), dato che per trovare gli autovalori e` necessario in tali casi risolvere equazioni di grado superiore al secondo che non sempre sono risolubili senza l’ausilio di un computer. Per tale motivo e` possibile fare riferimento ad un criterio alternativo, basato sulla verifica del segno dei minori principali. Per minore principale di ordine i (i = 1, 2, . . . , n) di una matrice quadrata A (n × n) si intendono i determinanti della sottomatrice ottenuta considerando solo le prime i righe e i-colonne di A. Una matrice e` definita positiva se tutti i suoi minori principali hanno segno positivo ed e` definita negativa se i suoi minori principali hanno segni alternati a partire da −. Fattorizzazione di una matrice definita positiva Qualunque matrice Ω (n × n) definita positiva pu`o essere fattorizzata nel modo seguente: Ω = A · D · A0 , dove A e` triangolare inferiore con elementi diagonali unitari: aij = 0, ∀j > i, aii = 1, i = 1, 2, . . . , n, e D e` una matrice diagonale con elementi diagonali posiivi: dij = 0, ∀i 6= j, dii > 0, i = 1, 2, . . . n. Tale scomposizione e` unica. Da questa scomposizione e` possibile ricavare la cosiddetta fattorizzazione di Choleski di Ω :

29

2.2. MATRICI E VETTORI

Ω = (A · D1/2 ) · (A · D1/2 )0 = P · P0 ,  √ d11 √0  0 d22 P = A · D1/2 , D1/2 =   ... ... 0 ...

 ... 0 ... ...  . . . . √. . .  ... dnn

Si noti che la matrice P, detta fattore di Choleski di Ω, ha dimensione √ed e` √ √ (n × n) triangolare inferiore con elementi diagonali positivi e pari a d11 , d22 , . . . , dnn .

2.2.19

Prodotto di Kronecker (prodotto tensore)

Date due matrici A, di dimensione (m × n) e B, di dimensione (p × q), si definisce prodotto di Kronecker tra A e B la matrice C, di dimensione (m · p × n · q) :   a11 · B a12 · B . . . a1n · B  a21 · B a22 · B . . . a2n · B  . C = A ⊗ B =   ... ... ... ... (m·p×n·q) (m×n) (p×q) an1 · B an2 · B . . . anm · B Ad esempio:  A=

1 2 3 4



 C = A⊗B=     =    

5 8 11 15 24 33

6 9 12 18 27 36



 5 6 7 , B =  8 9 10  , 11 12 13 1 2 3 4

7 10 13 21 30 39



10 16 22 20 32 44



 5 6 7 ⊗  8 9 10  = 11 12 13  12 14 18 20   24 26  . 24 28   36 40  48 52

Le pi`u importanti propriet`a dell’operatore prodotto di Kronecker sono le seguenti: 1) Date le matrici A, di dimensione (m × n) e B, di dimensione (p × q): (A ⊗ B)0 = A0 ⊗ B0 . 2) Date le matrici A, di dimensione (m × n) ,B, di dimensione (p × q) e C, di dimensione (r × s): (A ⊗ B) ⊗ C = A ⊗ (B ⊗ C).

30

CAPITOLO 2. RICHIAMI MATEMATICI 3) Date le matrici A e B, di dimensione (m × n) e C, di dimensione (r × s): (A + B) ⊗ C = A ⊗ C + B ⊗ C. 4) Date le matrici A (m × n), B (p × q), C (n × r) e D (q × s) :

! A

⊗ B

(m×n)

(p×q)

! =(A · C) ⊗ (B · D) =

C ⊗ D

·

(n×r)

(q×s)

(m×r)

(p×s)

E (m·p×r·s)

5) Date le matrici quadrate ed invertibili A (m × m) e B (n × n): (A ⊗ B)−1 = A−1 ⊗ B−1 .

2.2.20

L’operatore vec

Data una matrice (m × n) A : A = [a1 , a2 , . . . , an ] , l’operatore vec trasforma la matrice A in un vettore di dimensione (mn × 1), allineando uno sopra all’altra le colonne di A: 

 a1  a2   vec(A) =   ... . an Ad esempio:  A

= 

vec(A)

   =   

1 3 5 2 4 6  1 2   3  . 4   5 

 ,

6 Una propriet`a rilevante dell’operatore vec e` la seguente: date le matrici conformabili per prodotto A (m × n), B (n × p) e C (p × q), e` possibile dimostrare

2.3. FUNZIONI IN PIU` VARIABILI

31

che: " vec

# A (m×n)

· B · C (n×p)

=

(p×q)

=

d (m·q×1)

" =

# Iq ⊗ (A · B) · vec (C)= (m×p)

(p·q×1)

  = C0 ⊗ A · vec (B) , (q·m×p·n)

(n·p×1)

  = (C0 B0 ) ⊗ Im · vec (A) . (q·m×·n·m)

(m·n×1)

2.3 Funzioni in piu` variabili Data la grandezza scalare y e il vettore (n × 1) x: y ∈ R1 ,  x1  x2 x ∈   ... xn

  , 

si definisce funzione Rn → R1 (funzione scalare di un vettore) la funzione: y = f (x) = f (x1 , x2 , . . . , xn ).

(2.3)

Ad esempio, si consideri la funzione di produzione Cobb-Douglas omogenea di primo grado, che fa dipendere il prodotto Y dall’utilizzazione di capitale (K) e lavoro (L): Y

= f (K, L) = A · K α · L1−α ,

A > 0, 0 < α < 1.

2.3.1

Derivate parziali prime e seconde

Si definisce la derivata prima parziale della funzione (2.3) rispetto al suo i-esimo argomento (xi , i = 1, 2, . . . , n) la seguente espressione: ∂f (x) = fi (x) lim ∆−1 · [f (x1 , . . . , xi + ∆, ..xn ) − f (x1 , . . . , xi , ..xn )] . ∆→0 ∂xi Ad esempio, per la funzione di produzione Cobb-Douglas, la derivata parziale rispetto al capitale (produttivit`a marginale del capitale) e` : fK (K, L) =

∂f (K, L) = α · A · K α−1 · L1−α . ∂K

32

CAPITOLO 2. RICHIAMI MATEMATICI

Si definisce gradiente il vettore delle derivate prime di una funzione scalare di un vettore:   ∂f (x) ∂x1 ∂f (x) ∂x2

  ∇ = (n×1)  . . .

∂f (x) ∂xn

   

.Ad esempio, per la funzione lineare: f (x) = a (n×1)

0

x +

(1×n) (n×1

b = (1×1)

n X

ai · xi + b,

i=1

il gradiente e` : 

 a1  a2   a . ∇ =  . . .  =(n×1) (n×1) an Per la funzione di produzione Cobb-Douglas, il gradiente e` invece: " #   ∂f (K,L) α · A · K α−1 · L1−α ∂K . ∇ = ∂f (K,L) = (1 − α) · A · K α · L−α (2×1) ∂L

Le derivate seconde di una funzione f (x) scalare di un vettore Rn → R1 sono definite come:     ∂f ∂f ∂ ∂ 2 2 ∂xj ∂xi ∂ f ∂ f fij = = , fji = = , ∂xi ∂xj ∂xi ∂xj ∂xi ∂xj fij = fji , i = 1, 2, . . . , n, j = 1, 2, . . . , n. E` possibile definire una matrice (n × n) H, chiamata matrice hessiana, che contiene le derivate parziali seconde della funzione f (x):   ∂2f 2f  ∂2f 0  . . . ∂x∂1 ∂x ∂f (x) ∂x1 ∂x1 ∂x1 ∂x2 n  2f  ∂2f  ∂ ∂2f ∂x ∂ 50 . . .   ∂x2 ∂x1 ∂x∂2 ∂x ∂x ∂x n  = 2 2 = . H = ∂x ∂x ... ... ... ...  (n×n)  ∂2f ∂xn ∂x1

∂2f ∂xn ∂x2

...

∂2f ∂xn ∂xn

Si noti che la matrice hessiana e` naturalmente simmetrica, dato che: ∂2f ∂2f = ∀i, j. ∂xi ∂xj ∂xj ∂xi Ad esempio, per la funzione di produzione Cobb-Douglas. la matrice hessiana e` :  H = (2×2)

α · (α − 1) · A · K α−2 · L1−α α · (1 − α) · A · K α−1 · L−α α · (1 − α) · A · K α−1 · L−α −α · (1 − α) · A · K α · L−α−1



2.3. FUNZIONI IN PIU` VARIABILI

2.3.2

33

Alcune semplici regole di derivazione per funzioni in piu` variabili

Si notino le seguenti regole di derivazione per funzioni scalari di vettori. 1. Data la funzione f (x) = a0 · (1×n)

x , il gradiente di tale funzione e` :

(n×1)

∂f = a . ∂x (n×1) 2. Data la funzione f (x) = x0 · (1×n)

a , il gradiente di tale funzione e` :

(n×1)

∂f = a . ∂x (n×1) 3. Data la funzione f (x) = x0 · A · (1×n)

∂f = ∂x

(n×n)

x , il gradiente di tale funzione e` :

(n×1)

! A

0

(n×n)

+ A

·

(n×n)

x (n×1)

Se la matrice A e` simmetrica, ovviamente il gradiente e` : ∂f = 2· A x ∂x (n×n)(n×1)

2.3.3

Ottimizzazione

Nel caso di una funzione scalare di uno scalare R1 → R1 , y = f (x), la condizione del primo ordine per avere un massimo o un minimo e` : ∂f = 0, ∂x mentre le condizioni del secondo ordine sono: ∂2f ∂x2 ∂2f ∂x2

> 0 per un min imo, < 0 per un massimo.

Nel caso di funzione scalare di un vettore Rn → R1 , y = f (x), le condizioni del primo ordine per avere un massimo o un minimo sono date dal sistema di n equazioni: ∂f = ∇ = [0] , ∂x (n×1)

34

CAPITOLO 2. RICHIAMI MATEMATICI

mentre le condizioni del secondo ordine sono: definita positiva per un minimo,

H (n×n)

definita negativa per un massimo.

H (n×n)

2.3.4

Ottimizzazione vincolata

Sia data la funzione scalare di un vettore Rn → R1 , y = f (x) e si immagini di dover massimizzare la funzione rispetto a x sotto un insieme di k vincoli su x: M ax f (x) x   c (x) = d   1 1     c2 (x) = d2 con : ...       ck (x) = dk ( ) oppure :

c(x) = d (k×1)

(k×1)

Un modo di procedere al calcolo del massimo vincolato x∗ e` quello di costruire la funzione lagrangiana: L(x, λ) = f (x) +

n X

λi · [ci (x) − di ] = f (x) + λ0 · [c(x) − d] ,

i=1





λ1  λ2   λ =   ... . λk Gli elementi del vettore (k × 1) λ sono detti moltiplicatori di Lagrange e consentono di tenere in considerazione i vincoli che la soluzione del problema di ottimizzazione deve soddisfare. La costruzione della funzione lagrangiana consente di impostare il problema di ottimizzazione vincolata come un problema di ottimizzazione libera, semplicemente specificando le condizioni del primo ordine in relazione ad un vettore di variabili di scelta di dimensione superiore:   x z = . λ (n+k)×1 Le condizioni del primo ordine sono:  ∂L(x, λ) ∂x

=

∂L(x, λ) ∂λ

=

[0] ⇒ (n×1)

∂c(x)0



∂f (x)   · λ = [0] , + ∂x ∂x (k×1) (n×1) (n×1) (n×k) " #

[0] ⇒ c(x) − d = [0] . (k×1)

(n×k)

(k×1)

2.3. FUNZIONI IN PIU` VARIABILI

35

Dalla risoluzione del sistema delle condizioni del primo ordine si ricava la soluzione x∗ che ottimizza la funzione f (x) sotto i vincoli c(x) = d. Le propriet`a dell’ottimo vincolato sono le seguenti: • la funzione valutata nel punto di massimo (minimo) vincolato x∗ e` non superiore (non inferiore) alla funzione valutate nel punto di massimo (minimo) libero x∗∗ : f (x∗ ) ≤ f (x∗∗ ) nel caso di massimo vincolato, f (x∗ ) ≥ f (x∗∗ ) nel caso di minimo vincolato. Infatti:



∂f (x) ∂x



 +

x=x∗

∂c0 (x) ∂x

 · λ = [0] x=x∗

(n×1)

h i (x) e quindi il gradiente valutato in corrispondenza di x = x∗ , ∂f∂x

x=x∗

, e`

diverso da [0] . (n×1)

• Quando l’ottimo vincolato coincide con quello vincolato, si ha: λ = [0] : x∗ = x∗∗ ⇔ λ = [0] . (k×1)

(k×1)

Ad esempio, si consideri il seguente problema di massimizzazione vincolata: M ax f (x) = x

a0 · x − x0 · A · x , (3×1) (3×1) (3×3) (3×1)   x1 − x2 + x3 = 0 , x1 + x2 + x3 = 0 ( )

(1×3)

con

:

oppure

:

C · x = d (2×3)

(3×1)

(2×1)

Questo e` il caso di ottimizzazione di una funzione quadratica in x con vincoli lineari (e omogenei, dato che d = [0]). Le condizioni del primo ordine sono: ∂L(x, λ) ∂x a −2· A · x + C0 · λ

(3×1)

(3×3)

(3×1)

(3×2)

C · x

(3×1)

[0] ⇒

(2.4)

(3×1)

=

(2×1)

∂L(x, λ) ∂λ (2×3)

=

[0] ,

(2.5)

(3×1)

=

[0] ⇒

(2.6)

(2×1)

=

[0] . (2×1)

(2.7)

36

CAPITOLO 2. RICHIAMI MATEMATICI

La soluzione di queste due insiemi di equazioni con incognite x e λ fornisce il massimo vincolato della funzione: esplicitando l’espressione (2.4) rispetto a x si ottiene:  1 (2.8) x = · A−1 · a + C0 · λ . 2 Sostituendo quest’ultima espressione nella (2.6) si ottiene: C·

 −1 1 · A−1 · a + C0 · λ = [0] ⇒ λ = − C · A−1 · C0 · C · A−1 · a. 2

Sostituendo quest’ultima espressione nella (2.8) si ottiene finalmente il valore di x: h i −1 1 x = · A−1 · a − C0 · C · A−1 · C0 · C · A−1 · a . 2

2.4

Esercizi su richiami di matematica

1. Per le matrici:  A=

1 3 3 2 4 1





 2 4 ,B =  1 5  6 2

si calcolino: A · B, A 0 · B0 , B·A B0 · A 2. Si espanda il prodotto matriciale: n io0 h X = A · B + (C · D)0 (E · F)−1 + G · H , dove tutte le matrici sono quadrate ed invertibili. 3. Data la matrice: 

 1 4 7 A= 3 2 5  5 8 8 calcolarne il determinante, la traccia e l’inversa. 4. Si calcoli la scomposizione di Choleski per la matrice:   25 7 A= . 7 13

37

2.5. SOLUZIONI AGLI ESERCIZI

5. Quale operazione si compie post-moltiplicando una matrice A (m × n) per una matrice diagonale Λ di dimensione (n × n)? E se invece la si pre-moltiplica per una matrice diagonale Γ di dimensione (m × m)? 6. Date le seguenti forme quadratiche: a) y = x21 − 14 · x1 · x2 + 11 · x22 b) y = 5 · x21 + x22 + 7 · x23 + 4 · x1 · x2 + 6 · x1 · x3 + 8 · x2 · x3 , dire se sono positive per tutti i valori di x1 , x2 , x3 . 7. Si calcolino gli autovalori della matrice:   2 4 3 A =  4 8 6 . 3 6 5 8. Si risolva, scrivendo la funzione lagrangiana e le condizioni del primo ordine, il problema di massimizzazione vincolata dell’utilit`a del consumatore:   q1 β α , M ax U (q)= q1 · q2 , 0 < α < 1, 0 < β < 1, q = q2 q con il vincolo : p1 · q1 + p2 · q2 = y, dove q1 e q2 sono le quantit`a dei beni 1 e 2, p1 e p2 sono i prezzi di tali beni e y e` il reddito monetario dell’individuo.

2.5

Soluzioni agli esercizi

1. Le matrici richieste sono:  A·B= 

1 0 0  A ·B = 3 3  2  B·A= 1 6

1 3 3 2 4 1   2 2  4 · 4 1   4 1  5 · 2 2

B0 · A

(2×3)

  2 4 · 1 5 = 6 2   10 1 6  = 22 5 2 10   10 3 3  = 11 4 1 10





23 25 14 30

,

 11 10 23 26  , 8 20  22 10 23 8  , 26 20

non conformabili per prodotto.

(2×2)

Si noti che: B · A = A 0 · B0



0

⇔ (B · A)0 = A0 · B0 .

38

CAPITOLO 2. RICHIAMI MATEMATICI 2. Si espanda il prodotto matriciale: X=

n io0 h A · B + (C · D)0 (E · F)−1 + G · H = = {A · B · F−1 · E−1 + A · B · G · H+ +D0 · C0 · F−1 · E−1 +D0 · C0 · G · H}0 = E−10 · F−10 · B0 · A0 + H0 · G0 ·B0 ·A0 + 0

+E−10 · F−1 · C · D+H0 · G0 · C · D

3. Per la matrice A abbiamo:



 1 4 7 A= 3 2 5  5 8 8 2 5 |A| = 1 · 8 8  +

A =

−4· 3 5 5 8

+7· 3 2 5 8



= −24 + 4 + 98 = 78, tr(A) = 1 + 2 + 8 = 11,   1 2 7

−24 24 6 78 39 1 1 1 −27 16  , A−1 = |A|−1 · A+ =  26 39 5 4 14 12 −10 78 39  4 4 − 13 13 1 9 − 26 =  78 7 39

2 13

78 5  78 4 39 1 13 8 39 5 − 39

=  .

4. La matrice A e` simmetrica e definita positiva. Per trovare gli autovalori di A si procede nel modo seguente: 25 − λ 7 |A − λ · I2 | = 0 ⇒ 7 13 − λ

= 0 ⇒ (25 − λ) · (13 − λ) − 49 = 0, √ λ2 − 38 · λ + 276 = 0 ⇒ λ = 19 ± 85 = 19 ± 9.21 : entrambi positivi.

Il calcolo degli autovalori conferma che la matrice sia definita positiva. E` possibile quindi procedere alla scomposizione di Choleski: 

 p11 0 P= , p11 > 0, p22 > 0. p21 p22   p211 p11 · p21 0 A=P·P = . p11· p21 p221 + p222

2.5. SOLUZIONI AGLI ESERCIZI

39

Quindi uguagliando elemento per elemento le matrici A e P · P0 si ottiene:

p221 + p222

p211 = 25 ⇒ p11 = 5 7 p11 · p21 = 7 ⇒ p21 = , 5 r 49 2√ = 13 ⇒ p22 = 13 − = 69 . 25 5

Si noti che per calcolare della matrice P si prendono √ gli elementi diagonali √ radici positive 5 e 52 69 (e non -5 e - 13), dato che il fattore di Choleski per definizione ha elementi diagonali positivi. 5. Post-moltiplicando una matrice A (m × n) per una matrice diagonale Λ di dimensione (n × n) si ottiene:     a11 a12 . . . a1n λ11 0 . . . 0  a21 a22 . . . a2n   0 λ22 . . . 0  · = A · Λ = A∗ =  ... ... ...   ... ... ... ...  (m×n)  . . . am1 am2 . . . amn 0 0 . . . λnn   a11 · λ11 a12 · λ22 . . . a1n · λnn  a21 · λ11 a22 · λ22 . . . a2n · λnn   =   ... ... ... ... am1 · λ11 am2 · λ22 . . . amn · λnn vale a dire si ricava una matrice A∗ (m × n) che risulta moltiplicando ogni colonna di A per il corrispondente elemento diagonale di Γ. Se invece si pre-moltiplica A per una matrice diagonale Γ di dimensione (m × m) si ottiene:



γ11 0  0 γ22 =  ... ... 0 0

... ... ... ...   = 

Γ · A· = A∗∗ = (m×n)    0 a11 a12 . . . a1n   0   ·  a21 a22 . . . a2n  =   ... ... ... ... ...  γmm am1 am2 . . . amn  a11 · γ11 a12 · γ11 . . . a1n · γ11 a21 · γ22 a22 · γ22 . . . a2n · γ22    ... ... ... ... am1 · γnn am2 · γnn ... amn · γnn

vale a dire si ricava una matrice A∗∗ (m × n) che risulta moltiplicando ogni riga di A per il corrispondente elemento diagonale di Γ. 6. Si scriva (a) come: y = x0 · A · x = a11 · x21 + 2 · a12 · x1 · x2 + a22 · x22 , (1×2)

(2×2)

(2×1)

40

CAPITOLO 2. RICHIAMI MATEMATICI con A matrice simmetrica:  A=

a11 a12 a12 a22

 .

In questo caso si ha: 

 1 −7 A= , −7 11   √ −2.602 . Da ci`o si ricava che la con autovalori: λ = 6 ± 74 = 14.602 matrice A non e` definita positiva e quindi la forma quadratica (a) non e` positiva per qualunque valore di x1 e x2 . Per quello che riguarda (b), essa pu`o essere scritta come: y = x0 · A · x = a11 · x21 + 2 · a12 · x1 · x2 + +2 · a13 · x1 · x3 + (1×3)

(3×3)

(3×1)

+2 · a23 · x2 · x3 + a22 · x22 + a33 · x23 ,   5 2 3 A= 2 1 4  3 4 7 Per verificare se A e` definita positiva occorrerebbe verificare se tutti i suoi autovalori sono positivi. Ci`o in generale non e` molto agevole per una matrice di dimensioni superiori a (2 × 2), senza l’ausilio di un computer. Per tale motivo e` possibile fare riferimento al segno dei minori principali. Nel caso della matrice A: 5 > 0, = 5 − 4 > 0, 5 2 3 2 1 4 = −34 < 0. 3 4 7 5 2 2 1

Da questo si deduce che la matrice A non e` definita positiva e quindi che la forma quadratica (b) non e` positiva per qualsiasi valori di x. 7. Gli autovalori della matrice A vengono ottenuti come soluzione all’equazione: 2−λ 4 3 4 8−λ 6 = 0 ⇒ 3 6 5−λ (2 − λ) [(8 − λ)(5 − λ) − 36]−4 [4 (5 − λ) − 18]+3 [24 − 3 (8 − λ)] = 0 ⇒  −5λ + 15λ2 − λ3 = 0 ⇒ −λ · 5 − 15λ + λ2 = 0 ⇒

41

2.5. SOLUZIONI AGLI ESERCIZI * λ=

0

√ 15− 205 = 0.341 2 √ 15+ 205 = 14.659 2

+

Si noti comunque che la seconda colonna di A e` pari a due volte la prima colonna. Questo implica che: |A| = 0 e quindi, dato che il determinante di una matrice e` dato dal prodotto dei suoi autovalori e` ovvio che almeno uno degli autovalori di A sia nullo. 8. La funzione lagrangiana pu`o essere scritta come:  L(q, λ) = u(q) + λ · p0 q − y ,     p1 q1 u(q) = q1α · q2β , p = ,q = . p2 q2 Le condizioni del primo ordine sono: ∂L(q, λ) ∂u(q) = [0] ⇒ +λ · p = [0] , ∂q ∂q (2×1)

(2.9)

∂L(q, λ) = 0 ⇒ p0 q = y. ∂λ

(2.10)

(2×1)

In questo caso conviene scrivere la (2.9) come : α · q1α−1 · q2β + λ · p1 = 0, β·

q1α

·

q2β−1

+ λ · p1 = 0.

(2.11) (2.12)

Si risolva la (2.11) a λ: α · q1α−1 · q2β λ=− , p1 e si sostituisca tale valore nella (2.12), risolvendo per q1 : q1 =

p2 α · · q2 . p1 β

(2.13)

Si utilizzino ora la (2.10) e la (2.13) per ottenere le soluzioni in termini di q1 e q2 : #  ∗  " α q1 (α+β)·p1 · y ∗ q = = . β q2∗ (α+β)·p · y 2

42

CAPITOLO 2. RICHIAMI MATEMATICI Si noti che con la funzione di utilit`a specificata le domande q1∗ e q2∗ sono funzioni lineari del reddito monetario y. Infine si noti che e` possibile dare interpretazione geometrica alle condizioni (2.9): "

∂u(q) ∂q1 ∂u(q) ∂q2

= −λ · p1 = −λ · p2

# ⇒

∂u(q) ∂q1 ∂u(q) ∂q2

=

p1 , p2

che stabilisce la condizione di tangenza (uguaglianza delle pendenze) tra la curva di indifferenza e la retta di bilancio.

Capitolo 3

Richiami di inferenza statistica 3.1 Variabile casuale Per variabile casuale (VC) intendiamo la misurazione quantitativa del risultato di un esperimento casuale. Ad esempio, consideriamo il lancio di una moneta che con probabilit`a pari a 1/2 fornisce il risultato ”testa” e con la stessa probabilit`a fornisce il risultato ”croce”. Immaginiamo di attribuire il valore 0 all’evento testa e il valore 1 all’evento croce. Abbiamo quindi che la variabile casuale X, risultato del lancio di una moneta, pu`o essere descritta come segue:   0 Pr(X = 0) = 1/2 X= 1 Pr(X = 1) = 1/2 In genere si utilizza la notazione X (la lettera maiuscola) per indicare una variabile casuale e la corrispondente lettera minuscola (x in questo caso) per indicare la realizzazione di una variabile casuale in un determinato esperimento casuale. A seconda dell’insieme dei valori che una variabile casuale pu`o assumere (dominio o supporto di una variabile casuale) si e` soliti distinguere le variabili casuali in assolutamente continue e discrete. Una variabile casuale continua (VCC) assume valori appartenenti all’insieme dei numeri reali (o a suoi sottoinsiemi): X : x ∈ A, A ⊆ R Le variabili casuali discrete (VCD) assumono valori discreti. Ad esempio la variabile casuale numero di risultati ”testa” nel lancio ripetuto 10 volte di una moneta assume valori discreti compresi tra 0 e 10.

3.2

Distribuzione di probabilit`a

Per una variabile casuale e` importante poter attribuire una misura connessa alla probabilit`a del prodursi dei diversi risultati ammissibili. Ci`o viene fatto tramite la specificazione di una distribuzione di probabilit`a. La distribuzione di probabilit`a e` 43

44

CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

diversamente trattata a seconda che si consideri una VCC o una VCD. Nel caso di una VCD e` possibile attribuire ad ogni possibile realizzazione della VC un determinato valore che misura la probabilit`a del prodursi di quel determinato evento. In tal caso si parla di probabilit`a associata al valore x, che indichiamo con f (x): X f (x) = pr(X = x), x ∈ A, f (xi ) = 1. xi ∈A

Per le VCC invece si parla di densit`a di probabilit`a assegnata ad ogni punto appartenente al supporto A della VC e si definisce la probabilit`a che la VC in questione assuma valori compresi in un qualunque intervallo come: Z b f (x)dx = pr(a ≤ x ≤ b), a ≤ b a

La funzione f (x) viene detta funzione di densit`a di probabilit`a. Si noti quindi che per una VCC la probabilit`a di essere uguale ad un determinato valore e` per definizione nulla dato che: Z x0 prob(X = x0 ) = f (x)dx = 0, ∀x0 x0

In altri termini, la massa di probabilit`a sottesa da un unico punto e` identicamente nulla per ogni punto del supporto di una VCC, a prescindere dall’entit`a della densit`a di probabilit`a assegnata a tale punto. Questo perch`e l’integrale di una qualunque funzione definito su di un intervallo di misura nulla e` identicamente uguale a zero.

3.3

Funzione di ripartizione

Per funzione di ripartizione di una variabile casuale X si intende la funzione che per ogni valore x appartenente al dominio della variabile casuale assegna una misura della probabilit`a che la variabile casuale stessa assuma valori inferiori a x. In termini formali abbiamo: Z x F (x) = pr(X ≤ x) = f (t)dt −∞

per una VCC e : X

F (x) = pr(X ≤ x) =

f (xi )

xi ≤x

per una VCD. Si noti che, ovviamente la funzione di ripartizione, sia per una VCC che per VCD assume valori compresi nell’insieme [0,1]; in altri termini la funzione di ripartizione e` una funzione A → [0, 1], ed in pi`u valgono le seguenti propriet`a: lim F (x) = 0, lim F (x) = 1.

x→−∞

x→+∞

Le figure (3.1) e (3.2) presentano rispettivamente un esempio di funzione di ripartizione per una VCC e la funzione di ripartizione di una VCD.

45

3.3. FUNZIONE DI RIPARTIZIONE

Figura 3.1: Funzione di ripartizione per VC discreta

F(x) 1

x

Figura 3.2: Funzione di ripartizione per VC continua 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -3

-2

-1

0

1

2

3

46

3.4

CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

Momenti di una variabile casuale

Il valore atteso di una VC e` : X

E(X) =

xi f (xi ),

xi ∈A

per una VCD, e: Z

+∞

E(X) =

xf (x)dx. −∞

per una VCC. L’operatore E(·) che definisce l’operatore atteso, dato che si riferisce all’applicazione di un’operazione di sommatoria o di integrale e` un operatore lineare: data la VC x e le costanti a e b, si ha: E (a + bx) = a + bE(x). Il valore atteso costituisce la principale misura della posizione di una VC. Per sintetizzare le caratteristiche principali di una VC si pu`o fare ricorso alla mediana, vale a dire ad una misura di tendenza centrale. Per mediana si intende quel valore xmed appartenente al supporto della VC tale per cui: pr(X < xmed ) = pr(X > xmed ) = 1/2. La mediana xmed e` diversamente definita a seconda che si tratti di VCC o VCD: Z xmed 1 xmed : f (x)dx = (VCC), 2 −∞ X 1 xmed : p(xi ) ≤ (VCD). 2 xi ≤xmed

Pi`u in generale e` possibile definire quantile di una VC corrispondente al valore di α, 0 < α < 1, quel valore xα in corrispondenza del quale la massa di probabilit`a assegnata a valore minori di xα e` pari ad α. In tal senso la mediana di una VC e` chiaramente il quantile corrispondente a α = 1/2. Un altro concetto rilevante per una VC e` la moda. Per moda (o valore modale) si intende un punto i massimo almeno locale della funzione di probabilit`a (se VCD) o della funzione di densit`a di probabilit`a per una VCC. Ad esempio, se la funzione di densit`a di una VCC X ammette un massimo interno nel punto xmo , tale punto e` valore modale per X ed in corrispondenza di esso abbiamo:   ∂f (x) = 0. ∂x x=xmo A seconda che la VC ammetta uno o pi`u valori modali viene detta unimodale o multimodale.

3.5. LA DISTRIBUZIONE NORMALE

47

Un’altra importante classe di indicatori sono quelli che forniscono misure di quanto grande e` la variabilit`a insita nella VC in questione. Tali indicatori sono detti misure della dispersione e tra esse assume particolare rilievo la varianza: per varianza della VC X si intende il valore atteso dei quadrati delle deviazioni da E(X): Z

+∞

v(X) =

[x − E (x)]2 f (x)dx (per una VCC),

−∞

v(X) =

X

[xi − E (x)]2 p(x) (per una VCD).

xi ∈A

Si noti che sia nel caso di una VCC che di una VCD la varianza pu`o essere alternativamente espressa come: v(X) = E(X 2 ) − [E(X)]2 , vale a dire come differenza tra il valore atteso del quadrato di X e valore atteso di X al quadrato. Questa espressione pu`o essere facilmente ottenuta sviluppando il quadrato [X − E (X)]2 ed applicando il valore atteso a ciascun elemento. Le propriet`a della varianza possono essere facilmente sintetizzate: data la VC X e le costanti a e b, dalla definizione di varianza di X e` possibile ricavare facilmente: v(a + bX) = b2 v(X). Questo significa che aggiungere una costante ad una VC non ne modifica la varianza e moltiplicare questa VC per una costante b comporta l’ottenimento di una varianza che e` pari a b2 volte quella della VC di partenza: la varianza e` infatti un operatore quadratico.

3.5 La distribuzione normale In statistica e` particolarmente diffuso il riferimento alla VC normale o gaussiana: una VCC X si distribuisce come una normale o gaussiana con valore atteso µ e varianza σ 2 (con notazione sintetica X ∼ N (µ, σ 2 )) se la sua funzione di densit`a e` :   1 1 f (x) = √ exp − 2 (x − µ)2 , x ∈ R1 . 2σ 2πσ Nella figura (3.5) viene rappresentata la funzione di densit`a di una VC X ∼ N (µ, σ 2 ). Si noti che e` possibile notare che tale VC ha moda e mediana che coincidono con µ, il valore atteso, e punti di flesso corrispondenti a ±σ. Si noti pure che la funzione di densit`a ha un asintoto orizzontale corrispondente all’asse delle ascisse: lim f (x) = lim f (x) = 0. x→−∞

x→+∞

48

CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

Figura 3.3: Funzione di densit`a normale con media 0 e varianza 1 0.4 Dens. normale standard 0.35

0.3

0.25

0.2

0.15

0.1

0.05

0 -3

-2

-1

0

1

2

3

Una propriet`a importante delle VC normali e` che qualsiasi trasformazione lineare di una VC normale e` anch’essa distribuita normalmente. Data infatti X ∼ N (µ, σ 2 ) e qualunque coppia di constanti a e b, abbiamo che: Y = (a + bX) ∼ N (a + bµ, b2 σ 2 ). Ad esempio, se consideriamo: a=

1 µ ,b = , σ σ

si ha:

1 (X − µ) ∼ N (0, 1) σ La VC Y viene detta in questo caso normale standardizzata, vale a dire con valore atteso nullo e varianza unitaria. L’ottenimento di Y a partire di X viene detta operazione di standardizzazione di un VC normale. Y =

3.6

Inferenza statistica parametrica

L’inferenza statistica parametrica consiste nel ricavare informazioni relative ai parametri incogniti della distribuzione di una popolazione a partire dall’osservazione di un campione di ampiezza n (n-pla campionaria) di elementi estratti da tale popolazione: x1 , x2 , ..., xn .

3.7. PROPRIETA` DEGLI STIMATORI

49

L’inferenza pu`o essere condotta con modalit`a differenti che si possono ricondurre alle seguenti: 1. Stima puntuale 2. Stima per intervallo (costruzione di intervalli di confidenza o intervalli fiduciari). 3. Prova delle ipotesi. Per stimatore si intende un valore sintetico delle informazioni contenute nell’npla campionaria. Ad esempio se si considera un campione di ampiezza n: x1 , x2 , ..., xn , uno stimatore possibile (e sensato) e` la media campionaria, definita come: n

1X xn = xi n i=1

Si noti che gli stimatori sono VC in quanto valori sintetici ottenuti sulla base dell’osservazione di un campione, e ciascuno degli elementi del campione e` una VC.

3.7

Propriet`a degli stimatori

3.7.1

Non distorsione o correttezza

Uno stimatore g(x1 , x2 , ...xn ) (con questa notazione si intende sottolineare il fatto che lo stimatore e` una VC ottenuta come funzione delle variabili casuali elementi del campione) viene detto non distorto o corretto per il parametro θ incognito della popolazione che si vuole stimare se vale: E [g(x1 , x2 , ...xn )] = θ

3.7.2

Efficienza

Il concetto di efficienza di uno stimatore, in relazione alla stima di un parametro incognito θ della popolazione si riferisce alla precisione delle informazione relative a θ che possono essere ottenute dallo stimatore utilizzato. La propriet`a dell’efficienza di uno stimatore e` un concetto relativo e pertiene agli stimatori appartenenti ad una determinata classe. Si considerino ad esempio gli stimatori non distorti. Lo stimatore g(x1 , x2 , ...xn ) appartenente a tale classe che ha varianza minima viene detto stimatore efficiente (stimatore MVUE: Minimum Variance Unbiased Estimator: stimatore corretto a varianza minima).

50

CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

Nella classe degli stimatori lineari e corretti, lo stimatore pi`u efficiente viene detto BLUE ( Best Linear Unbiased Estimator, migliore stimatore lineare corretto). Ad esempio, avendo a disposizione un campione di n = 10 elementi estratti in modo identico ed indipendente da una popolazione distribuita normalmente con momenti entrambi incogniti: xi ∼ N (µ, σ 2 ), i = 1, 2, ..10, xi k xj ∀i 6= j. Si considerino gli stimatori: 10

g10 (x1 , x2 , ...x10 ) =

1 X xi , 10 i=1

g7 (x1 , x2 , ...x10 ) =

7 1X

7

xi ,

i=1

Notiamo che entrambi gli stimatori sono corretti:

E [g10 (x1 , x2 , ...x10 )] =

E [g7 (x1 , x2 , ...x10 )] =

10

10

i=1

i=1

1 X 1 X E (xi ) = µ = µ, 10 10 7 1X

7

µ = µ,

i=1

ed e` possibile mostrare che: V [g10 (x1 , x2 , ...x10 )] =

V [g7 (x1 , x2 , ...x10 )] =

10

10

i=1

i=1

1 X 2 1 1 X V (xi ) = σ = σ2, 100 100 10 7 7 1 X 2 1 2 1 X V (xi ) = σ = σ . 49 49 7 i=1

i=1

Il pi`u efficiente tra questi due stimatori e` quindi g10 (x1 , x2 , ...x10 ), dato che ha varianza pi`u bassa. Si noti che questo non e` sorprendente dato che g10 (x1 , x2 , ...x10 ) utilizza tutte le informazioni provienienti dal campione mentre g7 (x1 , x2 , ...x10 ) non assegna alcun ruolo all’informazione proveniente dalle osservazioni x8 , x9 e x10 .

3.7.3

Consistenza

La consistenza e` una propriet`a asintotica, vale a dire che riguarda il comportamento degli stimatori per campioni di grande ampiezza (n → ∞).

3.7. PROPRIETA` DEGLI STIMATORI

51

Uno stimatore g(·) viene detto consistente per il parametro incognito della popolazione θ se per ogni coppia di valori  > 0 e δ > 0, esiste un ampiezza campionaria n0 tale per cui: prob [|gn − θ| < ε] > 1 − δ, ∀n > n0 . In altri termini: lim pr [|gn − θ| < ε] = 1, ∀ε > 0

n→∞

Altre notazioni equivalenti per esprimere la consistenza sono: p

gn → θ, plim(gn ) → θ La consistenza di uno stimatore pu`o quindi essere indicata come la convergenza in probabilit`a di tale stimatore al valore incognito dei parametri da stimare. Perch`e si abbia consistenza e` necessario che: lim E (gn − θ)2 = 0

n→∞

Uno stimatore distorto pu`o essere consistente purch`e sia asintoticamente non distorto: lim E(gn ) = θ. n→∞

E` possibile enumerare le principali propriet`a dell’operatore plim: ! n n X X plim ci xi = ci · plim (xi ) , i=1

plim

i=1

n Y

! xi

i=1

 plim

x1 x2

 =

=

n Y

plim (xi ) ,

i=1

plim (x1 ) , se plim (x2 ) 6= 0, plim (x2 )

plim (g(x)) = g (plim(x)) se la funzione g (·) e` continua in plim(x)

3.7.4

La legge dei grandi numeri (Versione piu` semplice)

Si consideri un campione di n elementi estratti indipendentemente da una distribuzione con valore atteso µ e varianza σ 2 : x1 , x2 , ...xn ∼ i.i.d.(µ, σ 2 ) Si consideri la media campionaria: n

xn =

1X xi n i=1

52

CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

La legge dei grandi numeri ci assicura che la media campionaria converge in probabilit`a al valore atteso incognito µ della popolazione: p lim (xn ) = µ

3.7.5

Teorema centrale del limite

Consideriamo le stesse ipotesi che abbiamo avanzato a proposito della legge dei grandi numeri, vala a dire che ci sia un campione di n elementi estratti in modo indipendente dalla stessa popolazione con valore atteso µ e varianza σ 2 : x1 , x2 , ...xn ∼ i.i.d.(µ, σ 2 ) Se consideriamo la variabile casuale: √ zn =

n (xn − µ) σ

e con f (zn ) indichiamo la sua funzione di densit`a di probabilit`a, il teorema centrale del limite (TCL) afferma che al crescere di n la funzione di densit`a di zn converge a quella dellaVC gaussiana standardizzata: lim f (zn ) = φ(zn )

n→∞

dove φ(·) e` la funzione di densit`a della VC normale standardizzata N (0, 1). Con notazione del tutto equivalente si pu`o affermare che: d

zn → z ∼ N (0, 1). d

La notazione → indica convergenza in distribuzione e si dice che zn converge in distribuzione ad una VC normale standardizzata. Il TCL si pu`o parimenti enunciare nei termini della funzione di ripartizione: definendo F (zn ) la funzione di ripartizione di zn , il TCL afferma che al crescere di n la funzione di ripartizione di zn converge a quella dellaVC gaussiana standardizzata: lim F (zn ) = Φ(zn )

n→∞

dove Φ(·) e` la funzione di ripartizione della VC normale standardizzata N(0,1). In altri termini, qualunque sia la distribuzione della popolazione X, la VC zn (la media campionaria standardizzata) ha una distribuzione limite che coincide con quella della Normale standardizzata. Ad esempio, se consideriamo la seguente VC (VC bernoulliana):   0 con probabilit`a 1 − p X= 1 con probabilit`a p, 0 < p < 1

3.8. VARIABILI CASUALI IN PIU` DIMENSIONI

53

sappiamo che: E(X) = p, V (X) = p(1 − p), p(1 − p) E(xn ) = p, V (xn ) = n Quindi, applicando il TCL si ottiene: √ n(xn − p) d → N (0, 1) zn = p p(1 − p)

3.8

Variabili casuali in piu` dimensioni

Si consideri il vettore (2 × 1) x :  x=

x1 x2



dove sia x1 che x2 sono due variabili casuali, per semplicit`a di esposizione continue. Il vettore x pu`o essere quindi definito una variabile casuale bidimensionale. Con riferimento ad x e` possibile definire: • La distribuzione congiunta di x1 e x2 : f (X) = f (x1 , x2 ) • Le distribuzioni marginali di x1 e x2 : Z +∞ f (x1 ) = f (x1 , x2 )dx2 −∞ +∞

Z f (x2 ) =

f (x1 , x2 )dx1 −∞

• Le distribuzioni condizionali di x1 condizionata a x2 e di x2 condizionata ad x1 : f (x1 , x2 ) f (x2 ) f (x1 , x2 ) f (x2 |x1 ) = f (x1 ) f (x1 |x2 ) =

Si ha indipendenza statistica tra x1 e x2 quando la distribuzione condizionata di x1 dato x2 coincide con la distribuzione marginale di x1 ; oppure, in termini equivalenti quando la distribuzione di x2 condizionata su x1 coincide con la distribuzione marginale di x2 : f (x1 |x2 ) = f (x1 ) ⇔ f (x2 |x1 ) = f (x2 ).

54

CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

Si noti che le due condizioni di cui sopra sono del tutto equivalenti, data la definizione di densit`a di probabilit`a condizionale, e da questo si evince la natura simmetrica del concetto di indipendenza statistica: dire che x1 e` indipendente da x2 equivale ad affermare che x2 e` indipendente da x1 : f (x1 , x2 ) = f (x1 ) f (x2 ) ⇒ f (x1 , x2 ) = f (x1 )f (x2 ), f (x1 , x2 ) f (x2 |x1 ) = f (x2 ) ⇒ = f (x2 ) f (x1 ) ⇒ f (x1 , x2 ) = f (x1 )f (x2 ). f (x1 |x2 )

=

f (x1 ) ⇒

Entrambe le condizioni possono essere riscritte come la condizione che la densit`a di probabilit`a congiunta sia pari al prodotto tra le densit`a marginali per ogni coppia di valori x1 e x2 appartenenti al dominio di X.

3.8.1

La covarianza

La covarianza misura quanto due variabili casuali tendano ad essere legate tra loro in modo lineare. La covarianza tra le variabili casuali x1 , x2 e` definita come: Cov(x1 , x2 ) = E {[x1 − E (x1 )] [x2 − E (x2 )]} e` facile mostrare che: Cov(x1 , x2 ) = E {[x1 − E (x1 )] [x2 − E (x2 )]} = = E {x1 x2 − x1 E (x2 ) − x2 E (x1 ) + E (x1 ) E (x2 )} = E(x1 x2 ) − E (x1 ) E (x2 ) p V (x1 )V (x2 ) La covarianza tra x e x assume valori che sono compresi tra − 1 2 p e + V (x1 )V (x2 ). Per questo e` possibile costruire una misura relativa della dipendenza lineare tra x1 e x2 opportunamente scalando la covarianza: si costruisce in questo modo l’indice di correlazione lineare: Cov(x1 , x2 ) ρ= p V (x1 )V (x2 ) In assenza di correlazione l’indice ρ sar`a pari a zero. Quando due variabili casuali sono perfettamente correlate in senso positivo l’indice di correlazione sar`a pari a uno e in caso di perfetta correlazione negativa l’indice sar`a pari a -1. La correlazione quindi deve essere intesa come misura della dipendenza lineare tra due variabili casuali. Si noti che l’indipendenza statistica implica assenza di correlazione. Infatti date x1 e x2 se x1 e x2 sono indipendenti si avr`a: Cov(x1 , x2 ) = E(x1 x2 ) − E (x1 ) E (x2 ) =

55

3.9. DISTRIBUZIONE NORMALE MULTIVARIATA Z

+∞ Z +∞

x1 x2 f (x1 , x2 )dx1 dx2 − E (x1 ) E (x2 ) =

= −∞ −∞ Z +∞ Z +∞

x1 x2 f (x1 )f (x2 )dx1 dx2 − E (x1 ) E (x2 ) =

= −∞ Z +∞

=

−∞

Z

+∞

x2 f (x2)dx2 − E (x1 ) E (x2 ) =

x1 f (x1)dx1 −∞

−∞

= E (x1 ) E (x2 ) − E (x1 ) E (x2 ) = 0

L’assenza di correlazione non implica per`o l’indipendenza statistica tra due variabili casuali1 : x1 e x2 possono essere non indipendenti in senso statistico ma con correlazione nulla qualora il legame di dipendenza tra le due variabili sia di tipo non lineare.

3.9 Distribuzione normale multivariata La variabile casuale n-variata x, dove x e` un vettore (n × 1) di variabili casuali, ha distribuzione Normale n-variata e si indica tale propriet`a come: 

 x1  x2  ∼N x = (n×1)  ...  xn

! µ , Σ

(n×1) (n×n)

dove µ e` un vettore (n × 1) i cui singoli elementi sono i valori attesi dei corrispondenti elementi di x e Σ e` una matrice (n × n) simmetrica almeno semidefinita positiva: 

  E(x1 ) µ1  E(x2 )   µ2 = µ =  ...   ... E(xn ) µn

  , 

  Σ = E (X − µ) (X − µ)0 = 1 Nel caso di due variabili casuali distribuite normalmente, l’assenza di correlazione implica l’indipendenza statistica. Vedi oltre.

56

CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA



σji

h i E (x1 − µ1 )2

... E [(x1 − µ1 ) (xn − µn )]

  E [(x2 − µ2 ) (x1 − µ1 )] ... =   ... ...  E [(xn − µn ) (x1 − µ1 )] ...  v(x1 ) ... cov(x1 , xn )  cov(x2 , x1 ) ... cov(x2 , xn ) =   ... ... ... cov(xn , x1 ) ... v(xn ) = σij ∀i, j.

E [(x2 − µ2 ) (xn − µn )] ... h i E (xn − µn )2   σ11 σ12   σ21 σ22 =   ... ... σn1 σn2

... ... ... ...

   =  

 σ1n σ2n  , ...  σnn

La funzione di densit`a di x pu`o essere scritta come: n    1 1 √ |Σ|−1/2 exp − (x − µ)0 Σ−1 (x − µ) , f (x) = 2 2π n 1 f (x) : R → R+ Dalla distribuzione congiunta e` possibile ottenere le distribuzioni condizionali e marginali di sottoinsiemi di x. Ad esempio, partizionando il vettore x nel modo:   x1  (n ×1)  x= 1  , n 1 + n2 = n x2 (n2 ×1)

Partizionando nello stesso modo il vettore µ e la matrice Σ:     µ1 Σ11 Σ12  (n ×1)   (n1 ×n1 ) (n1 ×n2 )  µ =  1 ,Σ = , µ2 Σ21 Σ21 Σ21 =

(n2 ×1) 0 Σ12

(n2 ×n1 )

(n2 ×n2 )

riusciamo a definire le distribuzioni marginali di x1 e x2 : x1 ∼ N (µ1 , Σ11 ), x2 ∼ N (µ2 , Σ22 ), e le distribuzioni condizionali di x1 dato x2 e di x2 dato x1 : x1 |x2 ∼ N (µ∗1 , Σ∗11 ), −1 ∗ µ∗1 = µ1 + Σ12 Σ−1 22 (x2 − µ2 ) , Σ11 = Σ11 − Σ12 Σ22 Σ21 ,

x2 |x1 ∼ N (µ∗2 , Σ∗22 ), −1 ∗ µ∗2 = µ2 + Σ21 Σ−1 11 (x1 − µ1 ) , Σ22 = Σ22 − Σ21 Σ11 Σ12 ,

57

3.10. ALCUNE DISTRIBUZIONI NOTEVOLI

Si noti che nel caso di assenza di correlazione tra x1 e x2 ,quando cio`e la matrice delle covarianze tra gli elementi di x1 e gli elementi di x 2 e` nulla:   Σ12 = E (x1 − µ1 ) (x2 − µ2 )0 = [0] , (n1 ×n2 )

la distribuzione di x1 condizionata a x2 coincide con la distribuzione marginale di x1 e la distribuzioni di x2 condizionata a x1 coincide con la distribuzione marginale di x2 : µ∗2 = µ2 , Σ∗22 = Σ22 , µ∗1 = µ1 , Σ∗11 = Σ11 , in altri termini si ha indipendenza statistica tra x1 e x2 . Nel caso in cui trattiamo una VC n-dimensionale gaussiana, l’assenza di correlazione lineare e` sinonimo di indipendenza statistici tra i blocchi di x che hanno covarianze nulle.

3.10 Alcune distribuzioni notevoli 3.10.1

La distribuzione χ2

Date n variabili casuali indipendenti ed identicamente distribuite come normali standardizzate: x1 , x2 , ...xn , f (x1 , x2 , ..., xn ) =

n Y

f (xi ),

i=1

xi ∼ N (0, 1), i = 1, 2, ..., n, la VC ottenuta come somma di queste variabili al quadrato ha distribuzione χ2n (chi-quadro con n gradi di libert`a): z=

n X

x2i ∼ χn , z ∈ R1+ .

i=1

Si noti che dal modo in cui ricaviamo la distribuzione χ2 e` possibile dedurre che a partire da due VC z1 e z2 indipendenti aventi entrambe distribuzione χ2 rispettivamente con n1 e n2 gradi di libert`a, la VC risultante dalla somma e` anch’essa distribuita come una χ2 con n = n1 + n2 gradi di libert`a: z1 ∼ χ2n1 , z2 ∼ χ2n2 ⇒ z = z1 + z2 ∼ χ2n1 +n2 . Una distribuzione χ2k con k gradi di libert`a assume valori solamente positivi ed ha una funzione di densit`a con le propriet`a descritte dalla Figura (3.4).

3.10.2

La distribuzione t di Student

Data una VC x, distribuita come una normale standardizzata: x ∼ N (0, 1)

58

CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA Figura 3.4: Funzione di densit`a di VC χ2 0.2 4 gdl 8 gdl

0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 0

2

4

6

8

10

12

14

16

18

20

e data una seconda VC y indipendente da x e distribuita come una χ2n : f (x, y) = f (x)f (y), y ∼ χ2n si definisca la VC: x

z=p

y/n

La VC Z e` distribuita come una t di Student con n gradi di libert`a: Z ∼ tn . La distribuzione t di Student, la cui funzione di densit`a e` rappresentata nella Figura (3.5) per diversi valori di n, e` chiaramente molto simile ad una distribuzione gaussiana standardizzata, vale a dire e` simmetrica intorno a zero e assegna densit`a di probabilit`a molto bassi a valori distanti da zero. Confrontandola con la distribuzione Gaussiana standardizzata, e` possibile concludere che la densit`a t di Student tende ad assegnare densit`a di probabilit`a pi`u alte ai valori sulle code rispetto alla distribuzione normale standardizzata. Per questo motivo si dice che la distribuzione t di Student ha le ”code spesse” (fat tails nella dizione inglese). Le propriet`a

59

3.10. ALCUNE DISTRIBUZIONI NOTEVOLI

Figura 3.5: Funzione di densit`a di VC t di Student 0.4 2 gdl 80 gdl 0.35

0.3

0.25

0.2

0.15

0.1

0.05

0 -3

-2

-1

0

1

2

3

essenziali della distribuzione t di Student sono le seguenti: E(Z) = 0, n , n−2 se n > 2, altrimenti la varianza non esiste,

v(Z) = E(Z 2 ) = lim f (Z) = φ(Z).

n→∞

Quindi al crescere del numero dei gradi di libert`a la distribuzione converge in distribuzione a quella di una VC normale standardizzata.

3.10.3

La distribuzione F di Fisher

Date due variabili casuali X1 e X2 statisticamente indipendenti tra loro ed entrambe distribuite come χ2 rispettivamente con n1 e n2 gradi di libert`a: X1 ∼ χ2n , X2 ∼ χ2n , f (x1 , x2 ) = f (x1 )f (x2 ), 1

2

la VC Z:

X1 /n1 ∼ Fn1 ,n2 X2 /n2 si distribuisce come una F di Fisher con n1 gradi di libert`a al numeratore e n2 gradi libert`a al denominatore. Ovviamente il supporto di z e` limitato a R1+ , dato che si tratta del rapporto tra grandezze necessariamente positive. Le propriet`a della funzione di densit`a della distribuzione F sono rappresentate nella figura (3.6). Z=

60

CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

Figura 3.6: Funzione di densit`a di VC F di Fischer 0.9 3-50 gdl 8-50 gdl 0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0 0

3.11

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

La funzione di verosimiglianza

Sia x1 , x2 , ..., xn un campione di n elementi estratti in modo indipendente ed identicamente dalla stessa popolazione (indicati come IID, cio`e distribuiti identicamente e indipendentemente) la cui densit`a indichiamo con f (x, θ) ad indicare che tale densit`a e` descritta dal vettore (k × 1) di parametri incogniti θ: x1 , x2 , ...xn ∼ IID, f (xi , θ),i = 1, 2, ..., n. Data l’ipotesi di indipendenza tra i diversi elementi del campione possiamo scrivere la funzione di densit`a del campione come: f (x1 , x2 , ...xn , θ) =

n Y

f (xi , θ)

i=1

Ad esempio, se la popolazione fosse distribuita normalmente con valore atteso µ e varianza σ 2 , potremmo scrivere: ) (   n 1 X µ 2 −n/2 −n (xi − µ) , θ = f (x1 , x2 , ...xn , θ) = (2π) σ exp − 2 σ 2σ i=1

Questa e` la funzione di densit`a dell’n − pla campionaria sulla base dei parametri della popolazione µ e σ. Questa funzione pu`o essere vista sotto un diverso punto

61

3.11. LA FUNZIONE DI VEROSIMIGLIANZA

Figura 3.7: Funzione di verosimiglianza di µ 0.012

0.01

0.008

0.006

0.004

0.002

0 -3

-2

-1

0

1

2

3

Si assume che σ 2 sia noto e pari a 1.

di vista, cio`e come una funzione del valore dei parametri stessi e quindi come funzione di verosimiglianza: ( ) n 1 X −n/2 −n 2 (xi − µ) . (3.1) L(x1 , x2 , ...xn , θ) = (2π) σ exp − 2 2σ i=1

Questa funzione esprime la verosimiglianza che l’n-pla campionaria osservata sia stata estratta in modo IID da una distribuzione normale con parametri µ e σ 2 . Ad esempio, dato il campione di ampiezza n = 5: x1 = 1.2, x2 = 1.4, x3 = 1.6, x4 = 0.8, x5 = 0.4, assumendo per semplicit`a che σ sia noto e pari a 1, possiamo calcolare in relazione a diversi valori di µ il valore di (3.1) (si veda la figura 3.7) ed effettivamente si ha che la verosimiglianza calcolata in corrispondenza di µ = 0.5 e` pari a 0.0027, e calcolata in corrispondenza di µ = 3 e` pari a (6.318) × 10−7 , indicando in questo modo che il valore µ = 0.5 e` molto pi`u verosimile del valore µ = 3. In altri termini, sulla base del campione analizzato, e` molto pi`u verosimile che i dati osservati siano stati generati da una distribuzione normale con valore atteso pari a 0.5, che da una distribuzione normale con valore atteso pari a 3.

62

CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

3.12

Stima di massima verosimiglianza

Dato un certo campione x1 , x2 , ...xn estratti a una determinata popolazione di cui si conosce la forma funzionale della funzione di densit`a f (x, θ), che dipende da un vettore di parametri incogniti θ, la stima di massima verosimiglianza consiste nel cercare quei valori dei parametri del modello che rendono l’estrazione de campione osservato il pi`u possibile verosimile. In altri termini, si massimizza la funzione di verosiglianza rispetto ai parametri da stimare: M ax L(x1 , x2 , ...xn , θ). θ

La soluzione θb viene indicata come stimatore di massima verosimiglianza di θ. Spesso si ricorre all’espediente di massimizzare il logaritmo della funzione di verosimiglianza, la cosiddetta funzione di log-verosimiglianza, al fine di ottenere condizioni del primo ordine pi`u semplici. Si ricordi infatti che se una funzione viene sottoposta ad una trasformazione monotonica conserva i punti di massimo e di minimo della funzione di partenza. Ad esempi per il caso di un campione di n elementi estratti in modo IID da una popolazione normale N (µ, σ 2 ), la funzione di log-verosimglianza e` : n n 1 X log L(x1 , x2 , ...xn , µ, σ 2 ) = − log (2π) − n log(σ) − 2 (xi − µ)2 . 2 2σ i=1

Le condizioni del primo ordine sono quindi: ∂ log L(x1 , x2 , ...xn , µ, σ 2 ) ∂µ

=

0⇒

n 2 X (xi − µ) = 0 2σ 2 i=1

n

⇒ µ b = xn , xn = ∂ log L(x1 , x2 , ...xn ∂σ

, µ, σ 2 )

=

0⇒−

n 1 + 3 σ σ

1X xi n i=1 n X

(xi − µ)2 = 0

i=1

n

1X (xi − µ b)2 ⇒ σ b2 = n i=1

Si noti che lo stimatore del valore atteso µ e` non distorto e consistente: E(xn ) = µ, v(xn ) =

3.13

σ2 n

Metodo dei momenti

Il medodo dei momenti e` una modalit`a di stima che e` utilizzata quando l’interesse del ricercatore e` concentrato sull’ottenimento di stime consistenti. Il metodo

3.14. PROPRIETA` DEGLI STIMATORI OTTENUTI PER CAMPIONAMENTO DA UNA DISTRIBUZIONE GA dei momenti consiste nell’uguagliare i momenti teorici della distribuzione da cui proviene i campione ai momenti campionari. Dato che i momenti teorici della popolazione dipendono dai parametri incogniti della popolazione, si risolve rispetto ai parametri incogniti e si ottiene una stima dei parametri della popolazione. Ad esempio, supponiamo di avere: x1 , x2 , ...xn ∼ I.I.D., f (xi , θ)i = 1, 2, ..., n. e la popolazione si distribuisce come una t- di Student con ν gradi di libert`a e ν e` incognito. Sapendo che per una variabile casuale z distribuita come una t di Student con ν gradi di libert`a vale: E(z) = 0, V (z) =

ν , ∀ν > 2, ν−2

e` possibile per stimare ν ricavare la varianza campionaria e uguagliarla alla varianza della popolazione, ed ottenere una stima di ν esplicitando rispetto a tale parametro: ν S2 S2 = ⇒ νb = 2 2 ν−2 S −1

3.14

Propriet`a degli stimatori ottenuti per campionamento da una distribuzione gaussiana

Supponiamo di avere un campione di n elementi x1 , x2 , ..., xn estratti in modo IID da una popolazione avente distribuzione normale N (µ, σ 2 ). Si ricordino le definizioni di media e di varianza campionaria: n

xn =

1X xi , n i=1

n

S2 =

1 X (xi − µ b)2 n−1 i=1

Abbiamo visto che e` facile definire le propriet`a della media campionaria e stabilire che:   σ2 xn ∼ N µ, n e quindi e` possibile standardizzare xn ottenendo: √ n (xn − µ) ∼ N (0, 1) . σ D’altro canto e` possibile mostrare che S 2 si distribuisce indipendentemente da xn e che: S2 (n − 1) 2 ∼ χ2n−1 σ

64

CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

Quindi e` possibile ricavare che vale: √

n σ

q

(xn − µ) 2

(n − 1) Sσ2 /(n − 1)

√ =

n (xn − µ) ∼ tn−1 S

Quindi si pu`o standardizzare anche quando non si conosce σ utilizzandone una sua stima corretta ed in questo modo si ottiene una VC la cui distribuzione e` nota e tabulata. Nel caso in cui il campione fosse estratto in modo IID da una distribuzione non normale, abbiamo visto che al crescere di n possiamo contare sul risultato fornito dal teorema centrale del limite: √ n lim f (zn ) = φ(zn ), zn = (xn − µ) n→∞ σ e quindi possiamo ritenere che per n sufficientemente grande (per molti problemi comuni n > 100 osservazioni), si abbia: √ n (xn − µ) ≈ N (0, 1) S dove con il simbolo ≈ si indica ”si distribuisce approssimativamente come”. quindi per n sufficientemente grande possiamo ritenenre valida il risultato di normalit`a √ n della media campionaria asintoticamente alla grandezza S (xn − µ) verr`a considerata come distribuita normalmente dato che la distribuzione t di Student converge in distribuzione alla Normale standardizzata al crescere di n.

3.15

Stima per intervallo

Volendo stimare un parametro incognito θ sulla base di un campione di ampiezza n, x1 , x2 , ..., xn , si immagini di costruire due funzioni dell’n-pla campionaria: g1 (x1 , x2 , ..., xn ), g1 (·) : Rn → R1 , g2 (x1 , x2 , ..., xn ), g2 (·) : Rn → R1 con la propriet`a: pr [g1 (x1 , x2 , ..., xn ) ≤ θ ≤ g2 (x1 , x2 , ..., xn )] = α, dove il valore di α e` dato ed e` denominato livello di confidenza o fiduciario. L’intervallo definito dalle funzioni g1 (·) e g2 (·) viene detto intervallo fiduciario o di confidenza. Ad esempio ,dato il campione: x1 , x2 , ..., xn ∼ IIDN (µ, σ 2 )

65

3.15. STIMA PER INTERVALLO Figura 3.8: Quantili corrispondenti al 5% e al 95% per una VC χ219

0.07 0.06 0.05 0.04 0.03 0.02 0.01 0

0

5

10

15

20

25

30

35

40

45

50

se abbiamo: n = 20, xn = 5, S 2 = 9 ricordando che:

S2 ∼ χ2n−1 σ2 e scegliendo ad esempio α=0.90 (90% ), si ha che:   S2 P r zn−1 (0.05) ≤ (n − 1) 2 ≤ zn−1 (0.95) σ   2 S S2 2 P r (n − 1) ≤ σ ≤ (n − 1) zn−1 (0.95) zn−1 (0.95)   9 9 2 P r (19) ≤ σ ≤ (19) 30.144 10.117   2 P r 5.67 ≤ σ ≤ 16.90 (n − 1)

= 0.90 ⇒ = 0.90 ⇒ = 0.90 ⇒ = 0.90

dove zn−1 (0.05) = 10.117 e zn−1 (0.95) = 30.144 sono i quantili corrispondenti rispettivamente a 0.05 e 0.95 di una variabile casuale χ219 che sono ricavabili dalla consultazione delle tavole statistica della distribuzione χ2 . (si veda la Figura 3.8). Dalla considerazione precedente si ricava che: # " 2 S2 S  =α  ≤ σ 2 ≤ (n − 1) P r (n − 1) zn−1 1 − 1−α zn−1 1−α 2 2 In questo modo si ottiene l’intervallo di confidenza al livello di confidenza α per la varianza nel caso in cui il campione sia di elementi IID estratti da una popolazione

66

CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

normale. Per dimostrare di aver capito il concetto di intervallo fiduciario il lettore dovrebbe provare a costruire un intervallo di confidenza al livello 95% per il valore atteso incognito della popolazione µ.

3.16

Prova delle ipotesi

Supponiamo di avere un campione x1 , x2 , ..., xn di elementi tratti da una popolazione distribuita normalmente con valore atteso µ e varianza σ 2 , dal quale si siano ricavati i seguenti indicatori sintetici: xn = 0.52, Sn2 = 0.09, n = 20. Si immagini che il ricercatore formuli un’ipotesi relativa al parametro incognito µ formalizzata come la congettura che µ sia pari ad un determinato valore µ0 (ad esempio µ0 = 3). Per ipotesi statistica parametrica (nell’accezione di Neyman e Pearson, gli statistici che hanno formulato lo schema concettuale della prova delle ipotesi) si intende quindi un’affermazione relativa ad un certo parametro incognito della popolazione. Si possono avere ipotesi puntuali (come ad esempio µ = 0.6), oppure ipotesi che riguardino un intervallo di valori per un parametro incognito, come ad esempio: 0.55 ≤ µ ≤ 0.60. Si possono avere ipotesi semplici che riguardano un singolo parametro della popolazione e ipotesi composte che riguardano pi`u parametri congiuntamente. Per prova delle ipotesi si intende una procedura statistica per verificare se una determinata ipotesi possa essere accettata o meno. La procedura di prova delle ipotesi si basa sulla formulazione di un’ipotesi di interesse, chiamata ipotesi nulla (indicata comeH0 ) e di un’ipotesi alternativa (indicata comeH1 ) che viene specificata appunto come alternativa a H0 . Ad esempio l’ipotesi: H0 : µ = 0.6 pu`o essere provata avendo come riferimento l’ipotesi alternativa: H1 : µ = 0.7. La prova statistica di ipotesi e` quindi un criterio decisionale per scegliere tra H0 e H1 . In connessione ad entrambe scelte e` possibile commettere due tipi distinti di errore. Il primo tipo di errore consiste nel rifiutare H0 quando l’ipotesi H0 e` vera. Il secondo tipo di errore consiste nel rifiutare H1 quando l’ipotesi H1 e` vera. Immaginiamo di utilizzare un determinato criterio per scegliere tra accettare o meno H0 e si definiscano α come probabilit`a dell’errore di prima specie e β la probabilit`a dell’errore di seconda specie. Il complemento a uno della probabilit`a dell’errore di seconda specie viene chiamato potenza del test (1 − β) e misura la probabilit`a di correttamente rifiutare un’ipotesi nulla H0 non vera.

67

3.16. PROVA DELLE IPOTESI

Figura 3.9: Distribuzioni sotto H0 e H1 di una statistica utilizzata per condurre prova di ipotesi 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0

−2

0

2

4

6

La figura sulla destra rappresenta la distribuzione sotto H0 mentre la figura sulla sinistra rappresenta la distribuzione sotto H1 . La semiretta verticale corrisponde al valore critico utilizzato. Quindi l’area alla destra di tale valore, sottesa alla distribuzione sotto H0 e` pari ad α (errore di prima specie), mentre l’area alla sinistra di tale valore, sottesa alla distribuzione sotto H1 e` pari ad β (errore di seconda specie)

68

CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

Figura 3.10: Esempio sulla prova di ipotesi sul valore atteso: test a una coda 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 −4

−3

−2

−1

0

1

2

3

4

Neyman e Pearson propongono un criterio per decidere quando accettare o rifiutare H0 in modo tale che scelto α, la probabilit`a dell’errore di prima specie si minimizza β, la probabilit`a dell’errore di seconda specie. Ad esempio, nella Figura (3.9) notiamo le distribuzioni sotto H0 e H1 di una statistica utilizzata per condurre prova delle ipotesi. A proposito dell’esempio riportato all’inizio di questa sezione, ipotizzando che sia soggetta a prova l’ipotesi H0 : µ = µ0 contro H1 : µ > µ0 , sappiamo che: √ xn − µ n σ S2 (n − 1) 2 σ

∼ N (0, 1), ∼ χ2n−1 ⇒ τ =

√ xn − µ n ∼ tn−1 S

Quindi possiamo ricavare:

pr (τ ≤ a)

=

0.95   √ xn − µ n−1 ⇒ pr n ≤ t0.05 H0 = 0.95 S   √ xn − µ0 n−1 ⇒ pr n ≤ t0.05 = 0.95. S

69

3.16. PROVA DELLE IPOTESI

Figura 3.11: Esempio sulla prova di ipotesi sul valore atteso: test a due code 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 −4

−3

−2

−1

0

1

2

3

4

In questo contesto e` quindi possibile utilizzare criterio per condurre la prova delle ipotesi la seguente regola: se la VC: √ xn − µ0 n S risulta minore di tn−1 0.05 si accetta H0 ; viceversa si rifiuta H0 . Si noti che tale criterio e` connesso naturalmente ad una probabilit`a dell’errore di prima specie pari a α = 0.05. Nel nostro caso abbiamo: √ 0.52 − 0.6 √ xn − µ0 n = 20 = −1.1926, S 0.3 tn−1 0.05 = 1.729, ed quindi e` possibile accettare H0 (si veda Figura 3.10). Nel caso l’ipotesi alternativa fosse stata specificata come: H1 : µ 6= µ0 , avremmo ricavato:   √ xn − µ n−1 n−1 pr −t0.025 ≤ n ≤ t0.025 H0 = 0.95 ⇒ S   √ xn − µ0 n−1 n−1 pr −t0.025 ≤ n ≤ +t0.025 = 0.95. S In questo modo si costruisce una criterio decisionale in base al quale i punti: n−1 −tn−1 0.025 , t0.025 ⇒ −2.093, +2.093

70

CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

costituiscono gli estremi di un intervallo all’interno del quale se cade la VC: √ xn − µ0 n S si perviene all’accettazione di H0 , avendo probabilit`a di errore di prima specie pari a α = 0.05 (si veda la figura 3.11). Nel nostro esempio abbiamo: √ xn − µ0 n = −1.1926, S e quindi si accetta H0 . In questo caso si parla di test a due code mentre per il test utilizzato per verificare H0 contro H1 : µ > µ0 si parla di test ad una coda.

3.17

Esercizi

1. Data la seguente distribuzione normale bivariata:       x1 µ1 σ11 σ12 x= ∼ N [µ, Σ] , µ = ,= x2 µ2 σ12 σ22 Dimostrare che la distribuzione marginale di x1 e la distribuzione condizionale di x2 dato x1 sono normali. (esercizio difficile ma istruttivo). 2. Dato il seguente campione di elementi estratti in modo IID da una distribuzione normale con momenti µ e σ 2 : x1 = 1.3, x2 = 2.1, x3 = 0.4, x4 = 1.3, x5 = 0.5, x6 = 0.2, x7 = 1.8, x8 = 2.5, x9 = 1.9, x10 = 3.2. (a) si calcolino media, mediana e varianza campionaria. (b) Si verifichino le seguenti ipotesi: H0 : µ = 2, H0 : µ = 0.7, H0 : σ 2 = 0.5, (per le ipotesi sul valore atteso si calcolino i test a una coda e quelli a due code). (c) Si trovino gli intervalli di confidenza al 95% per µ e σ 2 . 3. Dato un campione di ampiezza n estratto da una popolazione avente la seguente distribuzione: f (x) = λ exp(−λx), x ∈ R1+ , λ > 0.

71

3.17. ESERCIZI

(a) Si scriva la funzione di verosimiglianza del campione e si ricavi lo stimatore di massima verosimiglianza di λ. Quale stimatore si otterrebbe utilizzando il metodo dei momenti? 4. Dato il vettore (p × 1) x: x ∼ N (µ, Ω) (a) ottenere una trasformazione lineare di x che sia distribuita nel seguente modo: y ∼ N (0, Ip ). 5. Immaginamo di avere a disposizione un programma che genera estrazioni da una distribuzione che pu`o assumere solo valori pari a uno o a zero con probabilit`a rispettivamente pari a p e 1 − p (distribuzione bernoulliana: x = 1 con probabilit`a pari a p, 0 ≤ p ≤ 1 x = 0 con probabilit`a pari a 1-p. Descrivere come sarebbe possibile ottenere estrazioni casuali da una distribuzione normale standardizzata, sfruttando le note propriet`a di grandi campioni. 6. E` estratto un campione di 30 elementi IID da una distribuzione incognita. Si ipotizzi che in relazione al campione osservato si abbia: 30

x30 = S2 =

1 X xi = 0.07, 30 1 29

i=1 30 X

(xi − x30 )2 = 0.112.

i=1

Calcolare un intervallo di confidenza approssimativo al 95% per il valore atteso incognito della popolazione facendo riferimento al teorema centrale del limite. 7. Il vettore di variabili casuali x, di dimensione (3 × 1), si distribuisce nel modo seguente:   x1 x =  x2  ∼ N (µ, Ω) x3 Si descriva la distribuzione delle seguenti variabili casuali: z1 = x1 + x2 + x3 , z2 = x1 − x2 − x3 , y = P−1 (x − µ) , P

=

fattore di Choleski di Ω.

72

CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA 8. Dato il vettore di variabili casuali:       x1 µ1 σ11 σ12 x= ∼ N [µ, Σ] , µ = ,= x2 µ2 σ12 σ22 Ricavare la fattorizzazione di Choleski di Σ e darne un’interpretazione in termini di regressione. (esercizio difficile ma istruttivo).

3.18

Soluzioni agli esercizi

1. Si consideri: 

2

 1 0 −1 f (x1 , x2 ) = |Σ| exp − (x − µ) Σ (x − µ) , 2   Z +∞ 1 σ22 −σ12 −1 f (x1 ) = f (x1 , x2 )dx2 , Σ = , ∆ −σ12 σ11 −∞ 1 √ 2π



−1/2

2 ∆ = |Σ| = σ11 σ22 − σ12

La parte esponenziale della funzione di densit`a pu`o essere scritta come:    1  2 2 exp − y σ22 − 2σ12 y1 y2 + y2 σ11 , 2∆ 1 y1 = x1 − µ1 , y2 = x2 − µ2 e` possibile trasformare i termini dove appare y2 nello sviluppo di un quadra2  to, aggiungendo e togliendo la quantit`a √σσ1212 y1 : #) "  2  2 1 σ σ 12 12 = exp − y 2 σ22 − √ y1 + √ y1 − 2σ12 y1 y2 + y22 σ11 2∆ 1 σ12 σ12 (

" 2   #)  σ12 1 σ12 2 2 exp − y1 + σ11 y2 − . y σ22 − √ σ11 σ11 2∆ 1 (

Si noti che la quantit`a: (

σ11 exp − 2∆



σ12 y2 − σ11

2 )

descrive la parte esponenziale di una variabile casuale normale con valore e varianza pari a σ∆11 e quindi: atteso pari a σσ12 11 Z

+−∞

−∞

(

σ11 exp − 2∆



σ12 y2 − σ11

2 )

r dx2 =



∆ σ11

73

3.18. SOLUZIONI AGLI ESERCIZI Dato che: Z

+∞

f (x1 ) =

f (x1 , x2 )dx2 = −∞

r 2    2 ∆ 1 1 −1/2 2 √ |∆| 2π · exp − σ11 σ22 − σ12 y1 = = σ11 2∆σ11 2π     1 1 2 √ exp − (x1 − µ1 ) , 2σ11 2πσ11 

si pu`o concludere che x1 ∼ N (µ1 , σ11 ). Ora veniamo alla distribuzione di x2 condizionata su x1 : 

2

|∆|−1/2 f (x1 , x2 )  f (x1 |x2 ) = =  × −1/2 f (x2 ) √1 σ 11 2π    1 y12 2 2 exp − y σ22 − 2σ12 y1 y2 + y2 σ11 + 2∆σ11 1 2σ11  =

1 √ 2π



√1 2π

2 σ11 σ22 − σ12

−1/2

×



  1  2 2 2 2 2 exp − y σ11 σ22 − 2σ11 σ12 y1 y2 + y2 σ11 − y1 (σ11 σ22 − σ12 ) = 2∆σ11 1 ) (   2  1 [y − (σ /σ )y ] −1/2 2 12 11 1 2 = √ σ11 σ22 − σ12 exp − 2 /σ ) 2(σ22 − σ12 2π 11 Quindi, ricordando le definizioni di y1 e y2 possiamo concludere che:   σ12 2 x1 |x2 ∼ N µ2 + (x1 − µ1 ) , σ22 − σ12 /σ11 . σ11 2.

(a) In relazione ai dati, si ha: 10

x10 =

1 X xi = 1.52, 10 i=1 10 X

1 (xi − x10 )2 = 0.9418, 9 i=1 √ S 2 = 0.97. S =

S2 =

La stima della mediana e` tra i valori 1.3 e 1.8.

74

CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA (b) Per la verifica dell’ipotesi µ = 2 si ottiene: x −2 1.52 − 2 p10 == −1.5641 =p 0.9418/10 S 2 /10 Il valore critico al 5% del test a due code e` t90.025 = 2.262 . Quindi il test conduce all’accettazione di H0 . Se si considera il test ad una coda: H0 : µ = 2, contro H1 : µ < 2, il valore critico e` -t90.05 = −1.833 ed anche in questo caso si accetta H0 . Considerando la prova dell”ipotesi: H0 : µ = 0.7controH1 : µ 6= 0.7, si ottiene:

x10 − 0.7 1.52 − 0.7 p =p = 2.672. 2 0.9418/10 S /9

Dato che il valore critico per il test e` ancora ±t90.025 = ±2.262,si rifiuta H0 . A maggior ragione, se si considera l’ipotesi alternativa: H1 : µ > 0.7, dato che il valore critico e` t90.05 = 1.833, si arriva al rifiuto di H0 . Passando alla prova delle ipotesi sulla varianza: H0 : σ 2 = 0.5, contro H1 : σ 2 6= 0.5, si ricordi che : (n − 1)

S2 ∼ χ2n−1 σ2

Quindi se vale H0 si ha: z = (n − 1)

S2 ∼ χ2n−1 . 0.5

Possiamo definire, sulla base della distribuzione χ29 di riferimento: pr(b < z < a|H0 ) = α = 0.05 In questo modo si definiscono a e b (si veda la figura 3.12). Dalla tavola della distribuzione χ29 si ricava: a = 2.70, b = 19.0.

75

3.18. SOLUZIONI AGLI ESERCIZI

Figura 3.12: Test a due code per la varianza; distribuzione di riferimento χ29 , α = 0.05 0.12

0.1

0.08

0.06

0.04

0.02

0

0

5

10

15

20

25

30

Figura 3.13: Test a una coda per la varianza; distribuzione di riferimento χ29 , α = 0.05 0.12

0.1

0.08

0.06

0.04

0.02

0

0

5

10

15

20

25

30

76

CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA In questo contesto abbiamo: z=9

0.9418 = 16.952, 0.5

e quindi si accetta H0 . Se invece si considera come ipotesi alternativa: H1 : σ 2 > 0.5, dalla tavola della distribuzione χ29 di riferimento si determina il valore c = 16.9 che soddisfa (figura 3.13): pr(z > c|H0 ) = α = 0.05 Quindi in questo esercizio il test ad una coda comporta il rifiuto di H0 . (c) Per costruire l’intervallo di confidenza per µ, si ricordi che: xn − µ ∼ tn−1 τ=p S 2 /n quindi e` possibile determinare il valore t90.025 = 2.262 (si veda la figura 3.13) tale per cui: pr(−t90.025 < τ < t90.025 ) = 0.95 = 1 − α. Quindi l’intervallo di confidenza viene ottenuto come: h i p p x10 − t90.025 S 2 /10, x10 + t90.025 S 2 /10, = [0.8258, 2.2142]. Per quello che riguarda l’intervallo di confidenza per σ 2 , ricordiamo che: S2 z = (n − 1) 2 ∼ χ2n−1 σ e quindi possiamo determinare a e b in modo tale che: pr(a ≤ z ≤ b) = 0.95 = 1 − α, a = 2.70, b = 19.0, o, in termini equivalenti: pr(2.70  8.476 pr 2.70 ≤ ≤ 19.0 σ2   1 σ2 1 pr ≤ ≤ 19.0 8.476 2.70   8.476 8.476 2 pr ≤σ ≤ 19.0 2.70  2 pr 0.44611 ≤ σ ≤ 3.1393

≤ z ≤ 19.0) =



= = = = 0.95

Quindi l’intervallo di confidenza al 95% per σ 2 e` dato da [0.44611, 3.1393].

77

3.18. SOLUZIONI AGLI ESERCIZI

3. La verosimiglianza del campione (funzione di densit`a congiunta degli elementi del campione) e` : f (x1 , x2 , ..., xn ) =

n Y

n

f (xi ) = (λ) exp(−λ

i=1

n X

xi )

i=1

e quindi la log-verosimiglianza e` : logL = nlog(λ) − λ

n X

xi

i=1

e la stima di λ di massima verosimiglianza e` : n

∂logL n X b = Pnn b= 1 . =0⇒ − xi = 0 ⇒ λ ⇒λ xn ∂λ λ i=1 xi i=1

Per ottenere lo stimatore ottenuto utilizzando il metodo dei momenti, e` necessario ricavare in primo luogo il valore atteso della distribuzione: Z +∞ Z +∞ 1 E(x) = xf (x)dx = λ xexp(−λx)dx = λ 0 0 Uguagliando il momento teorico al momento campionario e risolvendo per λ si ottiene lo stimatore derivante dal metodo dei momenti: 1 b= 1 = xn ⇒ λ λ xn che quindi coincide con lo stimatore di massima verosimiglianza. 4. Definendo P il fattore di Choleski di Ω: Ω = PP0 sappiamo che: P−1 ΩP−10 = Ip . Quindi si ha che: z = P−1 (x − µ), E(z) = P−1 [E(x) − µ] = [0] , E(zz0 ) = P−1 ΩP−10 = Ip . Da questo notiamo che la variabile z si distribuisce come una normale pdimensionale standardizzata: z ∼N (0, Ip ).

78

CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA 5. Ricordando che, grazie al teorema centrale del limite, possiamo dire: xn − E(x) d q → N (0, 1), v(x) n

qualunque sia la distribuzione della popolazione da cui sono estratti gli elementi del campione. Quindi, dato che per una VC bernoulliana abbiamo: E(x) = 0 · (1 − p) + 1 · p = p, v(x) = E(x2 ) − (E(x))2 = p − p2 = p(1 − p), grazie al teorema centrale del limite possiamo scrivere: x −p qn ≈ N (0, 1) p(1−p) n

Quindi e` possibile estrarre n = 10000 (un numero altissimo) di elementi IID da unaq bernoulliana e calcolare la media delle realizzazioni, sottrarre p e

` approssimativamente distribuita dvidere per p(1−p) 10000 . La variabile ottenuta e come una normale. 6. Per il TCL, possiamo dire che: x30 − E(x) p σ 2 /n S2 (n − 1) 2 σ

≈ N (0, 1), ≈ χ2n−1 .

quindi il rapporto si distribuisce approssimativamente come una normale: x30 −E(x) √ 2 σ /n

q

2

(n − 1) Sσ2 /(n − 1)

=

x30 − E(x) p 'z S 2 /n

In relazione alla distribuzione normale e` possibile determinare il quantile z0.025 = 1.96 in corrispondenza del quale abbiamo: " # x30 − E(x) ≤ 1.96 = 0.95 ⇒ pr −1.96 ≤ p S 2 /n i h p p 2 2 pr x30 − 1.96 S /n ≤ µ ≤ x30 + 1.96 S /n = 0.95 ⇒ h i p p pr 0.07 − 1.96 0.112/30 ≤ µ ≤ 0.07 + 1.96 0.112/30 = 0.95 ⇒ pr [−0.0498 ≤ µ ≤ 0.1898] = 0.95. Questo definisce un intervallo di confidenza approssimativo costruito per µ.

79

3.18. SOLUZIONI AGLI ESERCIZI 7. Definendo: z1 =

a1

0

x ,

(3×1) (3×1)



a1

 1 =  1  1

si ricava che: z1 ∼ N (a01 µ, a01 Ωa1 ), a01 Ωa1 = ω11 + ω22 + ω33 + 2ω12 + 2ω13 + 2ω23 . Definendo: z2 =

a2

0

x ,

(3×1) (3×1)

 1 =  −1  −1 

a2

si ricava che: z2 ∼ N (a02 µ, a02 Ωa2 ), a02 Ωa2 = ω11 + ω22 + ω33 − 2ω12 − 2ω13 + 2ω23 . Per quanto riguarda la variabile casuale y, e` facile concludere che: y ∼ N ( 0 , I3 ) (3×1)

8. La fattorizzazione di Choleski di Σ di ottiene ricavando la matrice P con le seguenti propriet`a:   p11 0 P = , p11 > 0, p22 > 0, p21 p22     p211 p11 p21 σ11 σ12 0 PP = Σ ⇒ = . p21 p11 p222 + p211 σ12 σ22 Quindi, risolvendo l’uguaglianza appena scritta e` facile trovare i valori degli elementi di P corrispondenti: r √ σ12 σ12 , p22 = σ22 − p11 = σ11 , p21 = √ σ11 σ11 Si definisca ora la variabile casuale bidimensionale: z = P−1 (x − µ) ∼ N (0, I2 )

80

CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA Dato che si ha: P

−1

−1

= |P|

+

P =



p−1 11

p21 − p11 p22

0



p−1 22

la variabile casuale z e` :     p−1 z1 11 (x1 − µ1 ) z= = p21 −1 − p11 z2 p22 (x1 − µ1 ) + p22 (x2 − µ2 ) Notate che: x1 − µ1 ∼ N (0, 1), z1 ∼ N (0, 1) ⇒ √ σ11   1 σ12 z2 ∼ N (0, 1) ⇒ (x2 − µ2 ) − (x1 − µ1 ) ∼ N (0, 1). p22 σ11 √ Quindi σ11 z1 d`a i termini di disturbo di una regressione di x1 su una costante (con coefficiente pari a µ1 ) e tali termini di disturbo hanno varianza pari a σ11 , mentre p22 z2 esprime i termini di disturbo di una relazione di regressione lineare di (x2 − µ2 ) su (x1 − µ1 ) la cui varianza e` pari a: p222 = σ22 −

σ12 . σ11

Capitolo 4

Il modello di regressione lineare 4.1 Concetti fondamentali In un modello di regressione lineare, una variabile yt , chiamata variabile dipendente o endogena e` ipotizzata dipendere in modo lineare, tramite un vettore (k × 1) di parametri:   β1  β2   β=  ...  βk da un insieme di k variabili x1t , x2t , . . . , xkt che vengono dette variabili esplicative o regressori. In aggiunta si ipotizza che la variabile yt sia influenzata da un termine stocastico εt : yt =

k X

βi xit + εt , t = 1, 2, . . . T,

i=1 k X

βi xit = parte sistematica del modello

i=1

εt = parte stocastica del modello Immaginiamo di avere a disposizioni T osservazioni su tutte le variabili che appaiono nel modello e di chiederci come stimare i parametri incogniti del modello. Ad esempio, supponiamo di fare riferimento ad una semplice formulazione dell’equazione del consumo: yt = β1 + β2 x2t + β3 x3t + εt, t = 1, . . . , T, yt

= consumo all’istante t ,

x1t = 1∀t (termine costante della regressione), x2t

= reddito disponibile all’istante t ,

x3t

= stock di ricchezza finanziaria all’istante t 81

82

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Figura 4.1: Rappresentazione grafica di una relazione di regressione semplice teorica (β1 = 3.0, β2 = 0.5, T = 4 osservazioni) 9 (x23 = 3.2, y3 = 7.7)

8 7

(x21 = 4.5, y1 = 6.35) ε3 = 3.1

6

ε2 = −2.2

ε1 = 1.1

5

(x22 = 6.5, y2 = 5.25)

4 ε4 = −2.1

3

(x24 = 2.2, y4 = 2.0)

2 1 0

0

1

2

3

4

5

6

7

In questo capitolo cercheremo di capire in quale modo e` possibile stimare i parametri incogniti del modello

4.1.1

Il ruolo del termine di disturbo e le sue propriet`a

I motivi dell’inserimento di un termine di disturbo stocastico nel modello di regressione lineare possono essere sintetizzati come segue: 1. Il termine di disturbo εt rappresenta un elemento di asistematicit`a connesso al comportamento umano; 2. inoltre, il termine di disturbo pu`o essere interpretato come la descrizione dell’effetto congiunto di un numero elevato di variabili che producono effetti su yt ma che non sono suscettibili di misurazione e quindi non inseribili nella parte sistematica del modello; 3. infine, possono essere presenti errori di misurazione tra le variabili. Graficamente (si veda la figura 4.1), possiamo rappresentare facendo riferimento alla regressione semplice (numero di regressori k = 2, x1t = 1, ∀t): yt = β1 + β2 x2t + εt, t = 1, . . . , T,

83

4.1. CONCETTI FONDAMENTALI

si nota che ciascun termine εt ha l’effetto di indurre la corrispondente osservazione sulla variabile dipendente a deviare dalla relazione teorica che lega yt a x1t e x2t , cio`e dalla retta di regressione. Nel modello di regressione lineare a ciascuna osservazione associamo un termine di errore o termine di disturbo εt con le seguenti propriet`a:   E(εt ) = 0, ∀t E(εt εs ) = 0, ∀t 6= s (assenza di correlazione)  E(ε2t ) = σ 2 , ∀t. (costanza della varianza o omoschedasticit`a

(4.1)

A queste assunzioni di solito si aggiunge l’ipotesi di normalit`a dei disturbi che vedremo non essere strettamente necessaria alla stima puntuale del modello: εt ∼ N (0, σ 2 ), t = 1, 2, . . . , T.

4.1.2

(4.2)

Ipotesi sui regressori

Nel caso pi`u semplice, i regressori del modello x1t , x2t , . . . , xkt , t = 1, 2, . . . , k, sono assunti non stocastici oppure si ipotizza di considerarli come variabili casuali e di lavorare con la distribuzione condizionale di yt dati x1t , x2t , . . . , xkt : yt =

k X

βi xit + εt ,

i=1

E(yt |x1t, x2t, . . . , xkt ) =

k X

βi xit

i=1

Nella versione pi`u semplice del MRL, le ipotesi avanzate sui regressori sono: 1) E(xit εs ) = 0, ∀i, t, s (esogenit`a stretta dei regressori) cio`e non si ha correlazione tra i regressori ed i termini di disturbo. Particolarmente rilevante e` l’ipotesi di assenza di simultaneit`a: E(xit εt ) = 0, ∀i, t

(4.3)

2) Definendo la matrice X di dimensioni (T × k) : 

x11  x12 X =  ... x1T

x21 x22 ... x2T

... ... ... ...

 xk1 xk2   ...  xkT

(4.4)

si ipotizza: ρ(X) = k vale a dire i diversi regressori devono essere linearmente indipendenti.

(4.5)

84

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

4.1.3

Rappresentazione matriciale del modello di regressione lineare

Consideriamo il MRL con k regressori in forma matriciale: y (T ×1)

= X

β

+

(T ×k)(k×1)

ε (T ×1)

Ogni riga della rappresentazione e` un’osservazione distinta: yt =

k X

βi xit + εt = x0t β+εt ,

(4.6)

i=1

x0t

=



x1t x2t . . . xkt



, t = 1, 2, . . . , T

(4.7)

(1×k)

Con l’ipotesi di normalit`a dei termini di disturbo posso scrivere il modello di regressione (4.3) nei termini della distribuzione di yt dati x1t , x2t , . . . , xkt : k X (yt |x1t , x2t , . . . , xkt ) ∼ N ( βi xit + εt , σ 2 ) i=1

 " #2  T  T k  1 X  X 1 exp − 2 yt − βi xit f (y|X) = √  2σ  2πσ t=1 i=1 oppure in termini matriciali:  f (y|X) =

1 √ 2πσ

T

T 1 X ε 0 ε exp − 2 2σ (1×T ) (T ×1)

(

)

t=1

Si noti che l’inclusione di un termine d’intercetta nel modello (si prenda il caso pi`u semplice di un modello con soli due regressori, uno dei quali e` il termine di intercetta: x1t = 1, ∀t): yt = β1 + β2 x2t + εt , t = 1, 2, . . . , T si pu`o rendere in termini matriciali scrivendo: y

=

(T ×1)

X

β

(T ×2)(2×1)



1  1 X =   ... 1

+

ε ,

(T ×1)

 x21 x22   ...  x2T

Ricapitolando, dato il MRL: yt =

k X i=1

βi xit + εt , t = 1, 2, . . . , T

85

4.1. CONCETTI FONDAMENTALI l’obiettivo e` quello di ottenere una stima:  ˆ β1  βˆ2 βˆ =   ... βˆ2

   

dei parametri incogniti del modello: 

 β1  β2   β =  ...  βk Sulla base di tale stima puntuale dei parametri e` possibile: a) “prevedere” yT +j : k X yˆT +j = βˆi xiT +j i=1

disponendo di informazioni o avanzando ipotesi sui valori di xiT +j , i = 1, 2, . . . , k, j = 1, 2, . . . .. b) fare ulteriore inferenza sul valore dei parametri. Ad esempio, prendiamo il semplice modello dove spieghiamo il consumo privato (y) in relazione al reddito disponibile (x2 ) ed alla spesa pubblica (x3 ): yt = β1 + β2 x2t + β3 x3t + εt Possiamo, ad esempio, verificare la compatibilit`a dell’ipotesi di equivalenza ricardiana (neutralit`a della spesa pubblica) con una semplice prova delle ipotesi: H0 : β3 = 0 H1 : β3 6= 0 Immaginiamo che il valore stimato di β3 , βˆ3 sia pari a 0.07. Quanto questo valore e` statisticamente vicino a zero? A domande di questo tipo e` possibile rispondere facendo riferimento alla prova delle ipotesi e alla costruzione di intervalli di confidenza. E` possibile inoltre costruire intervalli di confidenza intorno alle previsioni sulla variabile dipende, oltre che intorno alle stime dei parametri.

4.1.4

Ricapitolando

Assunzioni del modello lineare di regressione classico: a) linearit`a della relazione:

yt =

k X

βi xit + εt , t = 1, 2, . . . T.

i=1

y = Xβ + ε

86

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE b) ipotesi sui termini di disturbo: E(εt ) = 0, ∀t, E(ε2t ) = v(εt ) = σ 2 , ∀t, E(εt εt−j ) = 0, ∀j 6= 0 cio`e: εt ∼ i.i.d(0, σ 2 ), ∀t.

Spesso si assume l’ipotesi di normalit`a dei termini di disturbo (che non e` strettamente necessaria per la stima puntuale dei parametri): εt ∼ N (0, σ 2 ), ∀t. c) Ipotesi sui regressori x1t , x2t , . . . xkt : Nella formulazione pi`u semplice del MRL si ipotizza che i regressori siano non stocastici oppure variabili casuali ortogonali (non correlate) rispetto ai termini di errore: E(xit εs ) = 0, ∀i, t, s (esogenit`a stretta dei regressori) Una condizione meno stringente e` quella che richiede l’assenza di simultaneit`a tra ciascuno dei regressori ed i termini di disturbo: E(xit εt ) = 0, ∀i, t (assenza di simultaneit`a) In pi`u si richiede l’indipendenza lineare tra le colonne di X: ρ(X) = k

4.2 4.2.1

Stima dei parametri Metodo dei momenti (MM)

Come abbiamo visto consiste nell’uguagliare i momenti campionari con quelli della popolazione; i momenti rilevanti in questo caso sono quelli che esprimono l’assenza di simultaneit`a tra i termini di disturbo e i regressori: E(xit εt ) = 0, ∀i, t Prendiamo un semplice esempio con due regressori: yt = β1 + β2 x2t + εt In questo caso i momenti teorici sono: E(εt x1t ) = 0 E(εt x2t ) = 0

87

4.2. STIMA DEI PARAMETRI che hanno come equivalenti campionari: 1)

T 1X εt x1t T

=

0⇒

t=1

T 1X (yt − β1 − β2 x2t ) = 0 ⇒ T t=1





⇒ y −β1 − β2 x2 = 0, T T − 1X − 1X y = yt , x 2 = x2t T T t=1

2)

1 T

T X

εt x2t

=

0⇒

t=1

t=1

1 T

T X

(yt − β1 − β2 x2t )x2t = 0 ⇒

t=1 −

⇒ S(y, x2 ) − β1 x2 −β2 S(x2 , x2 ) = 0, S(y, x2 )

=

T T 1X 1X 2 yt x2t , S(x2 , x2 ) = x2t , T T t=1

t=1

da cui si ricava sostituendo la prima nella seconda: βˆ1 0

=





y −β2 x2 , −





S(y, x2 ) − ( y −β2 x2 ) x2 −β2 S(x2 , x2 ) cˆ(y, x2 ) ⇒ βˆ2 = vˆ(x2 ) =

(4.8)

Passiamo ora al MRL con k regressori. I momenti teorici sono: E(xit εt ) = 0, i = 1, 2, . . . , k. I corrispondenti momenti campionari sono:      1 0 ε = X T (k×T ) (T ×k)    

T P

 x1t εt  t=1  T  1 P x2t εt   T t=1   ...   T P 1 x ε t kt T 1 T

t=1

Uguagliando i momenti campionari (intesi come funzioni dei parametri incogniti contenuti in β) ai corrispondenti momenti della popolazione (tutti pari a zero), si ottiene: X0 (y − Xβ) = 0 X0 y − X0 Xβ = 0

(4.9)

88

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Ricordando l’assunzione che: ρ(X) = k possiamo ricavare che: ρ(X0 X) = k per cui si pu`o invertire la matrice X0 X ed ottenere: βˆM M = (X0 X)−1 X0 y

(4.10)

Come utile esercizio, verificate che con k = 2 e un primo regressore dato dal termine di intercetta (x1t = 1, ∀t), utilizzando la (4.10) si ottiene l’espressione (4.8) per βˆ1 e βˆ2 vista prima nell’esempio a due variabili. La relazione (4.9) esprime le cosiddette equazioni normali. Si noti che in tutta l’applicazione del metodo dei momenti si sono utilizzate solo le seguenti propriet`a: - la linearit`a della relazione di regressione y = Xβ + ε; - l’ortogonalit`a di X rispetto ai termini di disturbo (assenza di simultaneit`a): E(xit ετ ), ∀i, t, τ.

4.2.2

Metodo della massima verosimiglianza.

Si utilizzano tutte le propriet`a sui termini di disturbo, anche quella relativa alla normalit`a dei termini di disturbo: E(εt ) = 0, ∀t, E(ε2t ) = σ 2 , ∀t, E(εt ετ ) = 0, ∀t 6= τ, εt ∼ N (0, σ 2 ), ∀t. In questo modo e` possibile scrivere la verosimiglianza associata al MRL: ) ( T 1 1 X 2 T L = (√ ) exp − 2 (yt − β1 x1t − . . . − βk xkt ) = 2σ 2πσ t=1   1 1 0 T = (√ ) exp − 2 (y − Xβ) (y − Xβ) 2σ 2πσ Della funzione di verosimiglianza e` possibile prendere il logaritmo, in questo modo ottenendo: 1 T log(2π) − T log σ − 2 (y − Xβ)0 (y − Xβ) 2 2σ Per massimizzare la verosimiglianza possiamo ottenere le condizioni del primo ordine rispetto a β e σ, i parametri del modello: log L = −

89

4.2. STIMA DEI PARAMETRI

 1 ∂  ∂ log L = 0→− (y − Xβ)0 (y − Xβ) = 0 ∂β 2 ∂β ∂ log L T 1 = 0 → − + 3 (y − Xβ)0 (y − Xβ) = 0 ∂σ σ σ Utilizzando il primo blocco delle condizioni del primo ordine otteniamo: ∂ 0 0 ∂(β 0 X0 Xβ) − (β X y + y0 Xβ) = 0 ⇒ ∂β ∂β 2(X0 X)β − 2(X0 y) = 0 Ricordando che ρ(X) = k e quindi che: ρ(X0 X) = k ⇐⇒ X0 X 6= 0 possiamo esplicitare rispetto a β ed ottenere lo stimatore di massima verosimiglianza: βˆM L = (X0 X)−1 X0 y

(4.11)

Notate che e` lo stesso stimatore che si ottiene applicando il metodo dei momenti. Sostituendo βˆM L nel secondo blocco delle condizioni del primo ordine (la derivata prima della logverosimiglianza rispetto a σ) e risolvendo rispetto a σ 2 si ottiene anche uno stimatore per la varianza: 2 σ bM L =

=

1 (y − XβˆM L )0 (y − XβˆM L ) = T T 1 0 1X 2 εb εb = εbt , T T

(4.12)

t=1

εb = y − XβˆM L = y − X(X0 X)−1 X0 y Notate che e` possibile confermare che la soluzioni associate alle condizioni del primo ordine, cio`e la (4.11) e la (4.12), definiscono un punto di massimo per la funzione di logverosimiglianza. Questo pu`o essere verificato calcolando la matrice hessiana in corrispondenza della soluzione: 2 H(βbM L , σ bM L) =

 =  = 

− σ12 X0 X 2 (β 0 X0 X − y0 X) σ3

2 (X0 Xβ − σ3 T − 3 σ14 ε0 ε σ2

− σ12 X0 X 2 (β 0 X0 X − y0 X) σ3

2 (X0 Xβ − X0 y) σ3 T 1 0 2 σ4 (σ − 3 T ε ε)

− σb21 X0 X ML



00 (1×k)

0 (k×1) T 2 ) (−2b σM 4 L σ bM L



X0 y)

 = 2 (βbM L ,b σM L)



=

 = 2 (βbM L ,b σM L) 1 0

− σb2 X X ML

00 (1×k)

0

(k×1) −2T 2 σ bM L

 (4.13)

90

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Figura 4.2: retta di regressione interpolante una nuvola di punti 4.5

4.4

4.3

4.2

4.1

4

3.9

3.8

3.7 1.4

1.6

1.8

2

2.2

2.4

2.6

2.8

E` evidente che la matrice hessiana, calcolata in corrispondenza della stima di massima verosimiglianza sia definita negativa.

4.2.3

Metodo dei minimi quadrati (OLS=ordinary least squares)

Supponiamo di avere T osservazioni relative ad una misura del consumo aggregato yt e ad una misura del reddito disponibile x2t .di volere stimare una relazione di regressione lineare del tipo: yt = β1 + β2 x2t + εt , t = 1, 2, . . . , T. Si veda la figura 4.2: ogni punto sul grafico rappresenta un’osservazione su yt e x2t . Il metodo di stima OLS consiste nel trovare una retta che interpoli la nuvola di punti in modo tale da minimizzare la somma dei quadrati degli errori commessi interpolando linearmente la nuvola di punti. Supponiamo per esempio T = 4 osservazioni, in relazione a ciascuna di queste osservazioni si definisce un errore di interpolazione: y1 − (β1 + β2 x21 ) y2 − (β1 + β2 x22 ) y3 − (β1 + β2 x23 ) y4 − (β1 + β2 x24 )

91

4.2. STIMA DEI PARAMETRI

La stima della relazione di regressione consiste nel trovare la configurazione dei parametri β1 e β2 (intercetta e coefficiente angolare) che consenta di minimizzare la somma dei quadrati degli errori di interpolazione: min

T X

β1 ,β2

(yt − β1 − β2 x2t )2

t=1

In termini pi`u generali, sulla base del MRL con k regressori: k X

yt =

βi xit + εt , t = 1, 2, . . . , T

i=1

si minimizza la funzione obiettivo somma dei quadrati degli errori di interpolazione: T X Q= (ε2t ) t=1

oppure in termini matriciali: Q = (y − Xβ)0 (y − Xβ) = y0 y − β 0 X0 y − y0 Xβ + β 0 X0 Xβ rispetto al vettore dei parametri β: min (y − Xβ)0 (y − Xβ) β

Ricaviamo le condizioni del primo ordine ∂Q = [0] ⇒ −2X0 y + 2X0 Xβ = 0 ∂β k×1 Da cui si ottiene facilmente: βˆOLS = (X0 X)−1 X0 y

(4.14)

Si noti che: βˆOLS = βˆM L = βˆM M Propriet`a dello stimatore OLS (a) Quando si hanno regressori non stocastici, lo stimatore OLS e` non distorto. Infatti: ˆ = E E(β)

h

X0 X

−1

i h i −1 0 X0 y = E X0 X X (Xβ + ε) =

= β + (X0 X)−1 X0 E(ε) = β

92

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Nel caso in cui abbiamo regressori stocastici, per conservare la propriet`a di non distorsione di βb occorre ipotizzare: E(X0 ε) = 0 (b) La matrice di varianze e covarianze dello stimatore OLS e` : h i  ˆ = E(βˆ − β)(βˆ − β)0 = E X0 X −1 X0 εε0 X(X0 X)−1 V ar(β) A questo punto, ricordando le assunzioni sui termini di disturbo: E(εt ) = 0, ∀t, E(εt ετ ) = 0, ∀t 6= τ, E(ε2t ) = σ 2 , ∀t oppure in forma compatta: E(ε) = 0, E(εε0 ) = σ 2 IT Quindi la matrice di varianze e covarianze dello stimatore OLS e` : b = (X0 X)−1 X0 σ 2 IT X(X0 X)−1 = σ 2 (X0 X)−1 V (β) Notate che con l’ipotesi aggiuntiva: lim

T →∞

1 0 (X X) = Q T (k×k)

dove Q e` una matrice di rango pieno che pu`o essere interpretata come matrice di varianza e covarianza dei regressori, otteniamo:  0 −1 Q−1 X X 2 ˆ = lim σ lim V (β) T = lim σ 2 = [0] T →∞ T →∞ T →∞ T T che equivale a dire che lo stimatore di minimi quadrati e` consistente. (c) lo stimatore OLS e` il pi`u efficiente nella classe degli stimatori lineari non distorti (teorema di Gauss-Markov), se valgono le ipotesi canoniche sui termini di disturbo (E(ε) = 0 e E(εε0 ) = σ 2 I). Infatti, si consideri un qualsiasi stimatore lineare non distorto β˜ =

C

y ,

(k×T )(T ×1)

˜ = β = CXβ + CE(ε) E(β) quindi la matrice C , perch`e β˜ sia non distorto,deve soddisfare: CX = Ik

93

4.2. STIMA DEI PARAMETRI e la matrice di varianze e covarianze di β˜ e` : ˜ =σ 2 CC0 V ar(β)

(4.15)

Si definisca ora: D = C − (X0 X)−1 X0 in modo tale che la (4.15) pu`o essere riscritta come: h ih i0 0 −1 0 −1 2 ˜ V ar(β) =σ D + (X X) D + (X X) Si ricordi che: CX = Ik = DX + (X0 X)−1 X0 X = DX + Ik che implica: DX = 0 e quindi possiamo scrivere la (??) come: ˜ = σ 2 D0 D + σ 2 (X0 X)−1 = σ 2 DD0 + V ar(βˆOLS ) V ar(β) oppure: ˜ − V ar(βˆOLS ) = σ 2 DD0 V ar(β) Quindi la differenza tra le due matrici di varianza e covarianze e` σ 2 DD0 e D0 D e` definita positiva: x0 D0 Dx > 0,∀ x 6= [0] (k×1)

In questo modo si e` dimostrato che lo stimatore OLS e` pi`u efficiente di qualunque altro stimatore lineare non distorto.

4.2.4

Aspetti algebrici dello stimatore OLS

(1) Si considerino i residui dell’equazione stimata utilizzando lo stimatore OLS: 0 εˆ = y − Xβˆ = y − X(X X)−1 X0 y = h i = IT − X(X0 X)−1 X0 y = i h = IT − X(X0 X)−1 X0 (Xβ + ε) =

= Xβ + ε − X(X0 X)−1 X0 Xβ − X(X0 X)−1 X0 Xε = h i IT − X(X0 X)−1 X0 ε

(4.16)

(4.17) (4.18)

Notate che: X0 εˆ = X0 y − (X0 X)(X0 X)−1 X0 y = 0

(4.19)

L’espressione appena riportata vale sempre. In termini geometrici descrive l’ortogonalit`a dei residui OLS rispetto allo spazio coperto dalle colonne di X.

94

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Se la regressione include una costante, la prima riga di X0 (colonna di X) sar`a una colonna di elementi pari a 1. Quindi, ricordando la (4.19) possiamo scrivere: T X 0 u1k X0 εˆ =L0 εˆ = εˆt = 0

(4.20)

t=1

dove u1k e` il vettore estrazione di dimensione (k × 1) con primo elemento pari a 1: u10 k =



1 0 ... ... 0



(1×k)

Notate che la (4.20) implica che in questo caso, quando cio`e la regressione include un termine di intercetta, i residui hanno media campionaria pari a zero. (2) Calcoliamo il valore atteso del vettore dei residui facendo riferimento alla (4.18):   E(ˆ ε) = IT − X(X0 X)−1 X0 E(ε) = 0

e quindi concludiamo che il valore atteso dei residui e` nullo. La matrice di varianze e covarianze dei residui e` : V ar(ˆ ε) = E(ˆ εεˆ0 ) =     = IT − X(X0 X)−1 X0 E(εε0 ) IT − X(X0 X)−1 X0 =   = σ 2 IT − X(X0 X)−1 X0 (4.21)   dato che E(εε0 ) = σ 2 IT ,e σ 2 IT − X(X0 X)−1 X0 e` matrice idempotente. (3) Riprendendo le equazioni normali dei minimi quadrati: 0 (X0 X)βˆ − X y = 0

possiamo premoltiplicare per un idoneo vettore estrazione: 0

1

0

u1k X0 Xβˆ = uk X0 y Se la prima colonna di X e` una colonna di 1, si ha: i

0

Xβˆ =

(1×T )

i

0

y,

(4.22)

(1×T )

i =



1 1 ... 1

0

e quindi, premoltiplicando entrambi i membri della (4.22) per T −1 , si ottiene: y x ¯0 βˆ =¯ (1×k)

(4.23)

95

4.2. STIMA DEI PARAMETRI

Figura 4.3: retta di regressione stimata con termine di intercetta (punto A=baricentro) 4.5

valore di y

4

A

y 3.5

3

x2

2.5

2

0

0.5

1

1.5

valore di x2

dove: T T  P  x 1 1  t=1 2t x ¯ = ( i0 X)0 =  T T   ...  P T xkt 

      =    

 1 x2  , ...  xk

t=1

1 1 y¯ = ( i0 y) = T T

T X

yt .

t=1

Si noti che x ¯ e` il vettore delle medie campionarie dei regressori e y¯ e` la media campionaria della variabile dipendente. Quindi la relazione (4.23) indica che la retta di regressione (iperpiano di regressione se k > 2) passa per il baricentro campionario, cio`e passa per il punto nello spazio k dimensionale con coordinate date dalle medie campionarie delle grandezze che appaiono nella relazione di regressione. Ci`o avviene solo se il MRL comprende un termine di intercetta. Nel caso della regressione semplice: yt = β1 + β2 x2t + εt , t = 1, 2 . . . , T

2

96

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

abbiamo: y¯ = βˆ1 + βˆ2 x ¯2 come evidenziato dal grafico 4.3.

4.2.5

Ricapitolazione sulla stima OLS dei parametri β

La stima OLS coincide con la stima di massima verosimiglianza (M L=maximum likelihood) e quella che si ottiene grazie all’applicazione del metodo dei momenti (M M ).La stima OLS non richiede alcuna assunzione sulla forma della distribuzione dei termini di disturbo.

4.2.6

Interpretazioni alternative della stima OLS di un MRL

Una prima possibile interpretazione della stima del MRL e` nei termini di proieziob: ne. Prendiamo i valori stimati y 0 y ˆ = Xβˆ = X(X X)−1 X0 y

(4.24)

E` possibile definire la matrice X(X0 X)−1 X0 come la matrice di proiezione sullo b e` la proiezione di y sullo spazio spazio coperto dalle colonne di X. Quindi y coperto dalle colonne di X e il vettore dei residui:   εb = y−b y = IT − X(X0 X)−1 X0 y d`a la distanza di y dalla proiezione sullo spazio coperto dalle colonne di X. Facendo un esempio per il quale sia possibile dare una semplice rappresentazione grafica, ipotizziamo un MRL con un solo regressore: yt = β1 x1t + εt , t = 1, ..T Immaginiamo di avere solo T = 2 osservazioni:     2 1 ,x = y= 4 1 E` chiaro che: βˆ = (x0 x)−1 x0 y =3 ˆ = b = βx y



b= εˆ = y − y

3 3 

 −1 1



b esprime la proiezione ortogonale di y sullo spazio coVediamo quindi che y perto da x.

97

4.2. STIMA DEI PARAMETRI

Figura 4.4: regressione stimata come proiezione ortogonale 7

6

5

y

4

^y

3

2

x 1

0

−1

−2

1

2



3

4

5

6

7

8

9

98

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

a) Un’altra interpretazione della stima OLS del MRL e` la seguente. Supponiamo di avere: y = Xβ + ε dove la prima colonna di X e` il termine di intercetta. Ricordando le equazioni normali dei Minimi Quadrati: 0 (X0 X)βˆ = X y

possiamo scrivere:  1 10 1 10 0 uk X0 X βˆ = u Xy⇒ T T k 1 0 ˆ 1 0 i Xβ = iy⇒ T T x 0 βˆ = y¯, (1×k)   1 x ¯2 . . . x ¯k x ¯0 = oppure in termini equivalenti: k X

βˆi x ¯i = y¯

i=1

con x ¯1 = 1, e quindi: βˆ1 = y¯−

k X

βˆi x ¯

(4.25)

i=2

Utilizzando l’espressione (4.25) possiamo riscrivere il modello come: k X ˆ it − x yˆt − y¯ = β(x ¯i ) i=2

oppure in termini matriciali: y∗ = X∗ β ∗ +ε∗ ,   y1 − y  y2 − y  , y∗ =    ... yT − y  (x21 − x ¯2 )  (x − x ¯2 ) 22 X∗ =   ... [T ×(k−1)] (x2T − x ¯2 )  x∗2 ... = (T ×1)

... ... ... ... x∗k (T ×1)

 (xk1 − x ¯k ) (xk2 − x ¯k )  = (xk3 − x ¯k )  (xk4 − x ¯k ) 

99

4.2. STIMA DEI PARAMETRI Si definisca allora: 

 yt  x2t   zt =   ...  (k×1) xkt e si ipotizzi che tutte le variabili siano distribuite normalmente: zt ∼ N (µ, Σ),    µ1 σ11  (1×1)     µ =  −−  , Σ =  σ21   µ2 (k×1) (k×1)

0 σ21 (1×k)

Σ22 (k×k)

  ,



µ1

 x2t = E(yt ), µ2 = E  . . .  , xkt

0 σ11 = V ar(yt ), σ12 = Cov(yt [x2t . . . ..xkt ])   x2t  Σ22 = V ar . . .  xkt

Notate che, per le propriet`a della distribuzione normale, e` possibile immediatamente ricavare la distribuzione di yt condizionata sui valori di xt : ∗ (yt |x2t . . . xkt ) ∼ N (µ∗1 , σ11 )



  x2t 0  . . .  − µ2  , E(yt |x2t . . . xkt ) = µ∗1 = µ1 + σ12 Σ−1 22 xkt ∗ 0 V ar(yt |x2t . . . xkt ) = σ11 = σ11 − σ12 Σ−1 22 σ21

Se vogliamo stimare i momenti della distribuzione condizionale di yt , dati x2t . . . xkt , sulla base di T osservazioni disponibili su tutte le variabili, possiamo utilizzare gli equivalenti campionari dei momenti della popolazione:

µ ˆ1 = y¯, σ ˆ11 =

T 1 1 X (yt − y¯)2 = y∗0 y∗ , T T t=1

0 σ b12 =

=

1 T

T X

(yt − y¯)



(x2t − x ¯2 ) . . . . . . (xkt − x ¯k )

t=1

1 ∗0 ∗ 1 y X , Σ22 = X∗0 X∗ T T



=

100

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Quindi la stima dei momenti della distribuzione condizionale di yt e` : 

   x2t x ¯2 µ b∗1 = y¯ + (y∗0 X∗ )(X∗0 X∗ )−1  . . .  −  . . .  xkt x ¯k e quindi: h i yˆt − y¯ = [(x2t − x ¯2 ) . . . (xkt − x ¯k )] (X∗0 X∗ )−1 X∗0 y∗ , b ∗ = X∗ βˆ y e la stima della varianza condizionale di y e` : h i −1 ∗ σ b11 = V ar(yt |x2t . . . xkt ) = y∗0 y∗ −y∗0 X∗ (X∗0 X∗ ) X∗0 y∗ = h i ∗0 ∗ ∗0 ∗ −1 ∗0 = y IT − X (X X ) X y∗

4.3

Stima del momento secondo (σ 2 )

Abbiamo visto che la scelta pi`u naturale per la stima della varianza dei termini di disturbo e` data da: 1 0 2 εˆ εˆ σ ˆM L = T Tale stimatore deriva dalla massimizzazione della funzione di verosimiglianza. Purtroppo questo stimatore e` distorto. Infatti, applicando l’operatore valore atteso abbiamo: 2 E(σM L) =

= =

1 E(ε0 Mε) = (nb: M = IT −X(X0 X)−1 X0 ) T   1 E(tr Mε0 ε = (nb: tr(ABC) = tr(BCA)) T 1 σ2 tr(Mσ 2 IT ) = (tr [M]) T T

dove: tr(M) = tr(IT ) − tr(X(X0 X)−1 X0 ) = = T − tr((X0 X)−1 (X0 X)) = = T − tr(Ik ) = = T −k e quindi: 2 E(ˆ σM L) =

T −k 2 σ T

101

4.4. ANALISI DELLA VARIANZA Quindi questo stimatore e` distorto ma consistente, dato che crescere di T . Si noti che lo stimatore 2 σ ˆOLS =

T −k T

tende a 1 al

1 εˆ0 εˆ T −k

e` chiaramente non distorto. Quindi: 2 σ ˆM L = 2 σ ˆOLS

=

1 0 εˆ εˆ distorto ma consistente T 1 εˆ0 εˆ non distorto e consistente T −k

2 Il denominatore di σ ˆOLS , cio`e la grandezza T −k, viene chiamata numero dei gradi di libert`a della regressione.

4.4

Analisi della varianza

Quanto della variabilit`a di y e` spiegata dalla retta (iperpiano) di regressione? y0 y = T SS Total Sum of Squares 0 = (Xβˆ + εˆ) (Xβˆ + εˆ) = 0 0 = βˆ0 X0 Xβˆ + βˆ X0 εˆ + εˆ0 Xβˆ + εˆ εˆ

Ricordando che: X0 εˆ = 0 otteniamo: 0 y0 y = βˆ0 X0 Xβˆ + εˆ εˆ ⇒

T SS = ESS + RSS

(4.26)

dove: ESS = βˆ0 X0 Xβˆ =Explained Sum of Squares = = somma dei quadrati “spiegata” RSS = εˆ0 εˆ =Residual Sum of Squares= = somma dei quadrati dei residui Quanto pi`u alto e` ESS rispetto a T SS, tanto migliore e` la spiegazione della variabilit`a di y fornita dalla regressione. Possiamo definire un indice basato sulla scom2 posizione (4.26). Questo indice, chiamato RU a di adattamento e` C = indice di bont` definito come: ESS RSS 2 RU =1− C = T SS T SS

102

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Questo indice viene definito “non centrato” (uncentered), dato che indica quanto della variabilit`a complessiva di y, misurata come somma dei quadrati dei valori di y, viene spiegata dalla relazione di regressione. Quando il MRL ha un termine di intercetta (ad esempio x1t = 1, ∀t),una misura alternativa di adattamento si ha scrivendo il MRL nei termini seguenti: y∗ =. (T ×1)

β∗

X∗

(T ×(k−1))((k−1)×1)

+

u (T ×1)

dove y∗ e X∗ raccolgono le deviazioni dalla rispettiva media di colonna (campionarie) e β ∗ comprende tutti i parametri escluso quello associato al termine di 2 “centrato” (centered): intercetta. E` possibile definire un indice RC 2 RC =

ESS βˆ∗0 X∗0 X∗ βˆ∗ = T SS y∗0 y∗

In questo modo si ottiene un indice di bont`a di adattamento, sempre compreso tra 0 e 1, che indica quanto della variabilit`a complessiva di y, misurata come somma dei quadrati delle deviazioni dei valori di yt dalla media campionaria, viene spiegata dalla relazione di regressione in base alla variabilit`a campionaria dei regressori diversi dal termine di intercetta.

4.5

Regressione partizionata

Il contenuto di questa sottosezione e` rilevante per l’interpretazione dei coefficienti stimati di un MRL. Si immagini di avere un MRL del tipo: y (T ×1)

= X

β

(T ×k)(k×1)

+

ε (T ×1)

Immaginiamo di partizionare la matrice X e il vettore β nei termini seguenti:   X = X1 X2   β1 β= β2 dove gli oggetti definiti hanno le seguenti dimensioni: X1 , X2 , β1 , β1 , k1 (T ×k1 ) (T ×k2 ) (k1 ×1) (k1 ×1)

+ k2 = k

Ora, applichiamo la partizione appena descritta alle equazioni normali dei MQ:



X01 X1 X02 X1

X0 Xβˆ = X0 y ⇒     0  X01 X2 βˆ1 X1 y = ˆ X02 X2 X02 y β2

(4.27)

4.6. ANTICIPAZIONE SU TEST CONGIUNTI

103

E` possibile risolvere il primo blocco delle equazioni (4.27) rispetto a βb1 : h i βˆ1 = (X01 X1 )−1 y − X2 βˆ2 (1◦ blocco) Sostituendo questa soluzione nel secondo blocco di (4.27) si ottiene: X02 X1 (X01 X1 )−1 X01 (y − X2 βˆ2 ) + (X02 X2 βˆ2 ) = X02 y. Ora posso raccogliere tra loro i termini dove appare βˆ2 e portare gli altri a sinistra, ottenendo: h i X02 IT − X1 (X01 X1 )−1 X2 βˆ2 = X02 y − X02 X1 (X01 X1 )−1 X01 y ⇒ h i h i X02 IT − X1 (X01 X1 )−1 X2 βˆ2 = X02 IT −X1 (X01 X1 )−1 X01 y (4.28) La matrice: IT −X1 (X01 X1 )−1 X01 = M1 e` chiaramente simmetrica e idempotente. Per cui posso scrivere la (4.28) come: X02 M1 βˆ2 = X02 M1 y Definendo: M1 X2 = X∗2 M1 y = y

residui della regressione di X2 su X1



residui della regressione di y su X1

si pu`o scrivere la (4.28) come: ∗ −1 ∗0 ∗ βˆ2 = (X∗0 2 X2 ) X2 y

(4.29)

Quindi, la stima di βˆ2 e` equivalente a quella che si otterrebbe regredendo preliminarmente X2 e y dall’effetto di X1 tramite regressioni preliminari. I coefficienti di regressione stimati hanno quindi il significato di vere e proprie derivate parziali.

4.6 Anticipazione su test congiunti Facciamo riferimento ad un MRL dove il primo dei regressori e` un termine di intercetta: y = Xβ + ε oppure nella sua formulazione alternativa y∗ = X∗ β ∗ +u dove siano rispettate le ipotesi sui termini di disturbo: ε ∼ N (0, σ 2 IT )

104

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Quando e` vera la seguente ipotesi nulla: H0 : β2 = β3 = . . . = βk = 0 (quando cio`e il comportamento di y non e` influenzato dai regressori diversi dal termine di intercetta), e` possibile descrivere la distribuzione di RSS quando sia diviso per σ 2 (varianza teorica dei termini di disturbo): ε0 ε RSS = (IT −X1 (X01 X1 )−1 X01 ) ∼ χ2T −1 2 σ σ σ

(4.30)

Nello stesso modo, quando e` vera H0 abbiamo: ESS 1 = 2 βb∗0 X∗0 X∗ βb ∼ χ2k−1 σ2 σ

(4.31)

con ESS indipendente da RSS . Sulla base di tutto ci`o possiamo definire una granσ2 σ2 dezza costruita come rapporto tra (4.30) e (4.31), ognuna divisa per il proprio numero di gradi di libert`a, ed in questo modo ottenere una grandezza distribuita come una variabile casuale F di Fisher: ESS/(k − 1) Rc2 /(k − 1) = ∼ Fk−1,T −k RSS/(T − k) (1 − Rc2 )/(T − k)

(4.32)

che pu`o essere utilizzata per provare l’ipotesi: H0 : β2 = β3 = . . . = βk = 0

(4.33)

H1 : β2 6= β3 6= . . . 6= βk 6= 0 Notate che l’ipotesi (4.33) e` l’ipotesi che la regressione non abbia alcun potere esplicativo, ed e` evidente che il test F utilizzato sia ovviamente una funzione crescente dell’indice Rc2 : quando la regressione ha basso potere esplicativo (basso Rc2 ), il test F calcolato sar`a vicino a zero, mentre quando l’indice calcolato e` vicino a 1, allora il valore calcolato per il test F tende ad essere molto grande.

4.7 4.7.1

Inferenza statistica sul modello di regressione Costruzione di intervalli di confidenza

Se sono valide le ipotesi sui termini di disturbo che sintetizziamo in questo modo: ε ∼ N (0, σ 2 IT ) e` facile mostrare che: βˆ ∼ N (β, σ 2 Q) 0

−1

Q = (X X)

(4.34)

105

4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE

Figura 4.5: distribuzione per la stima di β, opportunamente standardizzata, e relativi quantili corrispondenti a α/2. (Nella figura T − k = 20, α = 0.05) 0.4 0.35 0.3 0.25 0.2 0.15 0.1 t(α/2)

−t(α/2)

0.05 0 −4

−3

−2

−1

0

1

2

3

4

quando X sia non stocastico, (o condizionatamente rispetto a X). Questo risultato di normalit`a e` immediato dato che βˆ e` ottenuto come k combinazioni lineari della variabile casuale T −dimensionale ε distribuita normalmente: 0 βˆ = (X X)−1 X0 y = β + (X0 X)−1 X0 ε

Sulla base di questo risultato possiamo scrivere: βˆi − βi ∼ N (0, 1), qii = elemento diagonale i-esimo di Q √ σ qii Sappiamo pure che: RSS ∼ χ2T −k σ2 b In termini equivalenti: e che e` indipendente dalla distribuzione di β. σ ˆ2 ∼ χ2T −k σ2 Quindi posso costruire una variabile casuale distribuita come una t di Student con T − k gradi di libert`a (T − k)

βˆi − βi βˆi − βi σ(q )1/2 s ii = ∼ tT −k 2 σ ˆ qii 1/2 (T − k) σσˆ 2 T −k

(4.35)

106

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

e, utilizzando questo risultato distributivo, e` possibile ricorrere ai valori tabulati dei quantili della distribuzione t di Student con T − k gradi di libert`a per definire intervalli che soddisfano: ( ) βˆi − βi p −t(α/2) ≤ ≤ −t(α/2) = 1 − α (4.36) σ ˆ (qii )1/2 come si evince dalla figura 4.5. Notate che in questo modo e` possibile definire l’intervallo fiduciario per βi centrato intorno alla sua stima puntuale e associato ad un livello fiduciario pari ad α: n √ √ o P βˆi − t(α/2) [ˆ σ qii ] ≤ βi ≤ βˆi + t(α/2) [ˆ σ qii ] = 1 − α  √   √  I termini βˆi − t(α/2) σ ˆ qii e βˆi + t(α/2) σ ˆ qii costituiscono quindi gli estremi di tale intervallo fiduciario.

4.7.2

Prova delle ipotesi

Supponiamo che vi sia interesse per la verifica dell’ipotesi semplice che riguarda il parametro βi : H0 : βi = β0i H1 : βi 6= β0i

(4.37)

dove per β0i si intende un determinato valore. Ad esempio, se β0i = 0, l’ipotesi nulla contempla la mancanza di potere esplicativo di xit su yt . Si noti che la (4.37) definisce un’ipotesi alternativa bilaterale. Fissando la probabilit`a dell’errore di prima specie: pr(rifiuto H0 | H0 vero) = α possiamo utilizzare il risultato distributivo (4.35) per definire il criterio che definisce la regione di accettazione e la regione di rifiuto di H0 (si veda la figura 4.6) basato sulla probabilit`a dell’errore di prima specie scelto: ) ( βˆi − β0i p −t(α/2) > > t(α/2 ) = α σ ˆ qii 1/2 Come si evince dalla figura, il test da utilizzare e` a due code e si sostanzia nel seguente criterio decisionale: si calcoli: βˆi − β0i σ ˆ qii 1/2 Se tale valore e` compreso tra −t(α/2) e t(α/2) , si accetta H0 , altrimenti si rifiuta H0 . Notate che esiste una dualit`a interpretativa tra costruzione dell’intervallo di

107

4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE Figura 4.6: test a due code per verificare H0 : β0 = 0, contro H0 : β0 6= 0 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 −4

probabilità pari a α /2

−3

probabilità pari a α /2

−2

−1

0

1

2

3

4

se il valore calcolato del test cade in questo intervallo, accetto l’ipotesi nulla

confidenza e prova delle ipotesi: se il test conduce all’accettazione di H0 , allora l’intervallo fiduciario corrispondente ad un livello fiduciario pari a 1 − α conterr`a il valore puntuale βio ipotizzato vero sotto H0 , e viceversa. Supponiamo ora che l’ipotesi alternativa H1 sia ora unilaterale, ad esempio: H1 : βi > β0i . Fissando la probabilit`a dell’errore di prima specie: pr(rifiuto H0 | H0 vero) = α possiamo utilizzare il risultato distributivo (4.35) per definire il criterio che definisce la regione di accettazione e la regione di rifiuto di H0 (si veda la figura 4.7) basato sulla probabilit`a dell’errore di prima specie scelto: ( p

) βˆi − β0i > t(α ) = α σ ˆ qii 1/2

Come si evince dalla figura, il test da utilizzare e` a una coda e si sostanzia nel seguente criterio decisionale: si calcoli: βˆi − β0i σ ˆ qii 1/2

108

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Figura 4.7: test a una coda per verificare H0 : β0 = 0, contro H0 : β0 > 0 0.4 0.35 0.3 0.25 0.2 0.15 0.1

probabilità pari a α

0.05 0 −4

−3

−2

−1

0

1

2

3

4

se il valore calcolato del test cade nell’intervallo a sinistra del quantile, accetto l’ipotesi nulla

Se tale valore e` minore di t(α/2) , si accetta H0 , altrimenti si rifiuta H0 . Lasciamo trovare al lettore, come semplice esercizio, la regione critica corrispondente al test che verifica H0 contro: H1 : βi < β0i . Un esempio Supponiamo che in relazione ad un MRL stimato si abbia: βbi = 0.05, p

σ b2 · qii = 0.02, T

= 66, k = 6

e supponiamo di voler verificare: H0 : βi = 0 contro H1 : βi 6= 0 con probabilit`a dell’errore di prima α = 5%. Dalle tavole della distribuzione t di Student con T − k = 60 gradi di libert`a, si trova il quantile: tα/2 = 2.00

4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE

109

L’intervallo di confidenza al 95% e` dato da: 1/2 1/2 [βˆi − tα/2 σ ˆ qii , βˆi − tα/2 σ ˆ qii ] =

[0.05 − 2.00 · 0.02, 0.05 + 2.00 · 0.02] = [0.01, 0.09] Il valore calcolato del test e` : βˆi 1/2 σ ˆ qii

=

0.05 = 2.5 0.02

che confrontato con il valore critico tα/2 = 2.00 conduce a rifiutare H0 .Se avessimo come ipotesi alternativa: H1 : βi > 0 scegliendo come probabilit`a di errore di prima specie α = 0.05, il quantile rilevante della distribuzione e` : tα = 1.671 Dato che il valore calcolato del test (2.5) e` maggiore di tα anche il test ad una coda comporta il rifiuto di H0 .

4.7.3

Un utile esempio: il MRL con 3 regressori

Supponiamo di avere il seguente MRL: yt = β1 + β2 x2t + β2 x3t + εt , t = 1, 2, . . . , T x1t = 1, ∀t. oppure in termini matriciali: y =

X

β

+ε,

(T ×3)(3×1)



1 x21 X =  ... ... 1 x2T

   x31 β1 . . .  , β =  β2  x3T β3

In questo caso abbiamo quindi 3 regressori, di cui uno e` il termine di intercetta. Consideriamo ora le equazioni normali dei minimi quadrati: 0 X0 Xβˆ = X y

Possiamo utilizzare anche un’altra notazione. Definiamo la somma dei quadrati degli errori come: T X Q= (yt − β1 − β2 x2t − β3 x3t )2 t=1

110

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Differenziando rispetto ai parametri β1 , β2 , β3 otteniamo: ∂Q ∂β1

=

T T T 1 X 1 X 1 X 0 ⇒ βb1 = yt − βˆ2 x2t − βˆ3 x3t T T T t=1

t=1

t=1

¯2 βˆ2 − x ¯3 βˆ3 (prima equazione dei MQ) ⇒ βb1 = y¯ − x dove: T 1 X yt T

media campionaria di y

x ¯2 =

1 T

x2t

media campionaria di x2

x ¯3 =

T 1 X x3t T

media campionaria di x3

y¯ =

t=1 T X t=1

t=1

T T T T X X X X ∂Q =0⇒ x2t yt = βb1 x2t + βˆ2 x22t + βˆ3 x2t x3t ∂β2 t=1

t=1

t=1

t=1

Nella relazione precedente, sostituiamo l’espressione per βb1 : ! ! T T X X 2 2 x2t yt − T y¯x ¯2 = βˆ2 x − Tx ¯ + 2t

t=1

+βˆ3

t=1 T X

2

! x2t x3t − T x ¯2 x ¯3

t=1

cio`e: S2y = βˆ2 S22 + βˆ3 S23

2a equazione dei M Q

dove: S2y =

S22 =

T X t=1 T X

x2t yt − T y¯x ¯2

(T volte la covarianza campionaria tra y e x2 )

x22t − T x ¯22

(T volte la varianza campionaria di x2 )

x2t x3t − T x ¯2 x ¯3

(T volte la covarianza campionaria tra x2 e x3 )

t=1

S23 =

T X t=1

Differenziando Q rispetto a βˆ3 (e sostituendo βb1 ) otteniamo: ∂Q = 0 ⇒ S3y = βˆ2 S23 + βˆ3 S33 ∂ βˆ3

3a equazione dei M Q

4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE con:

111

T X S3y = x3t yt − T x ¯3 y¯ t=1

Ora, e` possibile risolvere la

2◦

e la 3◦ equazione dei M Q per ottenere:

S33 S2y − S23 S3y ∆ S S 23 3y − S23 S2y ˆ = β3 , ∆ 2 ∆ = S22 S33 − S23 βˆ2 =

e infine si ottiene anche un espressione per il coefficiente di intercetta stimato: βb1 = y¯ − βˆ2 x ¯2 − βˆ3 x ¯3 Le soluzioni cos`ı ricavate per gli stimatori OLS di β1 , β2 , β3 sono del tutto equivalenti a quelli ottenuti facendo riferimento alla usuale notazione matriciale: βˆ = (X0 X)−1 X0 y (3×1)

Si noti che: T SS = Syy

T X = (yt − y¯)2 = y∗0 y∗ , t=1

ESS = βˆ2 S2y + βˆ3 S3y = βˆ∗0 X∗0 y∗ = = βˆ∗0 X∗0 X∗ βˆ∗ ,   β1 ∗ β = β2 dato che: ∗

X∗0 y∗ = X∗0 (X∗ βˆ +ˆ ε), X∗0 εˆ = 0 A questo punto possiamo scrivere la somma dei quadrati dei residui della regressione stimata come: ∗ RSS = Syy − βˆ2 S2y − βˆ3 S3y = y∗0 y∗ −βˆ X∗0 X∗ βˆ∗ = εˆ0 εˆ

e l’indice R2 come: R2 =

βˆ2 S2y + βˆ3 S3y ESS = T SS Syy

(coefficiente di determinazione multipla).

mentre l’indice R e` detto anche coefficiente di correlazione multipla.

112

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

4.7.4

Inferenza statistica nel modello di regressione multipla

Si ricordi che, sotto le ipotesi canoniche sui termini di disturbo, compresa l’ipotesi di normalit`a, abbiamo che:  βˆ ∼ N β, σ 2 (X0 X)−1 Si consideri ora il modello di regressione con: yt = β1 + β2 x2t + β3 x3t + εt , t = 1, 2, .., T y =

X

β



(T ×3)(3×1)

oppure: y∗ = X∗ β ∗ +u,   β2 ∗ β = β3 e quindi avremo:  βˆ∗ ∼ N β ∗ , σ 2 (X∗0 X∗ )−1  ∗0 ∗ −1 X X = 2 r23 =



S22 S23 S22 S33

2 S23 S22 S33

−1

1   = 2 S23 S33 1 − r23



S22 −S23 −S23 S33

 ,

(coefficiente di correlazione campionario tra x2 e x3 )

Quindi possiamo scrivere le varianze e covarianze dei singoli coefficienti stimati come: σ2 2 ), S22 (1 − r23 σ2 V ar(βˆ3 ) = 2 ), S33 (1 − r23 2 σ 2 r23 Cov(βˆ2 , βˆ3 ) = 2 ), S23 (1 − r23 σ2 V ar(βb1 ) = +x ¯22 V ar(βˆ2 ) + 2¯ x2 x ¯3 Cov(βˆ2 , βˆ3 ) + T +¯ x23 V ar(βˆ3 ) V ar(βˆ2 ) =

Le seguenti considerazioni sembrano degne di nota: 2 . 1. Si noti che le varianze di βˆ2 e βˆ3 crescono al crescere di r23

2. La variabile casuale:

RSS ∼ χ2(T −3) σ2 pu`o essere utilizzata per costruire intervalli di confidenza per σ 2 .

(4.38) (4.39) (4.40)

(4.41)

4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE

113

Figura 4.8: intervallo fiduciario per β2 e β3

β3

stima puntuale di β3

intervallo fiduciario per β2 e β3 stima puntuale di β2 β2

3. Standardizzando opportunamente gli stimatori dei singoli parametri otteniamo variabili casuali distribuite come t di Student con T − 3 gradi di libert`a: βb1 − β1 1/2

∼ t(T −3)

1/2

∼ t(T −3)

1/2

∼ t(T −3)

σ ˆ q11 βb2 − β2 σ ˆ q22 βˆ3 − β3 σ ˆ q33

Questi risultati distributivi possono essere utilizzati per costruire intervalli di confidenza per β1 , β2 e β3 . 4. La variabile casuale: 1 F = [S22 (βb2 − β2 )2 + 2S23 (βb2 − β2 )(βb3 − β3 ) + 2ˆ σ2 S33 (βb3 − β3 )2 ]

(4.42)

si distribuisce come una variabile casuale F di Fisher: F ∼ F2,(T −3) Questo risultato distributivo pu`o essere utilizzato come riferimento per costruire intervalli di confidenza per β2 e β3 . Ad esempio, facendo riferimento

114

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE alla Figura 4.8, possiamo definire un’ellisse, che corrisponde ad una curva di livello delle funzioni di densit`a F2,(T −3) tale per cui i punti ricompresi nell’ellisse definiscono un intervallo con massa di probabilit`a = 1 − α (ad esempio = 0.95), cio`e: Z Z f (β1 , β2 )dβ1 dβ2 = 0.95 β1 ,β2 ∈A

Alternativamente, la grandezza F definita nella (4.42) pu`o essere utilizzata per verificare l’ipotesi nulla: H0 : β1 = β2 = 0 contro: H1 : β1 e/o β2 6= 0 In tal caso la grandezza F viene calcolata in corrispondenza di H0 : F

= =

ESS/2 = RSS/(T − 3) i 1 h ˆ2 )2 + 2S23 βˆ2 βˆ3 + S33 (βˆ3 )2 S ( β 22 2ˆ σ2

In questo caso l’esame della tavola per la distribuzione F2,T −2 fornisce il valore critico di riferimento alla probabilit`a dell’errore di prima specie scelta.

4.7.5

Esempio di regressione multipla con k = 3 regressori

Immaginiamo di avere una funzione di produzione specificata in logaritmi: yt = β1 + β2 x2t + β3x3t + εt , t = 1, 2, . . . , T dove: y = log(prodotto) x2 = log(lavoro) x3 = log(k) Abbiamo dati relativi a 23 imprese (T = 23) che possono essere riassunti come segue:   x ¯2 = 10 x ¯3 = 5 y¯ = 12  S22 = 12 S23 = 8 S33 = 12  S2y = 10 S3y = 8 Syy = 10 1. Calcolare βˆ1 , βˆ2 , βˆ3 e le stime dei rispettivi errori standard. 2. Trovare gli intervalli di confidenza al 95% per β1 , β2 , β3 ,e provare le ipotesi separate β2 = 0 e β3 = 0 (con livello di confidenza pari a 95% e probabilit`a dell’errore di prima specie al 5%)

4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE

115

3. Trovare la regione di confidenza al 95% per β2 e β3 4. Verificare l’ipotesi (con probabilit`a d’errore di prima specie al 5%): H0 : β2 = 1, β3 = 0 Soluzioni: 1. equazioni normali: βˆ1 = y¯ − βˆ2 x ¯2 − βˆ3 x ¯3 S22 βˆ2 + S23 βˆ3 = S2y S23 βˆ2 + S33 βˆ3 = S3y βˆ1 = 4 βˆ2 = 0.7 βˆ3 = 0.2 Rc2 =

βˆ2 S2y + βˆ3 S3y ESS = = 0.86 T SS Syy

da cui RSS = Syy (1 − Rc2 ) = 1.4 RSS σ b2 = = 0.07 (T − 3) 2 S23 64 2 r12 = = = 0.4444 S22 S33 144 da cui (applicando le formule (4.41-??)): 3 2 σ 20 3 2 V ar(βˆ3 ) = σ 20 −σ 2 Cov(βˆ2 , βˆ3 ) = 10 V ar(βˆ1 ) = 8.7935σ 2 V ar(βˆ2 ) =

(varianze e covarianze teoriche)

Sostituisci ora σ 2 con σ ˆ 2 (stima della varianza di εt ) e prendi le redici quadrate delle varianze stimate cio`e gli errori standard stimati q Vˆ (βˆ2 ) = SE(βˆ2 ) = 0.102 q Vˆ (βˆ3 ) = SE(βˆ3 ) = 0.102 q Vˆ (βˆ1 ) = SE(βˆ1 ) = 0.78

116

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE L’equazione di regressione stimata diventa (errori standard in parentesi sotto i coefficienti stimati): yˆt =

4 (0.78)

σ ˆ

2

= 0.07

R

2

= 0.86

+ 0.7 x2t + 0.2 x3t (0.102)

(0.102)

2. Per costruire intervalli di confidenza βˆi − βi ∼ t(T −k) , i = 1, 2, 3 SE(βˆi ) Nel nostro caso (con α = 0.05, T = 23, k = 3), la distribuzione di riferimento e` una t di Student con 20 gradi di libert`a e quindi t(α/2) = t(0.025) = 2.086. Pertanto gli intervalli di confidenza sono ottenuti come: βb1 ± SE(βb1 ) · 2.086 = [2.37, 5.63] βˆ2 ± SE(βˆ2 ) · 2.086 = [0.49, 0.91] βˆ3 ± SE(βˆ3 ) · 2.086 = [−0.01, 0.41] I test delle ipotesi: H0 : βi = 0 H1 : βi 6= 0, i = 2, 3

con α = 5%

sono ottenuti facendo riferimento a: βˆi − βi0 SE(βˆi )

∼ t20 ,

βi0 = 0, i = 2, 3 La regione di accettazione di H0 e` ovviamente definita dall’intervallo: [−t(α/2) , t(α/2) ] = [−t(0.025 , t(0.025) ] = [−2.086, 2.086] I valori calcolati di tali test sono: βˆ2 − 0 SE(βˆ2 )

=

0.7 = 6.9 ⇒ 1.02

Rifiuto H0

βˆ3 − 0 SE(βˆ3 )

=

0.2 = 1.9 ⇒ 1.02

Accetto H0

117

4.8. LA PREVISIONE 3. Costruisci: (βb∗ − β ∗ )0 X∗0 X∗ (βb∗ − β ∗ )/(k − 1) ∼ Fk−1,T −k RSS/(T − k)

cioe: h i S22 (βˆ2 − β2 )2 + 2S23 (βˆ2 − β2 )(βˆ3 − β3 ) + S33 (βˆ3 − β3 ) ≤ 3.49(2σ 2 ) ⇒   12(0.7 − β2 )2 + 16(0.7 − β2 )(0.2 − β3 ) + 12(0.2 − β3 )2 ≤ 3.49(2 · 0.07) ⇒ 4 (β2 − 0.7)2 + (β2 − 0.7)(β3 − 0.2) + (β3 − 0.2)2 ≤ 0.041 3 che definisce la superficie delimitata da un’ellisse centrata sul punto:   0.7 ∗ b β = 0.2 4. Per la verifica dell’ipotesi congiunta: H0 : β2 = 1, β3 = 0

contro

H1 : β2 6= 1, e/o β3 6= 0 si costruisce il test F : F =

i 1 h ˆ2 + 2S23 βˆ2 βˆ3 + S33 βˆ2 = 4.3 S β 22 2 3 2σ 2

Consultando la tavola della distribuzione F2,20 si ottiene che il valore critico al 5% e` : f (0.05) = 3.49 che confrontato con il valore calcolato del test (4.3) comporta il rifiuto di H0 .

4.8

La previsione

Supponiamo di avere un MRL stimato del tipo y ˆ = Xβˆ Immaginiamo che le osservazioni (t = 1, . . . , T ) sulle quali si basa la stima del modello siano riferite a diversi istanti temporali, da un inizio del campione nel passato (t = 1) ad un istante che corrisponde al presente (t = T , fine del campione). E` possibile utilizzare il MRL stimato per prevedere l’andamento futuro di y : yˆT +1 =x0T +1 βˆ (1×k)

previsione un passo in avanti

118

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Ovviamente, per poter utilizzare il modello a fini estrapolativi, occorre poter formulare un’ipotesi relativa al valore futuro dei regressori. Tale ipotesi si chiama scenario della previsione:   x0T +1 = x1,T +1 . . . xk,T +1 L’attivit`a di previsione comporta necessariamente che vengano compiuti degli errori. Ipotizzando che non esista incertezza sullo scenario (cio`e si ipotizza che xT +1 sia conosciuto con certezza), l’errore di previsione viene definito come: εbT +1|T

= yT +1 − yˆT +1 = x0T +1 β + εT +1 − x0T +1 βˆ = ˆ + εT +1 = x0T +1 (β − β)

Notate che l’errore di previsione ha due componenti: la prima componente legata ˆ e la seconda al fatto che β non e` conosciuto e deve essere stimato (x0T +1 (β − β)), componente che e` invece connessa alla presenza di un termine di disturbo stocastico ed imprevedibile (εT +1 ). L’errore di previsione ha comunque valore atteso nullo (se la stima dei parametri e` non distorta): ˆ + E(εT +1 ) E(yT +1 − yˆT +1 ) = x0T +1 E(β − β) e la varianza dell’errore di previsione e` data da: ˆ T +1 + σ 2 = V ar(b εT +1|T ) = x0T +1 V ar(β)x    = σ 2 1 + x0T +1 (X0 X)−1 xT +1 Ad esempio, consideriamo il MRL semplice: yt = β1 + β2 x2t + εt , t = 1, 2, . . . T possiamo scrivere la varianza dell’errore di previsione come: V ar(b εT +1|T ) = σT2 +1|T = V ar(yT +1 − yˆT +1 ) =   (x2T +1 − x ¯2 )2 1 2 = σ 1+ + , T Sxx Sxx =

T X

(x2t − x2 )2 , x2 =

t=1

T X

x2t

t=1

ˆ e` una comSi noti che l’errore di previsione εbT +1|T = yT +1 −ˆ yT +1 = x0T +1 (β−β) ˆ se i termini di disturbo binazione lineare di variabili casuali normali (εT +1 , β − β) sono normali, per cui avr`a una distribuzione normale e quindi posso scrivere: yT +1 − yˆT +1 σ bT +1|T σ bT2 +1|T

∼ tT −k ,   = σ b2 1 + x0T +1 (X0 X)−1 xT +1

(4.43)

119

4.9. DIVERSI MODI DI COSTRUIRE TEST: TEST LR, DI WALD, LM

previsione puntuale e interv. fiduciario

Figura 4.9: 8

previsione puntuale

7

estremo fiduciario superiore

6

5

4

media camp. di x2

3

2

0

1

2

3

4

estremo fiduciario inferiore

5

6

valore dello scenario

Sulla base di questo risultato distributivo e` possibile costruire un intervallo fiduciario intorno alla previsione puntuale. Nel caso della regressione semplice, abbiamo un intervallo fiduciario ad un livello fiduciario pari a 1 − α definito nel modo seguente: [ˆ yT +1 ± t(α/2) · σ bT +1|T ] Quindi notiamo che, a parit`a di ogni altra circostanza, quanto pi`u mi allontano dalla media campionaria x2 , tanto pi`u la previsione di yT +1 diventa incerta: e` accompagnata da un intervallo fiduciario la cui ampiezza cresce con il crescere di x2T +1 da x2 . Si veda a questo proposito la Figura 4.9.

4.9 Diversi modi di costruire Test: Test LR, di Wald, LM 4.9.1

Il test LR

Il primo test che descriviamo viene chiamato LR (rapporto delle verosimiglianze = likelihood ratio). Questo test ha validit`a in grandi campioni ed e` basato sulla stima di massima verosimiglianza. Si immagini di voler provare l’ipotesi che i parametri del modello soddisfino un certo insieme di restrizioni. Si definisca θ il vettore di

7

120

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

parametri del modello (nel MRL θ = [β 0 σ 2 ]0 ) e chiamiamo: λ = =

massimo di L sotto le restrizioni = massimo di L non vincolato L(θˆR ) (R = restricted, U R = un − restricted) L(θˆU R )

E` possibile mostrare che: (a)

φLR = −2 log λ ∼ χ2q

(4.44)

H0

cio`e che la distribuzione asintotica di −2 log λ sotto H0 e` χ2q dove q = numero di restrizioni imposte sul modello vincolato. Ad esempio, consideriamo il MRL: y = X β + ε = X1 β1 + X2 β2 + ε (T ×k)

(T ×k1 )

(T ×k2 )

per il quale supponiamo siano verificate le seguenti ipotesi sui termini di disturbo: ε ∼ N (0, σ 2 IT ) Immaginiamo di avere come ipotesi nulla: H0 : β2 = 0

(k2 vincoli di uguaglianza a zero)

La stima del modello non vincolato tramite massima verosimiglianza e` : βˆ = (X0 X)−1 X0 y, 1 0 σ b2 = εb εb T In corrispondenza di tale valore, la funzione di verosimiglianza assume il valore: ˆ σ L(β, ˆ2) =



1 √ 2πˆ σ

T

   T  1 1 0 T exp − 2 εˆ εˆ = √ exp − 2ˆ σ 2 2πˆ σ 

La stima del modello vincolato e` invece basata su di una formulazione del MRL sulla quale sono stati imposti i vincoli che caratterizzano H0 : y = X1 β1 +εR i cui parametri stimati sono: " βˆR =

(X01 X1 )−1 X01 y 0 (k2 ×1)

2 σ bR =

1 0 εb εbR T R

# ,

4.9. DIVERSI MODI DI COSTRUIRE TEST: TEST LR, DI WALD, LM

121

e il valore della verosimiglianza calcolato in corrispondenza di questo massimo vincolato e` : T    1 0 1 2 ˆ √ exp − 2 εˆR εˆR = L(βR , σ ˆR ) = 2ˆ σR 2πˆ σR  T   1 T √ = exp − 2 2πˆ σR Quindi posso costruire la variabile casuale definita dalla (4.44) come: φLR = −2 log

σ ˆ2 L(θˆR ) = T log( R2 ) = T [log RRSS − log U RSS] σ ˆ L(θˆU R )

dato che: 1 0 U RSS εb εb = T T 1 0 RRSS 2 σ ˆR = εb εbR = T R T U RSS = somma dei quadrati dei residui σ ˆ2 =

del modello U R (non vincolato,unrestricted) RRSS = somma dei quadrati dei residui del modello R(vincolato,restricted) Il modo in cui e` costruito il test implica che sia necessario stimare separatamente il modello vincolato ed il modello non vincolato.

4.9.2

Il test di Wald

Supponiamo che le consuete ipotesi sul MRL abbiamo condotto ad ottenere la stima dei parametri del primo ordine che ha la seguente propriet`a: βˆ ∼ N (β, σ 2 (X0 X)−1 ) Immaginiamo di voler provare l’ipotesi: H0 : β2 = 0 H1 : β2 6= 0 dove β2 e` un sottoinsieme di β. Si consideri la stima di βˆ2 (ottenuta sulla base del modello di partenza non vincolato, vale a dire su cui non sono stati imposti i vincoli che caratterizzano H0 ) e si definisca:   Q11 Q12 0 −1 (X X) = [Q] = Q21 Q22

122

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Grazie alle propriet`a della distribuzione gaussiana, sappiamo che: βˆ2 −β 2 ∼ N (0, σ 2 Q22 )

(4.45)

Definiamo allora P2 la fattorizzazione di Choleski di Q22 : P2 P02 = Q22 Ik2

−10 = P−1 2 Q22 P2

Possiamo ora standardizzare la distribuzione di βb2 utilizzando la seguente trasformazione della (4.45): 1 −1 ˆ P (β 2 −β 2 ) ∼ N (0, Ik2 ) (4.46) σ 2 che sotto l’ipotesi nulla H0 : β2 = 0 diventa: 1 −1 ˆ P (β 2 ) ∼ N (0, Ik2 ) σ 2 Facendo la somma dei quadrati degli elementi del vettore: 1 −1 ˆ P (β 2 ) σ 2

z=

ottengo chiaramente una grandezza distribuita come una χ2k2 :    1 −1 ˆ 0 1 −1 ˆ zz= P (β 2 ) P (β 2 ) σ 2 σ 2 1 ˆ0 −1 ˆ = β Q β2 ∼ χ2k2 H0 σ 2 2 22 0



Ovviamente nella formulazione della statistica appena descritta appare la grandezza σ 2 che in genere e` sconosciuta. Occorre quindi stimare questo parametro, in genere utilizzando lo stimatore di massima verosimiglianza, e la statistica di riferimento sar`a: 1 ˆ a 2 φW = 2 βˆ20 Q−1 22 β2 ∼ χk2 H0 σ bM L Nel caso pi`u generale dell’imposizione sotto H0 di q vincoli lineari indipendenti sui parametri del primo ordine: H0

:

R β=d (q×k)

ρ(R) = q ricordando che: βˆ ∼ N (β, σ 2 (X0 X)−1 ) possiamo ricavare la distribuzione sotto H0 della grandezza (Rβˆ − d): (Rβˆ − d) ∼ N (0, σ 2 R(X0 X)−1 R0 )

4.9. DIVERSI MODI DI COSTRUIRE TEST: TEST LR, DI WALD, LM

123

e quindi possiamo costruire il test: φW =

1

  ˆ − d)0 R(X0 X)−1 R0 −1 (Rβˆ − d) (a) ∼ χ2q

2 (Rβ σ ˆM L

H0

Prendiamo come esempio pi`u semplice un MRL dove tutte le variabili appaiono espresse in termini di deviazioni dalle rispettive medie campionarie: y∗ = X∗ β ∗ +u e supponiamo che l’ipotesi nulla sia quella che implica l’assenza assoluta di potere esplicativo da parte della regressione: H0

:

β∗ = 0

R = Ik−1 d =

[0] (k−1)×1

Possiamo quindi costruire un test di Wald come: φW

0 βˆ∗ X∗0 X∗ βˆ∗ H0 2 ∼ χk−1 = 2 σ ˆM (a) L

Notate che questa statistica si pu`o esprimere in termini equivalenti come:   0 ˜ 0X ˜ βˆ∗ ESS Rc2 βˆ∗ X = U RSS = T φW = (test di Wald in forma χ2 ) 2 2 1 − R σ ˆM ( T ) c L ESS nb : Rc2 = T SS Una formulazione alternativa del test di Wald e` la seguente: fW =

ESS/(k − 1) (RRSS − U RSS)/k − 1 = ∼ Fk−1,T −k U RSS/(T − k) U RSS/T − k

In questo caso la distribuzione di riferimento sotto H0 e` una F di Fisher con k − 1 e T − k gradi di libert`a. Si noti che l’equivalente test LR della medesima ipotesi e` :   RRSS φLR = T log U RSS Per questo esempio abbiamo: RRSS = y ˜0 y ˜ U RSS = εˆ0 εˆ (dato che azzeriamo i coefficienti associati a tutti i regressori diversi dall’intercetta sotto H0 ) e quindi:  0  y ˜ y ˜ φLR = T log 0 εˆ εˆ Si noti che per ottenere il test di Wald, in via generale, e` necessario stimare solo il modello non vincolato.

124

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

4.9.3

Test LM (Lagrange Multipliers) (test dei moltiplicatori di Lagrange)

Stimiamo il MRL: y = Xβ + ε sottoposto ai vincoli: R

β =d

(q×k)(k×1) q
ρ(R) = q Dobbiamo quindi massimizzare la logverosimiglianza: log L sotto i vincoli: Rβ = d Il primo passo e` quello di costruire la funzione lagrangiana: log L + λ0 (R β − d) ∂ log L + R0 λ = 0 (4.47) ∂θ dove con θ indichiamo il vettore che contiene tutti i parametri del modello:   β θ = σ2 (k+1)×1 Ovviamente, il gradiente, calcolato in corrispondenza della configurazione di θ che massimizza la logverosimiglianza sotto i vincoli imposti (θbR ) non e` zero ma e` pari a −R0 λ, come si evince dalla (4.47). Se i vincoli non fossero stringenti, allora il punto di massimo vincolato θbR coinciderebbe con il punto di massimo non vincolato θbU R e quindi avremmo che il gradiente e` nullo. In questo caso infatti, il vettore di moltiplicatori di Lagrange λ e` un vettore di dimensioni (q × 1) di zeri. Quanto pi`u i vincoli sono stringenti, tanto pi`u il gradiente calcolato in corrispondenza di θbR tender`a ad essere diverso da zero. E` possibile costruire un test dell’ipotesi nulla H0 : R β = d basato sulla seguente domanda: il gradiente della funzione di logverosimiglianza, calcolato in corrispondenza di θbR e` significativamente diverso da 0? Si pu`o dimostrare che, sotto H0 (e date le ipotesi consuete sul modello, compresa quella di normalit`a dei termini di disturbo), possiamo descrivere la distribuzione del gradiente:      ∂ log L (θ) ˆ γ(θR ) = ∼ N 0 , I θˆR ∂θ θ=θˆR

125

4.9. DIVERSI MODI DI COSTRUIRE TEST: TEST LR, DI WALD, LM dove 

I θˆR



# ∂ 2 log (θ) = −E ∂ θ ∂ θ0 ˆ "

θR

si intende la matrice di informazione calcolata in corrispondenza di θˆR , cio`e il valore atteso della matrice Hessiana delle derivate seconde (cambiate di segno) della logverosimiglianza calcolata in corrispondenza della stima di massima verosimiglianza sotto H0 . Dato questo risultato distributivo, posso definire una grandezza scalare definita come: h  i−1 0 φ = γ(θˆR ) I θˆR γ(θˆR ) (4.48) e questa grandezza e` asintoticamente distribuita sotto H0 come una variabile casuale χ2q , con q gradi di libert`a: H

φ ∼0 χ2q

(4.49)

(a)

Ad esempio, consideriamo il MRL: y = Xβ + ε = X1 β1 + X2 β2 + ε ε ∼ N 0 , σ2I 

H0 : β2 = 0 H1 : β2 6= 0

calcoliamo le derivate prime e seconde della funzione di logverosimiglianza: ∂ log L ∂β 2 ∂ log L ∂β ∂β 0

 1 0 0 −2X y + 2X Xβ 2σ 2 X0 X = − 2 σ

= −

con: βˆR = I(θˆR ) = ∂ log L(ˆ σR ) ∂σ ˆR

=



βˆ1 R 0



XX0 σ ˆ R2  1  0 0ˆ X y − XX β R 2 σ ˆR

E` possibile mostrare (solo un con un po’ di algebra e buona volont`a) che vale: test LM = φLM =

RSS − U RSS RSS/T

126

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

log L

Figura 4.10: Logiche di costruzione di test a confronto

S’

test LR Test LM

test di Wald S

β0

β non vinc.

β

L’inclinazione di SS 0 e` alla base della costruzione del test LM

Ad esempio, nel caso del test di bont`a della regressione: H0 : β2 = · · · = βk = 0 contro H1 : β2 6= 0, e/o β3 6= 0, e/o βk 6= 0 il test LM e` : φLM = T · Rc2 dato che in questo caso abbiamo: RSS = T SS = y∗0 y∗ in generale, il test LM e` basato sulla stima del modello ristretto

4.9.4

Ricapitolazione sulle modalit`a di costruzione dei test

Prendiamo come riferimento la Figura 4.10 dove, in relazione ad un modello molto semplice con un unico parametro da stimare β, rappresentiamo la logverosimiglianza in corrispondenza dei diversi valori di β e definiamo βˆM L la stima di

4.10. STIMA DEL MODELLO SOGGETTO A VINCOLI LINEARI SUI PARAMETRI127 massima verosimiglianza non vincolata. Supponiamo che l’ipotesi nulla sia: H0 : β = 0 H1 : β 6= 0 Ovviamente in questo semplice contesto (in cui c’`e un solo parametro) il ”massimo vincolato” della verosimiglianza coincide con la funzione di verosimiglianza calcolata in corrispondenza di β = β0 Ricapitolando, quindi: test LR = basato sulla distanza tra log L(βˆM L ) e log L(β0 ) test di Wald = basato sulla distanza tra β0 e βˆM L test LM = basato sulla pendenza di log L in β0 (quindi dalla misura di quanto il gradiente e` diverso da zero in β0 ). E` possibile dimostrare che i tre test sono legati da una semplice relazione: per qualsiasi ipotesi nulla ed in relazione a qualsiasi MRL, si ha: φW ≥ φLR ≥ φLM e quindi pu`o succedere che un’ipotesi sia rifiutata da W e accettata da LR, LM,per esempio

4.10

Stima del modello soggetto a vincoli lineari sui parametri

Supponiamo di avere un modello di regressione lineare del tipo: y = Xβ + ε per il quale valgono tutte le ipotesi consuete su termini di disturbo e regressori. Immaginiamo che esistano ragioni per ritenere che valgano i seguenti vincoli lineari sui parametri:

R

β

=

(q×k)(k×1)

d , (q×1)

ρ(R) = q Ad esempio, supponiamo di avere un MRL: yt = β1 + β2 x2t + β3 x3t + β4 x4t + β5 x5t + εt , t = 1, . . . T dove le variabili hanno il seguente significato: yt = consumo x2t = reddito disponibile x3t = spesa pubblica

(4.50)

128

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

x4t = stock di ricchezza privata x5t = debito pubblico In una sua semplice formalizzazione, l’ipotesi di equivalenza ricardiana (la spesa pubblica, dato che prima o poi necessita di un suo finanziamento tramite maggiori tasse implica che il consumatore razionale anticipi l’incremento delle tasse e quindi consideri spesa pubblica alla stregua di riduzione di reddito disponibile e debito pubblico come riduzione della ricchezza) implica che: β3 = −β2 , β5 = −β4 Questi sono due vincoli imposti sullo spazio parametrico che possiamo rappresentare in termini matriciali come: Rβ = d,    β =   

β1 β2 β3 β4 β5

       ,R = 0 1 1 0 0 ,d = 0  0 0 0 1 1 0 

Ora vediamo un modo possibile per stimare il modello in modo tale che rispetti vincoli lineari del tipo (4.50): questo metodo e` chiamato metodo dei minimi quadrati vincolati (`e possibile anche definire uno stimatore di massima verosimiglianza vincolata): min ε0 ε β

soggetta ai vincoli:Rβ = d Per risolvere questo problema siamo attrezzati: costruiamo la funzione lagrangiana e ricaviamo le condizioni del primo ordine rispetto ai parametri del modello e rispetto ai moltiplicatori di Lagrange L = ε0 ε + 2λ0 (Rβ − d) ∂L = 0 ⇒ −2X0 y + 2X0 Xβ + 2R0 λ = 0 ∂β ∂L = 0 ⇒ Rβ − d = 0 ∂λ Ora, esplicitiamo (4.52) rispetto a β, chiamando la soluzione βbR : βbR = (X0 X)−1 (X0 y − R0 λ) Sostituiamo ora la (4.54) nella (4.53) ottenendo: R βˆR = d ⇒ R(X0 X)−1 (X0 y − R0 λ) = d ⇒ R(X0 X)−1 X0 y − d = R(X0 X)−1 R0 λ ⇒

(4.51) (4.52) (4.53)

(4.54)

4.10. STIMA DEL MODELLO SOGGETTO A VINCOLI LINEARI SUI PARAMETRI129

λ =

h

R X0 X

−1

R0

ih

i RβbU R − d

βbU R = stima non vincolata = −1 0 Xy = X0 X

(4.55)

(4.56)

Notate che quando il vincolo e` esattamente verificato dalla stima non vincolata, dalla espressione per λ riportata qui sopra si evince che il vettore dei moltiplicatori di Lagrange e` nullo (i vincoli non sono stringenti: il punto di massimo vincolato coincide con quello di massimo libero): RβˆU R − d = 0 ⇒ λ = 0 Ora risostituiamo la (4.55) nella (4.54):

βˆR = X0 X

−1



i h −1 0 i−1 h X0 y − R0 R X0 X R · RβˆU R − d

(4.57)

La formula vista sopra fornisce un modo per ottenere la stima del MRL sotto i vincoli che caratterizzano l’ipotesi nulla H0 . Per verificare: H0 : Rβ = d contro H1 : Rβ 6= d sono disponibili tutti i test descritti alla sezione precedente:  (RRSS − U RSS)   φW = T ∼ χ2q U RSS test di Wald= (RRSS − U RSS)/q   fW = ∼ Fq , T −k  − k) U RSS/(T RRSS test LR = φLR = T log ∼ χ2q U RSS (RRSS − U RSS) test LM = φLM = T ∼ χ2q RRSS

4.10.1

Alcuni esempi

Prendiamo come primo esempio una funzione di domanda di investimenti: It = β1 + β2 Rt + β3 Πt + εt It = domanda di investimento Rt = tasso di interesse nominale Πt =tasso di inflazione ipotesi: β3 = −β2

130

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Per verificare l’ipotesi nulla: H0 : β3 = −β2 , contro H0 : β3 6= −β2 e` possibile lavorare con uno qualsiasi dei test visti. Possiamo stimare il modello non vincolato ottenendo U RSS. Per ricavare RSS in questo caso e` facile: basta stimare direttamente un modello che soddisfi implicitamente il vincolo imposto, vale a dire: It = β1 + β2 (Rt − Πt ) + εRt (4.58) Nel modello precedente definiamo un nuovo regressore Rt − Πt , tasso di interesse reale. In questo modo, la regressione stimata (4.58) ha una somma dei quadrati dei residui che e` esattamente RSS. Come secondo esempio, si consideri la seguente funzione di produzione in logaritmi: yt = β1 + β2 lt + β3 kt + εt Si supponga di voler provare l’ipotesi di rendimenti costanti di scala: H0 : β2 + β3 = 1 contro H1 : β2 + β3 6= 1 Si noti che, se sono valide tutte le ipotesi consuete su termini di disturbo e regressori allora sappiamo che la stima OLS non ristretta del modello si distribuisce come una variabile casuale normale k-variata: βb ∼ N (β, σ 2 (X0 X)−1 ) e quindi la variabile casuale βˆ2 + βˆ3 − 1 (somma di due variabili casuali normali-1) sotto H0 si distribuisce nel modo seguente: βˆ2 + βˆ3 − 1 = r0 βb − 1 ∼ N [0, ω] , ω 2 = var(βˆ2 + βˆ3 − 1) = r0 σ 2 Qr = = σ 2 (q22 + 2q23 + q33 ) = = var(βb2 ) + var(βb3 ) + 2cov(βb2 , βb3 ),   Q = (X0 X)−1 , r = 0 1 1 , ω b2 = σ b2 (q22 + 2q12 + q11 ) (controparte stimata di ω) Quindi opportunamente standardizzando βˆ2 + βˆ3 −1 si ottiene una variabile casuale la cui distribuzione sotto H0 e` nota:

4.11. EFFETTI DELL’OMISSIONE DI VARIABILI RILEVANTI

 τ

βˆ2 + βˆ3 − 1

= √

131



ω b

= ∼ tT −3 , H0

p ω b2 = σ b (q22 + 2q12 + q11 ) = r RSS p = (q22 + 2q12 + q11 ) T −3

ω b =

(4.59) (4.60) (4.61)

E` quindi possibile ottenere il valore calcolato della statistica τ e confrontarlo con il valore critico della distribuzione t di Student, scegliendo la probabilit`a dell’errore di prima specie. In questo esempio (come nel precedente) e` semplice fare prova delle ipotesi perch`e abbiamo una sola restrizione. E` per`o anche possibile costruire il test Wald nella sua forma F : (RRSS − U RSS)/q fW = U RSS/(T − k) Per ottenere la RRSS (dalla stima del modello vincolato) e` possibile: • applicare M Q vincolati • trasformare la relazione di regressione ipotizzando che valga H0 : yt = β1 + β2 lt + (1 − β2 )kt + εRt ⇒ yt − kt = β1 + β2 (lt − kt ) + εRt Y  L Quindi ottengo un MRL in cui regredisco log K su log K e un termine di intercetta. Utilizzo OLS e ottengo la RSS. Si noti che il test fW e il test τ descritto nella (4.59) conducono a conclusioni equivalenti, dato che il valore di questi test sono legati dalla seguente relazione: fW = (τ )2 in altri termini: il F e` il quadrato del test τ , quando c’`e un solo vincolo.

4.11

Effetti dell’omissione di variabili rilevanti

Supponiamo che il modello “vero” sia: y = Xβ + ε = X1 β1 + X2 β2 + ε (T ×k1 )

(T ×k2 )

Supponiamo di escludere dall’analisi X2 ,perch`e non ne disponiamo di una misurazione affidabile oppure perch`e non sappiamo di doverlo inserire. Quindi, invece di stimare il modello “vero”, stimo il seguente MRL: y = X1 β1 + u βˆ1 s =

(X01 X1 )−1 X01 y

(4.62) (4.63)

132

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Il vettore dei parametri β1 e` stimato sulla base del modello “scorretto”. Il valore atteso di βˆ1 s e` quindi: E(βˆ1 s ) = (X01 X1 )−1 X01 (X1 β1 + X2 β2 + ε) = β1 + (X01 X1 )−1 X01 X2 β2 ⇒

E(βˆ1 s ) − β1 = distorsione = (X01 X1 )−1 X01 X2 β2 Si noti che il termine (X01 X1 )−1 X01 X2 d`a la stima dei coefficienti della regressione OLS di X2 su X1 . Si noti che: βb1s − β1s = (X01 X1 )−1 X01 ε

(4.64)

e quindi la matrice di varianze e covarianze di βb1s e` : h i V (βˆ1 s ) = E (βˆ1 s − E(βˆ1 s ))(βˆ1 s − E(βˆ1 s ))0 = σ 2 (X01 X1 )−1

(4.65)

Quindi, gli effetti dell’esclusione di X2 sono che in questo modo: • si ottiene una stima distorta (a meno che sia X01 X2 = 0, cio`e che X01 e X2 siano ortogonali) • la varianza teorica di βˆ1 s e` sicuramente minore di quella associata alla stima del modello completo. Ma cosa si pu`o dire della stima della varianza di βˆ1 s ? Per capire meglio si consideri il caso in cui il MRL ”vero” abbia due variabili esogene oltre al termine di intercetta: yt = β1 + β2 x2 t + β3 x3 t + εt ed invece venga stimato un modello “scorretto”: yt = β1 + β2 x2 t + ut Notiamo immediatamente che: σ2 (varianza teorica), S22 T X = (x2 t − x ¯2 )2

V ar(βˆ2 s ) = S22

t=1

mentre la varianza teorica della stima di β2 sulla base del modello “vero” e` :

4.11. EFFETTI DELL’OMISSIONE DI VARIABILI RILEVANTI

V ar(βˆ2 ) =

2 r23 =

133

σ2 2 )S , (1 − r23 22 T 1 P (x2t − x2 )(x3t − x3 ) T cov(x c 2 , x3 ) t=1  T  T = v d ar(x v ar(x3 ) P P 2 )d 1 (x2t − x2 )2 T1 (x3t − x3 )2 T t=1

t=1

quindi, se r12 2 > 0 (cio`e se x1 e x2 non sono ortogonali), allora avremo: V (βˆ1 ) > V (βˆ1 s ) Quanto detto vale per le varianze teoriche. Ora consideriamo le controparti stimate:

vd ar(βˆ2 ) = vd ar(βˆ2 s ) =

σ ˆ2 2 ) S22 (1 − r23 σ ˆs2 S22

Prendiamo il rapporto di tali varianze:  σ ˆ2 vd ar(βˆ2 ) 2 = s2 · 1 − r23 σ ˆ vd ar(βˆ2 s ) quindi se σ ˆs2 e` molto superiore a σ ˆ 2 , cio`e se il contributo di x2 alla spiegazione di y, una volta che sia gi`a inserito x1 , e` molto rilevante, pi`u di quanto non sia l’entit`a della correlazione di x1 e x2 , allora la stima del modello completo ha varianza stimata minore. Ad esempio, se consideriamo un’equazione di domanda di beni alimentari: yt = β1 + β2 x2 t + β3 x3t + εt , t = 1, . . . , T dove: y = quantit`a domandata x2 = prezzo del bene x3 = reddito (dati riportati sul libro di Maddala) Stimiamo un modello dove viene omesso il reddito e stimiamo il modello ”scorretto”: ybt = 89.97 + 0.107 x2t , (11.85)

σ ˆ = 2.338

(0.118)

134

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Notate che βˆ2 s ha il segno sbagliato (positivo); ricordiamo infatti che abbiamo indicato l’entit`a della distorsione teorica come: h i ∗ −1 ∗ 0 ∗ E(βˆ2 s ) − β2 = (x∗0 x ) x x (4.66) 2 2 2 3 β3 = =

cov(x c 2 , x3 ) β3 vd ar(x2 )

(4.67)

Dall’esame della espressione precedente, possiamo concludere che, dato che β3 , ∗ −1 ∗0 ∗ coefficiente del reddito e` ragionevolmente positivo, e dato che il termine (x∗0 2 x2 ) x2 x3 ha lo stesso segno della correlazione tra prezzi e reddito (x2 e x3 ), presumibilmente positiva, la distorsione della stima di β2 e` ragionevolmente positiva. Tutte queste supposizioni sono confermate dall’esame del modello completo stimato: ybt = 92.05 − 0.142 x2t + 0.236 x3t , (5.84)

(0.067)

(0.031)

σ ˆ = 1.952 Notate che l’errore standard di βˆ1 e` diminuito: il contributo di x3t alla spiegazione di yt e` superiore all’entit`a della correlazione di x2t e x3t .

4.12

Effetti dell’inclusione di variabili irrilevanti

Supponiamo che il modello “vero” sia: y = X1

β1 (T ×k1 )(k1 ×1)



e che si stimi invece il modello: y = X1

β1 (T ×k1 )(k1 ×1)

+ X2

β2 (T ×k2 )(k2 ×1)

+u

In altri termini, siamo in una situazione in cui il vettore di parametri veri e` : β=

β1 0

La stima del modello “scorretto” e` :   βˆ1 s ˆ βs = ˆ = (X0 X)−1 X0 y β2 s che e` non distorta. Questo significa che il valore atteso di βˆs e` :     h i βˆ1 s β1 ˆ =β= E βs = E ˆ 0 β2 s

4.12. EFFETTI DELL’INCLUSIONE DI VARIABILI IRRILEVANTI

135

La matrice di varianze e covarianze della stima del modello “scorretto e` :   Q11 Q1 2 2 0 −1 2 2 ˆ V (βs ) = σ (X X) = σ Q = σ Q2 1 Q2 2 e quindi: V (βˆs ) = σ 2 Q11 mentre la matrice di varianze e covarianze di βˆ1 (stima di β1 sulla base del modello “vero”): V (βˆ1 ) = σ 2 (X01 X1 )−1 E` possibile dimostrare che la matrice di varianze e covarianze di βˆ1 s differisce da quella di βˆ1 per una matrice definita positiva. Quindi la stima del modello scorretto e` inefficiente. Ad esempio, se il modello vero e` : yt = β1 + β2 x2t + εt e viene invece stimato: yt = β1 + β2 x2t + β3 x3t + ut Possiamo confrontare le varianze:

V ar(βˆ2s ) = V ar(βˆ2 ) =

σ2 2 )S (1 − r23 22 2 σ S22

quindi: 2 V ar(βˆ2s ) > V ar(βˆ2 ) se r23 >0

Anche per le controparti stimate generalmente vale: Vd ar(βˆ2s ) > Vd ar(βˆ2 ), σ b2 Vd ar(βˆ2 ) = , S22 σ bs2 Vd ar(βˆ2s ) = 2 )S (1 − r23 22 anche se e` vero che σ bs2 < σ b2 (c’`e una variabile esplicativa in pi`u nel modello scorretto) ma il contributo di x3t alla spiegazione di yt e` ragionevolmente molto basso. Notate che: E(b σs2 ) = σ 2

136

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Quindi se il modello e` sovraparametrizzato, la stima di σ rimane non distorta, anche se meno efficiente (PROVA: fatelo come esercizio). Come succede alla stima dei parametri rilevanti quando dalla regressione si esclude un parametro irrilevante? La risposta e` che in grandi campioni la stima non cambia affatto, dato che comunque le stime sono non distorte e consistenti. Per MRL stimati in base a campioni di ampiezza finita esiste il risultato provato da Leamer (1975): si supponga di essere interessati a βj e che il regressore xi sia irrilevante. Indichiamo con βˆj la stima di βj sulla base del modello in cui appare anche xi . Leamer prova che, escludendo dalla regressione xj dalla regressione, si ottiene una una stima che e` vincolata a stare nell’intervallo βˆj ± ti sj , dove: sj = errore standard di βˆj ti = test t di βi = 0

4.13

Gradi di libert`a e indice R2

In un MRL, quando viene incrementato il numero dei regressori inclusi, a prescindere dalla effettiva capacit`a eplicative dei regressori aggiunti su y, si ottiene un incremento nell’indice R2 : σ ˆ2 =

RSS T SS = (1 − R2 ) T −k T −k

¯ 2 (R2 ”adjusted”): Si definisce allora un indice che chiamiamo R RSS/(T − k) R =1− = 1 − (1 − Rc2 ) T SS/(T − 1) ¯2



T −1 T −k



che “penalizza” l’inserimento di regressori. Si noti che:   ¯ 2 · T SS = 1 − Rc2 · T SS = σ 1−R ˆ2 T −1 T −k ¯ 2 (o di R2 ) diminuisce σ al crescere di R ˆ2. ¯ 2 > 1, cio`e R ¯ 2 < 0. Questo si E` possibile che si verifichi il caso in cui 1 − R ha quando:

(1 − Rc2 ) > Rc2 <

T −k ,⇒ T −1 k T −1

¯2 < 0 Ad esempio, con T = 21 e k = 2, se R2 < 0.1 si avr`a R

4.13. GRADI DI LIBERTA` E INDICE R2

4.13.1

137

¯2 Relazione tra test di significativit`a t, test F e indice R

Se una variabile esplicativa xi , con coefficiente stimato pari a βˆi e con test t > 1, ¯ 2 . (Ovviamente, sarebbe bello viene esclusa dalla regressione, allora diminuisce R ¯ 2 diminuisse con l’esclusione di variabili con coefficiente significativo, cio`e se R con t > 2 !). Pi`u in generale, se x1t , . . . , xrt sono r grandezze il cui test F di esclusione congiunta (H0 : β1 = β2 = · · · = βr = 0) e` > 1, allora l’esclusione di ¯2. tali grandezze comporta una diminuzione dell’indice R Dimostrazione: 2 σ ˆR =

RRSS → stima varianza nel modello ristretto T −k+r

U RSS → stima varianza nel modello non ristretto T −k   2 − (T − k)ˆ (T − k + r) σ ˆR σU2 R /r (RRSS − U RSS)/r F = = U RSS/(T − k) (T − k)ˆ σU2 R /(T − k) (RSSR − RSSU R )/r Risolvi per F = : RSSU R /(T − k) σ ˆU2 R =

definisci

F

=

  2 − (T − k)ˆ (T − k + r) σ ˆR σU2 R /r , σ ˆU2 R

F

=

2 ˆR (T − k) (T − k + r) σ − 2 r r σ ˆU R

T −k =a r

quindi: T −k T −k+r +1= =a+1 r r Sostituendo nell’espressione per F : F = (a + 1)

2 σ ˆR −a σ ˆU2 R

e quindi: 2 σ ˆR 2 σ ˆU R

=

a =

a+F , a+1 T −k r

quindi se F e` maggiore di 1, escludendo x1 , . . . , xr si ottiene un aumento della ¯ 2 , dato varianza stimata del modello ristretto, vale a dire una diminuzione di R che:

138

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

σ ˆ

2

¯2 1−R





T SS T −1



¯2) (relazione inversa tra σ ˆ 2 eR

(4.68)

e viceversa se F < 1.

4.14

Test di stabilit`a del MRL

Sono test di costanza dei parametri. Abbiamo due tipi diversi di test: test basati sull’analisi della varianza e test previsivi.

4.14.1

Test basati sull’analisi della varianza

Supponiamo di poter distinguere all’interno del campione due sottoinsiemi di osservazioni (T = T1 + T2 ) in relazione ai quali abbiamo: (1)

(1)

(1)

yt = β1 x1t + β2 x2t + · · · + βk xkt + εt , t = 1, 2, . . . , T1 (2)

(2)

(2)

yt = β1 x1t + β2 x2t + · · · + βk xkt + εt , t = T1 + 1, . . . , T1 + T2 Possiamo costruire un test di stabilit`a dei parametri: n (1) (2) H0 : βi = βi i = 1, 2, . . . , k Sotto H0 tutti i parametri sono uguali per tutte le osservazioni periodo campionarie (ampiezza campionaria completa e` T1 + T2 ) Ora, stimiamo il MRL separatamente nei due sotto-campioni ottenendo: • RSS1 = somma quadrati residui equazione stimata con t = 1 . . . T1 . • RSS2 = somma quadrati residui equazione stimata con t = T1 +1 . . . T1 +2. Ricordiamo che: RSS1 /σ 2 ∼ χ2T1 −k , RSS2 /σ 2 ∼ χ2T2 −k Sotto H0 i parametri sono costanti su tutto il campione. Quindi e` possibile stimare il MRL sotto H0 : yt = β1 x1t + · · · + βk xkt + εt , t = 1, 2, . . . , T1 , T1 + 1, . . . , T1 + T2 ottenendo la somma dei quadrati dei residui: RRSS = εˆ0 εˆ

4.14. TEST DI STABILITA` DEL MRL

139

da intendere come somma dei quadrati dei residui del modello vincolato (stiamo stimando il MRL sotto i vincoli che caratterizzano H0 ). Ricordiamo anche che: RRSS ∼ χ2T1 +T2 −k σ2 La somma dei quadrati dei residui del modello non vincolato e` U RSS = RSS1 + RSS2 , U RSS ∼ χ2T1 +T2 −2k Quindi e` possibile costruire il test di Wald in forma F come fW =

(RRSS − U RSS)/k U RSS/(T1 + T2 − 2k)

dove: k = numero vincoli imposti per ottenere il modello ristretto T1 + T2 − 2k = T − 2k = gradi di libert`a del modello U R Questo test e` basato sull’analisi della varianza ed e` chiamato test di Chow del primo tipo.

4.14.2 Test previsivo di stabilit`a Quando T2 < k non e` possibile stimare separatamente il MRL nel secondo sottocampione. Allora si utilizza la seguente idea per costruire un test alternativo di stabilit`a basato sulla capacit`a previsiva del modello: se il modello e` stabile, e` possibile stimarlo utilizzando solo le osservazioni che appartengono al primo sottocampione (t = 1, . . . T1 ). Sulla base di questa stima, possiamo utilizzare il modello in ”previsione” per il sotto-campione dato dalle osservazioni T1 + 1, . . . , T1 + T2 e ottenere errori non sistematici, vale a dire con valore atteso nullo. Specifichiamo quindi un’ipotesi nulla in base alla quale gli errori di previsione relativi al secondo sottocampione hanno tutti valore atteso nullo: H0 : E(b εT1 +1|T1 ) = E(b εT1 +2|T1 ) = . . . = E(b εT1 +T2 |T1 ) = 0, contro H1 : E(b εT1 +1|T1 ) 6= 0, e/o E(b εT1 +2|T1 ) 6= 0, e/o E(b εT1 +T2 |T1 ) 6= 0 Il test di questa ipotesi e` costruito definendo: RSS = somma dei quadrati dei residui ottenuti stimando il modello con tutte le osservazioni (t = 1, 2, . . . , T1 + T2 ). RSS1 = somma dei quadrati dei residui ottenuti stimando il modello con le osservazioni appartenenti al primo sotto-campione (t = 1, 2, . . . , T1 ). Queste due somme dei quadrati possono essere utilizzate per costruire un test di Wald in forma F :

140

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

fW =

(RSS − RSS1 )/T2 ∼ FT ,T −k RSS1 /(T1 − k) H0 2 1

(4.69)

Per giustificare la costruzione di questo test occorre fare riferimento all’uso e al significato delle delle variabili di comodo (variabili dummy) nei modelli econometrici (vedi capitolo 5). Il test descritto dalla (4.69) e` detto test di Chow del secondo tipo.

4.14.3

Alcuni commenti ai test di stabilit`a strutturale

Per quanto riguarda il test di Chow del primo tipo, tale test e` basato sull’assunzione implicita che la varianza dei termini di disturbo sia uguale nei due sottocampioni, mentre invece e` possibile che anche tale parametro sia diverso nei due sotto-campioni: E(ε2t ) = σ12 , t = 1, 2, . . . , T1 , E(ε2t ) = σ22 , t = T1 + 1, T1 + 2, . . . , T1 + T2 Occorre quindi verificare l’ipotesi: H0 : σ12 = σ22 H1 : σ12 6= σ22 Ricordando che: RSS1 /σ12 ∼ χ2T1 −k RSS2 /σ22 ∼ χ2T2 −k posso costruire un test per verificare H0 basato sul rapporto delle due grandezze sopra indicate:   " (RSS1 ) # (RSS1 /σ12 ) T1 −k f =  T1 −k 2  = (RSS 2) (RSS2 /σ2 ) T2 −k

 =

H0

T2 −k

 2

σ ˆ1 σ ˆ22

∼ FT1 −k, T2 −k

(H0 )

(4.70)

quindi, utilizzando la tavola della distribuzione FT1 −k, T2 −k , si determinano i quantili a e b in modo tale che: p {a ≤ F ≤ b} = 1 − α scegliendo α = probabilit`a errore di prima specie. Quindi si calcola il test f definito dalla (4.70) e si verifica se cade all’interno o all’esterno dell’intervallo [a, b].

4.15. ESERCIZIARIO SULLA REGRESSIONE LINEARE

141

Nel primo caso si accetta H0 , nel secondo si rifiuta H0 ( test a 2 code) 2) A proposito del test di Chow del secondo tipo, se i parametri sono costanti , il valore atteso degli errori di previsione e` zero; ma se i parametri non sono costanti, potrebbe comunque darsi che gli errori di precisione abbiano valore atteso nullo Quindi questo test e` pi`u che altro un test di non distorsione delle previsioni.

4.15 Eserciziario sulla regressione lineare 4.15.1

Esercizio 1

Data la seguente funzione di produzione stimata in logaritmi:

log yt = 1, 37+ 0, 632 log kt + 0, 452 log Lt , (0,257)

T

(0,219)

= 40,

Rc2 = 0.98 σ b2 = 0.01, b βb2 , βb3 ) = −0.044 Cov( si provino le seguenti ipotesi: a) Ci sono rendimenti costanti di scala b) β2 =β3 ¯ 2 e gli intervalli di confidenza per βˆ2 e βˆ3 , sia quelli individuali Si calcolino R che quello congiunto.

4.15.2

Esercizio 2

Sia data la seguente regressione stimata:

yˆt = T

2.20 + 0.104 x2t + 3.48 x3t + 0.34 x4t , (3.4)

(0.005)

(2.2)

(0.15)

= 80,

ESS = 112.5 RSS = 19.5 a) quali regressori sono singolarmente significativi al 5%? ¯2 b) calcolare R2 e R

142

4.15.3

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Esercizio 3

Siano dati due campioni con le seguenti informazioni: Campione 1 20 20 25 80 120 200

Ti xi2 yi i S22 S2y Syy n.b.

:

xi2 = yi = i S22

Campione 2 25 23 28 , 100 150 250

1 Ti 1 Ti

X X

yt , i = 1, 2

campione i

X

=

x2t , i = 1, 2

campione i

(x2t − x2 )2 , i = 1, 2

campione i

X

i S2y =

(x2t − x2 )(yt − y), i = 1, 2

campione i

X

i Syy =

(yt − y)2 , i = 1, 2

campione i

a) stimare una regressione lineare di y su di una costante (termine di intercetta) e x2 per ogni campione separatamente e per il campione esteso che combina tutte le osservazioni. b) Quali sono le ipotesi sotto le quali la regressione combinata (con 45 osservazioni) e` valida? c) Spiegare in quale modo sia possibile verificare l’ipotesi di validit`a di tali assunzioni.

4.15.4

Esercizio 4

Sia data la seguente regressione stimata: yˆt = T

2.0 + 3.5 x2t − 0.7 x3t + 2.0 x4t ,

(0.62)

(1.842)

(0.318)

2

= 26, R = 0.982

Stimando il modello sotto la restrizione: β2 = β3 si e` ottenuto:

(1.333)

143

4.16. SOLUZIONI AGLI ESERCIZI

yˆt =

1.5 + 3.0 (x2t + x3t )− 0.6 x4t ,

(0.54)

(1.111)

(0.250)

R2 = 0.876 a) verificare la validit`a del vincolo β2 = β3 in tutti i modi possibili. ¯2? b) se ometto la variabile x3t dalla regressione di partenza, cosa succede a R E perch`e?

4.15.5

Esercizio 5

Per il MRL: yt = β1 x1t + β2 x2t + β3 x3t + εt abbiamo indicazioni di teoria economica che affermano che: β1 + β2 = α, β1 + β3 = −α dove α e` un parametro sconosciuto. Trovare lo stimatore BLUE di α e la sua varianza, stabilendo accuratamente le ipotesi che occorre utilizzare.

4.15.6

Esercizio 6

Ricavare la matrice di varianza e covarianza dello stimatore ottenuto utilizzando minimi quadrati vincolati e confrontarla con quella della stima OLS non vincolata. Come e` possibile confrontarle? (NB: stiamo parlando di matrici teoriche!)

4.16

Soluzioni agli esercizi

4.16.1

Esercizio 1

a) Ipotesi di rendimenti costanti di scala: H0 : β2 + β3 = 1 contro H1 : β2 + β3 6= 1 Ricordiamo che: βˆ2 + βˆ3 − 1 ∼ N (0, V ar(βˆ2 + βˆ3 − 1)) Ho

144

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Quindi costruisco il rapporto: βˆ2 + βˆ3 − 1 0, 632 + 0, 452 − 1 h i1 = h i1 = 2 2 ˆ ˆ ˆ ˆ ˆ ˆ V ar (β2 + β3 − 1) V ar (β2 ) + V ar(β3 ) + 2Cov (β2 , β3 ) 0, 084 0, 084 = = = 3, 230 2 2 [(0, 257) + (0, 219) + 2(−0, 044)] 0, 026 valore critico t37 ∼ = 2, 021 al 95% (test a 2 code) (disponibile t40 ): rifiuto H0 ! b) H0 : β2 − β3 = 0 βˆ2 − βˆ3 0, 632 − 0, 452 h i1 = h i1 = 2 2 ˆ ˆ ˆ ˆ ˆ ˆ V ar (β2 − β3 ) V ar (β2 ) + V ar(β3 ) − 2Cov(β2 , β3 ) −0, 82 = = −4, 059 → rifiuto H0 (valore critico ∼ = 2.021) 0, 202 2 −1 R = 1 − (1 − R2 ) TT −k = 1 − 0.02 39 37 = 0.9789 Intervallo di confidenza per β2 al 95%: βˆ2 ± se (βˆ2 ) · t α2

⇒ 0, 632 ± (0, 257)(2, 021) ⇒ ⇒ [0, 112 ; 1, 151]

Intervallo di confidenza per β3 al 95% βˆ3 ± se (βˆ3 ) · t α2

⇒ 0, 452 ± (0, 219)(2, 021) ⇒ ⇒ [0, 009 ; 0, 894]

Intervallo congiunto: tutti i valori di β2 e β3 tali per cui: h i Skk (β2 − βˆ2 )2 + 2Skl (β2 − βˆ2 )(β3 − βˆ3 ) + Sll (β3 − βˆ3 )2 < f2, 37 f2, 37 = quartile al 95% della distribuzione F2, 37 ∼ = 3, 23 F (2, 40 ) e: P ¯ 2 kt = log Kt Skk = Tt=1 (kt − k) PT ¯ t − ¯l) lt = log Lt Skl = t=1 (kt − k)(l PT Sll = t=1 (lt − ¯l)2 b ∗ = X∗ βˆ∗ quindi nel modello y (T ×2)(2×1)   ˆ β βˆ∗ = ˆ2 β  3  .. .. . .   ¯ ¯l  k − k l − X∗ =  t  t  .. .. . .  −1   ∗ Skk Skl (0, 257)2 (−0, 044) 2 ∗0 ∗ −1 2 ˆ V(β ) = σ ˆ (X X ) = σ ˆ = Skl Sll (−0, 044) (0, 219)2

4.16. SOLUZIONI AGLI ESERCIZI

145

Ma si conosce anche σ ˆ 2 = 0, 01, e quindi si possono ricavare Skk , SkL e SLL come:    −1 1 Skk SkL (0, 257)2 (−0, 044) = 2 SkL SLL (−0, 044) (0, 219)2 σ ˆ da utilizzare nella costruzione dell’intervallo di confidenza ?congiunto per β2 e β3 .

4.16.2

Esercizio 2

a) sono quelli i cui test t sono maggiori del valore critico del test a 2 code: 

H0 : βi H1 : βi 6= 0

sulla base di una distribuzione t di Student con 76 gradi di libert`a. Il valore critico e` approssimativamente 2,00 (vedi sulla tavola della t di Student il valore pi`u vicino e` 60). Quindi: βb1 2, 20 = = 0, 647 → non significativo t β1 = b 3, 4 se (β1 ) βˆ2 0, 104 t β2 = = = 20, 8 → significativo ˆ 0, 005 se (β2 ) βˆ3 3, 48 tβ3 = = = 1, 58 → non significativo 2, 2 se (βˆ3 ) 0, 34 βˆ4 = t β4 = = 2, 26 → significativo 0, 15 se (βˆ4 ) b) ESS 112, 5 R2 = = = 0, 82 T SS 19, 5 + 112, 5 ¯ 2 = 1 − (1 − R2 ) T − 1 = 1 − (0, 148) 79 = 0, 846 R T −k 76

4.16.3

Esercizio 3

Stima del modello nel primo sotto-periodo: yt = β1 + β2 x2t + εt , t = 1, 2, . . . , 20

βˆ21 =

1 S2y 1 S22 1

=

120 = 1, 5, 80

βb11 = y¯ − βˆ21 x12 = 25 − (1, 5)(20) = −5 Stima del modello nel secondo sotto-periodo:

146

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

βb22 =

2 S2y 2 S22 2

=

150 = 1.5 100

βb12 = y¯ − βˆ22 x22 = 28 − 23(1.5) = −6.5 Stima del campione esteso (con 45 osservazioni): 20 X t=1 45 X

1 x22t = S22 + 20 x ¯12

2

= 80 + 20(20)2 = 8080,

2 x22t = S22 + 20 x ¯22

2

= 100 + 25(23)2 = 13325,

t=21

 ∗ S22

=

20 X t=1

x22t

+

45 X t=21



x2t

20 P

  − 45  t=1 

20¯ x1 + 25¯ x2 = 21405 − 45 45 = 21405 − 21125 = 280 20 P t=1 45 P

x2i

45 P

+

t=21

45

2 x2i 

  = 

2 =

1 +T x 1 ¯1 = 120 + 20 · 20 · 25 = 10120 x2t yt = S2y 1 ¯2 y

2 +T x 2 ¯2 = 150 + 25 · 23 · 28 = 16250 x2t yt = S2y 2 ¯2 y t=21    20 45 P P 20¯ x1 + 25¯ x2 20¯ y 1 + 25¯ y2 ∗ S2y = x2t yt + x2t yt − 45 = 45 45 t=1 t=21 = 26370 − 45 · [(21, 667) (26, 667)] = 369, 275 20 P 1 + T (¯ 1 2 2 yt2 = Syy 1 y ) = 200 + 20(25) = 12700

t=1 45 P

yt2 = Sy2 + T1 (¯ y 2 )2 = 250 + 25(28)2 = 19850 t=21  2 20 45 P P T1 y¯1 + T2 y¯2 ∗ 2 2 Syy = yt + yt − 45 = 45 t=1 t=21   20 · 25 + 25 · 28 2 = 12700 + 19850 − 45 = 45 = 32550 − 32000 = 550 Quindi per tutto il campione ho: T = 45 x∗2 = 21, 667 y¯∗ = 26, 667 ∗ = 280 S22 ∗ = 369, 275 S2y

4.16. SOLUZIONI AGLI ESERCIZI

147

∗ = 550 Syy da cui si∗ottiene la stima: S2y βˆ2∗ = ∗ = 1, 319 S22 ∗ ˆ β1 = y¯∗ − βˆ2∗ x∗2 = 26, 667 − 1, 319 · 21, 667 = −1, 912 b) valere le seguenti ipotesi:  Devono 1 2  β1 = β1 β 1 = β22  22 σ1 = σ22 c) Si verificano queste ipotesi costruendo un test, ad esempio il test fW :

fW =

(RRSS − U RSS)/k U RSS/(T − 2k)

dove: RRSS = somma quadrati residui modello stimato con 45 osservazioni ∗ −β ˆ∗ S ∗ = 550 − 369, 275 · 1, 319 = 62, 926 =Syy 2y T SS

ESS

U RSS = RSS1 + RSS2 = 1 −β ˆ1 S 1 + S 2 − βˆ2 S 2 = = Syy yy 1 2y 1 2y = 200 − (1, 5)(120) + 250 − (1, 5)(150) = 45 (62, 926 − 45)/2 8, 963 fW = = = 8, 166 45/(45 − 4) 1, 097 Il valore critico della F2, 41 al 5% ∼ = 3, 23 (F2 40 e` disponibile sulle tavole) → rifiuto H0 ! L’altra ipotesi H0 : σ12 = σ22 si verifica costruendo il test in forma F : RSS1 /(T1 − k) σ ˆ12 = ∼ FT −k, T2 −k 2 RSS2 /(T2 − k) (H0 ) 1 σ ˆ2 20/18 σ ˆ12 = = 1, 022 25/23 σ ˆ22 Il valore critico e` : F18, 23 ∼ = 2, 05 (disponibile per F20, 23 ) 2 2 accetta H0 : σ1 = σ2 contro σ12 > σ22 Ma la prima ipotesi (β11 = β12 , β21 = β22 ) e` stata rifiutata, per cui non e` legittimo combinare tutte le 45 osservazioni.

4.16.4

Esercizio 4

a) H0 : β2 = β3 H1 : β2 6= β3 Il test di Wald in forma F e` : (RSS − U RSS)/q fW = = U RSS/(T − k) Ora, moltiplico numeratore e denominatore per T SS: =

RSS ( RSS−U )/q T SS U RSS T SS /(T

− k)

=

2 )−(1−R2 ) (1−RR U q 2 1−RU T −k

148

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

dove: 2 = R2 modello non ristretto RU 2 = R2 modello ristretto RR Quindi: 0, 106/1 = 129, 555 fW = 0, 018/(26 − 4) Il valore critico della distribuzione di riferimento e` : F1, 22 = 4, 30 al 5%. Quindi il test suggerisce il rifiuto di H0 . Calcoliamo ora il test di Wald in forma χ2 : T · [RRSS − U RSS] φW = = U RSS   2 2 T · 1 − RR − (1 − RU ) = = 2) (1 − RU 0.106 = 26 · = 153. 111 0.018 Il valore critico della distribuzione χ21 = 3.84 al 5%. Quindi anche questo test conduce al rifiuto di H0 . Si noti che e` possibile costruire anche il test t come: βˆ2 − βˆ3

h

∼ t2 2 i 1 (H 0) 2 ˆ ˆ ˆ ˆ b b d V (β2 ) + V (β3 ) − 2Cov(β2 β3 )

che e` la radice quadrata del test fW calcolato in precedenza. Ora calcoliamo il test LR :   RRSS φLR = T log = U RSS  2  1 − RR 0.124 = 26 log = 26 · log( )= 2 0.018 1 − RU = 50. 178 mentre il valore critico (χ21 ) e` 3.84.Quindi anche questo test porta al rifiuto di H0 . Ora calcoliamo il test LM φLM

RSS − U RSS =  RSS  2 − R2 ) T · (RU R = = 2) (1 − RR   0.106 = 26 = 22.226 0.124 = T

Quindi anche utilizzando questo test, si conclude che occorre rifiutare H0 (il valore critico della distribuzione rilevante sotto H0 (χ21 ) e` 3.84) Si noti che in relazione alla prova delle ipotesi svolta in questo esercizio abbiamo riscontrato:

4.16. SOLUZIONI AGLI ESERCIZI

φW

149

≥ φLR ≥ φLM

(153.11 > 50.178 > 22.226) come abbiamo visto nella parte teorica. b) Se ometto x2t dalla regressione, dato che il test t di significativit`a di tale pa0.7 ¯ 2 e` destinato rametro e` − = −2.201, che in valore assoluto e` > 1, l’indice R 0.318 a scendere.

4.16.5

Esercizio 5

Basta esprimere il modello nei termini del parametro incognito α, sostituendo: β2 = α − β1 , β3 = −α − β1 quindi sotto H0 : yt = β1 x1t + (α − β1 )x2t + (−α − β1 )x3t + ut ⇒ yt = β1 (x1t − x2t − x3t ) + α(x2t − x3t ) + ut Definiamo: z1t = x1t − x2t − x3t z2t = x2t − x3t e stimiamo il MRL: yt = β1 x1t + αz2t + ut La stima OLS di α ˆ sulla base di questo modello e` BLUE se, oltre a valere l’ipotesi nulla  β2 = α − β1 H0 : β3 = −α − β1 si ha che tutte le condizioni usuali sui termini di disturbo e sui regressori sono rispettate: E(ut ) = 0, ∀t E(ut uτ ) = 0, ∀t 6=τ E(u2t ) = σ 2 , ∀t ρ(Z) = 2 E( Z0 u) = 0

150

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

4.16.6

Esercizio 6

Calcoliamo la stima corrispondente all’applicazione dei MQ vincolati: n io  −1 h βˆR = (X0 X)−1 X0 y − R0 R(X0 X)−1 R0 RβˆU R − d = i  −1 h = βˆU R − (X0 X)−1 R0 R(X0 X)−1 R0 RβˆU R − d = Per comodit`a chiamiamo:  −1 (X0 X)−1 R0 R(X0 X)−1 R0 = H (k×q)

quindi: h i βˆR = βˆU R − H RβˆU R − d E(βˆR ) = β − H(Rβ − d) quindi βˆR e` non distorto solo quando vale H0 (quando R0 β = d). Ora calcoliamo la distorsione di βˆR : h i βˆR − E(βˆR ) = βˆU R − H RβˆU R − d − β − H(Rβ − d) = = (βˆU R − β) − HR(βˆU R − β) = = (Ik − HR)(βˆU R − β) = (Ik − HR)(X0 X)−1 X0 ε Usando questa espressione possiamo calcolare la matrice di varianze e covarianze di βˆR : V ar(βˆR ) = E[(βˆR − E(βˆR ))(βˆR − E(βˆR ))0 ] = = E[(Ik − HR)(X0 X)−1 X0 εε0 X(X0 X)−1 (Ik − R0 H0 ) = = σ 2 [(Ik − HR)(X0 X)−1 (Ik − R0 H0 )] = = σ 2 [(X0 X)−1 − HR(X0 X)−1 − (X0 X)−1 R0 H0 + +HR(X0 X)−1 R0 H0 ] Ricordando la definizione di H : H = (X0 X)−1 R0 [R(X0 X)−1 R0 ]−1 otteniamo: V (βˆR ) = σ 2 {(X0 X)−1 − −(X0 X)−1 R0 [R(X0 X)−1 R0 ]−1 R(X0 X)−1 − −(X0 X)−1 R0 [R(X0 X)−1 R0 ]−1 R(X0 X)−1 + +(X0 X)−1 R0 [R(X0 X)−1 R0 ]−1 R(X0 X)−1 · ·R0 [R(X0 X)−1 R0 ]−1 R(X0 X)−1 } = σ 2 {(X0 X)−1 − −(X0 X)−1 R0 [R(X0 X)−1 R0 ]−1 R(X0 X)−1 }

4.16. SOLUZIONI AGLI ESERCIZI Ricordiamoci che la varianza di βˆU R e` : V (βˆU R ) = σ 2 (X0 X)−1 e quindi: V (βˆU R ) − V (βˆR ) = σ 2 (X0 X)−1 R0 [R(X0 X)−1 R0 ]−1 · ·R(X0 X)−1 ed e` facilmente dimostrabile che questa matrice e` definita positiva.

151

152

CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Capitolo 5

Variabili di comodo e variabili troncate 5.1 Variabili di comodo come variabili esplicative 5.1.1

Variabili di comodo a correzione di intercetta

Consideriamo per semplicit`a il MRL semplice, e supponiamo che esistano due sottocampioni in corrispondenza di ciascuno dei quali il termine di intercetta possa essere diverso: (1)

t = 1.....T1

(5.1)

(2)

t = T1 + 1........T1 + T2

(5.2)

yt = β1 + β2 x2t + εt yt = β1 + β2 x2t + εt

In termini esattamente equivalenti possiamo indicare il modello di cui sopra come: (1)

(2)

(1)

yt = β1 + (β1 − β1 )Dt + β2 x2t + εt , t = 1, 2, ..., T1 + T2

(5.3)

introducendo una variabile di comodo (o variabile dummy) che chiamiamo Dt : Dt = 0

∀t ∈ [1, T1 ]

Dt = 1

∀t ∈ [T1 + 1, T1 + T2 ]

Se esistono tre diversi ”regimi” (vale a dire tre diversi sottocampioni in relazione a ciascuno dei quali si immagina che il termine di intercetta possa essere diverso): (1)

yt = β1 + β2 x2t + εt ,t = 1.....T1 (2)

= β1 + β2 x2t + εt , t = T1 + 1........T1 + T2 (3)

= β1 + β2 x2t + εt , t = T1 + T2 + 1........T1 + T2 + T3 e` possibile dare rappresentazione equivalente a questo MRL definendo due distinte variabili di comodo: (1)

(2)

(1)

(3)

(1)

yt = β1 + (β1 − β1 )D1t + (β1 − β1 )D2t + εt 153

154

CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

con 

0 1

t ∈ [1, T1 ] o t ∈ [T1 + T2 + 1......T1 + T2 + T3 ] t ∈ [T1 + 1, T1 + T2 ]



0 1

t ∈ [1, T1 + T2 ] t ∈ [T1 + T2 + 1......T1 + T2 + T3 ]

D1t = D2t =

Una variabile di comodo (che indichiamo con VDC) e` quindi una particolare variabile che assume valori pari a 0 o a 1. Possiamo fare il seguente esempio: la Figura 5.1a riporta l’andamento di consumo e reddito (in logaritmi) aggregati per l’Italia nel periodo 1920-1996. Si nota che per gli anni relativi alla Seconda Guerra Mondiale (1940-45), la relazione che lega le due variabili sembra modificata. Infatti, se esaminiamo la Figura 5.1b, che riporta il diagramma a dispersione per tale coppia di variabili, notiamo un gruppo di osservazioni che ”sembrano” essere disomogenee rispetto alle altre. Tali osservazioni si riferiscono agli anni 1940-45. [Figura 5.1a qui nel testo] [Figura 5.1b qui nel testo] Sulla base di queste considerazioni, stimiamo il MRL: (1)

(2)

(1)

yt = β1 + (β1 − β1 )Dt + β2 x2t + εt  0 t = 1920.....1939, 1946.....1996 Dt = 1 t = 1940.....1945 in cui yt e` il logaritmo del consumo e modello, la matrice dei regressori e`  1  1   1   ...     X = 1 (T ×3)   ...   1     ... 1

(5.4)

x2t e` il logaritmo del reddito. Per questo

0 0 0 ...

x2,1920 x2,1921 x2,1922 ...

1 x2,1940 ... ... 1 x2,1945 ... ... 0 x2,1996

                  

dove gli anni dal 1940 al 1945 sono anni di guerra e la seconda colonna della matrice X e` una variabile dummy. Specificando un MRL come quello descritto dalla (5.4), introducendo una VDC del tipo appena descritto, si opera una correzione sul termine di intercetta, come la Figura 5.1c chiaramente illustra. [Figura 5.1c qui nel testo]

5.1. VARIABILI DI COMODO COME VARIABILI ESPLICATIVE

155

Notate che se effettivamente la relazione che si vuole modellare presenta delle discontinuit`a che richiedono una correzione del termine di intercetta e tale correzione non viene apportata, e` possibile ottenere risultati distorti e inconsistenti, anche per quello che riguarda i coefficienti di pendenza del MRL: si tratta infatti della conseguenza dell’omissione di una variabile rilevante (in questo caso la VDC necessaria ad apportare la correzione necessaria). Si veda a questo proposito la Figura 5.2 [Figura 5.2 qui nel testo]

5.1.2

Variabili dummy a correzione di intercetta per trattare dati con stagionalit`a

Molte variabili macroeconomiche presentano marcate dinamiche stagionali. Consideriamo, per esempio, una relazione di regressione lineare tra log consumo (y) e log reddito (x2 ), sulla base di dati trimestrali non destagionalizzati: yt = α1 + α2 D2t + α3 D3t + α4 D4t + β2 x2t + εt

(5.5)

dove si ha: D2t = variabile dummy pari a 1 solo nel 2◦ trimestre D3t = variabile dummy pari a 1 solo nel 3◦ trimestre D4t = variabile dummy pari a 1 solo nel 4◦ trimestre Si ha quindi la seguente matrice dei regressori:  1 0 0  1 1 0   1 0 1 X =  1 0 (T ×5)  1  ... ... ... 1 ... ...

0 0 0 1 ... ...

x21 x22 x23 x24 ... x2t

       

Notate che il MRL appena descritto pu`o essere scritto in termini esattamente equivalenti come: yt = γ1 D1t + γ2 D2t + γ3 D3t + γ4 D4t + β2 x2t + εt ma non e` possibile stimare il MRL: yt = δ0 + δ1 D1t + δ2 D2t + δ3 D3t + δ4 D4t + β2 x2t + εt perch`e la matrice dei regressori in questo caso e` :  1 1 0 0  1 0 1 0   1 0 0 1 X =  0 0 0 (T ×6)  1  ... ... ... ... ... ... ... ...

0 0 0 1 ... ...

x21 x22 x23 x24 ... ...

       

156

CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

che NON ha rango pieno! Infatti la 1◦ colonna e` la somma delle colonne 2,3,4 e 5. Nel caso in cui si abbia un MRL che utilizzi dati mensili non destagionalizzati, allora avremmo : yt = α1 + α2 D2t + ..... + α12 D12t + β2 x2t + εt dove: Dit e` una variabile dummy che e` pari a 1 nel mese i-esimo (i = 1, ....., 12).

5.1.3

Variabili dummy a correzione di intercetta per ”outliers”

Supponiamo che nel campione a disposizione, una osservazione sia chiaramente ”anomala” (ad esempio, si veda la Figura 5.3). [Figura 5.3 qui nel testo] L’osservazione anomala viene chiamata outlier (cio`e che giace fuori) e si tratta di un’osservazione connessa ad un evento particolare, non modellabile esplicitamente, che rende tale osservazione completamente disomogenea rispetto alle altre. Ad esempio, supponiamo che nella Figura 5.3 l’osservazione anomala sia quella relativa a t = T ∗ . Definiamo ora una VDC definita come segue:  1 per t = T ∗ Dt = 0 t 6= T ∗ e inseriamo questa VDC nel MRL: yt = β1 + β2 x2t + β3 Dt + εt

(5.6)

La matrice dei regressori diventa:      X=    

1 1 ... 1 1 1 1

0 0 ... 1 0 ... 0

x21 x22 ... x2T ∗ x2T ∗ +1 ... x2T

         ⇒ t = T∗ 

Stimando il MRL risultante: y = Xβ + ε   β1 β =  β2  β3 e` possibile mostrare (basta fare riferimento alle usuali propriet`a del modello di regressione partizionata che abbiamo visto nel Capitolo 4) che il coefficiente stimato relativo alla VDC e` pari alla distanza dell’outlier dalla retta di regressione stimata. Quindi, in corrispondenza dell’outlier, si ha εˆT ∗ = 0. Inoltre e` possibile dimostrare

5.1. VARIABILI DI COMODO COME VARIABILI ESPLICATIVE

157

che la stima del MRL risultante e` esattamente equivalente a quella del MRL senza introdurre tra i regressori la VDC e eliminando contestualmente dal campione l’osservazione anomala: yt = β1 + β2 x2t + εt , ∗

(5.7)



t = 1, 2, ...T − 1, T + 1, ..., T Per questo motivo, si pu`o concludere che βb3 coincide con l’errore di previsione di yT ∗ ottenuto utilizzando la stima del MRL (5.7) e la varianza di βb3 coincide con la la varianza di tale errore di previsione. In termini un p`o meno formali, l’uso della VDC, che viene chiamata anche variabile di comodo ad impulso (`e uguale a uno in corrispondenza di una sola osservazione), in questo casoequivale a ”fare fuori” l’outlier.

5.1.4

Variabili dummy a correzione di intercetta e di pendenza

Se riteniamo che il MRL sia: (1)

(1)

yt = β1 + β2 x2t + εt yt = T

(2) β1

+

(2) β2 x2t

+ εt

t = 1...T1 t = T1 + 1.....T1 + T2

= T1 + T2

(5.8)

cio`e se riteniamo che entrambi i coefficienti del primo ordine siano diversi nei due sottocampioni, possiamo scrivere in termini esattamente equivalenti: (1)

(2)

(1)

yt = β1 + (β1 − β1 )Dt + β2 x2t + (2)

(5.9)

(1)

+(β2 − β2 )(Dt · x2t ) + εt , t = 1, 2, ...T1 , T1 + 1, ...T1 + T2 dove:

 Dt =

0 1

∀t ∈ [1, T1 ] ∀t ∈ [T1 + 1, T1 + T2 ]

Quindi in questo MRL si operano congiuntamente una correzione di intercetta e una correzione della pendenza. Notate che a questo fine e` necessario definire una nuova variabile esplicativa la cui singola osservazione t-esima e` data dal prodotto tra Dt e x2t . La matrice dei regressori del MRL diventa quindi:   1 0 x21 0   1 0 x22 0     ... ... ... ...     1 0 x2T1 0  X =  1 x2T1 +1 x2T1 +1  (T ×4)  1    1 1 ... ...     ... ... ... ... 1 1 x2T1 +T2 x2T1 +T2

158

CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

5.1.5

Variabili dummy per provare l’ipotesi di stabilit`a dei coefficienti di regressione

Supponiamo di avere un MRL con k regressori per il quale riteniamo che si abbia: (1)

(1)

(1)

yt = β1 + β2 x2t + ... + βk xkt + εt yt =

(2) β1

+

(2) β2 x2t

+ ... +

(2) βk xkt

t = 1.....T1

+ εt

t = T1 + 1.....T1 + T2

cio`e si hanno e tutti i parametri del primo ordine del modello hanno una configurazione diversa in relazione a due distinti sottocampioni. Alternativamente, posso scrivere in modo compatto:     (1) (2) (1) (1) (2) (1) yt = β1 + β1 − β1 Dt + β2 x2t + β2 − β2 (Dt · x2t ) +   (1) (2) (1) +... + βk xkt + βk − βk (Dt · xkt ) + εt , t = 1, 2, ..., T1 + T2 con:

 Dt =

∀t ∈ [1, T1 ] ∀t ∈ [T1 + 1, T1 + T2 ]

0 1

Quindi procedo alla stima del seguente MRL: yt = δ1 + δ2 x2t + ... + δk xkt + δk+1 Dt + δk+2 D(x2 )t + +... + δ2k D(xk ) + εt ,

(5.11)

t = 1, 2, ..., T1 + T2 , dove: D(xj )t = Dt · xjt , j = 2, 3, ..., k, t = 1, 2, ..., T Ovviamente i parametri del modello (5.10) hanno il seguente significato: (1)

(1)

(1)

δ1 = β1 , δ2 = β2 , ..., δk = βk , (2)

(1)

(2)

(1)

(5.10)

(2)

(1)

δk+1 = β1 − β1 , δk+2 = β2 − β2 , ..., δ2k = βk − βk , Notate che e` possibile provare l’ipotesi: H0 : δk+1 = δk+2 = δ2k = 0 contro H1 : δk+1 6= 0, e/o δk+2 6= 0, e/o δ2k 6= 0

5.1. VARIABILI DI COMODO COME VARIABILI ESPLICATIVE

159

In altri termini, l’ipotesi nulla H0 significa che i parametri non cambiano ma si mantengono costanti per tutto il campione. Per verificare tale ipotesi e` possibile utilizzare qualunque tra i test visti nel capitolo 4; ad esempio il test fW e` costruito come: (RRSS − U RSS)/k (5.12) fW = U RSS/(T − 2k) dove URSS e` la somma dei quadrati dei residui del modello (5.10) stimato (modello non vincolato), mentre RRSS e` la somma dei quadrati dei residui dello stesso modello stimato sotto H0 . Notate che il test appena descritto e` molto simile al test di Chow del 1◦ tipo visto nel capitolo 4, con la differenza che la stima del modello non vincolato si basa sull’ipotesi che la varianza dei termini di disturbo sia la stessa nei due sottoperiodi.

5.1.6 Test di Chow del secondo tipo (o test di validit`a previsiva) Questo test si utilizza per verificare la stabilit`a strutturale del MRL. Il test si basa sul principio che il modello stimato con t = 1, ..., T1 , in assenza di modificazioni dei parametri, dovrebbe generare previsioni per t = T1 + 1, ..., T1 + T2 con errori associati che hanno valore atteso nullo. Se invece si ipotizza che tali errori di previsione abbiano valore atteso diverso da zero, occorre inserire in corrispondenza di ciascuna osservazione del 2◦ sottocampione una variabile dummy puntuale; il modello non vincolato diventa allora: yt = β1 + β2 x2t + ... + βk xkt + γ1 D1 t + γ2 D2t + +... + γT2 DT2 t + εt ,

(5.13) (5.14)

t = 1, 2, ..., T1 + T2 dove Dit e` una dummy che assume valore unitario solo in corrispondenza di t = i, (i = T1 + 1, ..., T1 + T2 ). Vengono quindi stimati T2 parametri aggiuntivi che hanno l’effetto di eliminare le ultime T2 osservazioni (ricordatevi l’effetto che ha l’inclusione di una VDC ad impulso: εˆt = 0, t = T1 + 1, T1 + 2, ..., T1 + T2 ) La somma dei quadrati dei residui del modello (5.13) stimato e` quindi: TX 1 +T2

T1 X εˆ2t = εˆ2t

t=1

(5.15)

t=1

e la stima del modello non vincolato equivale alla stima del modello: yt = β1 + β2 x2t + ... + βk xkt + εt ,

(5.16)

t = 1, 2, ...., T1 Notate che, con l’inserimento delle VDC puntuali, dalla stima del modello (5.13) e` possibile ottenere direttamente gli errori di previsione e le stime delle varianze

160

CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

degli errori di previsione, rispettivamente come: ebT1 +1|T1 = yT1 +1 − ybT1 +1|T1 = γ bk+1 ,  Vb ebT1 +1|T1 = Vb (b γk+1 ) E’ possibile definire l’ipotesi nulla: H0 : γ1 = γ2 = ... = γT2 = 0 contro H0 : γ1 6= 0 e/o γ2 6= 0 e/o ... 6= 0 e/o γT2 6= 0 Questo test, chiamato test di validit`a previsiva o test di Chow del secondo tipo, pu`o essere costruito confrontando RRSS e URSS, rispettivamente ottenuti come somma dei quadrati dei residui del modello (5.16) stimato sulla base dell’intero campione (t = 1, 2, ..., T1 + T2 ), e somma dei quadrati dei residui dello stesso modello stimato con i dati relativi al sottocampione (t = 1, 2, ..., T1 ), che a sua volta e` equivalente alla somma dei quadrati dei residui del modello (5.13) stimato.

5.2

Variabili dummy come variabili dipendenti

Vi sono importanti applicazioni econometriche dove e` necessario modellare fenomeni che si sostanziano in scelte dicotomiche (o comunque discrete): yt = 0, oppure yt = 1, t = 1, 2, ..., T Rilevanti esempi sono ad esempio, la partecipazione al mercato del lavoro, l’acquisto di una casa di propriet`a, la scelta di quotarsi in borsa ecc... Il modello econometrico di riferimento dovrebbe spiegare quali sono le circostanze che determinano, i valori osservati su yt : yt = f (1, x2t ...xkt , εt ),

(5.17)

t = 1, 2, ..., T Notate che il suffisso t indica la t-esima osservazione relativa al campione. In genere, in questi contesti applicativi le diverse osservazioni si riferiscono a diverse unit`a (individui, imprese, famiglie) osservate ad un dato istante temporale. Ad esempio, possiamo immaginare di avere un campione di T imprese, alcune delle quali sono quotate in borsa (yt = 1) ed altre no (yt = 0) e le variabili xit ...xkt costituiscono la misurazione dei fattori ritenuti rilevanti per determinare la scelta dell’impresa. Per stimare un modello del tipo (5.17) e` possibile utilizzare due possibili approcci alternativi:

161

5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI

1) Modello di probabilita’ lineare: nel modello di probabilita’ lineare (MPL):

yt =

k X

βi xit + εt = x0t β + εt , t = 1, 2, ..., T,

i=1

E(εt ) = 0, ∀t, la variabile dipendente yt viene fatta dipendere in modo lineare da un insieme di k variabili esplicative (2) Approccio basato sull’esistenza di una variabile latente yt∗ che non e` possibile osservare (o misurare) tale per cui:  yt =

se yt∗ > 0 se yt∗ ≤ 0

1 0

Questo approccio e` alla base dei modelli logit e probit. Ora vedremo questi due approcci separatamente.

5.2.1

Modello di probabilit`a lineare

Il MPL e` basato sulla regressione lineare: yt = x0t β + εt (1×k)

con: E(εt ) = 0, ∀t E(yt |xt ) = x0t β, ∀t Si noti che:  E(yt |xt ) = prob(yt = 1|xt ) perch`e yt pu`o assumere solo valori pari a

0 1

Quindi il MPLd`a una probabilit`a condizionata su xt in termini lineari. Notate che, 0 , εt pu`o assumere solo due valori: dato che yt = 1  εt =

−x0t β 1 − x0t β

(se yt = 0) (se yt = 1)

cio`e il termine di disturbo e` una variabile casuale discreta. Il MRL implica che: p(yt = 1|xt ) = x0t β p(yt = 0|xt ) = 1 − x0t β

162

CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

e quindi:  E(εt |xt ) = −x0t β · p(yt = 0|xt ) + 1 − x0t β · p(yt = 1|xt ) =   = −x0t β · 1 − x0t β + 1 − x0t β · x0t β = 0  2 · 1 − x0t β + 1 − x0t β · x0t β =  = x0t β · 1 − x0t β = E(yt ) · [1 − E(yt )] −x0t β

V (εt ) =

2

Quindi, la varianza di εt non e` costante per le diverse osservazioni: siamo in presenza di eteroschedasticit`a. Il prossimo paragrafo contiene alcune anticipazioni sulla stima di modelli con eteroschedasticit`a.

5.2.2

Alcune anticipazioni sulla stima di modelli con disturbi eteroschedastici

Immaginiamo di avere un MRL del tipo: y = Xβ + ε, E(ε) = [0] . 

ω11  0 E(ε0 ε) = Ω =   ... 0

0 ω22 ... ...

 0 ...  ,  0 ωT T

... ... ... 0

V (εt ) = σt2 = ωtt , t = 1, 2, .., T In questo caso il miglior stimatore e` quello dei ”Minimi Quadrati Ponderati” (WLS=weighted least squares), che si ottiene in questo modo: si definisce:  1/2  ω11 0 ... 0   1/2  0 ω22 ... ...  P=   ...  ... ... 0 1/2 0 ... 0 ωT T tale che: PP0 = P2 = Ω IT

P−1

= P−1 ΩP−1 = = P−1 ΩP−10 ,  −1/2 ω11 0  −1/2  0 ω22 =   ... ... 0 ...

... ... ... 0

0 ... 0 −1/2 ωT T

    

5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI

163

Inoltre, si definiscono: y∗ = P−1 y X∗ = P−1 X ε∗ = P−1 ε Notate che premoltiplicare y e X per P−1 equivale a ponderare ciascuna osser−1/2 vazione per ωtt . Per questo motivo si parla di Minimi Quadrati Ponderati. A questo punto si pu`o verificare che il modello ponderato: y ∗ = X ∗ β + ε∗ , E(ε∗ ) = [0], E(ε∗ ε∗0 ) = P−1 ΩP−10 = IT ha quindi termini di disturbo omoschedastici. Lo stimatore WLS e` βˆwls = (X∗0 X∗ )−1 X∗0 y∗ = (X0 P−1 P−10 X)−1 X0 P−1 P−10 y = = (X0 Ω−1 X)−1 X0 Ω−1 y e questo stimatore e` non distorto ed e` il pi`u efficiente nella classe degli stimatori lineari e non distorti (stimatore BLUE): h i E(βˆwls ) = E (X0 Ω−1 X)−1 X0 Ω−1 (Xβ + ε) = β (Non distorto) h i V (βˆwls ) = E (X0 Ω−1 X)−1 X0 εε0 X(X0 Ω−1 X)−1 = = (X0 Ω−1 X)−1 X0 Ω−1 X(X0 Ω−1 X)−1 = = (X0 Ω−1 X)−1 Purtroppo questo stimatore non e` praticabile perch`e di norma Ω (e quindi P) non e` nota. Occorre stimarla in qualche modo venga (vedi capitolo 6). Se invece si usa lo stimatore OLS sul modello di partenza: y = Xβ + ε si ottiene: βˆOLS = (X0 X)−1 X0 y con le seguenti propriet`a: E(βˆOLS ) = (X0 X)−1 X0 (Xβ + ε) = β Non distorto h i V (βˆOLS ) = E (βˆOLS −β)(βˆOLS −β)0 = h i = E (X0 X)−1 X0 ε0 εX(X0 X)−1 = = (X0 X)−1 X0 ΩX(X0 X)−1

164

CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

Quindi βˆOLS e` meno efficiente di βˆGLS e che la stima OLS della varianza delle stime e` distorta e inconsistente. Quindi, se uso OLS in presenza di eteroschedasticit`a le stime dei parametri in β sono non distorte ma inefficienti, e le stime degli errori standard associati sono del tutto insoddisfacenti (distorte e inconsistenti). Si veda il capitolo 6 per i dettagli.

5.2.3

Stima del modello di probabilit`a lineare

Ritornando al modello di probabilit`a lineare, dato che sappiamo che: V (εt ) = E(yt ) [1 − E(yt )]

(eteroschedasticit`a)

possiamo utilizzare la seguente procedura a 2 stadi: (1) Si stima: yt = x0t β + εt usando OLS,e si ricavano i valori adattati di yt : yˆt (2) Si costruisce la matrice dei pesi:  [ˆ y1 (1 − yˆ1 )]−1/2 0  0 [ˆ y2 (1 − yˆ2 )]−1/2 b −1 =  P  ...  ... 0 ...

= x0t βˆOLS .

... ... ... 0

0 ... 0 [ˆ yT (1 − yˆT )]−1/2

    

che e` ovviamente una stima consistente di P. Questa matrice stimata viene utilizzata per ottenere lo stimatore WLS: b −1 X)−1 X0 Ω b −1 y, βbW LS = (X0 Ω b =P bP b0 Ω Questo approccio presenta alcuni problemi: (a) Per qualche osservazione, la grandezza yˆt (1 − yˆt ) potrebbe anche essere negativo (se yˆt > 1 oppure se yˆt < 0) per campioni finiti (in grandi campioni p questa circostanza si verifica raramente, dato che βˆOLS e` consistente e quindi yˆt ⇒ yt ) (b) i termini di errore sono non gaussiani e questo complica molto l’inferenza, dato che sappiamo costruire intervalli fiduciari e fare prova delle ipotesi solo in presenza di termini di disturbo normali. In ogni caso, il problema pi`u grave e` comunque quello che E(yt |xt ) = x0t β potrebbe giacere al di fuori dell’intervallo [0, 1]. Ricordate infatti che E(yt |xt ) ≡ p(yt = 1|xt ), ma un MPL potrebbe implicare probabilit`a assurde (cio`e negative o maggiori di uno) per determinate osservazioni: si veda ad esempio la Figura 5.4 dove abbiamo riportato un diagramma a dispersione con yt variabile dicotomica e x2 come unico regressore (oltre il termine di intercetta). Le osservazioni su yt sono quindi pari o a zero o a 1. Ad esempio, le osservazioni che abbiano valori di x2

5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI

165

pari a x2a o x2b sono associate ad una probabilit`a stimata rispettivamente negativa e superiore ad uno. [Figura 5.4 qui nel testo] E’ chiaro che sarebbe molto meglio poter interpolare le osservazioni campionari con una curva non lineare, come e` ben evidenziato dalla figura 5.4, piuttosto che con una retta.

5.2.4

Modelli probit e logit

Questi modelli sono basati sull’assunzione che esista una variabile inosservabile yt∗ che viene determinata da un certo insieme di regressori x1 ... xk nel solito modo: yt∗ = x0t β + εt , t = 1, 2, ..., T E(εt ) = 0, ∀t Questa grandezza non e` per`o osservabile, e si osserva invece la variabile dipendente yt :  1 se yt∗ > 0 yt = 0 se yt∗ ≤ 0 La variabile latente yt∗ pu`o essere interpretata come ”propensione” o ”abilit`a” ad assumere valore yt = 1 (abilit`a a trovare lavoro, trovare casa, essere quotati in borsa) oppure come costo opportunit`a di yt = 0.Si noti che se yt∗ viene moltiplicata per qualsiasi costante non nulla, il modello non cambia (problema di identificazione): λyt∗ = λx0t β + λεt yt∗∗ = x0t β ∗ + ε∗t Per questo motivo si utilizza la convenzione di ”normalizzare” il modello in modo tale da avere un termine di disturbo εt che ha varianza unitaria: E(ε2t ) = σ 2 = 1 Definiamo ora: Pt = prob(yt = 1) = prob(yt∗ > 0) = = prob(x0t β + εt > 0) = prob(εt > −x0t β) = = 1 − prob(εt < −x0t β) = 1 − F (−x0t β) dove con F (·) indichiamo la funzione di ripartizione della variabile casuale εt : Zh F (h) = −∞

f (εt )dεt

166

CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

Se si ipotizza che la funzione di densit`a di εt sia simmetrica intorno a zero, [f (−h) = f (h)], allora abbiamo: F (−x0t β) = 1 − F (x0t β) come si evince dalla Figura 5.5 [Figura 5.5 qui nel testo] Quindi possiamo scrivere: Pt = prob(yt = 1) = F (x0t β) Si noti che, ovviamente, dato che F (·) e` una funzione di ripartizione, Pt e` vincolato ad essere compreso tra 0 e 1 : lim

F (x0t β) = 0,

lim

F (x0t β) = 1

x0t β⇒−∞ x0t β⇒+∞

Si veda a questo proposito la Figura 5.6 [Figura 5.6 qui nel testo] Esempio di modello logit strutturale (Nakosteen e Zimmer, 1980) Si consideri un modello di migrazione :  1 se l0 individuo t-esimo emigra , t = 1, 2, ...T yt = 0 se l0 individuo t-esimo non emigra Si definiscono: ytR∗ =

xR0 β + εR t t (1×k)

ytR∗

=

salario medio atteso che t rimanendo nel suo paese si attenderebbe di ricevere

e si fa dipendere tale salario da un vettore di variabili esplicative xR a, razt (et` za, educazione, sesso dell’individuo, occupazione e reddito aggregati del paese di partenza). Si definisce: ytM ∗ = ∗ yM t

0 xM t (1×h)

γ + εM t

= salario atteso che t si attende di ricevere emigrando

che dipende dal vettore xM e et`a, educazione, sesso t (caratteristiche personali, cio` ecc e alcuni indicatori macro economici del paese di arrivo). Il singolo individuo t-esimo compie la scelta di emigrare se: ytM ∗ − ytR∗ > c∗ c∗ = costo di emigrazione (difficilmente misurabile)

5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI

167

Si definisce quindi il modello: yt∗ = ytM ∗ − ytR∗ − c∗ yt∗ = x0t δ + εt xt = unione degli insiemi di variabili esplicative per ytM ∗ e ytR∗ R εt = εM t − εt

e quindi: yt = 1 se yt∗ > 0 A questo punto e` possibile scrivere la funzione di verosimiglianza delle T osservazioni su yt , t = 1...T : Y Y P (y1 , y2 , ..., yT |x1 , x2 , ..., xT ) = ( Pt ) (1− Pt ) (5.18) yt =1

dove (

Q

yt =0

Pt ) indica la produttoria rispetto a tutti le osservazioni in corriispon-

yt =1

denza Q delle quali yt = 1 e (1− Pt ) indica la produttoria rispetto a tutti le osservazioni in corriisponyt =0

denza delle quali yt = 0. Ipotizziamo che i termini di disturbo del modello abbiano distribuzione logistica: exp(εt ) 1 = (5.19) F (εt ) = 1 + exp(εt ) 1 + exp(−εt ) otteniamo il cosiddetto modello logit Una variabile casuale logistica ha le seguenti funzione di densit`a e di ripartizione: f (x) = F (x) =

ex x ∈ (−∞, +∞) (1 + ex )2 1 ∂F (x) ex = nb : f (x) = x −x 1+e 1+e ∂x

e le caratteristiche di tali funzioni sono rappresentate, a confronto con quelle di una variabile casuale normale standardizzata nelle Figure 5.7a e 5.7b. [Figure 5.7a e 5.7 b qui nel testo] Notate che una variabile casuale logistica e` caratterizzata da maggiore dispersione rispetto alla normale standardizzata. Infatti: E(x) = 0 π2 ∼ V (x) = = 3.28 3

(> 1)

Il comportamento di una variabile casuale logistica e` abbastanza simile a quello di una N (0, 1) (tranne che nelle code).

168

CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

Per quello che riguarda il nostro modello, l’assunzione di distribuzione logistica implica:

Pt = F (x0t β) =

1 exp(x0t β) = 1 + exp(x0t β) 1 + exp(−x0t β)

Esplicitando rispetto a exp(x0t β) otteniamo:   Pt 1 + exp(−x0t β) Pt = 1 ⇒ exp(x0t β) = ⇒ 1 − Pt   Pt prob(yt = 1) 0 xt β = ln( ) = ln 1 − Pt prob(yt = 0) Quindi la grandezza x0t β d`a il logaritmo del rapporto delle probabilit`a (”log-odds ratio”). Si noti che per il modello logit, il log-odds ratio e` funzione lineare delle variabili esplicative xt (nel modello di probabilit`a lineare e` Pt ad essere funzione lineare delle variabili esplicative).

Problema della stima del modello logit Si tratta di trovare una curva che interpoli la nuvola dei punti corrispondenti alle osservazioni campionarie, come gi`a visto nella Figura 5.4. Con l’ipotesi che i termini di disturbo siano distribuiti come una logistica, e` possibile scrivere la funzione di verosimiglianza per il campione:   Y Y L = ( Pt )  (1 − Pt ) = yt =1

yt =0



 Y

Y 

yt =1

yt =0





1 1  = 1− 0 1 + exp(−xt β) 1 + exp(−x0t β) yt =0 yt =1      Y Y 1 1   =  (5.20) 1 + exp(−x0t β) 1 + exp(x0t β) = 

ma la stima di questo modello si presenta problematica: infatti, la stima di massima verosimiglianza richiede di considerare la verosimiglianza o la log verosimiglianza (ln L) e derivarla rispetto a β. Si ottiene un’espressione che non si riesce ad

169

5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI esplicitare rispetto a β:   X X L = ( ln Pt ) +  ln(1 − Pt ) = yt =1

yt =0

X

= −

ln[(1 + exp(−x0t β)]−

yt =1

∂L ∂β −

X yt =0

ln[(1 + exp(x0t β)]

yt =0

X

= [0] ⇒

X

yt =1

1 · xt + 1 + exp(x0t β)

1 · xt = [0] 1 + exp(−x0t β)

(5.22)

Queste condizioni del primo ordine non possono essere esplicitare rispetto β e occorre utilizzare un metodo di massimizzazione numerica. In ogni caso la funzione di log verosimiglianza e` concava ed ha un unico massimo, quindi non d`a problemi in questo senso. A questo proposito, e` necessario partire da un valore iniziale per la stima numerica, che chiamiamo βˆ0 , che in genere e` quello che si ricava dalla stima del modello di probabilit`a lineare.

5.2.5 Modello Probit E’ possibile utilizzare una diversa assunzione sulla distribuzione dei termini di disturbo e ipotizzare che: εt ∼ N (0, 1) In questo caso, data l’ipotesi di normalit`a, il modello viene chiamato probit p(yt = 1) = p(yt∗ > 0) = Φ(x0t β) Φ(x0t β) =

xZ0t β

−∞

 2 1 x √ exp − dx 2 2π

dove con Φ(·) indichiamo la funzione di ripartizione di una variabile casuale normale standardizzata. La funzione di verosimiglianza per un modello probit e` : Y Y   L = Φ(x0t β) 1 − Φ(x0t β) ln L =

yt =1

yt =0

X

ln Φ(x0t β)+

yt =1

(5.21)

X

  ln 1 − Φ(x0t β)

yt =0

ed anche in questo caso per ottenere la stima di massima verosiglianza e` necessario usare un metodo di massimizzazione numerica. Come abbiamo visto nelle Figure 5.7a e 5.7b, le funzioni di densit`a e di ripartizione di una variabile casuale logistica e di una variabile casuale normale sono

170

CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

molto simili, a parte il comportamento delle code. Per questo motivo, l’assunzione relativa alla distribuzione dei termini di disturbo e` relativamente poco importante e l’applicazione dei modelli logit e probit allo stesso insieme di dati conduce a risultati simili, ma dato che nel modello logit si ha V (εt ) = E(ε2t ) =

π2 3

2

occorre dividere i risultati della stima logit per π3 per poterle confrontare con quelle della stima probit (dove invece la varianza dei termini di disturbo e` per ipotesi unitaria. Un problema ulteriore e` che tipicamente la proporzione di osservazioni associate a yt = 1 e di quelle associate a yt = 0 possono essere molto sbilanciate tra di loro; quindi si usano tassi di campionamento diversi per riequilibrare il campione. Per il modello logit questa procedura ha come unico effetto quello di indurre una distorsione nel parametro di intercetta che deve essere corretta incrementandola di log( PP01 ) (P1 e` la proporzione delle osservazioni con yt = 1 ritenute e P0 e` la proporzione delle osservazioni con yt = 0 ritenute). Le stime degli altri parametri non sono invece influenzate dalla diversit`a dei tassi di campionamento.

5.2.6

Effetti di variazioni delle variabili esplicative

Ricordiamo che il MPL stabilisce: P (yt = 1|xt ) = x0t β mentre il modello logit stabilisce: P (yt = 1|xt ) =

exp(x0t β) 1 = 0 1 + exp(xt β) 1 + exp(−x0t β)

ed il modello probit stabilisce: P (yt = 1|xt ) = Φ(x0t β) Quindi, chiamando P (yt = 1|xt ) = Pt , possiamo verificare che variazioni delle variabili esplicative hanno diversi effetti su Pt a seconda del modello di riferimento   βi per il modello di prob. lineare     ∂Pt exp(x0t β) · β = P (1 − P )β per il modello logit = i t t i [1+exp(x0t β)]2  ∂xit    0 Φ(xt β)·βi per il modello Probit ∂Pt Quindi per il MPL, ∂x e` costante, cio`e non dipende da xt , mentre non e` costante it per gli altri due modelli. Si noti che per il modello logit, dato che il log-odds ratio e` : Pt ln( ) = x0t β 1 − Pt abbiamo che: Pt ∂ ln( 1−P ) t = βi ∂xit

5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI

5.2.7

171

Indici di bont`a di adattamento del modello

Nei modelli dove la variabile dipendente e` dicotomica, esiste il problema della misurazione della bont`a di adattamento, indotto dal fatto che yt assume solo valori 0 o 1. Sono state avanzate diverse proposte per misurare quanto il modello spiega del comportamento della variabile dipendente (per i modelli di regressione lineare tutte queste misure sono equivalenti): 1) Indice R2 inteso come il quadrato della correlazione tra yt e yˆt . 2) Misure basate sulla somma dei quadrati dei residui. Nel MRL abbiamo: R2 = 1 −

0

RSS T SS

0

RSS = εˆ εˆ = (y − y ˆ) (y − y ˆ) =

T X

(yt − yˆt )2

t=1

∗0 ∗

T SS = y y =

T X

(yt − y¯) =

T X

t=1

yt2 − T y¯2 =

t=1

T1 T0 = T1 − T (T1 /T )2 = T dove T1 = numero di osservazioni con yt = 1, T0 = numero di osservazioni con yt = 0 (T0 + T1 = T ). Quindi: R2 = 1 −

T T X T 0 (yt − yˆt )2 = 1 − εˆ εˆ T1 T0 T1 T0 t=1

Questa e` la misura proposta da Efron (1978). Amemiya (1981) suggerisce di definire la somma dei quadrati dei residui in modo diverso:  T  X (yt − yˆt )2 yˆt (1 − yˆt ) t=1

in modo tale che ciascun residuo viene ponderato per l’inverso della stima del proprio errore standard (vale per il modello di probabilit`a lineare). 3) Misure basate sul rapporto delle verosimiglianze Per il modello di regressione lineare con termini di disturbo gaussiani: y = Xβ + ε

(5.23) 2

E(ε) = [0] , ε ∼ N (0, σ IT ) sappiamo che possiamo scrivere l’indice R2 come:

172

CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

RSS R =1− =1− T SS 2



LR LU R

2 T

(5.24)

dove LR = massimo della verosimiglianza del modello vincolato ad avere tutti i parametri di pendenza uguali a 0, LU R = massimo della verosimiglianza del modello per il modello non vincolato, dato che sappiamo che:   1 0 2 − T2 L = (2πσ ) exp − 2 ε ε 2σ Notate che questa interpretazione dell’indice R2 pu`o essere validamente utilizzata per modelli a variabile dipendente qualitativa. Si ricordi che per i modelli a VDQ (diversi dal MPL) abbiamo che:   Y Y L =( Pt )  (1 − Pt ) yt =1

yt =0

Notate che la verosimiglianza e` generata come produttoria di probabilit`a che sono tutte < 1; quindi L ≤ 1 e questo ci assicura che: LR ≤ LU R ≤ 1 da cui: 1 1 ≥ ≥1 LR LU R

1≥

 1≥

LR ≥ LR LU R

LR LU R

2 T

2

≥ LR T

2

LR T ≤ 1 − R2 ≤ 1 e quindi: 2

0 ≤ R2 ≤ 1 − LR T

A partire da questo tipo di considerazioni, Cragg e Uhler (1970) suggeriscono di costruire uno ”pseudo R2 ” 2

pseudo Rp2 =

2

LU R T − LR T 2

2

(1 − LU R T )LU R T

173

5.3. IL MODELLO TOBIT mentre McFadden (1974) propone un’altra misura: 2 RM F =1−

ln LU R ln LR

Quest’ultima misura non corrisponde ad alcuna misura di R2 nel modello di regressione lineare. 4) Bont`a del modello come proporzione di previsioni corrette. Vediamo quante volte il modello correttamente ”prevede” il comportamento della variabile dipendente. Associamo ad ogni osservazione una sorta di ”pseudo previsione” yt∗∗ secondo la seguente regola: Se yˆt > 0.5 ⇒ yt∗∗ = 1 Se yˆt 6 0.5 ⇒ yt∗∗ = 1 Quindi per ogni osservazione calcoliamo yt − yt∗∗ (”pseudo errore di previsione). Ovviamente, se yt − yt∗∗ = 0, la previsione e` giusta e se yt − yt∗∗ = 1 o se yt − yt∗∗ = −1, la previsione e` sbagliata. Quindi possiamo definire un indice di bont`a del modello basato sul numero di previsioni corrette numero di previsioni corrette T che comunque non e` molto utile per discriminare tra i modelli 2 RC =

5.3

(5.25)

Il modello Tobit

Nel modello Tobit (Tobin’s probit, Tobin 1958) abbiamo una variabile troncata, vale a dire osservata solo se positiva:  yt =

yt∗ = x0t β + εt se yt∗ > 0 0 altrimenti

t = 1, 2, ..., T,

ε ∼ N (0, σ 2 It )

Si tratta quindi di un modello di regressione gaussiano ”censurato”. Ad esempio, si consideri un modello per le decisioni di spesa per l’acquisto di un’automobile, sulla base di un campione di famiglie (si vogliono studiare le determinanti dell’acquisto di auto). Si ipotizza:  0  xt β + εt se yt∗ > 0 (1×k) yt∗ =  0 per chi non possiede auto oppure:

174

CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

 ore lavorate : Ht =  salario : Wt =

x0t β + εt 0

x0t β + εt 0

Per stimare questo modello NON e` possibile usare lo stimatore OLS utilizzando solo le osservazioni per le quali yt∗ > 0, dato che per utilizzare validamente tale stimatore occorre che valga E(ε) = [0] e questa propriet`a non e` soddisfatta in questo caso. Infatti, in questo modo si considerano solo quelle osservazioni per le quali εt > −x0t β e quindi: Z∞ εt Φ(εt )dεt 6= 0

E(εt ) = −x0t β

Si ha quindi una distribuzione troncata per i termini di disturbo, come e` evidenziato dalla Figura 5.8. [Figura 5.8 qui nel testo] Quindi lo stimatore OLS non e` utilizzabile perch`e porterebbe ad un risultato distorto: 0

∗ E(βˆOLS ) = β + (X∗ X∗ )X∗0 E(ε∗ )

(ricorda che E(εt ) 6= 0) y ∗ = X∗ β + ε∗ (T1 ×1)

(T1 ×k)

y∗ = vettore con tutte e sole le osservazioni yt∗ > 0. X∗ = matrice delle corrispondenti osservazioni sulle variabili esplicative. ε∗ = vettore con i corrispondenti termini di disturbo Occorre quindi utilizzare lo stimatore di massima verosimiglianza :

L=

Y 

{yt >0}

1 √ 2πσ



  0   Y 1 xβ 0 2 exp − 2 (yt − xt β) × Φ − t 2σ σ

(5.26)

{yt =0}

Notate che nell’espressione precedente il secondo blocco di fattori corrisponde a quelle osservazioni con yt = 0, cio`e per le quali si ha εt < −x0t β.(con Φ(·) indichiamo ancora la funzione di ripartizione associata ad una VC N (0, 1)). Anche nel caso del modello Tobin, la log verosimiglianza non ha condizioni del primo ordine che possano essere risolte analiticamente:

ln L = −

  0  X 1 X T1 xβ ln(2π)−T1 ln(σ)− 2 (yt −x0t β)2 + ln Φ − t 2 2σ σ {yt >0}

{yt =0}

175

5.3. IL MODELLO TOBIT X ∂ ln L 1 X = [0] ⇒ 2 xt (yt − x0t β)− ∂β σ {yt >0}

{yt =0}

T1 1 X ∂ ln L =0⇒− + 2 ∂σ σ σ

{yt =0}

1 x0 β σΦ − t σ 

 xt = [0]

1  =0 x0t β Φ − σ 

Quindi ccorre fare riferimento a metodi di ottimizzazione numerica. Problema concettuale del modello Tobit Il modello si basa sull’assunzione che yt∗ possa effettivamente, in linea di principio, assumere valori negativi che non vengono riportati perch`e non osservabili. Negli esempi visti in precedenza e` evidente che yt∗ < 0 non e` possibile concettualmente. Esistono dei rischi connessi all’applicazione acritica del modello tobit. Ad esempio, nel caso della modellazione del salario percepito, si pu`o pensare come maggiormente indicato un modello del tipo: Wt = salario osservato per la t − esima unit`a campionaria:  Wt =

WtM se WtM > WtR 0 altrimenti

dove: WM t = x0M t β + εM t = salario di mercato WRt = x0Rt γ + εRt = salario di ”riserva” Modello ”strutturale” del tipo visto per l’immigrazione Qui si osserva WM t quando WM t − WRt > 0 cio`e quando: 0 M R0 R M R R0 M0 xM t β + εt − xt γ − εt > 0 ⇒ εt − εt > xt γ − xt β M0 quindi Wt = 0 non quando εM t > −xt β (come risulterebbe dall’applicazione del modello tobit), ma quando R R0 M0 εM t − εt < xt γ − xt β

Utilizzando il modello tobit si ottengono quindi stime dei parametri inconsitenti.

176

CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

Differenza tra il modello tobit e modello di regressione troncata Nel modello di regressione troncata si hanno osservazioni tratte da una distribuzione troncata: si osservano le yt∗ solo se maggiori di zero (non si osservano n`e la variabile dipendente, n`e i valori dei regressori nel caso in cui yt∗ < 0). Nel modello tobit, non si osserva la variabile yt∗ se e` negativa, ma si osserva il corrispondente vettore xt di variabili esplicative. Ad esempio, consideriamo l’esperimento dell’introduzione di una tassa sul reddito negativa (sussidio di povert`a) per le famiglie a basso reddito nel New Jersey (anni ’70). Tutte le famiglie con redditto al di sopra della soglia di povert`a sono state pertanto eliminate dal campione. Se si usa lo stimatore OLS sul campione troncato si possono ottenere risultati distorti e non consistenti. di questo possiamo dare un’interpretazione intuitiva in termini grafici, riferendoci ad un MRL semplice. Si veda la Figura 5.9 di seguito riportata. [Figura 5.9 qui nel testo] Occorre quindi far riferimento allo stimatore di massima verosimiglianza: Dominio di yt : (−∞, L] ⇒ εt < L − x0t β  √ 1 exp − 1 2 (yt − x0 β)2 t 2σ 2πσ   f (yt | xt ) = L−x0t β Φ σ quindi:   T T X T 1 X L − x0t β 2 0 2 ln L = − ln σ − 2 (yt − xt β) − ln Φ 2 2σ σ t=1

t=1

Occorre anche in questo caso utilizzare un metodo di massimizzazione numerica.

5.4

Esercizi

1) Dato il seguente modello: yt∗ = β1 + β2 Dt + εt , t = 1, 2, ..., 100,

yt = 1 se yt∗ > 0 yt = 0 in caso contrario L’unico regressore, Dt e` una variabile dummy con valori nulli o unitari. Scrivete la funzione di verosimiglianza per il modello sotto le ipotesi che: a) εt ∼Logistica b) εt ∼ normale standard

177

5.4. ESERCIZI

Scrivete le condizioni del primo ordine per trovare lo stimatore di massima verosimiglianza di β1 e β2 nei due casi. 2)Si supponga che un modello di probabilit`a lineare sia applicata ad una relazione del tipo: yt = β1 + βx2t + εt 

0 e` una variabile dipendente dicotomica, e x2t e` una variabile 1 esplicativa che varia nel continuo. L’ampiezza campionaria e` pari a T. Come si ottiene la stima OLS di questo modello nei termini della media e della varianza di x2 ? Come possono essere interpretati i risultati? Scrivere la funzione di logverosimiglianza del modello di probabilit`a lineare in questo caso. 3) Le seguenti 20 osservazioni sono tratte da una distribuzione normale ”censurata” (a valori negativi di y si sostituiscono valori nulli ) 3.8396, 7.2040, 0, 0, 4.4132, 8.0230, 5.7971, 7.0828, 0, 0.80260, 13.0670, 4.3211, 0, 8.6801, 5.4571, 0, 8.1021, 0, 1.2526, 5.6016 Il modello applicabile e` : dove yt =

yt∗ =



µ + εt se µ + εt > 0 0 altrimenti εt ∼ N (0, σ 2 )

a) formulate la log-verosimiglianza per questo modello tobit b) ottenete lo stimatore di massima verosimiglianza di µ e σ 2 . 4) Data la seguente ipotesi comportamentale: l’individuo t − esimo decide di lavorare (yt = 1) se il suo salario e` superiore al salario di riserva (W R ). Si supponga inoltre che: W R = costante ∀t (salario di riserva uguale per tutti) Wt = β1 + β2 x2t + β3 x3t + β4 Dt + εt x2t = et` a, x3t = anni di scuola,  Dt = dummy per sesso =

1 se individuo e` di sesso maschile 0 altrimenti

εt ∼ N (0, 1) Costruire un modello stimabile, ricavare la funzione di log-verosimiglianza e trovare le condizioni del primo ordine per la stima di massima verosimiglianza dei parametri incogniti. Come cambierebbero le conclusioni se se εt fosse distribuito come una VC logistica?

178

CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE 5) Spiegare come sia possibile in relazione al modello y (T ×1)

= X

β



(T ×k)(k×1)

E(ε) = [0] E(εε0 ) = σ 2 IT generare un errore di previsione per yT +1 (conoscendo xT +1 e yT +1 ) 6) Dato il MRL: yt = β1 + β2 pt + β3 zt + β4 rt + εt dove: yt = stock di moneta in termini reali pt = indice dei prezzi zt = reddito reale rt = tasso di interesse nominale a breve Questa equazione e` stimata per la Germania dal 1970 al 1994 sulla base di dati trimestrali. a) Se si ritiene che l’unificazione (4o trimestre del 1990) abbia influito sull’intercetta del modello, come potrebbe essere corretta la specificazione per tenere presente questo fenomeno? b) Se invece si ritiene che tale evento abbia influenzato anche la sensitivit`a della domanda di moneta rispetto a variazioni del tasso d’interesse, come si modificherebbe il modello? c) Come e` possibile verificare quest’ultima ipotesi? d) Come andrebbe verificata invece l’ipotesi che tutti i parametri della relazione sono stati modificati da quell’evento?

5.5

Soluzioni

1) a) Se εt ∼ VC logistica, allora: F (εt ) = f (εt ) =

eεt 1 = 1 + eεt 1 + e−εt eεt (1 + eεt )2

prob(yt∗ > 0) = prob(β1 + β2 Dt + εt > 0) = = prob(εt > −β1 − β2 Dt ) = prob(εt > β1 + β2 Dt ) = = F (β1 + β2 Dt ) (data la propriet`a di simmetria della logistica)

179

5.5. SOLUZIONI quindi abbiamo:  p(y1 · · · yT

| D1 · · · DT , β1 , β2 ) = 

 Y

p(yt∗ > 0) ×

{yt =1}



 Y

p(yt∗ ≤ 0)

 {yt =0}

e la verosimiglianza del campione e` :  L=

Y

{yt =1}

ln L =

X

  Y 1 1   1 + exp(−β1 − β2 Dt ) 1 + exp(β1 + β2 Dt ) {yt =0}

X

− ln [1 + exp(−β1 − β2 Dt )] −

yt =1

ln[(1 + exp(+β1 + β2 Dt )]

yt =0

ln L =

X

(β1 + β2 Dt ) −

yt =1

T X

ln(1 + exp(β1 + β2 Dt ))

t=1

Le condizioni del primo ordine sono: T

X exp(β1 + β2 Dt ) ∂ ln L = 0 ⇒ T1 − =0 ∂β1 1 + exp(β1 + β2 Dt ) t=1

∂ ln L ∂β X

Dt −

yt =1

T X t=1

Dt

exp(β1 + β2 Dt ) 1 + exp(β1 + β2 Dt )

= 0 ⇒ = 0

Si noti che T1 = numero di osservazioni in relazione alle quali yt = 1 b) Se εt ∼ N (0, 1), si ha: p(yt = 1) = p(yt∗ > 0) = p(εt > −β1 − β2 Dt ) = = p(εt < β1 + β2 Dt ) = Φ(β1 + β2 Dt )  L=

 Y

{yt =1}

Φ(β1 + β2 Dt ) 

 Y

{yt =0}

[1 − Φ(β1 + β2 Dt )]

180

CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

ln L =

X

ln Φ(β1 + β2 Dt ) +

yt =1

X

ln[1 − Φ(β1 + β2 Dt )]

yt =0

e le condizioni del primo ordine sono: X φ(β1 + β2 Dt ) X φ(β1 + β2 Dt ) ∂ ln L =0⇒ − =0 ∂β1 Φ(β1 + β2 Dt ) 1 − Φ(β1 + β2 Dt ) yt =1

yt =0

X X ∂ ln L φ(β1 + β2 Dt ) φ(β1 + β2 Dt ) =0⇒ Dt − Dt =0 ∂β 1 − Φ(β1 + β2 Dt ) 1 − Φ(β1 + β2 Dt ) yt =1

yt =0

Notate che: ∂Φ(β1 + β2 Dt ) ∂Φ(β1 + β2 Dt ) ∂(β1 + β2 Dt ) = · = Φ(β1 + β2 Dt ) ∂β1 ∂(β1 + β2 Dt ) ∂β1 ∂Φ(β1 + βDt ) ∂Φ(β1 + βdt ) ∂(β1 + βdt ) = · = Φ(β1 + βdt ) · dt ∂β ∂(β1 + βdt ) ∂β e: Φ(·) = funzione di ripartizione di una VC N (0, 1) φ(·) = funzione di densit`a di una VC N (0, 1) 2) Consideriamo βb1 = y¯ − βˆ2 x ¯2

T 1X x ¯2 = x2t T t=1

y¯ =

T 1X yt = p = percentuale di 1 nel campione T t=1

T P

βˆ2 =

=

T 1 P (yt − y¯)(x2t − x ¯2 ) T t=1 t=1 = = T T P 1 P 2 2 (yt − y¯) (yt − y¯) T t=1 t=1 T T 1 P 1 P yt x2t − x ¯2 y¯ yt x2t − x ¯2 y¯ − x ¯2 y¯ + x ¯2 y¯ T t=1 T t=1 , = Vb (x2 ) Vb (x2 )

(yt − y¯)(x2t − x ¯2 )

Vb (x2 ) = varianza campionaria di x2

181

5.5. SOLUZIONI Definendo T1 = numero di osservazioni con yt = 1, abbiamo:

βˆ2

T T1 1 P yt x2t − x ¯2 p T T1 t=1 = = Vb (x2 )  0  = p¯ x12 − p p¯ x2 + (1 − p)¯ x02 =

=

p(1 − p)(¯ x12 − x ¯02 ) V (x)

dove x ¯12 e` la media delle osservazioni di x2t in relazione alle quali yt = 1, e x ¯02 e` la media delle osservazioni su x2t associate a yt = 0. Quindi βˆ2 ha il numeratore che dipende da quanto la media di x2 e` diversa tra le osservazioni con yt = 1 e yt = 0: se x ¯12 = x ¯02 allora βˆ2 = 0. In questo caso allora il modello non spiegherebbe y sulla base di x2 . 3)In relazione al nostro modello tobit, abbiamo: yt = 0, εt ∈ (−∞, µ) εt ∼ N (0, σ 2 ) a)quindi la verosimiglianza e` :

T − 21

L = (2πσ 2 )

= (2πσ 2 )−

T1 2

   1 X  Y µ exp − 2 (yt − µ)2 · Φ(− ) =  2σ  σ yt =1 yt =0    1 X  h µ iT0 exp − 2 (yt − µ)2 · Φ(− )  2σ  σ yt =1

T1 = numero di osservazioni per cui yt > 0 e T0 = T −T1 . La log verosimiglianza e` : ln L = −

1 X µ T1 ln(2πσ 2 ) − 2 (yt − µ)2 − T0 ln Φ(− ) 2 2σ σ yt =1

e le condizioni del primo ordine sono: µ ∂ ln L 1 X T0 φ(− σ ) =0 =0⇒ 2 (yt − µ) + ∂µ σ σ Φ(− µ ) yt =1 σ µ φ(− )  µ  ∂ ln L T1 1 X σ − =0⇒− 2 + 4 (yt − µ)2 − T0 =0 µ ∂σ 2 2σ 2σ 2σ 3 Φ(− ) yt =1 σ

182

CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

E’ quindi necessario utilizzare un metodo numerico per la massimizzazione della funzione di verosimiglianza 4) Il lavoratore partecipa se Wt > WR , quindi se yt∗ > 0 yt∗ = Wt − WR yt∗ = (β1 − WR ) + β2 x2t + β3 x3t + β4 Dt + εt yt∗ = β1∗ + β2 x2t + β3 x3t + β4 Dt + εt β1∗ = (β1 − W R ) = intercetta del modello p(yt = 1) = p(yt∗ > 0) = p(εt > −β1 − β2 x2t − β3 x3t − β4 Dt ) = = Φ(zt ) con zt = β1 + β2 x2t + β3 x3t + β4 Dt = x0t

β

(1×4)(4×1)

La funzione di verosimiglianza e` :  L = 

 Y

p(yt = 1) 

{yt =1}

zt =

p(yt = 0) =

{yt =0}

 = 

 Y

 Y

Φ(zt ) 

{yt =1} 0 xt β

 Y

[1 − Φ(zt )] =

{yt =0}

e la funzione di log-verosimiglianza e` : → ln L =

X

ln Φ(zt ) +

yt =1

X

ln[1 − Φ(zt )]

yt =0

mentre le condizioni del primo ordine sono: X φ(zt ) X φ(zt ) ∂ ln L =0 ⇒ + =0 ∂β1 Φ(zt ) 1 − Φ(zt ) yt =1

Si noti che:

yt =0

∂Φ(zt ) ∂zt ∂Φ(zt ) = · = Φ(zt ) ∂β1 ∂zt ∂β1

X X φ(zt ) φ(zt ) ∂ ln L =0 ⇒ xit + xit = 0, i = 2, 3, 4 ∂βi Φ(zt ) 1 − Φ(zt ) yt =1

yt =0

183

5.5. SOLUZIONI che deriva da: ∂Φ(zt ) ∂zt ∂Φ(zt ) = · = φ(zt ) · xit ∂βi ∂zt ∂βi In forma vettoriale abbiamo: X φ(zt ) X φ(zt ) ∂ ln L =0 ⇒ xt + xt = 0 ∂β Φ(zt ) (4×1) 1 − Φ(zt ) (4×1) yt =1

(4×1)

dove: P yP t =1

yt =0

significa sommatoria rispetto a tutte le osservazioni con yt = 1 significa sommatoria rispetto a tutte le osservazioni con yt = 0

yt =0

Se εt ∼ logistica, abbiamo: F (εt ) =

f (εt ) =

eεt 1 + eεt

eεt (1 + eεt )2

1 − F (εt ) =

1 1 + eεt

La funzione di verosimiglianza e` :  L=

 Y

F (zt ) 

yt =1

 Y

[1 − F (zt )]

yt =0

e la funzione di log-verosimiglianza e` :

ln L =

X yt =1

=

X yt =1

X

[zt − ln(1 + ezt )] −

ln(1 + ezt ) =

yt =0

zt −

T X

ln(1 + ezt )

t=1

Le condizioni del primo ordine per lo stimatore di massima verosimiglianza sono: T X X ezt ∂ ln L =0 ⇒ xt − ln · xt = [0] ∂β 1 + ezt yt =1

t=1

dove zt = x0t β. Occorre utilizzare un metodo di massimizzazione numerica per ricavare la stima di massima verosimiglianza.

184

CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE 5) Si scrive 

y1 .. .

  y = (T +1)×1  yT yT +1 ∗

    

e si aggiunge un regressore dt =0 ∀t ∈ [1, T ] e = 1 per t = T + 1 e si aggiunge l’osservazione T + 1 sulle x. y∗ =

X∗

β∗

+ε∗

(T +1)×(k+1)(k+1)×1





β =

β γ



β = vettore k × 1 parametri modello di partenza γ = parametro sulla variabile dummy puntuale. Si stima allora β ∗ con OLS: 0 0 ∗ βˆOLS = (X∗ X∗ )−1 X∗ y∗ 0 0 ottenendo una stima che coincide con βˆOLS = (X X)−1 X y per i primi k elementi di β, mentre γˆ e` :

γˆ = yT +1 − yˆT +1 dove: ∗ yˆT +1 = x0T +1 βˆOLS

La stima della varianza dell’errore di previsione e` : Vb (ˆ γ) = σ ˆ 2 qk+1,k+1 , qk+1,k+1 =

elemento sulla riga k+1, colonna k+1 di Q 0

Q = (X∗ X∗ )−1 6) a) Costruiamo il seguente MRL: yt = β1 + β2 pt + β3 zt + β4 rt + β5 Dt + εt dove:

 Dt =

0 fino al 3o trimestre 1990 1 oltre

Si stima il MRL con OLS e si verifica la significativit`a del coefficiente β5 utilizzando il test t: t β5 = q

βb5 Vb (βb5 )

∼ t95

H0

185

5.5. SOLUZIONI dato che T = 100 (osservazioni trimestrali dal 1970:1 al 1994:4), k = 5. b) Si stima yt = β1 + β2 pt + β3 zt + β4 rt + β5 Dt + β6 (Dt rt ) + εt con OLS (la variabile Dt e` definita come al punto (a)) c) Si verifica l’ipotesi congiunta:  β5 = 0 H0 : β6 = 0 contro  H1 :

β5 6= 0 e/o β6 6= 0

con un test LM, di W ald o LR, che hanno una distribuzione sotto H0 χ22 o F2,95 . d) Si specifica il seguente MRL:

yt = β1 + β2 pt + β3 zt + β4 rt + β5 Dt + +β6 (Dt pt ) + β7 (Dt zt ) + β8 (Dt rt ) + εt Si stima il modello con OLS e si verifica l’ipotesi:

H0 : β5 = β6 = β7 = β8 = 0 contro H1 : β5 6= 0 e/o β6 6= 0 e/o β7 6= 0 e/o β8 6= 0 con test LM, di W ald o LR. La distribuzione di riferimento e` χ24 per i test in forma χ2 e F4,92 per il test di W ald in forma F .

Related Documents