Modelos de Regress˜ ao Linear Cl´ assicos
Celso Rˆomulo Barbosa Cabral
TEXTO PARA A DISCIPLINA ´ ˜ – IEE632 ANALISE DE REGRESSAO
UNIVERSIDADE FEDERAL DO AMAZONAS DEPARTAMENTO DE ESTAT´ISTICA
Manaus, 24 de novembro de 2004. Atualizado at´e a p´agina 111
ii Dedicat´ oria
A F´abio Amaral, que partiu antes que as coisas come¸cassem a acontecer.
iii
Agradecimentos
` estudante Themis da Costa Abensur pela digita¸c˜ao da primeira vers˜ao deste A texto.
iv
Conte´ udo
1 Modelos de Regress˜ ao Linear
1
1.1
Introdu¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Rela¸c˜oes Determin´ısticas, Probabil´ısticas e Modelos Estat´ısticos . . . .
2
1.2.1
Rela¸c˜oes Determin´ısticas e Probabil´ısticas . . . . . . . . . . . .
2
1.2.2
Modelos Estat´ısticos . . . . . . . . . . . . . . . . . . . . . . . .
4
Regress˜ao Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.3.1
O Modelo de Regress˜ao Linear Simples . . . . . . . . . . . . . .
5
1.3.2
Estima¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
1.3.3
A Distribui¸c˜ao dos Estimadores de M´axima Verossimilhan¸ca . .
16
1.3.4
Teste para Hip´otese β1 = 0 . . . . . . . . . . . . . . . . . . . . .
20
1.3.5
Estima¸c˜ao da M´edia da Vari´avel Resposta . . . . . . . . . . . .
25
1.3
v
vi 1.3.6
Previs˜ao de uma Observa¸c˜ao Futura da Vari´avel Resposta . . .
1.3.7
Alguns Coment´arios Sobre a Adequa¸c˜ao do Modelo de Regress˜ao Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.8
1.4
28
30
E Quando os Valores da Vari´avel Regressora n˜ao Puderem ser Pr´e-fixados? . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
2 O Modelo de Regress˜ ao Linear M´ ultipla
47
2.1
Nota¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
2.2
O Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
2.3
Estima¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
2.3.1
Pontos Cr´ıticos da Fun¸c˜ao de Verossimilhan¸ca . . . . . . . . . .
50
2.3.2
Existˆencia e Unicidade de Solu¸c˜oes da Equa¸c˜ao Normal . . . . .
52
2.3.3
Pontos de M´aximo Global da Fun¸c˜ao de Verossimilhan¸ca . . . .
53
2.3.4
Uma Outra Abordagem para a Estima¸c˜ao de M´axima Verossimi-
2.4
lhan¸ca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
Propriedades dos Estimadores de M´axima Verossimilhan¸ca . . . . . . .
56
vii 2.5
2.6
2.7
Previs˜ao da M´edia da Vari´avel Resposta para Valores Fixados das Vari´aveis Regressoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
O Teste F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
68
2.6.1
A Tabela de An´alise de Variˆancia . . . . . . . . . . . . . . . . .
77
2.6.2
O Coeficiente de Determina¸c˜ao . . . . . . . . . . . . . . . . . .
81
Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
3 An´ alise de Res´ıduos
87
3.1
Influˆencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
90
3.2
Outliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
3.3
Variˆancia n˜ao Constante (ou Heterocedasticidade) . . . . . . . . . . . .
94
3.4
N˜ao-Linearidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
98
3.5
Gr´aficos de Res´ıduos Parciais . . . . . . . . . . . . . . . . . . . . . . .
100
3.6
Um Algoritmo para a An´alise de Res´ıduos . . . . . . . . . . . . . . . .
104
4 An´ alise de Variˆ ancia 4.1
An´alise de Variˆancia com Um Fator . . . . . . . . . . . . . . . . . . . .
A Algumas Defini¸c˜ oes e Resultados em Estat´ıstica Multivariada
107 107
113
viii B A Distribui¸c˜ ao Normal Multivariada
115
B.1 A Densidade Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . .
115
B.2 Uma Defini¸c˜ao Abrangente de Normalidade . . . . . . . . . . . . . . .
116
´ C Algebra Linear
121
D Diferencia¸ c˜ ao de Matrizes
133
E A Distribui¸c˜ ao Normal Multivariada
135
E.1 A Densidade Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . .
135
F Matrizes em Blocos
137
G Demonstra¸c˜ ao dos Teoremas (2.5) e (2.6)
141
H A Distribui¸c˜ ao da Estat´ıstica F
147
Cap´ıtulo 1 Modelos de Regress˜ ao Linear
1.1
Introdu¸ c˜ ao Um Modelo de Regress˜ ao 1 ´e um modelo estat´ıstico para descrever rela¸c˜oes entre
vari´aveis. Neste texto estamos especificamente interessados em rela¸c˜oes lineares. Os objetivos principais s˜ao identificar a rela¸c˜ao e fazer inferˆencias em torno dos parˆametros do modelo, o que nos permitir´a, por exemplo, fazer previs˜oes de uma vari´avel dado um valor de outra. A seguir apresentamos algumas situa¸c˜oes pr´aticas que podem ser analisadas atrav´es de modelos de regress˜ao linear.
1
O nome regress˜ao ´e devido a Francis Galton, que em 1885 publicou um trabalho intitulado “Regression Toward Mediocrity in Hereditary Study”, onde analisava a rela¸ca˜o entre os pesos dos filhos e o peso m´edio dos pais (Johnson e Bhattacharyya, 1996, P´ag 461), concluindo que: (i) a altura de filhos de pais muito altos estava geralmente entre a m´edia e o m´ aximo das alturas entre o pai e a m˜ ae e (ii) a altura de filhos de pais muito baixos estava geralmente entre o m´ınimo e a m´edia das alturas entre o pai e a m˜ ae. Isto significa que a altura dos filhos tende mais para a m´edia do que para os extremos.
1
2 1. O gerente de marketing de uma empresa est´a interessado na rela¸c˜ao entre o dinheiro gasto em publicidade e o correspondente aumento nas vendas. 2. Em radioterapia, ´e importante estudar o n´ıvel de dano `as c´elulas induzido pela dura¸c˜ao e intensidade de exposi¸c˜ao `a radia¸c˜ao. 3. Em ciˆencia pol´ıtica, pode ser de interesse relacionar a probabilidade de uma administra¸c˜ao ser considerada ´otima/boa com vari´aveis como n´ıvel de educa¸c˜ao, ganho m´edio mensal, idade, sexo etc. 4. Em avalia¸c˜ao educacional, com o objetivo de comparar a evolu¸c˜ao dos estudantes, ´e de interesse relacionar as notas dos alunos em um curso de l´ınguas, obtidas em um pr´e-teste e em um p´os-teste (testes feitos antes e ap´os o curso). 5. Em experimentos agr´ıcolas, ´e importante analisar os n´ıveis de produ¸c˜ao de uma determinada fruta como fun¸c˜ao da quantidade de fertilizante utilizada.
1.2
Rela¸ c˜ oes Determin´ısticas, Probabil´ısticas e Modelos Estat´ısticos
1.2.1
Rela¸c˜ oes Determin´ısticas e Probabil´ısticas
Existem rela¸c˜oes entre vari´aveis que podem ser descritas por uma express˜ao matem´atica exata. Por exemplo, se x d´olares s˜ao colocados em uma aplica¸c˜ao financeira a uma taxa anual de remunera¸c˜ao r, temos que o total y na conta em n anos ser´a dado por y = x(1 + r)n .
3 E se t ´e o tempo que uma bola de metal leva para atingir a superf´ıcie terrestre quando a mesma ´e solta de uma altura h temos, pela lei f´ısica da gravidade, que t = (2h/g)1/2 , onde g ´e a constante gravitacional. Estas rela¸c˜oes s˜ao determin´ısticas, no sentido de que ´e poss´ıvel saber de antem˜ao o valor de uma vari´avel envolvida no experimento dado um valor da outra. Ou seja, dado um valor x de dinheiro aplicado vocˆe sabe exatamente quanto receber´a em n anos. Se vocˆe soltar a bola a uma altura h vocˆe saber´a o tempo exato que esta levar´a at´e atingir o solo. Ao contr´ario disto, neste texto estamos particularmente interessados no caso em que pelo menos uma das vari´aveis envolvidadas ´e aleat´oria, de modo que os resultados da experimenta¸c˜ao s´o ser˜ao conhecidos ap´os a ´ o que ocorre nos exemplos da se¸c˜ao 1.1 e nos exemplos a seguir sua realiza¸c˜ao. E
Exemplo 1.1 Para combater a polui¸c˜ao automobil´ıstica, cientistas est˜ao interessados em determinar a quantidade de um aditivo que ser´a acrescentado `a gasolina, a fim de melhorar a qualidade da emiss˜ao de gases poluentes. V´arios autom´oveis novos far˜ao parte de um estudo experimental (estes constituir˜ao o que chamamos usualmente de unidades experimentais, ou seja, aquelas que ser˜ao objeto de observa¸c˜ao). A quantidade de ´oxido de nitrogˆenio emitida por cada carro ´e medida primeiro sem o aditivo e depois com uma quantidade x de aditivo. A redu¸c˜ao de ´oxido de nitrogˆenio y ´e anotada.
Exemplo 1.2 Seja y a produ¸c˜ao de tomates em um experimento agr´ıcola. Suponha que queremos estud´a-la em rela¸c˜ao `a dosagem x de um certo fertilizante. (Observe que outros fatores podem influenciar na produ¸c˜ao como, por exemplo, o n´ıvel de irriga¸c˜ao do solo, mas vamos supor que estes, dentro do poss´ıvel, s˜ao mantidos constantes, em n´ıveis fixados). O experimento consiste em aplicar diferentes dosagens de fertilizante (de acordo com o interesse espec´ıficos dos beneficiados pela pesquisa) em lotes de planta¸c˜ao e ent˜ao verificar a produ¸c˜ao de cada lote.
Exemplo 1.3 A aptid˜ao de um operador novato em executar um servi¸co novo depende da dura¸c˜ao do treinamento. Para avaliar a efic´acia do programa, ´e conduzido um
4 estudo experimental da rela¸c˜ao entre a melhora na execu¸ca˜o do servi¸co y e a dura¸c˜ao do treinamento x.
1.2.2
Modelos Estat´ısticos
Para descrever rela¸c˜oes entre vari´aveis aleat´orias, ´e necess´ario que tenhamos bem claro o conceito de Modelo Estat´ıstico. O ato de fazer inferˆencia estat´ıstica pode ser descrito da seguinte maneira: deseja-se obter informa¸c˜ao sobre algum parˆametro desconhecido relacionado `a distribui¸c˜ao de alguma caracter´ıstica de uma popula¸c˜ao. Com este objetivo, uma amostra ´e extra´ıda desta popula¸c˜ao e espera-se que esta traga uma boa qualidade de informa¸c˜ao sobre a distribui¸c˜ao populacional. O modelo estat´ıstico ´e constitu´ıdo pela amostra em conjunto com a sua distribui¸c˜ao de probabilidade. Por exemplo, se desejamos estimar a probabilidade de cara de uma moeda, que vamos denotar por θ0 , consideramos observa¸c˜oes resultantes de n lan¸camentos independentes da moeda, o que constitui a amostra, e obtemos uma indica¸c˜ao sobre o valor de θ0 observando a vari´avel X dada pelo n´ umero de caras obtidas, que ´e uma fun¸c˜ao da amostra. Como desejamos testar hip´oteses (como, por exemplo, se a moeda ´e honesta), devemos conhecer a distribui¸c˜ao de X para calcular n´ıveis de significˆancia, etc. Vamos adotar ent˜ao a seguinte defini¸c˜ao
Defini¸c˜ ao 1.1 Um Modelo Estat´ıstico ´e definido por uma amostra X = (X1 , . . . , Xn ) e pelo conjunto {Pθ , θ ∈ Θ}, formado pelas poss´ıveis distribui¸c˜oes de probabilidade de X. O conjunto Θ ´e denominado Espa¸co Param´etrico associado ao modelo
Nesta defini¸c˜ao, Pθ ´e uma nota¸c˜ao que indica a dependˆencia da distribui¸c˜ao de probabilidade em rela¸c˜ao a θ, que ´e um elemento do conjunto Θ. A cada ponto θ ∈ Θ
corresponde uma distribui¸c˜ao Pθ plaus´ıvel para o experimento em quest˜ao. Considere-
5 mos o exemplo do in´ıcio desta se¸c˜ao. A amostra (X1 , . . . , Xn ) ´e dada por Xi =
(
1 se o resultado do i − ´esimo lan¸camento ´e cara 0 caso contr´ario,
i = 1, . . . , n, de modo a distribui¸c˜ao de X =
Pn
i=1
Xi ´e binomial com probabilidade de
sucesso (desconhecida) que denominaremos por θ. Os poss´ıveis valores para θ est˜ao no intervalo Θ = [0, 1], de modo que este ´e o espa¸co param´etrico. Mas somente um ponto em Θ ´e a probabilidade de cara associada a` moeda considerada no experimento — este valor ´e θ0 e ´e referenciado em geral como O Verdadeiro Valor do Parˆametro. Assim, o procedimento inferencial consiste em escolher um ponto θ no conjunto Θ ´ claro que esta tarefa deve ser baseada como sendo o verdadeiro valor do parˆametro. E na observa¸c˜ao de X. No decorrer deste texto a nota¸c˜ao X ∼ Pθ indicar´a que X tem distribui¸c˜ao de
probabilidade P com parˆametro associado θ. Nota¸c˜oes espec´ıficas ser˜ao utilizadas para a distribui¸c˜ao normal com m´edia µ e variˆancia σ 2 ( N (µ, σ 2 )), a distribui¸c˜ao qui-quadrado com n graus de liberdade (χ2n ) e a distribui¸c˜ao t de Student com n graus de liberdade (tn ).
1.3
Regress˜ ao Linear Simples
1.3.1
O Modelo de Regress˜ ao Linear Simples
O objetivo geral de nosso estudo ´e analisar o caso em que a distribui¸c˜ao populacional associada a observa¸c˜ao de uma determinada vari´avel – doravante denominada vari´avel resposta – ´e normal e tem uma m´edia que possivelmente depende de um particular valor pr´e-fixado x de uma outra vari´avel – doravante denominada vari´avel regres-
6 sora 2 . Especificamente, trataremos o caso em que esta dependˆencia ´e linear. Alguns objetivos espec´ıficos s˜ao
1. Responder se realmente existe uma dependˆencia linear entre a m´edia e x; 2. Estimar a m´edia; 3. Testar hip´oteses relacionadas `a m´edia.
Assim, o tipo de experimento que estamos interessados a fim de contruir um modelo estat´ıstico u ´til para atingir os objetivos acima consiste em tomar observa¸c˜oes independentes da vari´avel resposta para um determinado n´ıvel fixado x da vari´avel regressora. Para motivar, consideremos novamente o exemplo 1.1. Na tabela 1.1 temos observa¸c˜oes, tomadas independentemente, relativas a 10 carros. A quantidade de aditivo adicionada ´e definida – isto significa dizer que esta vari´avel ´e controlada pelo experimentador – e ent˜ao a redu¸c˜ao para aquele carro ´e observada. Observe que foram consideradas replica¸c˜oes para alguns n´ıveis da vari´avel quantidade de aditivo: a quantidade igual a 1 foi adicionada ao tanque de dois carros distintos, por exemplo. Neste exemplo 1.1 a vari´avel regressora ´e a quantidade de aditivo e a vari´avel resposta ´e a redu¸c˜ao. O nosso objetivo ´e definir um modelo estat´ıstico que relacione a m´edia da vari´avel resposta com os valores da vari´avel regressora para, por exemplo, no exemplo 1.1, respondermos quest˜oes do tipo 2
A vari´avel cujos n´ıveis s˜ao controlados recebe diferentes nomes na literatura como, por exemplo, vari´avel regressora, preditora, explicativa, explanadora, independente. Para a vari´avel a ser observada, termos comuns s˜ao vari´ avel predita, resposta ou dependente. Acreditamos que a combina¸ca˜o vari´avel independente-vari´avel dependente ´e a menos recomendada, pois pode levar a confus˜oes com o conceito de independˆencia estoc´ astica.
7
Tabela 1.1: Quantidade de aditivo e redu¸c˜ao de ´oxido de nitrogˆenio em 10 carros. Carro no 1 2 3 4 5 6 7 8 9 10
Quant. aditivo 1 1 2 3 4 4 5 6 6 7
redu¸ c˜ ao 2.1 2.5 3.1 3.0 3.8 3.2 4.3 3.9 4.4 4.8
1. Um aumento na quantidade de aditivo representa um aumento na redu¸c˜ao m´edia de emiss˜ao do poluente? Se sim, qual ´e a taxa de aumento? 2. Fixada uma quantidade de aditivo, qual ´e a previs˜ao de redu¸c˜ao m´edia na emiss˜ao do poluente?
Seja xi um n´ıvel fixado da vari´avel regressora e definamos Yi como sendo a observa¸c˜ao da resposta a ser feita correspondente a este n´ıvel, i = 1, . . . , n (n ´e o tamanho da amostra). Ao valor observado de Yi denotaremos por yi . Na tabela 1.1 temos n = 10, x1 = 1 e y1 = 2.1, por exemplo. A seguir definimos o tipo de modelo que ser´a discutido neste cap´ıtulo.
Defini¸c˜ ao 1.2 O Modelo de Regress˜ ao Linear Simples ´e definido por vari´aveis Y1 , . . . , Yn independentes – correspondentes `as observa¸c˜oes da vari´avel resposta – tais que Yi ∼ N (µi , σ 2 ), onde σ 2 > 0, µi = β0 + β1 xi ,
(1.1)
8 e xi s˜ao valores fixados da vari´avel regressora, i = 1, . . . , n.
Notemos que cada Yi representa uma amostra de tamanho 1 a ser obtida de uma popula¸c˜ao que tem distribui¸c˜ao N (µi , σ 2 ). No caso em que h´a replica¸c˜oes, ou seja, quando para cada xi ´e observada uma amostra desta popula¸c˜ao de tamanho ni , uma nota¸c˜ao mais conveniente seria Yij ∼ N (µi , σ 2 ), j = 1, . . . , ni , i = 1, . . . , n, mas a
nota¸c˜ao da defini¸c˜ao 1.2 ´e suficiente para os prop´osito desta exposi¸c˜ao inicial. β0 e β1
s˜ao parˆametros que devem ser estimados a partir da amostra Y1 , . . . , Yn . Observe que esta ´e uma defini¸c˜ao leg´ıtima de modelo estat´ıstico, de acordo com a defini¸c˜ao 1.1. O espa¸co param´etrico associado ´e o conjunto Θ = {(β0 , β1 , σ 2 ); β0 ∈ R, β1 ∈ R, σ 2 > 0}.
(1.2)
A quest˜ao ´e saber se este modelo ´e adequado para descrever os fenˆomenos que nos interessam, como o do exemplo 1.1 e outros. Vamos tomar como guia o exemplo 1.1. Neste caso, ser´a que ´e razo´avel considerar que a vari´avel relativa `a observa¸c˜ao de cada carro tem distribui¸c˜ao normal? E se isto ocorrer, ´e razo´avel supor que a sua m´edia ´e da forma dada em (1.1)? E que as variˆancias s˜ ao todas iguais (a σ 2 )? Caso a resposta seja sim a todas estas quest˜oes, podemos considerar o modelo de regress˜ao linear simples como adequado para descrever o fenˆomeno. Mais tarde veremos mecanismos que s˜ao u ´teis para decidirmos se o modelo ´e ou n˜ao adequado, um processo que usualmente ´e denominado valida¸c˜ao. Observemos que no modelo de regress˜ao linear simples o par (xi , µi ) pertence ao gr´afico da fun¸c˜ao f (x) = β0 + β1 x, x ∈ R. Para exemplificar, considere a figura 1.1, que representa um diagrama de dispers˜ao para pontos (xi , yi ), onde xi s˜ao pontos no
conjunto {1, . . . , 10} gerados em computador. Para cada xi , gera-se uma observa¸c˜ao yi
de uma vari´avel com distribui¸c˜ao normal com m´edia µi = 1 + 2xi e variˆancia igual a 1.
Assim, uma primeira evidˆencia de que o modelo de regress˜ao linear simples ´e (ou n˜ao) adequado para descrever a rela¸c˜ao entre as vari´aveis pode ser obtida atrav´es de um
9
Figura 1.1: Diagrama de dispers˜ao para oberva¸c˜oes geradas de acordo com o modelo Y ∼ N (1 + 2x, 1)
diagrama de dispers˜ao: um diagrama como o da figura 1.1 deve indicar uma tendˆencia linear de crescimento ou de decrescimento. Para consolidar o entendimento, a figura 1.2 apresenta as curvas normais associadas a cada vari´avel Yi com m´edia µi = β0 +β1 xi e faz a representa¸c˜ao dos pontos (xi , µi ) no gr´afico da fun¸c˜ao f (x) = β0 + β1 x, x ∈ R. Para
os dados do exemplo 1.1 o diagrama de dispers˜ao ´e apresentado na figura 1.3 e notamos uma tendˆencia linear, um indicativo de que o modelo de regress˜ao linear simples pode ser adequado para a descri¸c˜ao dos dados. Um u ´ltimo coment´ario quanto `a defini¸c˜ao do modelo de regress˜ao linear simples:
o termo linear na defini¸c˜ao 1.2 refere-se `a m´edia das observa¸c˜oes vista como fun¸c˜ao do vetor (β0 , β1 ), que ´e uma fun¸c˜ao linear. Assim, modelos da forma µi = β0 + β1 x2i e µi = β0 + β1 exp xi tamb´em s˜ao lineares, pois podem ser reduzidos `a forma apresentada na defini¸c˜ao considerando zi = x2i e zi = exp xi , i = 1, . . . , n como valores de uma nova vari´avel regressora no primeiro e no segundo caso, respectivamente.
10
Figura 1.2: As m´edias das respostas como fun¸c˜ao linear dos valores dos regressores
Figura 1.3: Diagrama de dispers˜ao dos dados na tabela 1.1
1.3.2
Estima¸c˜ ao
Para fazer a estima¸c˜ao dos parˆametros no modelo de regress˜ao linear simples — a saber: β0 , β1 e σ 2 , utilizaremos o m´etodo da m´axima verossimilhan¸ca ver, por
11 exemplo, Bolfarine e Sandoval (2001, P´ag 35). Como Yi ∼ N (β0 + β1 xi , σ 2 ), temos que
a densidade de Yi ´e dada por f (yi ) = 2πσ
2 −1/2
1 2 exp − 2 (yi − β0 − β1 xi ) , 2σ
yi ∈ R,
ı = 1, . . . , n.
Seja y1 , . . . , yn uma amostra observada. Como sabemos, a verossimilhan¸ca associada `a esta amostra ´e a densidade conjunta de Y1 , . . . , Yn , vista como fun¸c˜ao de β0 , β1 e σ 2 . Como Y1 , . . . , Yn s˜ao independentes, temos que o logaritmo da fun¸c˜ao de verossimilhan¸ca ´e dado por L β0 , β1 , σ
2
n 1 X n 2 (yi − β0 − β1 xi )2 , = − log(2πσ ) − 2 2 2σ ı=1
(β0 , β1 ) ∈ R2 ,
σ 2 > 0. (1.3)
Para encontrar o m´aximo desta fun¸c˜ao em β0 , β1 e σ 2 , podemos utilizar o seguinte m´etodo: fixar σ 2 e maximizar a fun¸c˜ao parcial (em β0 e β1 ), (β0 , β1 ) 7→ L(β0 , β1 , σ 2 ),
(β0 , β1 ) ∈ R2
(1.4)
e, ap´os encontrar os pontos βˆ0 e βˆ1 que maximizam esta fun¸c˜ao, maximizar a fun¸c˜ao σ 2 7→ L(βˆ0 , βˆ1 , σ 2 ),
σ 2 > 0.
(1.5)
Isto pode ser feito por que as varia¸c˜oes de (β0 , β1 ) e σ 2 s˜ao independentes. Este m´etodo ´e denominado Princ´ıpio do Supremo Iterado.3 3
O princ´ıpio, conforme Bartle (1983, P´ag 51), ´e o seguinte: Sejam X e Y conjuntos n˜ ao-vazios e seja f : X × Y → R com contradom´ınio limitado. Sejam f1 (x) = sup{f (x, y); y ∈ Y } e f2 (y) = sup{f (x, y); x ∈ X}. Ent˜ao sup{f (x, y); x ∈ X y ∈ Y } =
=
sup{f1 (x); x ∈ X}
sup{f2 (y); y ∈ Y }.
12 Maximizar a fun¸c˜ao parcial em (1.4) ´e equivalente a minimizar a fun¸c˜ao (β0 , β1 ) 7→
n X ı=1
(yi − β0 − β1 xi )2 ,
(β0 , β1 ) ∈ R2 .
(1.6)
As estimativas obtidas a partir da´ı recebem ent˜ao o sugestivo nome de Estimativas de M´ınimos Quadrados que, ´e claro, coincidem com as estimativas de m´axima verossimilhan¸ca para β0 e β1 . Consideremos ent˜ao o problema de encontrar um ponto de m´aximo global para a fun¸c˜ao em (1.4) ou, o que ´e equivalente, encontrar um ponto de m´ınimo global para (1.6). Temos que yi − β0 − β1 xi = yi − β0 − y¯ + y¯ − β1 xi − β1 x¯ + β1 x¯ = (yi − y¯) − β1 (xi − x¯) + (¯ y − β0 − β1 x¯) de tal maneira que n X ı=1
2
(yi − β0 − β1 xi )
=
n X ı=1
=
n X ı=1
[(yi − y¯) − β1 (xi − x¯) + (¯ y − β0 − β1 x¯)]2 2
(yi − y¯) +
−2β1
n X ı=1
β12
ı=1
n X ı=1
2
(xi − x¯) +
n X ı=1
(¯ y − β0 − β1 x¯)2
(xi − x¯) (yi − y¯) − 2β1 (¯ y − β0 − β1 x¯)
+2 (¯ y − β0 − β1 x¯) Observe que
n X
(xi − x¯) =
n X ı=1
n X ı=1
n X ı=1
(xi − x¯)
(yi − y¯) .
(yi − y¯) = 0.
Fazendo Sx2
=
n X ı=1
2
(xi − x¯) ,
Sy2
=
n X ı=1
2
(yi − y¯)
e Sxy =
n X ı=1
(xi − x¯) (yi − y¯) ,
13 obtemos n X ı=1
(yi − β0 − β1 xi )2 = n (¯ y − β0 − β1 x¯)2 + β12 Sx2 − 2β1 Sxy + Sy2 .
Podemos rearranjar a express˜ao e completar o quadrado, obtendo n 2 2 X Sxy Sxy 2 2 2 2 (yi − β0 − β1 xi ) = n (¯ y − β0 − β1 x¯) + β1 Sx − 2β1 Sxy + 2 + Sy2 − 2 Sx Sx ı=1
Sxy = n (¯ y − β0 − β1 x¯) + β1 Sx − Sx 2
2
+
Sy2
2 Sxy − 2 Sx
(1.7)
Observe que a u ´ltima parcela nesta soma n˜ao depende de β0 e β1 . A soma das outras duas parcelas ´e uma soma de termos ao quadrado, cujo m´ınimo ´e zero, e ´e atingido quando as parcelas s˜ao iguais a zero, ou seja, quando Sxy y¯ − β0 − β1 x¯ = 0 e β1 Sx − = 0. Sx A solu¸c˜ao deste sistema de equa¸c˜oes ´e βˆ0 = y¯ − βˆ1 x¯
e
Sxy βˆ1 = 2 . Sx
(1.8)
Estas s˜ao, portanto, as estimativas de m´axima verossimilhan¸ca (de m´ınimos quadrados) para β0 e β1 , obtidas a partir da amostra y = (y1 , . . . , yn ). Os estimadores respectivos s˜ao obtidos substituindo Y = (Y1 , . . . , Yn ) no lugar de y em (1.8). No entanto, neste caso, utilizaremos a mesma nota¸c˜ao para estimador e estimativa, ou seja, βˆ0 e βˆ1 . Antes de tratarmos da estima¸c˜ao do parˆametro σ 2 , vamos definir alguns conceitos importantes. Defini¸c˜ ao 1.3 Consideremos uma amostra observada e sejam βˆ0 e βˆ1 as respectivas estimativas de m´ınimos quadrados para β0 e β1 . A fun¸c˜ao µ ˆ(x) = βˆ0 + βˆ1 x, ´e denominada reta de regress˜ ao estimada.
x∈R
(1.9)
14 Para cada x ∈ R temos que, pelo princ´ıpio da invariˆancia do estimador de m´axima
verossimilhan¸ca, µ ˆ(x) ´e uma estimativa de m´axima verossimilhan¸ca para µ(x) = β0 + β1 x,
(ver Zacks, 1971, Teorema 5.1.1). Observemos que, mesmo que x n˜ao seja um dos valores fixados xi , µ ˆ(x) ´e um leg´ıtimo estimador de m´axima verossimilhan¸ca. Tradicionalmente µ ˆ(xi ) recebe a denomina¸c˜ao Valor Ajustado Correspondente a` i-´esima Observa¸c˜ao e ´e denotado por yˆi embora, particularmente, consideremos estas terminologia e nota¸c˜ao inadequadas, pela confus˜ao que pode ocorrer com o conceito de Previs˜ ao de uma Observa¸c˜ao, que ´e completamente diferente, conforme veremos na se¸c˜ao 1.3.6. A seguir vamos definir um conceito fundamental no instante em que formos tratar da valida¸c˜ao do modelo de regress˜ao linear. Defini¸c˜ ao 1.4 A vari´avel aleat´oria Ei = Yi − µ ˆ(xi ),
(1.10)
´e denominada res´ıduo associado a` ı-´esima observa¸c˜ao, ı = 1, . . . , n.
Por (1.7) temos que, para uma amostra (y1 , . . . , yn ) com res´ıduos observados (e1 , . . . , en ), min
( n X ı=1
2
(yi − β0 − β1 xi ) ; (β0 , β1 ) ∈ R
2
)
n 2 X ˆ ˆ yi − β0 − β1 xi =
=
ı=1 n X i=1
=
n X
[(yi − µ ˆ(xi )]2 e2i
i=1
2 Sxy Sx2 = Sy2 − βˆ12 Sx2 ,
= Sy2 −
15 uma quantidade adequadamente denominada Soma dos Quadrados dos Res´ıduos. Para cita¸c˜oes posteriores, vamos enunciar a
Defini¸c˜ ao 1.5 Definimos a Soma dos Quadrados dos Res´ıduos por SQres =
n X
e2i
=
ı=1
n X ı=1
[yi − µ ˆ(xi )]2 = Sy2 − βˆ12 Sx2 .
Voltando agora ao processo de estima¸c˜ao: o estimador de m´axima verossimilhan¸ca para σ 2 ´e obtido maximizando-se a fun¸c˜ao de verossimilhan¸ca em (1.5). Ou seja, devemos encontrar σ ˆ 2 tal que n o max L βˆ0 , βˆ1 , σ 2 ; σ 2 > 0 = L βˆ0 , βˆ1 , σ ˆ2 Temos que n ∂L (β0 , β1 , σ 2 ) n 1 1 X (yi − β0 − β1 xi )2 . =− · · 2π + 4 2 2 ∂σ 2 2πσ 2σ ı=1
Igualando a zero, temos que n
2 1 1 X Yi − βˆ0 − βˆ1 xi = SQres σ ˆ = n ı=1 n 2
(1.11)
´e a estimativa de m´axima verossimilan¸ca para σ 2 . Finalmente, ´e poss´ıvel mostrar que a fun¸c˜ao definida em (1.5) tem derivada negativa para todo σ 2 > 0 e, portanto, σ ˆ 2 ´e um ponto de m´aximo global. Assim, concluimos que βˆ0 , βˆ1 , σ ˆ 2 ´e um ponto de m´aximo
global da fun¸c˜ao de verossimilhan¸ca.
Exemplo 1.4 De volta aos dados da tabela 1.1. Neste caso, temos x¯ = 3.9, y¯ = 3.51, s2x = 40.9, s2y = 6.85, sxy = 15.81, βˆ = 0.387, βˆ0 = 2.00 e SQres = 0.74. A reta de regress˜ao estimada, obtida a partir destes valores, ´e dada por µ ˆ(x) = 2.0024 + 0.3865x.
16 Assim, a estimativa da m´edia de redu¸c˜ao na emiss˜ao de ´oxido de nitrogˆenio correspondente `a adi¸c˜ao de 3.2 unidades de aditivo ´e dada por 2.0024 + 0.3865 × 3.2 = 3.2392. Estas estimativas podem ser obtidas utilizando qualquer software estat´ıstico. A figura 1.4 mostra um gr´afico com os dados e a reta de regress˜ao. Observe tamb´em a representa¸c˜ao dos valores observados dos res´ıduos. Figura 1.4: Diagrama de dispers˜ao e reta de regress˜ao para os dados da tabela 1.1
1.3.3
A Distribui¸c˜ ao dos Estimadores de M´ axima Verossimilhan¸ ca
Nesta se¸c˜ao apresentaremos a distribui¸c˜ao dos estimadores obtidos anteriormente. A partir da´ı ser´a poss´ıvel elaborar testes para algumas hip´oteses de interesse, como a n˜ao influˆencia dos valores da vari´avel regressora na m´edia da vari´avel resposta.
17 Observemos que, no modelo de regress˜ao linear simples, β1 = 0 significa que a m´edia da vari´avel resposta n˜ao depende dos particulares valores da vari´avel regressora. Os testes para esta hip´otese que ser˜ao considerados aqui baseiam-se nos estimadores de m´axima verossimilhan¸ca e, portanto, necessitamos estabelecer resultados concernentes `as suas distribui¸c˜oes de probabilidade.
Teorema 1.1 Seja (βˆ0 , βˆ1 , σ ˆ 2 ) o estimador de m´axima verossimilhan¸ca para o modelo de regress˜ao linear simples. Ent˜ao
1. βˆ0 ∼ N β0 , σ 2 n1 + 2.
SQres σ2
x ¯2 Sx2
e
2 βˆ1 ∼ N β1 , Sσ 2 x
∼ χ2n−2
3. SQres ´e independente de βˆ0 e βˆ1 .
A demonstra¸c˜ao deste teorema ser´a apresentada no cap´ıtulo 2, onde trataremos de um modelo mais geral. Como conseq¨ uˆencia, temos o
Corol´ ario 1.1 Seja QMres = o Quadrado M´edio dos Res´ıduos. Ent˜ao
1.
βˆ1 −β1 (QMres/Sx2 )1/2
∼ tn−2
e
SQres n−2
βˆ0 −β0 1/2 2 1 QMres n + x¯ 2 Sx
∼ tn−2 .
2. QMres ´e um estimador n˜ao viciado para σ 2 .
Demonstra¸c˜ ao do Corol´ ario:
18 1. (Somente a parte concernente a β1 . A outra parte ´e completamente an´aloga.) Como βˆ1 ∼ N
σ2 β1 , 2 , Sx
temos que βˆ1 − β1 ∼ N (0, 1). σ/Sx Pelo item 3 do teorema, temos que βˆ1 − β1 σ/Sx
SQres σ2
e
s˜ao independentes. Pelo item 2 e pela defini¸c˜ao da distribui¸c˜ao t de Student vem que βˆ1 − β1 σ/Sx
!
SQres ÷ (n − 2)σ 2
1/2
∼ tn−2 ,
e o resultado segue pela defini¸c˜ao de QMres. 2. Temos que E (QMres) = E Como, pelo item 2 no teorema,
SQres n−2
=
1 E (SQres) . n−2
SQres ∼ χ2n−2 , σ2 resulta que E (SQres) = σ 2 (n − 2). Assim, concluimos que E(QMres) = σ 2 e, portanto, QMres ´e um estimador n˜ao viciado para σ 2 .
Observe tamb´em que, pelo teorema 1.1, βˆ0 e βˆ1 s˜ao estimadores n˜ao viciados para β0 e β1 , respectivamente.
19 Utilizando o resultado no item 1 do corol´ario 1.1 podemos obter intervalos de confian¸ca para β0 e β1 . Seja Tk uma vari´avel aleat´oria com distribui¸c˜ao t de Student com k graus de liberdade e seja tk;α tal que P (Tk > tk;α ) = α, onde 0 < α < 1 (veja a figura 1.5). Ent˜ao, ´ Figura 1.5: Area `a direita do ponto tk,α .
P
−tn−2; α2 <
βˆ1 − β1
(QMres/Sx2 )1/2
< tn−2; α2
!
= 1 − α,
de modo que h
P βˆ1 − tn−2; α2 QMres/Sx2 e, portanto,
1/2
< β1 < βˆ1 + tn−2; α2 QMres/Sx2
βˆ1 ± tn−2; α2 QMres/Sx2
1/2
1/2 i
=1−α
(1.12)
20 ´e um intervalo de confian¸ca para β1 com coeficiente 1 − α. De forma an´aloga podemos obter um intervalo de confian¸ca para β0 , que ´e dado por βˆ0 ± tn−2; α2
1/2 1 x2 . + QMres n Sx2
Exemplo 1.5 Para as observa¸c˜oes na tabela 1.1 temos n = 10. Para obter um intervalo com coeficiente 95% para β1 devemos utilizar t8;0.025 = 2.3060 na f´ormula (1.12), obtendo o intervalo (0.2770, 0.4960).
1.3.4
Teste para Hip´ otese β1 = 0
Se a hip´otese H0 :
β1 = 0
(1.13)
for verdadeira, a m´edia da vari´avel resposta n˜ao depende de qualquer valor da vari´avel regressora, como pode ser visto pela defini¸c˜ao do modelo de regress˜ao. No caso do exemplo 1.1, isto significa dizer que a redu¸c˜ao m´edia na emiss˜ao de poluente n˜ao depende de valores espec´ıficos da quantidade de aditivo, sendo a mesma qualquer que seja esta quantidade. Nesta se¸c˜ao vamos tratar de um teste para a hip´otese H0 . Testar a hip´otese H0 ´e popularmente conhecido como “testar a significˆancia da vari´avel regressora no modelo”. Na exposi¸c˜ao que segue vamos considerar a situa¸c˜ao mais geral dada por H0 :
β1 = β ∗ ,
´ natural onde β ∗ ´e conhecido (a hip´otese em (1.13) corresponde ao caso β ∗ = 0). E basearmos um teste para H0 nos valores observados do estimador (n˜ao viciado) de β1 , βˆ1 .
21 Consideremos como estat´ıstica de teste T =
Sx (βˆ1 − β ∗ ) . (QMres)1/2
A distribui¸c˜ao de T supondo que H0 ´e verdadeira ´e, pelo Corol´ario 1.1, t de Student com n − 2 graus de liberdade4 e, com este resultado, podemos calcular a probabilidade
de erro do tipo I para uma determinada regra de decis˜ao baseada em T . Para uma hip´otese alternativa H1 :
β1 6= β ∗
podemos rejeitar H0 , por exemplo, para grandes valores de | T |, o que significa encontrar um valor cr´ıtico c e definir a regra de decis˜ao por
Rejeitar H0 se e somente se | T |> c.
(1.14)
Para um teste de n´ıvel de significˆancia α, c deve ser escolhido de tal maneira que Pβ1 =β ∗ (| T |> c) = α, de modo que c = tn−2; α2 . Seja t o valor observado da estat´ıstica T . O teste tamb´em pode ser efetuado atrav´es da observa¸c˜ao da Probabilidade de Significˆancia – ou p-value (pv ), como ´e mais conhecida, que ´e definida como sendo a probabilidade, sob H0 , de erro tipo I quando c ´e igual a t, ou seja, pv = Pβ1 =β ∗ (| T |> t). Esta probabilidade corresponde ao menor n´ıvel de significˆancia poss´ıvel para um valor cr´ıtico que leva `a rejei¸c˜ao de H0 , com base no valor observado t. 4
Observemos que os pontos do espa¸co param´etrico que est˜ao em H0 constituem o subconjunto dado por {θ = (β0 , β1 , σ 2 ); β0 ∈ R, β1 = β ∗ , σ 2 > 0}, de modo que H0 ´e uma hip´otese composta. Pelo Corol´ ario 1.1 temos que a distribui¸ca˜o de T ´e a mesma para qualquer ponto em H0 que seja tomado como verdadeiro valor do parˆ ametro, ou seja, esta distribui¸ca˜o n˜ ao depende de θ. Isto n˜ ao ´e a regra geral, n˜ao ´e o que ocorre com a maioria dos testes para parˆ ametros em outros tipos de modelos estat´ısticos. Estamos, portanto, diante de um fato que ocorre com rara felicidade.
22 Este teste ´e conhecido na literatura tradicional da ´area como Teste t Bilateral. Na se¸c˜ao 2.6 provaremos que este teste ´e equivalente ao teste da raz˜ao de verossimilhan¸ca para H0 contra a hip´otese H1 : β1 6= β ∗ . ´ importante tamb´em discutir a fun¸c˜ao poder do teste. Seja Θ o espa¸co paE ram´etrico associado ao modelo de regress˜ao linear simples, dado em (1.2). A fun¸c˜ao poder associada ao teste t bilateral ´e dada por ψ(θ) = Pθ (| T |> c),
θ ∈ Θ,
(1.15)
ou seja, ψ(θ) ´e a probabilidade de rejeitar H0 quando assumimos que θ ´e o verdadeiro valor do parˆametro. Se θ est´a em H0 , temos que ψ(θ) ´e uma probabilidade de erro do tipo I (rejeitar a hip´otese nula quando esta ´e verdadeira). Se θ est´a na hip´otese alternativa, ent˜ao ψ(θ) ´e conhecido como o Poder do Teste Contra a Alternativa θ. Para determinar este poder necessitamos, portanto, da distribui¸c˜ao de T em pontos de H1 . Vamos apresentar a distribui¸c˜ao no Teorema 1.2, mas antes precisamos definir a Distribui¸c˜ao t N˜ ao Central. Defini¸c˜ ao 1.6 Sejam Z ∼ N (ξ, 1) e W ∼ χ2k vari´aveis aleat´orias independentes. A distribui¸c˜ao de Z T = (W/k)1/2 ´e denominada t N˜ ao Central com k Graus de Liberdade e Parˆametro de N˜ ao Centralidade ξ.
Observe que o caso ξ = 0 corresponde `a distribui¸c˜ao t usual. Utilizaremos a nota¸c˜ao T ∼ t(k,ξ) . Teorema 1.2 A distribui¸c˜ao da estat´ıstica T ´e t n˜ao central com n − 2 graus de liberdade e parˆametro de n˜ao centralidade ξ=
Sx (β1 − β ∗ ) . σ
(1.16)
23 Demonstra¸c˜ ao: Pelo Teorema 1.1, temos que 2 σ βˆ1 − β1 ∼ N 0, 2 . Sx
Assim, como
βˆ1 − β ∗ = βˆ1 − β1 + β1 − β ∗ , resulta que βˆ1 − β ∼ N ∗
implicando em
σ2 β1 − β , 2 Sx ∗
,
Sx (β1 − β ∗ ) Sx (βˆ1 − β ∗ ) ∼N ,1 . (1.17) σ σ Ainda pelo Teorema 1.1, temos que SQres e βˆ1 − β ∗ s˜ao independentes. Basta ent˜ao
fazer a raz˜ao entre a vari´avel em (1.17) e 1/2 QMres , σ2
e utilizar o item 2 do Teorema 1.1 mais a defini¸c˜ao da distribui¸c˜ao t n˜ao central para obter o resultado. Assim, para um θ = (β0 , β1 , σ 2 ) qualquer (n˜ao necessariamente em H0 ou H1 ), resulta que que a fun¸c˜ao poder definida em (1.15) ´e dada por ψ(θ) = Pθ (| T |> c) = Pθ (T > c) + Pθ (T < −c) = P (t(n−2,ξ) > c) + P (t(n−2,ξ) < −c),
(1.18)
onde ξ ´e dado em (1.16). Observemos tamb´em que ξ = 0 se e somente se β1 = β ∗ , ou seja, se a hip´otese H0 for verdadeira. Assim, neste caso e somente neste, T tem distribui¸c˜ao t central. Um fato interessante ´e que, vista como fun¸c˜ao somente de β1 (ou seja, fixando os outros parˆametros), a fun¸c˜ao ψ em (1.18) ´e tal que ψ(β1 + β ∗ ) = ψ(−β1 + β ∗ )
24 para todo β1 ∈ R. Isto quer dizer que, vista somente como fun¸c˜ao de β1 , ψ ´e sim´etrica em torno de β ∗ . Uma sugest˜ao de demonstra¸c˜ao deste resultado est´a no exerc´ıcio 9.
Exemplo 1.6 Considere o teste t bilateral para testar H0 : β1 = 0. A fun¸c˜ao poder do teste ´e dada em (1.18), com Sx β1 . ξ= σ Para os dados do exemplo 1.1, temos Sx2 = 0.49. Utilizando como estimativa para σ a raiz do valor observado de QMres (ˆ σ = 0.0962) e um n´ıvel de significˆancia igual a 5%, obtemos a tabela 1.2 com valores de ψ(β1 ). Tabela 1.2: Valores da Fun¸c˜ao Poder do Teste t Bilateral para H0 : β1 = 0. Dados da Tabela 1.1. β1 0.00 0.02 0.04 0.06 0.08 0.10
ψ(β1 ) 0.0500 0.0710 0.1325 0.2393 0.3844 0.5486
Finalmente, suponha que definamos a hip´otese alternativa como H1 :
β1 > β ∗ .
Neste caso ´e intuitivo utilizarmos uma regra de decis˜ao unilateral, ou seja, Rejeitar H0 se e somente se T > c e tomar como valor cr´ıtico c = tn−2;α , a fim de obter um teste com n´ıvel se significˆancia α. Caso a hip´otese alternativa seja H1 :
β1 < β ∗ ,
25 tomamos como regra de decis˜ao para um teste de n´ıvel α, Rejeitar H0 se e somente se T < −tn−2;α . Exemplo 1.7 No caso da emiss˜ao de poluentes, temos que o valor observado de QMres ´e 0.74/8 = 0.0925, de tal forma que o valor observado da estat´ıstica T ´e sx βˆ = (QMres)1/2
40.9 0.0925
1/2
× 0.387 = 8.14.
Neste caso ´e natural supormos que a redu¸c˜ao m´edia na emiss˜ao de poluente n˜ao diminui quando aumentamos a quantidade de aditivo, de modo que podemos considerar como hip´otese alternativa H1 : β1 > 0. Para um teste unilateral de n´ıvel α = 0.05, temos t8;5% = 1.86, de modo que rejeitamos H0 : β1 = 0. A probabilidade de significˆancia ´e pv = P (t8 > 8.14) ∼ = 0. Assim, os dados fornecem evidˆencias de uma redu¸c˜ao significativa nos n´ıveis m´edios de ´oxido de nitrogˆenio quando o aditivo ´e utilizado.
1.3.5
Estima¸c˜ ao da M´ edia da Vari´ avel Resposta
Seja x um valor da vari´avel regressora. Pela discuss˜ao apresentada ap´os a defini¸c˜ao 1.3, temos que o estimador de m´axima verossimilhan¸ca para a m´edia µ(x) ´e dado por µ ˆ (x) = βˆ0 + βˆ1 x.
Observe que µ ˆ(x) ´e um estimador n˜ao viciado para µ(x), pois E (ˆ µ (x)) = β0 + β1 x = µ (x) . O teorema a seguir mostra a distribui¸c˜ao de µ ˆ(x).
26 Teorema 1.3
"
µ ˆ (x) ∼ N µ (x) , σ 2
Corol´ ario 1.2
1 (x − x¯) + n Sx2
2
!#
µ ˆ (x) − µ (x) r h i ∼ tn−2 2 (x−¯ x ) QMres n1 + S 2 x
A demonstra¸c˜ao do teorema fica para o cap´ıtulo 2, onde todos os teoremas vistos at´e aqui ser˜ao enunciados de um forma mais geral. A demonstra¸c˜ao do corol´ario segue as mesmas linhas da demonstra¸c˜ao do Corol´ario 1.1. Como corol´ario do Corol´ario 1.2 temos o seguinte resultado:
Corol´ ario 1.3 Um intervalo com coeficiente de confian¸ca (1 − α)100% para µ(x) ´e dado por !#1/2 " 1 (x − x¯)2 + . (1.19) µ ˆ (x) ± tn−2;α QMres n Sx2
Exemplo 1.8 Em rela¸c˜ao aos dados da tabela 1.1, a redu¸c˜ao esperada correspondente `a quantidade de aditivo x = 4 ´e estimada por µ ˆ (x) = βˆ0 + βˆ1 x = 2 + 0.387 × 4 = 3.548.
Temos que x¯ = 3.9, s2x = 40.9 e t8;0.025 = 2.306. Assim, um intervalo de confian¸ca a 95% para µ(4) ´e dado por 3.548 ± 2.306 × 0.0925 ×
s
1 (4 − 3.9)2 + 10 40.9
= [3.33; 3.77].
27 Suponha que desejamos tamb´em estimar a redu¸c˜ao m´edia em x = 7.5. Seguindo os mesmo passos, temos que a estimativa pontual de µ(7.5) ´e µ ˆ(7.5) = 2 + 0.387 × 7.5 = 4.9 e um intervalo de confian¸ca para µ(7.5) a 95% ´e dado por s 1 (7.5 − 3.9)2 + = [4.45; 5.35] 4.9 ± 2.306 × 0.304 × 10 40.9 O comprimento do intervalo de confian¸ca (1.19) (ou seja, o extremo superior do intervalo menos o extremo inferior) ´e dado por "
2tn−2;α QMres
1 (x − x¯)2 + n Sx2
!#1/2
.
(1.20)
Observando este comprimento como fun¸c˜ao de x, vemos que este atinge o seu m´ınimo quando x = x¯ e aumenta conforme aumenta a distˆancia entre x e x¯. Isto mostra que a previs˜ao da m´edia ´e mais precisa pr´oximo de x¯ e torna-se crescentemente imprecisa quando nos afastamos de x¯ (veja os comprimentos dos dois intervalos obtidos no exemplo acima em x = 4 e em x = 7.5). Em particular n˜ao ´e recomend´avel obter previs˜oes para valores x distantes de m´ın{x1 , . . . , xn } ou m´ax{x1 , . . . , xn }. Equivalentemente,
podemos notar que o comprimento em (1.20) ´e diretamente proporcional ao desvio padr˜ao estimado de µ ˆ(x), apresentado no Teorema 1.3. O aumento de imprecis˜ao na estima¸c˜ao ´e ent˜ao equivalente ao aumento na variabilidade do estimador. Para ter uma vis˜ao clara sobre como pode ser uma m´a id´eia obter estimativas da m´edia da vari´avel resposta muito afastadas do “padr˜ao”das observa¸c˜oes, observemos a figura 1.6, onde um modelo de regress˜ao linear ´e adequado para descrever a rela¸c˜ao entre as vari´aveis no intervalo de valores da vari´avel regressora que vai de 5 a 10. No entanto, se a reta estimada fosse estendida para estimar a resposta m´edia em x = 20, ter´ıamos uma estimativa absurdamente irreal.
28
Figura 1.6: O Risco de uma Previs˜ao Afastada
1.3.6
Previs˜ ao de uma Observa¸ c˜ ao Futura da Vari´ avel Resposta
Trataremos agora de uma quest˜ao similar, mas n˜ao equivalente, `a da se¸c˜ao anterior, onde obtivemos um estimador para a m´edia da vari´avel resposta em um determinado n´ıvel da vari´avel regressora. Nesta se¸c˜ao, desejamos prever uma futura observa¸c˜ao da vari´avel resposta para um determinado valor x da vari´avel regressora. Esta quest˜ao ´e diferente da anterior, pois envolve uma inferˆencia sobre uma observa¸c˜ao ainda n˜ao realizada da vari´avel resposta. Se as condi¸c˜oes experimentais permitirem podemos obter futuramente a observa¸c˜ao. Isto ´e totalmente diferente de estimar a m´edia µ(x), uma vez que possivelmente jamais saberemos o seu verdadeiro valor. Vamos assumir que as observa¸c˜oes dispon´ıveis Y1 , . . . , Yn , s˜ao independentes da futura observa¸c˜ao Y ∗ correspondente a um valor da vari´avel regressora x∗ e que a distribui¸c˜ao de Y ∗ ´e normal com m´edia µ(x∗ ) e variˆancia σ 2 . Como os estimadores βˆ0
29 e βˆ1 dependem somente de Y1 , . . . , Yn , vem que Y ∗ ´e independente de (βˆ0 , βˆ1 ). Como µ ˆ(x∗ ) = βˆ0 + βˆ1 x∗ , temos que Y ∗ e µ ˆ(x∗ ) tamb´em s˜ao independentes, al´em de terem distribui¸c˜ao normal com a mesma m´edia µ(x∗ ). Al´em disso, ∗
∗
∗
∗
2
V ar (Y − µ ˆ(x )) = V ar (Y ) + V ar (ˆ µ(x )) = σ + σ
2
"
# 1 (x∗ − x¯)2 + . n Sx2
Demonstramos ent˜ao o seguinte teorema: Teorema 1.4 h
Y∗−µ ˆ(x∗ )
σ 1+
1 n
+
(x∗ −¯ x)2 2 Sx
i1/2 ∼ N (0, 1),
que implica no Corol´ ario 1.4
Y∗−µ ˆ(x∗ ) n h io1/2 ∼ tn−2 . (x∗ −¯ x)2 1 QMres 1 + n + S 2 x
Assim, o intervalo aleat´orio µ ˆ(x∗ ) ± tn−2,α/2
(
"
1 (x∗ − x¯)2 QMres 1 + + n Sx2
#)1/2
´e um intervalo de previs˜ ao para Y ∗ com coeficiente de confian¸ca 1 − α Exemplo 1.9 Para os dados da tabela 1.1, suponha que desejamos prever a redu¸c˜ao de ´oxido de nitrogˆenio para a quantidade de x∗ = 4.5 unidades de aditivo. A estimativa da redu¸c˜ao m´edia ´e µ ˆ(4.5) = 2 + 0.387 × 4.5 = 3.74 e o intervalo de previs˜ao a 95% ´e dado por s
3.74 ± 2.306 × 0.304 1 +
1 (4.5 − 3.9)2 + 10 40.9
= (3.00; 4.48).
30
1.3.7
Alguns Coment´ arios Sobre a Adequa¸ c˜ ao do Modelo de Regress˜ ao Linear Simples
A aplicabilidade dos procedimentos vistos at´e agora depende da validade das suposi¸c˜oes feitas na defini¸c˜ao do modelo de regress˜ao linear. Estima¸c˜oes pontuais, por intervalo e testes de hip´oteses s´o fazem sentido quando estas suposi¸c˜oes se verificam. Portanto, ´e essencial uma an´alise cuidadosa dos dados com o objetivo de detectar alguma viola¸c˜ao destas suposi¸c˜oes. Didaticamente, podemos list´a-las da seguinte maneira, conforme a defini¸c˜ao 1.2:
1. As vari´aveis Y1 , . . . , Yn s˜ao independentes; 2. As vari´aveis Y1 , . . . , Yn tˆem a mesma variˆancia; 3. A distribui¸c˜ao de Yi ´e normal, ı = 1, . . . , n; 4. A m´edia da vari´avel resposta ´e uma fun¸c˜ao linear de (β0 , β1 ) e uma fun¸c˜ao afim da vari´avel regressora.
Boa parte dos procedimentos para verifica¸c˜ao da validade destas suposi¸c˜oes utiliza como elemento b´asico os res´ıduos Ei , definidos em (1.10). Nesta se¸c˜ao vamos tratar somente da an´alise dos res´ıduos para verificar a validade da suposi¸c˜ao de normalidade. A an´alise para a valida¸c˜ao das outras hip´oteses ser´a vista com detalhes no cap´ıtulo 3, que ´e exclusivamente dedicado `a este tema. Em rela¸c˜ao `a distribui¸c˜ao dos res´ıduos, temos o
Teorema 1.5
"
Ei ∼ N 0, σ 2
1 (xi − x¯)2 1− − n Sx2
!#
.
31 Este teorema n˜ao ser´a demonstrado agora. Isto ser´a feito em um contexto bem mais geral, no cap´ıtulo 3. Observe que, pelo teorema 1.5, a variˆancia de Ei tende para σ 2 quando n → ∞ e
Sx2 → ∞.
O res´ıduo Ei ´e conhecido como Res´ıduo Ordin´ario. Para os nossos prop´ositos ´e mais interessante trabalhar com os Res´ıduos Padronizados, que s˜ao definidos por Ri = q σ 1−
Ei 1 n
−
(xi −¯ x)2 Sx2
(1.21)
e que, ´e claro, tˆem distribui¸c˜ao normal padr˜ao. Tamb´em ´e poss´ıvel mostrar que, sob certas condi¸c˜oes que ser˜ao vistas no cap´ıtulo 3, estes res´ıduos s˜ao aproximadamente n˜ao correlacionados. Se isto ocorre, podemos tratar R1 , . . . , Rn como uma amostra aleat´oria proveniente de uma distribui¸c˜ao normal padr˜ao5 . Da´ı vem a id´eia de verificar a suposi¸c˜ao de normalidade das observa¸c˜oes atrav´es da inspe¸c˜ao da distribui¸c˜ao dos res´ıduos padronizados. Se todas as outras suposi¸c˜oes forem mantidas (ou seja, linearidade, independˆencia e variˆancia constante) ent˜ao espera-se, pelo que discutimos acima, que os res´ıduos padronizados constituam uma amostra aleat´oria de uma normal padr˜ao. Se isto n˜ao ocorrer, ´e por quˆe a distribui¸c˜ao associada `as observa¸c˜oes n˜ao ´e normal. Para verificar se uma determinada amostra aleat´oria ´e proveniente de uma popula¸c˜ao com distribui¸c˜ao normal utilizaremos um Gr´afico de Probabilidade Normal (ou, em inglˆes, Normal Probability Plot). Se os res´ıduos tiverem distribui¸c˜ao normal padr˜ao e forem aproximadamente independentes, o gr´afico deve apresentar uma tendˆencia linear, uma reta passando pela origem. A seguir daremos a justificativa para esta metodologia. O gr´afico de probabilidade normal ´e uma forma visual de obtermos alguma evidˆencia contra a hip´otese da ocorrˆencia conjunta de duas suposi¸c˜oes: i) a amostra R1 , . . . , Rn ´e 5
Uma Amostra Alet´ oria Proveniente de Uma Popula¸ca ˜o com determinada distribui¸ca˜o ´e um vetor de vari´aveis aleat´orias independentes e identicamente distribu´ıdas.
32 aleat´oria e ii) ela ´e proveniente de uma popula¸c˜ao normal. Supondo que i) ´e verdadeira, seja F a fun¸c˜ao de distribui¸c˜ao de cada Ri , que ´e desconhecida. Devemos ent˜ao estim´ala com o objetivo de compar´a-la com a distribui¸c˜ao normal. Um estimador natural ´e a Fun¸c˜ao de Distribui¸c˜ao Emp´ırica, Fˆn (x), definida da seguinte maneira: seja ( 1 se Ri ≤ x Zi = . 0 se Ri > x Ent˜ao
n
1X Zi . Fˆn (x) = n i=1
(1.22)
Assim, para cada x ∈ R, Fˆn (x) ´e uma vari´avel aleat´oria6 que ´e observada verificando-se
quantos dentre os res´ıduos observados r1 , . . . , rn s˜ao menores ou iguais a x.
Seja Φ a fun¸c˜ao de distribui¸c˜ao normal padr˜ao. Caso Ri tenha distribui¸c˜ao normal com m´edia µ e variˆancia σ 2 obtemos, para x ∈ R, Ri − µ x−µ x−µ F (x) = P (Ri ≤ x) = P =Φ , ≤ σ σ σ de modo que o gr´afico da fun¸c˜ao definida por λ(x) = Φ−1 (F (x)) =
x−µ , x∈R σ
´e uma reta. A id´eia ´e que este comportamento se reproduza caso substituamos F (x) por Fˆn (x). Sejam r(1) , . . . , r(n) os res´ıduos colocados em ordem crescente. Temos que
6
i Fˆn r(i) = , n
ı = 1, . . . , n
Observe que cada Zi tem distribui¸ca˜o de Bernoulli com probabilidade de sucesso P (Ri ≤ x) = F (x). Como conseq¨ uˆencia imediata, podemos provar, utilizando a Lei Forte dos Grandes N´ umeros e o Teorema Central do Limite, que 1. Quando n tende para o infinito, Fˆn (x) → F (x) com probabilidade 1
2. Para n grande, a distribui¸ca˜o de Fˆn (x) ´e aproximadamente normal com m´edia F (x) e variˆancia F (x)[1 − F (x)]/n.
33 e assim −1
Φ
i −1 ˆ . Fn (r(i) ) = Φ n
Assim, se a distribui¸c˜ao dos res´ıduos for igual a Φ, teremos que uma representa¸c˜ao gr´afica dos pontos i −1 −1 ˆ r(i) , Φ Fn (r(i) ) = r(i) , Φ n
(1.23)
deve apresentar uma tendˆencia linear. Observe que temos um problema no caso em que ı = n, pois i −1 Φ = Φ−1 (1) = ∞. n Devido a isto, ´e usual marcar no gr´afico os pontos i − 1/2 −1 , ri , Φ n em vez dos pontos em (1.23).
Exemplo 1.10 Na figura 1.7 temos um gr´afico de probabilidade normal para os res´ıduos padronizados no caso dos dados da tabela 1.1. Claramente n˜ao existe uma tendˆencia linear. Mas talvez fosse necess´ario obter mais observa¸c˜oes para podermos detectar a viola¸c˜ao da hip´otese de normalidade.
1.3.8
E Quando os Valores da Vari´ avel Regressora n˜ ao Puderem ser Pr´ e-fixados?
Na an´alise que apresentamos at´e agora est´a incorporada a hip´otese de que os valores da vari´avel regressora s˜ao pr´e-fixados, ou seja, no modelo de regress˜ao linear Yi ∼ N (β0 + β1 xi , σ 2 )
ı = 1, . . . , n
34
Figura 1.7: Gr´afico de Probabilidade Normal para os Dados na tabela 1.1
temos que x1 , . . . , xn s˜ao constantes pr´e-estabelecidas: o experimentador determina o valor xi da vari´avel regressora e observa o respectivo valor yi da vari´avel resposta. Este tipo de procedimento ´e apropriado em muitos experimentos. Al´em dos exemplos que j´a vimos, podemos citar os seguintes:
• Na ´area m´edica, um pesquisador pode estar interessado no estudo da rela¸c˜ao entre doses de ingest˜ao de carboidrato e o conseq¨ uente ganho de peso. As doses devem ser pr´e-fixadas pelo pesquisador; • Na agricultura, um problema relevante ´e determinar a dosagem ideal de ferti-
lizante necess´aria para otimizar a produ¸c˜ao de uma determinada cultura. Os diferentes n´ıveis de dosagem s˜ao pr´e-estabelecidos e o correspondente n´ıvel de produ¸c˜ao ´e observado;
• Ainda na ´area m´edica, mais especificamente em neurofisiologia, ´e de interesse
estudar a rela¸c˜ao existente entre a magnitude de um determinado est´ımulo visual,
35 com n´ıveis fixados a priori, e o tempo de rea¸c˜ao a est´ımulos.
Ocorre que em muitas situa¸c˜oes n˜ao ´e poss´ıvel fazer o controle dos valores da vari´avel regressora. Por exemplo, em um curso de l´ınguas ´e de interesse relacionar os escores dos estudantes em um teste antes do curso com os escores obtidos em um teste ´ claro que estes valores n˜ao podem ser pr´e-fixados, devem ser observados. ap´os o curso. E O que precisamos neste momento ´e de uma reformula¸c˜ao do nosso modelo estat´ıstico com o objetivo de englobar situa¸c˜oes como esta. Consideremos ent˜ao a quest˜ao prever uma vari´avel aleat´oria Y a partir da observa¸c˜ao de uma vari´avel aleat´oria X. Vamos definir um Preditor de Y como sendo qualquer vari´avel aleat´oria da forma ϕ(X). Seja EQM[ϕ(X)] = E [Y − ϕ(X)]2 o Erro Quadr´atico M´edio na Previs˜ ao de Y por ϕ(X). Temos ent˜ao o seguinte teorema
Teorema 1.6 Existe uma u ´nica fun¸c˜ao ϕ∗ tal que EQM[ϕ∗ (X)] ≤ EQM[ϕ(X)] para toda fun¸c˜ao ϕ. Temos que ϕ∗ (X) = E(Y |X). Demostra¸c˜ ao: Observemos que E [Y − ϕ(X)]2 = E [Y − ϕ∗ (X) + ϕ∗ (X) − ϕ(X)]2
= E [Y − ϕ∗ (X)]2 + E [ϕ∗ (X) − ϕ(X)]2 .
A segunda igualdade ´e uma conseq¨ uˆencia de E {[Y − ϕ∗ (X)] [ϕ∗ (X) − ϕ(X)]} = 0.
(1.24)
36 Para ver que isto ´e verdade, fa¸camos H(X) = ϕ∗ (X) − ϕ(X). Ent˜ao, E {[Y − ϕ∗ (X)] H(X)} = E {H(X)E {[Y − ϕ∗ (X)] |X}} = 0, pois E {[Y − ϕ∗ (X)] |X} = E(Y |X) − E [ϕ∗ (X)|X] = E(Y |X) − ϕ∗ (X) = 0. Por (1.24) vem ent˜ao que E [Y − ϕ(X)]2 ≥ E [Y − ϕ∗ (X)]2
(1.25)
para todo preditor ϕ(X). A demonstra¸c˜ao da unicidade fica como exerc´ıcio (exerc´ıcio 12). Pelo Teorema 1.6 temos que E(Y |X) ´e o preditor com menor erro quadr´atico
m´edio7 .
A abordagem a seguir mostra a conex˜ao entre esta teoria e os modelos de regress˜ao. Dizemos que um vetor aleat´orio (X, Y ) tem Distribui¸c˜ao Normal Bivariada quando tiver densidade 1 p 2πσx σy 1 − ρ2 " ( 2 2 #) x − µx y − µy y − µy x − µx 1 + , − 2ρ × exp − 2 (1 − ρ2 ) σx σx σy σy
f (x, y) =
7
Observemos que o conjunto L2 formado por todas as vari´aveis aleat´orias definidas em um mesmo espa¸co de probabilidade e com segundo momento finito ´e um espa¸co vetorial sobre R (Brockwell e Davis, 1991, P´ag 46). Definamos neste espa¸co a norma k X k2 = E(X 2 ), de modo que a desigualdade em (1.25) pode ser escrita como k Y − ϕ(X) k2 ≥ k Y − ϕ∗ (X) k2 .
(1.26)
Seja X ∈ L2 . O conjunto M(X) formado por todas as vari´aveis aleat´orias em L2 da forma ϕ(X) ´e um subespa¸co vetorial de L2 . A desigualdade (1.26) significa que ϕ∗ (X) minimiza a distˆancia de Y a M(X). Ou seja, E(Y |X) ´e a proje¸ca˜o de Y sobre M(X).
37 (x, y) ∈ R2 . Pode-se mostrar que o vetor de m´edias e a matriz de covariˆancia de (X, Y ) s˜ao dados, respectivamente, por
µ = [E(X), E(Y )] = [µx , µy ] e Σ=
"
Var(X) Cov(X, Y ) Cov(X, Y ) Var(Y )
#
=
"
σx2 ρσx σy
ρσx σy σy2
#
,
onde Cov(X, Y ) ´e a covariˆancia e ρ ´e o coeficiente de correla¸c˜ao entre X e Y . Escrevemos ent˜ao (X, Y ) ∼ N2 (µ, Σ).
(1.27)
Teorema 1.7 Seja (X, Y ) um vetor aleat´orio com distribui¸c˜ao normal bivariada como em (1.27). Ent˜ao a distribui¸c˜ao condicional de Y dado que X = x ´e N β0 + β1 x, σ 2 ,
onde
β0 = µy − ρ ·
σy µx , σx
β1 = ρ ·
σy σx
e
σ 2 = σy2 1 − ρ2 .
A demonstra¸c˜ao pode ser encontrada em diversas referˆencias que tratam de inferˆencia multivariada como, por exemplo, Rao (1973, P´ag 202). Assim, quando o vetor (X, Y ) tem distribui¸c˜ao normal bivariada, a fun¸c˜ao de X que minimiza o erro quadr´atico m´edio ´e8 ϕ(X) = E(Y |X) = β0 + β1 X.
(1.28)
Se β0 e β1 forem conhecidos, o problema da previs˜ao de Y baseado em X est´a resolvido. Caso contr´ario, ´e necess´ario estimar estes parˆametros. Seja x um valor observado de X. Como vimos no Teorema 1.7, β0 e β1 s˜ao parˆametros associados `a distribui¸c˜ao 8
No caso em que a distribui¸ca˜o de (X, Y ) n˜ao ´e normal n˜ao h´a raz˜ao para supor que E(Y |X) ´e uma fun¸ca˜o linear de X, como em (1.28). A proje¸ca˜o de Y sobre o espa¸co vetorial formado pelas combina¸co˜es lineares da forma a + bX ´e denominada O Melhor Preditor Linear de Y em Termos de X. O erro quadr´ atico m´edio do melhor preditor linear ´e sempre menor ou igual que o erro quadr´ atico m´edio de E(Y |X), pela defini¸ca˜o de proje¸ca˜o. No caso da distribui¸ca˜o normal, os erros s˜ao iguais.
38 condicional de Y |X = x, que ´e N (β0 + β1 x, σ 2 ). Para estimar estes parˆametros, basta ent˜ao tomar uma amostra de uma popula¸c˜ao com esta distribui¸c˜ao. Temos ent˜ao que o
modelo estat´ıstico a ser considerado ´e equivalente ao modelo na Defini¸c˜ao 1.2, adequado para o caso em que um valor x da vari´avel regressora ´e pr´e-fixado. Concluimos ent˜ao que, o modelo estat´ıstico utilizado com o objetivo de obter uma previs˜ao de Y a partir de um valor observado x do regressor X ´e equivalente ao modelo para o caso em que fixamos o valor x, de modo que todas as t´ecnicas de estima¸c˜ao e testes que utilizamos antes podem ser utilizadas no contexto desta se¸c˜ao.
Exemplo 1.11 Os dados a seguir s˜ao relativos `a performance de corredoras na prova de 10 km rasos. Deseja-se estudar o comportamento da vari´avel Y que ´e o tempo (em segundos) para completar a prova com base nos valores observados da vari´avel X que ´e o poder aer´obico m´aximo (ou seja, o volume m´aximo de oxigˆenio absorvido, VO2 ). Tabela 1.3: Caracter´ısticas F´ısicas e Performance de 14 Corredoras. X Y X Y X Y
61.32 39.37 51.32 42.37 47.88 45.60
55.29 39.80 52.18 43.93 47.41 46.03
52.83 40.03 52.37 44.90 47.17 47.83
57.94 41.32 57.91 44.90 51.05 48.55
53.31 42.03 53.93 45.12
Fonte: Conley, D.L., G.S. Krahenbuhl, L.n. Burkett and A.L. Millar (1981). Phisiological Correlates of Female Road Racing Performance . Res. Quart. Exercise Sport, 52,. 441-448.
Na figura 1.8 temos o diagrama de dispers˜ao para as observa¸c˜oes. Aparentemente um modelo de regress˜ao linear simples ´e adequado para descrevˆe-las. A reta de regress˜ao estimada ´e µ ˆ(x) = 68.5 − 0.468x
39
Figura 1.8: Tempo para Completar a Prova dos 10 km rasos por Capacidade Aer´obica M´axima
Observe que µ ˆ(x) − µ ˆ(x + 1) = 68.5 − 0.468x − 68.5 + 0.468x + 0.468 = 0.468 de modo que um aumento de uma unidade na capacidade aer´obica implica em uma redu¸c˜ao no tempo de prova de 0.468 segundos. Na figura 1.9 temos um gr´afico de probabilidade normal para os res´ıduos padronizados. Aparentemente n˜ao h´a viola¸c˜ao da hip´otese de normalidade. Como j´a discutimos antes, os procedimentos de estima¸c˜ao e testes s´o ser˜ao confi´aveis se as hip´oteses do modelo de regress˜ao linear estiverem satisfeitas. Neste ponto ainda precisar´ıamos checar as outras hip´oteses (variˆancia constante, independˆencia etc). N˜ao vimos ainda as t´ecnicas necess´arias para isto, de modo que o exemplo com o qual estamos trabalhando serve de simples ilustra¸c˜ao.
40
Figura 1.9: Gr´afico de Probabilidade Normal para os Dados da Tabela 1.3
Antes de testarmos a significˆancia da vari´avel poder aer´obico m´aximo observemos que ´e natural supor que que um atleta com maior capacidade aer´obica necessariamente completar´a a prova em um tempo menor, de modo que podemos restringir o espa¸co param´etrico do nosso modelo considerando β1 ≤ 0. Para testar H0 : β1 = 0
contra
H1 : β < 0
podemos utilizar o teste t unilateral. O valor observado da estat´ıstica de teste (Sx βˆ1 )/(QMres)1/2 ´e -3.04 (note que o valor observado de SQres ´e 63.72, e temos 14 − 2 = 12 graus de liberdade associados `a distribui¸c˜ao da estat´ıstica de teste sob a hip´otese nula).
A probabilidade de significˆancia associada ao valor observado da estat´ıstica de teste ´e P (t12 < −3.04) = 0.0051
41 indicando a rejei¸c˜ao de H0 . Para o teste bilateral a probabilidade de significˆancia associada ao teste de H0 contra H1 : β1 6= 0 ´e dada por P (|t12 | > 3.04) = 2 × 0.0051 = 0.0102. Assim, existem evidˆencias de associa¸c˜ao linear entre as vari´aveis. Para uma capacidade aer´obica m´axima x = 56, temos uma estimativa da m´edia igual a µ ˆ(56) = 42.292, com desvio padr˜ao estimado 0.769, e respectivo intervalo de confian¸ca a 95% dado por (40.617; 43.967). O intervalo de previs˜ao da observa¸c˜ao futura relativa a este valor ´e (37.012; 47.572), com coeficiente 95%.
42
1.4
Exerc´ıcios
1. Considere o modelo de regress˜ao linear simples e os res´ıduos Ei , i = 1, . . . , n: (a) Mostre que Ei = Yi − Y − βˆ1 (xi − x), i = 1, . . . , n; P (b) Mostre que ni=1 Ei = 0; (c) Mostre que, para i 6= j,
σ 2 (xi − x)(xj − x) ˆ ˆ ˆ Cov[Yi , β1 (xj − x)] = Cov[β1 (xi − x), β1 (xj − x)] = ; Sx2 (d) Utilize estes resultados para mostrar que Cov(Ei , Ej ) = −σ
2
1 (xi − x)(xj − x) + . n Sx2
2. Verifique que, quando fixados β0 e β1 , o estimador σ ˆ 2 definido em (1.11) maximiza a fun¸c˜ao de verossimilhan¸ca no modelo de regress˜ao linear simples. 3. Demonstre o Corol´ario 1.2. 4. Mostre que, para x ∈ R a seq¨ uˆencia de estimadores {Fˆn (x)} definida em (1.22) satisfaz
Fˆn (x) → F (x) com probabilidade 1, quando n tende para o infinito. 5. Demonstre o Teorema 1.7. 6. Gere em computador observa¸c˜oes de um modelo de regress˜ao linear simples, mas substituindo a distribui¸c˜ao normal das observa¸c˜oes por outra distribui¸c˜ao cont´ınua que vocˆe achar conveniente; (a) Fa¸ca um gr´afico de probabilidade normal e comente;
43 (b) Repita o procedimento de gera¸c˜ao 1000 vezes, fixando os valores dos parˆametros β0 e da variˆancia das observa¸c˜oes em todas as amostras geradas. Para cada amostra, teste a hip´otese H0 : β1 = 0 utilizando o teste definido em (1.14). Obtenha a propor¸c˜ao de rejei¸c˜oes de H0 para diversos valores de β1 ; comente os resultados.
7. Considere que em um experimento conduzido por um agrˆonomo, com o objetivo de modelar a rela¸c˜ao entre doses de fertilizante (x) e produ¸c˜ao de uma esp´ecie de milho (Y ), foram obtidas as seguintes quantidades: n = 15; x = 10, 8; y = 122, 7; Sx2 = 70, 6; Sy2 = 98, 5; Sxy = 68, 3. Supondo que o modelo de regress˜ao linear simples ´e adequado para descrever a rela¸c˜ao
(a) Encontre a reta de regress˜ao estimada; (b) Construa um intervalo de confian¸ca para a produ¸c˜ao esperada correspondente a x = 12; (c) Construa um intervalo de previs˜ao para uma nova observa¸ca˜o correspondente a x = 15. (d) O agrˆonomo conjectura que o aumento de uma unidade de fertilizante provoca um aumento m´edio na produ¸c˜ao maior que 0,6. Os dados fornecem evidˆencias de que esta afirma¸c˜ao ´e correta?
8. Uma loja de carros importados oferece algumas unidades de um modelo de um determinado fabricante. Os pre¸cos est˜ao listados na tabela abaixo, e s˜ao acompanhados da idade do carro.
44 Idade (em anos) Pre¸co (em $1000) 1 39,9 2 32,0 25,0 4 5 20,0 6 16,0 20,0 6 10 13,0 13,7 11 11,0 11 12 12,0 12 20,0 9,0 12 12 9,0 13 12,5 15 7,0 (a) Construa um diagrama de dispers˜ao; (b) Obtenha a reta de regress˜ao ajustada; (c) Comente sobre a possiblidade de utilizar o modelo de regress˜ao linear simples para descrever a rela¸c˜ao entre idade e pre¸co; (d) Supondo a adequabilidade do modelo, teste a hip´otese de que a m´edia de pre¸co depende da idade do carro; (e) Obtenha uma previs˜ao para um carro com 19 anos de idade. Comente sobre os riscos de fazer esta previs˜ao. 9. Considere o teste t bilateral para a hip´otese H0 : β1 = β ∗ contra a alternativa H1 : β1 6= β ∗ . Mostre que, vista como fun¸c˜ao somente de β1 , a fun¸c˜ao poder do
teste ´e sim´etrica em torno de β ∗ . (Sugest˜ao: observe que os parˆametros de n˜ao
centralidade para calcular ψ(β1 + β ∗ ) e ψ(−β1 + β ∗ ) s˜ao iguais a ξ = β1 /(σSx ) e δ = −β1 /(σSx ), respectivamente. A partir da´ı deduza que tξ = −tδ .)
45 10. Considere o modelo de regress˜ao linear definido por vari´aveis aleat´orias independentes Y1 , . . . , Yn tais que Yi ∼ N (βxi , σ 2 ), onde xi , i = 1, . . . , n s˜ao valores fixados da vari´avel regressora e σ 2 > 0. Sejam βˆ eσ ˆ 2 os EMV’s e SQres a soma dos quadrados dos res´ıduos. (a) Escreva a fun¸c˜ao de verossimilhan¸ca associada ao modelo; (b) Encontre βˆ e σ ˆ2; Sugest˜ao: use derivadas. P (c) Pode-se mostrar que βˆ ∼ N (β, σ 2 / ni=1 x2i ), que SQres/σ 2 ∼ χ2n−1 e que esta ˆ Com base nisto encontre um intervalo u ´ltima vari´avel ´e independente de β. de confian¸ca com coeficiente 1 − α para β; (d) Defina um teste para a hip´otese β = 0 contra a alternativa β > 0; (e) Encontre a fun¸c˜ao poder do teste definido no item anterior. 11. Na ´area de qu´ımica existe um interesse em uma propriedade do plutˆonio chamada solubilidade, que depende da temperatura. Os dados a seguir referem-se a mensura¸c˜oes de p´o de plutˆonio em uma mistura fundida. Para diferentes n´ıveis de temperatura x (em 1000/temperatura em graus cent´ıgrados) foi observada a vari´avel Y = − log10 (solubilidade). x Y
1,68 0,33
1,74 0,41
1,85 0,57
1,92 0,65
1,99 0,77
1,82 0,57
1,69 0,35
1,60 0,18
1,52 0,14
Utilizando o modelo de regress˜ao linear: (a) Encontre a estimativa da m´edia da vari´avel Y para cada valor x; (b) Teste a hip´otese de que a solubilidade depende da temperatura; (c) Encontre um intervalo de previs˜ao para uma nova mensura¸c˜ao correspondente `a 714 graus cent´ıgrados.
46 12. Mostre que ϕ(X) = E(Y |X) ´e a u ´nica fun¸c˜ao de X que satisfaz a desigualdade (1.25).
Sugest˜ao: Seja ξ(X) tamb´em satisfazendo a desigualdade (1.25). Ent˜ao, necessariamente EQM(ϕ(X)) = EQM(ξ(X)). Prove ent˜ao que E(ϕ(X) − ξ(X))2 = 0 utilizando o fato (que tamb´em deve ser
demonstrado) de que 2
E(ϕ(X)−ξ(X)) = −4E
ϕ(X) + ξ(X) −Y 2
2
+2 E(ϕ(X) − Y )2 + E(ξ(X) − Y )2
Cap´ıtulo 2 O Modelo de Regress˜ ao Linear M´ ultipla
2.1
Nota¸ c˜ ao
Para denotar que uma matriz A tem ordem n × m utilizaremos a nota¸c˜ao A :
n × m. O termo Vetor Coluna n- Dimensional refere-se a uma matriz de ordem n ×
1. A′ denota a transposta da matriz A e |A| o determinante de A. In ´e a matriz
identidade de ordem n × n.O Vetor de M´edias de um vetor aleat´orio Y = (Y1 , . . . , Yn )′
´e o vetor E(Y ) = (E(Y1 ), . . . , E(Yn ))′ . A matriz de covariˆancias de Y ´e a matriz Σ = Cov(Y ) : n × n tal que Σij = Cov(Yi , Yj ). Ser˜ao utilizados alguns resultados relativos
`a ´algebra linear, esperan¸ca, matriz de covariˆancias, diferencia¸c˜ao de func˜oes vetoriais e distribui¸c˜ao normal multivariada que est˜ao nos apˆendices C, A, D e E. De fundamental importˆancia ´e a no¸c˜ao de Produto Interno Entre Dois Vetores x e y, definido por x′ y. √ A Norma (Euclideana) do Vetor x ´e ent˜ao dada por kxk = x′ x. 47
48
2.2
O Modelo O problema a ser tratado neste cap´ıtulo ´e da mesma natureza do que foi abordado
no cap´ıtulo anterior, s´o que com a possibilidade de mais de uma vari´avel regressora no modelo. Especificamente, suponhamos que para a i-´esima unidade amostral tenhamos valores fixados xi1 , xi2 , . . . , xi(p−1) de p − 1 vari´aveis regressoras (p > 1) e observamos o valor de uma vari´avel resposta Yi , i = 1, . . . , n, n < p.
Defini¸c˜ ao 2.1 O Modelo de Regress˜ ao Linear M´ ultipla ´e definido por observa¸c˜oes independentes Y1 , . . . , Yn tais que Yi ∼ N (µi , σ 2 ), onde µi = β0 + β1 xi1 + β2 xi2 + · · · + β(p−1) xi(p−1) ,
ı = 1, . . . , n
(2.1)
e σ 2 > 0.
Antes de prosseguirmos com estima¸c˜oes e testes de hip´oteses, um coment´ario sobre o caso em que os valores dos regressores devem ser observados, ou seja, n˜ao tˆem n´ıveis fixados. Seja X = (X1 , . . . , Xp−1 ) o vetor de vari´aveis regressoras e definamos um Preditor de Y Baseado em X como sendo qualquer vari´avel aleat´oria da forma ϕ(X), exatamente como na se¸c˜ao 1.3.8. Seja EQM(ϕ(X)) = E[Y − ϕ(X)]2 o Erro Quadr´atico M´edio na Previs˜ ao de Y por ϕ(X). O teorema a seguir mostra que, no caso de distribui¸c˜ao normal, esta situa¸c˜ao ´e equivalente ao caso de n´ıveis fixados.
49 Teorema 2.1 Suponha que (Y, X1 , . . . , X(p−1) ) tem distribui¸c˜ao normal p-variada. Ent˜ao existem β0 , β1 , . . . , βp−1 tais que
1. E(Y |X) = β0 + β1 X1 + . . . + βp−1 Xp−1 ; 2. E(Y |X) tem o menor erro quadr´atico m´edio entre todos os preditores de Y baseados em X.
Assim, podemos tratar o caso em que o vetor (Y, X1 , . . . , X(p−1) ) ´e observado da mesma maneira que o caso em que valores dos regressores s˜ao pr´e-fixados. A nota¸c˜ao mais adequada para a abordagem te´orica das propriedades do modelo de regress˜ao linear m´ ultipla ´e a nota¸c˜ao matricial. Seja Y = (Y1 , . . . , Yn )′
(2.2)
o vetor de observa¸c˜oes. Como Y1 , . . . , Yn s˜ao independentes, temos que a densidade conjunta destas vari´aveis aleat´orias (que ´e a densidade de Y ) ´e dada por ( ) n 1 X 1 exp − 2 (yi − µi )2 f (y1 , . . . , yn ) = (2πσ 2 )n/2 2σ i=1 −1 1 1 ′ 2 (y − µ) , (2.3) = · exp − (y − µ) σ In 2 (2π)n/2 |σ 2 In |1/2 onde y = (y1 , . . . , yn )′ e µ = (µ1 , . . . , µn )′ . Pela defini¸c˜ao do modelo temos que µ = Xβ, onde
X=
1 x11 1 x21 .. .. . . 1 xn1
. . . x1(p−1) . . . x2(p−1) .. ... . . . . xn(p−1)
(2.4)
50 e ′ β = β0 , β1 , . . . , β(p−1) .
(2.5)
Assim, a densidade em (2.3) ´e a de uma distribui¸c˜ao normal multivariada com vetor de m´edias µ = Xβ e matriz de covariˆancias σ 2 In . Ou seja, o modelo de regress˜ao linear m´ ultipla pode ser redefinido por Y ∼ Nn (Xβ, σ 2 In ),
(2.6)
onde Nn denota a distribui¸c˜ao normal n-variada. Uma suposi¸c˜ao adicional ao modelo de regress˜ao linear ser´a a de que as colunas da matriz X s˜ ao linearmente independentes. Em alguns textos esta matriz recebe a denomina¸c˜ao de Matriz de Planejamento.
2.3
Estima¸c˜ ao
2.3.1
Pontos Cr´ıticos da Fun¸ c˜ ao de Verossimilhan¸ ca
Os estimadores de m´axima verossimilhan¸ca para os parˆametros β e σ 2 s˜ao obtidos maximizando o logaritmo da fun¸c˜ao de verossimilhan¸ca associada `a amostra y = (y1 , . . . , yn )′ , dado por 1 n l(β, σ 2 ) = − log(2πσ 2 ) − 2 (y − Xβ)′ (y − Xβ), 2 2σ
β ∈ Rp , σ 2 > 0.
(2.7)
Para maximizar em β, consideramos σ 2 fixado e maximizamos a fun¸c˜ao parcial β → l(β, σ 2 ),
β ∈ Rp ,
o que ´e equivalente a minimizar D (β) = (Y − Xβ)′ (Y − Xβ) ,
β ∈ Rp .
(2.8)
Um ponto cr´ıtico de D ´e solu¸c˜ao de ∂D (β) = 0, ∂βi
ı = 0, . . . , p − 1
(2.9)
51 de modo que precisamos obter estas derivadas parciais. Primeiramente, vamos reescrever D (β) = (Y ′ − β ′ X ′ ) (Y − Xβ) = Y ′ Y − Y ′ Xβ − β ′ X ′ Y + β ′ X ′ Xβ = Y ′ Y − 2β ′ X ′ Y + β ′ X ′ Xβ,
j´a que Y ′ Xβ tem dimens˜ao 1 × 1 – pois as dimens˜oes de Y , X e β s˜ao n × 1, n × p e
p × 1, respectivamente – implicando em
Y ′ Xβ = (Y ′ Xβ)′ = β ′ X ′ Y. Seja ∂D(β) = ∂β
∂D(β) ∂D(β) ,..., ∂β0 ∂β(p−1)
Utilizando resultados do Apˆendice D, temos que
′
.
∂D(β) = −2X ′ Y + 2X ′ Xβ. ∂β As equa¸c˜oes em (2.9) s˜ao equivalentes a ∂D(β) = 0, ∂β ou seja, X ′ Xβ = X ′ Y.
(2.10)
Esta equa¸c˜ao ´e denominada Equa¸c˜ao Normal. Assim, pontos cr´ıticos de D devem necessariamente ser solu¸c˜ao de (2.10), se estas existirem. Se a matriz X ′ X for invert´ıvel, temos que a equa¸c˜ao normal tem solu¸c˜ao u ´nica, dada por −1 βˆ = (X ′ X) X ′ Y.
(2.11)
Uma condi¸c˜ao suficiente para que X ′ X seja invert´ıvel ´e que as colunas de X sejam linearmente independentes. Este resultado ´e demonstrado na pr´oxima se¸c˜ao.
52
2.3.2
Existˆ encia e Unicidade de Solu¸ c˜ oes da Equa¸ c˜ ao Normal
A seguir apresentaremos dois resultados gerais que ser˜ao u ´teis na discuss˜ao sobre a existˆencia e unicidade de solu¸c˜oes da equa¸c˜ao normal. Em particular, o Teorema 2.2 mostra que a equa¸c˜ao normal sempre tem solu¸c˜ao. Note que, para mostrar a existˆencia de solu¸c˜oes, em nenhum instante ´e utilizada a suposi¸c˜ao de independˆencia linear entre as colunas de X. Note tamb´em que a primeira coluna de X n˜ao precisa ter necessariamente todos os elementos iguais a 1. Lema 2.1 O espa¸co gerado pelas colunas de X ′ X ´e igual ao espa¸co gerado pelas colunas de X ′ .
Demonstra¸c˜ ao: Vamos mostrar que [span(X ′ X)]⊥ = [span(X ′ )]⊥ e usar o resultado (C.7). Seja ent˜ao z um vetor em [span(X ′ )]⊥ . Por defini¸c˜ao, temos que z ´e ortogonal `as colunas de X ′ , ou seja, z ′ X ′ = 0. Transpondo, obtemos Xz = 0. Multiplicando por X ′ nos dois lados desta igualdade temos X ′ Xz = 0 ou, transpondo, z ′ X ′ X = 0. Assim, z ´e ortogonal `as colunas de X ′ X, implicando que z ∈ [span(X ′ X)]⊥ . Isto prova que
[span(X ′ X)]⊥ ⊃ [span(X ′ )]⊥ . Para provar a inclus˜ao contr´aria, tome z ∈ [span(X ′ X)]⊥ .
Ent˜ao z ′ X ′ X = 0. Multiplicando os dois lados da igualdade por z, temos z ′ X ′ Xz = 0, ou ainda, (Xz)′ Xz = 0. Como o u ´nico vetor ortogonal a ele mesmo ´e o vetor nulo, resulta que Xz = 0, ou seja, z ′ X ′ = 0, concluindo a demonstra¸c˜ao. Teorema 2.2 A equa¸c˜ao normal tem pelo menos uma solu¸c˜ao ou, equivalentemente, a fun¸c˜ao D tem pelo menos um ponto cr´ıtico.
Demonstra¸c˜ ao: Primeiramente, observe que o vetor X ′ Y est´a no espa¸co gerado pelas colunas de X ′ – veja (C.4) – e, portanto, pelo Lema 2.1 resulta que X ′ Y est´a no espa¸co gerado pelas colunas de X ′ X. Por defini¸c˜ao de espa¸co vetorial gerado, existe ent˜ao β tal que X ′ Y = X ′ Xβ.
53 Teorema 2.3 X ′ X ´e invert´ıvel se e somente se as colunas de X s˜ao linearmente independentes.
Demonstra¸c˜ ao: Suponha que as colunas de X sejam linearmente independentes. Ent˜ao a dimens˜ao do espa¸co gerado pelas colunas de X ´e p, que tamb´em ´e igual a dimens˜ao do espa¸co gerado pelas linhas de X. Esse espa¸co, por sua vez, ´e igual ao espa¸co gerado pelas colunas de X ′ que por sua vez ´e igual ao espa¸co gerado pelas colunas de X ′ X. Assim, a dimens˜ao desse espa¸co ´e p, implicando que X ′ X ´e invert´ıvel (veja o Teorema C.3). Como j´a discutimos antes, caso X ′ X tenha inversa a equa¸c˜ao normal possui solu¸c˜ao u ´nica, dada em (2.11).
2.3.3
Pontos de M´ aximo Global da Fun¸ c˜ ao de Verossimilhan¸ ca
Seja βˆ uma solu¸c˜ao qualquer da equa¸c˜ao normal – tendo X ′ X inversa ou n˜ao. Esta solu¸c˜ao ser´a uma estimativa de m´axima verossimilhan¸ca para β, se provarmos que ela ´e um ponto de m´ınimo global da fun¸c˜ao D. Isto pode ser visto pelo seguinte argumento: D (β)
(Y − Xβ)′ (Y − Xβ) ′ ˆ ˆ ˆ ˆ = Y − X β + X β − Xβ Y − X β + X β − Xβ h i′ h i = Y − X βˆ + X βˆ − β Y − X βˆ + X βˆ − β ′ ′ = Y − X βˆ Y − X βˆ + Y − X βˆ X βˆ − β ′ ′ ′ ′ ˆ ˆ ˆ ˆ + β − β X Y − Xβ + β − β X X β − β ′ ′ = Y − X βˆ Y − X βˆ + βˆ − β X ′ X βˆ − β , =
54 ˆ Observemos que a pois, como βˆ ´e solu¸c˜ao da equa¸c˜ao normal, vale X ′ Y = X ′ X β. primeira parcela na u ´ltima express˜ao acima n˜ao depende de β e que a segunda parcela ´e sempre n˜ao negativa, pois ′ βˆ − β X ′ X βˆ − β = kX(βˆ − β)k2 .
Esta norma ao quadrado ´e igual a zero se e somente X(βˆ − β) = 0, pois o vetor
nulo ´e o u ´nico que possui norma igual a zero. Como as colunas de X s˜ao linearmente independentes, temos que isto ocorre se e somente se βˆ − β = 0. Ou seja, o m´ınimo de ˆ Este m´ınimo, ´e claro, ´e igual a (Y − X β) ˆ ′ (Y − X β). ˆ D(β) ´e atingido em β = β. O estimador de m´axima verossimilhan¸ca do parˆametro µ = Xβ ´e ˆ µ ˆ = X β,
(2.12)
que em geral recebe a denomina¸c˜ao de Vetor de Valores Ajustados, embora n˜ao adotemos esta terminologia aqui. O vetor E =Y −µ ˆ = Y − X βˆ ´e o Vetor de Res´ıduos, e a vari´avel aleat´oria ′ ˆ ˆ SQres = Y − X β Y − X β = min {(Y ′ − Xβ) (Y − Xβ) ; β ∈ Rp }
(2.13)
´e a Soma dos Quadrados dos Res´ıduos. Observe que n ′ X ′ ˆ ˆ (Yi − µ ˆi )2 , Y − Xβ Y − X β = (Y − µ ˆ) (Y − µ ˆ) = ı=1
onde µ ˆi = βˆ0 + βˆ1 xi1 + · · · + βˆ(p−1) xi(p−1) ,
(2.14)
´e o valor ajustado correspondente `a ı-´esima observa¸c˜ao, ou seja, o estimador de m´axima verossimilhan¸ca para µi .
55 Para obter o estimador de m´axima verossimilhan¸ca para σ 2 , consideremos o logaritmo da fun¸c˜ao de verossimilhan¸ca parcial, dado por ′ 1 n y − X βˆ , log l βˆ0 , βˆ1 , . . . , βˆ(p−1) , σ 2 = − log 2πσ 2 − 2 y − X βˆ 2 2σ
σ 2 > 0.
Derivando em rela¸c˜ao a σ 2 e igualando o resultado a zero, obtemos como ponto cr´ıtico desta fun¸c˜ao ′ 1 1 (2.15) Y − X βˆ Y − X βˆ = SQres. n n Pode-se provar que σ ˆ 2 ´e o estimador de m´axima verosiimilhan¸ca para σ 2 (ou seja, ´e o σ ˆ2 =
m´aximo global da fun¸c˜ao). Este ´e o Exerc´ıcio 1. Exemplo 2.1 O modelo de regress˜ao linear simples definido em (1.2) ´e um caso particular do modelo de regress˜ao linear m´ ultipla. Aqui temos p = 2 e # " 1 1 ... 1 ′ , (2.16) X = x1 x2 . . . xn de modo que
′
XX=
"
1 1 ... 1 x1 x2 . . . xn
e
X ′Y
=
"
#
1 x1 " # Pn 1 x2 x n i Pnı=1 2 = Pn .. .. x . . i ı=1 ı=1 xi
(2.17)
1 xn
1 1 ... 1 x1 x2 . . . xn
#
Y1 Y2 .. . Yn
=
" P # n Y Pnı=1 i . x Y i i ı=1
Assim, a equa¸c˜ao normal ´e dada por # # " P #" " Pn n Yi β0 n x Pnı=1 2i Pn . = Pnı=1 β ı=1 xi Yi ı=1 xi ı=1 xi
(2.18)
Fica como exerc´ıcio para o leitor resolver a equa¸c˜ao normal e verificar que a solu¸c˜ao obtida ´e aquela apresentada em (1.8). Este ´e o Exerc´ıcio 2.
56
2.3.4
Uma Outra Abordagem para a Estima¸c˜ ao de M´ axima Verossimilhan¸ ca
Observe que a fun¸c˜ao D definida em (2.8) pode ser escrita como D(β) =k Y − Xβ k2 ,
β ∈ Rp ,
de modo que minimiz´a-la ´e equivalente a encontrar pontos da forma Xβ, com β percorrento todo o espa¸co Rp , de tal forma que a distˆancia entre Y e estes pontos seja m´ınima. Observe que o conjunto formado por estes pontos nada mais ´e do que o subespa¸co vetorial span(X). O ponto que minimiza a distˆancia entre Y e os pontos deste espa¸co ´e a proje¸c˜ao de Y sobre span(X), veja o apˆendice C. Ent˜ao, temos que X βˆ = Πspan(X) (Y ). O vetor Y − X βˆ ´e ortogonal a todos os vetores de span(X). Em particular, esse vetor ´e ˆ = 0 implicando ortogonal a X βˆ e a todas as colunas da matriz X. Assim, X ′ (Y − X β) ˆ mostrando que βˆ ´e solu¸c˜ao da equa¸c˜ao normal. Observe tamb´em em X ′ Y = X ′ X β, que, como a proje¸c˜ao ´e u ´nica, temos que X βˆ ´e sempre o mesmo, seja qual for a solu¸c˜ao βˆ para as equa¸c˜oes normais. A soma dos quadrados dos res´ıduos, definida em (2.13), pode ser escrita como ˆ ′ (Y − X β) ˆ =k Y − X βˆ k2 . SQres = (Y − X β)
2.4
Propriedades dos Estimadores de M´ axima Verossimilhan¸ ca Por (B.3) no apˆendice E temos que a distribui¸c˜ao de βˆ ´e normal p-variada com h i −1 −1 E βˆ = E (X ′ X) X ′ Y = (X ′ X) X ′ E(Y ) −1
= (X ′ X)
X ′ Xβ = β,
57 de modo que βˆ ´e um estimador n˜ao viciado para β e h i −1 Cov βˆ = Cov (X ′ X) X ′ Y −1
X ′ [Cov(Y )] X (X ′ X)
−1
X ′ σ 2 In X (X ′ X)
−1
−1
(X ′ X) (X ′ X)
−1
−1
.
= (X ′ X)
= (X ′ X)
= σ 2 (X ′ X) = σ 2 (X ′ X)
−1
Temos ent˜ao o Teorema 2.4
−1 βˆ ∼ Np β, σ 2 (X ′ X) .
Como corol´ario deste teorema temos o item 1 do Teorema 1.1, que ser´a enunciado mais uma vez para, em seguida, ser demonstrado. Corol´ ario 2.1 Considere o modelo de regress˜ao linear simples, dado pelas vari´aveis aleat´orias independentes Yi ∼ (β0 + β1 xi , σ 2 )
ı = 1, . . . , n.
Ent˜ao, h 1. βˆ0 ∼ N β0 , σ 2 n1 + 2 2. βˆ1 ∼ N β1 , Sσ 2
x ¯2 Sx2
i
x
Demonstra¸c˜ ao: utilizando a express˜ao de X ′ X definida em (2.16) e omitindo ´ındices nos somat´orios para simplificar a nota¸c˜ao, temos −1 Cov βˆ = σ 2 (X ′ X) =
σ2 P P n x2i − ( xi )2
" P P # x2i − xi P . − xi n
58 Como Cov βˆ = e observando que Sx2 =
e
"
V ar(βˆ0 ) Cov(βˆ0 , βˆ1 ) Cov(βˆ0 , βˆ1 ) V ar(βˆ1 )
#
x2i − n¯ x2 , resulta que P 2 2 σ 2 σ 2 x¯2 σ xi σ 2 (Sx2 + n¯ x2 ) ˆ = + 2 V ar β0 = P 2 = P nSx2 n Sx n xi − ( xi )2 P
completando a demonstra¸c˜ao.
nσ 2 V ar βˆ1 = , nSx2
Tamb´em como corol´ario, obtemos a covariˆancia entre βˆ0 e βˆ1 .
Corol´ ario 2.2
x¯σ 2 Cov βˆ0 , βˆ1 = − 2 . Sx
Utilizando o pr´oximo teorema, vamos mostrar que σˆ 2 ´e um estimador viciado para σ 2 . O mesmo teorema ser´a u ´til para determinar um estimador n˜ao viciado. O resultado ´e uma extens˜ao do item 2 do Teorema 1.1.
Teorema 2.5 A distribui¸c˜ao de SQres/σ 2 ´e qui-quadrado com n−p graus de liberdade.
A demonstra¸c˜ao deste teorema est´a no apˆendice G. A esperan¸ca de uma vari´avel aleat´oria com distribui¸c˜ao qui-quadrado ´e igual ao n´ umero de graus de liberdade. Assim, SQres E = n − p, σ2 implicando em E
SQres n−p
= σ2.
59 Desta forma, o estimador definido por QMres =
SQres , n−p
(2.19)
denominado Quadrado M´edio dos Res´ıduos, ´e n˜ao viciado para σ 2 . Utilizando o mesmo resultado provamos facilmente que o estimador de m´axima verossimilhan¸ca σ ˆ 2 ´e viciado para σ 2 . Observe que o denominador n − p em (2.19) ´e igual ao n´ umero de observa¸c˜oes,
que ´e n, menos o n´ umero de “parˆametros β” do modelo, que ´e p.
O teorema a seguir tamb´em est´a demonstrado no apˆendice G. Ele ´e uma extens˜ao do u ´ltimo item do Teorema 1.1. Teorema 2.6 SQres e βˆ s˜ao independentes.
Pelo teorema 2.4, temos que βˆi ∼ N βi , σ 2 cii ,
ı = 0, . . . , p − 1
(2.20)
onde cii ´e o ı-´esimo elemento da diagonal principal da matriz C = (X ′ X)
−1
.
Este resultado, mais os teoremas 2.5 e 2.6 permitem-nos demonstrar o pr´oximo teorema. Teorema 2.7
βˆi − βi
(cii · QM Res )1/2
∼ tn−p ,
ı = 0, . . . , p − 1
Este teorema ´e uma extens˜ao do corol´ario 1.1 e, para ı = 0, . . . , p − 1, ´e u ´til na
elabora¸c˜ao de testes para a hip´otese H0i : βi = βi∗ , utilizando como estat´ıstica de teste Ti =
βˆi − βi∗ . (cii · QMres)1/2
(2.21)
60 Se a hip´otese alternativa for H1i : βi > 0 rejeitamos H0i se Ti > c. Assim, para obtermos um teste de n´ıvel α desta hip´otese contra a alternativa H1i : βi > 0, utilizamos como regra de decis˜ao Rejeitar H0i se e somente se Ti > tn−p; α2 . Se a alternativa for H1i : βi < 0 ent˜ao substituimos < por > na regra de decis˜ao. Se for H1i : βi 6= 0 rejeitamos H0i se e somente se |Ti | > tn−p; α2 . Se a hip´otese H0k : βk = 0 for verdadeira, ent˜ao a m´edia da vari´avel resposta nos n´ıveis xi1 , . . . , xi(p−1) das vari´aveis regressoras ´e dada por µi = β0 + β1 xi1 + . . . + β(k−1) xi(k−1) + β(k+1) xi(k+1) + . . . + β(p−1) xi(p−1) ,
ı = 1, . . . , n
ou seja, o vetor de m´edias da vari´avel resposta n˜ao depende dos valores associados do “regressor 1”, x11 , x21 , . . . , xn1 . Dizemos ent˜ao que esta vari´avel regressora n˜ ao contribui significativamente no modelo. Utilizando o teorema 2.7 podemos tamb´em obter um intervalo de confian¸ca para βi , que ´e dado por βˆi ± tn−p; α2 (cii · QM Res )1/2 ,
i = 0, . . . , p − 1.
Exemplo 2.2 (Dobson, 2002, P´ag. 91) Os dados na tabela 2.1 representam porcentagens do total de calorias obtido a partir de um complexo de carboidratos, para 20 diab´eticos dependentes de insulina. Os indiv´ıduos s˜ao do sexo masculino e foram submetidos a uma dieta rica em carboidratos durante 6 meses. Suspeita-se que esta vari´avel resposta esteja relacionada com a idade (em anos), peso (relativo ao peso ideal para a altura do indiv´ıduo) e a porcentagem de calorias proveniente de prote´ınas.
O vetor de respostas ´e o vetor y cujas coordenadas est˜ao na primeira coluna da tabela. A matriz X ´e dada por X = [X0 X1 X2 X3 ] ,
61
Tabela 2.1: Porcentagem de Calorias Obtidas a Partir de Um Complexo de Carboidratos, Idade, Peso Relativo e Porcentagem de Calorias Obtidas a partir de Prote´ına para 20 Indiv´ıduos do Sexo Masculino, Diab´eticos e Dependentes de Insulina Porcentagem de Calorias (Carb.) (Y ) 33 40 37 27 30 43 34 48 30 38 50 51 30 36 41 42 46 24 35 37
Idade (X1 )
Peso (X2 )
33 47 49 35 46 52 62 23 32 42 31 61 63 40 50 64 56 61 48 28
100 92 135 144 140 101 95 101 98 105 108 85 130 127 109 107 117 100 118 102
Porcentagem de Calorias (Prot.) (X3 ) 14 15 18 12 15 15 14 17 15 14 17 19 19 20 15 16 18 13 18 14
onde Xi ´e um vetor com coordenadas dadas pela ı-´esima coluna na tabela, ı = 1, 2, 3 e X0 = [1 . . . 1]′ ´e um vetor com 20 coordenadas iguais a 1. Temos que β = [β0 β1 β2 β3 ]′ .
A estimativa para σ 2 ´e QMres =
SQres 567.66 = = 35.4787 n−p 20 − 4
As estimativas dos desvios padr˜oes dos estimadores βˆi – ou seja, (cii · QMR es)1/2 – est˜ao na tabela 2.2.
62
Tabela 2.2: Estimativas para os Desvios dos Estimadores dos Parˆametros do Modelo de Regress˜ao, Dados da Tabela 2.1 Estimativa βˆ0 βˆ1 (idade) βˆ2 (peso) βˆ3 (prote´ına)
Estimativa do Desvio Padr˜ ao 13.07000 0.10930 0.08329 0.63490
Para testar a hip´otese β1 = 0 (ou seja, a vari´avel idade n˜ao ´e significativa no modelo), temos como valor observado de T1 T1 =
−0.1137 = −1.04026. 0.1093
A probabilidade de significˆancia para o teste desta hip´otese contra a alternativa β1 6= 0
´e
P (|t16 | > 1.04026) = 0.3136, o que significa que n˜ao h´a evidˆencia suficiente para a rejei¸c˜ao de β1 = 0. Assim, podemos retirar a vari´avel idade do modelo. Probabilidades de significˆancia para testar a significˆancia de outras vari´aveis s˜ao apresentadas na tabela 2.3. Assim, h´a evidˆencias Tabela 2.3: Probabilidades de Significˆancia, Dados da Tabela 2.1 Hip´ otese Nula
Hip´ otese Alternativa
β2 = 0 β3 = 0
β2 6= 0 β3 6= 0
Probabilidade de de Significˆ ancia 0.015 0.007
para a rejei¸c˜ao de hip´otese β2 = 0 e tamb´em para a rejei¸c˜ao de β3 = 0. Assim, somente o peso relativo e a porcentagem de calorias obtidas a partir de prote´ına parecem influenciar a m´edia da vari´avel resposta. Lembremos que os m´etodos aplicados acima s´o tˆem validade quando as hip´oteses relativas ao modelo de regress˜ao linear forem satisfeitas. Como j´a hav´ıamos comentado
63 no Cap´ıtulo 1, existem procedimentos, baseados na an´alise dos res´ıduos, que podem ser u ´teis na verifica¸c˜ao da validade destas suposi¸c˜oes e que ser˜ao vistos com detalhes no Cap´ıtulo 3. Por enquanto apresentamos um gr´afico de probabilidade normal, cuja interpreta¸c˜ao ´e exatamente a mesma do caso da regress˜ao linear simples, veja a se¸c˜ao 1.3.7. Aparentemente n˜ao h´a viola¸c˜ao da hip´otese de normalidade. Figura 2.1: Gr´afico de Probabilidade Normal para os Dados da Tabela 2.1
O modelo com as duas vari´aveis regressoras restantes ´e dado por µi = β0 + β2 xi2 + β3 xi3 ,
ı = 1, . . . , 20.
O vetor de respostas continua sendo y e a matriz X ´e dada por X = [X0 X2 X3 ] . As estimativas dos parˆametros, os respectivos desvios estimados, valores das estat´ısticas para testar βi = 0 e respectivas probabilidades de significˆancia s˜ao apresentados na tabela 2.4. Tudo indica que β2 6= 0 e β3 6= 0, implicando que os regressores correspon-
64
Tabela 2.4: Estimativas para os Parˆametros, Desvios, Estat´ısticas de Teste e Probabilidades de Significˆancia, Dados da Tabela 2.1, Modelo sem a Vari´avel Idade Parˆ ametro β0 β2 β3
Estimativa 33.13000 -0.22165 1.82430
Desv. Pad. 12.57000 0.08326 0.62330
T 2.64000 -2.66000 2.93000
Prob. de Sig. 0.01700 0.01600 0.00900
dentes devem ficar no modelo. A reta de regress˜ao ajustada ´e ent˜ao dada por µ ˆ = 33.13 − 0.2216x2 + 1.8243x3 . Uma aplica¸c˜ao interessante deste resultado ´e dada quando, para um valor fixado de peso relativo x2 , desejamos avaliar a diferen¸ca entre a m´edia da vari´avel resposta quando a porcentagem de calorias proveniente de prote´ınas ´e x3 e a m´edia quando esta ´e x3 + 1 – um aumento em uma unidade nesta porcentagem. Se o modelo de regress˜ao linear simples sem a vari´avel idade for adequado para descrever o fenˆomeno, temos que estas m´edias s˜ao dadas respectivamente por µ = β0 + β2 x2 + β3 x3 e µ∗ = β0 + β2 x2 + β3 (x3 + 1) = β0 + β2 x2 + β3 x3 + β3
Portanto, µ − µ∗ = β3 . Assim, a estimativa desta diferen¸ca ´e βˆ3 = 1.8243. Ent˜ao, um aumento em uma unidade da porcentagem de calorias proveniente de prote´ınas representa um aumento estimado de 1.8243 na porcentagem m´edia de calorias proveniente de carboidratos, quando fixamos um peso relativo.
65 Na tabela 2.5 temos intervalos de confian¸ca para os parˆametros β0 , β1 e β2 . Uma evidˆencia de que estes parˆametros n˜ao s˜ao nulos ´e que os intervalos n˜ao contˆem o zero.
Tabela 2.5: Intervalos de Confian¸ca com coeficiente 95% para Parˆametros do Modelo de Regress˜ao linear Simples, Dados da Tabela 2.1, Modelo sem a Vari´avel Idade. Parˆ ametro β0 β2 β3
2.5
Intervalo de Confian¸ca (6.4829,59.7771); (-0.3981,-0.0451) (0.5030,3.1456)
Previs˜ ao da M´ edia da Vari´ avel Resposta para Valores Fixados das Vari´ aveis Regressoras Apresentaremos agora uma extens˜ao da teoria apresentada na se¸c˜ao 1.3.6, consi-
derando regress˜ao m´ ultipla. Seja x = 1, x1 , . . . , x(p−1)
′
(2.22)
um vetor tal que xj correspondente a um valor fixado associado `a -´esima vari´avel regressora, = 1, . . . , p−1. N˜ao necessariamente xj ´e um dos valores fixados que constam no conjunto original de observa¸c˜oes. Seja µ(x) = x′ β a m´edia da vari´avel resposta correspondente ao vetor x e seja µ ˆ(x) = x′ βˆ o seu estimador de m´axima verossimilhan¸ca. Este estimador pontual ´e denominado A Previs˜ ao da M´edia da Vari´ avel Resposta dado o Vetor x de Valores Fixados das Vari´ aveis Regressoras. Para obter uma estimativa por intervalo, relembremos que pelo Teorema 2.4 −1 2 ′ ˆ β ∼ Np β, σ (X X) .
66 Por (B.3) no apˆendice A, vem que x′ βˆ tem distribui¸c˜ao normal (univariada), com m´edia E x′ βˆ = x′ E βˆ = x′ β e matriz de covariˆancias −1 Var x′ βˆ = x′ Var βˆ x = σ 2 x′ (X ′ X) x. Assim, temos o
Teorema 2.8 Seja x um vetor de valores fixados das vari´aveis regressoras. Seja µ ˆ(x) = ′ˆ x β o estimador da m´edia da vari´avel resposta correspondente a x. Ent˜ao −1 µ ˆ (x) ∼ N x′ β, σ 2 x′ (X ′ X) x . Corol´ ario 2.3
µ ˆ(x) − x′ β QMres ·
x′
(X ′ X)−1
x
1/2 ∼ tn−p
Assim, um intervalo de confian¸ca com coeficiente 1 − α para µ(x) ´e dado por 1/2 −1 µ ˆ(x) ± tn−p; α2 QMres · x′ (X ′ X) x
(2.23)
De maneira an´aloga podemos encontrar um intervalo de previs˜ao para uma observa¸c˜ao futura da vari´avel resposta, o que ´e uma extens˜ao do assunto tratado no cap´ıtulo 1, veja a se¸c˜ao 1.3.6. Considere ent˜ao um vetor x como em (2.22) e suponha que desejamos obter um intervalo de previs˜ao para uma observa¸c˜ao futura correspondente a x. Denotemos esta observa¸c˜ao por Y ∗ . Como j´a foi dito no cap´ıtulo 1, Y ∗ ´e independente das observa¸c˜oes ˆ que ´e uma vari´avel dispon´ıveis Y1 , . . . , Yn e, portanto, Y ∗ ´e independente de µ ˆ(x) = x′ β,
67 aleat´oria que depende somente de Y = (Y1 , . . . , Yn ). Assim, Var (Y ∗ − µ ˆ(x)) = Var (Y ∗ ) + Var (ˆ µ(x)) −1
= σ 2 + σ 2 x′ (X ′ X) x −1 = σ 2 1 + x′ (X ′ X) x . Como Y ∗ e µ ˆ(x) s˜ao independentes e tˆem distribui¸c˜ao normal, temos que Y ∗ − µ ˆ(x)
tamb´em tem distribui¸c˜ao normal. Temos ent˜ao o
Teorema 2.9 −1 Y∗−µ ˆ(x) ∼ N 0, σ 2 1 + x′ (X ′ X) x . Corol´ ario 2.4 1/2
(QMres)
Y∗−µ ˆ(x) 1+
x′
(X ′ X)−1
x
1/2 ∼ tn−p .
Assim, um intervalo de previs˜ao para Y ∗ , definido de tal forma que a probabilidade deste conter a observa¸c˜ao futura seja 1 − α ´e dado por µ ˆ(x) ± tn−p; α2 (QMres)1/2 (1 + x′ (X ′ X) x)
1/2
(2.24)
Exemplo 2.3 (Continuando o exemplo 2.2). Lembremos que a reta de regress˜ao ajustada ´e dada por µ ˆ(x) = 33.13 − 0.2216x2 + 1.8243x3 . Considere um indiv´ıduo com x2 = 112 de peso relativo e x3 = 16% de calorias provenientes de prote´ınas. Temos que µ ˆ(x) = 33.13 − 0.22165 × 112 + 1.8243 × 16 = 37.494 ´e a porcentagem m´edia estimada de calorias obtidas a partir do complexo de carboidratos. Atrav´es de um programa de computador encontramos QMres = 35.65 e uma
68 estimativa do desvio padr˜ao de µ ˆ(x) igual a 1.34. Assim, um intervalo de confian¸ca para µ(x) com coeficiente 95% ´e dado por 37.494 ± 2.1098 × 1.34 = (34.6669; 40.3211) . Um intervalo de previs˜ao para a observa¸c˜ao futura correspondente a x pode ser obtido utilizando a f´ormula (2.24). Temos que a estimativa do desvio padr˜ao nesta f´ormula ´e dada por 1/2 1/2 −1 = 35.65 + (1.34)2 = 6.1193 QMres + QMres · x′ (X ′ X) x Assim, o intervalo de previs˜ao ´e dado por
37.494 ± 2.1098 × 6.1193 = (24.5835; 50.4045)
2.6
O Teste F Na se¸c˜ao 2.4 apresentamos um teste para a hip´otese H0 : βi = 0. Vimos que se
esta hip´otese for verdadeira, ent˜ao a estat´ıstica de teste tem distribui¸c˜ao t de Student com n − p graus de liberdade. Com isto, encontramos um teste para H0 com n´ıvel de
significˆancia igual a α. Nesta se¸c˜ao trataremos do problema de testar a hip´otese H0 : βk = βk+1 = . . . = βp−1 = 0
(2.25)
onde 0 ≤ k ≤ p − 1. Se H0 for verdadeira ent˜ao a m´edia da resposta depender´a somente das vari´aveis regressoras at´e o ´ındice k − 1, ou seja, teremos µi = E (Yi ) = β0 + β1 xi1 + · · · + βk−1 xi(k−1) ,
ı = 1, . . . , n,
(2.26)
de modo que os outros regressores n˜ao s˜ao significativos no modelo. Ou seja, um teste para H0 ´e um teste da significˆancia conjunta destes regressores. No exemplo 2.2 poder´ıamos testar, por exemplo, a hip´otese H0 : β1 = β2 = β3 = 0,
69 que, se verdadeira, implica na retirada das vari´aveis idade, peso e prote´ına do modelo. Desta forma, se H0 for verdadeira, teremos que a m´edia da resposta n˜ao ´e “explicada” por estas vari´aveis. Para obter um teste para a hip´otese H0 utilizaremos o teste da raz˜ao de verossimilhan¸ca – veja Bolfarine e Sandoval (2001, P´ag. 103). A estat´ıstica de teste ´e dada por Λ=
supH0 L , sup L
onde L ´e a fun¸c˜ao de verossimilhan¸ca, sup L ´e o supremo desta fun¸c˜ao e supH0 L ´e o supremo de L com o dom´ınio restrito ao subconjunto do espa¸co param´etrico definido pela hip´otese H0 . Rejeitamos a hip´otese nula para pequenos valores desta estat´ıstica. ˆ σ O m´aximo da fun¸c˜ao L ´e L(β, ˆ 2 ), onde βˆ e σ ˆ 2 s˜ao os estimadores de m´axima verossimilhan¸ca para β e σ 2 respectivamente, ou seja, −1 βˆ = (X ′ X) X ′ Y
σ ˆ2 =
e
′ ˆ ˆ Y − Xβ Y − Xβ n
.
Se vale H0 , temos que a m´edia das observa¸c˜oes ´e dada em (2.26) e o vetor de m´edias µ = (µ1 , . . . , µn )′ , em nota¸c˜ao matricial, ´e dado por µ = Zφ,
(2.27)
onde
Z=
1 x11 . . . x1(k−1) 1 x21 . . . x2(k−1) .. .. .. . . . 1 xn1 . . . xn(k−1)
′ e φ = β0 β1 . . . βk−1 .
Assim, se H0 ´e verdadeira, o estimador de m´axima verossimilhan¸ca para φ ´e dado por −1 φ˜ = (Z ′ Z) Z ′ Y
(2.28)
70 e o estimador de m´axima verossimilhan¸ca para σ 2 ´e ′ ˜ ˜ Y − Zφ Y − Zφ . σ ˜2 = n ˜ σ O m´aximo da fun¸c˜ao L supondo a veracidade de H0 ´e L(φ, ˜ 2 ). A estat´ıstica da raz˜ao de verossimilhan¸ca para o teste de H0 ´e ent˜ao dada por 2 ˜ ˜ L β, σ . Λ= 2 ˆ L φ, σ ˆ
Temos ent˜ao que, para uma amostra observada y = (y1 , . . . , yn )′ , ′ 1 2 −n/2 ˜ ˜ (2π˜ σ ) exp − 2˜σ2 y − X β y − Xβ Λ = ′ −n/2 1 2 ˆ ˆ (2πˆ σ ) exp − 2ˆσ2 y − X φ y − Xφ =
2 n/2
σ ˆ σ ˜2
′ n/2 ˆ ˆ y − Xβ y − Xβ = ′ . y − Z φ˜ y − Z φ˜
(2.29)
Um fato interessante ´e que a estat´ıstica Λ ´e uma fun¸c˜ao mon´otona da raz˜ao entre as somas dos quadrados dos res´ıduos. O numerador, nada mais ´e que a soma dos quadrados dos res´ıduos usual, utilizando todos os regressores e o denominador ´e a soma dos quadrados dos res´ıduos obtida quando ajustamos o modelo de regress˜ao linear m´ ultipla somente com as vari´aveis regressoras X1 , X2 , . . . , Xk−1 . Assim, na pr´atica, se quisermos obter o valor observado de Λ, basta ajustarmos dois modelos de regress˜ao: um com todos os regressores – ou seja, X1 , X2 , . . . , Xp−1 – e outro s´o com os regressores X1 , X2 , . . . , Xk−1 . O valor observado de Λ ´e uma fun¸c˜ao da raz˜ao entre as duas somas de quadrados de res´ıduos obtidas. Para efetivarmos o teste para a hip´otese H0 precisamos estabelecer uma regra para a rejei¸c˜ao da hip´otese. Pela maneira como o teste da raz˜ao de verossimilhan¸ca ´e definido, temos que a regra deve ser da forma
71 Rejeitar H0 se e somente se Λ < c,
onde c ´e uma constante determinada de acordo com o n´ıvel de significˆancia que desejamos, ou seja, c depende da probabilidade do erro tipo I que especificarmos. Assim, ´e necess´ario conhecer a distribui¸c˜ao de Λ quando H0 ´e verdadeira. Em vez de encontrar a distribui¸c˜ao de Λ, vamos encontrar a distribui¸c˜ao de uma fun¸c˜ao mon´otona de Λ, a chamada Estat´ıstica F , definida por ′ ˆ ˜ ˆ ˜ Xβ − Zφ X β − Z φ / (p − k) . F = ′ Y − X βˆ Y − X βˆ / (n − p) O pr´oximo teorema mostra que podemos escrever Λ = g(F ), onde g ´e uma fun¸c˜ao real estritamente decrescente e invert´ıvel. Note que a inversa g −1 tamb´em ´e uma fun¸c˜ao estritamente decrescente. Como Λ < c se e somente se F = g −1 (Λ) > g −1 (c) resulta que a regra de decis˜ao para H0 pode ser colocada na forma “rejeitar H0 para grandes valores de F ”.
Teorema 2.10 Λ=
p−k 1+ ·F n−p
−n/2
.
!−n/2
.
Demonstra¸c˜ ao: Por (2.29) temos que Λ=
k Y − Z φ˜ k2 k Y − X βˆ k2
(2.30)
Observe que ˜ Y − Z φ˜ = Y − X βˆ + X βˆ − Z φ. O vetor Y − X βˆ ´e ortogonal a qualquer vetor em span(X). Em particular, ´e ortogonal ˜ que est´a em span(X), pois as colunas de Z tamb´em s˜ao colunas ao vetor X βˆ − Z φ,
72 de X, e a diferen¸ca de dois vetores em um subespa¸co vetorial ainda ´e um vetor do subespa¸co. Assim, por (C.5) resulta que k Y − Z φ˜ k2 =k Y − X βˆ k2 + k X βˆ − Z φ˜ k2 .
(2.31)
Substituindo em (2.30) obtemos k Y − X βˆ k2 + k X βˆ − Z φ˜ k2 Λ = k Y − X βˆ k2 !−n/2 k X βˆ − Z φ˜ k2 = 1+ k Y − X βˆ k2 −n/2 p−k = 1+ ·F , n−p
!−n/2
concluindo a demonstra¸c˜ao. A vantagem em usar F em vez de Λ ´e que conhecemos a distribui¸c˜ao de F quando vale H0 . Esta distribui¸c˜ao ´e dada no teorema (2.11). Para a demonstra¸c˜ao, s˜ao necess´arios alguns conhecimentos de ´algebra linear que est˜ao no apˆendice C. Teorema 2.11 Se H0 for verdadeira, ent˜ao F ∼ F(p−k),(n−p) . Demonstra¸c˜ ao: Sejam E1 = span(X0 , . . . , Xk−1 ) e E2 = span(X0 , . . . , Xp−1 ), onde X0 = 1n . Temos que E1 ⊂ E2 . Sejam E2⊥ o complementar ortogonal de E2 e E2 ⊖ E1
o complementar ortogonal de E1 dentro de E2 . Observe que podemos escrever Rn = E2 ⊕ E2⊥ e E2 = E1 ⊕ (E2 ⊖ E1 ), de modo que Rn = E1 ⊕ (E2 ⊖ E1 ) ⊕ E2⊥ . Suponha que desejamos definir um teste com n´ıvel de significˆancia igual a α. Ent˜ao, basta escolhermos c tal que P F(p−k),(n−p) > c = α,
(2.32)
73 onde F(p−k),(n−p) ´e uma vari´avel aleat´oria com distribui¸c˜ao F de Snedecor com p − k e
n − p graus de liberdade. Denotamos c que satisfaz (2.32) por F(p−k),(n−p);α . Figura 2.2: Gr´afico da Densidade F .
Na figura 2.3.2 temos um gr´afico de uma densidade associada `a distribui¸c˜ao F , com a respectiva representa¸c˜ao de F(p−k),(n−p);α . Assim, um teste de n´ıvel α para H0 ´e dado por:
Rejeitar H0 se e somente se F > F(p−k),(n−p);α .
Um fato importante ´e que a hip´otese H0 ´e composta, ou seja, existem infinitos vetores de parˆametros em H0 . Qualquer vetor de parˆametros na forma ′ θ = β0 , β1 , . . . , β(p−1) , σ 2
com βk = . . . = βp−1 = 0 est´a em H0 . Ou seja, β0 , β1 , . . . , βk−1 e σ 2 variam livremente. Apesar disto, para qualquer um dos pontos em H0 a distribui¸c˜ao de F ´e a mesma, ou seja, F ∼ F(p−k),(n−p) . Ou seja, se θ est´a em H0 a distribui¸c˜ao de F n˜ao depende de θ.
74 A f´ormula (2.30) est´a expressa em termos dos vetores de valores ajustados X βˆ ˜ A seguir apresentaremos uma express˜ao alternativa para a estat´ıstica F que ´e e Z φ. mais conveniente em termos de aplica¸c˜ao, pois est´a colocada em termos das somas dos quadrados dos res´ıduos, que s˜ao apresentadas diretamente nas sa´ıdas dos programas de computador. Observe que podemos escrever F =
=
k X βˆ − Z φ˜ k2 /(p − k) k Y − X βˆ k2 /(n − p) k Y − Z φ˜ k2 − k Y − X βˆ k2 /(p − k) k Y − X βˆ k2 /(n − p)
,
onde a u ´ltima igualdade ´e conseq¨ uˆencia de (2.31). Note que no numerador dessa express˜ao temos a diferen¸ca entre a soma dos quadrados dos res´ıduos resultante do ajuste do modelo com os regressores X1 , . . . , Xk−1 e a resultante do ajuste do modelo com X1 , . . . , Xp−1 . Denotaremos estas somas por SQres (X1 , . . . , Xk−1 ) e SQres (X1 , . . . , Xp−1 ), respectivamente. Nota¸c˜oes an´alogas ser˜ao utilizadas para os quadrados m´edios dos res´ıduos. Assim, podemos escrever F =
[SQres(X1 , . . . , Xk−1 ) − SQres(X1 , . . . , Xp−1 )] /(p − k) . QMres(X1 , . . . , Xp−1 )
Para concluir, duas observa¸c˜oes. Primeiramente, note que p e k representam o n´ umero de “parˆametros β” possivelmente n˜ao nulos no modelo com todos os regressores e no modelo definido por H0 , respectivamente. E tamb´em note que, na defini¸c˜ao de H0 , ´ claro que podemos impusemos que os u ´ltimos p − k parˆametros seriam iguais a zero. E estender toda a teoria vista acima para a situa¸c˜ao onde a hip´otese nula ´e defininida por um subconjunto de p − k parˆametros β – excluindo β0 – iguais a zero. Exemplo 2.4 (Healy, 1988, P´ag 19) A tabela 2.6 apresenta dados relacionados ao n´ umero de esp´ecies de p´assaros em ilhas pr´oximas `a costa das ilhas britˆanicas. S˜ao 43
75 ilhas e sete vari´aveis, sendo o n´ umero de esp´ecies (esp´ec) a vari´avel resposta e os seis regressores:
• dist: distˆancia em rela¸c˜ao ao continente (em km); • lat: latitude norte (em graus); • long: longitude oeste (em graus); • ´area: ´area da ilha (em hectares); • hab: n´ umero de habitats; • elev: eleva¸c˜ao m´axima (em metros). As estimativas dos parˆametros associados `as vari´aveis e os respectivos valores das estimativas dos desvios padr˜oes, das estat´ısticas dos testes de significˆancia e probabilidades de significˆancia s˜ao apresentados na tabela 2.7. O valor t refere-se ao valor observado da estat´ıstica para o teste da hip´otese βi = 0, T =
βˆi (cii · QMRes )1/2
.
– veja (2.21). A probabilidade de significˆancia – ou p- value – ´e o valor P (|t(n−p) | > t),
onde t(n−p) ´e uma vari´avel aleat´oria distribui¸c˜ao t de Student com (n−p) = (43−7) = 36 graus de liberdade, neste caso. Um coment´ario importante: por motivos que veremos mais adiante, o teste t somente deve ser utilizado para a remo¸c˜ao de uma vari´avel do modelo de cada vez. Por exemplo, temos que a probabilidade de significˆancia associada `a vari´avel latitude ´e 0.889, sugerindo ent˜ao a sua exclus˜ao do modelo. Se decidirmos por isto, devemos ent˜ao reestimar os parˆametros sem a vari´avel latitude, observar novos pvalues, retirar mais uma vari´avel (se for necess´ario) e assim por diante. Nunca devemos utilizar o teste t para retirar mais de uma vari´avel de uma u ´nica vez. O teste adequado para esta tarefa ´e o teste F .
76 A tabela 2.7 indica que, individualmente, as vari´aveis latitude, longitude e m´axima eleva¸c˜ao s˜ao candidatas a serem retiradas do modelo. Ser´a, que em conjunto, poderemos retir´a-las? Vamos ent˜ao utilizar o teste F para testar a hip´otese de que no modelo de regress˜ao linear com m´edia µ = β0 + β1 (dist) + β2 (lat) + β3 (long) + β4 (´area) + β5 (hab) + β6 (elev) os parˆametros β2 , β3 e β6 s˜ao nulos, ou seja, testar H0 : β2 = β3 = β6 = 0. Temos que SQres (X1 , X4 , X5 ) = 1541.6, SQres(X1 , . . . , X6 ) = 1481.7, p = 7 e k = 4, de modo que a estat´ıstica F assume valor F =
43 − 7 1541.6 − 1481.7 · = 0.4851. 7−4 1481.7
A probabilidade de significˆancia vale P (F3;36 > 0.4851) = 0.6947 e assim optamos por n˜ao rejeitar H0 e retirar latitude, longitude e m´axima eleva¸c˜ao do modelo. Assim, um novo ajuste deve ser feito com as vari´aveis regressoras restantes, considerando o modelo µ = β0 + β1 (dist) + β4 (´area) + β5 (hab). Os resultados est˜ao na tabela 2.8. As probabilidades de significˆancia indicam que os trˆes regressores devem permanecer no modelo. A m´edia da vari´avel n´ umero de esp´ecies ´e ent˜ao estimada por µ ˆ = −5.8350 − 0.05857(dist) + 0.0012(´area) + 2.2071(hab).
77 Considere, por exemplo, uma hipot´etica popula¸c˜ao de ilhas a 23 km do continente, com ´area igual a 100 ha e n´ umero de habitats igual a 18. Ent˜ao o n´ umero de esp´ecies m´edio estimado ´e µ ˆ = −5.835 − 0.0586 × 23 + 0.0012 × 100 + 2.2071 × 18 = 32.65, com um intervalo de confian¸ca a 95% de (28.877; 36.449). Na figura 2.3 temos um gr´afico de probabilidade normal para os res´ıduos resultantes do ajuste deste modelo. Figura 2.3: Gr´afico de Probabilidade Normal para os Res´ıduos.
2.6.1
A Tabela de An´ alise de Variˆ ancia
Uma das utiliza¸c˜oes mais freq¨ uentes do teste F ´e testar a Significˆancia Conjunta de Todas as Vari´ aveis Regressoras. No exemplo 2.4, supondo que a m´edia da resposta
78 ´e dada por µ = β0 + β1 (dist) + β2 (lat) + β3 (long) + β4 (´area) + β5 (hab) + β6 (elev), podemos ter interesse em testar a hip´otese H0 : β1 = β2 = . . . = β6 = 0. Se n˜ao rejeitarmos H0 n˜ao h´a mais nada a fazer, pois µ n˜ao dependeria dos regressores em quest˜ao. Consideremos ent˜ao o modelo de regres˜ao linear m´ ultipla, ou seja, Y ∼ Nn (Xβ, σ 2 I), onde Y , X e β est˜ao definidos (2.2), (2.4) e (2.5), respectivamente e considere a hip´otese H0 : β1 = . . . = βp−1 = 0,
(2.33)
que ´e a hip´otese em (2.25) com k = 1. Se H0 ´e verdadeira, temos ent˜ao que Yi ∼ N (β0 , σ 2 ),
i = 1, . . . , n.
(2.34)
Assim, as respostas constituem uma amostra aleat´oria de uma popula¸c˜ao com distribui¸c˜ao normal, e a solu¸c˜ao para o problema da estima¸c˜ao de m´axima verossimilhan¸ca de β0 e σ 2 ´e amplamente conhecida, sendo os estimadores de β0 e σ 2 dados respectivamente por
n
βˆ0 = Y
1X (Yi − Y )2 . e σˆ2 = n i=1
Podemos obter o mesmo resultando utilizando a abordagem matricial para modelos de regress˜ao. Note que podemos reescrever (2.34) como Y ∼ Nn (Zβ0 , σ 2 I),
79 onde Y = (Y1 , . . . , Yn )′ e Z = (1, . . . , 1)′ . Ent˜ao este ´e um modelo de regress˜ao linear m´ ultipla como definido em (2.6), com matriz de planejamento Z. Assim, caso H0 seja verdadeira temos, por (2.11), que −1 βˆ0 = (Z ′ Z) Z ′ Y −1 1 Y1 = 1 . . . 1 . . . 1 ... 1 ... Yn 1 n 1X Yi = Y¯ = n ı=1
´e o estimador de m´axima verossimilhan¸ca para β0 . A soma dos quadrados dos res´ıduos ´e dada por SQres(0) = =
Y − Z βˆ0
n X ı=1
′ ′ Y − Z βˆ0 = Y1 − Y¯ , . . . , Yn − Y¯ Y1 − Y¯ , . . . , Yn − Y¯
Yi − Y¯
2
.
Esta soma de quadrados ´e tradicionalmente conhecida como Soma de Quadrados Total. Assim, a soma de quadrados total nada mais ´e do que a soma dos quadrados dos res´ıduos associada ao ajuste do modelo (2.34). A denotaremos por SQT otal . O teorema a seguir mostra a rela¸c˜ao entre SQT otal e a soma dos quadrados dos res´ıduos oriunda do ajuste com todos os regressores. Antes, precisamos definir a Soma de Quadrados de Regress˜ao, dada por SQReg = (ˆ µ − Y 1′ )′ (ˆ µ − Y 1′ ) =k µ ˆ − Y 1′ k2 n X (ˆ µ i − Y )2 , = i=1
onde µ ˆ = (ˆ µ1 , . . . , µ ˆn )′ = X βˆ e 1 = (1, . . . , 1)′ . SQres(X1 , . . . , X(p−1) ) representa a soma dos quadrados de res´ıduos usual, oriunda do ajuste do modelo com todos os regressores, ou seja, SQres(X1 , . . . , X(p−1) ) =k Y − µ ˆ k2 =
n X (Yi − µ ˆi )2 . i=1
80 Teorema 2.12 SQT otal = SQres(X1 , . . . , X(p−1) ) + SQReg .
Demonstra¸c˜ ao: Note que Y − Y 1′ = Y − X βˆ + X βˆ − Y 1′ . Observe que 1′ ´e a primeira coluna da matriz X. Assim, o vetor Y 1′ est´a no espa¸co gerado pelas colunas de X. Como conseq¨ uˆencia, o vetor X βˆ − Y 1′ tamb´em est´a neste espa¸co. Como o vetor Y − X βˆ ´e ortogonal a todos os vetores em span(X), resulta que ele ´e ortogonal tamb´em a X βˆ − Y 1′ . Assim, por (C.5), temos que k Y − Y 1′ k2 =k Y − X βˆ k2 + k X βˆ − Y 1′ k2 , concluindo a demonstra¸c˜ao. Assim, para testar a hip´otese em (2.33), temos que a estat´ıstica F assume a forma (SQT otal − SQres(X1 , . . . , Xp−1 )) /(p − 1) QMres(X1 , . . . , X(p−1) ) SQReg /(p − 1) = . QMres(X1 , . . . , X(p−1) )
F =
A quantidade SQReg /(p − 1) ´e denominada Quadrado M´edio de Regress˜ ao e ´e denotada
por QMreg. Assim, podemos escrever de forma resumida F =
QMReg , QMres
ficando bem claro que QMres refere-se ao ajuste com todos os regressores. A probabilidade de significˆancia para o teste de H0 ´e dada por P F(p−1),(n−p) > f ,
onde f ´e o valor observado da estat´ıstica F e F(p−1),(n−p) denota uma vari´avel aleat´oria com distribui¸c˜ao F de Snedecor com p − 1 e n − p graus de liberdade.
81 A maioria dos softwares estat´ısticos apresenta em suas sa´ıdas relativas ao ajuste de um modelo de regress˜ao uma tabela denominada Tabela de An´ alise de Variˆ ancia. Nesta tabela aparecem elementos suficientes para testar a hip´otese de significˆancia conjunta dos regressores. O exemplo a seguir mostra uma tabela de an´alise de variˆancia para o exemplo 2.4.
Exemplo 2.5 Em rela¸c˜ao ao exemplo 2.4, vamos testar a hip´otese H0 : β1 = β2 = . . . = β6 = 0. Em um programa de computador obtemos a tabela de an´alise de variˆancia 2.9, oriunda do ajuste do modelo com todos os regressores. A tabela ´e auto explicativa. Como o valor observado da estat´ıstica F ´e f = 33.88, temos que a probabilidade de significˆancia ´e P (F6;36 > 33.88) ∼ = 0, implicando a rejei¸c˜ao de H0 . Assim, tudo indica que pelo menos um regressor ´e significativo. Observe que na coluna Graus de Liberdade temos o n´ umero de graus de liberdade associados `a distribui¸c˜ao da estat´ıstica de teste sob H0 .
2.6.2
O Coeficiente de Determina¸c˜ ao
O Coeficiente de Determina¸c˜ao, definido por R2 =
SQReg SQT otal
´e apresentado em geral como uma medida da qualidade do ajuste do modelo de regress˜ao linear. A justificativa para a sua utiliza¸c˜ao como tal reside na igualdade dada no Teorema 2.12. Por este resultado vemos que 0 ≤ R2 ≤ 1 e que R2 = 1 se e somente
se SQres(X1 , . . . , X(p−1) ) = 0, o que ocorre se e somente se Yi = µ ˆi para i = 1, . . . , n.
Isto d´a a id´eia do “ajuste perfeito” , no sentido de que todas observa¸c˜oes est˜ao na reta
82 de regress˜ao ajustada. Assim, um bom ajuste seria aquele onde o valor de R2 estivesse pr´oximo de 1. Para os dados do exemplo 2.4 temos, no caso do modelo com todos os regressores, R2 = 0.85. Para o modelo somente com as vari´aveis dist, ´area e hab, temos R2 = 0.84. Ocorre que quanto mais regressores em um modelo menor ser´a a soma dos quadrados dos res´ıduos associada e, portanto, um modelo com mais regressores ter´a necessariamente um R2 associado maior. Este resultado ser´a demonstrado no Teorema 2.13. Este fato ´e um ponto negativo para o coeficiente de determina¸c˜ao, pois podemos aumentar o coeficiente artificialmente introduzindo regressores, mesmo que estes novos regressores n˜ao sejam relevantes para o problema em quest˜ao.
Teorema 2.13 Quanto mais regressores no modelo, menor ser´a a soma dos quadrados dos res´ıduos.
Demonstra¸c˜ ao: A demonstra¸c˜ao ´e basicamente uma aplica¸c˜ao direta da defini¸c˜ao de proje¸c˜ao, dada em (C.8). Seja X = (1, X1 · · · Xp−1 ) uma matriz de planejamento e seja Z = (1, X1 · · · Xp−1 , Xp ), onde Xp ´e um vetor de ordem n × 1. Assim, um modelo
tendo Z como matriz de planejamento representa a inclus˜ao de mais um regressor.
Sejam ΠX (Y ) e ΠZ (Y ) as proje¸c˜oes de Y sobre span(X) e span(Z), respectivamente. Observe que todo vetor em span(X) tamb´em est´a em span(Z). Em particular, ΠX (Y ) ∈
span(Z). Por (C.8), vem que
SQres(X1 , . . . , X(p−1) , Xp ) =k Y − ΠZ (Y ) k2 ≤k Y − ΠX (Y ) k2 = SQres(X1 , . . . , X(p−1) ).
2.7
Exerc´ıcios
1. Prove que o estimador de m´axima verossimilhan¸ca para σ 2 ´e σ ˆ 2 dado em (2.15).
83 2. Prove, resolvendo o sistema (2.18), que os estimadores de m´axima verossimilhan¸ca para β0 e β1 no modelo de regress˜ao linear simples s˜ao dados em (1.8).
84
Tabela 2.6: esp´ecies de p´assaros em ilhas pr´oximas `a costa das ilhas britˆanicas. esp´ ec 4 45 7 36 51 17 2 2 19 26 8 2 5 6 3 10 6 8 35 4 41 13 14 27 29 2 31 24 42 4 53 2 28 40 25 9 6 1 33 2 16 16 19
dist 49.9 3.2 5.2 35.4 15.7 35.4 4.8 4.8 0.8 249.4 6.1 54.7 3.5 44.5 64.4 0.4 1.1 3.4 0.2 0.4 8.1 225.3 0.8 0.8 45.1 1.0 2.6 0.4 1.2 49.9 25.7 15.7 4.8 6.4 2.8 3.2 11.3 0.8 4.2 3.2 3.2 6.4 11.3
lat 49.54 52.46 56.05 54.03 56.10 58.54 56.03 51.24 58.32 60.37 51.22 57.59 55.17 49.54 57.42 52.05 55.39 56.00 55.41 51.26 56.50 60.24 53.19 51.53 49.54 51.36 55.16 52.58 51.45 59.04 56.31 53.55 52.05 51.26 54.41 53.34 51.48 54.48 53.32 54.34 54.06 54.28 55.16
long 6.22 4.48 2.38 4.50 6.46 2.39 3.12 2.51 4.20 0.50 3.08 7.24 5.37 6.19 7.36 -1.80 4.56 3.13 2.47 5.14 6.10 0.44 4.02 5.21 6.20 4.44 5.34 -0.19 5.18 4.24 6.51 10.17 10.30 9.37 5.32 10.07 10.33 8.34 10.18 8.33 10.09 8.40 7.12
area 21.4 179.8 2.8 249.5 7418.1 85.1 6.5 0.8 187.9 4011.5 21.1 19.0 5.7 38.6 13.8 108.5 6.9 1.4 541.9 1.8 642.3 265.3 28.3 243.0 109.4 5.6 18.6 334.1 292.4 13.8 7652.9 0.8 631.0 639.1 32.0 639.1 17.8 4.9 961.5 1.2 360.4 84.6 331.4
hab 8 19 8 18 22 16 7 3 14 20 7 9 4 11 6 11 6 7 17 5 21 11 6 19 16 7 10 9 18 3 24 4 16 20 11 7 8 4 12 3 7 11 12
elev 18.0 167.0 82.0 127.9 103.3 51.2 5.1 3.7 75.2 158.4 18.3 32.0 27.1 24.7 37.5 7.6 3.1 14.6 21.0 33.5 137.4 51.8 49.7 135.9 24.1 39.0 123.4 12.2 78.9 12.2 140.1 4.9 292.8 133.4 33.2 62.8 13.7 17.4 89.0 13.7 70.1 26.5 82.3
85
Tabela 2.7: Estimativas do Parˆametros e Testes de Significˆancia. Dados da tabela 2.6 Constante dist lat long area ´ hab elev
Estimativa -8.3200 -0.0611 0.0593 -0.0415 0.0012 2.0115 0.0277
Desvio Padr˜ ao 23.5200 0.0233 0.4222 0.3755 0.0008 0.2736 0.0247
t -0.3500 -2.6200 0.1400 -0.1100 1.5600 7.3500 1.1500
p-valor 0.7260 0.0130 0.8890 0.9130 0.1260 0.0000 0.2600
Tabela 2.8: Estimativas do Parˆametros e Testes de Significˆancia. Dados da tabela 2.6, Modelo sem Latitude, Longitude e M´axima Eleva¸c˜ao Constante dist area ´ hab
Estimativa -5.8350 -0.0586 0.0012 2.2071
Desvio Padr˜ ao 2.2270 0.0194 0.0007 0.1992
t -2.6200 -3.0000 1.6400 11.0800
p-value 0.0120 0.0050 0.1100 0.0000
Tabela 2.9: Tabela de An´alise de Variˆancia. Dados da tabela 2.6. Fonte Regress˜ ao Res´ıduos Total
Graus de Liberdade 6 36 42
Somas de Quadrados 8365.30 1481.70 9847.00
Quadrados M´edios 1394.20 41.20
F 33.88
Probabilidade de Significˆ ancia 0.00
86
Cap´ıtulo 3 An´ alise de Res´ıduos A id´eia b´asica na an´alise de res´ıduos ´e o estudo de gr´aficos que envolvem os res´ıduos com o objetivo de verificar a adequa¸c˜ao de um determinado modelo no ajuste aos dados. Consideremos o modelo de regress˜ao linear m´ ultipla Y ∼ Nn (Xβ, σ 2 ) e relembremos que o Vetor de Res´ıduos Ordin´arios ´e definido por E =Y −µ ˆ = (Y1 − µ ˆ 1 , Y2 − µ ˆ 2 , . . . , Yn − µ ˆn )′ ,
(3.1)
onde µ ˆ = (ˆ µ1 , . . . , µ ˆn )′ = X βˆ ´e o estimador da m´edia µ = Xβ. Vamos encontrar a distribui¸c˜ao de E. Temos que
onde
−1 E = Y − X βˆ = Y − X (X ′ X) X ′ Y −1 ′ ′ = I − X (X X) X Y = (I − H)Y,
H = X (X ′ X) 87
−1
X ′.
88 Como E ´e o produto de uma matriz de constantes de dimens˜ao n × n por um vetor
aleat´orio Y com distribui¸c˜ao normal n-variada resulta, pelo Teorema B.2, que E tem distribui¸c˜ao normal n-variada, com vetor de m´edias ˆ E (E) = E Y − X β = E (Y ) − E X βˆ = Xβ − Xβ = 0.
e matriz de covariˆancias
Cov (E) = (I − H) σ 2 · I (I − H)′ = σ 2 (I − H) (I − H)′ = σ 2 (I − H) , onde a u ´ltima igualdade ´e conseq¨ uˆencia de termos (I − H)′ = I − H
e
(I − H) (I − H) = I − H
(dizemos que I − H ´e Sim´etrica por satisfazer a primeira condi¸c˜ao e Idempotente por satisfazer a segunda). Demonstramos ent˜ao o
Teorema 3.1 E ∼ Nn 0, σ 2 (I − H) . Denotando por hii o i-´esimo elemento da diagonal principal de H e escrevendo E em fun¸c˜ao de suas coordenadas, ou seja, E = (E1 , . . . , En )′ , temos que Var(Ei ) = σ 2 (1 − hii ). Assim, vale o seguinte corol´ario do teorema (3.1).
Corol´ ario 3.1 Ei ∼ N 0, σ 2 (1 − hii ) ,
ı = 1, . . . , n
89 Observe que este corol´ario ´e uma extens˜ao do Teorema 1.5. Pelo Teorema 3.1 podemos perceber que
1. Os res´ıduos n˜ao s˜ao identicamente distribu´ıdos, j´a que Var(Ei ) = σ 2 (1 − hii ); 2. Os res´ıduos s˜ao correlacionados (em geral).
Para confirmar esta u ´ltima afirma¸c˜ao, observe que Cov (Ei , Ej ) = −σ 2 hij . Assim, o coeficiente de correla¸c˜ao entre Ei e Ej ´e −σ 2 hij Cov (Ei , Ej ) p p =p Var (Ei ) Var (Ej ) σ 2 (1 − hii ) σ 2 (1 − hjj ) −hij . = p (1 − hii ) (1 − hjj )
Corr (Ei , Ej ) = p
(3.2)
Os m´etodos de an´alise de res´ıduos que estudaremos necessitam fortemente da hip´otese de que estes s˜ao n˜ao correlacionados e que tˆem a mesma variˆancia. Este u ´ltimo problema pode ser resolvido definindo os res´ıduos padronizados,
Observe ent˜ao que
Al´em disso, temos que
Ri = p
Ei (1 − hii )
,
ı = 1, . . . , n.
Ri ∼ N 0, σ 2 . Corr (Ri , Rj ) = Corr (Ei , Ej ) ,
de modo que os res´ıduos padronizados s˜ao correlacionados, em geral. Observe ent˜ao que
(3.3)
90 1. Se as correla¸c˜oes em (3.2) s˜ao pequenas, ent˜ao os res´ıduos padronizados s˜ao aproximadamente independentes; 2. Por (3.3) temos que os res´ıduos padronizados tˆem a mesma variˆancia, diferentemente dos res´ıduos ordin´arios.
Podemos ent˜ao aplicar, por exemplo, a teoria dos gr´aficos de probabilidade normal para verificar a normalidade dos res´ıduos. Relembrando: se o modelo de regress˜ao linear for adequado, o gr´afico de probabilidade normal deve aproximar-se de uma reta.
3.1
Influˆ encia Nesta se¸c˜ao vamos mostrar como mensurar a influˆencia de uma observa¸c˜ao Yi na
obten¸c˜ao do estimador da m´edia de Yi , ou seja, µ ˆi . Como µ ˆ = X βˆ = X(X ′ X)X ′ Y , vem que µ ˆ = HY,
(3.4)
de modo que a i-´esima coordenada de µ ˆ pode ser escrita como µ ˆi = hi1 Y1 + hi2 Y2 + · · · + hin Yn ,
ı = 1, . . . , n,
onde hij ´e o elemento (i, j) da matriz H. Pelo Corol´ario 3.1, temos que σ 2 (1 − hii ) ≥ 0, pois σ 2 (1 − hii ) ´e a variˆancia de Ei e variˆancias s˜ao sempre n˜ao negativas. Isto significa que 1 − hii ≥ 0 e assim hii ≤ 1. Por (A.4), vem que
Cov (ˆ µ) = HCov (Y ) H ′ = σ 2 HIH ′ = σ 2 H,
91 uma vez que Var(Y ) = σ 2 I e pode-se verificar facilmente que H ´e sim´etrica e idempotente. Assim, 0 ≤ Var (ˆ µi ) = σ 2 hii , implicando em σ 2 hii ≥ 0 e, portanto, hii ≥ 0. Assim, mostramos que 0 ≤ hii ≤ 1,
i = 1, . . . , n.
Podemos chegar ao mesmo resultado de uma outra forma, obtendo o coeficiente de correla¸c˜ao entre Yi e µ ˆi . A covariˆancia entre Yi e µ ˆi ´e dada por Cov (Yi , µ ˆi ) = Cov (Yi , hi1 Y1 + · · · + hin Yn ) – veja (3.4). Mas esta u ´ltima covariˆancia ´e igual a Cov (Yi , hi1 Yi ) + · · · + Cov (Yi , hii Yi ) + · · · + Cov (Yi , hin Yn ) = hii Cov (Yi , Yi ) = σ 2 hii , pois Yi e Yj s˜ao independentes para i 6= j. O coeficiente de correla¸c˜ao entre Yi e µ ˆi ´e ent˜ao dado por
p σ 2 hii Cov (Yi , µ ˆ) p i hii . = Corr (Yi , µ ˆi ) = p = 1/2 Var (Yi ) Var (ˆ µi ) σ · σhii
(3.5)
Como −1 ≤ Corr(Yi , µ ˆi ) ≤ 1, vem que (Corr(Yi , µ ˆi ))2 ≤ 1, implicando em 0 ≤ hii ≤ 1. Por (3.5) temos que, se hii = 1 ent˜ao Corr(Yi , µ ˆi ) = 1. Observe que µ ˆi ´e uma combina¸c˜ao linear de Y1 , Y2 , . . . , Yn . Se a correla¸c˜ao entre Yi e µ ˆi ´e 1 ent˜ao, com probabilidade 1, µ ˆi = aYi onde a ´e uma constante. Assim, neste caso, somente Yi contribui para a estima¸c˜ao de µi . Assim, concluimos que quando hii est´a pr´oximo de 1 temos um indicativo de que Yi exerce grande influˆencia na obten¸c˜ao µ ˆi . Em inglˆes este fenˆomeno ´e conhecido como leverage (alavanca em portuguˆes).
92
3.2
Outliers Um Outlier (ou Observa¸c˜ao Discrepante) ´e uma observa¸c˜ao cuja distribui¸c˜ao n˜ao
´e a distribui¸c˜ao populacional especificada pelo modelo de regress˜ao linear. Nesta se¸c˜ao trataremos o caso em que existe uma observa¸c˜ao Ym que tem m´edia igual a uma combina¸c˜ao linear dos regressores mais uma constante. Ou seja, vamos assumir que Ym ∼ N (µm + δ, σ 2 ), com µm = β0 + β1 xm1 + · · · + β(p−1) xm(p−1) . Se tivermos δ 6= 0 poderemos encarar esta observa¸c˜ao como um outlier. Para i = 1, . . . , n, i 6= m assumiremos que Yi ∼ N (µi , σ 2 ).
Observe que o vetor de m´edias E(Y ) = µ = (µ1 , . . . , µn )′ pode ser escrito como µ = Zφ, onde Z= e
1 X1 . . . X(p−1) Xp
,
φ = (β0 , β1 , . . . , β(p−1) , δ)′
Xp = (0, . . . , 1, . . . , 0)′ , o elemento 1 em Xp estando na m-´esima posi¸c˜ao. Xi ´e um vetor coluna n-dimensional com os valores do i-´esimo regressor, i = 1, . . . , p − 1. Assim, temos um modelo de regress˜ao linear m´ ultipla definido por Y ∼ Nn (Zφ, σ 2 I).
Desta forma, podemos obter estimadores para os parˆametros e fazer testes de hip´oteses da maneira usual. Em particular nos interessa elaborar um teste para a hip´otese H0 : δ = 0
(3.6)
93 ´ poss´ıvel mostrar (veja Se H0 for verdadeira, a m-´esima observa¸c˜ao n˜ao ´e um outlier. E o apˆendice E) que o estimador de m´axima verossimilhan¸ca para δ ´e em , 1 − hmm
(3.7)
Y = Xβ + ε,
(3.8)
δˆ =
onde em ´e o m-´esimo res´ıduo obtido a partir do ajuste do modelo de regress˜ao linear com δ = 0, ou seja, o modelo
com X=
X0 X1 . . . X(p−1)
β=
β0 β1 . . . β(p−1)
e hmm ´e o m-´esimo elemento da diagonal principal de H = X(X ′ X)−1 X ′ . Al´em disso, pode-se provar – veja novamente o apˆendice E – que 2 σ δˆ ∼ N δ, . 1 − hmm
(3.9)
Assim, se H0 : δ = 0 for verdadeira, temos que σ2 ˆ . δ ∼ N 0, 1 − hmm Assim,
δˆ σ/ (1 − hmm )1/2
∼ N (0, 1).
2 Seja σ ˆ(i) o quadrado m´edio dos res´ıduos obtido atrav´es do ajuste do modelo de regress˜ao 2 sem a m-´esima observa¸c˜ao. Pode-se provar que σ ˆ(i) ´e o quadrado m´edio dos res´ıduos obtido a partir do modelo em (??). Pelo teorema do apˆendice B, vem que σ ˆ 2 e δˆ s˜ao (i)
independentes. Assim, sob H0 ,
Por (3.7) temos que
e∗m = q
e um teste para H0 ´e dado por
δˆ 2 σ ˆ(m) (1 − hmm )
∼ t(n−p−1)
em e∗m = q 2 σ ˆ(m) (1 − hmm )
(3.10)
94 Rejeitar H0 se e somente se |e∗m | for grande.
Seja e∗m o valor observado da estat´ıstica de teste. A probabilidade de significˆancia ´e dada por P t(n−p−1) > |e∗m | .
e∗m ´e conhecido como res´ıduo estudentizado. Na pr´atica verificamos se |e∗m | > 2. Em
caso afirmativo, tomamos a m-´esima observa¸c˜ao como um outlier.
3.3
Variˆ ancia n˜ ao Constante (ou Heterocedasticidade) Uma suposi¸c˜ao b´asica do modelo de regress˜ao linear ´e a de que os erros de ob-
serva¸c˜ao tˆem a mesma variˆancia, ou seja, V ar (εi ) = σ 2 ,
ı = 1, . . . , n.
Conseq¨ uentemente exclu´ımos situa¸c˜oes onde a variˆancia de εi depende dos valores de algum regressor, tais como V ar(εi ) = σ 2 xi1 , ou quando depende da m´edia da observa¸c˜ao, ou seja, V ar(εi ) = σ 2 µ1 , etc. Suponha, por exemplo, que em vez de termos Yi com distribui¸c˜ao normal temos Yi com distribui¸c˜ao de Poisson com m´edia µi = E(Yi ). Como a variˆancia de uma v.a. com distribui¸c˜ao de Poisson ´e igual a m´edia, temos que V ar(Yi ) = µi , ı = 1, . . . , n e portanto as observa¸c˜oes n˜ao tˆem a mesma variˆancia. Um gr´afico de res´ıduo que pode revelar variˆancias n˜ao constantes ´e o gr´afico das estimativas µ ˆi pelos res´ıduos padronizados. Primeiramente suponha que o modelo de
95 regress˜ao com todas as suposi¸c˜oes b´asicas ´e v´alido. Temos que Cov (ˆ µi , ei ) = Cov (ˆ µ i , Yi − µ ˆi ) = Cov (ˆ µi , Yi ) − Cov (ˆ µi , µ ˆi ) = σ 2 hii − σ2 hii = 0 (veja (??) e o c´alculo de Cov(Yi , µ ˆi ) na p´agina 84). Assim um gr´afico de µ ˆi × ei revela
um padr˜ao de ausˆencia de correla¸c˜ao (caso o modelo seja adequado).
A figura a seguir mostra um gr´afico de µ ˆi × ei obtido a partir da simula¸c˜ao de 500
observa¸c˜oes Yi , onde
Yi ∼ N µi , σ 2 ,
ı = 1, . . . , 500,
(3.11)
µi = 7.3 + 4.98xi , σ 2 = 16 e x1 , . . . , x500 s˜ao observa¸c˜oes provenientes de uma popula¸c˜ao com distribui¸c˜ao N (0, 1) Figura 3.1: Res´ıduos por Valores Ajustados.
Na pr´atica utilizamos o res´ıduo padronizado ri = p
ei σ ˆ 2 (1 − hii )
96 em vez do res´ıduo ordin´ario ei . A principal raz˜ao ´e que, pelo corol´ario do teorema (??) (p´agina 80),
e portanto
ei ∼ N 0, σ 2 (1 − hii ) ei p ∼ N (0, 1). σ 2 (1 − hii )
(3.12)
Substituindo-se σ 2 por um estimador σ ˆ 2 obt´em-se o res´ıduo padronizado e esperamos, devido a (3.12), que estes res´ıduos tenham variˆancias com valores pr´oximos. Trabalhar com res´ıduos que tˆem a mesma variˆancia ´e mais razo´avel por algumas raz˜oes. Por exemplo, vocˆe nunca saber´a se um valor alto de ei (o res´ıduo ordin´ario) ´e devido ao fato da observa¸c˜ao Yi ser discrepante ou devido ao fato da variˆancia de ei ser grande. Se todos os res´ıduos tˆem a mesma variˆancia este problema desaparece. A seguir temos um gr´afico com res´ıduos padronizados obtido a partir dos dados gerados de acrodo com (3.11). Figura 3.2: Res´ıduos Padronizados por Valores Ajustados.
Este ´e o ideal de gr´afico de res´ıduos × valores ajustados. Espera-se que quase a
totalidade dos res´ıduos padronizados esteja entre -3 e 3 – pois isto acontece com valores
97 oriundos de uma popula¸c˜ao normal padr˜ao. Tamb´em espera-se um comportamento que evidencie a n˜ao existˆencia de correla¸c˜ao entre os res´ıduos e os valores ajustados, devido ao que mostramos na p´agina 88. Quando o gr´afico n˜ao apresenta este padr˜ao, pode ser que alguma(s) hip´otese(s) necess´aria(s) para a defini¸c˜ao do modelo de regress˜ao linear n˜ao estejam satisfeitas. Primeiramente vamos discutir o caso em que as observa¸c˜oes n˜ao tˆem todas a mesma variˆancia. A figura abaixo mostra um gr´afico de res´ıduos × valores ajustados, obtido a partir
do ajuste do modelo de regress˜ao linear simples utilizando observa¸c˜oes simuladas em computador. As observa¸c˜oes seguem Yi = 3.4 + 9.78xi + εi ,
ı = 1, . . . , 500,
(3.13)
onde εi ∼ N (0, x4i ). Assim, V ar(εi ) = x4i . Portanto a supos´ı¸c˜ao de variˆancias iguais ´e
violada neste caso.
Para estes dados simulados foi ajustado o modelo de regress˜ao linear simples usual, supondo que εi ∼ N (0, σ 2 ) – ou seja, erros com a mesma variˆancia. Observe que o gr´afico apresenta um formato de ”megafone”. Isto ´e um indicativo de que a variˆancia dos res´ıduos padronizados aumenta conforme aumenta o valor da m´edia das observa¸c˜oes. Observe no gr´afico: para valores menores de µ ˆ a variabilidade dos ri′ s ´e menor do que para valores maiores. O gr´afico de valores ajustados × res´ıduos padronizados ´e ent˜ao uma ferramenta
u ´til para a detec¸c˜ao de viola¸c˜ao na hip´otese de variˆancia constante. A ausˆencia ´e a
seguinte se o modelo de regress˜ao fosse adequado para descrever o fenˆomeno, o gr´afico de res´ıduos teria a forma apresentada na p´agina 90. Pode-se provar que caso a variˆancia de εi dependa de µi , ent˜ao a variˆancoa de ri tamb´em depender´a de µi . O caso que analisamos encontra-se nesta categoria, pois µi = 3.4 + 9.78xi , implicando em xi =
98
Figura 3.3: Res´ıduos por Valores Ajustados.
(µi − 3.4)/9.78 e portanto V ar (Yi ) =
3.4
x4i
=
µi − 3.4 9.78
4
.
N˜ ao-Linearidade Nesta se¸c˜ao vamos simular uma situa¸c˜ao onde a m´edia da vari´avel resposta n˜ao
´e uma fun¸c˜ao linear dos regressores, como sup˜oe o modelo de regress˜ao linear simples. Considere que tentemos ajustar este modelo a observa¸c˜oes que seguem a estrutura Yi = β0 + β1 xi + β2 x2i + εi ,
ı = 1, . . . , 500
(3.14)
onde εi ∼ N (0, σ 2 ). Para efeito deste exemplo vamos utilizar β0 = 2, β1 = 3.68, β2 = −7.36 e σ 2 = 1. O regressor ´e gerado de acordo com uma distribui¸c˜ao ξ32 .
O gr´afico a seguir mostra o diagrama de dispers˜ao para as vari´aveis resposta e
99 regressora e a reta de regress˜ao ajustada. Lembre-se que esta reta ´e oriunda do ajuste do modelo
Yi = β0 = β1 xi + εi
que, obviamente, ´e um modelo inadequado para a situa¸c˜ao
(3.15)
100
Figura 3.4: Ajuste para uma Rela¸c˜ao N˜ao-Linear.
Observe para que valores de x pr´oximos de zero o res´ıduo ´e positivo, diminuindo conforme aumenta o valor de e, depois passa a ser negativo, ´e decrescente em uma regi˜ao, crescente em outra, etc. Este comportamento dos res´ıduos pode ser melhor observado no gr´afico de res´ıduos padronizados × valores ajustados apresentado a seguir Assim, se um gr´afico de res´ıduos oriundo do ajuste de um modelo de regress˜ao linear como em (3.15) apresenta um comportamento como o do gr´afico (2.9.8), ´e sinal de que termos devem ser inclu´ıdos no modelo. No caso, sabemos que a inclus˜ao dos valores x2i ´e necess´aria, pela forma como foram geradas as observa¸c˜oes.
3.5
Gr´ aficos de Res´ıduos Parciais Os gr´aficos de res´ıduos parciais s˜ao u ´teis para que possamos conjecturar a verda-
deira rela¸c˜ao entre a m´edia da vari´avel resposta e um particular regressor xj .
101
Figura 3.5: Res´ıduos por Valores Ajustados.
Suponha ent˜ao que temos, como ´e usual, n observa¸c˜oes da vari´avel resposta, Y1 , . . . , Yn e (p − 1) regressores. Para o regressor j temos os valores x1j , x2j , . . . , xnj .
Suponha que o ajuste do modelo de regress˜ao
Yi = β0 + β1 xi1 + · · · + β(p−1) xi(p−1) + εi ´e feito e s˜ao obtidos os respectivos estimadores βˆ0 , βˆ1 , . . . , βˆ(p−1) e os res´ıduos ordin´arios e1 , . . . , en . O res´ıduo parcial ´e definido por rij = Yi − βˆ0 + βˆ1 xi1 + · · · + βˆ(j−1) xi(j−1) + βˆ(j+1) xi(j+1) + · · · + βˆ(p−1) xi(p−1) .
Observe que a express˜ao em parˆenteses nada mais ´e do que µ ˆi − βˆj xij , ou seja, o valor
ajustado menos a contribui¸c˜ao do -´esimo regressor a este valor ajustado. Temos ent˜ao que rij = Yi − µ ˆi + βˆj xij , ou seja, rij = ei + βˆj xij .
(3.16)
Assim, para encontrar os res´ıduos parciais correspondentes ao -´esimo regressor, ou seja, o vetor rj =
r1j r2j . . . rnj
′
,
102 basta calcularmos rj = e + βˆj xj ,
(3.17)
onde xj ´e a -´esima coluna da matriz X, ou seja, ′ xj = x1j x2j . . . xnj .
A f´ormula (3.17) facilita a obten¸c˜ao de rj no computador. Se a rela¸c˜ao
Yi = β0 + β1 xi1 + · · · + β(p−1) xi(p−1) + εi for adequada teremos, como j´a vimos antes, E (ei ) = E (Yi − µ ˆ i ) = µi − µi = 0 e portanto E (rij ) = E (ei ) + E βˆj xij = βi xij .
(3.18)
Um gr´afico de res´ıduos parciais ´e um gr´afico de rij por xij , ı = 1, . . . , n. Por (3.18) vemos que, se a m´edia da resposta for uma fun¸c˜ao linear no regressor j, ent˜ao este gr´afico ser´a uma reta passando pela origem. A quest˜ao ´e: e se a verdadeira rela¸c˜ao n˜ao for linear? Pode-se mostrar que, neste caso, o gr´afico dar´a uma id´eia da rela¸c˜ao entre µi e xij . Vamos exemplificar isto atrav´es de dados simulados. Geramos observa¸c˜oes do modelo Yi = 2 + 3xi1 + 4 log xi2 + εi ,
(3.19)
onde os valores xi1 foram gerados a partir de uma distribui¸c˜ao χ23 e xi2 de acordo com uma distribui¸c˜ao χ25 . Ajustamos o modelo Yi = β0 + β1 xi1 + β2 xi2 + εi
103
Figura 3.6: Regressor 2 por Res´ıduos Parciais.
e obtivemos βˆ1 = 3.00 e βˆ2 = 0.813. Temos, por exemplo, e1 = −2.38502, x11 = 1.9879 e x12 = 7.7535. Assim,
r11 = e1 + βˆ1 x11 = −2.38502 + (3 × 1.9879) = 3.5786
e r12 = e1 + βˆ2 x12 = −2.38502 + (0.813 × 7.7535) = 3.9186
Analogamente calculamos r21 , . . . , rn1 e r22 , . . . , rn2 . Na figura (2.10.10) temos um gr´afico de xi2 por ri2 , claramente indicando que a rela¸c˜ao entre µi e xi2 ´e logar´ıtmica.
104
Figura 3.7: Regressor 1 por Res´ıduos Parciais.
O gr´afico desta p´agina mostra que a rela¸c˜ao entre µi e xi1 ´e linear (este gr´afico ´e de xi1 por ri1 ). Resumindo: um gr´afico como o da p´agina 96 indica que o termo log(xi2 ) deve ser inclu´ıdo no modelo.
3.6
Um Algoritmo para a An´ alise de Res´ıduos A seguir apresentaremos uma seq¨ uˆencia que julgamos adequada para que possa-
mos obter sucesso no processo de an´alise de res´ıduos. * 1o Passo: Fa¸ca um gr´afico de res´ıduos padronizados × valores ajustados. Isto
pode revelar que:
105 1. A variˆancia dos erros n˜ao ´e constantes e/ou 2. A m´edia da vari´avel resposta n˜ao ´e uma fun¸c˜ao linear dos regressores.
Caso haja evidˆencias da ocorrˆencia de (1) podemos aplicar uma transforma¸c˜ao na vari´avel resposta com o objetivo de tornar a variˆancia constante. Neste caso ´e recomend´avel
• Aplicar logaritmo (log Y ), quando a variˆancia cresce a medida que µ ˆ cresce • Obter Y 2 , quando a variˆancia decresce a medida que µ ˆ cresce • Obter 1/Y , quando a maioria das observa¸c˜oes est´a pr´oxima de zero e existem observa¸c˜oes (poucas) com valor muito alto.
√ • Obter arcsin Y , se Yi representa uma propor¸c˜ao. Caso ocorra (2) uma poss´ıvel solu¸c˜ao ´e a inclus˜ao de termos no modelo, como uma potˆencia de um regressor (x2 , x4 , etc). Esta n˜ao linearidade ´e melhor detectada nos gr´aficos de res´ıduos parciais. * 2o Passo: Fa¸ca um gr´afico de res´ıduos parciais para cada vari´avel regressora. Isto pode ajudar a estabelecer a rela¸c˜ao entre µ ˆ e o regressor (veja a p´agina 94). podemos tamb´em obter um gr´afico de res´ıduos padronizados pelos regressores. * 3o Passo: Fa¸ca um gr´afico de res´ıduos estudentizados (e∗i ) por hii . Isto pode revelar outliers (se e∗i for grande) ou pontos influentes (se hii for grande). Um e∗i ser´a considerado grande se |e∗i | > t(n−p−1); α2 . A observa¸c˜ao ı ser´a influente se hii >
2p . n
106 * 4o Passo: Fa¸ca um gr´afico de probabilidade normal para os res´ıduos padronizados. Este gr´afico deve ficar para o final, depois que as outras pendˆencias nos est´agios anteriores forem resolvidas. Caso a falta de normalidade seja evidenciada, as transforma¸c˜oes de 1o passo podem ser utilizadas e um novo gr´afico de probabilidade normal deve ser feito. Estes gr´aficos devem ser feitos na seq¨ uˆencia recomendada. Deve-se resolver as quest˜oes pendentes em um est´agio e somente assim passar para o pr´oximo. Por exemplo: n˜ao faz sentido trabalhar com gr´aficos de res´ıduos parciais se a variˆancia ainda n˜ao foi estabilizada. A raz˜ao ´e que uma transforma¸c˜ao como log(Y ) altera a rela¸c˜ao entre a m´edia da resposta e os regressores, esta n˜ao sendo mais linear. Tamb´em n˜ao faz sentido procurar outliers ou n˜ao-normalidade at´e que a n˜ao-linearidade seja removida.
Cap´ıtulo 4 An´ alise de Variˆ ancia
4.1
An´ alise de Variˆ ancia com Um Fator Nesta se¸c˜ao colocaremos o cl´assico problema de testar a hip´otese de igualdade
entre m´edias de popula¸c˜oes normais independentes no contexto do modelo de regress˜ao linear m´ ultipla. Seja ent˜ao Yi = (Yi1 , . . . , Yini ) uma amostra aleat´oria (de tamanho ni ) proveniente de uma popula¸c˜ao com distribui¸c˜ao N (βi , σ 2 ), i = 1, . . . , k. Suponhamos que estas k amostras sejam independentes. O modelo definido desta forma ´e conhecido como Modelo de An´ alise de Variˆ ancia com Um Fator, por motivos que ficar˜ao claros mais tarde. A quest˜ao ´e testar a hip´otese H de que as k m´edias populacionais s˜ao iguais, ou seja, testar H : β1 = · · · = βk . Solu¸c˜oes para o caso k = 2 aparecem com razo´avel freq¨ uˆencia em textos de introdu¸c˜ao `a inferˆencia estat´ıstica, como em Johnson e Bhattacharyya (1996, Cap. 10). 107
108 Para ilustrar, consideremos o seguinte exerc´ıcio retirado de Montgomery (1984).
Exemplo 4.1 Suponha que um experimento foi feito com o prop´osito de determinar se quatro diferentes temperaturas quando aplicadas a um certo composto qu´ımico afetam a sua densidade. Foram pr´e-fixados quatro n´ıveis de temperatura em graus cent´ıgrados (100, 125, 150 e 175). Para cada n´ıvel foi observada a densidade do composto, com replica¸c˜oes. As amostras para os diferentes n´ıveis foram tomadas independentemente. Os dados obtidos est˜ao apresentados a seguir
Temperatura 100 125 150 175
21,8 21,7 21,9 21,9
Densidade 21,9 21,7 21,6 21,4 21,5 21,4 21,8 21,8 21,6 21,7 21,8 21, 4
21,7 21,5
Para cada n´ıvel de temperatura ´e observada uma amostra aleat´oria proveniente de uma popula¸c˜ao com m´edia da densidade desconhecida. A quest˜ao ´e decidir se estas m´edias s˜ao iguais ou n˜ao. Neste caso particular temos k = 4 (ou seja, 4 amostras), n1 = n3 = 5 e n2 = n4 = 4.
A vari´avel que define cada popula¸c˜ao ´e denominada Fator. No exemplo 4.1 o fator ´e a vari´avel temperatura. Observe que uma quest˜ao delicada para a aplica¸c˜ao do modelo estat´ıstico definido no in´ıcio desta se¸c˜ao ´e a hip´otese de que as variˆancias s˜ao iguais para as diferentes popula¸c˜oes. O modelo de an´alise de variˆancia com um fator ´e, na realidade, um modelo de regress˜ao linear m´ ultipla. Relembremos que o modelo de regress˜ao linear m´ ultipla ´e definido por Y ∼ Nn (Xβ, σ 2 I),
(4.1)
109 ou seja, o vetor de n observa¸c˜oes Y tem distribui¸c˜ao normal n− variada com vetor de m´edias na forma µ = Xβ e matriz de covariˆancia σ 2 I, onde I ´e a matriz identidade de ordem n. Vamos mostrar que o modelo de an´alise de variˆancia pode ser escrito na forma (4.1). No caso do modelo de an´alise de variˆancia o vetor de observa¸c˜oes ´e dado por Y = (Y1′ , . . . , Yk′ )′ . O tamanho amostral ´e n = n1 + · · · + nk , de modo que a dimens˜ao de Y ´e n × 1.
Consideremos os vetores de dimens˜ao ni , 1′ni = (1, . . . , 1)′
e 0′ni = (0, . . . , 0)′ ,
com todas as coordenadas iguais a 1 e 0, respectivamente. Temos que E(Yi ) = [E(Yi1 ), . . . , E(Yini )]′ = (βi , . . . , βi )′ = βi 1′ni ,
i = 1, . . . , k.
Assim, µ = E(Y ) = (E(Y1′ ), . . . , E(Yk′ ))′ = (β1 1′n1 , . . . , βk 1′nk ) = β1 (1′n1 , 0′n2 , . . . , 0′nk ) + β2 (0′n1 , 1′n2 , 0′n3 , . . . , 0′nk ) + · · · + βk (0′n1 , . . . , 0′n(k−1) , 1′nk ). Denominando por ci o vetor de ordem n correspondente a βi na combina¸c˜ao linear acima, obtemos µ = β1 c1 + . . . + βk ck = Xβ, onde X ´e a matriz de ordem n × k dada por X = [c1 , . . . , ck ] e β = (β1 , . . . , βk )′ ,
110 mostrando que o modelo de an´alise de variˆancia com um fator ´e da forma (4.1). Vamos encontrar os estimadores para β e σ 2 . Primeiramente, observe que ( ni se i = j c′i cj = 0 se i 6= j, ou seja, as colunas de X s˜ao vetores ortogonais e, al´em disso, a i-´esima coluna tem norma ao quadrado igual ao n´ umero de observa¸c˜oes obtidas na i-´esima popula¸c˜ao. Como c′i cj ´e o elemento (i, j) da matriz X ′ X, resulta que X ′ X = diag {n1 , . . . , nk } ou seja, X ′ X ´e uma matriz diagonal tendo na diagonal principal os elementos n1 , . . . , nk , nesta ordem. Portanto, temos que ′
−1
(X X) Definindo
Yi =
= diag
ni X
Yij ,
1 1 ,..., n1 nk
.
i = 1, . . . , k,
j=1
vem que
′
X ′ Y = (c′1 Y, . . . , c′k Y ) = (Y1, . . . , Yk)′ . Agregando os resultados acima obtemos o estimador de m´axima verossimilhan¸ca para β, dado por βˆ = (X ′ X)−1 X ′ Y = (Y 1, . . . , Y k), onde Y i =
ni 1 X Yij . ni j=1
Ou seja, o estimador de m´axima verossimilhan¸ca para βi ´e dado por βˆi = Y i,
i = 1, . . . , k,
a m´edia da amostra da i-´esima popula¸c˜ao, i = 1, . . . , k 1 . 1
O mesmo resultado poderia ser encontrado a partir da maximiza¸ca˜o direta da fun¸ca˜o de verossimilhan¸ca associada ao modelo. Seja Li a fun¸ca˜o de verossimilhan¸ca para a i-´esima amostra, que depende somente de βi . Por independˆencia, temos que a verossimilhan¸ca conjunta ´e dada por L = L1 ×· · · ×Lk ,
111 O estimador n˜ao viciado para σ 2 ´e dado por 1 1 k Y − X βˆ k2 = k Y − (Y 1c1 + · · · + Y 1ck ) k2 n−k n−k 1 k (Y11 − Y 1, . . . , Y1n1 − Y 1, . . . , Yk1 − Y k, . . . , Yknk − Y k)′ k2 = n−k ni k 1 XX = (Yini − Y i)2 . n − k i=1 j=1
QMres =
de modo que log L = log L1 + · · · + log Lk . Assim, maximizar L em rela¸ca˜o a βi ´e a mesma coisa que maximizar log Li com rela¸ca˜o a βi , que significa obter o estimador de m´ axima verossimilhan¸ca para βi utilizando a i-´esima amostra. Pelos cursos introdut´orios de inferˆencia, sabemos que este estimador ´e exatamente Y i .
112
Apˆ endice A Algumas Defini¸ c˜ oes e Resultados em Estat´ıstica Multivariada Nesta se¸c˜ao assumimos que todos os momentos relacionados `as vari´aveis existem e s˜ao finitos. Seja X = (X1 , . . . , Xp )′ um vetor aleat´orio. Definimos a esperan¸ca de X por E (X) = (E (X1 ) , . . . , E (Xp ))′ ,
(A.1)
ou seja, E(X) ´e um vetor cuja a ı-´esima coordenada ´e igual a esperan¸ca da ı-´esima coordenada de X, ı = 1, . . . , n. A matriz de covariˆancias de X ´e definida como sendo Var (X1 ) Cov (X1 , X2 ) . . . Cov (X1 , Xp ) Cov (X2 , X1 ) Var (X2 ) . . . Cov (X2 , Xp ) Cov (X) = (A.2) . . . . . . . . . Cov (Xp , X1 ) Cov (Xp , X2 ) . . . Var (Xp )
ou seja, o elemento (i, j) de Cov(X) ´e a covariˆancia entre Xi e Xj (observe que a covariˆancia entre Xi e Xi ´e a variˆancia de Xi ). Como Cov(Xi , Xj ) = Cov(Xj , Xi ), temos que Cov(X) ´e uma matriz sim´etrica. Observe tamb´em que a ordem desta matriz ´e p × p. A esperan¸ca e a variˆancia de X 113
114 tˆem as seguintes propriedades:
Teorema A.1 Seja B uma matriz de ordem q × p. Ent˜ao E (BX) = BE (X)
(A.3)
Cov (BX) = BCov (X) B ′ .
(A.4)
e
Observe que BX ´e uma matriz de ordem q×1, ou seja, um vetor aleat´orio de dimens˜ao q. Observe tamb´em que para o caso p = q = 1, ou seja, quando B e X s˜ao unidimensionais, temos que (A.4) reduz-se a Var (BX) = B 2 Var (X) que ´e um resultado cl´assico da teoria das probabilidades. Sejam X e Y vetores aleat´orios de mesma ordem. Ent˜ao, pela defini¸c˜ao de esperan¸ca, E (X + Y ) = E (X) + E (Y ) .
(A.5)
Se C ´e um vetor de constantes com a mesma dimens˜ao de X, ent˜ao Cov (X + C) = Cov (X) .
(A.6)
O elemento de ordem (i, j) da matriz Cov(X) ´e Cov(Xi , Xj ) = E{[Xi − E(Xi )][Xj − E(Xj )]}. O termo entre chaves ´e o elemento (i, j) da matriz [X − E (X)] [X − E (X)]′ , de modo que Cov (X) = E [X − E (X)] [X − E (X)]′ .
(A.7)
Apˆ endice B A Distribui¸ c˜ ao Normal Multivariada
B.1
A Densidade Normal
Relembremos que se X ´e uma vari´avel aleat´oria com distribui¸c˜ao normal com m´edia µ e variˆancia σ 2 > 0 ent˜ao X tem densidade 1 2 2 −1/2 f (x) = 2πσ exp − 2 (x − µ) , 2σ
x ∈ R.
(B.1)
´ poss´ıvel estender a defini¸c˜ao de distribui¸c˜ao normal para o caso multivariE ado. Dizemos que o vetor aleat´orio p-dimensional X tem distribui¸c˜ao normal p-variada quando a sua densidade ´e dada por 1 ′ −1 −p/2 −1/2 f (x) = (2π) |Σ| exp − (x − µ) Σ (x − µ) , 2
x ∈ Rp .
(B.2)
Nesta defini¸c˜ao, temos que µ ∈ Rp e Σ : p × p ´e uma matriz positiva definida (ou
seja, a′ Σa > 0 para todo a ∈ Rp ). Observe que quando p = 1 (ou seja, quando X ´e
univariado) ent˜ao (E.2) reduz-se a (E.1).
115
116 A defini¸c˜ao da distribui¸c˜ao normal multivariada pode ser feita de uma maneira ´ poss´ıvel defini-la bem mais geral do que simplesmente atrav´es da densidade (E.2). E de tal maneira que sejam englobados casos onde n˜ao h´a a existˆencia de uma densidade — ali´as, vamos mostrar que existe a densidade se e somente se a matriz de covariˆancias ´e positiva definida.
B.2
Uma Defini¸ c˜ ao Abrangente de Normalidade
Lembremos que, dado um vetor aleat´orio X = (X1 , . . . , Xn ) uma combina¸c˜ao linear das coordenadas de X ´e uma vari´avel aleat´oria da forma a′ X, onde a = (a1 , . . . , an )′ .
Defini¸c˜ ao B.1 Dizemos que X tem Distribui¸c˜ao Normal n-variada quando qualquer combina¸c˜ao linear das coordenadas de X tiver distribui¸c˜ao normal univariada.
Vamos determinar agora a fun¸c˜ao caracter´ıstica de um vetor X com distribui¸c˜ao normal n-variada. Antes de tudo, relembremos que
1. A fun¸c˜ao caracter´ıstica de uma vari´avel aleat´oria X com distribui¸c˜ao normal univariada com m´edia µ e variˆancia σ 2 ´e dada por 1 2 2 ϕX (t) = exp itµ − t σ , 2
t ∈ R;
2. A fun¸c˜ao caracter´ıstica associada a cada combina¸c˜ao linear a′ X ´e dada por ϕa′ X (t) = E[exp(ita′ X)],
t ∈ R.
Fazendo t = 1, podemos construir a fun¸c˜ao a → ϕa′ X (1) = E[exp(ia′ X)],
a ∈ Rn ,
117 que ´e justamente a fun¸c˜ao caracter´ıstica de X. Ou seja, para determinarmos a fun¸c˜ao caracter´ıstica de X, ´e suficiente conhecermos as fun¸c˜oes caracter´ısticas de a′ X para todo a1 .
Observe que a i-´esima coordenada do vetor X tem, por defini¸c˜ao, distribui¸c˜ao normal univariada pois, como Xi = (1, 0, . . . , 0)X temos que Xi ´e uma combina¸c˜ao linear das coordenadas de X, i = 1, . . . , n. Assim, a esperan¸ca e a variˆancia de Xi s˜ao finitas. Como as variˆancias de Xi e Xj s˜ao finitas, resulta que Cov(Xi , Xj ) tamb´em ´e finita. Seja a = (a1 , . . . , ap )′ . Ent˜ao, por (A.3) e (A.4), E(a′ X) = a′ E(X) e Cov(a′ X) = a′ Cov(X)a. Assim, a′ X tem distribui¸c˜ao normal com a m´edia e a variˆancia dadas acima, que vamos chamar de µ e Σ, respectivamente. Assim, a fun¸c˜ao caracter´ıstica de a′ X ´e dada por 1 2 ′ ′ ϕa′ X (t) = exp ita µ − t a Σa , t ∈ R. 2 Fazendo t = 1, temos a fun¸c˜ao caracter´ıstica de X, que ´e dada por 1 ′ ′ ϕX (a) = exp ia µ − a Σa , a ∈ Rn . 2 Demonstramos o
Teorema B.1 A fun¸c˜ao caracter´ıstica de um vetor X com distribui¸c˜ao normal pvariada com vetor de m´edias µ e matriz de covariˆancias Σ ´e dada por 1 ′ ′ ϕX (a) = exp ia µ − a Σa , a ∈ Rn . 2 1
Este resultado ´e devido a Cram´er e Wold.
118 Observe que, como a fun¸c˜ao caracter´ıstica especifica completamente uma distribui¸c˜ao, o teorema B.1 implica que basta conhecermos o vetor de m´edias e a matriz de covariˆancias para determinarmos uma distribui¸c˜ao normal n-variada. Devido a isto, utilizamos a nota¸c˜ao X ∼ Nn (µ, Σ). O teorema a seguir mostra que uma transforma¸c˜ao afim de um vetor com distribui¸c˜ao normal ainda ´e um vetor com distribui¸c˜ao normal.
Teorema B.2 Sejam X ∼ Nn (µ, Σ), A : m × n, b : m × 1 e Y = AX + b. Ent˜ao Y ∼ Nm (Aµ + b, AΣA′ ) .
(B.3)
Demonstra¸c˜ ao: Por defini¸c˜ao, devemos mostrar que a′ Y tem distribui¸c˜ao normal univariada, onde a tem dimens˜ao m × 1. Temos que a′ Y = a′ AX + a′ b. Observe que A′ a ´e um vetor de dimens˜ao n × 1, de modo que a′ AX ´e uma combina¸c˜ao
linear das coordenadas de X e, portanto, tem distribui¸c˜ao normal univariada. Somando com a constante a′ b, ainda temos uma distribui¸c˜ao normal univariada. Isto conclui a demonstra¸c˜ao. No teorema a seguir mostramos que, se a matriz de covariˆancias Σ for diagonal ent˜ao as coordenadas de X s˜ao independentes.
Teorema B.3 Seja X = (X1 , . . . , Xn ) ∼ Nn (µ, Σ), onde µ = (µ1 , . . . , µn )′ e Σ = diag {σ11 , . . . , σnn }. Ent˜ao as coordenadas de Xi , i = 1, . . . , n s˜ao independentes, com Xi ∼ N (µi , σii2 ).
119 Demonstra¸c˜ ao: Seja a = (a1 , . . . , an )′ . Usando o Teorema B.1, vemos que a fun¸c˜ao caracter´ıstica de X neste caso ´e dada por 1 2 2 1 2 2 ϕX (a) = exp ia1 µ1 + · · · + ian µn − a1 σ11 − · · · − an σnn 2 2 1 2 2 1 2 2 = exp ia1 µ1 − a1 σ11 × · · · × exp ian µn − a1 σnn . 2 2 Ent˜ao a fun¸c˜ao caracter´ıstica de X ´e o produto de n fatores, sendo o i-´esimo fator a fun¸c˜ao caracter´ıstica de uma distribui¸c˜ao N (µi , σii2 ), i = 1, . . . , n. E esta ´e justamente a fun¸c˜ao caracter´ıstica conjunta de distribui¸c˜oes independentes N (µi , σii2 ), i = 1, . . . , n. Sejam X1 , . . . , Xp vari´aveis aleat´orias independentes, com Xi ∼ N (µ), σ 2 , ı =
1, . . . , p, sabemos que a densidade conjunta de X1 , . . . , Xp ´e igual ao produto das densidades marginais, que s˜ao todas iguais a (??). Seja f esta densidade conjunta. Ent˜ao ( ) p X 1 −p/2 f (x1 , . . . , xp ) = 2πσ 2 exp − 2 (xi − µ)2 2σ ı=1 −1 1 −p/2 2 −1/2 ′ 2 = (2π) σ I exp − (x − µ) σ I (x − µ) . 2
Assim, comparando com (??), vemos que a distribui¸c˜ao conjunta de X1 , . . . , Xp ´e Np (µ∗ , Σ∗ ), onde µ∗ = (µ, . . . , µ)′ e Σ∗ = σ 2 I.
120
Apˆ endice C ´ Algebra Linear Neste apˆendice apresentamos algumas defini¸c˜oes e resultados em ´algebra linear que s˜ao utilizados ao longo do texto. A exposi¸c˜ao ´e bastante resumida e tem como objetivo servir de fonte de consulta r´apida. Em particular, demonstra¸c˜oes dos resultados n˜ao s˜ao apresentadas. Como referˆencia para maiores aprofundamentos, podemos citar o livro de Lima (2001). Um Espa¸co Vetorial ´e um conjunto E n˜ao vazio onde est˜ao definidas duas opera¸c˜oes, respectivamente denominadas Soma e Multiplica¸c˜ao por Escalar, tais que:
1. A soma associa a cada par x e y de elementos de E o elemento x + y ∈ E; 2. A multiplica¸c˜ao por escalar associa a cada n´ umero real λ e a cada x ∈ E o elemento λx ∈ E.
Os elementos de um espa¸co vetorial s˜ao denominados Vetores. Por defini¸c˜ao, temos que um espa¸co vetorial E deve satisfazer 121
122 1. Para todos x e y em E temos x + y = y + x; 2. Para todos x, y e z em E e λ, γ n´ umeros reais, (x + y) + z = x + (y + z) e (λγ)x = λ(γx); 3. Existe um elemento de E chamado Vetor Nulo, denotado por 0, que satisfaz 0 + x = x para todo x ∈ E; 4. Para todo x ∈ E existe −x ∈ E tal que x + (−x) = 0; 5. Para todos λ e γ reais e x e y em E (λ + γ)x = λx + γx e λ(x + y) = λx + λy; 6. Para todo x ∈ E, 1x = x. Um Subespa¸co Vetorial de um espa¸co vetorial E ´e um subconjunto de E que tamb´em ´e um espa¸co vetorial, com as mesmas opera¸c˜oes definidas em E. Facilmente vemos que a interse¸c˜ao de subespa¸cos vetoriais tamb´em ´e um subespa¸co vetorial. O espa¸co vetorial mais popular ´e, com certeza, o Espa¸co Euclideano de dimens˜ ao n, denotado por Rn . Um elemento x de Rn ´e dado pela n-upla x = (x1 , . . . , xn ), onde xi , i = 1, . . . , n s˜ao n´ umeros reais denominados Coordenadas de x. Sejam x = (x1 , . . . , xn ) e y = (y1 , . . . , yn ) vetores em Rn e λ um n´ umero real. As opera¸c˜oes definidas em Rn que o fazem espa¸co vetorial s˜ao dadas por x + y = (x1 + y1 , . . . , xn + yn ) e λx = (λx1 , . . . , λxn ). O conjunto dos n´ umeros reais ´e ent˜ao denotado por R. Neste texto trabalhamos somente com subespa¸cos vetoriais de Rn . Teorema C.1 Um subconjunto A ⊂ E ´e um subespa¸co vetorial do espa¸co vetorial E se e somente se
123 i. O vetor nulo 0 ´e um elemento de A e ii. para todo λ ∈ R e x, y vetores em E, λx + y ainda ´e um elemento de E. Uma Base de um Espa¸co Vetorial E ´e um conjunto de vetores em E, {a1 , . . . , an },
que satisfaz as seguintes condi¸c˜oes:
1. a1 , . . . , an s˜ao linearmente independentes. Isto significa que qualquer combina¸c˜ao linear nula destes vetores tem coeficientes nulos. Mais especificamente, sempre que tivermos γ1 a1 + · · · + γ n an = 0 teremos γ1 = γ2 = . . . = γn = 0. 2. a1 , . . . , an geram o espa¸co E. Isto significa que todo vetor em E pode ser escrito como combina¸c˜ao linear de a1 , . . . , an . Ou seja, para todo vetor x ∈ E, existem n´ umeros reais γ1 , . . . , γn tais que
x = γ 1 a1 + · · · + γ n an .
(C.1)
γ1 , . . . , γn s˜ao denominados Coordenadas de a na base {a1 , . . . , an }. O n´ umero de vetores em qualquer base de E ´e sempre o mesmo. Este n´ umero ´e denominado dimens˜ ao de E e ser´a denotado por dim(E). O espa¸co Euclidiano Rn tem dimens˜ao n. Uma base para Rn ´e dada por a1 = (1, 0, 0, . . . , 0)′ a2 = (0, 1, 0, . . . , 0)′ .. .
(C.2)
an = (0, 0, . . . , 0, 1)′ ou seja, a ı-´esima coordenada de ai ´e 1 e as demais s˜ao iguais a zero. Esta base ´e denominada base canˆonica de Rn , mas ´e somente uma entre tantas outras que existem.
124 Seja p ≤ n. O Subespa¸co Vetorial Gerado Pelos Vetores x1 , . . . , xp ´e o conjunto
de todas as combina¸c˜oes lineares destes vetores. Ou seja, ´e o conjunto dado por span(x1 , . . . , xn ) = {β1 x1 + · · · + βp xp ; β1 , . . . , βp ∈ R} .
(C.3)
Neste texto identificamos um vetor x ∈ Rn como uma matriz coluna de ordem
n × 1 dada por
x = (x1 , . . . , xn )′ ,
onde x1 , . . . , xn s˜ao as coordenadas de x na base canˆonica de Rn . Seja X uma matriz de ordem n × p. Podemos escrever X=
h
x1 · · · x p
i
,
onde x1 , . . . , xp s˜ao os vetores em Rn que representam as p colunas de X. Observe que, para β = (β1 , . . . , βp )′ , β1 x1 + · · · + βp xp = Xβ, de modo que, de acordo com (C.3), o espa¸co gerado pelas colunas de X pode ser escrito como span(X) = {Xβ; β ∈ Rp }.
(C.4)
De forma an´aloga definimos o espa¸co gerado pelos vetores linha de uma matriz. Observe que para uma matriz de ordem n × p o subespa¸co gerado pelas colunas ´e um subespa¸co de Rn e o subespa¸co gerado pelas linhas ´e um subespa¸co de Rp . Mesmo para
o caso em que p = n n˜ao ocorre necessariamente a igualdade entre os subespa¸cos.
Teorema C.2 A dimens˜ao do espa¸co gerado pelas linhas ´e igual a dimens˜ao do espa¸co gerado pelas colunas.
125 Teorema C.3 Quando p = n – ou seja, quando a matriz ´e quadrada – temos que esta possui inversa se e somente a dimens˜ao do espa¸co gerado pelas colunas (ou pelas linhas) ´e igual a p.
Vamos considerar somente espa¸cos vetoriais munidos do Produto Interno Canˆonico, que associa a cada par de vetores x e y o produto x′ y. A norma proveniente deste produto interno associa a cada vetor x o n´ umero kxk =
√
x′ x.
A Distˆancia Entre os Vetores x e y ´e dada ent˜ao por
p kx − yk.
Dizemos que dois vetores x e y em um espa¸co vetorial s˜ao Ortogonais quando ′
x y = 0, ou seja, quando o produto interno entre eles ´e igual a zero. Neste caso vale o Teorema de Pit´agoras k x + y k2 =k x k2 + k y k2 .
(C.5)
Uma base {a1 , . . . , an } de um espa¸co vetorial E ´e ortonormal quando os vetores
s˜ao ortogonais e tˆem norma igual a 1. Ou seja, quando ( 0 se i 6= j a′i aj = 1 se ı = j.
Todo subespa¸co vetorial E ⊂ Rn de dimens˜ao m possui uma base ortonormal {a1 , . . . , am }.
Se m < n ent˜ao ´e poss´ıvel encontrar vetores am+1 , . . . , an tais que {a1 , . . . , am , am+1 , . . . , an }
´e uma base ortonormal de Rn . Dizemos ent˜ao que estamos completando a base de E a fim de obter uma base ortonormal para Rn . Note que, para que um vetor z seja ortogonal a todos os vetores em um subespa¸co vetorial com base {a1 , . . . , ap } basta que z seja ortogonal a cada vetor na base. Neste
126 caso, temos x = λ1 a1 + · · · + λp ap e z ′ x = λ1 z ′ a1 + · · · + λp z ′ ap = 0. Sejam A e B subespa¸cos vetoriais tais que A ∩ B = {0}. O conjunto A ⊕ B = {a + b; a ∈ A, b ∈ B} ´e denominado Soma Direta de A com B. Seja A um conjunto n˜ao vazio, n˜ao necessariamente um subespa¸co vetorial. O conjunto A⊥ formado por todos os vetores em Rn que s˜ao ortogonais a todos os vetores de A, ou seja, A⊥ = {x ∈ Rn ; x′ y = 0 para todo y ∈ A} ´e denominado Complementar Ortogonal de A. Pode-se mostrar que A⊥ ´e um subespa¸co vetorial e que, al´em disso, se A ´e um subespa¸co vetorial, Rn = A ⊕ A⊥ .
(C.6)
Assim, todo vetor z ∈ Rn pode ser escrito como z = x + y, onde x ∈ A e y ´e ortogonal
a x. Dado z ∈ Rn existe um e somente um par de vetores x, y, com x ∈ A e y ∈ A⊥ , tal
que z ´e a soma de x com y. Ou seja, a decomposi¸c˜ao de z ´e u ´nica. Outras propriedades do complementar ortogonal no caso em que A ´e um subespa¸co vetorial de Rn s˜ao n = dim(A⊥ ) + dim(A) e (A⊥ )⊥ = A.
(C.7)
Seja z um ponto em Rn e E ⊂ Rn um subespa¸co vetorial de dimens˜ao m. A
proje¸c˜ao de z sobre E ´e definida como sendo o ponto Π(z) em E tal que Π(z) minimiza a distˆancia entre z e os pontos de E. Ou seja, Π(z) satisfaz k z − Π(z) k2 = m´ın{k z − x k2 ; x ∈ E}.
(C.8)
127 Uma propriedade trivial ´e que, se z ´e um elemento de E, ent˜ao a proje¸c˜ao de z sobre E ´e o pr´oprio vetor z. Al´em disso, se z ∈ E ⊥ ent˜ao Π(z) = 0. Isto ´e conseq¨ uˆencia
de termos
k z − x k2 =k z k2 + k x k2 para todo x ∈ E, de modo que o m´ınimo da fun¸c˜ao x →k z − x k2 ´e atingido em x = 0. Algumas outras propriedades: Π(z) sempre existe, ´e u ´nica e, se {a1 , . . . , am } ´e
uma base ortogonal de E, ent˜ao
Π (z) =
m X a′j z · aj . ′ a a j j =1
Se a base for ortonormal, teremos Π (z) =
m X =1
a′j z aj .
(C.9)
A partir desta igualdade, mostra-se diretamente o
Teorema C.4 O vetor z − Π(z) ´e ortogonal a todos os vetores em E; Al´em disso, fun¸c˜ao z 7−→ Π(z), z ∈ Rn que associa a cada z ∈ Rn a proje¸c˜ao Π(z), denominada Proje¸c˜ao Sobre E, ´e linear, ou seja, para cada par de vetores x, y em E e λ ∈ R temos Π(λx + y) = λΠ(x) + Π(y).
Seja z ∈ Rn , seja E um subespa¸co vetorial de Rn e sejam ΠE e ΠE ⊥ as proje¸c˜oes
sobre E e E ⊥ , respectivamente. Escrevendo
z = z − ΠE (z) + ΠE (z)
128
Figura C.1: Proje¸c˜ao de z sobre E.
e usando a linearidade da fun¸c˜ao proje¸c˜ao, temos que ΠE ⊥ (z) = ΠE ⊥ (z − ΠE (z)) + ΠE ⊥ (ΠE (z)) = z − ΠE (z),
(C.10)
pois, sendo z − ΠE (z) um elemento de E ⊥ , ele ´e a sua pr´opria proje¸c˜ao sobre este espa¸co. Al´em disso, como ΠE (z) ∈ E, vem que a sua proje¸c˜ao sobre E ⊥ ´e o vetor nulo.
Como Π(z) ∈ E, temos que Π(z) e z − Π(z) s˜ao vetores ortogonais e, como
consequˆencia,
k z k2 = k Π (z) + z − Π (z) k2 = k Π (z) k2 + k z − Π (z) k2 . Sejam E1 e E2 subespa¸cos vetoriais tais que E1 ⊂ E2 . O Complementar Ortogonal
de E1 Dentro de E2 ´e, por defini¸c˜ao, o conjunto formado por todos os vetores que,
ao mesmo tempo, est˜ao em E2 e s˜ao ortogonais a todos os vetores de E1 . Assim,
129 este subespa¸co vetorial ´e igual a E1⊥ ∩ E2 . Vamos determinar a proje¸c˜ao de z ∈ Rn
sobre este subespa¸co. As proje¸c˜oes sobre E1 e E2 ser˜ao denotadas por Π1 (z) e Π2 (z), respectivamente. Escrevendo z = Π1 (z) + Π2 (z) − Π1 (z) + z − Π2 (z) e denotando E1⊥ ∩ E2 por E, vem que ΠE (z) = ΠE (Π1 (z)) + ΠE (Π2 (z) − Π1 (z)) + ΠE (z − Π2 (z)). Como Π1 (z) ∈ E1 , resulta que a sua proje¸c˜ao sobre E ´e o vetor nulo, pois para todo x ∈ E = E1⊥ ∩ E2 ,
k Π1 (z) − x k2 =k Π1 (z) k2 + k x k2
e o m´ınimo ´e atingido em x = 0. Como z − Π2 (z) ∈ E2⊥ temos, pelo mesmo motivo,
que ΠE (z − Π2 (z)) = 0. Finalmente, observe que o vetor Π2 (z) − Π1 (z) est´a em E2 —
pois Π1 (z) e Π2 (z) est˜ao em E2 — e, al´em disso, est´a em E1⊥ , pois Π2 (z) − Π1 (z) = Π2 (z) − z + z − Π1 (z)
e os vetores Π2 (z) − z e z − Π1 (z) est˜ao em E1⊥ . Assim, vemos que o vetor Π2 (z) − Π1 (z)
est´a em E, implicando em ΠE (Π2 (z) − Π1 (z)) = Π2 (z) − Π1 (z), e mostramos que ΠE1⊥ ∪E2 (z) = Π2 (z) − Π1 (z).
(C.11)
´ muito comum utilizar-se a nota¸c˜ao E1⊥ ∪ E2 = E2 ⊖ E1 . E O teorema a seguir ´e o mais importante deste texto e mostra uma estreita conex˜ao entre ´algebra linear e probabilidade. No enunciado utilizamos uma extens˜ao natural da defini¸c˜ao de soma direta de subespa¸cos vetoriais E1 , . . . , Ek tais que Ei ∩ Ej = {0} para todo i 6= j, dada pelo conjunto
E1 ⊕ · · · ⊕ Ek = {x1 + · · · + xk ; x1 ∈ E1 , . . . , xk ∈ Ek }.
130 Al´em disso, vamos definir os subespa¸cos Ei i = 1, . . . , k como ortogonais quando, para todo par i, j, com i 6= j, tivermos que todo vetor de Ei ´e ortogonal a todo vetor de Ej .
Finalmente, vamos utilizar uma vers˜ao estendida do teorema de Pit´agoras: se x1 , . . . , xk s˜ao vetores ortogonais dois a dois ent˜ao k
n X i=1
xi k2 =
k X i=1
k xi k2 .
Teorema C.5 Seja Z ∼ Nn (0, σ 2 I), com σ 2 > 0. Sejam E1 , . . . , Ek subespa¸cos vetoriais ortogonais de Rn tais que Rn = E1 ⊕ · · · ⊕ Ek . Seja Πi a fun¸c˜ao proje¸c˜ao sobre Ei , i = 1, . . . , k. Ent˜ao Πi (Z), i = 1, . . . , k s˜ao vari´aveis aleat´orias independentes, com k Πi (Z) k2 ∼ χ2di , σ2 onde di ´e a dimens˜ao de Ei , i = 1, . . . , k. ´ poss´ıvel escolher uma base ortonormal para Rn , {ξ1 , . . . , ξn }, de Demonstra¸c˜ ao: E
tal maneira que {ξ1 , . . . , ξd1 } ´e uma base ortonormal de E1 , que {ξd1 +1 , . . . , ξd1 +d2 } seja
uma base ortonormal de E2 , etc. Ou seja, {ξd1 +···+dj−1 +1 , . . . , ξd1 +···+dj } ´e uma base para
Ej . Cada observa¸c˜ao do vetor Z pode ser escrita como combina¸c˜ao linear dos vetores
nesta base, ou seja, existem vari´aveis aleat´orias γ1 , . . . , γn tais que Z = γ1 ξ1 + · · · + γn ξn = Aγ,
(C.12)
onde a i- ´esima coluna de A ´e ξi , i = 1, . . . , n e γ = (γ1 , . . . , γn )′ . Observe que a matriz A ´e ortonormal, ou seja, A′ A = AA′ = I, de modo que A−1 = A′ . Assim, temos que γ = A−1 Z.
131 Como Z ∼ Nn (0, σ 2 I), temos que γ tamb´em tem distribui¸c˜ao normal n-variada, com vetor de m´edias 0 e matriz de covariˆancias
Cov (γ) = A−1 Cov (Z) (A)−1 = A−1 σ 2 IA = σ 2 I
′
— veja o Teorema B.2, o que significa dizer que γ1 , . . . , γn s˜ao independentes e identicamente distribu´ıdas como N (0, σ 2 ). Por (C.9), vem que d1 +···+dj
Πj (Z) =
X
(Z ′ ξi )ξi .
i=d1 +···+dj−1 +1
Observe que, por (C.12), Z ′ ξi = γ1 ξ1′ ξi + · · · + γi ξi′ ξi + · · · γn ξn′ ξi = γi , de modo que d1 +···+dj
Πj (Z) =
X
γi ξi .
i=d1 +···+dj−1 +1
Assim, Πj (Z), j = 1, . . . , k s˜ao fun¸c˜oes de grupos disjuntos de vari´aveis aleat´orias independentes e, portanto, tamb´em s˜ao independentes. Omitindo os ´ındices do somat´orio acima e utilizando o Teorema de Pit´agoras — lembre-se que os vetores ξ1 , . . . , ξn s˜ao ortonormais , vem que k k Πj (Z) k2 = 2 σ
P
γi ξi k2 = σ2
i
P
i
γi2 k ξi k2 X γi 2 = . σ2 σ i
Como γi /σ ∼ N (0, 1), i = 1, . . . , k, temos que k Πj (Z) k2 /σ 2 ´e a soma dos quadrados
de dj vari´aveis aleat´orias normais padr˜ao independentes, ou seja, k Πj (Z) k2 ∼ χ2dj , σ2 concluindo a demonstra¸c˜ao.
132
Apˆ endice D Diferencia¸ c˜ ao de Matrizes Seja f : M → R uma fun¸c˜ao definida em M , um subconjunto do espa¸co vetorial
formado pelas matrizes de ordem p × 1 e suponha a existˆencia das derivadas parciais ∂f , ∂x i
i = 1, . . . , p. Definimos o Vetor de Derivadas Parciais de f como sendo o vetor ∂f ∂x
cuja ı-´esima coordenada ´e dada por ∂f , ∂xi
ı = 1, . . . , p
Exemplo D.1 Sejam x = (x1 , x2 )′ e A11 A12 A21 A22
A =
!
e seja f (x) = x′ Ax = x1 x2
A11 A12 A21 A22
!
x1 x2
!
= x21 A11 + (A12 + A21 ) x1 x2 + x22 A22 . 133
134 Por defini¸c˜ao, temos que a primeira coordenada de
∂f ∂x
´e
∂f = 2x1 A11 + (A12 + A21 ) x2 ∂x1 e a segunda coordenada ´e dada por ∂f = (A12 + A21 ) x1 + 2x2 A22 . ∂x2 As seguintes propriedades podem ser obtidas diretamente da defini¸c˜ao.
Teorema D.1 Seja a : p × 1 e f (x) = a′ x. Ent˜ao ∂f = a. ∂x
(D.1)
Teorema D.2 Seja A : p × p uma matriz sim´etrica e f (x) = x′ Ax. Ent˜ao ∂f = 2Ax. ∂x
(D.2)
Apˆ endice E A Distribui¸ c˜ ao Normal Multivariada
E.1
A Densidade Normal Relembremos que se X ´e uma vari´avel aleat´oria com distribui¸c˜ao normal com
m´edia µ e variˆancia σ 2 > 0 ent˜ao X tem densidade 1 2 2 −1/2 f (x) = 2πσ exp − 2 (x − µ) , 2σ
x ∈ R.
(E.1)
´ poss´ıvel estender a defini¸c˜ao de distribui¸c˜ao normal para o caso multivariE ado. Dizemos que o vetor aleat´orio p-dimensional X tem distribui¸c˜ao normal p-variada quando a sua densidade ´e dada por f (x) = (2π)
−p/2
−1/2
|Σ|
1 ′ −1 exp − (x − µ) Σ (x − µ) , 2
x ∈ Rp .
(E.2)
Nesta defini¸c˜ao, temos que µ ∈ Rp e Σ : p × p ´e uma matriz positiva definida (ou
seja, a′ Σa > 0 para todo a ∈ Rp ). Observe que quando p = 1 (ou seja, quando X ´e
univariado) ent˜ao (E.2) reduz-se a (E.1).
135
136 A defini¸c˜ao da distribui¸c˜ao normal multivariada pode ser feita de uma maneira ´ poss´ıvel defini-la bem mais geral do que simplesmente atrav´es da densidade (E.2). E de tal maneira que sejam englobados casos onde n˜ao h´a a existˆencia de uma densidade — ali´as, vamos mostrar que existe a densidade se e somente se a matriz de covariˆancias ´e positiva definida.
Apˆ endice F Matrizes em Blocos Muitas vezes ´e conveniente particionarmos uma matriz A : m × n em blocos, que
s˜ao submatrizes de A. Por exemplo, considere a11 a12 a 21 a22 A = a31 a32 a41 a42
uma matriz de ordem 4 × 4, a13 a14 a23 a24 . a33 a34 a43 a44
Uma parti¸c˜ao poss´ıvel em submatrizes de A ´e " # B C A = , D E
(F.1)
onde B =
"
a11 a12 a21 a22
#
,
C=
"
a13 a14 a23 a24
#
,
D=
"
a31 a32 a41 a42
#
e E=
"
a33 a34 a43 a44
#
.
Observe que, necessariamente, o n´ umero de linhas de B deve ser igual ao n´ umero de linhas de C e o n´ umero de colunas de B deve ser igual ao n´ umero de colunas de D 137
138 ´ simples mostrar que Seja A uma matriz qualquer particionada como em (F.1). E " # ′ ′ B C A′ = . (F.2) D′ E ′ Uma caracter´ıstica interessante das matrizes particionadas ´e que um produto entre duas matrizes deste tipo segue as mesmas regras do produto usual de matrizes. Assim, seja " # G H F = . I J Ent˜ao, AF =
"
(BG + CI) (BH + CJ) (DG + EI) (DH + EJ)
#
.
(F.3)
´ claro que assumimos acima uma compatibilidade nas ordens das matrizes envolvidas, E de tal modo que os produtos fa¸cam sentido. O produto de matrizes em bloco ´e muito utilizado na teoria da regress˜ao linear m´ ultipla. Considere, por exemplo, a matriz de planejamento X, 1 x11 . . . x1(p−1) 1 x21 . . . x2(p−1) X = . . . . . . . . . 1 xn1 . . . xn(p−1) ,
que aparece no texto em (2.4). Cada coluna de X pode ser encarada como uma submatriz de X. Seja Xi a ı-´esima coluna da matriz X, ı = 0, 1, . . . , p − 1. Fazendo h i′ X0 = 1 1 ... 1 .
Ent˜ao, podemos escrever
X = Seja β =
h
X0 X1 . . . X(p−1)
h
β0 β1 . . . β(p−1)
i i
.
139 o vetor de coeficientes no modelo de regress˜ao (veja (??), p´agina 44, novamente). Pela regra em (F.3) temos que Xβ = β0 X0 + β1 X1 + · · · + β(p−1) X(p−1) .
(F.4)
Um produto como em (??) est´a presente v´arias vezes na teoria. Por exemplo, o pr´oprio modelo de regress˜ao linear pode ser colocado na forma Y = β0 X0 + β1 X1 + · · · + β(p−1) X(p−1) + ε.
(F.5)
O vetor de valores ajustados (ver (2.12) na p´agina 48) pode, com esta nota¸c˜ao, ser colocado na forma µ ˆ = X βˆ = βˆ0 X0 + βˆ1 X1 + · · · + βˆ(p−1) X(p−1) .
(F.6)
Tamb´em pode ser conveniente fazermos uma parti¸c˜ao de X em submatrizes da forma X = onde XA =
h
h
XA XB
i
,
(F.7)
X0 X1 . . . Xk
i
´e composta pelas primeiras k colunas de X e h i XB = X(k+1) . . . X(p−1)
´e formada pelas colunas restantes. Em conformidade com esta perti¸c˜ao podemos particionar o vetor β como β =
"
βA βB
#
,
(F.8)
onde βA =
h
β0 β1 . . . βk
i′
140 e βB =
h
β(k+1) . . . β(p−1)
i′
.
Pela regra em (F.3) temos que Xβ = βA XA + βB XB .
(F.9)
Apˆ endice G Demonstra¸c˜ ao dos Teoremas (2.5) e (2.6) Na demonstra¸c˜ao destes teoremas necessitamos de alguns resultados b´asicos de ´ Algebra Linear, que podem ser revisados com mais profundidade em bons textos da ´area como, por exemplo, Lima (2001). Todos est˜ao tamb´em descritos no apˆendice C. Relembremos que maximizar a fun¸c˜ao de verossimilhan¸ca no modelo de regress˜ao linear m´ ultipla ´e equivalente a minimizar a fun¸c˜ao D (β) = (Y − Xβ)′ (Y − Xβ) =k Y − Xβ k2 ,
β ∈ Rp ,
ver (2.8). Assim, o objetivo ´e encontrar βˆ que minimiza a distˆancia entre Y e os pontos do conjunto Span (X) = {Xβ; β ∈ Rp } , que ´e um subespa¸co vetorial de Rn . Ou seja, k Y − X βˆ k2 = min k Y − Xβ k2 ; β ∈ Rp
(G.1)
e X βˆ ´e a proje¸c˜ao de Y sobre Span(X). (G.1) ´e a Soma dos Quadrados dos Res´ıduos,
denotada por SQres e j´a definida em (2.13). 141
142 No que segue vamos supor que as p colunas da matriz X, a saber X0 , . . . , Xp−1 , s˜ao vetores em Rn linearmente independentes. Como todo vetor em Span(X) ´e da forma Xβ = β0 X0 + β1 X1 + · · · + βp−1 Xp−1 para algum β = (β0 , β1 , . . . , βp−1 )′ resulta que {X0 , X1 , . . . , Xp−1 } ´e uma base para Span(X) e, portanto, a dimens˜ao de Span(X) ´e p.
A partir deste instante Π(Y ) denota a proje¸c˜ao de Y sobre Span(X). Antes das demonstra¸c˜oes dos teoremas objetos principais deste apˆendice, um u ´ltimo coment´ario: como o vetor Y − Π(Y ) ´e ortogonal `as colunas de X, temos que ˆ ′ X = 0, (Y − X β) implicando em X ′ X βˆ = X ′ Y . Lembrando que X ′ X ´e invert´ıvel, temos a express˜ao para o estimador de m´axima verossimilhan¸ca para β, βˆ = (X ′ X)−1 X ′ Y.
Teorema G.1 SQres/σ 2 tem distribui¸c˜ao qui-quadrado com n − p graus de liberdade. Demonstra¸c˜ ao: Como Y ∼ N (Xβ, σ 2 I) podemos escrever Y = Xβ + ε, onde ε = (ε1 , . . . , εn )′ tem distribui¸c˜ao Nn (0, σ 2 I). Seja {ξ0 , ξ1 , . . . , ξ(p−1) } uma base ortonormal de Span(X). Completando esta base, seja
ξ0 , . . . , ξ(p−1) , ξp , . . . , ξn−1
uma base ortonormal de Rn . Cada observa¸c˜ao do vetor ε pode ser escrita como combina¸c˜ao linear dos vetores nesta base, ou seja, existem vari´aveis aleat´orias γ0 , γ1 , . . . , γn−1 tais que ε = γ0 ξ0 + γ1 ξ1 + · · · + γn−1 ξn−1 = Aγ,
(G.2)
143 onde a i- ´esima coluna de A ´e ξi , i = 0, . . . , n − 1 e γ = (γ0 , . . . , γn−1 )′ . Observe que a
matriz A ´e ortonormal, ou seja,
A′ A = AA′ = I, de modo que A−1 = A′ . Por (G.2), temos que γ = A−1 ε. Como ε ∼ Nn (0, σ 2 I), temos que γ tamb´em tem distribui¸c˜ao normal n-variada, com
vetor de m´edias 0 e matriz de covariˆancias
Cov (γ) = A−1 Cov (ε) (A)−1 = A−1 σ 2 IA = σ 2 I,
′
o que significa dizer que γ0 , γ1 , . . . , γn−1 s˜ao independentes e identicamente distribu´ıdas como N (0, σ 2 ). Seja Π a fun¸c˜ao proje¸c˜ao sobre Span(X). Como Π ´e linear temos que X βˆ = Π(Y ) = Π(Xβ + ε) = Π(Xβ) + Π(ε), de modo que SQres = k Y − X βˆ k2 =k Xβ + ε − Π (Xβ) − Π (ε) k2 = k Xβ + ε − Xβ − Π (ε) k2 = k ε − Π (ε) k2 = k ε k2 − k Π (ε) k2 ,
(G.3)
pois Π(Xβ) = Xβ, devido ao fato de que Xβ ∈ Span(X). Temos que k ε k2 = ε′ ε = γ ′ A′ Aγ = γ ′ γ =
n−1 X =0
γj2 .
144 Pela f´ormula (C.9), vem que Π (ε) =
n−1 X
(ξj′ ε)ξj
j=0
=
n−1 X
j=0
=
n−1 X
ξj′ (γ0 ξ0 + γ1 ξ1 + · · · + γp−1 ξp−1 ) ξj
(γj ξj′ ξj )ξj =
p−1 X
γj ξj .
(G.4)
=0
j=0
Assim, 2
k Π (ε) k =
p−1 X
γj2 .
=0
Por (G.3) resulta que 1 SQres = 2 2 σ σ
n−1 X
γj2
=0
−
p−1 X =0
γj2
!
n−1 X 1 = · γj2 . 2 σ =p
(G.5)
Observe que γi /σ, ı = 1, . . . , n s˜ao independentes e identicamente distribu´ıdas conforme uma normal padr˜ao. Pela defini¸c˜ao da distribui¸c˜ao qui-quadrado, temos ent˜ao que SQres ∼ χ2n−p , 2 σ concluindo a demonstra¸c˜ao do teorema. Teorema G.2 SQres e βˆ s˜ ao independentes.
Demonstra¸c˜ ao: Primeiramente vamos mostrar que X βˆ e SQres s˜ao independentes. Por (G.4), temos que X βˆ = Π (Y ) = Π (Xβ + ε) = Π (Xβ) + Π (ε) p−1 X = Xβ + Π (ε) = Xβ + γj ξj . =0
145 Por (G.5) vem que SQres =
n−1 X
γj2 .
=p
Assim, X βˆ ´e uma fun¸c˜ao de γ0 , γ1 , . . . , γ(p−1) e SQres ´e uma fun¸c˜ao de γp , . . . , γ(n−1) . Como γ0 , γ1 , . . . , γ(n−1) s˜ao independentes, temos que (γ0 , γ1 , . . . , γ(p−1) )′ ´e independente de (γp , . . . , γ(n−1) )′ . Assim, SQres e X βˆ s˜ao independentes. Agora vamos mostrar que βˆ e SQres s˜ao independentes. Para isso, considere a fun¸c˜ao f : Span (X) → Rp , definida da seguinte forma: seja y ∈ Span(X). Temos que y = Xβ, para algum β ∈ Rp .
Ent˜ao
f (y) = β. Observe que f ´e uma leg´ıtima fun¸c˜ao. Ou seja, a cada ponto de Span(X) corresponde um u ´nico ponto de Rp . Isto ´e f´acil de verificar: suponha que existam β e β ∗ tais que y = Xβ e y = Xβ ∗ . Ent˜ao Xβ = Xβ ∗ , implicando em X(β − β ∗ ) = 0. Como as colunas de X s˜ao L.I., isto implica em
β − β ∗ = 0, ou ainda, β = β ∗ . Assim, como
ˆ ˆ β = f Xβ
e X βˆ ´e independente de SQres, resulta que βˆ ´e independente de SQres.
146
Apˆ endice H A Distribui¸ c˜ ao da Estat´ıstica F
147
148
Bibliografia Bartle, R. G. (1983). Elementos de An´ alise Real . Editora Campus, Rio de Janeiro. Bolfarine, H. e Sandoval, M. C. (2001). Introdu¸c˜ao a` Inferˆencia Estat´ıstica. Sociedade Brasileira de Matem´atica, Rio de Janeiro. Brockwell, P. J. e Davis, R. A. (1991). Time Series: Theory and Methods. Springer, second edition. Dobson, A. (2002). An Introduction to Generalized Linear Models. Chapman and Hall, New York, second edition. Healy, M. J. R. (1988). GLIM: An Introduction. Clarendon Press, Oxford. Johnson, R. e Bhattacharyya, G. (1996). Statistics: Principles and Methods. John Wiley and Sons, New York, third edition. ´ Lima, E. (2001). Algebra Linear . IMPA, Rio de Janeiro, fifth edition. Montgomery, D. C. (1984). Design and Analysis of Experiments. John Wiley and Sons, second edition. Rao, C. R. (1973). Linear Statistical Inference and its Applications. John Wiley and Sons, New York, second edition. Zacks, S. (1971). The Theory of Statistical Inference. John Wiley and Sons, New York.
149