9. Introdução à regressão linear simples Modelos de regressão. Uma variável aleatória pode ser explicada quer por factores determinísticos quer por factores aleatórios. Este capítulo distingue-se dos capítulos anteriores, uma vez que o estudo de variáveis aleatórias não é feito somente com base em componentes não determinísticas. Ou seja, uma variável de interesse Y passa a ter duas componentes: previsível e aleatória. Supondo uma estrutura aditiva entre elas, Y = g(x) + ǫ, onde g(x) é a parte previsível de Y , formada por uma variável auxiliar x observável para cada elemento da amostra, e ǫ é a sua parte aleatória. NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 178/207
A parte previsível de Y é considerada fixa, mesmo que seja uma função de parâmetros desconhecidos, enquanto a parte aleatória tem uma distribuição de probabilidade. Nesse cenário, o conjunto de dados é formado por n pares (yi , xi ), i = 1, . . . , n. Considerando uma a.a. (Yi , xi ), i = 1, . . . , n, um modelo estatístico para relacionar Y e x é dado por Yi = β0 + β1 xi + ǫi , onde Yi é a variável resposta do i-ésimo elemento da amostra, enquanto xi é a sua variável explicativa (fixa), β0 e β1 são parâmetros (desconhecidos) e ǫi é o erro aleatório do elemento i da amostra. O modelo acima é conhecido por modelo de regressão linear simples, com parte previsível g(x) = β0 + β1 x e parte aleatória ǫ, cuja distribuição de probabilidade se supõe usualmente ser Normal. NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 179/207
Suposições usuais para os erros aleatórios ǫi , i = 1, . . . , n: • E(ǫi ) = 0. Isso implica que, dado um valor de x,
E(Y |x) = β0 + β1 x, conhecida por equação ou recta de regressão do modelo. • V ar(ǫi ) = σ 2 , ∀ i (variância constante).
• ǫ1 , . . . , ǫn são não correlacionados (ou independentes). • ǫi segue uma distribuição Normal.
Intrepretação dos parâmetros de regressão: • A ordenada na origem β0 é o valor esperado de Y com valor nulo
para a variável explicativa x.
• O declive da recta de regressão β1 é a variação do valor esperado
de Y por cada incremento unitário em x.
NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 180/207
y6
E(Y |x) = β0 +β1 x
β1 1
β0 -
x0
x0 +1
x
Parâmetros de regressão: • β0 = E(Y |x = 0).
• β1 = E(Y |x0 +1) − E(Y |x0 ), ∀ x0 . NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 181/207
Método dos mínimos quadrados em regressão linear simples. Um método de estimação dos coeficientes de regressão é o método de mínimos quadrados que consiste em minimizar a soma de quadrados dos erros aleatórios. Ou seja, o valor que minimiza a função n X
SQ(β0 , β1 ) =
i=1
ǫ2i
=
n X i=1
(Yi − β0 − β1 xi )2 ,
denotado por (βˆ0 , βˆ1 ), é denominado o estimador de mínimos quadrados dos coeficientes de regressão. Para a determinação da estimativa associada a (βˆ0 , βˆ1 ), deve-se encontrar as derivadas parciais da função SQ(β0 , β1 ) avaliada em {(yi , xi )} em relação aos parâmetros β0 e β1 . NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 182/207
∂ SQ(β0 , β1 ) ∂β0 ∂ SQ(β0 , β1 ) ∂β1
P = 2 ni=1 (Yi − β0 − β1 xi )(−1) P = 2 ni=1 (Yi − β0 − β1 xi )(−xi )
Logo, ∂ SQ(β0 , β1 ) ∂β0 ∂ SQ(β0 , β1 ) ∂β1
Pn Pn =0 ⇒ Y = n β + β i 0 1 i=1 xi Pi=1 P Pn 2 n n =0 ⇒ i=1 xi Yi = β0 i=1 xi + β1 i=1 xi
A solução desse sistema de equações é β0 = Y¯ − βˆ1 x¯
Pn ¯ Y¯ i=1 xi Yi − n x e β1 = P . n 2 2 x − n x ¯ i=1 i NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 183/207
Pode-se provar que este é ponto de mínimo, visto que a matriz hessiana avaliada neste ponto é definida positiva, e portanto os estimadores de mínimos quadrados de β0 e β1 são dados por
βˆ0 = Y¯ − βˆ1 x¯
e
βˆ1 =
n X
xi Yi − n x¯ Y¯
i=1 n X i=1
.
x2i − n x¯2
Consequentemente, a equação ou recta de regressão é estimada por b |x) = βˆ0 + βˆ1 x, Yb ≡ E(Y
i.e., dado um valor x, o valor esperado de Y é estimado por βˆ0 + βˆ1 x. A estimação pontual de E(Y |x) deve restringir-se ao domínio dos valores observados na amostra da variável explicativa x. NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 184/207
Estimadores de máxima verosimilhança. Supondo que os erros aleatórios ǫi ∼ N (0, σ 2 ), i = 1, . . . , n, tem-se que Yi ∼ N (β0 +β1 xi , σ 2 ) e portanto a função de verosimilhança associada ao modelo de regressão linear simples é 2
L(β0 , β1 , σ |{yi , xi }) =
n Y i=1
1 1 2 √ exp − 2 (yi − β0 − β1 xi ) 2σ 2πσ
A maximização da função acima β0 e β1 Pn em relação aos parâmetros 2 restringe-se a maximizar − i=1 (yi − β0 − β1 xi ) = −SQ(β0 , β1 ). Ou seja, minimizar a soma de quadrados dos erros aleatórios. Por conseguinte, os estimadores de máxima verosimilhança de β0 e β1 são os estimadores de mínimos quadrados dos parâmetros, βˆ0 e βˆ1 . Além P disso, pode-se provar que o e.m.v. de σ 2 é σ ˜ 2 = n1 ni=1 (Yi−βˆ0−βˆ1 xi )2 .
NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 185/207
Propriedades dos estimadores dos mínimos quadrados. • Estimador βˆ1 :
Pn Pn n ¯ (xi − x¯)Yi X x Y − n x ¯ Y i i i=1 i=1 ˆ ki Yi , = Pn = β1 = Pn 2 2 2 x − n x ¯ (x − x ¯ ) i i=1 i i=1 i=1
onde ki = P n xi(x−¯ix−¯x)2 , com i=1 Pn 2 1 P = Pn n i=1 ki = (xi −¯ x)2
i=1 ki = 0,
1 . 2 ¯2 x i=1 i −n x
i=1
Logo,
Pn
Pn
i=1
ki xi = 1 e
Pn
Pn Pn k E(Y ) = β k + β i 0 1 i=1 ki xi = β1 . i=1 i i=1 i P P n n 2 2 2 • V ar(βˆ1 ) = ¯2 )−1 . i=1 ki V ar(Yi ) = σ ( i=1 xi − n x • E(βˆ1 ) =
NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 186/207
• Estimador βˆ0 : n
n
n
X X 1X ˆ ˆ ¯ β0 = Y − β1 x¯ = wi Yi , ki Yi x¯ = Yi − n i=1 i=1 i=1 onde wi = (1/n − ki x¯), com Pn ¯2 1 2 Pn x + w = ( ). i=1 i n x2 −n x ¯2 i=1
Logo,
i
Pn
i=1
wi = 1,
Pn
i=1
w i xi = 0 e
Pn Pn w + β w E(Y ) = β 1 i 0 i=1 wi xi = β0 . i=1 i i=1 i P n ¯2 2 2 1 • V ar(βˆ0 ) = Pn x ). i=1 wi V ar(Yi ) = σ ( n + x2 −n x ¯2 • E(βˆ0 ) =
Pn
i=1
i
Note-se que βˆ0 e βˆ1 são combinações lineares dos Yi e estimadores centrados de β0 e β1 , respectivamente. NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 187/207
• Estimador σ ˆ2:
Seja SSE a soma de quadrados dos resíduos Yi − Yˆi , i = 1, . . . , n, onde Yˆi ≡ βˆ0 + βˆ1 xi , isto é, Pn Pn 2 ¯ ˆ ¯ − βˆ1 xi )2 ˆ (Y − Y ) = SSE = i i=1 (Yi − Y + β1 x i=1 i Pn ¯ 2 ˆ2 Pn (xi − x¯)2 , = i=1 i=1 (Yi − Y ) − β1
Pn ˆ2 Pn (xi − x¯)2 = ¯ 2 onde SST = i=1 (Yi − Y ) e SSR = β1 i=1 Pn ˆ 2 ¯ i=1 (Yi − Y ) são conhecidas por somas de quadrados total e da regressão, respectivamente, tal que SST = SSR + SSE. Pode-se provar que E(SSE) = (n−2)σ 2 e portanto um estimador centrado de σ 2 é X X n n SSE 1 x2i −n x¯2 . Yi2 −n Y¯ 2 − βˆ12 = σ ˆ2 = n−2 n−2 i=1 i=1 NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 188/207
Exemplo 9.1: A resistência de uma certa fibra sintética (Y ) é suposta estar relacionada com a percentagem de algodão (x). Para avaliar essa conjectura tomou-se uma amostra aleatória de 10 peças da fibra produzidas sob as mesmas condições, obtendo-se os seguintes dados:
P10 i=1 xi = 173 P10 i=1 yi = 2288 P10 2 i=1 xi = 3069 P10 2 i=1 yi = 524510 P10 i=1 xi yi = 39825
225 18
235 19
218 17
239 22
243 21
233 16
240 18
235
216 14
225
220 15
215
213 13
y
y x
14
16
18
20
22
x
NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 189/207
As estimativas de mínimos quadrados de β0 e β1 são = 3.188 βˆ1 = 39825−10×17.3×228.8 3069−10×17.32 βˆ0 = 228.8 − 3.188 × 17.3 = 173.65 Consequentemente, a equação ou recta de regressão estimada é b |x) = 173.65 + 3.188 x, Yb ≡ E(Y
sendo 3.188 a variação na resistência média da fibra sintética por cada incremento de 1% na percentagem de algodão. A estimativa da variância dos erros aleatórios é 1 2 2 2 2 σ ˆ = (524510−10×228.8 )−3.188 (3069−10×17.3 ) = 30.27. 8 NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 190/207
Inferências adicionais no modelo de regressão linear simples. Parâmetro β1 . P Como βˆ1 = ni=1 ki Yi é uma combinação linear de normais indepenP dentes, E(βˆ1 ) = β1 e V ar(βˆ1 ) = σ 2 ( ni=1 x2i − n x¯2 )−1 , então 2 σ , βˆ1 ∼ N β1 , Pn 2 ¯2 i=1 xi − n x e, por conseguinte,
T =q
βˆ1 − β1
σ ˆ2 2 ¯2 i=1 xi −n x
Pn
∼ t(n−2) .
NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 191/207
Considerando T acima como variável fulcral na construção de um intervalo de confiança a 100(1−α)% para β1 , tem-se que P (a < T < b) = γ = 1−α, onde b = −a = Ft−1 (1− α2 ), e (n−2)
P βˆ1 −b
s
Pn
σ ˆ2
2 i=1 xi
−
n x¯2
0
−b
< β1 < βˆ1 +b
s
σ ˆ2 Pn 2 ¯2 i=1 xi − n x
b
T
= 1−α
Logo, um intervalo (aleatório) de confiança a 100(1−α)% para β1 é s σ ˆ2 ˆ P IAC(β1 , 1−α) = β1 ± b . n 2 ¯2 i=1 xi − n x
NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 192/207
Teste de hipóteses: 1. Hipóteses: H0 : β1 = β10 versus H1 : β1 6= β10 . 2. Estatística do teste: T0 =
r
observado é denotado por t0 .
βˆ1 −β10
H0
σ ˆ2 Pn x2 −n x ¯2 i=1 i
∼ t(n−2) , cujo valor
3. Região crítica: Fixado α, RCα = (−∞, −b) ∪ (b, ∞), onde b = −a = Ft−1 (1 − α2 ). (n−2)
−b
0
b
T
4. Conclusão: Se t0 ∈ RCα , rejeita-se H0 ao nível de significância de 100α%. Caso contrário, não se rejeita H0 a 100α%. NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 193/207
Parâmetro β0 . P Como βˆ0 = ni=1 wi Yi é uma combinação linear de normais independentes, então • E(βˆ0 ) = β0 • V ar(βˆ0 ) = σ 2 ( 1 + n
Logo,
x ¯2 ). 2 ¯2 i=1 xi −n x
Pn
2 1 x ¯ βˆ0 ∼ N β0 , σ 2 , + Pn 2 2 n x − n x ¯ i=1 i
e, por conseguinte,
T =q
σ ˆ 2 ( n1
βˆ0 − β0 +
x ¯2 ) 2 x ¯2 i=1 i −n x
Pn
∼ t(n−2) .
NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 194/207
Considerando T acima como variável fulcral na construção de um intervalo de confiança a 100(1−α)% para β0 , tem-se que P (a < T < b) = γ = 1−α, onde b = −a = Ft−1 (1− α2 ), e (n−2)
P βˆ0 − b
s
σ ˆ2
x ¯2 1 + Pn 2 n ¯2 i=1 xi − n x
< β0 < βˆ0 + b
−b
s
σ ˆ2
0
b
x ¯2 1 + Pn 2 n ¯2 i=1 xi − n x
T
= 1−α
Logo, um intervalo (aleatório) de confiança a 100(1 − α)% para β0 é dado por s 2 1 x ¯ ˆ2 IAC(β0 , 1−α) = βˆ0 ± b σ . + Pn 2 2 x − n x ¯ n i=1 i
NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 195/207
Teste de hipóteses: 1. Hipóteses: H0 : β0 = β00 versus H1 : β0 6= β00 . 2. Estatística do teste: T0 =
r
βˆ0 −β00
2 1 σ ˆ2( n + P n x¯ 2 ) x −n x ¯2 i=1 i
H0
∼ t(n−2) , cujo
valor observado é denotado por t0 .
3. Região crítica: Fixado α, RCα = (−∞, −b) ∪ (b, ∞), onde b = −a = Ft−1 (1 − α2 ). (n−2)
0
−b
b
T
4. Conclusão: Se t0 ∈ RCα , rejeita-se H0 ao nível de significância de 100α%. Caso contrário, não se rejeita H0 a 100α%. NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 196/207
Estimação de E(Y |x0 ). Dado um valor x0 da variável explicativa, um estimador pontual do valor esperado de Y é b |x0 ) = βˆ0 + βˆ1 x0 = Yb0 ≡ E(Y
n X 1 i=1
n
+ ki (x0 − x¯) Yi .
Como Yb0 é uma combinação linear de normais e b0 ) = E(βˆ0 ) + E(βˆ1 )x0 = β0 + β1 x0 , • E(Y b0 ) = · · · = σ 2 ( 1 + • V ar(Y n
(¯ x−x0 )2 Pn ), 2 ¯2 i=1 xi −n x
βˆ0 + βˆ1 x0 − β0 + β1 x0 T = q ∼ t(n−2) . (¯ x−x0 )2 1 2 σ ˆ ( n + P n x2 −n x¯2 ) i=1
i
NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 197/207
Considerando T acima como variável fulcral na construção de um intervalo de confiança a 100(1−α)% para E(Y |x0 ), tem-se que P (a < T < b) = γ = 1−α, onde b = −a = Ft−1 (1− α2 ), e (n−2)
P βˆ0 + βˆ1 x0 − b
q
2
σ ˆ 2 ( n1 + P n xx¯ 2 −n x¯2 ) < E(Y |x0 ) < i=1 i q 2 x ¯ 1 ˆ 2 ( n + P n x2 −n x¯2 ) = 1−α βˆ0 + βˆ1 x0 + b σ i=1
i
Logo, um intervalo (aleatório) de confiança a 100(1−α)% para E(Y |x0 ) é dado por s 2 1 x ¯ . ˆ2 + Pn 2 IAC(E(Y |x0 ), 1−α) = βˆ0 + βˆ1 x0 ± b σ 2 x − n x ¯ n i=1 i
NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 198/207
Teste de hipóteses: 1. Hipóteses: H0 : E(Y |x0 ) = β00 + β10 x0 versus H1 : E(Y |x0 ) 6= β00 +β10 x0 . 2. Estatística do teste: T0 =
βˆ +βˆ x −(β00+β10 x0 ) r 0 1 0 (¯ x−x0 )2 1 + Pn σ ˆ2 n 2 2
H0
∼ t(n−2) , cujo
x −n x ¯ i=1 i
valor observado é denotado por t0 .
3. Região crítica: Fixado α, RCα = (−∞, −b) ∪ (b, ∞), onde b = −a = Ft−1 (1 − α2 ). (n−2)
−b
0
b
T
4. Conclusão: Se t0 ∈ RCα , rejeita-se H0 ao nível de significância de 100α%. Caso contrário, não se rejeita H0 a 100α%. NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 199/207
Exemplo 9.1a: Teste ao nível de significância de 1% se a percentagem de algodão (x) influencia a resistência da fibra sintética (Y ). Teste de hipóteses: 1. Hipóteses: H0 : β1 = 0 ≡ β10 versus H1 : β1 6= β10 . 2. Estatística do teste: T0 =
r
βˆ1 −β10
σ ˆ2 Pn x2 −n x ¯2 i=1 i
H0
∼ t(n−2) , cujo valor
p observado é denotado por t0 = 3.188/ 30.27/76.1 = 5.054.
3. Região crítica: Fixado α = 0.01, RCα = (−∞, −3.355) ∪ (3.355, ∞), onde Ft−1 (0.995) = 3.355. (8) 4. Conclusão: Como t0 ∈ RC0.01 , rejeita-se H0 ao nível de significância de 1%. Note-se que o valor-p = P (|T0 | ≥ 5.054|H0 ) < (0.9995) = 5.041, e portanto há forte evidência 0.001, pois Ft−1 (8) de que a percentagem de algodão influencia a resistência da fibra sintética.
NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 200/207
Coeficiente de determinação. Definição 9.1: O coeficiente de determinação é uma medida relativa de ajustamento do modelo de regressão linear, dada por SSE SSR =1− , SST SST P P onde SST = ni=1 (Yi − Y¯ )2 e SSR = βˆ12 ni=1 (xi − x¯)2 e portanto Pn ( ¯ Y¯ )2 2 i=1 xi Yi − n x P R = Pn 2 . ( i=1 xi − n x¯2 )( ni=1 Yi2 − n Y¯ 2 ) R2 =
O coeficiente de determinação é tal que 0 ≤ R2 ≤ 1, onde • R2 → 1 indica bom ajustamento do modelo; • R2 → 0 indica mau ajustamento do modelo.
NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 201/207
y
6
y 2
R ≈1
* * * y¯ - - - - - - - - -*- - *- - - - - - -
6
R2 ≈ 0
!!! ! * ! ! y¯ - - - -!- ! - -*!-! - *- - *- - -*-*- - -
*
* **
*
-
x
-
x
Nota: Existem testes de hipóteses de ajustamento do modelo, e.g., o teste F de falta de ajustamento (lack-of-fit). NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 202/207
Análise de resíduos na avaliação do modelo. A violação das suposições do modelo de regressão linear pode induzir a conclusões erradas sobre o modelo. Esse problema pode ser detectado através de técnicas de diagnóstico baseadas frequentemente na análise de resíduos. A definição mais simples de resíduo é dada por ri = yi − yˆi = yi − βˆ0 − βˆ1 xi , onde (yi , xi ) são os valores observados na amostra, i = 1, . . . , n, enquanto os resíduos padronizados são por ri ris = √ , σ ˆ2 P P 1 [( ni=1 Yi2 −n Y¯ 2 ) − βˆ12 ( ni=1 x2i −n x¯2 )]. onde σ ˆ 2 = n−2
NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 203/207
A análise de gráficos de resíduos é a técnica de diagnóstico mais usada para encontrar: • Observações discrepantes (outliers). • Heterogeneidade da variância (V ar(Yi ) 6= σ 2 para algum i). • Falta de normalidade (Yi ≁ N (·, ·)).
• Dependência dos erros aleatórios (Cov(Yi , Yj ) 6= 0).
Os gráficos de resíduos mais comuns são: • ri versus xi . • ri versus yˆi . • ri ao longo do tempo (se for possível).
NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 204/207
ri
ri
6
6
* *
*
* * 0 - - - - - - - -*- - - - - - - - - * * * *
* * -----------------* * *
*
-
-
xi sem problemas
xi perda de linearidade
NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 205/207
Exemplo 9.1b: Avalie o ajustamento do modelo de regressão linear simples (Y = β0 +β1 x+ǫ), incluindo um gráfico de resíduos. (39825 − 10 × 17.3 × 228.8)2 = 0.7615. r = (3069 − 10 × 17.32 )(524510 − 10 × 228.82 ) 2
y√ yi i −ˆ , σ ˆ2
i = 1, . . . , 10.
• inexistência de problemas.
1.0 0.0
• ris =
−1.0
Gráficos de resíduos:
standardized.residuals
2.0
Ou seja, 76.15% da variação total da resistência da fibra sintética é explicada pelo modelo de regressão linear simples com a percentagem de algodão como variável explicativa.
14
16
18
20
22
x NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 206/207
Alguns abusos no modelo de regressão: • Seleccção de variável explicativa.
• É possível desenvolver uma relação estatisticamente significa-
tiva entre a variável resposta (Y ) e a variável explicativa (x) que não faça sentido na prática.
• O domínio de actuação dos dados originais. • A relação linear assumida para as variáveis resposta e explica-
tiva não pode ser estendida para fora do domínio de actuação dos dados observados. Por exemplo, se os valores da variável explicativa x ∈ [13, 22], não se deve inferir sobre o valor esperado da variável resposta Y quando x0 = 25, a não ser que haja informação adicional sobre a validade do modelo sobre esse domínio estendido. FIM! NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 207/207