Slidespe Gs Print9

  • December 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Slidespe Gs Print9 as PDF for free.

More details

  • Words: 3,753
  • Pages: 15
9. Introdução à regressão linear simples Modelos de regressão. Uma variável aleatória pode ser explicada quer por factores determinísticos quer por factores aleatórios. Este capítulo distingue-se dos capítulos anteriores, uma vez que o estudo de variáveis aleatórias não é feito somente com base em componentes não determinísticas. Ou seja, uma variável de interesse Y passa a ter duas componentes: previsível e aleatória. Supondo uma estrutura aditiva entre elas, Y = g(x) + ǫ, onde g(x) é a parte previsível de Y , formada por uma variável auxiliar x observável para cada elemento da amostra, e ǫ é a sua parte aleatória. NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 178/207

A parte previsível de Y é considerada fixa, mesmo que seja uma função de parâmetros desconhecidos, enquanto a parte aleatória tem uma distribuição de probabilidade. Nesse cenário, o conjunto de dados é formado por n pares (yi , xi ), i = 1, . . . , n. Considerando uma a.a. (Yi , xi ), i = 1, . . . , n, um modelo estatístico para relacionar Y e x é dado por Yi = β0 + β1 xi + ǫi , onde Yi é a variável resposta do i-ésimo elemento da amostra, enquanto xi é a sua variável explicativa (fixa), β0 e β1 são parâmetros (desconhecidos) e ǫi é o erro aleatório do elemento i da amostra. O modelo acima é conhecido por modelo de regressão linear simples, com parte previsível g(x) = β0 + β1 x e parte aleatória ǫ, cuja distribuição de probabilidade se supõe usualmente ser Normal. NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 179/207

Suposições usuais para os erros aleatórios ǫi , i = 1, . . . , n: • E(ǫi ) = 0. Isso implica que, dado um valor de x,

E(Y |x) = β0 + β1 x, conhecida por equação ou recta de regressão do modelo. • V ar(ǫi ) = σ 2 , ∀ i (variância constante).

• ǫ1 , . . . , ǫn são não correlacionados (ou independentes). • ǫi segue uma distribuição Normal.

Intrepretação dos parâmetros de regressão: • A ordenada na origem β0 é o valor esperado de Y com valor nulo

para a variável explicativa x.

• O declive da recta de regressão β1 é a variação do valor esperado

de Y por cada incremento unitário em x.

NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 180/207

y6

E(Y |x) = β0 +β1 x

    β1     1   

β0 -

x0

x0 +1

x

Parâmetros de regressão: • β0 = E(Y |x = 0).

• β1 = E(Y |x0 +1) − E(Y |x0 ), ∀ x0 . NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 181/207

Método dos mínimos quadrados em regressão linear simples. Um método de estimação dos coeficientes de regressão é o método de mínimos quadrados que consiste em minimizar a soma de quadrados dos erros aleatórios. Ou seja, o valor que minimiza a função n X

SQ(β0 , β1 ) =

i=1

ǫ2i

=

n X i=1

(Yi − β0 − β1 xi )2 ,

denotado por (βˆ0 , βˆ1 ), é denominado o estimador de mínimos quadrados dos coeficientes de regressão. Para a determinação da estimativa associada a (βˆ0 , βˆ1 ), deve-se encontrar as derivadas parciais da função SQ(β0 , β1 ) avaliada em {(yi , xi )} em relação aos parâmetros β0 e β1 . NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 182/207

∂ SQ(β0 , β1 ) ∂β0 ∂ SQ(β0 , β1 ) ∂β1

P = 2 ni=1 (Yi − β0 − β1 xi )(−1) P = 2 ni=1 (Yi − β0 − β1 xi )(−xi )

Logo, ∂ SQ(β0 , β1 ) ∂β0 ∂ SQ(β0 , β1 ) ∂β1

Pn Pn =0 ⇒ Y = n β + β i 0 1 i=1 xi Pi=1 P Pn 2 n n =0 ⇒ i=1 xi Yi = β0 i=1 xi + β1 i=1 xi

A solução desse sistema de equações é β0 = Y¯ − βˆ1 x¯

Pn ¯ Y¯ i=1 xi Yi − n x e β1 = P . n 2 2 x − n x ¯ i=1 i NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 183/207

Pode-se provar que este é ponto de mínimo, visto que a matriz hessiana avaliada neste ponto é definida positiva, e portanto os estimadores de mínimos quadrados de β0 e β1 são dados por

βˆ0 = Y¯ − βˆ1 x¯

e

βˆ1 =

n X

xi Yi − n x¯ Y¯

i=1 n X i=1

.

x2i − n x¯2

Consequentemente, a equação ou recta de regressão é estimada por b |x) = βˆ0 + βˆ1 x, Yb ≡ E(Y

i.e., dado um valor x, o valor esperado de Y é estimado por βˆ0 + βˆ1 x. A estimação pontual de E(Y |x) deve restringir-se ao domínio dos valores observados na amostra da variável explicativa x. NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 184/207

Estimadores de máxima verosimilhança. Supondo que os erros aleatórios ǫi ∼ N (0, σ 2 ), i = 1, . . . , n, tem-se que Yi ∼ N (β0 +β1 xi , σ 2 ) e portanto a função de verosimilhança associada ao modelo de regressão linear simples é 2

L(β0 , β1 , σ |{yi , xi }) =

n  Y i=1

  1 1 2 √ exp − 2 (yi − β0 − β1 xi ) 2σ 2πσ

A maximização da função acima β0 e β1 Pn em relação aos parâmetros 2 restringe-se a maximizar − i=1 (yi − β0 − β1 xi ) = −SQ(β0 , β1 ). Ou seja, minimizar a soma de quadrados dos erros aleatórios. Por conseguinte, os estimadores de máxima verosimilhança de β0 e β1 são os estimadores de mínimos quadrados dos parâmetros, βˆ0 e βˆ1 . Além P disso, pode-se provar que o e.m.v. de σ 2 é σ ˜ 2 = n1 ni=1 (Yi−βˆ0−βˆ1 xi )2 .

NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 185/207

Propriedades dos estimadores dos mínimos quadrados. • Estimador βˆ1 :

Pn Pn n ¯ (xi − x¯)Yi X x Y − n x ¯ Y i i i=1 i=1 ˆ ki Yi , = Pn = β1 = Pn 2 2 2 x − n x ¯ (x − x ¯ ) i i=1 i i=1 i=1

onde ki = P n xi(x−¯ix−¯x)2 , com i=1 Pn 2 1 P = Pn n i=1 ki = (xi −¯ x)2

i=1 ki = 0,

1 . 2 ¯2 x i=1 i −n x

i=1

Logo,

Pn

Pn

i=1

ki xi = 1 e

Pn

Pn Pn k E(Y ) = β k + β i 0 1 i=1 ki xi = β1 . i=1 i i=1 i P P n n 2 2 2 • V ar(βˆ1 ) = ¯2 )−1 . i=1 ki V ar(Yi ) = σ ( i=1 xi − n x • E(βˆ1 ) =

NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 186/207

• Estimador βˆ0 : n

n

n

X X 1X ˆ ˆ ¯ β0 = Y − β1 x¯ = wi Yi , ki Yi x¯ = Yi − n i=1 i=1 i=1 onde wi = (1/n − ki x¯), com Pn ¯2 1 2 Pn x + w = ( ). i=1 i n x2 −n x ¯2 i=1

Logo,

i

Pn

i=1

wi = 1,

Pn

i=1

w i xi = 0 e

Pn Pn w + β w E(Y ) = β 1 i 0 i=1 wi xi = β0 . i=1 i i=1 i P n ¯2 2 2 1 • V ar(βˆ0 ) = Pn x ). i=1 wi V ar(Yi ) = σ ( n + x2 −n x ¯2 • E(βˆ0 ) =

Pn

i=1

i

Note-se que βˆ0 e βˆ1 são combinações lineares dos Yi e estimadores centrados de β0 e β1 , respectivamente. NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 187/207

• Estimador σ ˆ2:

Seja SSE a soma de quadrados dos resíduos Yi − Yˆi , i = 1, . . . , n, onde Yˆi ≡ βˆ0 + βˆ1 xi , isto é, Pn Pn 2 ¯ ˆ ¯ − βˆ1 xi )2 ˆ (Y − Y ) = SSE = i i=1 (Yi − Y + β1 x i=1 i Pn ¯ 2 ˆ2 Pn (xi − x¯)2 , = i=1 i=1 (Yi − Y ) − β1

Pn ˆ2 Pn (xi − x¯)2 = ¯ 2 onde SST = i=1 (Yi − Y ) e SSR = β1 i=1 Pn ˆ 2 ¯ i=1 (Yi − Y ) são conhecidas por somas de quadrados total e da regressão, respectivamente, tal que SST = SSR + SSE. Pode-se provar que E(SSE) = (n−2)σ 2 e portanto um estimador centrado de σ 2 é X   X n n SSE 1 x2i −n x¯2 . Yi2 −n Y¯ 2 − βˆ12 = σ ˆ2 = n−2 n−2 i=1 i=1 NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 188/207

Exemplo 9.1: A resistência de uma certa fibra sintética (Y ) é suposta estar relacionada com a percentagem de algodão (x). Para avaliar essa conjectura tomou-se uma amostra aleatória de 10 peças da fibra produzidas sob as mesmas condições, obtendo-se os seguintes dados:

P10 i=1 xi = 173 P10 i=1 yi = 2288 P10 2 i=1 xi = 3069 P10 2 i=1 yi = 524510 P10 i=1 xi yi = 39825

225 18

235 19

218 17

239 22

243 21

233 16

240 18

235

216 14

225

220 15

215

213 13

y

y x

14

16

18

20

22

x

NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 189/207

As estimativas de mínimos quadrados de β0 e β1 são = 3.188 βˆ1 = 39825−10×17.3×228.8 3069−10×17.32 βˆ0 = 228.8 − 3.188 × 17.3 = 173.65 Consequentemente, a equação ou recta de regressão estimada é b |x) = 173.65 + 3.188 x, Yb ≡ E(Y

sendo 3.188 a variação na resistência média da fibra sintética por cada incremento de 1% na percentagem de algodão. A estimativa da variância dos erros aleatórios é   1 2 2 2 2 σ ˆ = (524510−10×228.8 )−3.188 (3069−10×17.3 ) = 30.27. 8 NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 190/207

Inferências adicionais no modelo de regressão linear simples. Parâmetro β1 . P Como βˆ1 = ni=1 ki Yi é uma combinação linear de normais indepenP dentes, E(βˆ1 ) = β1 e V ar(βˆ1 ) = σ 2 ( ni=1 x2i − n x¯2 )−1 , então   2 σ , βˆ1 ∼ N β1 , Pn 2 ¯2 i=1 xi − n x e, por conseguinte,

T =q

βˆ1 − β1

σ ˆ2 2 ¯2 i=1 xi −n x

Pn

∼ t(n−2) .

NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 191/207

Considerando T acima como variável fulcral na construção de um intervalo de confiança a 100(1−α)% para β1 , tem-se que P (a < T < b) = γ = 1−α, onde b = −a = Ft−1 (1− α2 ), e (n−2) 

P βˆ1 −b

s

Pn

σ ˆ2

2 i=1 xi



n x¯2

0

−b

< β1 < βˆ1 +b

s

σ ˆ2 Pn 2 ¯2 i=1 xi − n x

b



T

= 1−α

Logo, um intervalo (aleatório) de confiança a 100(1−α)% para β1 é s σ ˆ2 ˆ P IAC(β1 , 1−α) = β1 ± b . n 2 ¯2 i=1 xi − n x

NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 192/207

Teste de hipóteses: 1. Hipóteses: H0 : β1 = β10 versus H1 : β1 6= β10 . 2. Estatística do teste: T0 =

r

observado é denotado por t0 .

βˆ1 −β10

H0

σ ˆ2 Pn x2 −n x ¯2 i=1 i

∼ t(n−2) , cujo valor

3. Região crítica: Fixado α, RCα = (−∞, −b) ∪ (b, ∞), onde b = −a = Ft−1 (1 − α2 ). (n−2)

−b

0

b

T

4. Conclusão: Se t0 ∈ RCα , rejeita-se H0 ao nível de significância de 100α%. Caso contrário, não se rejeita H0 a 100α%. NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 193/207

Parâmetro β0 . P Como βˆ0 = ni=1 wi Yi é uma combinação linear de normais independentes, então • E(βˆ0 ) = β0 • V ar(βˆ0 ) = σ 2 ( 1 + n

Logo,

x ¯2 ). 2 ¯2 i=1 xi −n x

Pn

   2 1 x ¯ βˆ0 ∼ N β0 , σ 2 , + Pn 2 2 n x − n x ¯ i=1 i

e, por conseguinte,

T =q

σ ˆ 2 ( n1

βˆ0 − β0 +

x ¯2 ) 2 x ¯2 i=1 i −n x

Pn

∼ t(n−2) .

NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 194/207

Considerando T acima como variável fulcral na construção de um intervalo de confiança a 100(1−α)% para β0 , tem-se que P (a < T < b) = γ = 1−α, onde b = −a = Ft−1 (1− α2 ), e (n−2) 

P βˆ0 − b

s

σ ˆ2



x ¯2 1 + Pn 2 n ¯2 i=1 xi − n x



< β0 < βˆ0 + b

−b

s

σ ˆ2



0

b

x ¯2 1 + Pn 2 n ¯2 i=1 xi − n x

T



= 1−α

Logo, um intervalo (aleatório) de confiança a 100(1 − α)% para β0 é dado por s   2 1 x ¯ ˆ2 IAC(β0 , 1−α) = βˆ0 ± b σ . + Pn 2 2 x − n x ¯ n i=1 i

NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 195/207

Teste de hipóteses: 1. Hipóteses: H0 : β0 = β00 versus H1 : β0 6= β00 . 2. Estatística do teste: T0 =

r

βˆ0 −β00

2 1 σ ˆ2( n + P n x¯ 2 ) x −n x ¯2 i=1 i

H0

∼ t(n−2) , cujo

valor observado é denotado por t0 .

3. Região crítica: Fixado α, RCα = (−∞, −b) ∪ (b, ∞), onde b = −a = Ft−1 (1 − α2 ). (n−2)

0

−b

b

T

4. Conclusão: Se t0 ∈ RCα , rejeita-se H0 ao nível de significância de 100α%. Caso contrário, não se rejeita H0 a 100α%. NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 196/207

Estimação de E(Y |x0 ). Dado um valor x0 da variável explicativa, um estimador pontual do valor esperado de Y é b |x0 ) = βˆ0 + βˆ1 x0 = Yb0 ≡ E(Y

n  X 1 i=1

n

 + ki (x0 − x¯) Yi .

Como Yb0 é uma combinação linear de normais e b0 ) = E(βˆ0 ) + E(βˆ1 )x0 = β0 + β1 x0 , • E(Y b0 ) = · · · = σ 2 ( 1 + • V ar(Y n

(¯ x−x0 )2 Pn ), 2 ¯2 i=1 xi −n x

βˆ0 + βˆ1 x0 − β0 + β1 x0 T = q ∼ t(n−2) . (¯ x−x0 )2 1 2 σ ˆ ( n + P n x2 −n x¯2 ) i=1

i

NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 197/207

Considerando T acima como variável fulcral na construção de um intervalo de confiança a 100(1−α)% para E(Y |x0 ), tem-se que P (a < T < b) = γ = 1−α, onde b = −a = Ft−1 (1− α2 ), e (n−2) 

P βˆ0 + βˆ1 x0 − b

q

2

σ ˆ 2 ( n1 + P n xx¯ 2 −n x¯2 ) < E(Y |x0 ) < i=1 i  q 2 x ¯ 1 ˆ 2 ( n + P n x2 −n x¯2 ) = 1−α βˆ0 + βˆ1 x0 + b σ i=1

i

Logo, um intervalo (aleatório) de confiança a 100(1−α)% para E(Y |x0 ) é dado por s   2 1 x ¯ . ˆ2 + Pn 2 IAC(E(Y |x0 ), 1−α) = βˆ0 + βˆ1 x0 ± b σ 2 x − n x ¯ n i=1 i

NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 198/207

Teste de hipóteses: 1. Hipóteses: H0 : E(Y |x0 ) = β00 + β10 x0 versus H1 : E(Y |x0 ) 6= β00 +β10 x0 . 2. Estatística do teste: T0 =

βˆ +βˆ x −(β00+β10 x0 ) r 0 1 0  (¯ x−x0 )2 1 + Pn σ ˆ2 n 2 2

H0

∼ t(n−2) , cujo

x −n x ¯ i=1 i

valor observado é denotado por t0 .

3. Região crítica: Fixado α, RCα = (−∞, −b) ∪ (b, ∞), onde b = −a = Ft−1 (1 − α2 ). (n−2)

−b

0

b

T

4. Conclusão: Se t0 ∈ RCα , rejeita-se H0 ao nível de significância de 100α%. Caso contrário, não se rejeita H0 a 100α%. NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 199/207

Exemplo 9.1a: Teste ao nível de significância de 1% se a percentagem de algodão (x) influencia a resistência da fibra sintética (Y ). Teste de hipóteses: 1. Hipóteses: H0 : β1 = 0 ≡ β10 versus H1 : β1 6= β10 . 2. Estatística do teste: T0 =

r

βˆ1 −β10

σ ˆ2 Pn x2 −n x ¯2 i=1 i

H0

∼ t(n−2) , cujo valor

p observado é denotado por t0 = 3.188/ 30.27/76.1 = 5.054.

3. Região crítica: Fixado α = 0.01, RCα = (−∞, −3.355) ∪ (3.355, ∞), onde Ft−1 (0.995) = 3.355. (8) 4. Conclusão: Como t0 ∈ RC0.01 , rejeita-se H0 ao nível de significância de 1%. Note-se que o valor-p = P (|T0 | ≥ 5.054|H0 ) < (0.9995) = 5.041, e portanto há forte evidência 0.001, pois Ft−1 (8) de que a percentagem de algodão influencia a resistência da fibra sintética.

NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 200/207

Coeficiente de determinação. Definição 9.1: O coeficiente de determinação é uma medida relativa de ajustamento do modelo de regressão linear, dada por SSE SSR =1− , SST SST P P onde SST = ni=1 (Yi − Y¯ )2 e SSR = βˆ12 ni=1 (xi − x¯)2 e portanto Pn ( ¯ Y¯ )2 2 i=1 xi Yi − n x P R = Pn 2 . ( i=1 xi − n x¯2 )( ni=1 Yi2 − n Y¯ 2 ) R2 =

O coeficiente de determinação é tal que 0 ≤ R2 ≤ 1, onde • R2 → 1 indica bom ajustamento do modelo; • R2 → 0 indica mau ajustamento do modelo.

NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 201/207

y

6

y 2

R ≈1

* * * y¯ - - - - - - - - -*- - *- - - - - - -

6

R2 ≈ 0

!!! ! * ! ! y¯ - - - -!- ! - -*!-! - *- - *- - -*-*- - -

*

* **

*

-

x

-

x

Nota: Existem testes de hipóteses de ajustamento do modelo, e.g., o teste F de falta de ajustamento (lack-of-fit). NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 202/207

Análise de resíduos na avaliação do modelo. A violação das suposições do modelo de regressão linear pode induzir a conclusões erradas sobre o modelo. Esse problema pode ser detectado através de técnicas de diagnóstico baseadas frequentemente na análise de resíduos. A definição mais simples de resíduo é dada por ri = yi − yˆi = yi − βˆ0 − βˆ1 xi , onde (yi , xi ) são os valores observados na amostra, i = 1, . . . , n, enquanto os resíduos padronizados são por ri ris = √ , σ ˆ2 P P 1 [( ni=1 Yi2 −n Y¯ 2 ) − βˆ12 ( ni=1 x2i −n x¯2 )]. onde σ ˆ 2 = n−2

NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 203/207

A análise de gráficos de resíduos é a técnica de diagnóstico mais usada para encontrar: • Observações discrepantes (outliers). • Heterogeneidade da variância (V ar(Yi ) 6= σ 2 para algum i). • Falta de normalidade (Yi ≁ N (·, ·)).

• Dependência dos erros aleatórios (Cov(Yi , Yj ) 6= 0).

Os gráficos de resíduos mais comuns são: • ri versus xi . • ri versus yˆi . • ri ao longo do tempo (se for possível).

NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 204/207

ri

ri

6

6

* *

*

* * 0 - - - - - - - -*- - - - - - - - - * * * *

* * -----------------* * *

*

-

-

xi sem problemas

xi perda de linearidade

NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 205/207

Exemplo 9.1b: Avalie o ajustamento do modelo de regressão linear simples (Y = β0 +β1 x+ǫ), incluindo um gráfico de resíduos. (39825 − 10 × 17.3 × 228.8)2 = 0.7615. r = (3069 − 10 × 17.32 )(524510 − 10 × 228.82 ) 2

y√ yi i −ˆ , σ ˆ2

i = 1, . . . , 10.

• inexistência de problemas.

1.0 0.0

• ris =

−1.0

Gráficos de resíduos:

standardized.residuals

2.0

Ou seja, 76.15% da variação total da resistência da fibra sintética é explicada pelo modelo de regressão linear simples com a percentagem de algodão como variável explicativa.

14

16

18

20

22

x NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 206/207

Alguns abusos no modelo de regressão: • Seleccção de variável explicativa.

• É possível desenvolver uma relação estatisticamente significa-

tiva entre a variável resposta (Y ) e a variável explicativa (x) que não faça sentido na prática.

• O domínio de actuação dos dados originais. • A relação linear assumida para as variáveis resposta e explica-

tiva não pode ser estendida para fora do domínio de actuação dos dados observados. Por exemplo, se os valores da variável explicativa x ∈ [13, 22], não se deve inferir sobre o valor esperado da variável resposta Y quando x0 = 25, a não ser que haja informação adicional sobre a validade do modelo sobre esse domínio estendido. FIM! NOTAS DE PROBABILIDADES E ESTAT´ ISTICA - GS – 207/207

Related Documents

Slidespe Gs Print9
December 2019 2
Slidespe Gs Print6
December 2019 3
Slidespe Gs Print8
December 2019 2
Slidespe Gs Print1&2
December 2019 3
Slidespe Gs Print3
December 2019 4
Slidespe Gs Print4
December 2019 4