Regresso Linear

  • June 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Regresso Linear as PDF for free.

More details

  • Words: 1,965
  • Pages: 10
Regressão Linear Em experimentos que procuram determinar a relação existente entre duas ou mais variáveis, dois tipos de situação podem ocorrer: (a) uma variável (X) pode ser medida acuradamente e seu valor escolhido pelo experimentador. Por exemplo, a dose de uma droga a ser administrada no animal. Esta variável e chamada de variável independente. A outra variável (Y), chamada variável dependente ou resposta, está sujeita a erro experimental, e seu valor depende do valor escolhido para a variável independente. Assim, a resposta (Y) é uma variável dependente da variável independente (X). Este é o caso da regressão. (b) As duas variáveis estão sujeitas a erros experimentais, isto é, erros de natureza aleatória, inerentes ao experimento. Por exemplo, produção de leite e produção de gordura medidas em vacas em lactação. Este tipo de associação entre duas variáveis constitui o caso da correlação.



Correlação e Regressão Simples: envolve somente duas variáveis



Correlação e Regressão Múltipla: envolve mais de duas variáveis

Regressão Linear Simples O termo regressão é usado para designar a expressão de um variável dependente (Y) em função de outra (X), considerada independente. Diz-se regressão de Y sobre X. Se a relação funcional entre elas é expressa por uma equação de 1º grã, cuja a representação geométrica é uma linha reta, a regressão é dita linear. Postulada a existência de uma relação linear entre duas variáveis, pode-se representar aquele conjunto de pontos pela equação da reta: yi = α + βxi, que expressa o valor de Y em função de X. Y é a variável dependente ou regredida, ou resposta X é a variável independente, ou regressora ou explanatória α e β são constantes, α é o intercepto e expressa o valor de y quando x é zero e β é o coeficiente de regressão, coeficiente angular ou inclinação da reta. O problema consiste em estimar os parâmetros α e β para que se conheça a equação da reta. Se a é uma estimativa de α e b uma estimativa de β, a equação é

estimada por:

yˆ i = a + bxi . Dizemos então que o problema consiste em ajustar uma

regressão linear simples, isto é, a equação de uma reta ajustada aos dados. y y = a + bx (x, y)

( x, y) b unidades de y a

1 unidade de x

(0, 0)

x

Quando x=0, y=a e quando a=0 a reta corta a origem a é o ponto em que a equação da reta cruza o eixo de y Uma unidade de mudança em x resulta em uma b unidades de mudança em y. Assim b é uma medida de inclinação da reta. Matematicamente y = a + bx é denominada de relação funcional. Modelo e Equação A reta de regressão não precisa ser contínua. Em amostragem precisamos assumir a forma da reta de médias, entretanto não seria possível desenvolver um procedimento computacional, então assume-se a forma de `linha contínua´. Por facilidade computacional, a `linha contínua´ é freqüentemente escolhida como uma aproximação de um ajuste razoável envolvendo um determinado intervalo de X. A descrição matemática é dada por:

Yi = α + β X i + ε i Yi = µ + β ( X i − X ) + ε i

Exemplo: Y= consumo alimentar de aves X = peso corporal das aves Y X

87,1 4,6

93,1 5,1

89,8 4,8

91,4 4,4

99,5 5,9

92,1 4,7

95,5 5,1

99,3 5,2

93,4 4,9

94,4 5,1

87,1= α + 4,6β + ε1 93,1= α + 5,1β + ε1 89,8= α + 4,8β + ε1 91,4= α + 4,4β + ε1 99,5= α + 5,9β + ε1 92,1= α + 4,7β + ε1 95,5= α + 5,1β + ε1 99,3= α + 5,2β + ε1 93,4= α + 4,9β + ε1 94,4= α + 5,1β + ε1 Escrevendo estas equações na forma matricial:  ε1   87,1  1 4,6 ε   93,1  1 5,1   2      ε3  89,8  1 4,8       ε4   91,4  1 4,4  ε5   99,5 1 5,9  α    =    +   ε6   92,1 1 4,7  β  ε7   95,5 1 5,1         ε8   99,3 1 5,2  ε   93,4  1 4,9  9     94,4 1 5,1  ε 10  ou

Y =Xβ + ε α, β e os 10 ε´s são desconhecidos e não é possível conhece-los, apenas podemos obter suas estimativas.

Assim a e b obtidos pela solução das equações normais por quadrados mínimos, são estimativas de α e β e produzem uma reta que pode ser considerada como uma estimativa da reta verdadeira relacionando os Y´s em função de X para a população média. Os desvios de Y´s observados para a linha ajustada

Yi − Yˆ , ou resíduos, podem

ser considerados como estimativas dos erros verdadeiros εi´s. Para os erros verdadeiros assume-se importantes suposições: 1) Todos têm média igual a zero; 2) Todos têm a mesma variância σ2e; (homogeneidade de variâncias) 3) Todos são não correlacionados;

Estimação de Parâmetros y = a + bx Suponhamos que para cada uma das variáveis (X e Y), temos N valores. Cada valor Xi de X corresponde a um valor Yi de Y segundo a equação:

Yi = α + βXi + εi εI = desvio ou erro aleatório (com média zero, variância σ2e

e não

correlacionados) O problema que devemos resolver, antes de mais nada, é estimar a e b que são estimadores de α e β. A teoria mostra que a melhor maneira de estimar α e β é por meio do Método dos Quadrados Mínimos, o qual consiste em minimizar a soma de quadrados dos desvios

yi − yˆ i . Sendo yi − yˆ i a diferença entre o valor observado e o estimado pela

equação de regressão para cada observação, procura-se, então, estimar α e β, de tal

modo que

∑ ( yi − yˆ i )

2

seja mínima. As diferenças

yi − yˆ i são chamadas “desvios

da regressão” ou “erro de estimativas”. -ei = a + bxi –yi e2i = (a + bxi –yi)2 A soma dos quadrados dos desvios será: SQR = Σ( a + bxi –yi)2 Para tornar mínima esta soma, quando variam a e b, devemos igualar a zero as derivadas parciais: ∂SQR ∂a

e

∂SQR ∂b

obtemos ∂SQR = 2∑ ( a + bx i − y i ) ∂a ∂SQR = 2∑ ( a + bx i − y i ) x i ∂b Σ ( a + bxi –yi) = 0 Σ ( a + bxi –yi) xi = 0 a e b são obtidos pelas das equações normais: na + bΣxi =Σyi aΣxi + bΣx2i = Σxiyi que produzem

2 ( ∑ y i ) ( ∑ x i ) − ( ∑ x i )( ∑ x i y i ) a= n∑ x i 2 − ( ∑ x i ) 2

b=

n ∑ x i y i − ( ∑ x i )( ∑ y i ) n∑ x i 2 − ( ∑ x i ) 2

a e b são os estimadores dos parâmetros α e β.

A obtenção de a se dá mediante a divisão da equação na + bΣxi =Σyi por n a+

b∑ x i ∑ y i = n n

a=

∑ y i b∑ x i − n n

a = y − bx y y = a + bx (x, y)

( x, y) b unidades de y a

1 unidade de x

(0, 0)

x

Da Figura acima, podemos tirar duas conclusões importantes: 1)

O ponto determinado pelas médias das variáveis

( x, y)

está contido na

reta de regressão; 2)

As diferenças y − y , ou seja, os desvios acima e abaixo de Y podem ser determinados por b( x − x )

Assim, y − y = b( x − x ) y = y + b( x − x ) Partindo da equação: y − y = b( x − x ) e sem alterar a igualdade, multiplicamos por ( x − x ) , seus dois membros: ( x − x ) ( y − y) = b( x − x ) 2 esta equação se refere ao desvio de um determinado valor de Y em relação a média Y , assim: ∑ ( x − x ) ( y − y) = b ∑ ( x − x )

2

b=

soma de produtos ∑ ( x − x ) ( y − y) = 2 soma de quadrados ∑ (x − x)

dividindo-se o numerador e o denominador de b por n-1, vê-se que

b=

Cov ( X , Y ) 2 sX

=

[ ∑ ( x − x ) ( y − y )] 2

∑ ( x − x )  

n −1

n −1

b é denominado coeficiente de regressão de Y em X; simboliza-se por bY,X podemos escrever a soma de quadrados de X da seguinte forma: (∑ x) 2 2 ∑ ( xi − x ) = ∑ x −

2

n

e a soma de produtos (numerador) pode ser desenvolvida: ∑ ( x − x ) ( y − y) = ∑ ( xy − xy − xy + xy) = ∑ xy − y∑ x − x ∑ y + nxy = ∑ xy −

∑ x∑ y ∑ x∑ y n∑ x∑ y − + n n n2

= ∑ xy −

∑ x∑ y n

= ∑ xy − nxy então ∑ x∑ y n b= (∑ x ) 2 2 ∑x − n ∑ xy −

ou

b=

∑ xy − nxy (∑ x ) 2 2 ∑x − n

Se dividirmos tanto o denominador como o numerador por n a fórmula de b não ficará alterada. Porém o denominador passará a indicar a variância de X pois:

σ

2 X

∑(X − X ) = N

2

e o numerador se constituirá o que se denomina de covariância, isto é,

a

variabilidade média das variáveis X e Y analisadas simultaneamente:

Cov X ,Y = σ XY = b ==

∑ ( X − X )(Y − Y ) N

Cov X ,Y σ X2

A variância de X é estimada por s 2X =

∑(x − x)

2

n −1

E a covariância de x e y é estimada por Cov X ,Y =

b ==

∑ ( x − x )( y − y ) n −1

Cov X ,Y ∑ xy − nx y = s X2 ( n − 1) s x2

Quando se constata que o coeficiente de regressão de uma variável sobre outra não difere significativamente de zero, significa que os dois caracteres em estudo não estão relacionados. Quando b difere significativamente de zero, seja b<0 ou b>0, existe associação entre os dois caracteres quantitativos. Quando b>0 as variáveis em estudo estão correlacionadas positivamente; o valor de uma variável aumentará com o aumento da outra e diminuirá com a diminuição da outra. Quando b<0, as variáveis estão correlacionadas negativamente, portanto variam em sentidos opostos.

Y X

30 1

x = 4,5 b =10

40 2 y = 65

50 3

60 4

70 5

80 6

90 7

100 8

b=

∑ xy − nx y (∑ x ) ∑x − n

2

2

=

2760 − 8 x ( 4,5)(65) = 10 (36) 2 204 − 8

a = y − bx = 65-10(4,5) = 20 Portanto: y = 65 + 10 (x - 4,5) ou y = 20 + 10x

Related Documents

Regresso Linear
June 2020 3
Regresso
June 2020 8
Regresso
June 2020 11
Regresso Aulas
June 2020 11
Regresso Aulas
June 2020 10
Sol.- Regresso Aulas
October 2019 7