Regressão Linear Em experimentos que procuram determinar a relação existente entre duas ou mais variáveis, dois tipos de situação podem ocorrer: (a) uma variável (X) pode ser medida acuradamente e seu valor escolhido pelo experimentador. Por exemplo, a dose de uma droga a ser administrada no animal. Esta variável e chamada de variável independente. A outra variável (Y), chamada variável dependente ou resposta, está sujeita a erro experimental, e seu valor depende do valor escolhido para a variável independente. Assim, a resposta (Y) é uma variável dependente da variável independente (X). Este é o caso da regressão. (b) As duas variáveis estão sujeitas a erros experimentais, isto é, erros de natureza aleatória, inerentes ao experimento. Por exemplo, produção de leite e produção de gordura medidas em vacas em lactação. Este tipo de associação entre duas variáveis constitui o caso da correlação.
Correlação e Regressão Simples: envolve somente duas variáveis
Correlação e Regressão Múltipla: envolve mais de duas variáveis
Regressão Linear Simples O termo regressão é usado para designar a expressão de um variável dependente (Y) em função de outra (X), considerada independente. Diz-se regressão de Y sobre X. Se a relação funcional entre elas é expressa por uma equação de 1º grã, cuja a representação geométrica é uma linha reta, a regressão é dita linear. Postulada a existência de uma relação linear entre duas variáveis, pode-se representar aquele conjunto de pontos pela equação da reta: yi = α + βxi, que expressa o valor de Y em função de X. Y é a variável dependente ou regredida, ou resposta X é a variável independente, ou regressora ou explanatória α e β são constantes, α é o intercepto e expressa o valor de y quando x é zero e β é o coeficiente de regressão, coeficiente angular ou inclinação da reta. O problema consiste em estimar os parâmetros α e β para que se conheça a equação da reta. Se a é uma estimativa de α e b uma estimativa de β, a equação é
estimada por:
yˆ i = a + bxi . Dizemos então que o problema consiste em ajustar uma
regressão linear simples, isto é, a equação de uma reta ajustada aos dados. y y = a + bx (x, y)
( x, y) b unidades de y a
1 unidade de x
(0, 0)
x
Quando x=0, y=a e quando a=0 a reta corta a origem a é o ponto em que a equação da reta cruza o eixo de y Uma unidade de mudança em x resulta em uma b unidades de mudança em y. Assim b é uma medida de inclinação da reta. Matematicamente y = a + bx é denominada de relação funcional. Modelo e Equação A reta de regressão não precisa ser contínua. Em amostragem precisamos assumir a forma da reta de médias, entretanto não seria possível desenvolver um procedimento computacional, então assume-se a forma de `linha contínua´. Por facilidade computacional, a `linha contínua´ é freqüentemente escolhida como uma aproximação de um ajuste razoável envolvendo um determinado intervalo de X. A descrição matemática é dada por:
Yi = α + β X i + ε i Yi = µ + β ( X i − X ) + ε i
Exemplo: Y= consumo alimentar de aves X = peso corporal das aves Y X
87,1 4,6
93,1 5,1
89,8 4,8
91,4 4,4
99,5 5,9
92,1 4,7
95,5 5,1
99,3 5,2
93,4 4,9
94,4 5,1
87,1= α + 4,6β + ε1 93,1= α + 5,1β + ε1 89,8= α + 4,8β + ε1 91,4= α + 4,4β + ε1 99,5= α + 5,9β + ε1 92,1= α + 4,7β + ε1 95,5= α + 5,1β + ε1 99,3= α + 5,2β + ε1 93,4= α + 4,9β + ε1 94,4= α + 5,1β + ε1 Escrevendo estas equações na forma matricial: ε1 87,1 1 4,6 ε 93,1 1 5,1 2 ε3 89,8 1 4,8 ε4 91,4 1 4,4 ε5 99,5 1 5,9 α = + ε6 92,1 1 4,7 β ε7 95,5 1 5,1 ε8 99,3 1 5,2 ε 93,4 1 4,9 9 94,4 1 5,1 ε 10 ou
Y =Xβ + ε α, β e os 10 ε´s são desconhecidos e não é possível conhece-los, apenas podemos obter suas estimativas.
Assim a e b obtidos pela solução das equações normais por quadrados mínimos, são estimativas de α e β e produzem uma reta que pode ser considerada como uma estimativa da reta verdadeira relacionando os Y´s em função de X para a população média. Os desvios de Y´s observados para a linha ajustada
Yi − Yˆ , ou resíduos, podem
ser considerados como estimativas dos erros verdadeiros εi´s. Para os erros verdadeiros assume-se importantes suposições: 1) Todos têm média igual a zero; 2) Todos têm a mesma variância σ2e; (homogeneidade de variâncias) 3) Todos são não correlacionados;
Estimação de Parâmetros y = a + bx Suponhamos que para cada uma das variáveis (X e Y), temos N valores. Cada valor Xi de X corresponde a um valor Yi de Y segundo a equação:
Yi = α + βXi + εi εI = desvio ou erro aleatório (com média zero, variância σ2e
e não
correlacionados) O problema que devemos resolver, antes de mais nada, é estimar a e b que são estimadores de α e β. A teoria mostra que a melhor maneira de estimar α e β é por meio do Método dos Quadrados Mínimos, o qual consiste em minimizar a soma de quadrados dos desvios
yi − yˆ i . Sendo yi − yˆ i a diferença entre o valor observado e o estimado pela
equação de regressão para cada observação, procura-se, então, estimar α e β, de tal
modo que
∑ ( yi − yˆ i )
2
seja mínima. As diferenças
yi − yˆ i são chamadas “desvios
da regressão” ou “erro de estimativas”. -ei = a + bxi –yi e2i = (a + bxi –yi)2 A soma dos quadrados dos desvios será: SQR = Σ( a + bxi –yi)2 Para tornar mínima esta soma, quando variam a e b, devemos igualar a zero as derivadas parciais: ∂SQR ∂a
e
∂SQR ∂b
obtemos ∂SQR = 2∑ ( a + bx i − y i ) ∂a ∂SQR = 2∑ ( a + bx i − y i ) x i ∂b Σ ( a + bxi –yi) = 0 Σ ( a + bxi –yi) xi = 0 a e b são obtidos pelas das equações normais: na + bΣxi =Σyi aΣxi + bΣx2i = Σxiyi que produzem
2 ( ∑ y i ) ( ∑ x i ) − ( ∑ x i )( ∑ x i y i ) a= n∑ x i 2 − ( ∑ x i ) 2
b=
n ∑ x i y i − ( ∑ x i )( ∑ y i ) n∑ x i 2 − ( ∑ x i ) 2
a e b são os estimadores dos parâmetros α e β.
A obtenção de a se dá mediante a divisão da equação na + bΣxi =Σyi por n a+
b∑ x i ∑ y i = n n
a=
∑ y i b∑ x i − n n
a = y − bx y y = a + bx (x, y)
( x, y) b unidades de y a
1 unidade de x
(0, 0)
x
Da Figura acima, podemos tirar duas conclusões importantes: 1)
O ponto determinado pelas médias das variáveis
( x, y)
está contido na
reta de regressão; 2)
As diferenças y − y , ou seja, os desvios acima e abaixo de Y podem ser determinados por b( x − x )
Assim, y − y = b( x − x ) y = y + b( x − x ) Partindo da equação: y − y = b( x − x ) e sem alterar a igualdade, multiplicamos por ( x − x ) , seus dois membros: ( x − x ) ( y − y) = b( x − x ) 2 esta equação se refere ao desvio de um determinado valor de Y em relação a média Y , assim: ∑ ( x − x ) ( y − y) = b ∑ ( x − x )
2
b=
soma de produtos ∑ ( x − x ) ( y − y) = 2 soma de quadrados ∑ (x − x)
dividindo-se o numerador e o denominador de b por n-1, vê-se que
b=
Cov ( X , Y ) 2 sX
=
[ ∑ ( x − x ) ( y − y )] 2
∑ ( x − x )
n −1
n −1
b é denominado coeficiente de regressão de Y em X; simboliza-se por bY,X podemos escrever a soma de quadrados de X da seguinte forma: (∑ x) 2 2 ∑ ( xi − x ) = ∑ x −
2
n
e a soma de produtos (numerador) pode ser desenvolvida: ∑ ( x − x ) ( y − y) = ∑ ( xy − xy − xy + xy) = ∑ xy − y∑ x − x ∑ y + nxy = ∑ xy −
∑ x∑ y ∑ x∑ y n∑ x∑ y − + n n n2
= ∑ xy −
∑ x∑ y n
= ∑ xy − nxy então ∑ x∑ y n b= (∑ x ) 2 2 ∑x − n ∑ xy −
ou
b=
∑ xy − nxy (∑ x ) 2 2 ∑x − n
Se dividirmos tanto o denominador como o numerador por n a fórmula de b não ficará alterada. Porém o denominador passará a indicar a variância de X pois:
σ
2 X
∑(X − X ) = N
2
e o numerador se constituirá o que se denomina de covariância, isto é,
a
variabilidade média das variáveis X e Y analisadas simultaneamente:
Cov X ,Y = σ XY = b ==
∑ ( X − X )(Y − Y ) N
Cov X ,Y σ X2
A variância de X é estimada por s 2X =
∑(x − x)
2
n −1
E a covariância de x e y é estimada por Cov X ,Y =
b ==
∑ ( x − x )( y − y ) n −1
Cov X ,Y ∑ xy − nx y = s X2 ( n − 1) s x2
Quando se constata que o coeficiente de regressão de uma variável sobre outra não difere significativamente de zero, significa que os dois caracteres em estudo não estão relacionados. Quando b difere significativamente de zero, seja b<0 ou b>0, existe associação entre os dois caracteres quantitativos. Quando b>0 as variáveis em estudo estão correlacionadas positivamente; o valor de uma variável aumentará com o aumento da outra e diminuirá com a diminuição da outra. Quando b<0, as variáveis estão correlacionadas negativamente, portanto variam em sentidos opostos.
Y X
30 1
x = 4,5 b =10
40 2 y = 65
50 3
60 4
70 5
80 6
90 7
100 8
b=
∑ xy − nx y (∑ x ) ∑x − n
2
2
=
2760 − 8 x ( 4,5)(65) = 10 (36) 2 204 − 8
a = y − bx = 65-10(4,5) = 20 Portanto: y = 65 + 10 (x - 4,5) ou y = 20 + 10x