Taller 2: Análisis de Regresión Especialización en Estadística Aplicada Fundación Universitaria Los Libertadores Martha Patricia Mendivelso Rincón DESARROLLO 1) ajustar un modelo de regresión lineal múltiple que relacione el rendimiento de la gasolina (y), en millas por galón, la cilindrada del motor (x1) y la cantidad de gargantas del carburador, (x6) data(taller_nuevo) View(taller_nuevo) attach(taller_nuevo) modelo <- lm(y~x_1+x_6) summary(modelo) Call: lm(formula = y ~ x_1 + x_6) Residuals: Min 1Q Median 3Q Max -7.0456 -1.6368 -0.3348 1.6503 6.2540 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 32.910041 1.540929 21.357 < 2e-16 *** x_1 -0.053025 0.006145 -8.628 1.68e-09 *** x_6 0.929500 0.670108 1.387 0.176 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 3.021 on 29 degrees of freedom Multiple R-squared: 0.7862, Adjusted R-squared: 0.7714 F-statistic: 53.31 on 2 and 29 DF, p-value: 1.934e-10. En este caso, el intercepto, la cilidrada del motor y la cantidad de gargantas del carburador explica el 77,14% del rendimiento de la gasolina, sin embargo, sólo el intercepto y la cilidrada del motos resultaron significativos al 1%. Modelo 2 Call: lm(formula = y ~ x_1)
Residuals: Min 1Q Median 3Q Max -6.7875 -1.9616 0.0206 1.7878 6.8182 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 33.727439 1.445559 23.33 < 2e-16 *** x_1 -0.047428 0.004706 -10.08 3.82e-11 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 3.067 on 30 degrees of freedom Multiple R-squared: 0.772, Adjusted R-squared: 0.7644 F-statistic: 101.6 on 1 and 30 DF, p-value: 3.82e-11 Este modelo es más lento, la cilidrada del motor y el intercepto, explican el 76,44% del rendimiento de la gasolina. Ambos son significativos al 1%.
2) Formar la tabla de análisis de varianza, y probar la significancia de la regresión. > SCT<-sum((taller_nuevo$y-mean(taller_nuevo$y))^2) > SCT [1] 1237.544 > SCR<-sum((modelo1$fitted-mean(taller_nuevo$y))^2) > SCR [1] 972.8984. > SCRes<-sum(modelo1$residuals^2) > SCRes [1] 264.6457 Grados de libertad > n<-nrow(cbind(y)) >n [1] 32 > GLT<- n-1 > GLT [1] 31 > GLRes<- df.residual(modelo1) > GLRes [1] 29 > GLR<- GLT-GLRes > GLR [1] 2 Cuadrados medios
> CMR<-SCR/GLR > CMR [1] 486.4492 > CMRes<-SCRes/GLRes > CMRes [1] 9.125714 > Fo<-CMR/CMRes > Fo [1] 53.30533 > pv<-1 - pf(Fo, GLR,GLRes) > pv [1] 1.934239e-10 Fuente de v ariación Regresión Residuales Total
Suma de cuadr ados SCR = 972.8984 SCRes= 264.64 57 SCT = 1237.544
Grados de lib Cuadrados m F0 ertad edios 2 486.4492 31 9.125714 29
53.30533
El F calculado y la probabilidad coinciden con los que muestra el cálculo inicial del modelo. F-statistic: 53.31 on 2 and 29 DF, p-value: 1.934e-10. 3) Calcular R2 y R2 adj para este modelo. Interprete los resultados. Multiple R-squared: 0.7862,
Adjusted R-squared: 0.7714
El analisis lo tomariamos con el R-squared: ya que el dato no es sensible al numer o de variables empleadas, el intercepto la cantidad gargantas del carburados y la cilindrada del m otor explican el 77.14% del rendimiento de la gasolina. 4) Determinar un intervalo de confianza de 95% para β1. > confint(modelo1) 2.5 % 97.5 % (Intercept) 29.75848643 36.06159556 x_1 -0.06559354 -0.04045598 x_6 -0.44102434 2.30002368 los valores son Bo 32.910041 B1 -0.053025 B6 0.929500
De acuerdo a esto El intervalo de confianza para β1 corresponde a: -0.06559354 ≤ β1 ≤ -0.04045598. En este caso el intervalo es pequeño y se mantiene el signo neg ativo, lo que es muestra de fiabilidad de la estimación del coeficiente. Por cada pulgada cúbica que se incremente la cilindrada del motor, se reduce entr e -0,06 y -0.04 el rendimiento de la gasolina, medido en milla por galón 5)Calcular el estadístico t para probar H0 : β1 = 0 y H0 : β6 = 0. ¿Qué conclusiones se pueden sacar? Call: lm(formula = y ~ x_1 + x_6) Residuals: Min 1Q Median 3Q Max -7.0456 -1.6368 -0.3348 1.6503 6.2540 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 32.910041 1.540929 21.357 < 2e-16 *** x_1 -0.053025 0.006145 -8.628 1.68e-09 *** x_6 0.929500 0.670108 1.387 0.176 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 3.021 on 29 degrees of freedom Multiple R-squared: 0.7862, Adjusted R-squared: 0.7714 F-statistic: 53.31 on 2 and 29 DF, p-value: 1.934e-10 La prueba de hipótesis para β1:Se rechaza la hipótesis nula de que la pendiente es igual a cero, a un nivel de significancia de 1%. El p valor es de 1.68e-09, la cilindra da del motor en pulgadas cúbicas tiene un impacto lineal significativo, no puede eli minarse del modelo. La prueba de hipótesis para β6, no se rechaza la hipótesis nula de que la pendient e es igual a ceroya que el p valor es de 0,176, la cantidad de gargantas del carbura dor no tiene un impacto lineal significativo en la explicación del comportamiento del rendimiento de la gasolina, podría eliminarse del modelo. 6) Determinar un intervalo de confianza de 95% para el rendimiento promedio de la gasolina, cuando x1 = 275 pulgadas cúbicas y x6 = 2 gargantas. > predict(modelo1,list(x_1=275,x_6=2),data=taller_nuevo, interval='confidence') fit lwr upr 1 20.18723 18.86839 21.50608 Colocando la variable x1 tome un valor de 275 pulgadas cúbicas y x6, 2 gargantas, el rendimiento promedio de la gasolina sería de 20,18 millas por galón, y con
intervalo de 95% de nivel de confianza, el promedio estaría entre 18.86839 y 21.50608 millas por galón. 7) Determinar un intervalo de predicción de 95% para una nueva observación de rendimiento de gasolina cuando x1 = 275 pulgadas cúbicas y x6 = 2 gargantas predict(modelo1,list(x_1=275,x_6=2),data=taller_nuevo, interval=’predict’) fit lwr upr 20.18723 13.86965 26.50482
El valor ajustado es el mismo que en el punto 6, pero el intervalo es más amplio. dado que la variable x1 tome un valor de 275 pulgadas cúbicas y x6, 2 gargantas, el intervalo de predicción de 95% para la nueva observación de rendimiento de gasolina estaría entre 13.86965 y 26.50482 millas por galón.