STATGRAPHICS – Rev. 9/14/2006
Ajustando Curva SnapStat Resumen El procedimiento Ajustando Curva SnapStat crea un resumen de una pagina que describe la relación entre un solo factor cuantitativo X y una variable dependiente Y. Cualquiera de los 27 modelos lineales y no lineales pueden ser ajustados, usando mínimos cuadrados o un procedimiento de estimación resistente. Pruebas son corridas para determinar la significancia estadística del modelo. El modelo ajustado es graficado con límites de confianza y/o limites de predicción, y los residuos son graficados también. Los cálculos realizados son un subconjunto de aquéllos realizados en el procedimiento de Regresión Simple. Aunque, la salida es ajustada a una sola pagina.
Ejemplo StatFolio: curvefitsnapstat.sgp Datos del Ejemplo: El archivo nonlin.sf3 contiene datos de clorina disponible en muestras de un producto como una función del numero de semanas desde que fue producido. Los datos, de Draper y Smith (1998), consisten de n = 44 muestras, una porción de las cuales es mostrada enseguida: Semanas 8 8 10 10 10 10 12 12 12 12 14 14 14 …
© 2005 por StatPoint, Inc.
Clorina 0.49 0.49 0.48 0.47 0.48 0.47 0.46 0.46 0.45 0.43 0.45 0.43 0.43 …
Ajustando Curva SnapStat - 1
STATGRAPHICS – Rev. 9/14/2006
Entrada de Datos La caja de dialogo de entrada requiere los nombres de las columnas que contienen la variable dependiente Y y la variable independiente X:
•
Y: columna numérica que contiene las n observaciones para la variable dependiente Y.
•
X: columna numérica que contiene los n valores para la variable independiente X.
•
Selección: Selección de un subconjunto de los datos.
© 2005 por StatPoint, Inc.
Ajustando Curva SnapStat - 2
STATGRAPHICS – Rev. 9/14/2006
Salida La salida del SnapStat consiste de una sola pagina de estadísticas graficas y numéricas. SnapStat: Ajuste de Curva
Gráfico del Modelo Ajustado Con intervalos de previsión del 99.0% Límites de Predicción 0.5
chlorine = 0.48551 - 0.00271679*weeks Estimado 0.48551 -0.00271679
Valor-P 0.0000 0.0000
0.48 chlorine
Intercepto Pendiente
Coeficiente de Correlación = -0.8651 R-cuadrada = 74.83 porciento R-cuadrado (ajustado para g.l.) = 74.23 porciento
0.44 0.42
Error Estándar Est. = 0.015385 Error Absoluto medio = 0.012834 Estadístico Durbin-Watson = 0.992081 (P=0.0001) Autocorrelación de residuos en Retraso 1 = 0.451981
0.4 0.38 0
Gráfico de Residuos chlorine = 0.48551 - 0.00271679*weeks 2.1 Rediduo Estudentizado
0.46
1.1
-1.9 0
10
20 30 weeks
40
50
Límite de Pred. Superior 99.0% 0.529959 0.501086 0.47318 0.44629 0.420398 0.39542
X 0.0 10 20 30 40 50
Predicho Y 0.48551 0.458342 0.431175 0.404007 0.376839 0.349671
Límite de Conf. Inferior 99.0% 0.469617 0.448146 0.424742 0.395954 0.363634 0.330437
Límite de Conf. Superior 99.0% 0.501404 0.468539 0.437607 0.41206 0.390044 0.368905
Gráfico de Residuos chlorine = 0.48551 - 0.00271679*weeks
0.42 0.4 0.38 0.38 0.4 0.42 0.44 0.46 0.48 0.5 predicho
© 2005 por StatPoint, Inc.
2.1 Rediduo Estudentizado
observado
0.44
50
Límite de Pred. Inferior 99.0% 0.441062 0.415599 0.389169 0.361723 0.333279 0.303921
0.5
0.46
40
Predicho Y 0.48551 0.458342 0.431175 0.404007 0.376839 0.349671
Gráfico de chlorine
0.48
20 30 weeks
X 0.0 10 20 30 40 50
0.1 -0.9
10
1.1 0.1 -0.9 -1.9 0
10
20 30 número de fila
40
50
Ajustando Curva SnapStat - 3
STATGRAPHICS – Rev. 9/14/2006
Modelo Estadístico (Izquierda superior) La parte superior izquierda de la salida muestra el modelo estadístico ajustado y estadísticas del resumen. Incluidos están: •
Modelo Ajustado: Identificación del modelo que fue ajustado. Por defecto, un modelo lineal de la forma Y=a+bX
(1)
Es ajustado, aunque un modelo diferente puede ser seleccionado usando Opciones del Análisis. •
Coeficientes: Los coeficientes estimados y P-valores que resultan de la pruebas t de las hipótesis nulas que corresponden a que el parámetro del modelo sea igual a 0. P-Valores pequeños (menores que 0.05 si se opera a un nivel de confianza del 95%) indican que un coeficiente del modelo es significativamente distinto de 0. En los datos del ejemplo, ambos intercepto y pendiente son estadísticamente significantes.
•
Estadísticas: Resumen de las estadísticas para el modelo ajustado, incluyendo: Coeficiente de correlación- Mide la fuerza de la relación lineal entre Y y X en una escala de1 (correlación lineal negativa perfecta) a +1 (correlación lineal positiva perfecta). En los datos del ejemplo, la correlación entre chlorine y weeks es relativamente fuerte, con el signo negativo indicando que la chlorine cae como las weeks crecen. R-cuadrada – Representa el porcentaje de variabilidad en Y el cual ha sido explicado por el modelo ajustado, en una escala de 0% a 100%. Para los datos del ejemplo, la regresión ha acumulado alrededor del 75% de variabilidad en las medidas de chlorine. El restante 25% es atribuido a las desviaciones alrededor de la línea, lo cual puede ser debido a otros factores, para mediar el error, o una falla del modelo lineal para ajustar los datos. R-cuadrada Ajustada – El estadístico R-cuadrada, ajustado por el número de coeficientes en el modelo. Este valor es frecuentemente usado para comparar modelos con diferente número de coeficientes. Error Estándar de Est. – la desviación estándar estimada de los residuos (la desviación estándar alrededor del modelo). Este valor es usado para crear límites de predicción para observaciones nuevas. Media del Error Absoluto – El valor absoluto promedio de los residuos. Estadístico Durbin-Watson – Una medida de la correlación serial en los residuos. Si los residuos varían aleatoriamente, este valor debería ser cercano a 2. Un P-valor pequeño indica que un patrón no aleatorio existe en los residuos. Para datos registrados en el tiempo, un Pvalor pequeño indicaría que alguna tendencia en el tiempo no ha sido tomada en cuenta. En el ejemplo actual, un P-valor pequeño es indicador de que el modelo lineal no ha ajustado bien a todos los datos, esto tan bien puede ser visto en los residuos graficados.
© 2005 por StatPoint, Inc.
Ajustando Curva SnapStat - 4
STATGRAPHICS – Rev. 9/14/2006 Lag 1 Autocorrelación Residual – la correlación estimada entre residuos consecutivos, en una escala de –1 a 1. Valores lejanos de 0 indican que una estructura significante permanece no tomada en cuenta por el modelo.
Opciones del Análisis
•
Tipo de Modelo: El modelo que será estimado. Todos los modelos mostrados pueden ser linealizados transformando X, Y, o ambos. Cuando ajustamos un modelo no lineal, STATGRAPHICS primero transforma los datos, después se ajusta el modelo, y entonces invierte la transformación para desplegar los resultados.
•
Ajuste Alternativo: Un procedimiento de estimación alternativo. Si se selecciona, un conjunto adicional de estimadores serán adheridos a la salida. Dos métodos de estimación son disponibles, ambos de los cuales son resistentes a datos atípicos: Minimizar desviaciones absolutas – Minimiza la suma de los valores absolutos de las desviaciones alrededor del modelo ajustado. Uso de medianas de 3 grupos – Usa el método de Tukey de ajustar una línea recta, en la cual los datos son divididos en 3 grupos de acuerdo al valor de X, las medianas son calculadas dentro de cada grupo, y una línea es determinada de las 3 medianas.
Los modelos disponibles son mostrados en la siguiente tabla:
© 2005 por StatPoint, Inc.
Ajustando Curva SnapStat - 5
STATGRAPHICS – Rev. 9/14/2006 Modelo Lineal
Ecuación
y = β0 + β1 x
Transformación en Y ninguna
Transformación en X ninguna
Raíz cuadrada
ninguna
Logaritmo
ninguna
reciproco
ninguna
Raíz cuadrada-Y
y = ( β0 + β1 x )
Exponencial
y = e( β0 +β1x )
Reciproco-Y
y = (β 0 + β 1 x )
Cuadrada-Y
y = β 0 + β1 x
cuadrada
ninguna
Raíz cuadrada-X
y = β0 + β1 x
ninguna
raíz cuadrada
Doble raíz cuadrada
y = β 0 + β1 x y = e (β 0 + β 1 x )
raíz cuadrada
raíz cuadrada
Logaritmo
raíz cuadrada
reciproco
raíz cuadrada
Log-Y raíz cuadrada-X
2
−1
(
(
)
2
)
−1
Reciproco-Y raíz cuadrada-X
y = β 0 + β1 x
Cuadrada-Y raíz cuadrada-X
y = β 0 + β1 x
cuadrada
raíz cuadrada
Logarítmica-X
y = β0 + β1 ln( x )
ninguna
Logaritmo
raíz cuadrada
Logaritmo
Logaritmo
Logaritmo
reciproco
Logaritmo
Raíz cuadrada-Y log-X
y = (β 0 + β 1 ln( x) )
Multiplicativa
y = β0 x β1
Reciproco-Y log-X
y=
1
2
β 0 + β 1 ln( x)
Cuadrada-Y log-X
y = β 0 + β 1 ln( x)
cuadrada
Logaritmo
Reciproco-X
y = β 0 + β1 / x
ninguna
reciproco
Raíz cuadrada-Y reciprocoX S-curve
y = (β 0 + β 1 / x )
raíz cuadrada
reciproco
Logaritmo
reciproco
Doble reciproco
y = [β 0 + β / x ]
reciproco
reciproco
Cuadrada-Y reciproco-X
y = β 0 + β1 / x
cuadrada
reciproco
Cuadrada-X
y = β 0 + β1 x 2
ninguna
cuadrada
raíz cuadrada
cuadrada
Logaritmo
cuadrada
reciproco
cuadrada
cuadrada
cuadrada
y/(1-y)
ninguna
Raíz cuadrada-Y cuadrada-X Log-Y cuadrada-X Reciproco-Y cuadrada-X Doble cuadrada
y = e( β0 + β1 / x ) −1
y = (β 0 + β 1 x 2 )
2
2 y = e (β 0 + β 1 x )
y = (β 0 + β 1 x 2 )
−1
y = β 0 + β1 x 2
Logístico
y= Log probit
© 2005 por StatPoint, Inc.
2
e( β0 + β1x )
[1 + e(
β0 + β1x )
]
y = ϕ ( β0 + β1 ln( x ))
ϕ −1 ( y )
(inv. normal)
Logaritmo
Ajustando Curva SnapStat - 6
STATGRAPHICS – Rev. 9/14/2006
Grafica del Modelo Ajustado (derecha superior) Este panel muestra el o los modelos ajustados, junto con límites de confianza y predicción. La grafica incluye: •
La línea del mejor ajuste o la ecuación de predicción:
yˆ = aˆ + bˆx
(2)
Esta es la ecuación que seria usada para predecir valores de la variable dependiente Y dados los valores de la variable independiente X. Note que hace un trabajo relativamente bueno de escoger mucha de la correlación negativa entre chlorine y weeks. •
Intervalos de Confianza para la respuesta media en X. Estos son limites internos en la grafica anterior y describen que tan buena es la localización de la línea que ha sido estimada dada la muestra de datos disponible. Así como el tamaño de la muestra n aumente, estos limites se harán mas delgados. Deberías notar que el ancho de los límites varía como una función de X, con la línea estimada más precisamente cerca del valor promedio x .
•
Limites de Predicción para nuevas observaciones. Estos son limites externos en la grafica anterior y describen que tan bien se podría predecir donde una nueva observación debería yacer. Sin importar el tamaño de la muestra, nuevas observaciones variaran alrededor de la línea verdadera con una desviación estándar igual a σ.
La inclusión de limites de confianza y predicción y su defecto nivel de confianza es determinado por lo fijado en la pestaña ANOVA/Regresión de la caja de dialogo Preferencias, accesible en el menú Editar.
Grafica de Residuos (izquierda central) La grafica en el centro izquierdo grafica los residuos de el modelo ajustado contra X. En una regresión los residuos son definidos por ei = y i − yˆ i
(3)
i.e., los residuos son la diferencia entre los valores observados y el modelo ajustado. Dependiendo de lo fijado en la pestaña ANOVA/Regresión de la caja de dialogo Preferencias, accesible en el menú Editar, tú puedes graficar cualquiera de los siguientes: 1. Residuos Ordinarios – Los residuos del ajuste de mínimos cuadrados. 2. Residuos Estandarizados – La diferencia entre los valores observados yi y los valores predichos yˆ i cuando el modelo es ajustado usando todas las observaciones excepto la iesima, dividida por el error estándar estimado. Los residuos son algunas veces llamados residuos borrados externamente, ya que ellos miden que tan lejos este cada valor del modelo ajustado, cuando este modelo es ajustado usando todos los datos excepto los puntos que son considerados. Esto es importante, ya que un dato atípico grande puede afectar el modelo de tal forma que no parecería un valor inusual. © 2005 por StatPoint, Inc.
Ajustando Curva SnapStat - 7
STATGRAPHICS – Rev. 9/14/2006
Pronósticos (derecha central) La tabla en el centro derecho muestra predicciones del modelo ajustado en los valores seleccionados de X. Incluidos en la salida están: •
X – El valor de la variable independiente en el cual la predicción será hecha.
•
Y Predicha- El valor predicho de la variable dependiente usando el modelo ajustado.
•
Limites de Predicción- Limites de predicción para nuevas observaciones en el nivel de confianza seleccionado (corresponde a los limites exteriores de la grafica del modelo ajustado).
•
Limites de Confianza- Limites de confianza para el valor medio de Y en el nivel de confianza seleccionado (corresponde a los limites interiores de la grafica del modelo ajustado).
Por ejemplo, en X = 30 weeks, la mejor predicción de la cantidad media chlorine disponible es 0.404, aunque esto podría ser fácilmente cualquiera entre 0.396 y 0.412. Adicionalmente, uno podría predecir con un 95% de confianza que cualquier muestra después de 30 de producida caería entre 0.362 y 0.446.
Observado contra Predicho (izquierda inferior) La parte inferior izquierda muestra una grafica de los valores observados de Y contra los valores predichos por el modelo ajustado. Si el modelo ajusta bien, los puntos deberían estar aleatoriamente esparcidos alrededor de la línea diagonal. Algunas veces es posible ver curvatura en esta gráfica, lo cual indicaría la necesidad de un modelo curvilíneo en lugar de uno lineal. Cualquier cambio en la variabilidad de valores pequeños de X a valores grandes de X puede también indicar la necesidad de transformar la variable dependiente antes de ajustar el modelo. En la grafica anterior, la variabilidad parece ser bastante constante. Aunque, alguna evidencia de curvatura es presente.
Residuos Contra Número de Renglón (derecha inferior) La parte derecha inferior muestra una grafica de observaciones contra numero de renglón el la hoja de datos. Cualquier patrón no aleatorio indicaría un factor inexplicable en los datos. Esto podría ser debido a tendencias en el tiempo (si los datos están en orden secuencial) o la necesidad de un modelo curvilíneo (si la hoja de datos esta ordenada por X.
Cálculos Para detalles en los cálculos realizados, ver la documentación de Regresión Simple.
© 2005 por StatPoint, Inc.
Ajustando Curva SnapStat - 8