GUÍA DE LABORATORIO 1 TEMA: MUESTREO PROBABILÍSTICO
Contenido teórico:
Muestreo Aleatorio Simple
Muestreo Aleatorio Sistemático
Muestreo Aleatorio Estratificado
Todas las aplicaciones se realizarán en base al archivo de datos Employee data.sav, disponible en el archivo de instalación del SPSS.
Muestreo Aleatorio Simple Archivo de datos Employee data.sav :
Observe que en este archivo se han registrado 474 observaciones para un total de 10 variables. Puede solicitar un reporte de frecuencias para alguna variable de interés, como por ejemplo Categoría laboral (catlab)
2
Ejercicio 1. Seleccione una muestra aleatoria simple de 50 empleados Para ello debe seguir los pasos siguientes: Datos → Seleccionar casos
Por defecto siempre estarán activos Todos los casos. Elija Muestra aleatoria de casos, haga clik en el botón Ejemplo …
3
Importante: En la ventana anterior note que: por defecto se encuentra activa, en el recuadro inferior de Resultado, la opción: Descartar casos no seleccionados. Esto permite realizar la selección sin eliminar el caso no seleccionado.
En seguida se muestra la siguiente ventana en la que usted puede solicitar al programa seleccione aproximadamente cierto porcentaje de casos, conocidos también como registros u observaciones, para la muestra.
También puede solicitar al programa la selección de un número exacto de casos o registros. Para nuestro caso utilizaremos esta opción para solicitar que seleccione exactamente 50 observaciones de los primeros 474 casos.
En esta selección se obtuvo una muestra en la que se ha seleccionado las observaciones 9, 10, 12 y otras. Observe que el programa tacha con una línea oblicua la observación que NO ha sido seleccionada. Además, ha generado una variable Filtro (filter_$) en la última columna en la que ha asignado el código 0 a las observaciones que no han sido seleccionadas y 1 a las que sí han sido seleccionadas.
4
Si usted vuelve a solicitar un reporte de frecuencias para la variable catlab, observará que ahora solo son consideradas las 50 observaciones que han sido seleccionadas.
Observación:
Cualquier análisis que usted solicite se efectuará solamente sobre las 50 observaciones seleccionadas.
Las observaciones que no han sido seleccionadas no se han perdido, simplemente por ahora no se encuentran disponibles.
Si desea reestablecer todo el archivo de datos debe hacer lo siguiente: Datos → Seleccionar casos → Todos los casos
5
Observe que ahora ya no se encuentran tachados los números correspondientes a cada caso. Nuevamente tenemos disponibles TODOS los casos, a pesar que la variable filter_$ permanezca. Es muy frecuente observar que quienes se inician en el manejo de esta herramienta olvidan reestablecer toda la data y luego obtienen resultados solo de la última muestra seleccionada.
6
Muestreo Aleatorio Sistemático La aplicación del muestreo sistemático se hará siempre sobre el mismo archivo de datos Employee data.sav :
Ejercicio 2. Seleccione una muestra aleatoria sistemática de 50 empleados Recuerde que para l aplicación de un muestreo sistemático debemos determinar el valor de K correspondiente al salto sistemático o período de selección.
K
N 474 9,48 K 9 n 50
Luego, de los primeros 9 registros del archivo de datos seleccionaremos uno, aplicando el mismo procedimiento del muestreo aleatorio simple, a este elemento seleccionado se le conoce como punto de arranque que se le puede denotar como A. Posteriormente debemos seleccionar a partir de A, incluyendo A, cada 9 registros uno para la muestra hasta completar los 50 registros solicitados para la muestra. Por ejemplo: si A = X7 este sería el primer elemento seleccionado. Luego seleccionamos: X16 , X25 , X34 , … , X439 , X448 Para lograr esto con ayuda del SPSS, se debe seguir los pasos siguientes: Elección del Punto de Arranque. Aplicaremos un muestreo aleatorio simple para seleccionar un caso de los primeros nueve registrados en el archivo de datos. Datos → Seleccionar casos → Muestra aleatoria de casos
7
En nuestro caso se ha seleccionado como Punto de arranque el caso 7: A = X7
Ahora viene la parte más importante para la selección automática de los siguientes elementos de la muestra. Primero recuperamos la selección de Todos los casos 8
Luego elegimos la opción condicional para la selección de casos.
9
Al hacer picar en el botón Sí la op… se mostrará la siguiente ventana, que ofrece una serie de funciones dentro del Grupo de funciones
10
Dentro del Grupo de funciones Aritméticas podemos encontrar la función Mod (Módulo) que como señala el cuadro explicativo permite determinar el resto o residuo de dividir una expresión numérica entre el módulo.
Para subir la función elegida picamos en la flecha
Luego debemos indicar para cada signo de interrogación lo que mostramos en el siguiente cuadro. 11
Tenga en cuenta que: id: es el código del empleado asignado en el archivo de datos K = 9 : es el periodo de selección o salto sistemático A = 7 : es el punto de arranque n = 50 : es el tamaño de la muestra
12
Lo que se busca en la primera expresión es encontrar los registros cuya división con el valor de K nos de residuo CERO. La segunda expresión busca establecer un tope hasta donde se debe verificar estos cocientes. Dado que el valor de K, al ser redondeado al menor entero, suele ocasionar que sobren casos para realizar más selecciones, esta segunda expresión evitará que se tomen más observaciones que las establecidas para la muestra. Observe que: Si id = 1 1 + (9 – 7) entre 9 no muestra resto CERO el registro 1 no será seleccionado …… Si id = 7 7 + (9 – 7) entre 9 si muestra resto CERO el registro 7 si será seleccionado …… Si id = 447 447 + (9 – 7) entre 9 no muestra resto CERO el registro 447 no será seleccionado Si id = 448 448 + (9 – 7) entre 9 si muestra resto CERO el registro 448 si será seleccionado Picamos en: Continuar Aceptar
13
Observe en el cuadro siguiente que el primer registro seleccionado corresponde al punto de arranque A = X7 seguido del X7 + 9 = X16
Observe que los dos últimos casos seleccionados son precisamente: X439 y X448
Muestreo Aleatorio Estratificado Recuerde que para l aplicación de esta técnica de muestreo debemos separar la población en sub-poblaciones homogéneas. En nuestro caso generaremos un archivo 14
para cada estrato. El archivo de datos ha utilizar sigue siendo Employee data.sav. No olvide que primero debe observar que tenga todos los casos del archivo disponibles.
Ejercicio 3. Seleccione una muestra aleatoria estratificada de 50 empleados con asignación proporcional a la categoría laboral. Dado que la muestra se desea asignar proporcionalmente a la categoría laboral podemos solicitar una tabla de frecuencias para esta variable y así conocer el tamaño de cada estrato
En seguida hacemos los cálculos para la determinación del tamaño de muestra para cada estrato (categoría laboral) Categoría Laboral Administrativo Seguridad Directivo Total
Frecuencia Proporción 363 27 84 474
,7658 ,0570 ,1772 1,0
ni = ( Ni / N ) * n 38 3 9
38,3 2,8 8,9 50
Para la conformación de los estratos hacemos uso de la selección condicional: Datos → Seleccionar casos → Si se satisface la condición → Si la op…
15
Seleccionamos la variable catlab y la igualamos a 1 esto permitirá seleccionar todos los casos cuya categoría laboral sea Administrativo (1). Algo muy importante con el Resultado, ahora solicitaremos que Copie los casos seleccionados a un nuevo conjunto de datos que llamaremos Administrativo, obteniendo de esta manera nuestro primer estrato.
16
El resultado será un nuevo archivo de datos que considera solo los 363 casos correspondientes a Administrativos.
Repetimos el procedimiento anterior para generar el segundo y tercer estrato que llamaremos respectivamente: Seguridad (catlab = 2) y Directivo (catlab = 3) 17
18
Observe que hasta aquí se ha logrado conformar el estrato que llamaremos Seguridad que cuenta con 27 casos registrados.
19
Tenemos el estrato llamado Directivo conformado por 84 casos. Muestra por estrato. Ahora estamos en condición de aplicar un muestreo aleatorio simple por cada estrato, seleccionando el número de observaciones calculado al inicio. 20
ADMINISTRATIVO
21
Ahora puede hacer uso de la tercera opción de Resultados: Eliminar casos no seleccionados
Es importante que esté conciente que al elegir esta opción los casos no seleccionados serán eliminados sin posibilidad de volverles a recuperar.
22
Observe que el archivo correspondiente a la muestra seleccionada del estrato de Administrativos cuenta con 38 casos.
SEGURIDAD Del estrato Seguridad seleccionaremos con una muestra aleatoria simple de 3 de los 27 casos
No olvide elegir en Resultados la opción de Eliminar casos no seleccionados. El resultado debe ser un archivo correspondiente a Seguridad reducido a 3 casos.
23
DIRECTIVO Si hacemos lo propio para el estrato de Directivos lograremos obtener este archivo reducido a 9 casos de los 84 que muestra inicialmente.
Finalmente puede unir los tres archivos en uno solo teniendo la muestra total de 50 registros
24
Solicite un reporte de frecuencias para este último archivo
25
Este resultado confirma que la muestra ha sido seleccionada conforme se ha solicitado, respetando la asignación proporcional a la categoría laboral.
26
GUÍA DE LABORATORIO 2 TEMA: INTERVALOS DE CONFIANZA Y PRUEBA DE HIPÓTESIS
Contenido Teórico
Intervalo de Confianza y Prueba de Hipótesis para la media poblacional (µ) cuando la varianza poblacional (2) es desconocida
Intervalo de Confianza y Prueba de Hipótesis para la diferencia de medias poblacionales (µ1- µ2) de muestras independientes
Intervalo de Confianza y Prueba de Hipótesis para la diferencia de medias poblacionales (D) de muestras relacionadas
Introducción
El SPSS facilita la obtención de: intervalos de confianza, el valor calculado de la prueba estadística y p-valor para evaluar los siguientes parámetros:
Parámetro Media poblacional (µ)
Intervalos de Confianza
Pruebas de Hipótesis
√
√
Razón de varianzas poblacionales
2 1
22
√
Diferencia de medias poblacionales de muestras independientes (µ1-µ2)
√
√
Diferencia de medias poblacionales de muestras relacionadas (D)
√
√
Antes de iniciar el uso del programa para este tema, cabe indicar lo siguiente:
El SPSS asume siempre (ya sea para analizar uno o dos poblaciones) que las muestras provienen de poblaciones infinitas. Es decir, no considera en sus cálculos el factor de corrección de poblaciones finitas (f.c.p.f.). Para el caso de una media poblacional y dos medias poblacionales solo analiza el caso cuando la varianza poblacional es desconocida. Es decir, siempre usa la distribución T tanto para obtener los estadísticos de prueba como los intervalos de confianza. Para el caso de pruebas de diferencia de medias poblacionales de muestras independientes o muestras relacionadas solo realiza la hipótesis cuando el valor hipotético es igual a cero. La prueba de hipótesis para la razón de varianzas poblacionales lo realiza mediante la prueba de Levene y no mediante la prueba F de Fisher. El p-valor solo lo obtiene para pruebas de tipo bilateral, por lo que se debe tener mucho cuidado si se quiere utilizar estos valores en casos unilaterales.
26
Conceptos El p – valor (o sig) Cuando se interpretan los reportes en pruebas de hipótesis, las conclusiones están basadas en una regla de decisión; ésta se establece tendiendo en cuenta el riesgo que asume el investigador de cometer un error de tipo I, siendo la probabilidad de este error el nivel de significación α. Pero en algunas ocasiones, sin embargo, la decisión a tomar puede realizarse con un nivel de significación diferente, con lo cual seria útil conocer que tipo de decisión se puede adoptar según el nivel de significación real de una prueba basándose en los datos observados. Este concepto actuará como contrapuesto al nivel de significación elegido antes de realizar la prueba. p-valor: probabilidad que, bajo H0 el estadístico de contraste tome un valor al menos tan alejado como el realmente obtenido. Cuanto más pequeño sea el p-valor mayor es la evidencia en contra de H0.
Intervalo de Confianza y Prueba de Hipótesis para la media poblacional (µ) cuando la varianza poblacional (2) es desconocida El acceso se realiza mediante la siguiente secuencia
Analizar → Comparar medias → Prueba T para una muestra.
Ejemplo1 27
Los conductores metálicos o tubos huecos se usan en el cableado eléctrico. En una prueba de tubos de una pulgada, se obtuvieron los datos siguientes respecto del diámetro exterior (en pulgadas).
1,281 1,288 1,292 1,289 1,291 1,293 1,293 1,291 1,289 1,288 1,287 1,291 1,290 1,286 1,289 1,286 1,295 1,296 1,291 1,286
Suponga que el diámetro exterior se distribuye normalmente.
a) Determine un intervalo del 90% de confianza para la media del diámetro exterior. Solución: Ingresamos a la opción indicada anteriormente y pasamos la variable del recuadro de la izquierda al de la derecha, utilizando el botón
de la siguiente manera:
Como se puede apreciar el recuadro con el nombre Valor de prueba no se ha considerado en este procedimiento, pues su utilidad es en las pruebas de hipótesis.
Dado que desea un intervalo al 90% de confianza se debe dar un clic en el botón Opciones con lo cual aparecerá la siguiente ventana
28
y allí se debe indicar el nivel de confianza, posteriormente dar clic en Continuar para volver a la ventana principal. Al hacer clic en aceptar obtenemos: Estadísticos para una muestra N Diámet ro exterior
20
Media 1.28960
Desv iación típ. .003500
Error típ. de la media .000783
Estimación puntual de la media
Prueba para una muestra Valor de prueba = 0
Diámetro exterior
t 1647.613
gl 19
Sig. (bilateral) .000
Dif erencia de medias 1.289600
90% Interv alo de conf ianza para la dif erencia Inf erior Superior 1.28825 1.29095
Límite inferior de confianza de la media Límite superior de confianza de la media
Según este resultado el intervalo de confianza para la media se encuentra en el rango de 1,288; 1,291 Tenemos un 90% de confianza de que el intervalo 1,288; 1,291 contenga al al diámetro medio poblacional de los conductores metálicos usados en el cableado eléctrico
b) Pruebe la hipótesis de que la longitud media del diámetro exterior es de 1,29 pulgadas. Use un nivel de significación de 0,05
Solución:
Para probar la hipótesis de que la longitud media del diámetro exterior es de 1,29 procedemos de la misma manera que en la parte a)
29
Las hipótesis a contrastar son: H 0 : 1,29 H1 : 1,29
= 0,05.
Procedimiento:
Observe que en el recuadro Valor de prueba se ha digitado 1,29 es decir se ha considerado el valor hipotético. A pesar que nos indiquen que se utiliza un nivel de significación de 0,05 este no es ingresado en la ventana de Opciones como si ocurrió en el intervalo de confianza. Al hacer clic en el botón aceptar obtenemos:
Estadísticos para una muestra Error típ. de la N Diámetro exterior (en pulgadas)
Media 20
Desviación típ.
1,28960
,003500
media ,000783
Como H 0 : 1,29 frente a H1 : 1,29 se trata por tanto de una prueba de hipótesis Prueba para una muestra
de dos colas (bilateral), el estadístico de prueba toma el valor -0,511. En este caso no Valor de prueba = 1.29 podemos rechazar la hipótesis nula, el valor p de 0,615 es mayor que el nivel de 90% Interv alo de significación de 0,10. conf ianza para la Diámetro exterior
t -.511
gl 19
Sig. (bilateral) .615
Dif erencia de medias -.000400
dif erencia Inf erior Superior -.00175 .00095
30
Bajo un nivel de significación del 10% concluimos que la longitud media del diámetro exterior de los tubos usados en el cableado eléctrico es de 1,29 pulgadas Valor de la estadística de prueba
El criterio de decisión se basa en la comparación de esta probabilidad con el nivel de significación de la prueba
Observación: Puede calcularse el intervalo de confianza de la media sumando a la media hipotética los valores -0,00175 y 0,00095 de la tabla anterior y obtenemos el mismo resultado que en la parte a) Cuando la prueba de hipótesis es de una sola cola se debe observar el signo del tcalculado Si el t calculado es negativo: El sig de una prueba unilateral izquierda es sig/2; y el sig de una prueba unilateral derecha es 1-sig/2. Si el t calculado es positivo: El sig de una prueba unilateral izquierda es 1-sig/2; y el sig de una prueba unilateral derecha es sig/2.
Por ejemplo si se quieren hacer las siguientes hipótesis H 0 : 1, 29 H1 : 1, 29
Sig = 0,615/2 = 0,3075
y
H 0 : 1, 29 H1 : 1, 29
Sig = 1- 0,615/2 = 0,6925
31
Intervalo de Confianza y Prueba de Hipótesis para la diferencia de medias poblacionales (µ1- µ2) cuando las varianzas poblacionales son desconocidas y las muestras provienen de poblaciones independientes.
El acceso se realiza mediante la siguiente secuencia Analizar → Comparar medias → Prueba T para una muestras independientes
Ejemplo 2.
Se piensa que el rendimiento de combustible en un modelo específico de automóvil sería más alto si se utiliza gasolina sin plomo Premium que con la gasolina sin plomo Normal. A fin de recopilar datos para sustentar esta afirmación, se selecciona en forma aleatoria 10 vehículos de una línea de montaje y se prueban con una marca especifica de gasolina Premium, además de seleccionar al azar otros 10 y probarlos con la de gasolina Normal. Las pruebas se realizan bajo condiciones controladas idénticas. Los datos resultantes son los siguientes:
Premium
35,0
34,5
31,6
32,4
34,8
31,7
35,4
35,3
36,6
36,0
Normal
40,0
29,6
32,1
35,4
34,0
34,8
34,6
34,8
32,6
32,2
34.5 Suponga que el rendimiento de combustible se distribuye normalmente
32
a) Determine e interprete un intervalo del 99% de confianza para la diferencia promedio poblacional del rendimiento de la gasolina sin plomo Premium y de la gasolina sin plomo Normal Solución: Comenzamos introduciendo los datos en el editor Vista de datos del SPSS creando dos variables (columnas): en la primera columna se deben ingresar todos los datos de los rendimientos de los dos tipos de gasolinas y en la segunda columna se debe ingresar códigos que identifiquen el tipo de gasolina: 1: gasolina sin plomo Premium (deben existir tantos 1 como repeticiones tiene el tipo de gasolina sin plomo Premium) y 2: gasolina sin plomo normal (deben existir tantos 2 como repeticiones tiene el tipo de gasolina sin plomo Normal) Ingresamos a la opción indicada anteriormente y pasamos los datos de la columna 1 al recuadro de Variables para contrastar y los datos de la columna 2 al recuadro de Variable de agrupación, de la siguiente manera:
En Variable de agrupación se debe definir los códigos de los grupos que se desean comparar. Para definir los códigos se ingresa el al botón Definir grupos y posteriormente se da un clic en el botón Continuar:
33
Como nos piden un intervalo del 99% de confianza dar un clic al botón Opciones para definir ahí el nivel de confianza.
Los resultados obtenidos se presentan a continuación:
Estadísticos de grupo
Rend
Tipo_gas Gasolina sin plomo premium Gasolina sin plomo normal
N
Desv iación típ.
Media
Error típ. de la media
10
34.370
1.8105
.5725
10
33.980
2.6720
.8450
Prueba de muestras independientes Prueba de Lev ene para la igualdad de v arianzas
F Rend
Se han asumido v arianzas iguales No se han asumido v arianzas iguales
0,535 >0,01: No se rechaza la hipótesis nula de varianzas iguales
Sig. .401
.535
Prueba T para la igualdad de medias
t
gl
Sig. (bilateral)
Dif erencia de medias
Error típ. de la dif erencia
99% Interv alo de conf ianza para la dif erencia Inf erior Superior
.382
18
.707
.3900
1.0207
-2.5479
3.3279
.382
15.825
.707
.3900
1.0207
-2.5955
3.3755
Límite inferior de confianza para la diferencia de medias asumiendo varianzas iguales
Límite Superior de confianza para la diferencia de medias asumiendo varianzas iguales
Podemos apreciar que el SPSS nos brinda los resultados para varianzas desconocidas asumiendo varianzas iguales y diferentes. Para determinar cual de los dos intervalos es el correcto debemos utilizar la Prueba de Levene y comparar el Sig =0.535 de la Prueba de Levene con el α. Como en este caso el sig> α asumimos los resultados obtenidos para varianzas homogéneas 34
La interpretación para el intervalo sería la siguiente: Existe un 99% de confianza de que el intervalo -2,5479; 3,3279 contenga la diferencia media poblacional del rendimiento medio de la gasolina sin plomo Premium y de la gasolina sin plomo Normal.
b) Realice una prueba de hipótesis para comparar la media de rendimiento de combustible con esas dos gasolinas. Use un nivel de significación del 1%. Interprete los resultados en el contexto del problema. En este caso aprovechamos el reporte anterior para dar respuesta a la siguiente hipótesis:
H 0 : P2 N2 H 1 : P2 N2 De igual manera que para intervalos de confianza, para determinar si las varianzas son homogéneas o no, debemos hacer uso del Sig =0.535 de la Prueba de Levene y compararlo con el α. Como en este caso el sig> α asumimos los resultados obtenidos para varianzas homogéneas Para evaluar la hipótesis de interés
H0 : P N H1 : P N α =0,01 Prueba de muestras independientes Prueba de Lev ene para la igualdad de v arianzas
F Rend
Se han asumido v arianzas iguales No se han asumido v arianzas iguales
Valor del estadístico de prueba cuando las varianzas son similares
Sig. .401
.535
Prueba T para la igualdad de medias
t
gl
Sig. (bilateral)
Dif erencia de medias
Error típ. de la dif erencia
99% Interv alo de conf ianza para la dif erencia Inf erior Superior
.382
18
.707
.3900
1.0207
-2.5479
3.3279
.382
15.825
.707
.3900
1.0207
-2.5955
3.3755
p = 0,707 >0,01: No se rechaza la hipótesis nula de medias iguales
35
Conclusión: Bajo un nivel de significación del 1% concluimos que los rendimientos medios de ambos tipos de gasolinas no son diferentes.
Intervalo de Confianza y Prueba de Hipótesis para la diferencia de medias poblacionales (D) de muestras relacionadas El acceso se realiza mediante la siguiente secuencia Analizar → Comparar medias → Prueba T para una muestras relacionadas
Ejemplo 3. Se realizó un estudio para determinar si el nivel de exportación (en miles de $) de 10 exportadores de espárragos ha variado. Se recolectó la siguiente información:
Exportador Año 1
2
3
4
5
6
7
8
9
10
2006
17,5
17,2
15,8
16,2
17,4
15,8
17,7
17,6
18,3
18.0
2007
19,2
17,4
16.0
18,1
17.0
16,3
18,3
16,4
18.0
19,2
Suponga que el nivel de exportación se distribuye normalmente
a) Determine e interprete un intervalo del 95% de confianza para la diferencia promedio del nivel de exportación en el periodo 2006-2007
36
Solución: Comenzamos introduciendo los datos de cada año en dos columnas diferentes en el editor Vista de datos del SPSS. Ingresamos a la opción indicada anteriormente y pasamos los datos de cada columna en los recuadros con encabezado Variable1 y Variable2. Esta versión del SPSS permite hacer varias comparaciones a la vez.
Si quiere hacer la diferencia del segundo grupo menos el primer grupo puede hacer uso del botón
Los resultados obtenidos se presentan a continuación:
Estadísticos de muestras relacionadas
Media
Par 1
N
Desviación típ.
Error típ. de la media
año1
17,1300
10
,90068
,28482
año2
17,5900
10
1,15993
,36680
Correlaciones de muestras relacionadas N Par 1
año1 y año2
Correlación 10
,590
Sig. ,073
37
Prueba de muestras relacionadas Diferencias relacionadas 95% Intervalo de confianza para la diferencia Media Par 1 año1 - año2
-,46000
Desviación
Error típ. de la
típ.
media
,96171
,30412
Sig. Inferior -1,14797
Superior ,22797
t -1,513
gl 9
El intervalo del 95% confianza que va de [-1,14797; 0,22797] brinda un 95% de confianza de contener a la diferencia de medias de los niveles de exportación en el periodo 2006-2007
c) Realice una prueba de hipótesis para comparar si el nivel de exportación se ha mantenido igual. Use un nivel de significación del 1%. Interprete los resultados en el contexto del problema. Para evaluar la hipótesis de interés
H0 : D 0 H1 : D 0 α =0,01 sig = 0,165 > no se rechaza H0.
Conclusión Existe suficiente evidencia estadística a un nivel de significación de 0,05 para no rechazar H0. Por lo tanto no podemos afirmar que los niveles de exportación han variado.
38
(bilateral) ,165
GUÍA DE LABORATORIO 3 TEMA: ANÁLISIS DE VARIANZA
39
ANÁLISIS DE VARIANZA DE UNA VÍA DISEÑO COMPLETO AL AZAR 1) Un exceso de ozono en el aire es señal de contaminación. Se tomaron seis muestras de aire en cada uno de cuatro sitios industriales y se determinó el contenido de ozono. Las concentraciones de ozono (en partes por millón) se presentan en la siguiente tabla.
Nº 1 2 3 4 5 6
I 0,08 0,10 0,09 0,07 0,09 0,06
Sitios II 0,15 0,09 0,11 0,10 0,08 0,13
III 0,13 0,10 0,15 0,09 0,09 0,17
IV 0,05 0,11 0,07 0,09 0,11 0,08
Creación del archivo En la ventana de Vista de variables: genere las variables: ozono y sitio. Los valores de la variable sitio deben estar codificadas de la siguiente forma:
Digite los datos en Vista de datos.
40
a) ¿Los datos proporcionan prueba suficiente que indiquen diferencias en el contenido medio de ozono entre los cuatro sitios? Use 0,05 .
En Dependientes: Ingrese la variable Ozono. En Factor: Ingrese la variable Sitio.
41
b) Verifique el supuesto de homogeneidad de varianzas. Use 0,05 .
c) A partir de los resultados de (a), use las pruebas de Duncan y DMS para probar
diferencias en los contenidos de concentraciones de ozono de los diferentes sitios. Use 0,05 . Para ello, en la ventana de Post hoc, seleccione las pruebas solicitadas.
42
Los resultados obtenidos se muestran a continuación: ANOVA de un factor
Con relación a la pregunta (b), verifique el supuesto de homogeneidad de varianzas. Use 0,05 . Las hipótesis a formular son: H0: Las varianzas del contenido de ozono entre los cuatro sitios son iguales H1: Al menos una varianza diferente al resto de los lugares.
Como sig =0,151 > 0,05 , entonces no se rechaza el supuesto de homogeneidad de las varianzas.
Con relación a la pregunta (a), ¿los datos proporcionan prueba suficiente que indiquen diferencias en el contenido medio de ozono entre los cuatro sitios? Use α=0,05.
Las hipótesis a formular son: H0: No hay diferencias en el contenido medio de ozono entre los cuatro sitios H1: Sí hay diferencias en el contenido medio de ozono entre los cuatro sitios
Como sig =0.035 < 0,05 , entonces se concluye que sí hay diferencias en el contenido medio de ozono entre los cuatro sitios.
43
Pruebas post hoc
Subconjuntos homogéneos Gráfico de las medias
Una limitación de esta forma de acceso a la prueba, es que no permite obtener los residuos del modelo que se establece en el análisis, en consecuencia no podemos realizar la verificación del supuesto de Normalidad de los errores. Por ello mostraremos otra forma de ingreso a la prueba: Analizar – Modelo lineal general - Univariante
44
Seleccionamos la variable de Dependiente (Concentración de ozono) y el Factor (Sitio) lo ubicamos como Factor Fijo.
Luego en Post hoc, seleccionamos el Factor Sitio y lo trasladamos al campo de Contrastes post hoc. Activamos las pruebas de DMS y Duncan
45
Continuamos y vamos a Guardar, en donde activaremos los Residuos Estandarizados
Continuamos y vamos a Opciones, para solicitar la Prueba de homogeneidad. Aquí encontramos el nivel de significación para las pruebas de Duncan, así que es importante observar con que nivel de significación se está realizando el estudio.
46
Los resultados que se obtienen son los siguientes:
Análisis de varianza univariante
47
Pruebas post hoc Sitio
Subconjuntos homogéneos
48
Hasta aquí no se ha presentado ninguna salida que permita evaluar la Normalidad de los Residuos, sin embargo en el archivo correspondiente a vista de datos podemos observar que aparece una nueva columna denominada RES_1 que corresponden a los Residuos de la variable en estudio
Aplicamos la Prueba no paramétrica de K-S de una muestra
49
Seleccionamos la variable Residuo para Concentración de ozono y la tomamos como variable a contrastar
Obtenemos como resultado la tabla correspondiente a la Prueba de Kolmogorov – Smirnov para una muestra de la variable Residuo para Concentración.
50
DISEÑO FACTORIAL: ANOVA DE DOS VÍAS Se condujo un experimento para determinar si la temperatura del fuego o la posición en el horno afectan la densidad de endurecimiento de un ánodo de carbón. Los datos son los siguientes:
Posición
1
2
800 570 565 583 528 547 521
Temperatura (Cº) 825 1063 1080 1043 988 1026 1004
850 565 510 590 526 538 532
Analice los datos al nivel de significación de 0.05. Solicitando el análisis para el diseño factorial
51
En Variable dependiente: colocar densidad En factores fijos: posición y temperatura
Dar click en Modelo
En modelo
Solicitar los gráficos de perfil
52
En la primera pantalla, dar clic en Opciones y solicitar el análisis para verificar la homogeneidad de varianzas. También solicite las estimaciones para las medias marginales.
Para obtener las comparaciones múltiples, en la primera pantalla dar click en Post Hoc y seleccionar DMS (en inglés LSD) y la prueba de Duncan.
53
Para estimar los residuales, siga el procedimiento siguiente:
54
yijk yij. y ij.
Salidas
Análisis de varianza univariante
Factores inter-sujetos
Temperatura
Posición
800 825 850 1 2
Eti queta del valor 800 °C 825 °C 850 °C Posición 1 Posición 2
N 6 6 6 9 9
55
a Contraste de Levene sobre la igualdad de las varianzas error
Variable dependiente: Densidad F 2.572
gl1
gl2 5
12
Signif icación .084
Contrasta la hipótesis nula de que la v arianza error de la v ariable dependiente es igual a lo largo de todos los grupos. a. Diseño: Intersección+Temperatura+Posición+Temperat ura * Posición
Pruebas de los efectos i nter-sujetos Variable dependient e: Densidad
Fuente Modelo corregido Intersección Temperatura Posición Temperatura * Posición Error Total Total corregida
Suma de cuadrados tipo III 953320.278a 9072380.056 945342.111 7160.056 818.111 5370.667 10031071.0 958690.944
gl 5 1 2 1 2 12 18 17
Media cuadrática 190664.056 9072380.1 472671.056 7160.056 409.056 447.556
F 426.012 20270.958 1056.117 15.998 .914
Signif icación .000 .000 .000 .002 .427
a. R cuadrado = .994 (R cuadrado corregida = . 992)
Medias marginales estimadas
1. Media global Variable dependiente: Densidad Media 709.944
Error típ. 4.986
Intervalo de confianza al 95%. Lí mite inferior Lí mite superior 699.080 720.809
2. Temperatura
Estimaciones Variable dependiente: Densi dad Temperatura 800 °C 825 °C 850 °C
Media 552.333 1034.000 543.500
Error típ. 8.637 8.637 8.637
Intervalo de confianza al 95%. Lí mite inferior Lí mite superior 533.516 571.151 1015.182 1052.818 524.682 562.318
56
Comparaciones por pares Variable dependiente: Densidad
(I) Temperat ura 800 °C 825 °C 850 °C
Diferenci a ent re medias (I-J) -481.667* 8.833 481.667* 490.500* -8.833 -490.500*
(J) Temperat ura 825 °C 850 °C 800 °C 850 °C 800 °C 825 °C
Error típ. 12.214 12.214 12.214 12.214 12.214 12.214
Intervalo de confianza al 95 % a para la di ferencia a Significación Lí mite inferior Lí mite superior .000 -508.279 -455.054 .483 -17.779 35.446 .000 455.054 508.279 .000 463.888 517.112 .483 -35.446 17.779 .000 -517.112 -463.888
Basadas en las medias marginales estimadas. *. La diferenci a de las medias es significativa al nivel .05. a. Ajust e para comparaciones múltiples: Diferencia menos significat iva (equivalente a la ausenci a de ajust e).
Contrastes univariados Variable dependiente: Densidad Suma de cuadrados Contraste 945342.111 Error 5370.667
gl 2 12
Media cuadrática 472671.056 447.556
F 1056.117
Significación .000
Cada prueba F contrasta el efecto si mple de Temperatura en cada combinación de niveles del rest o de los efect os mostrados. Est os contrastes se basan en las comparaciones por pares, linealmente independi entes, ent re las medias marginales estimadas.
3. Posición
Estimaciones Variable dependiente: Densidad Posición Posición 1 Posición 2
Media 729.889 690.000
Error típ. 7.052 7.052
Intervalo de confianza al 95%. Lí mite inferior Lí mite superior 714.524 745.254 674.635 705.365
Comparaciones por pares Variable dependiente: Densidad
(I) P osición Posición 1 Posición 2
(J) P osición Posición 2 Posición 1
Diferenci a ent re medias (I-J) 39.889* -39.889*
Error típ. 9.973 9.973
Interval o de confianza al 95 % a para la di ferencia a Significación Límite i nferior Límite superior .002 18.160 61.618 .002 -61.618 -18.160
Basadas en las medias marginales estimadas. *. La diferencia de las medias es si gni fi cativa al nivel .05. a. Ajust e para comparaci ones múltiples: Diferencia menos significativa (equivalente a l a ausencia de ajuste).
57
Contrastes univariados Variable dependiente: Densidad
Contraste Error
Suma de cuadrados 7160.056 5370.667
gl 1 12
Media cuadrática 7160.056 447.556
F 15.998
Significación .002
Cada prueba F contrasta el efecto si mple de Posi ción en cada combi nación de nivel es del resto de los efectos mostrados. Estos contrastes se basan en las comparaciones por pares, li nealmente independientes, entre las medias marginal es estimadas.
4. Temperatura * Posición Variable dependiente: Densi dad Temperatura 800 °C 825 °C 850 °C
Posición Posición 1 Posición 2 Posición 1 Posición 2 Posición 1 Posición 2
Media 572.667 532.000 1062.000 1006.000 555.000 532.000
Error típ. 12.214 12.214 12.214 12.214 12.214 12.214
Intervalo de confianza al 95%. Lí mite inferior Lí mite superior 546.054 599.279 505.388 558.612 1035.388 1088.612 979.388 1032.612 528.388 581.612 505.388 558.612
Pruebas post hoc
Temperatura Comparaciones múltiples Variable dependiente: Densidad
DMS
(I) Temperatura 800 °C 825 °C 850 °C
(J) Temperatura 825 °C 850 °C 800 °C 850 °C 800 °C 825 °C
Diferencia entre medias (I-J) -481.67* 8.83 481.67* 490.50* -8.83 -490.50*
Error típ. 12.214 12.214 12.214 12.214 12.214 12.214
Intervalo de confianza al 95%. Significación Límite inferior Límite superior .000 -508.28 -455.05 .483 -17.78 35.45 .000 455.05 508.28 .000 463.89 517.11 .483 -35.45 17.78 .000 -517.11 -463.89
Basado en las medias observadas. *. La diferencia de medias es significativa al nivel .05.
58
Subconjuntos homogéneos Densi dad
Duncana,b
Temperatura 850 °C 800 °C 825 °C Significación
N 6 6 6
Subconjunto 1 2 543.50 552.33 1034.00 .483 1.000
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo I El térmi no error es la Media cuadráti ca (Error) = 447.556. a. Usa el tamaño muestral de la media armónica = 6.000 b. Alfa = .05.
Gráficos de perfil
Medias marginales estimadas de Densidad Posición Posición 1 Posición 2
Medias marginales estimadas
1100
1000
900
800
700
600
500 800 °C
825 °C
850 °C
Temperatura
Medias marginales estimadas de Densidad Temperatura 800 °C 825 °C 850 °C
Medias marginales estimadas
1100
1000
900
800
700
600
500 Posición 1
Posición 2
Posición
59
DISEÑO BLOQUES COMPLETOS ALEATORIOS 2) Un ingeniero industrial prueba cuatro distribuciones diferentes para el piso de una tienda; encarga a cada una de seis cuadrillas construir una subdivisión y mide los tiempos de construcción (en minutos) como sigue: Distribución 1 Distribución 2 Distribución 3 Distribución 4 Cuadrilla A
48.2
53.1
51.2
58.6
Cuadrilla B
49.5
52.9
50.0
60.1
Cuadrilla C
50.7
56.8
19.9
62.4
Cuadrilla D
48.6
50.6
47.5
57.5
Cuadrilla E
47.1
51.8
49.1
55.3
Cuadrilla F
52.4
57.2
53.5
61.7
Pruebe en el nivel de significación 0,01 si las cuatro distribuciones del piso producen tiempos de construcción diferentes y si algunas de las cuadrillas de trabajo son consistentemente más rápidas al construir la subdivisión que las otras.
Análisis de varianza utilizando: ANOVA de dos factores
60
61
Los resultados obtenidos son:
Análisis de varianza univariante
62
Pruebas post hoc Distribución
Subconjuntos homogéneos
63
Cuadrilla
64
Subconjuntos homogéneos
Gráficos de perfil
65
Análisis de Normalidad de los Residuos
66
Ejecutamos la prueba de K-S para los Residuos
67
Análisis de Homogeneidad de varianzas para el Factor Distribución. Observe que en esta ocasión ya no consideramos al bloque (Cuadrilla) como un Factor fijo.
68
Continuar y Aceptar
69
GUÍA DE LABORATORIO 4 TEMA: PRUEBAS CHI CUADRADO
70
Contenido Teórico:
Prueba de Independencia
Prueba de Homogeneidad
Prueba de Bondad de ajuste
Introducción Una de las mayores utilidades de la distribución Ji-Cuadrado está en que permite comparar frecuencias observadas (frecuencias obtenidas en un experimento o muestreo) con frecuencias esperadas según un modelo supuesto (hipótesis nula). Esta característica de la distribución Ji-cuadrado permite efectuar las siguientes pruebas: Prueba de independencia. Prueba de homogeneidad de subpoblaciones. Pruebas de bondad de ajuste a una distribución de probabilidades. La metodología en cada uno de los tres casos es muy similar. La diferencia principal está en la forma en que se calculan las frecuencias esperadas, ya que estas dependerán de la hipótesis nula en cuestión.
I. PRUEBA DE INDEPENDENCIA Y DE HOMOGENEIDAD Caso1. Cuando cada fila de la BD representa varios casos. Los grandes almacenes Premium vende vales de regalo durante la temporada de Navidad. El gerente de ventas, Leo Marinni, quiere determinar si el valor de un vale tiene alguna relación con lo que el cliente compra con dicho vale. Los datos recogidos de una muestra de clientes que asistieron durante el último mes son:
Departamento Electrodomésticos Ropa Herramientas
Frecuencias observadas Valor del vale $10 $50 $100+ 22 26 54 33 31 22 41 43 19
Pruebe si el valor del vale se relaciona con lo que el cliente compra. Use = 0,05.
1° Digitar la siguiente base de datos:
71
2° Ponderar los casos.
Ponderar los casos por la variable N° clientes (frecuencia)
72
3° Finalmente correr el programa para tablas de contingencia.
Dar clic en Estadísticos para seleccionar la opción de prueba chi-cuadrado
Para obtener las frecuencias esperadas y los porcentajes fila, columna y total, ingresar a Casillas y marcar lo que se necesite analizar: 73
Ho: Existe independencia entre variables (departamento y valor del vale) H1: No existe independencia entre variables A la vista de los resultados el Valor-P = 0.000 es menor que nuestro nivel de significación 5% por lo que se rechaza la hipótesis nula. Por lo tanto, con un nivel de significación del 5% no podemos afirmar que exista independencia entre las variables sujetas a evaluación.
Caso 2. Cuando cada fila de la BD representa un solo caso. Para la explicación del tema tomaremos las variables cualitativas nivel de educación y región de nacimiento de la base de datos encuesta.sav. Los 300 datos se presentan de la siguiente manera:
74
Luego, en la opción: estadísticos marcar chi-cuadrado
75
Los resultados que se obtienen se muestran a continuación:
Ho: Existe independencia entre variables (Región de nacimiento y nivel educativo) H1: No existe independencia entre variables A la vista de los resultados el Valor-P = 0.722 es mayor que nuestro nivel de significación 5% por lo que no se rechaza la hipótesis nula. Por lo tanto, con un nivel de significación del 5% podemos afirmar que existe independencia entre las variables sujetas a evaluación. 76
NOTA: Cabe recordar que la prueba chi-cuadrado propone como condición que las frecuencias esperadas sean mayores que 5. En el último reporte del SPSS se indica que el 48% de las casillas tienen frecuencia esperada inferior a 5 por lo que será necesario juntar columnas (en este caso).
II. PRUEBA DE BONDAD DE AJUSTE SPSS nos permite realizar pruebas de bondad de ajuste. Es decir, contrastar si las frecuencias observadas en cada una de las clases de una variable categórica varían de forma significativa de las frecuencias que se esperaría encontrar si la muestra hubiese sido extraída de una población con una determinada distribución de frecuencias. Esta prueba Chi-cuadrado se obtiene a partir del menú Pruebas no paramétricas dentro del menú principal Analizar. En el cuadro de diálogo debemos introducir la variable categórica que queremos analizar y posteriormente las frecuencias esperadas bajo la hipótesis que queremos contrastar. En el apartado de valores esperados debemos elegir, bien la opción de homogeneidad a lo largo de todas las clases, o bien debemos introducir, en el mismo orden en el que aparecen en el archivo de datos, las frecuencias esperadas. Debe recordarse que la suma de los valores observados en la muestra debe ser igual a la suma de valores esperados.
CASO 1. FRECUENCIAS ESPERADAS IGUALES Tomaremos los datos del archivo: encuesta.sav
77
Seleccionaremos la variable NIVEDUC (Nivel educativo) para determinar, inicialmente si el porcentaje de personas para cada categoría de nivel educativo es el mismo. La opción que aparece marcada por defecto en Rango esperado, es decir “obtener de los datos”, implica que cada valor de la variable será considerado una categoría. La opción que aparece marcada por defecto en Valores esperados, es decir “todas las categorías iguales”, implica que la distribución de probabilidades es uniforme para todas las categorías consideradas (para nuestro ejemplo 296 datos entre 5 categorías).
Los resultados obtenidos son:
78
Ho: La distribución de nivel educativo es la misma para las 5 categorías H1: La distribución de nivel educativo no es la misma para las 5 categorías A la vista de los resultados el Valor-P = 0.000 es menor que nuestro nivel de significación 5% por lo que se rechaza la hipótesis nula.
CASO 2. FRECUENCIAS ESPERADAS DESIGUALES Alternativamente tenemos la opción de especificar las frecuencias esperadas ó porcentuales para cada categoría de la variable categórica. El orden en que se especifiquen los datos corresponde a los valores de la variable en orden ascendente. Recordemos previamente que la codificación asignada a esta variable es la siguiente:
79
Asumamos que lo que se propone como hipótesis estipula que el porcentaje de la categoría Primaria es 20%, Secundaria 50%, Preparatoria10%, Universidad 15%, Especialización 5%. En la opción Valores esperados marcamos valores luego ingresamos cada porcentaje y pulsamos añadir. Luego aceptar: Los resultados obtenidos se muestran a continuación:
80
A la vista de los resultados el Valor-P = 0.000 es menor que nuestro nivel de significación 5% por lo que se rechaza la hipótesis nula.
81
GUÍA DE LABORATORIO 5 TEMA: REGRESIÓN LINEAL Y NO LINEAL
82
Contenido Teórico:
Matriz de correlaciones.
Regresión lineal simple.
Regresión curvilineal.
Introducción En el análisis estadístico se tienen métodos que nos permiten determinar si dos o más variables se relacionan. La relación entre variables nos permite disponer de los elementos suficientes para, en base a una muestra de pares de datos de las variables, realizar estimaciones de las proyecciones para uno o más datos de una de las variables involucradas. En esta oportunidad nos ocuparemos de la correlación y la regresión entre los datos de dos variables numéricas utilizando SPSS para el análisis correspondiente. A continuación se muestra la base de datos con la que se explicará los procedimientos involucrados al realizar un análisis de regresión lineal simple. Los datos corresponden a las ventas totales por año de cada una de 11 regiones en las que una compañía opera. Dicha compañía se dedica a la venta de repuestos para automóviles. Se pretende estimar el valor de las ventas futuras conociendo el número de distribuidoras establecidas en cada región y el número de automóviles vendidos para cada región.
83
MATRIZ DE CORRELACIONES El primer paso que daremos consiste en revisar si existe correlación entre las variables de esta base de datos, con este fin realizaremos la matriz de correlaciones. Analizando esta matriz se podrá determinar cuál de las variables independientes: Región, N° de distribuidoras o N° de autos vendidos, está más correlacionada con la variable dependiente Ventas. Para realizar la matriz de correlaciones:
Menú Analizar >> Correlaciones >> Bivariadas:
En el cuadro dialogo de Correlaciones Bivariadas:
Elige las variables Ventas, Nro_Distrib y Nro_Autos. Utiliza el Mouse y la tecla Ctrl.
Arrastra y suelta las variables en el panel en blanco Variables.
Revise que este activado Pearson en
Coeficiente de correlación.
84
Clic en aceptar.
Obtenemos el siguiente resultado:
Se observa que la variable ventas está más correlacionada con la variable Número de distribuidoras (correlación 0.739) por lo que un primer paso será realizar un análisis de regresión lineal simple con esta variable independiente.
REGRESION LINEAL SIMPLE ENTRE LA INDEPENDIENTE MÁS CORRELACIONADA CON Y
VARIABLE
La secuencia es: 85
Analizar >> Regresión >> Lineal, se mostrará el siguiente cuadro de diálogo:
En el cuadro dialogo que se habre:
Arrastre la Variable Ventas a la casilla de Dependientes.
Arrastre la variable Nro_distrb a la casilla de Independiente.
Clic en Aceptar.
86
Por el momento sólo se procederá a obtener la ecuación del modelo así como algunos valores representativos para la validación de dicho modelo. Un análisis más riguroso del modelo y su validación se hará para el caso de regresión lineal múltiple.
Resultados obtenidos: Resumen del modelo Modelo 1
R .739a
R cuadrado corregida .496
R cuadrado .546
Error típ. de la estimación 9.7718
a. Variables predictoras: (Constante), Nro distribuidoras
El coeficiente de determinación, denotado por R2 (0.546) implica que el 54.6% de variación en las ventas pueden ser explicadas por el modelo de regresión. ANOVAb Modelo 1
Regresión Residual Total
Suma de cuadrados 1033.836 859.393 1893.229
gl 1 9 10
Media cuadrática 1033.836 95.488
F 10.827
Sig. .009a
a. Variables predictoras: (Constante), Nro distribuidoras b. Variable dependient e: Ventas (mills $)
La tabla de Análisis de Varianza permite realizar la prueba de significación global del modelo, se propone las siguientes hipótesis:
H o : 1 0 En forma conjunta las variables no contribuye n al modelo H1 : i 0
Al menos una variable es significat iva para el modelo
Analizando el P-Valor (0.009) (Sig), el cual es inferior al 5% (nivel de significación propuesto usualmente para la prueba), se decide que se debe rechazar la hipótesis nula con lo cual concluimos que la variable Número de distribuidoras sí contribuye significativamente al modelo.
Coeficientesa
Modelo 1
(Constante) Nro distribuidoras
Coef icientes no estandarizados B Error típ. 10.881 6.409 .012 .004
Coef icientes estandarizad os Beta .739
t 1.698 3.290
Sig. .124 .009
a. Variable dependiente: Ventas (mills $)
87
El modelo estimado para el presente caso será:
Vˆentas 10.881 0.012( Nro de distribuid oras) Además de la prueba de verificación global se puede realizar la prueba de verificación individual de la variable independiente.
H o : i 0 La variable no es significat iva para el modelo H 1 : i 0 La variable es significat iva para el modelo
Para el caso desarrollado (regresión lineal simple), esta prueba es análoga a la prueba de verificación global.
Una forma gráfica de verificar la relación lineal entre Y con X es realizar un gráfico de dispersión, el cuál muestra la posible tendencia y/o relación posible entre variable dependiente e independiente. La secuencia para obtener dicho gráfico es la siguiente:
88
En este cuadro dialogo se elige Dispersión simple.
En el cuadro de diálogo (Dispersión simple) se ingresará la información de la siguiente manera:
El resultado que se obtiene es el siguiente:
89
REGRESIÓN NO LINEAL / CURVILINEAL
En el análisis de regresión no todas las relaciones de variables se comportan de manera lineal, en algunos casos la relación se da de manera curvilínea. Se puede determinar este tipo de relación con el análisis del diagrama de dispersión.
Analizaremos los diferentes modelos curvilíneos que puedan formarse para determinar cuál de ellos es el “mejor”. Los datos se muestran a continuación: La secuencia para realizar una regresión curvilínea es la siguiente: Menú Analizar >> Regresión >> Estimación Curvilínea. . .
Arrastre la variable Salario a Dependientes
Arrastre la variable
Experiencia Independientes
a
Verifique que este activados los Modelos de regresión.
Aceptar
90
Como se muestra, tenemos la posibilidad de elegir entre varios modelos. Para desarrollar nuestro ejemplo hallaremos los coeficientes estimados y la tabla de análisis de varianza de los modelos: Lineal, Cuadrático, Potencia y Exponencial. Los resultados que obtenemos en la tercera tabla son los siguientes: Resumen del modelo y estimaciones de los parámetros Variable dependiente: Salario (miles US$) Ecuación Resumen del modelo
Estimaciones de los parámetros
R cuadrado ,757
56,218
1
18
,000
26,270
1,334
Logarítmica
,850
102,140
1
18
,000
18,034
10,768
Inversa
,626
30,149
1
18
,000
45,516
-34,376
Cuadrático
,876
60,189
2
17
,000
19,126
3,363
Potencia
,800
71,854
1
18
,000
20,614
,309
Exponencial
,645
32,662
1
18
,000
26,521
,036
Lineal
F
gl1
gl2
Sig.
Constante
b1
b2
-,087
La variable independiente es: Años de experiencia.
Se puede apreciar que los Valores P (Sig) son inferiores a = 0.05, por tanto en todos los casos existe correlación. Si estudiamos los valores de R2 (Rcuadrado) nos podemos percatar de que el modelo cuadrático es el modelo más eficiente (más cercano a 1). Mientras que el modelo logarítmico es el segundo. Para decidir realizamos nuevamente el análisis con los modelos con mayor eficiencia (mayor R2)
91
Logarítmica
Resumen del modelo R
R cuadrado
,922
R cuadrado
Error típico de
corregida
la estimación
,850
,842
4,018
La variable independiente es Años de experiencia. ANOVA Suma de
gl
Media
cuadrados Regresión Residual Total
F
Sig.
cuadrática
1648,640
1
1648,640
290,538
18
16,141
1939,178
19
102,140
,000
La variable independiente es: Años de experiencia. Coeficientes Coeficientes no estandarizados
Coeficientes
t
Sig.
estandarizados B
Error típico
ln(Años de experiencia)
10,768
1,065
(Constante)
18,034
2,099
Beta ,922
10,106
,000
8,590
,000
En este caso el valor P para el coeficiente de la variable independiente (años de experiencia) es menor que = 0.05, por tanto se puede decir que es significativa para el modelo.
92
Cuadrático Resumen del modelo R
R cuadrado
,936
R cuadrado
Error típico de la
corregida
estimación
,876
,862
3,757
La variable independiente es Años de experiencia. ANOVA Suma de
gl
Media
cuadrados Regresión Residual Total
F
Sig.
cuadrática
1699,211
2
849,606
239,967
17
14,116
1939,178
19
60,189
,000
La variable independiente es Años de experiencia.
Coeficientes Coeficientes no estandarizados
Coeficientes
t
Sig.
estandarizados B
Error típico
Beta
Años de experiencia
3,363
,519
2,194
6,480
,000
Años de experiencia ** 2
-,087
,022
-1,367
-4,040
,001
19,126
2,232
8,568
,000
(Constante)
En este caso el valor P para los coeficientes de la variable independiente (años de experiencia) son menores que = 0.05, por tanto se puede decir que son significativas para el modelo.
93
Cúbico Resumen del modelo R
R cuadrado
,936
R cuadrado
Error típico de la
corregida
estimación
,876
,853
3,872
La variable independiente esAños de experiencia.
ANOVA Suma de
gl
Media
cuadrados Regresión Residual Total
F
Sig.
cuadrática
1699,253
3
566,418
239,925
16
14,995
1939,178
19
37,773
,000
La variable independiente es Años de experiencia.
Coeficientes Coeficientes no estandarizados
Coeficientes
t
Sig.
estandarizados B
Error típico
Beta
Años de experiencia
3,300
1,303
2,153
2,532
,022
Años de experiencia ** 2
-,081
,134
-1,259
-,602
,556
Años de experiencia ** 3
,000
,004
-,070
-,053
,959
19,255
3,356
5,737
,000
(Constante)
En este caso el valor P para los coeficientes de grado 2 y 3 de la variable independiente (años de experiencia) son mayores que = 0.05, por tanto se puede decir que no son significativas para el modelo.
En este caso el modelo que mejor se ajusta es el cuadrático.
94
Entonces para la relación Experiencia – Salario el modelo que mejor se ajusta es el cuadrático con una eficiencia de 0.876 (R2).
95
GUÍA DE LABORATORIO 6 TEMA: REGRESIÓN LINEAL MÚLTIPLE
96
Contenido:
Correlación entre las variables del modelo.
Análisis de Multicolinealidad
Método de selección de variables: Hacia delante.
Modelo final.
Supuestos: Normalidad de los errores y homocedasticidad.
Para la explicación de los procedimientos relacionados con el análisis de regresión múltiple, se usará el siguiente caso: Estudios financieros han mostrado que el precio de una acción (P) está en razón directa del nivel de endeudamiento de la empresa emisora (D) y con el dividendo (DR), pero en razón inversa del número de acciones en circulación (SO). Los datos indicados en la tabla están en dólares para P, en cientos de dólares para D, en dólares para DR y en millares de acciones en circulación para SO.
Precio de una Nivel de Dividendo Número de acciones acción (P) endeudamiento (D) (DR) en circulación(SO) 52,50
12,00
2,10
100
14,25
3,40
0,69
37
35,21
7,10
1,70
68
45,21
10,40
1,81
90
17,54
4,00
0,70
32
22,00
5,10
0,88
45
37,10
8,50
1,50
78
29,12
6,70
1,20
60
46,32
10,65
1,85
95
49,30
11,34
2,00
99
Correlación entre las variables del modelo En un problema de regresión lineal múltiple, en muchos de los casos las variables independientes, están en cierto grado correlacionadas unas con otras. Siempre que sea posible, debe evitarse incluir variables independientes que están fuertemente correlacionadas. Se realizará el análisis de las correlaciones entre las variables involucradas en el estudio
97
Se considera las variables independientes: Nivel de endeudamiento de la empresa emisora (D), Dividendo, número de acciones en circulación Definimos las variables en SPSS e introducimos los datos:
Para determinar la tabla de correlación entre las variables involucradas en el modelo realizamos lo siguiente:
Analizar >> Correlaciones >> Bivariadas…
Elija las variables y arrástrelas al cuadro Variables
Verifique que este activado Pearson en Coeficientes de correlación.
Aceptar.
98
Aquí seleccionamos las variables de interés, para obtener el siguiente resultado: Correlaciones
Precio de una acción (Y) (US$) Correlación de Precio de una Pearson acción (Y) Sig. (bilateral) (US$) N Correlación de Nivel de Pearson endeudamien to (X1) (x100 Sig. (bilateral) US$) N Dividendo (X2) (US$)
Número de acciones en circulación (X3) (miles)
Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral)
Nivel de endeudamient Dividendo (X2) o (X1) (x100 (US$) US$)
1
10 ,995
**
,995
**
,985
**
,991
**
,000
,000
,000
10
10
10
1
**
,000
,965
**
,000 10
10
10
**
**
1
,965
,991
,000
10 ,985
Número de acciones en circulación (X3) (miles)
,975
**
,000
,000
10
10
10
10
**
**
**
1
,991
,991
,000
,975
,000
,000
,000
10
10
10
N
10
**. La correlación es significativa al nivel 0,01 (bilateral).
Podemos observar que existe una alta correlación entre la variable dependiente (precio de una acción) y independientes, pero también la correlación es alta entre las variables independientes.
Correlación entre las variables del modelo
El problema de multicolinealidad se presenta cuando existe una alta correlación entre variables independientes, como es el caso: Nivel de endeudamiento y el Número de acciones en circulación.0,991. Además se comprueba la multicolinealidad siguiendo el criterio propuesto en clase: Menor correlación entre Y y las X´s 0,985. Existe correlación entre X1 y X3 (entre Nivel de endeudamiento y el Número de acciones en circulación con un valor de 0,991 mayor que 0,985) Aún en la presencia detectada de multicolinealidad estimaremos el modelo para determinar lo adecuado que puede ser su uso para la predicción: Seguimos la siguiente secuencia: Menú Analizar >> Regresión >> Lineales… 99
Traslade la variable Precio de una Acción (P) a la casilla de Dependientes.
Traslade las variables restantes a la casilla de Independientes.
Aceptar
Obtenemos los resultados siguientes:
Resumen del modelo Modelo
1
R
R cuadrado
1,000
a
R cuadrado
Error típ. de la
corregida
estimación
1,000
,999
,36223
a. Variables predictoras: (Constante), Número de acciones en circulación (X3) (miles), Dividendo (X2) (US$), Nivel de endeudamiento (X1) (x100 US$)
El porcentaje de variación que es explicado por la ecuación de regresión es del 100%. a
ANOVA Modelo
Suma de
gl
Media
cuadrados Regresión 1
Residual Total
F
Sig.
cuadrática
1685,572
3
561,857
,787
6
,131
1686,359
9
4282,036
,000
b
a. Variable dependiente: Precio de una acción (Y) (US$) b. Variables predictoras: (Constante), Número de acciones en circulación (X3) (miles), Dividendo (X2) (US$), Nivel de endeudamiento (X1) (x100 US$)
100
En forma conjunta las variables son significativas para el modelo, considerando un nivel de significación del 5% (P-Valor = 0,000). Las hipótesis que se proponen son las siguientes: H0 : i = 0 H1 : i ≠ 0 El siguiente cuadro permite analizar la contribución individual de cada variable regresora al modelo propuesto: Coeficientes
Modelo
a
Coeficientes no estandarizados B
Coeficientes tipificados
Error típ.
(Constante)
-,480
,374
Nivel de endeudamiento (X1) (x100 US$)
3,371
,294
10,727 -,097
t
Sig.
Beta -1,283
,247
,771
11,452
,000
1,022
,422
10,493
,000
,042
-,185
-2,297
,061
1 Dividendo (X2) (US$) Número de acciones en circulación (X3) (miles)
a. Variable dependiente: Precio de una acción (Y) (US$)
En forma individual, sólo el término constante no es significativo para el modelo pues su P-Valor (0,247) es mayor al nivel de significación usual (5%). Las tres variables contribuyen significativamente al modelo. H0 : i = 0 La variable i no es significativa para el modelo H1 : i ≠ 0 La variable i es significativa para el modelo
Método de selección de variables: Hacia delante.
Se ha determinado hasta el momento que el modelo presenta deficiencias puesto que se ha detectado un problema de multicolinealidad. Recuerde que se ha observado una alta correlación entre las variables: Nivel de endeudamiento (X1) y el Número de acciones en circulación (X3). La correlación entre estas dos variables es más alta que la correlación entre el precio de una acción y los dividendos. El siguiente paso consiste en retirar las variables que presentan multicolinealidad y analizar el nuevo modelo resultante. Lo propuesto se puede realizar en la opción: Método. Al seleccionar Introducir, el programa irá ingresando variables al modelo y a la vez verificará su contribución. 101
Procedimiento: Menú Analizar >> Regresión >> Lineales . . .
En el cuadro dialogo sólo se debe elegir Adelante en Método.
Aceptar
Obtenemos el siguiente resultado: Resumen del modelo Model
R
o 1 2
R
R cuadrado
Error típ. de
cuadrado
corregida
la estimación
,995
a
,990
,988
1,47901
1,000
b
,999
,999
,45976
a. Variables predictoras: (Constante), Nivel de endeudamiento (X1) (x100 US$) b. Variables predictoras: (Constante), Nivel de endeudamiento (X1) (x100 US$), Dividendo (X2) (US$) a
ANOVA Modelo
Suma de
gl
Media
cuadrados Regresión 1
2
F
cuadrática
1668,859
1
1668,859
17,500
8
2,187
Total
1686,359
9
Regresión
1684,879
2
842,440
1,480
7
,211
1686,359
9
Residual
Residual Total
Sig.
b
762,918
,000
3985,359
,000
c
a. Variable dependiente: Precio de una acción (Y) (US$) b. Variables predictoras: (Constante), Nivel de endeudamiento (X1) (x100 US$) c. Variables predictoras: (Constante), Nivel de endeudamiento (X1) (x100 US$), Dividendo (X2) (US$)
102
Coeficientes Modelo
Coeficientes no
Coeficientes
estandarizados
tipificados
B (Constante) 1
a
Error típ. ,407
1,332
4,350
,157
(Constante)
-,814
,437
Nivel de endeudamiento
2,785
,186
9,437
1,084
Nivel de endeudamiento
t
Sig.
Beta ,306
,768
27,621
,000
-1,862
,105
,637
14,943
,000
,371
8,706
,000
,995
(X1) (x100 US$)
2
(X1) (x100 US$) Dividendo (X2) (US$)
a. Variable dependiente: Precio de una acción (Y) (US$) Variables excluidas Modelo
Beta dentro
t
a
Sig.
Correlación
Estadísticos de
parcial
colinealidad Tolerancia
Dividendo (X2) (US$) 1
Número de acciones en
,371
b
8,706
,000
,957
,069
,279
b
1,020
,342
,360
,017
c
-2,297
,061
-,684
,012
circulación (X3) (miles) 2
Número de acciones en
-,185
circulación (X3) (miles)
a. Variable dependiente: Precio de una acción (Y) (US$) b. Variables predictoras en el modelo: (Constante), Nivel de endeudamiento (X1) (x100 US$) c. Variables predictoras en el modelo: (Constante), Nivel de endeudamiento (X1) (x100 US$), Dividendo (X2) (US$)
Modelo final.
Luego, el programa nos entrega el “mejor modelo”. En este caso las variables de predicción seleccionadas son “Nivel de endeudamiento (X1) y Dividendos(X2), observe que X1 y X3 no deberían de estar juntos en el modelo. Aquí se descartó la variable X3. Nótese que se ha seleccionado el modelo con las variables X1 y X3 puesto que en la tabla Resumen del modelo, el valor de R cuadrado es mayor que si se eligiera el modelo con solo la variable X1 (0,990 contra 0,999)
103
Resumen del modelo
Modelo
R
1
1,000
R cuadrado
Error típ. de la
corregida
estimación
R cuadrado a
,999
,999
,45976
a. Variables predictoras: (Constante), Dividendo (X2), Nivel de endeudamiento (X1)
b
ANOVA Suma de Modelo 1
cuadrados Regresión Residual Total
gl
Media cuadrática
1684,879
2
842,440
1,480
7
,211
1686,359
9
F
Sig.
3985,359
,000
a
a. Variables predictoras: (Constante), Dividendo (X2), Nivel de endeudamiento (X1) b. Variable dependiente: Precio de una acción (y)
Coeficientes
a
Coeficientes no estandarizados B
Modelo (Constante)
Error típ.
Coeficientes tipificados
t
Sig.
Beta
,407
1,332
,306
,768
Nivel de endeudamiento (X1) (x100 US$)
4,350
,157
,995 27,621
,000
(Constante)
-,814
,437
-1,862
,105
Nivel de endeudamiento (X1) (x100 US$)
2,785
,186
,637 14,943
,000
Dividendo (X2) (US$)
9,437
1,084
,371
,000
1
2
8,706
a. Variable dependiente: Precio de una acción (Y) (US$)
Tenemos entonces que: Precio de una acción = - 0,814 + 2,785 Nivel de endeudamiento + 9,437 Dividendo Interpretación: b0: No tiene sentido b1: Para un dividendo constante, por cada $100 adicionales en el Nivel de endeudamiento, el Precio de una acción aumenta en $2,785. b2: Para un Nivel de endeudamiento constante, por cada dólar adicional en los dividendos, el Precio de una acción aumenta en $9,437.
104
Supuestos de la regresión lineal múltiple El modelo de regresión lineal múltiple tiene como supuestos la normalidad de los errores y la homocedasticidad (igualdad de varianzas a lo largo de la distribución). Una forma de diagnostico de estos supuestos se realiza mediante la observación de la nube de puntos de la relacion entre los valores predichos (pronosticados) y los errores. La gráfica debe realizarse colocando en el eje Y (eje vertical) los valores de los errores y en el eje X (eje horizontal) los valores predichos, se espera que los puntos se distribuyan alrededor del valor de error 0. Si los errores están más distribuidos en la zona superior (errores mayores que cero) o en la zona inferior (errores menores que cero) es señal de falta de normalidad de los errores. Si la distribución de los errores tiene forma de embudo es indicativo de heterocidad y si los errores tienen forma curva indican falta de linealidad. Otra forma de verificar la normalidad de los errores es la siguiente:
Supuesto de normalidad. Otro supuesto del modelo es la normalidad que presentan los errores. Para verificar este supuesto podemos realizar el “gráfico de probabilidad normal”.
Lo primero que se debe hacer es seleccionar la opción “guardar” y en el cuadro de diálogo que se muestra marcar las pociones: Residuos: No tipificados y Valores Pronosticados: No tipificados . Los valores de los residuos se generaran automáticamente y se guardaran en dos columnas adicionales en nuestra base de datos.
105
El siguiente paso es ingresar a la opción “gráficos” y marcar la opción de gráfico de probabilidad normal.
106
Supuesto de homocedasticidad Analizar/Regresión/lineales… en gráficos , se selecciona y se transfiere al eje Y la variable ZRESISD , se selecciona y se transfiere al eje X la variable ZPRED , …
Continuar/ Aceptar.
107