Guias De Laboratorio Muestreo Uc .pdf

  • Uploaded by: ezequiel celedonio rodriguez
  • 0
  • 0
  • May 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Guias De Laboratorio Muestreo Uc .pdf as PDF for free.

More details

  • Words: 10,527
  • Pages: 109
GUÍA DE LABORATORIO 1 TEMA: MUESTREO PROBABILÍSTICO

Contenido teórico: 

Muestreo Aleatorio Simple



Muestreo Aleatorio Sistemático



Muestreo Aleatorio Estratificado

Todas las aplicaciones se realizarán en base al archivo de datos Employee data.sav, disponible en el archivo de instalación del SPSS.

Muestreo Aleatorio Simple Archivo de datos Employee data.sav :

Observe que en este archivo se han registrado 474 observaciones para un total de 10 variables. Puede solicitar un reporte de frecuencias para alguna variable de interés, como por ejemplo Categoría laboral (catlab)

2

Ejercicio 1. Seleccione una muestra aleatoria simple de 50 empleados Para ello debe seguir los pasos siguientes: Datos → Seleccionar casos

Por defecto siempre estarán activos Todos los casos. Elija Muestra aleatoria de casos, haga clik en el botón Ejemplo …

3

Importante:  En la ventana anterior note que: por defecto se encuentra activa, en el recuadro inferior de Resultado, la opción: Descartar casos no seleccionados. Esto permite realizar la selección sin eliminar el caso no seleccionado.

En seguida se muestra la siguiente ventana en la que usted puede solicitar al programa seleccione aproximadamente cierto porcentaje de casos, conocidos también como registros u observaciones, para la muestra.

También puede solicitar al programa la selección de un número exacto de casos o registros. Para nuestro caso utilizaremos esta opción para solicitar que seleccione exactamente 50 observaciones de los primeros 474 casos.

En esta selección se obtuvo una muestra en la que se ha seleccionado las observaciones 9, 10, 12 y otras. Observe que el programa tacha con una línea oblicua la observación que NO ha sido seleccionada. Además, ha generado una variable Filtro (filter_$) en la última columna en la que ha asignado el código 0 a las observaciones que no han sido seleccionadas y 1 a las que sí han sido seleccionadas.

4

Si usted vuelve a solicitar un reporte de frecuencias para la variable catlab, observará que ahora solo son consideradas las 50 observaciones que han sido seleccionadas.

Observación: 

Cualquier análisis que usted solicite se efectuará solamente sobre las 50 observaciones seleccionadas.



Las observaciones que no han sido seleccionadas no se han perdido, simplemente por ahora no se encuentran disponibles.



Si desea reestablecer todo el archivo de datos debe hacer lo siguiente: Datos → Seleccionar casos → Todos los casos

5

Observe que ahora ya no se encuentran tachados los números correspondientes a cada caso. Nuevamente tenemos disponibles TODOS los casos, a pesar que la variable filter_$ permanezca. Es muy frecuente observar que quienes se inician en el manejo de esta herramienta olvidan reestablecer toda la data y luego obtienen resultados solo de la última muestra seleccionada.

6

Muestreo Aleatorio Sistemático La aplicación del muestreo sistemático se hará siempre sobre el mismo archivo de datos Employee data.sav :

Ejercicio 2. Seleccione una muestra aleatoria sistemática de 50 empleados Recuerde que para l aplicación de un muestreo sistemático debemos determinar el valor de K correspondiente al salto sistemático o período de selección.

K

N 474   9,48  K  9 n 50

Luego, de los primeros 9 registros del archivo de datos seleccionaremos uno, aplicando el mismo procedimiento del muestreo aleatorio simple, a este elemento seleccionado se le conoce como punto de arranque que se le puede denotar como A. Posteriormente debemos seleccionar a partir de A, incluyendo A, cada 9 registros uno para la muestra hasta completar los 50 registros solicitados para la muestra. Por ejemplo: si A = X7 este sería el primer elemento seleccionado. Luego seleccionamos: X16 , X25 , X34 , … , X439 , X448 Para lograr esto con ayuda del SPSS, se debe seguir los pasos siguientes: Elección del Punto de Arranque. Aplicaremos un muestreo aleatorio simple para seleccionar un caso de los primeros nueve registrados en el archivo de datos. Datos → Seleccionar casos → Muestra aleatoria de casos

7

En nuestro caso se ha seleccionado como Punto de arranque el caso 7: A = X7

Ahora viene la parte más importante para la selección automática de los siguientes elementos de la muestra. Primero recuperamos la selección de Todos los casos 8

Luego elegimos la opción condicional para la selección de casos.

9

Al hacer picar en el botón Sí la op… se mostrará la siguiente ventana, que ofrece una serie de funciones dentro del Grupo de funciones

10

Dentro del Grupo de funciones Aritméticas podemos encontrar la función Mod (Módulo) que como señala el cuadro explicativo permite determinar el resto o residuo de dividir una expresión numérica entre el módulo.

Para subir la función elegida picamos en la flecha

Luego debemos indicar para cada signo de interrogación lo que mostramos en el siguiente cuadro. 11

Tenga en cuenta que: id: es el código del empleado asignado en el archivo de datos K = 9 : es el periodo de selección o salto sistemático A = 7 : es el punto de arranque n = 50 : es el tamaño de la muestra

12

Lo que se busca en la primera expresión es encontrar los registros cuya división con el valor de K nos de residuo CERO. La segunda expresión busca establecer un tope hasta donde se debe verificar estos cocientes. Dado que el valor de K, al ser redondeado al menor entero, suele ocasionar que sobren casos para realizar más selecciones, esta segunda expresión evitará que se tomen más observaciones que las establecidas para la muestra. Observe que: Si id = 1  1 + (9 – 7) entre 9 no muestra resto CERO  el registro 1 no será seleccionado …… Si id = 7  7 + (9 – 7) entre 9 si muestra resto CERO  el registro 7 si será seleccionado …… Si id = 447  447 + (9 – 7) entre 9 no muestra resto CERO  el registro 447 no será seleccionado Si id = 448  448 + (9 – 7) entre 9 si muestra resto CERO  el registro 448 si será seleccionado Picamos en: Continuar  Aceptar

13

Observe en el cuadro siguiente que el primer registro seleccionado corresponde al punto de arranque A = X7 seguido del X7 + 9 = X16

Observe que los dos últimos casos seleccionados son precisamente: X439 y X448

Muestreo Aleatorio Estratificado Recuerde que para l aplicación de esta técnica de muestreo debemos separar la población en sub-poblaciones homogéneas. En nuestro caso generaremos un archivo 14

para cada estrato. El archivo de datos ha utilizar sigue siendo Employee data.sav. No olvide que primero debe observar que tenga todos los casos del archivo disponibles.

Ejercicio 3. Seleccione una muestra aleatoria estratificada de 50 empleados con asignación proporcional a la categoría laboral. Dado que la muestra se desea asignar proporcionalmente a la categoría laboral podemos solicitar una tabla de frecuencias para esta variable y así conocer el tamaño de cada estrato

En seguida hacemos los cálculos para la determinación del tamaño de muestra para cada estrato (categoría laboral) Categoría Laboral Administrativo Seguridad Directivo Total

Frecuencia Proporción 363 27 84 474

,7658 ,0570 ,1772 1,0

ni = ( Ni / N ) * n 38 3 9

38,3 2,8 8,9 50

Para la conformación de los estratos hacemos uso de la selección condicional: Datos → Seleccionar casos → Si se satisface la condición → Si la op…

15

Seleccionamos la variable catlab y la igualamos a 1 esto permitirá seleccionar todos los casos cuya categoría laboral sea Administrativo (1). Algo muy importante con el Resultado, ahora solicitaremos que Copie los casos seleccionados a un nuevo conjunto de datos que llamaremos Administrativo, obteniendo de esta manera nuestro primer estrato.

16

El resultado será un nuevo archivo de datos que considera solo los 363 casos correspondientes a Administrativos.

Repetimos el procedimiento anterior para generar el segundo y tercer estrato que llamaremos respectivamente: Seguridad (catlab = 2) y Directivo (catlab = 3) 17

18

Observe que hasta aquí se ha logrado conformar el estrato que llamaremos Seguridad que cuenta con 27 casos registrados.

19

Tenemos el estrato llamado Directivo conformado por 84 casos. Muestra por estrato. Ahora estamos en condición de aplicar un muestreo aleatorio simple por cada estrato, seleccionando el número de observaciones calculado al inicio. 20

ADMINISTRATIVO

21

Ahora puede hacer uso de la tercera opción de Resultados: Eliminar casos no seleccionados

Es importante que esté conciente que al elegir esta opción los casos no seleccionados serán eliminados sin posibilidad de volverles a recuperar.

22

Observe que el archivo correspondiente a la muestra seleccionada del estrato de Administrativos cuenta con 38 casos.

SEGURIDAD Del estrato Seguridad seleccionaremos con una muestra aleatoria simple de 3 de los 27 casos

No olvide elegir en Resultados la opción de Eliminar casos no seleccionados. El resultado debe ser un archivo correspondiente a Seguridad reducido a 3 casos.

23

DIRECTIVO Si hacemos lo propio para el estrato de Directivos lograremos obtener este archivo reducido a 9 casos de los 84 que muestra inicialmente.

Finalmente puede unir los tres archivos en uno solo teniendo la muestra total de 50 registros

24

Solicite un reporte de frecuencias para este último archivo

25

Este resultado confirma que la muestra ha sido seleccionada conforme se ha solicitado, respetando la asignación proporcional a la categoría laboral.

26

GUÍA DE LABORATORIO 2 TEMA: INTERVALOS DE CONFIANZA Y PRUEBA DE HIPÓTESIS

Contenido Teórico 

Intervalo de Confianza y Prueba de Hipótesis para la media poblacional (µ) cuando la varianza poblacional (2) es desconocida



Intervalo de Confianza y Prueba de Hipótesis para la diferencia de medias poblacionales (µ1- µ2) de muestras independientes



Intervalo de Confianza y Prueba de Hipótesis para la diferencia de medias poblacionales (D) de muestras relacionadas

Introducción

El SPSS facilita la obtención de: intervalos de confianza, el valor calculado de la prueba estadística y p-valor para evaluar los siguientes parámetros:

Parámetro Media poblacional (µ)

Intervalos de Confianza

Pruebas de Hipótesis





Razón de varianzas poblacionales



2 1

 22 



Diferencia de medias poblacionales de muestras independientes (µ1-µ2)





Diferencia de medias poblacionales de muestras relacionadas (D)





Antes de iniciar el uso del programa para este tema, cabe indicar lo siguiente:  

  

El SPSS asume siempre (ya sea para analizar uno o dos poblaciones) que las muestras provienen de poblaciones infinitas. Es decir, no considera en sus cálculos el factor de corrección de poblaciones finitas (f.c.p.f.). Para el caso de una media poblacional y dos medias poblacionales solo analiza el caso cuando la varianza poblacional es desconocida. Es decir, siempre usa la distribución T tanto para obtener los estadísticos de prueba como los intervalos de confianza. Para el caso de pruebas de diferencia de medias poblacionales de muestras independientes o muestras relacionadas solo realiza la hipótesis cuando el valor hipotético es igual a cero. La prueba de hipótesis para la razón de varianzas poblacionales lo realiza mediante la prueba de Levene y no mediante la prueba F de Fisher. El p-valor solo lo obtiene para pruebas de tipo bilateral, por lo que se debe tener mucho cuidado si se quiere utilizar estos valores en casos unilaterales.

26

Conceptos El p – valor (o sig) Cuando se interpretan los reportes en pruebas de hipótesis, las conclusiones están basadas en una regla de decisión; ésta se establece tendiendo en cuenta el riesgo que asume el investigador de cometer un error de tipo I, siendo la probabilidad de este error el nivel de significación α. Pero en algunas ocasiones, sin embargo, la decisión a tomar puede realizarse con un nivel de significación diferente, con lo cual seria útil conocer que tipo de decisión se puede adoptar según el nivel de significación real de una prueba basándose en los datos observados. Este concepto actuará como contrapuesto al nivel de significación elegido antes de realizar la prueba. p-valor: probabilidad que, bajo H0 el estadístico de contraste tome un valor al menos tan alejado como el realmente obtenido. Cuanto más pequeño sea el p-valor mayor es la evidencia en contra de H0.

Intervalo de Confianza y Prueba de Hipótesis para la media poblacional (µ) cuando la varianza poblacional (2) es desconocida El acceso se realiza mediante la siguiente secuencia

Analizar → Comparar medias → Prueba T para una muestra.

Ejemplo1 27

Los conductores metálicos o tubos huecos se usan en el cableado eléctrico. En una prueba de tubos de una pulgada, se obtuvieron los datos siguientes respecto del diámetro exterior (en pulgadas).

1,281 1,288 1,292 1,289 1,291 1,293 1,293 1,291 1,289 1,288 1,287 1,291 1,290 1,286 1,289 1,286 1,295 1,296 1,291 1,286

Suponga que el diámetro exterior se distribuye normalmente.

a) Determine un intervalo del 90% de confianza para la media del diámetro exterior. Solución: Ingresamos a la opción indicada anteriormente y pasamos la variable del recuadro de la izquierda al de la derecha, utilizando el botón

de la siguiente manera:

Como se puede apreciar el recuadro con el nombre Valor de prueba no se ha considerado en este procedimiento, pues su utilidad es en las pruebas de hipótesis.

Dado que desea un intervalo al 90% de confianza se debe dar un clic en el botón Opciones con lo cual aparecerá la siguiente ventana

28

y allí se debe indicar el nivel de confianza, posteriormente dar clic en Continuar para volver a la ventana principal. Al hacer clic en aceptar obtenemos: Estadísticos para una muestra N Diámet ro exterior

20

Media 1.28960

Desv iación típ. .003500

Error típ. de la media .000783

Estimación puntual de la media

Prueba para una muestra Valor de prueba = 0

Diámetro exterior

t 1647.613

gl 19

Sig. (bilateral) .000

Dif erencia de medias 1.289600

90% Interv alo de conf ianza para la dif erencia Inf erior Superior 1.28825 1.29095

Límite inferior de confianza de la media Límite superior de confianza de la media

Según este resultado el intervalo de confianza para la media se encuentra en el rango de 1,288; 1,291 Tenemos un 90% de confianza de que el intervalo 1,288; 1,291 contenga al al diámetro medio poblacional de los conductores metálicos usados en el cableado eléctrico

b) Pruebe la hipótesis de que la longitud media del diámetro exterior es de 1,29 pulgadas. Use un nivel de significación de 0,05

Solución:

Para probar la hipótesis de que la longitud media del diámetro exterior es de 1,29 procedemos de la misma manera que en la parte a)

29

Las hipótesis a contrastar son: H 0 :   1,29 H1 :   1,29

 = 0,05.

Procedimiento:

Observe que en el recuadro Valor de prueba se ha digitado 1,29 es decir se ha considerado el valor hipotético. A pesar que nos indiquen que se utiliza un nivel de significación de 0,05 este no es ingresado en la ventana de Opciones como si ocurrió en el intervalo de confianza. Al hacer clic en el botón aceptar obtenemos:

Estadísticos para una muestra Error típ. de la N Diámetro exterior (en pulgadas)

Media 20

Desviación típ.

1,28960

,003500

media ,000783

Como H 0 :   1,29 frente a H1 :   1,29 se trata por tanto de una prueba de hipótesis Prueba para una muestra

de dos colas (bilateral), el estadístico de prueba toma el valor -0,511. En este caso no Valor de prueba = 1.29 podemos rechazar la hipótesis nula, el valor p de 0,615 es mayor que el nivel de 90% Interv alo de significación de 0,10. conf ianza para la Diámetro exterior

t -.511

gl 19

Sig. (bilateral) .615

Dif erencia de medias -.000400

dif erencia Inf erior Superior -.00175 .00095

30

Bajo un nivel de significación del 10% concluimos que la longitud media del diámetro exterior de los tubos usados en el cableado eléctrico es de 1,29 pulgadas Valor de la estadística de prueba

El criterio de decisión se basa en la comparación de esta probabilidad con el nivel de significación de la prueba

Observación:  Puede calcularse el intervalo de confianza de la media sumando a la media hipotética los valores -0,00175 y 0,00095 de la tabla anterior y obtenemos el mismo resultado que en la parte a)  Cuando la prueba de hipótesis es de una sola cola se debe observar el signo del tcalculado  Si el t calculado es negativo: El sig de una prueba unilateral izquierda es sig/2; y el sig de una prueba unilateral derecha es 1-sig/2.  Si el t calculado es positivo: El sig de una prueba unilateral izquierda es 1-sig/2; y el sig de una prueba unilateral derecha es sig/2.

Por ejemplo si se quieren hacer las siguientes hipótesis H 0 :   1, 29 H1 :   1, 29

Sig = 0,615/2 = 0,3075

y

H 0 :   1, 29 H1 :   1, 29

Sig = 1- 0,615/2 = 0,6925

31

Intervalo de Confianza y Prueba de Hipótesis para la diferencia de medias poblacionales (µ1- µ2) cuando las varianzas poblacionales son desconocidas y las muestras provienen de poblaciones independientes.

El acceso se realiza mediante la siguiente secuencia Analizar → Comparar medias → Prueba T para una muestras independientes

Ejemplo 2.

Se piensa que el rendimiento de combustible en un modelo específico de automóvil sería más alto si se utiliza gasolina sin plomo Premium que con la gasolina sin plomo Normal. A fin de recopilar datos para sustentar esta afirmación, se selecciona en forma aleatoria 10 vehículos de una línea de montaje y se prueban con una marca especifica de gasolina Premium, además de seleccionar al azar otros 10 y probarlos con la de gasolina Normal. Las pruebas se realizan bajo condiciones controladas idénticas. Los datos resultantes son los siguientes:

Premium

35,0

34,5

31,6

32,4

34,8

31,7

35,4

35,3

36,6

36,0

Normal

40,0

29,6

32,1

35,4

34,0

34,8

34,6

34,8

32,6

32,2

34.5 Suponga que el rendimiento de combustible se distribuye normalmente

32

a) Determine e interprete un intervalo del 99% de confianza para la diferencia promedio poblacional del rendimiento de la gasolina sin plomo Premium y de la gasolina sin plomo Normal Solución: Comenzamos introduciendo los datos en el editor Vista de datos del SPSS creando dos variables (columnas): en la primera columna se deben ingresar todos los datos de los rendimientos de los dos tipos de gasolinas y en la segunda columna se debe ingresar códigos que identifiquen el tipo de gasolina: 1: gasolina sin plomo Premium (deben existir tantos 1 como repeticiones tiene el tipo de gasolina sin plomo Premium) y 2: gasolina sin plomo normal (deben existir tantos 2 como repeticiones tiene el tipo de gasolina sin plomo Normal) Ingresamos a la opción indicada anteriormente y pasamos los datos de la columna 1 al recuadro de Variables para contrastar y los datos de la columna 2 al recuadro de Variable de agrupación, de la siguiente manera:

En Variable de agrupación se debe definir los códigos de los grupos que se desean comparar. Para definir los códigos se ingresa el al botón Definir grupos y posteriormente se da un clic en el botón Continuar:

33

Como nos piden un intervalo del 99% de confianza dar un clic al botón Opciones para definir ahí el nivel de confianza.

Los resultados obtenidos se presentan a continuación:

Estadísticos de grupo

Rend

Tipo_gas Gasolina sin plomo premium Gasolina sin plomo normal

N

Desv iación típ.

Media

Error típ. de la media

10

34.370

1.8105

.5725

10

33.980

2.6720

.8450

Prueba de muestras independientes Prueba de Lev ene para la igualdad de v arianzas

F Rend

Se han asumido v arianzas iguales No se han asumido v arianzas iguales

0,535 >0,01: No se rechaza la hipótesis nula de varianzas iguales

Sig. .401

.535

Prueba T para la igualdad de medias

t

gl

Sig. (bilateral)

Dif erencia de medias

Error típ. de la dif erencia

99% Interv alo de conf ianza para la dif erencia Inf erior Superior

.382

18

.707

.3900

1.0207

-2.5479

3.3279

.382

15.825

.707

.3900

1.0207

-2.5955

3.3755

Límite inferior de confianza para la diferencia de medias asumiendo varianzas iguales

Límite Superior de confianza para la diferencia de medias asumiendo varianzas iguales

Podemos apreciar que el SPSS nos brinda los resultados para varianzas desconocidas asumiendo varianzas iguales y diferentes. Para determinar cual de los dos intervalos es el correcto debemos utilizar la Prueba de Levene y comparar el Sig =0.535 de la Prueba de Levene con el α. Como en este caso el sig> α asumimos los resultados obtenidos para varianzas homogéneas 34

La interpretación para el intervalo sería la siguiente: Existe un 99% de confianza de que el intervalo -2,5479; 3,3279 contenga la diferencia media poblacional del rendimiento medio de la gasolina sin plomo Premium y de la gasolina sin plomo Normal.

b) Realice una prueba de hipótesis para comparar la media de rendimiento de combustible con esas dos gasolinas. Use un nivel de significación del 1%. Interprete los resultados en el contexto del problema. En este caso aprovechamos el reporte anterior para dar respuesta a la siguiente hipótesis:

H 0 :  P2   N2 H 1 :  P2   N2 De igual manera que para intervalos de confianza, para determinar si las varianzas son homogéneas o no, debemos hacer uso del Sig =0.535 de la Prueba de Levene y compararlo con el α. Como en este caso el sig> α asumimos los resultados obtenidos para varianzas homogéneas Para evaluar la hipótesis de interés

H0 : P  N H1 :  P   N α =0,01 Prueba de muestras independientes Prueba de Lev ene para la igualdad de v arianzas

F Rend

Se han asumido v arianzas iguales No se han asumido v arianzas iguales

Valor del estadístico de prueba cuando las varianzas son similares

Sig. .401

.535

Prueba T para la igualdad de medias

t

gl

Sig. (bilateral)

Dif erencia de medias

Error típ. de la dif erencia

99% Interv alo de conf ianza para la dif erencia Inf erior Superior

.382

18

.707

.3900

1.0207

-2.5479

3.3279

.382

15.825

.707

.3900

1.0207

-2.5955

3.3755

p = 0,707 >0,01: No se rechaza la hipótesis nula de medias iguales

35

Conclusión: Bajo un nivel de significación del 1% concluimos que los rendimientos medios de ambos tipos de gasolinas no son diferentes.

Intervalo de Confianza y Prueba de Hipótesis para la diferencia de medias poblacionales (D) de muestras relacionadas El acceso se realiza mediante la siguiente secuencia Analizar → Comparar medias → Prueba T para una muestras relacionadas

Ejemplo 3. Se realizó un estudio para determinar si el nivel de exportación (en miles de $) de 10 exportadores de espárragos ha variado. Se recolectó la siguiente información:

Exportador Año 1

2

3

4

5

6

7

8

9

10

2006

17,5

17,2

15,8

16,2

17,4

15,8

17,7

17,6

18,3

18.0

2007

19,2

17,4

16.0

18,1

17.0

16,3

18,3

16,4

18.0

19,2

Suponga que el nivel de exportación se distribuye normalmente

a) Determine e interprete un intervalo del 95% de confianza para la diferencia promedio del nivel de exportación en el periodo 2006-2007

36

Solución: Comenzamos introduciendo los datos de cada año en dos columnas diferentes en el editor Vista de datos del SPSS. Ingresamos a la opción indicada anteriormente y pasamos los datos de cada columna en los recuadros con encabezado Variable1 y Variable2. Esta versión del SPSS permite hacer varias comparaciones a la vez.

Si quiere hacer la diferencia del segundo grupo menos el primer grupo puede hacer uso del botón

Los resultados obtenidos se presentan a continuación:

Estadísticos de muestras relacionadas

Media

Par 1

N

Desviación típ.

Error típ. de la media

año1

17,1300

10

,90068

,28482

año2

17,5900

10

1,15993

,36680

Correlaciones de muestras relacionadas N Par 1

año1 y año2

Correlación 10

,590

Sig. ,073

37

Prueba de muestras relacionadas Diferencias relacionadas 95% Intervalo de confianza para la diferencia Media Par 1 año1 - año2

-,46000

Desviación

Error típ. de la

típ.

media

,96171

,30412

Sig. Inferior -1,14797

Superior ,22797

t -1,513

gl 9

El intervalo del 95% confianza que va de [-1,14797; 0,22797] brinda un 95% de confianza de contener a la diferencia de medias de los niveles de exportación en el periodo 2006-2007

c) Realice una prueba de hipótesis para comparar si el nivel de exportación se ha mantenido igual. Use un nivel de significación del 1%. Interprete los resultados en el contexto del problema. Para evaluar la hipótesis de interés

H0 : D  0 H1 : D  0 α =0,01 sig = 0,165 >  no se rechaza H0.

Conclusión Existe suficiente evidencia estadística a un nivel de significación de 0,05 para no rechazar H0. Por lo tanto no podemos afirmar que los niveles de exportación han variado.

38

(bilateral) ,165

GUÍA DE LABORATORIO 3 TEMA: ANÁLISIS DE VARIANZA

39

ANÁLISIS DE VARIANZA DE UNA VÍA DISEÑO COMPLETO AL AZAR 1) Un exceso de ozono en el aire es señal de contaminación. Se tomaron seis muestras de aire en cada uno de cuatro sitios industriales y se determinó el contenido de ozono. Las concentraciones de ozono (en partes por millón) se presentan en la siguiente tabla.

Nº 1 2 3 4 5 6

I 0,08 0,10 0,09 0,07 0,09 0,06

Sitios II 0,15 0,09 0,11 0,10 0,08 0,13

III 0,13 0,10 0,15 0,09 0,09 0,17

IV 0,05 0,11 0,07 0,09 0,11 0,08

Creación del archivo En la ventana de Vista de variables: genere las variables: ozono y sitio. Los valores de la variable sitio deben estar codificadas de la siguiente forma:

Digite los datos en Vista de datos.

40

a) ¿Los datos proporcionan prueba suficiente que indiquen diferencias en el contenido medio de ozono entre los cuatro sitios? Use   0,05 .

En Dependientes: Ingrese la variable Ozono. En Factor: Ingrese la variable Sitio.

41

b) Verifique el supuesto de homogeneidad de varianzas. Use   0,05 .

c) A partir de los resultados de (a), use las pruebas de Duncan y DMS para probar

diferencias en los contenidos de concentraciones de ozono de los diferentes sitios. Use   0,05 . Para ello, en la ventana de Post hoc, seleccione las pruebas solicitadas.

42

Los resultados obtenidos se muestran a continuación: ANOVA de un factor

Con relación a la pregunta (b), verifique el supuesto de homogeneidad de varianzas. Use   0,05 . Las hipótesis a formular son: H0: Las varianzas del contenido de ozono entre los cuatro sitios son iguales H1: Al menos una varianza diferente al resto de los lugares.

Como sig =0,151 >   0,05 , entonces no se rechaza el supuesto de homogeneidad de las varianzas.

Con relación a la pregunta (a), ¿los datos proporcionan prueba suficiente que indiquen diferencias en el contenido medio de ozono entre los cuatro sitios? Use α=0,05.

Las hipótesis a formular son: H0: No hay diferencias en el contenido medio de ozono entre los cuatro sitios H1: Sí hay diferencias en el contenido medio de ozono entre los cuatro sitios

Como sig =0.035 <   0,05 , entonces se concluye que sí hay diferencias en el contenido medio de ozono entre los cuatro sitios.

43

Pruebas post hoc

Subconjuntos homogéneos Gráfico de las medias

Una limitación de esta forma de acceso a la prueba, es que no permite obtener los residuos del modelo que se establece en el análisis, en consecuencia no podemos realizar la verificación del supuesto de Normalidad de los errores. Por ello mostraremos otra forma de ingreso a la prueba: Analizar – Modelo lineal general - Univariante

44

Seleccionamos la variable de Dependiente (Concentración de ozono) y el Factor (Sitio) lo ubicamos como Factor Fijo.

Luego en Post hoc, seleccionamos el Factor Sitio y lo trasladamos al campo de Contrastes post hoc. Activamos las pruebas de DMS y Duncan

45

Continuamos y vamos a Guardar, en donde activaremos los Residuos Estandarizados

Continuamos y vamos a Opciones, para solicitar la Prueba de homogeneidad. Aquí encontramos el nivel de significación para las pruebas de Duncan, así que es importante observar con que nivel de significación se está realizando el estudio.

46

Los resultados que se obtienen son los siguientes:

Análisis de varianza univariante

47

Pruebas post hoc Sitio

Subconjuntos homogéneos

48

Hasta aquí no se ha presentado ninguna salida que permita evaluar la Normalidad de los Residuos, sin embargo en el archivo correspondiente a vista de datos podemos observar que aparece una nueva columna denominada RES_1 que corresponden a los Residuos de la variable en estudio

Aplicamos la Prueba no paramétrica de K-S de una muestra

49

Seleccionamos la variable Residuo para Concentración de ozono y la tomamos como variable a contrastar

Obtenemos como resultado la tabla correspondiente a la Prueba de Kolmogorov – Smirnov para una muestra de la variable Residuo para Concentración.

50

DISEÑO FACTORIAL: ANOVA DE DOS VÍAS Se condujo un experimento para determinar si la temperatura del fuego o la posición en el horno afectan la densidad de endurecimiento de un ánodo de carbón. Los datos son los siguientes:

Posición

1

2

800 570 565 583 528 547 521

Temperatura (Cº) 825 1063 1080 1043 988 1026 1004

850 565 510 590 526 538 532

Analice los datos al nivel de significación de 0.05. Solicitando el análisis para el diseño factorial

51

En Variable dependiente: colocar densidad En factores fijos: posición y temperatura

Dar click en Modelo

En modelo

Solicitar los gráficos de perfil

52

En la primera pantalla, dar clic en Opciones y solicitar el análisis para verificar la homogeneidad de varianzas. También solicite las estimaciones para las medias marginales.

Para obtener las comparaciones múltiples, en la primera pantalla dar click en Post Hoc y seleccionar DMS (en inglés LSD) y la prueba de Duncan.

53

Para estimar los residuales, siga el procedimiento siguiente:

54

yijk  yij. y ij.

Salidas

Análisis de varianza univariante

Factores inter-sujetos

Temperatura

Posición

800 825 850 1 2

Eti queta del valor 800 °C 825 °C 850 °C Posición 1 Posición 2

N 6 6 6 9 9

55

a Contraste de Levene sobre la igualdad de las varianzas error

Variable dependiente: Densidad F 2.572

gl1

gl2 5

12

Signif icación .084

Contrasta la hipótesis nula de que la v arianza error de la v ariable dependiente es igual a lo largo de todos los grupos. a. Diseño: Intersección+Temperatura+Posición+Temperat ura * Posición

Pruebas de los efectos i nter-sujetos Variable dependient e: Densidad

Fuente Modelo corregido Intersección Temperatura Posición Temperatura * Posición Error Total Total corregida

Suma de cuadrados tipo III 953320.278a 9072380.056 945342.111 7160.056 818.111 5370.667 10031071.0 958690.944

gl 5 1 2 1 2 12 18 17

Media cuadrática 190664.056 9072380.1 472671.056 7160.056 409.056 447.556

F 426.012 20270.958 1056.117 15.998 .914

Signif icación .000 .000 .000 .002 .427

a. R cuadrado = .994 (R cuadrado corregida = . 992)

Medias marginales estimadas

1. Media global Variable dependiente: Densidad Media 709.944

Error típ. 4.986

Intervalo de confianza al 95%. Lí mite inferior Lí mite superior 699.080 720.809

2. Temperatura

Estimaciones Variable dependiente: Densi dad Temperatura 800 °C 825 °C 850 °C

Media 552.333 1034.000 543.500

Error típ. 8.637 8.637 8.637

Intervalo de confianza al 95%. Lí mite inferior Lí mite superior 533.516 571.151 1015.182 1052.818 524.682 562.318

56

Comparaciones por pares Variable dependiente: Densidad

(I) Temperat ura 800 °C 825 °C 850 °C

Diferenci a ent re medias (I-J) -481.667* 8.833 481.667* 490.500* -8.833 -490.500*

(J) Temperat ura 825 °C 850 °C 800 °C 850 °C 800 °C 825 °C

Error típ. 12.214 12.214 12.214 12.214 12.214 12.214

Intervalo de confianza al 95 % a para la di ferencia a Significación Lí mite inferior Lí mite superior .000 -508.279 -455.054 .483 -17.779 35.446 .000 455.054 508.279 .000 463.888 517.112 .483 -35.446 17.779 .000 -517.112 -463.888

Basadas en las medias marginales estimadas. *. La diferenci a de las medias es significativa al nivel .05. a. Ajust e para comparaciones múltiples: Diferencia menos significat iva (equivalente a la ausenci a de ajust e).

Contrastes univariados Variable dependiente: Densidad Suma de cuadrados Contraste 945342.111 Error 5370.667

gl 2 12

Media cuadrática 472671.056 447.556

F 1056.117

Significación .000

Cada prueba F contrasta el efecto si mple de Temperatura en cada combinación de niveles del rest o de los efect os mostrados. Est os contrastes se basan en las comparaciones por pares, linealmente independi entes, ent re las medias marginales estimadas.

3. Posición

Estimaciones Variable dependiente: Densidad Posición Posición 1 Posición 2

Media 729.889 690.000

Error típ. 7.052 7.052

Intervalo de confianza al 95%. Lí mite inferior Lí mite superior 714.524 745.254 674.635 705.365

Comparaciones por pares Variable dependiente: Densidad

(I) P osición Posición 1 Posición 2

(J) P osición Posición 2 Posición 1

Diferenci a ent re medias (I-J) 39.889* -39.889*

Error típ. 9.973 9.973

Interval o de confianza al 95 % a para la di ferencia a Significación Límite i nferior Límite superior .002 18.160 61.618 .002 -61.618 -18.160

Basadas en las medias marginales estimadas. *. La diferencia de las medias es si gni fi cativa al nivel .05. a. Ajust e para comparaci ones múltiples: Diferencia menos significativa (equivalente a l a ausencia de ajuste).

57

Contrastes univariados Variable dependiente: Densidad

Contraste Error

Suma de cuadrados 7160.056 5370.667

gl 1 12

Media cuadrática 7160.056 447.556

F 15.998

Significación .002

Cada prueba F contrasta el efecto si mple de Posi ción en cada combi nación de nivel es del resto de los efectos mostrados. Estos contrastes se basan en las comparaciones por pares, li nealmente independientes, entre las medias marginal es estimadas.

4. Temperatura * Posición Variable dependiente: Densi dad Temperatura 800 °C 825 °C 850 °C

Posición Posición 1 Posición 2 Posición 1 Posición 2 Posición 1 Posición 2

Media 572.667 532.000 1062.000 1006.000 555.000 532.000

Error típ. 12.214 12.214 12.214 12.214 12.214 12.214

Intervalo de confianza al 95%. Lí mite inferior Lí mite superior 546.054 599.279 505.388 558.612 1035.388 1088.612 979.388 1032.612 528.388 581.612 505.388 558.612

Pruebas post hoc

Temperatura Comparaciones múltiples Variable dependiente: Densidad

DMS

(I) Temperatura 800 °C 825 °C 850 °C

(J) Temperatura 825 °C 850 °C 800 °C 850 °C 800 °C 825 °C

Diferencia entre medias (I-J) -481.67* 8.83 481.67* 490.50* -8.83 -490.50*

Error típ. 12.214 12.214 12.214 12.214 12.214 12.214

Intervalo de confianza al 95%. Significación Límite inferior Límite superior .000 -508.28 -455.05 .483 -17.78 35.45 .000 455.05 508.28 .000 463.89 517.11 .483 -35.45 17.78 .000 -517.11 -463.89

Basado en las medias observadas. *. La diferencia de medias es significativa al nivel .05.

58

Subconjuntos homogéneos Densi dad

Duncana,b

Temperatura 850 °C 800 °C 825 °C Significación

N 6 6 6

Subconjunto 1 2 543.50 552.33 1034.00 .483 1.000

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo I El térmi no error es la Media cuadráti ca (Error) = 447.556. a. Usa el tamaño muestral de la media armónica = 6.000 b. Alfa = .05.

Gráficos de perfil

Medias marginales estimadas de Densidad Posición Posición 1 Posición 2

Medias marginales estimadas

1100

1000

900

800

700

600

500 800 °C

825 °C

850 °C

Temperatura

Medias marginales estimadas de Densidad Temperatura 800 °C 825 °C 850 °C

Medias marginales estimadas

1100

1000

900

800

700

600

500 Posición 1

Posición 2

Posición

59

DISEÑO BLOQUES COMPLETOS ALEATORIOS 2) Un ingeniero industrial prueba cuatro distribuciones diferentes para el piso de una tienda; encarga a cada una de seis cuadrillas construir una subdivisión y mide los tiempos de construcción (en minutos) como sigue: Distribución 1 Distribución 2 Distribución 3 Distribución 4 Cuadrilla A

48.2

53.1

51.2

58.6

Cuadrilla B

49.5

52.9

50.0

60.1

Cuadrilla C

50.7

56.8

19.9

62.4

Cuadrilla D

48.6

50.6

47.5

57.5

Cuadrilla E

47.1

51.8

49.1

55.3

Cuadrilla F

52.4

57.2

53.5

61.7

Pruebe en el nivel de significación 0,01 si las cuatro distribuciones del piso producen tiempos de construcción diferentes y si algunas de las cuadrillas de trabajo son consistentemente más rápidas al construir la subdivisión que las otras.

Análisis de varianza utilizando: ANOVA de dos factores

60

61

Los resultados obtenidos son:

Análisis de varianza univariante

62

Pruebas post hoc Distribución

Subconjuntos homogéneos

63

Cuadrilla

64

Subconjuntos homogéneos

Gráficos de perfil

65

Análisis de Normalidad de los Residuos

66

Ejecutamos la prueba de K-S para los Residuos

67

Análisis de Homogeneidad de varianzas para el Factor Distribución. Observe que en esta ocasión ya no consideramos al bloque (Cuadrilla) como un Factor fijo.

68

Continuar y Aceptar

69

GUÍA DE LABORATORIO 4 TEMA: PRUEBAS CHI CUADRADO

70

Contenido Teórico: 

Prueba de Independencia



Prueba de Homogeneidad



Prueba de Bondad de ajuste

Introducción Una de las mayores utilidades de la distribución Ji-Cuadrado está en que permite comparar frecuencias observadas (frecuencias obtenidas en un experimento o muestreo) con frecuencias esperadas según un modelo supuesto (hipótesis nula). Esta característica de la distribución Ji-cuadrado permite efectuar las siguientes pruebas:  Prueba de independencia.  Prueba de homogeneidad de subpoblaciones.  Pruebas de bondad de ajuste a una distribución de probabilidades. La metodología en cada uno de los tres casos es muy similar. La diferencia principal está en la forma en que se calculan las frecuencias esperadas, ya que estas dependerán de la hipótesis nula en cuestión.

I. PRUEBA DE INDEPENDENCIA Y DE HOMOGENEIDAD Caso1. Cuando cada fila de la BD representa varios casos. Los grandes almacenes Premium vende vales de regalo durante la temporada de Navidad. El gerente de ventas, Leo Marinni, quiere determinar si el valor de un vale tiene alguna relación con lo que el cliente compra con dicho vale. Los datos recogidos de una muestra de clientes que asistieron durante el último mes son:

Departamento Electrodomésticos Ropa Herramientas

Frecuencias observadas Valor del vale $10 $50 $100+ 22 26 54 33 31 22 41 43 19

Pruebe si el valor del vale se relaciona con lo que el cliente compra. Use  = 0,05.



1° Digitar la siguiente base de datos:

71



2° Ponderar los casos.

Ponderar los casos por la variable N° clientes (frecuencia)

72



3° Finalmente correr el programa para tablas de contingencia.

Dar clic en Estadísticos para seleccionar la opción de prueba chi-cuadrado

Para obtener las frecuencias esperadas y los porcentajes fila, columna y total, ingresar a Casillas y marcar lo que se necesite analizar: 73

Ho: Existe independencia entre variables (departamento y valor del vale) H1: No existe independencia entre variables A la vista de los resultados el Valor-P = 0.000 es menor que nuestro nivel de significación 5% por lo que se rechaza la hipótesis nula. Por lo tanto, con un nivel de significación del 5% no podemos afirmar que exista independencia entre las variables sujetas a evaluación.

Caso 2. Cuando cada fila de la BD representa un solo caso. Para la explicación del tema tomaremos las variables cualitativas nivel de educación y región de nacimiento de la base de datos encuesta.sav. Los 300 datos se presentan de la siguiente manera:

74

Luego, en la opción: estadísticos marcar chi-cuadrado

75

Los resultados que se obtienen se muestran a continuación:

Ho: Existe independencia entre variables (Región de nacimiento y nivel educativo) H1: No existe independencia entre variables A la vista de los resultados el Valor-P = 0.722 es mayor que nuestro nivel de significación 5% por lo que no se rechaza la hipótesis nula. Por lo tanto, con un nivel de significación del 5% podemos afirmar que existe independencia entre las variables sujetas a evaluación. 76

NOTA: Cabe recordar que la prueba chi-cuadrado propone como condición que las frecuencias esperadas sean mayores que 5. En el último reporte del SPSS se indica que el 48% de las casillas tienen frecuencia esperada inferior a 5 por lo que será necesario juntar columnas (en este caso).

II. PRUEBA DE BONDAD DE AJUSTE SPSS nos permite realizar pruebas de bondad de ajuste. Es decir, contrastar si las frecuencias observadas en cada una de las clases de una variable categórica varían de forma significativa de las frecuencias que se esperaría encontrar si la muestra hubiese sido extraída de una población con una determinada distribución de frecuencias. Esta prueba Chi-cuadrado se obtiene a partir del menú Pruebas no paramétricas dentro del menú principal Analizar. En el cuadro de diálogo debemos introducir la variable categórica que queremos analizar y posteriormente las frecuencias esperadas bajo la hipótesis que queremos contrastar. En el apartado de valores esperados debemos elegir, bien la opción de homogeneidad a lo largo de todas las clases, o bien debemos introducir, en el mismo orden en el que aparecen en el archivo de datos, las frecuencias esperadas. Debe recordarse que la suma de los valores observados en la muestra debe ser igual a la suma de valores esperados.

CASO 1. FRECUENCIAS ESPERADAS IGUALES Tomaremos los datos del archivo: encuesta.sav

77

Seleccionaremos la variable NIVEDUC (Nivel educativo) para determinar, inicialmente si el porcentaje de personas para cada categoría de nivel educativo es el mismo. La opción que aparece marcada por defecto en Rango esperado, es decir “obtener de los datos”, implica que cada valor de la variable será considerado una categoría. La opción que aparece marcada por defecto en Valores esperados, es decir “todas las categorías iguales”, implica que la distribución de probabilidades es uniforme para todas las categorías consideradas (para nuestro ejemplo 296 datos entre 5 categorías).

Los resultados obtenidos son:

78

Ho: La distribución de nivel educativo es la misma para las 5 categorías H1: La distribución de nivel educativo no es la misma para las 5 categorías A la vista de los resultados el Valor-P = 0.000 es menor que nuestro nivel de significación 5% por lo que se rechaza la hipótesis nula.

CASO 2. FRECUENCIAS ESPERADAS DESIGUALES Alternativamente tenemos la opción de especificar las frecuencias esperadas ó porcentuales para cada categoría de la variable categórica. El orden en que se especifiquen los datos corresponde a los valores de la variable en orden ascendente. Recordemos previamente que la codificación asignada a esta variable es la siguiente:

79

Asumamos que lo que se propone como hipótesis estipula que el porcentaje de la categoría Primaria es 20%, Secundaria 50%, Preparatoria10%, Universidad 15%, Especialización 5%. En la opción Valores esperados marcamos valores luego ingresamos cada porcentaje y pulsamos añadir. Luego aceptar: Los resultados obtenidos se muestran a continuación:

80

A la vista de los resultados el Valor-P = 0.000 es menor que nuestro nivel de significación 5% por lo que se rechaza la hipótesis nula.

81

GUÍA DE LABORATORIO 5 TEMA: REGRESIÓN LINEAL Y NO LINEAL

82

Contenido Teórico: 

Matriz de correlaciones.



Regresión lineal simple.



Regresión curvilineal.

Introducción En el análisis estadístico se tienen métodos que nos permiten determinar si dos o más variables se relacionan. La relación entre variables nos permite disponer de los elementos suficientes para, en base a una muestra de pares de datos de las variables, realizar estimaciones de las proyecciones para uno o más datos de una de las variables involucradas. En esta oportunidad nos ocuparemos de la correlación y la regresión entre los datos de dos variables numéricas utilizando SPSS para el análisis correspondiente. A continuación se muestra la base de datos con la que se explicará los procedimientos involucrados al realizar un análisis de regresión lineal simple. Los datos corresponden a las ventas totales por año de cada una de 11 regiones en las que una compañía opera. Dicha compañía se dedica a la venta de repuestos para automóviles. Se pretende estimar el valor de las ventas futuras conociendo el número de distribuidoras establecidas en cada región y el número de automóviles vendidos para cada región.

83

MATRIZ DE CORRELACIONES El primer paso que daremos consiste en revisar si existe correlación entre las variables de esta base de datos, con este fin realizaremos la matriz de correlaciones. Analizando esta matriz se podrá determinar cuál de las variables independientes: Región, N° de distribuidoras o N° de autos vendidos, está más correlacionada con la variable dependiente Ventas. Para realizar la matriz de correlaciones:

Menú Analizar >> Correlaciones >> Bivariadas:

En el cuadro dialogo de Correlaciones Bivariadas:





Elige las variables Ventas, Nro_Distrib y Nro_Autos. Utiliza el Mouse y la tecla Ctrl.

  Arrastra y suelta las variables en el panel en blanco Variables.



 Revise que este activado Pearson en

Coeficiente de correlación.

84

 Clic en aceptar.

Obtenemos el siguiente resultado:

Se observa que la variable ventas está más correlacionada con la variable Número de distribuidoras (correlación 0.739) por lo que un primer paso será realizar un análisis de regresión lineal simple con esta variable independiente.

REGRESION LINEAL SIMPLE ENTRE LA INDEPENDIENTE MÁS CORRELACIONADA CON Y

VARIABLE

La secuencia es: 85

Analizar >> Regresión >> Lineal, se mostrará el siguiente cuadro de diálogo:

En el cuadro dialogo que se habre:





Arrastre la Variable Ventas a la casilla de Dependientes.

 

Arrastre la variable Nro_distrb a la casilla de Independiente.

 Clic en Aceptar.

86

Por el momento sólo se procederá a obtener la ecuación del modelo así como algunos valores representativos para la validación de dicho modelo. Un análisis más riguroso del modelo y su validación se hará para el caso de regresión lineal múltiple.

Resultados obtenidos: Resumen del modelo Modelo 1

R .739a

R cuadrado corregida .496

R cuadrado .546

Error típ. de la estimación 9.7718

a. Variables predictoras: (Constante), Nro distribuidoras

El coeficiente de determinación, denotado por R2 (0.546) implica que el 54.6% de variación en las ventas pueden ser explicadas por el modelo de regresión. ANOVAb Modelo 1

Regresión Residual Total

Suma de cuadrados 1033.836 859.393 1893.229

gl 1 9 10

Media cuadrática 1033.836 95.488

F 10.827

Sig. .009a

a. Variables predictoras: (Constante), Nro distribuidoras b. Variable dependient e: Ventas (mills $)

La tabla de Análisis de Varianza permite realizar la prueba de significación global del modelo, se propone las siguientes hipótesis:

H o : 1  0 En forma conjunta las variables no contribuye n al modelo H1 :  i  0

Al menos una variable es significat iva para el modelo

Analizando el P-Valor (0.009) (Sig), el cual es inferior al 5% (nivel de significación propuesto usualmente para la prueba), se decide que se debe rechazar la hipótesis nula con lo cual concluimos que la variable Número de distribuidoras sí contribuye significativamente al modelo.

Coeficientesa

Modelo 1

(Constante) Nro distribuidoras

Coef icientes no estandarizados B Error típ. 10.881 6.409 .012 .004

Coef icientes estandarizad os Beta .739

t 1.698 3.290

Sig. .124 .009

a. Variable dependiente: Ventas (mills $)

87

El modelo estimado para el presente caso será:

Vˆentas  10.881  0.012( Nro de distribuid oras) Además de la prueba de verificación global se puede realizar la prueba de verificación individual de la variable independiente.

H o :  i  0 La variable no es significat iva para el modelo H 1 :  i  0 La variable es significat iva para el modelo

Para el caso desarrollado (regresión lineal simple), esta prueba es análoga a la prueba de verificación global.

Una forma gráfica de verificar la relación lineal entre Y con X es realizar un gráfico de dispersión, el cuál muestra la posible tendencia y/o relación posible entre variable dependiente e independiente. La secuencia para obtener dicho gráfico es la siguiente:

88

En este cuadro dialogo se elige Dispersión simple.

En el cuadro de diálogo (Dispersión simple) se ingresará la información de la siguiente manera:

El resultado que se obtiene es el siguiente:

89

REGRESIÓN NO LINEAL / CURVILINEAL

En el análisis de regresión no todas las relaciones de variables se comportan de manera lineal, en algunos casos la relación se da de manera curvilínea. Se puede determinar este tipo de relación con el análisis del diagrama de dispersión.

Analizaremos los diferentes modelos curvilíneos que puedan formarse para determinar cuál de ellos es el “mejor”. Los datos se muestran a continuación: La secuencia para realizar una regresión curvilínea es la siguiente: Menú Analizar >> Regresión >> Estimación Curvilínea. . .



 Arrastre la variable Salario a Dependientes

 Arrastre la variable  



Experiencia Independientes

a



Verifique que este activados los Modelos de regresión.

Aceptar

90

Como se muestra, tenemos la posibilidad de elegir entre varios modelos. Para desarrollar nuestro ejemplo hallaremos los coeficientes estimados y la tabla de análisis de varianza de los modelos: Lineal, Cuadrático, Potencia y Exponencial. Los resultados que obtenemos en la tercera tabla son los siguientes: Resumen del modelo y estimaciones de los parámetros Variable dependiente: Salario (miles US$) Ecuación Resumen del modelo

Estimaciones de los parámetros

R cuadrado ,757

56,218

1

18

,000

26,270

1,334

Logarítmica

,850

102,140

1

18

,000

18,034

10,768

Inversa

,626

30,149

1

18

,000

45,516

-34,376

Cuadrático

,876

60,189

2

17

,000

19,126

3,363

Potencia

,800

71,854

1

18

,000

20,614

,309

Exponencial

,645

32,662

1

18

,000

26,521

,036

Lineal

F

gl1

gl2

Sig.

Constante

b1

b2

-,087

La variable independiente es: Años de experiencia.

Se puede apreciar que los Valores P (Sig) son inferiores a  = 0.05, por tanto en todos los casos existe correlación. Si estudiamos los valores de R2 (Rcuadrado) nos podemos percatar de que el modelo cuadrático es el modelo más eficiente (más cercano a 1). Mientras que el modelo logarítmico es el segundo. Para decidir realizamos nuevamente el análisis con los modelos con mayor eficiencia (mayor R2)

91

Logarítmica

Resumen del modelo R

R cuadrado

,922

R cuadrado

Error típico de

corregida

la estimación

,850

,842

4,018

La variable independiente es Años de experiencia. ANOVA Suma de

gl

Media

cuadrados Regresión Residual Total

F

Sig.

cuadrática

1648,640

1

1648,640

290,538

18

16,141

1939,178

19

102,140

,000

La variable independiente es: Años de experiencia. Coeficientes Coeficientes no estandarizados

Coeficientes

t

Sig.

estandarizados B

Error típico

ln(Años de experiencia)

10,768

1,065

(Constante)

18,034

2,099

Beta ,922

10,106

,000

8,590

,000

En este caso el valor P para el coeficiente de la variable independiente (años de experiencia) es menor que  = 0.05, por tanto se puede decir que es significativa para el modelo.

92

Cuadrático Resumen del modelo R

R cuadrado

,936

R cuadrado

Error típico de la

corregida

estimación

,876

,862

3,757

La variable independiente es Años de experiencia. ANOVA Suma de

gl

Media

cuadrados Regresión Residual Total

F

Sig.

cuadrática

1699,211

2

849,606

239,967

17

14,116

1939,178

19

60,189

,000

La variable independiente es Años de experiencia.

Coeficientes Coeficientes no estandarizados

Coeficientes

t

Sig.

estandarizados B

Error típico

Beta

Años de experiencia

3,363

,519

2,194

6,480

,000

Años de experiencia ** 2

-,087

,022

-1,367

-4,040

,001

19,126

2,232

8,568

,000

(Constante)

En este caso el valor P para los coeficientes de la variable independiente (años de experiencia) son menores que  = 0.05, por tanto se puede decir que son significativas para el modelo.

93

Cúbico Resumen del modelo R

R cuadrado

,936

R cuadrado

Error típico de la

corregida

estimación

,876

,853

3,872

La variable independiente esAños de experiencia.

ANOVA Suma de

gl

Media

cuadrados Regresión Residual Total

F

Sig.

cuadrática

1699,253

3

566,418

239,925

16

14,995

1939,178

19

37,773

,000

La variable independiente es Años de experiencia.

Coeficientes Coeficientes no estandarizados

Coeficientes

t

Sig.

estandarizados B

Error típico

Beta

Años de experiencia

3,300

1,303

2,153

2,532

,022

Años de experiencia ** 2

-,081

,134

-1,259

-,602

,556

Años de experiencia ** 3

,000

,004

-,070

-,053

,959

19,255

3,356

5,737

,000

(Constante)

En este caso el valor P para los coeficientes de grado 2 y 3 de la variable independiente (años de experiencia) son mayores que  = 0.05, por tanto se puede decir que no son significativas para el modelo.

En este caso el modelo que mejor se ajusta es el cuadrático.

94

Entonces para la relación Experiencia – Salario el modelo que mejor se ajusta es el cuadrático con una eficiencia de 0.876 (R2).

95

GUÍA DE LABORATORIO 6 TEMA: REGRESIÓN LINEAL MÚLTIPLE

96

Contenido: 

Correlación entre las variables del modelo.



Análisis de Multicolinealidad



Método de selección de variables: Hacia delante.



Modelo final.



Supuestos: Normalidad de los errores y homocedasticidad.

Para la explicación de los procedimientos relacionados con el análisis de regresión múltiple, se usará el siguiente caso: Estudios financieros han mostrado que el precio de una acción (P) está en razón directa del nivel de endeudamiento de la empresa emisora (D) y con el dividendo (DR), pero en razón inversa del número de acciones en circulación (SO). Los datos indicados en la tabla están en dólares para P, en cientos de dólares para D, en dólares para DR y en millares de acciones en circulación para SO.

Precio de una Nivel de Dividendo Número de acciones acción (P) endeudamiento (D) (DR) en circulación(SO) 52,50

12,00

2,10

100

14,25

3,40

0,69

37

35,21

7,10

1,70

68

45,21

10,40

1,81

90

17,54

4,00

0,70

32

22,00

5,10

0,88

45

37,10

8,50

1,50

78

29,12

6,70

1,20

60

46,32

10,65

1,85

95

49,30

11,34

2,00

99

Correlación entre las variables del modelo En un problema de regresión lineal múltiple, en muchos de los casos las variables independientes, están en cierto grado correlacionadas unas con otras. Siempre que sea posible, debe evitarse incluir variables independientes que están fuertemente correlacionadas. Se realizará el análisis de las correlaciones entre las variables involucradas en el estudio

97

Se considera las variables independientes: Nivel de endeudamiento de la empresa emisora (D), Dividendo, número de acciones en circulación Definimos las variables en SPSS e introducimos los datos:

Para determinar la tabla de correlación entre las variables involucradas en el modelo realizamos lo siguiente:

Analizar >> Correlaciones >> Bivariadas…



Elija las variables y arrástrelas al cuadro Variables

   



Verifique que este activado Pearson en Coeficientes de correlación.



Aceptar.

98

Aquí seleccionamos las variables de interés, para obtener el siguiente resultado: Correlaciones

Precio de una acción (Y) (US$) Correlación de Precio de una Pearson acción (Y) Sig. (bilateral) (US$) N Correlación de Nivel de Pearson endeudamien to (X1) (x100 Sig. (bilateral) US$) N Dividendo (X2) (US$)

Número de acciones en circulación (X3) (miles)

Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral)

Nivel de endeudamient Dividendo (X2) o (X1) (x100 (US$) US$)

1

10 ,995

**

,995

**

,985

**

,991

**

,000

,000

,000

10

10

10

1

**

,000

,965

**

,000 10

10

10

**

**

1

,965

,991

,000

10 ,985

Número de acciones en circulación (X3) (miles)

,975

**

,000

,000

10

10

10

10

**

**

**

1

,991

,991

,000

,975

,000

,000

,000

10

10

10

N

10

**. La correlación es significativa al nivel 0,01 (bilateral).

Podemos observar que existe una alta correlación entre la variable dependiente (precio de una acción) y independientes, pero también la correlación es alta entre las variables independientes.

Correlación entre las variables del modelo

El problema de multicolinealidad se presenta cuando existe una alta correlación entre variables independientes, como es el caso: Nivel de endeudamiento y el Número de acciones en circulación.0,991. Además se comprueba la multicolinealidad siguiendo el criterio propuesto en clase: Menor correlación entre Y y las X´s 0,985. Existe correlación entre X1 y X3 (entre Nivel de endeudamiento y el Número de acciones en circulación con un valor de 0,991 mayor que 0,985) Aún en la presencia detectada de multicolinealidad estimaremos el modelo para determinar lo adecuado que puede ser su uso para la predicción: Seguimos la siguiente secuencia: Menú Analizar >> Regresión >> Lineales… 99





Traslade la variable Precio de una Acción (P) a la casilla de Dependientes.



Traslade las variables restantes a la casilla de Independientes.





Aceptar

 

Obtenemos los resultados siguientes:

Resumen del modelo Modelo

1

R

R cuadrado

1,000

a

R cuadrado

Error típ. de la

corregida

estimación

1,000

,999

,36223

a. Variables predictoras: (Constante), Número de acciones en circulación (X3) (miles), Dividendo (X2) (US$), Nivel de endeudamiento (X1) (x100 US$)

El porcentaje de variación que es explicado por la ecuación de regresión es del 100%. a

ANOVA Modelo

Suma de

gl

Media

cuadrados Regresión 1

Residual Total

F

Sig.

cuadrática

1685,572

3

561,857

,787

6

,131

1686,359

9

4282,036

,000

b

a. Variable dependiente: Precio de una acción (Y) (US$) b. Variables predictoras: (Constante), Número de acciones en circulación (X3) (miles), Dividendo (X2) (US$), Nivel de endeudamiento (X1) (x100 US$)

100

En forma conjunta las variables son significativas para el modelo, considerando un nivel de significación del 5% (P-Valor = 0,000). Las hipótesis que se proponen son las siguientes: H0 : i = 0 H1 : i ≠ 0 El siguiente cuadro permite analizar la contribución individual de cada variable regresora al modelo propuesto: Coeficientes

Modelo

a

Coeficientes no estandarizados B

Coeficientes tipificados

Error típ.

(Constante)

-,480

,374

Nivel de endeudamiento (X1) (x100 US$)

3,371

,294

10,727 -,097

t

Sig.

Beta -1,283

,247

,771

11,452

,000

1,022

,422

10,493

,000

,042

-,185

-2,297

,061

1 Dividendo (X2) (US$) Número de acciones en circulación (X3) (miles)

a. Variable dependiente: Precio de una acción (Y) (US$)

En forma individual, sólo el término constante no es significativo para el modelo pues su P-Valor (0,247) es mayor al nivel de significación usual (5%). Las tres variables contribuyen significativamente al modelo. H0 : i = 0 La variable i no es significativa para el modelo H1 : i ≠ 0 La variable i es significativa para el modelo

Método de selección de variables: Hacia delante.

Se ha determinado hasta el momento que el modelo presenta deficiencias puesto que se ha detectado un problema de multicolinealidad. Recuerde que se ha observado una alta correlación entre las variables: Nivel de endeudamiento (X1) y el Número de acciones en circulación (X3). La correlación entre estas dos variables es más alta que la correlación entre el precio de una acción y los dividendos. El siguiente paso consiste en retirar las variables que presentan multicolinealidad y analizar el nuevo modelo resultante. Lo propuesto se puede realizar en la opción: Método. Al seleccionar Introducir, el programa irá ingresando variables al modelo y a la vez verificará su contribución. 101

Procedimiento: Menú Analizar >> Regresión >> Lineales . . .



En el cuadro dialogo sólo se debe elegir Adelante en Método.





Aceptar

Obtenemos el siguiente resultado: Resumen del modelo Model

R

o 1 2

R

R cuadrado

Error típ. de

cuadrado

corregida

la estimación

,995

a

,990

,988

1,47901

1,000

b

,999

,999

,45976

a. Variables predictoras: (Constante), Nivel de endeudamiento (X1) (x100 US$) b. Variables predictoras: (Constante), Nivel de endeudamiento (X1) (x100 US$), Dividendo (X2) (US$) a

ANOVA Modelo

Suma de

gl

Media

cuadrados Regresión 1

2

F

cuadrática

1668,859

1

1668,859

17,500

8

2,187

Total

1686,359

9

Regresión

1684,879

2

842,440

1,480

7

,211

1686,359

9

Residual

Residual Total

Sig.

b

762,918

,000

3985,359

,000

c

a. Variable dependiente: Precio de una acción (Y) (US$) b. Variables predictoras: (Constante), Nivel de endeudamiento (X1) (x100 US$) c. Variables predictoras: (Constante), Nivel de endeudamiento (X1) (x100 US$), Dividendo (X2) (US$)

102

Coeficientes Modelo

Coeficientes no

Coeficientes

estandarizados

tipificados

B (Constante) 1

a

Error típ. ,407

1,332

4,350

,157

(Constante)

-,814

,437

Nivel de endeudamiento

2,785

,186

9,437

1,084

Nivel de endeudamiento

t

Sig.

Beta ,306

,768

27,621

,000

-1,862

,105

,637

14,943

,000

,371

8,706

,000

,995

(X1) (x100 US$)

2

(X1) (x100 US$) Dividendo (X2) (US$)

a. Variable dependiente: Precio de una acción (Y) (US$) Variables excluidas Modelo

Beta dentro

t

a

Sig.

Correlación

Estadísticos de

parcial

colinealidad Tolerancia

Dividendo (X2) (US$) 1

Número de acciones en

,371

b

8,706

,000

,957

,069

,279

b

1,020

,342

,360

,017

c

-2,297

,061

-,684

,012

circulación (X3) (miles) 2

Número de acciones en

-,185

circulación (X3) (miles)

a. Variable dependiente: Precio de una acción (Y) (US$) b. Variables predictoras en el modelo: (Constante), Nivel de endeudamiento (X1) (x100 US$) c. Variables predictoras en el modelo: (Constante), Nivel de endeudamiento (X1) (x100 US$), Dividendo (X2) (US$)

Modelo final.

Luego, el programa nos entrega el “mejor modelo”. En este caso las variables de predicción seleccionadas son “Nivel de endeudamiento (X1) y Dividendos(X2), observe que X1 y X3 no deberían de estar juntos en el modelo. Aquí se descartó la variable X3. Nótese que se ha seleccionado el modelo con las variables X1 y X3 puesto que en la tabla Resumen del modelo, el valor de R cuadrado es mayor que si se eligiera el modelo con solo la variable X1 (0,990 contra 0,999)

103

Resumen del modelo

Modelo

R

1

1,000

R cuadrado

Error típ. de la

corregida

estimación

R cuadrado a

,999

,999

,45976

a. Variables predictoras: (Constante), Dividendo (X2), Nivel de endeudamiento (X1)

b

ANOVA Suma de Modelo 1

cuadrados Regresión Residual Total

gl

Media cuadrática

1684,879

2

842,440

1,480

7

,211

1686,359

9

F

Sig.

3985,359

,000

a

a. Variables predictoras: (Constante), Dividendo (X2), Nivel de endeudamiento (X1) b. Variable dependiente: Precio de una acción (y)

Coeficientes

a

Coeficientes no estandarizados B

Modelo (Constante)

Error típ.

Coeficientes tipificados

t

Sig.

Beta

,407

1,332

,306

,768

Nivel de endeudamiento (X1) (x100 US$)

4,350

,157

,995 27,621

,000

(Constante)

-,814

,437

-1,862

,105

Nivel de endeudamiento (X1) (x100 US$)

2,785

,186

,637 14,943

,000

Dividendo (X2) (US$)

9,437

1,084

,371

,000

1

2

8,706

a. Variable dependiente: Precio de una acción (Y) (US$)

Tenemos entonces que: Precio de una acción = - 0,814 + 2,785 Nivel de endeudamiento + 9,437 Dividendo Interpretación: b0: No tiene sentido b1: Para un dividendo constante, por cada $100 adicionales en el Nivel de endeudamiento, el Precio de una acción aumenta en $2,785. b2: Para un Nivel de endeudamiento constante, por cada dólar adicional en los dividendos, el Precio de una acción aumenta en $9,437.

104

Supuestos de la regresión lineal múltiple El modelo de regresión lineal múltiple tiene como supuestos la normalidad de los errores y la homocedasticidad (igualdad de varianzas a lo largo de la distribución). Una forma de diagnostico de estos supuestos se realiza mediante la observación de la nube de puntos de la relacion entre los valores predichos (pronosticados) y los errores. La gráfica debe realizarse colocando en el eje Y (eje vertical) los valores de los errores y en el eje X (eje horizontal) los valores predichos, se espera que los puntos se distribuyan alrededor del valor de error 0. Si los errores están más distribuidos en la zona superior (errores mayores que cero) o en la zona inferior (errores menores que cero) es señal de falta de normalidad de los errores. Si la distribución de los errores tiene forma de embudo es indicativo de heterocidad y si los errores tienen forma curva indican falta de linealidad. Otra forma de verificar la normalidad de los errores es la siguiente:

Supuesto de normalidad. Otro supuesto del modelo es la normalidad que presentan los errores. Para verificar este supuesto podemos realizar el “gráfico de probabilidad normal”.



Lo primero que se debe hacer es seleccionar la opción “guardar”  y en el cuadro de diálogo que se muestra marcar las pociones: Residuos: No tipificados  y Valores Pronosticados: No tipificados . Los valores de los residuos se generaran automáticamente y se guardaran en dos columnas adicionales en nuestra base de datos.





105

El siguiente paso es ingresar a la opción “gráficos” y marcar la opción de gráfico de probabilidad normal.

106

Supuesto de homocedasticidad Analizar/Regresión/lineales… en gráficos , se selecciona y se transfiere al eje Y la variable ZRESISD  , se selecciona y se transfiere al eje X la variable ZPRED , …

   

 

 

Continuar/ Aceptar.

107

Related Documents

Muestreo
June 2020 20
Muestreo
November 2019 19
Muestreo
October 2019 31
Muestreo
May 2020 9

More Documents from ""