“UNIVERSIDAD CATÓLICA DE TRUJILLO BENEDICTO XVI”
FACULTAD DE INGENIERÍA: ESCUELA PROFESIONAL DE INGENIERÍA DE MINAS TEMA: TRABAJO DE ESTADISTICA
ALUMNO: López Garíza, Jonel CURSO: TESIS V DOCENTE: Vargas Alva Ylder Heli CICLO: VII TURNO: Viernes 3.45 pm – 6:45 pm SEMESTRE ACADÉMICO: 2018 – I MOCHE - PERÚ 2018 1
I.
ESTIMACION DE INTERVALOS DE CONFIANZA
Una estimación del intervalo de confianza es un rango de números, llamado intervalo, construido alrededor de la estimación puntual. El intervalo de confianza se construye de manera que la probabilidad del parámetro de la población se localice en algún lugar dentro del intervalo conocido. Suponga que quiere estimar la media de todos los alumnos en su universidad.
Sin embargo, la media de la muestra puede variar de una muestra a otra porque depende de los elementos seleccionados en la muestra. Tomando en cuenta la variabilidad de muestra a muestra, se aprenderá a desarrollar la estimación del intervalo para la media poblacional.
Estimación del intervalo de confianza para la media
2
Se emplea la siguiente fórmula:
Donde: Z = valor crítico de la distribución normal estandarizada Se llama valor crítico al valor de Z necesario para construir un intervalo de confianza para la distribución. El 95% de confianza corresponde a un valor (de 0,05. El valor crítico Z correspondiente al área acumulativa de 0,975 es 1,96 porque hay 0,025 en la cola superior de la distribución y el área acumulativa menor a Z = 1,96 es 0,975. Un nivel de confianza del 95% lleva a un valor Z de 1,96.
El valor de Z es aproximadamente 2,58 porque el área de la cola alta es 0,005 y el área acumulativa menor a Z = 2,58 es 0,995. Ejemplo ilustrativo
Solución: Realizando un gráfico ilustrativo en Winstats y Paint se obtiene:
3
Con lectura en la tabla de la distribución normal para un área de 0,025 se obtiene Z = -1,96. Por simetría se encuentra el otro valor Z = 1,96 Remplazando valores y realizando lo cálculos se obtiene:
Interpretación: Existe un 95% de confianza de que la media poblacional se encuentre entre 23,02 y 24,98 ESTIMACIÓN DE INTERVALO DE CONFIANZA PARA LA MEDIA
4
EJEMPLO: Un fabricante de papel para computadora tiene un proceso de producción que opera continuamente a lo largo del turno. Se espera que el papel tenga una media de longitud de 11 pulgadas. De 500 hojas se selecciona una muestra de 29 hojas con una media de longitud del papel de 10,998 pulgadas y una desviación estándar de 0,02 pulgadas. Calcular la estimación del intervalo de confianza del 99% Solución: Los datos del problema son:
5
Como en los datos aparece el tamaño de la población, se debe verificar si el tamaño de la nuestra es mayor que el 5% para emplear la fórmula con el factor finito de corrección. Se remplaza valores en la siguiente fórmula:
Por lo tanto se debe utilizar la fórmula con el factor finito de corrección. Calculando la proporción de la cola superior e inferior de la distribución se obtiene:
6
Los cálculos en Excel se muestran en la siguiente figura: Interpretación: Existe un 99% de confianza de que la media poblacional se encuentra entre 10,998 y 11,008 En el grafico se muestra lo siguiente
7
Estimación del intervalo de confianza para una proporción Sirve para calcular la estimación de la proporción de elementos en una población que tiene ciertas características de interés. ´
8
Ejemplo ilustrativo En un almacén se está haciendo una auditoria para las facturas defectuosas. De 500 facturas de venta se escoge una muestra de 30, de las cuales 5 contienen errores. Construir una estimación del intervalo de confianza del 95%. Solución: Los datos del problema son:
9
Como en los datos aparece el tamaño de la población, se debe verificar si el tamaño de la nuestra es mayor que el 5% para emplear la fórmula con el factor finito de corrección. Se remplaza valores en la siguiente fórmula:
Con lectura en la tabla de la distribución normal para un área de 0,025 se obtiene Z = -1,96, y por simetría Z =1,96 Calculando la proporción de la muestra se obtiene:
10
II.
PRUEBAS PARAMÉTRICAS Y NO PARAMÉTRICAS:
Métodos paramétricos • Se busca estimar los parámetros de una población en base a una muestra. • Se conoce el modelo de distribución de la población, presenta variables cuantitativas continuas (medibles). • Mientras más grande sea la muestra más exacta será la estimación, mientras más pequeña, más distorsionada será la media de las muestras. Pruebas paramétricas Ventajas de las Pruebas Paramétricas • Tienen más poder de eficiencia • Más sensibles a los rasgos de los datos recolectados • Menos posibilidad de errores • Dan estimaciones probabilísticas bastante exactas Desventajas de las Pruebas Paramétricas • Más complicadas de calcular. • Limitaciones en los tipos de datos que se pueden evaluar.
11
12
Tipo de pruebas paramétricas • Prueba del valor Z de la distribución normal • Prueba T de Student para datos relacionados (muestras dependientes) • Prueba T de Student para datos no relacionados (muestras independientes) • Prueba T de Student-Welch para dos muestras independientes con varianzas no homogéneas • Prueba F (análisis de varianza o ANOVA) Prueba del valor Z de la distribución nominal Formación de la curva de probabilidad estándar normal (Forma de campana) Se ubican tres medidas de tendencia central promedio [media aritmética] mediana moda Define la desviación estándar.
Formula:
13
Parámetros de estimación • Media • Desviación estándar Pasos 1. Calcular el promedio y la desviación estándar de las observaciones de la Muestra en estudio.
2. Calcular la diferencia que existe con respecto al promedio. 3. Dividir la diferencia calculada entre la desviación estándar obtenida de la muestra en estudio, que corresponde al valor Z. 4. Decidir si se acepta o rechaza la hipótesis. El significado del valor Z en la curva normal de frecuencias: es el número de desviaciones estándar que se desvían con respecto al promedio o media aritmética.
Métodos no paramétricos
Los métodos presentados en los capítulos anteriores, se basaban en el conocimiento de las distribuciones muéstrales de las diferencias de porcentajes o promedios, cuando las muestras provenían de una misma población. Se aceptaba entonces usar la aproximación normal, la distribución de t de Student o la distribución F de Fisher en el análisis de varianza, bajo el supuesto de que la hipótesis nula es cierta. Dado que en esos métodos se estiman los parámetros de las poblaciones de origen, esas técnicas estadísticas reciben el nombre de “paramétricas”. Hay situaciones en que, por el escaso número de observaciones, o por el nivel de medición de las variables, no es correcto o no es posible hacer supuestos sobre las distribuciones muéstrales subyacentes. En tales casos se usan los métodos “no paramétricos” o de distribución libre. Aquí presentaremos algunos ejemplos de pruebas no paramétricas para el caso de dos muestras independientes, para el caso de dos muestras dependientes o pareadas y para la comparación de más de dos grupos en que no son aplicables los métodos paramétricos.
14
Las pruebas paramétricas, asumen como distribución muestral la distribución Normal, este supuesto no siempre se cumple, sin embargo recurrimos a que estos métodos paramétricos son robustos. Además estos métodos son preferidos porque tienen mayor potencia.
¿Pero qué hacemos cuando no se cumple la normalidad o tenemos muy pocos datos?
Opciones:
1.
Si hay valores extremos y el tamaño muestral es pequeño cualquier método de inferencia es dudoso.
2.
A veces podemos transformar los datos (log es la transformación más usada)
Ejemplo: Se tienen datos sobre la emisión de monóxido de Carbono de 46 vehículos del mismo tipo (Monoxido.sav).
EN
HC
CO
NOX
1
0.5
5.01
1.28
2
0.65
14.67
0.72
3
0.46
8.6
1.17
.
.
.
.
.
.
.
.
.
.
.
.
44
0.46
3.99
2.01
45
0.47
5.22
1.12
46
0.55
7.47
1.39
A los investigadores les interesa calcular un intervalo de confianza para la media del monóxido de Carbono.Si analizamos el histograma adjunto, vemos que la distribución del monóxido de 15
Carbono es sesgada a la derecha, por lo que la media no será un buen estimador del centro de la distribución y por lo tanto la estimación por intervalo de confianza tampoco será adecuada. Como solución podemos transformar la variable usando el logaritmo natural y calculamos el promedio de la nueva variable. Pero al investigador le interesa conocer el intervalo de confianza en las unidades originales de la variable, para eso convertimos a la unidad original de CO con 1, 7061
exponencial (
5,507 2,0691 7,918 ).
14
Intervalo de confianza 95% para la media del log CO (1,7061 - 2,0691)
12
10
8
6
4 Desv. típ. = 5.26
2
Media = 8.0 N = 46.00
0 2.0
6.0 4.0
10.0 8.0
14.0 12.0
18.0 16.0
22.0 20.0
24.0
Monóxido de Carbono
Intervalo de confianza 95% para la media de CO (6,398 - 9,522)
12
10
8
6
4
2
Desv. típ. = .61 Media = 1.89 N = 46.00
0 .50
1.00 .75
1.50 1.25
2.00 1.75
2.50 2.25
3.00 2.75
3.25
Log(CO)
16
¿Qué pasa con el supuesto de Normalidad?
Pruebas de normalidad a
Monóxido de Carbono Log(CO)
Kolmogorov-Smirnov Shapiro-Wilk Es tadístico gl Sig. Es tadístico gl .187 46 .000 .842 46 .104 46 .200* .970 46
*. Es te es un límite inferior de la significación verdadera. a. Corrección de la significación de Lilliefors
Gráfico Q-Q normal de Monóxido de Carbono 3
2
1
Normal esperado
0
-1
-2
-3 -10
0
10
20
30
V alor observado
Gráfico Q-Q normal de Log(CO) 3
2
1
Normal esperado
0
-1
-2
-3 .5
1.0
1.5
2.0
2.5
3.0
3.5
V alor observado
17
Sig. .000 .266
3.
También existen métodos paramétricos que asumen otras distribuciones, por ejemplo para el tiempo que demora en fallar un producto se usa una distribución de Weibull (ver diagrama adjunto).
18
4.
Finalmente, existen los métodos que no asumen una distribución, también llamados de distribución libre o no paramétricos.
Los métodos no paramétricos son la manera más directa de solucionar el problema de falta de normalidad. Estos métodos son muy simples de usar y están disponibles en SPSS. Pero tienen dos desventajas. Primero que tienen menos poder que las equivalentes soluciones paramétricas. También es importante distinguir que las pruebas de hipótesis no paramétricas NO contestan a la misma pregunta que las pruebas paramétricas. Por ejemplo si queremos hacer un test para docimar sobre el centro de la distribución, el test no paramétrico establece la hipótesis en términos de la mediana y el test paramétrico usa la media.
Tipo
Test Paramétrico
Test no paramétrico
Una muestra
Test t simple
Test del signo de rangos de Wilcoxon
Muestras pareadas
Test t simple
Test del signo de rangos de Wilcoxon
Dos muestras independientes
Test t para muestras independientes
Test de suma de rangos de Wilcoxon
Más de dos muestras independientes
ANOVA de un factor
Test de Kruskal-Wallis
Diseño en bloques aleatorios
ANOVA con bloques
Ji cuadrado de Friedman
Existen dos grandes tipos de test no paramétricos, los que usan cuentas o números y los que usan rangos. En este capítulo revisaremos del test de suma de rangos de Wilcoxon y el Test de Kruskal-Wallis.
19
Ejemplo: Se tienen dos parcelas experimentales. En una de las parcelas se sacó completamente la maleza y en la otra se dejó hasta 3 malezas por metro cuadrado. ¿Dañará la presencia de maleza la producción de maíz?
Malezas por metro cuadrado
Producción de maíz
0
166,7 172,2 165,0 176,9
3
158,6 176,4 153,1 156,0
Hipótesis En este problema la hipótesis nula es que la maleza no afecta la producción de maíz. La hipótesis alternativa es que la producción es menor cuando hay maleza. Si estamos dispuestos a asumir que la producción de maíz es Normal, o si tenemos un tamaño muestral razonablemente grande, usamos el test t para medias independientes. Las hipótesis son:
H 0 : 1 2 H1 : 1 2 Cuando la distribución no es Normal, podemos re-escribir las hipótesis en términos de medianas:
H 0 : mediana 1 mediana
2
H1 : mediana 1 mediana 2 ¿Qué tipo de test (paramétrico o no paramétrico) será el adecuado en este caso?
Hacemos la prueba de normalidad:
20
Pruebas de normalidad a
YIELD
WEEDS 0 3
Kolmogorov-Smirnov Es tadístico gl Sig. .241 4 .341 4
Es tadístico .938 .819
. .
Shapiro-Wilk gl 4 4
Sig. .640 .140
a. Corrección de la significación de Lilliefors
Gráfico Q-Q normal de YIELD Para WEEDS= 0 1.0
.5
Normal esperado
0.0
-.5
-1.0 164
166
168
170
172
174
176
178
V alor observado
Gráfico Q-Q normal de YIELD Para WEEDS= 3 1.0
.5
Normal esperado
0.0
-.5
-1.0 150
160
170
180
V alor observado
Tenemos muy pocos datos por lo tanto será adecuado hacer un test no paramétrico.
Test de suma de rangos de Wilcoxon
Este es un test de rangos. El primer paso será calcular los rangos de las observaciones.
Transformación a rangos
21
Ordenamos los datos de menor a mayor:
Producción
153,1
156,0
158,6
165,0
166,7
172,2
176,4
176,9
Rango
1
2
3
4
5
6
7
8
Pasar de los datos a sus rangos, es equivalente a transformar los datos. Los rangos retienen solamente el orden de las observaciones y no el valor numérico.
Si la presencia de maleza afecta la producción de maíz esperamos que los rangos más pequeños sean de ese grupo. Podemos comparar la suma de los rangos de los dos tratamientos:
Tratamiento Suma de rangos Sin maleza
23
Con maleza
13
Por definición la suma de rangos de 1 a 8 es:
n(n 1) 8 9 36 , donde n es el 2 2
número total de observaciones.
Por lo tanto podemos calcular la suma en uno de los grupos y el otro tiene que ser la diferencia (36- 23=13)
Si no hay diferencia entre los tratamientos esperamos que los rangos sean la mitad en cada grupo, es decir 18. Test de suma de rangos de Wilcoxon
Se tiene una m.a.s de tamaño n1 de una población, y una segunda m.a.s de tamaño n2 de otra población. Hay n observaciones en total, donde n = n1 + n2. Se calcula el rango de las n observaciones. El test estadístico será la suma W de los rangos del grupo con
22
menor suma de rangos, este será el estadístico de suma de rangos de Wilcoxon. Si las dos poblaciones tienen la misma distribución continua, entonces W tiene media:
W
n1 (n 1) 2
n1n2 (n 1) 12
y desviación estándar: W
Donde n1 será el tamaño muestral del grupo con menor suma de rangos.
El test de suma de rangos de Wilcoxon rechaza la hipótesis nula de que las dos poblaciones tienen la misma distribución cuando la suma de rangos W está lejos de su media.
En el ejemplo del maíz queremos docimar:
H0: no hay diferencias en la distribución de la producción de maíz en los dos grupos
versus
H1: la producción es mayor en el tratamiento sin malezas
Nuestro test estadístico W=13
Bajo
W
Ho
W
tiene
media:
W
4(8 1) 18 2
y
desviación
estándar:
4 4(8 1) 3,4641 12
Valor p =
P(W 13 | H 0 ) Necesitamos conocer la distribución muestral de W bajo
la hipótesis nula.
23
Existen tablas que dependen de n1 + n2.
Veamos la salida qué nos da SPSS:
Estadísticos de contrasteb
U de Mann-Whitney W de Wilcoxon Z Sig. as intót. (bilateral) Sig. exacta [2*(Sig. unilateral)] Sig. exacta (bilateral) Sig. exacta (unilateral) Probabilidad en el punto
YIELD 3.000 13.000 -1.443 .149 a
.200
.200 .100 .043
a. No corregidos para los empates. b. Variable de agrupación: WEEDS
La salida de SPSS nos da el valor p exacto para la distribución muestral de W. El valor p para la hipótesis unilateral es 0,1 (valor p exacto según SPSS).
Si comparamos con el equivalente test paramétrico t = - 1,554, valor p=0,171/2=0,0855, llegamos a la conclusión similar (recuerde que las hipótesis son distintas). Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas
F YIELD
Se han asumido varianzas iguales No se han asumido varianzas iguales
1.256
Sig. .305
Prueba T para la igualdad de medias
t
gl
Sig. (bilateral)
Diferencia de medias
Error típ. de la diferencia
95% Intervalo de confianza para la diferencia Inferior Superior
-1.554
6
.171
-9.175
5.9056
-23.6254
5.2754
-1.554
4.495
.187
-9.175
5.9056
-24.8832
6.5332
La aproximación Normal
24
El estadístico de suma de rangos W se aproxima a la distribución Normal cuando n es grande. Entonces podemos formar un test z para estandarizar a W:
z
W W
W
El valor de z en el ejemplo del maíz nos da:
z
13 18 1,44 3,4641
Esperamos rechazar para valores grandes de W si la hipótesis alternativa es verdadera, por lo que el valor p aproximado es:
Valor p P( Z 1,44) 1 0,9251 0,0749 SPSS da el valor p exacto para W y el asintótico o aproximado que utiliza la aproximación a la Normal.
Además SPSS nos entrega el estadístico U de Mann-Whitney, este es equivalente al test de suma de rangos de Wilcoxon.
Empates La distribución exacta de test de Wilcoxon para suma de rangos se obtiene asumiendo que todas las observaciones tienen diferentes valores y por lo tanto su rango. En la práctica ocurre que muchas veces tenemos valores iguales. Lo que hacemos es asignar el valor promedio del rango que ocupan.
Ejemplo:
Observación 153 155 158 158 161 164
25
Rango
1
2
3,5 3,5
5
6
La distribución exacta del test de Wilcoxon se aplica a datos sin empates, por lo que deberemos ajustar la desviación estándar en la presencia de empates. Ejemplo: La comida que se vende en eventos al aire libre puede ser menos segura que la de restoranes porque se prepara en lugares no acondicionados y a menudo por voluntarios. ¿Qué pensará la gente acerca de la seguridad de la comida en ferias? Un estudio preguntó a asistentes a este tipo de eventos:
¿Qué tan a menudo piensa usted que se enferma la gente que consume comida en eventos al aire libre?
Las respuestas posibles eran:
1 = raramente 2 = de vez en cuando 3 = a menudo 4 = muy frecuentemente 5 = siempre
En total 303 personas respondieron a la pregunta. De estos 196 eran mujeres y 107 hombres.
¿Existe evidencia que hombres y mujeres difieren en su percepción acerca de la seguridad en la comida de ferias al aire libre?
26
Ta bla de contingencia Sex o * Respue sta Recuento 1 Sexo
F M
2 13 22 35
Total
108 57 165
Respuesta 3 50 22 72
4
5 23 5 28
2 1 3
Total 196 107 303
Comparamos los porcentajes por filas:
Ta bla de contingencia Sex o * Respue sta % de Sex o
Sexo Total
F M
1 6.6% 20.6% 11.6%
2 55.1% 53.3% 54.5%
Respuesta 3 25.5% 20.6% 23.8%
4 11.7% 4.7% 9.2%
¿Es la diferencia entre sexos significativa?
H0: hombres y mujeres no difieren en sus respuestas H1: uno de los dos sexos da sistemáticamente mayores respuestas que el otro
La hipótesis alternativa es de dos colas.
Como las respuestas posibles son sólo 5 hay muchos empates.
Veamos la salida de SPSS:
27
5 1.0% .9% 1.0%
Total 100.0% 100.0% 100.0%
Rangos
Sexo F M Total
Respuesta
Rango promedio 163.25 131.40
N 196 107 303
Suma de rangos 31996.50 14059.50
Estadísticos de contrastea Respuesta 8281.500 14059.500 -3.334 .001 .001 .000 .000
U de Mann-Whitney W de Wilcoxon Z Sig. as intót. (bilateral) Sig. exacta (bilateral) Sig. exacta (unilateral) Probabilidad en el punto
a. Variable de agrupación: Sexo
Tenemos suficiente evidencia para concluir que existen diferencias significativas entre la percepción acerca de la seguridad de la comida al aire libre entre hombres y mujeres.
Como el tamaño de la muestra es grande podríamos haber usado el test paramétrico: Prueba de muestras indepe ndie nte s Prueba de Levene para la igualdad de varianzas
F Respuesta
Se han asumido varianzas iguales No se han asumido varianzas iguales
3.031
Sig. .083
Prueba T para la igualdad de medias
t
gl
Sig. (bilateral)
Diferencia de medias
Error típ. de la diferencia
95% Intervalo de confianza para la diferencia Inferior Superior
3.361
301
.001
.33
.099
.138
.527
3.365
218.856
.001
.33
.099
.138
.527
Pero en este caso, tenemos argumentos a favor del test no paramétrico. El test paramétrico asume que las respuestas tienen valor numérico y en realidad en una escala cualitativa. Usar rangos es más apropiado en este caso.
28
Test de Kruskal-Wallis
El test de suma de rangos de Wilcoxon sirve para comparar dos tratamientos. Ahora veremos una alternativa no paramétrica al ANOVA de un factor es decir para comparar más de dos tratamientos, que corresponde al test de Kruskal-Wallis.
Ejercicio: Veamos una nueva versión del problema de las malezas. El investigador en realidad probó 4 tipos de malezas 0, 1, 3 y 9 por metro cuadrado.
Descripción de la Producción bajo distintas condiciones de maleza: Maleza n
0
1
3
9
Media
Desviación típica
4 170.200
5.4216
4 162.825
4.4687
4 161.025
10.4933
4 157.575
10.1181
Gráfico Q-Q normal de YIELD
Gráfico Q-Q normal de YIELD Para WEEDS= 1 1.0
.5
.5
0.0
0.0
Normal esperado
Normal esperado
Para WEEDS= 0 1.0
-.5
-1.0 164
166
168
170
172
174
176
-.5
-1.0 156
178
V alor observado
158
V alor observado
29
160
162
164
166
168
Gráfico Q-Q normal de YIELD
Gráfico Q-Q normal de YIELD
Para WEEDS= 9 1.0
.5
.5
0.0
0.0
Normal esperado
Normal esperado
Para WEEDS= 3 1.0
-.5
-1.0 150
160
170
-.5
-1.0 140
180
150
160
170
V alor observado
V alor observado
Ya analizamos que en este caso es difícil probar normalidad con tan pocos datos, por lo tanto será conveniente usar un método no paramétrico.
Hipótesis y supuestos
El test F de ANOVA responde a la hipótesis:
H 0 : 1 2 ... k H 1 : al menos dos medias no son iguales .
Los datos deben provenir de k poblaciones independientes, con distribución normal y con la misma desviación estándar.
El test de Kruskal_Wallis es un test de rangos que reemplaza al test F de ANOVA. El supuesto acerca de la independencia de las poblaciones sigue siendo importante, pero ya no necesitamos normalidad. Asumiremos que la respuesta tiene una distribución continua en cada población.
H0: las k distribuciones son iguales H1: una de ellas tiene valores sistemáticamente mayores
Si todas las distribuciones tienen la misma distribución, esta hipótesis la podemos simplificar.
30
H0: las k poblaciones tienen la misma mediana H1: no todas las medianas son iguales
Recordemos la idea del ANOVA: tenemos una variación total observada de la respuesta como la suma de dos partes, una que mide la variación entre los grupos o tratamientos (suma de cuadrados entre tratamientos, SCE) y la otra que mide la variación entre las mediciones de un mismo tratamiento (suma de cuadrados dentro de los tratamientos, SCD). El test F de ANOVA rechaza la hipótesis nula de que las medias son iguales si la SCE es grande relativa a la SCD.
La idea del test de Kruskal-Wallis es calcular los rangos de todas las respuestas y luego aplicar el ANOVA a los rangos en vez de las observaciones originales.
Test de Kruskal-Wallis
Se tienen k muestras aleatorias de tamaños n1, n2,..., nk. Hay n observaciones en total, donde n es la suma de los ni. Se calcula el rango de las n observaciones y sea Ri la suma de los rangos en el i-esima muestra o grupo. El estadístico de Kruskal-Wallis es:
k Ri2 12 H 3(n 1) n(n 1) i 1 ni
Cuando los tamaños ni son grandes y las k poblaciones tienen la misma distribución, H tiene aproximadamente una distribución de Ji-cuadrado con (k-1) grados de libertad.
El test de Kruskal-Wallis rechaza la hipótesis nula de que todas las poblaciones tienen la misma distribución cuando H es grande.
Vemos que así como el test de suma de rangos de Wilcoxon, el test de Kruskal-Wallis está basado en suma de rangos, mientras mayor sea la diferencia entre los rangos de los grupos mayor evidencia de que las respuestas son diferentes.
31
La distribución exacta del estadístico H de Kruskal-Wallis bajo la hipótesis nula depende de los tamaños muéstrales n1, n2,..., nk, por lo tanto las tablas son terribles. El cálculo de la distribución exacta es tan complicado que los softwares generalmente usan la aproximación de 2 para obtener el valor p.
Veamos lo rangos para el problema de las malezas.
Como antes, también tenemos que corregir cuando existen empates.
Revisemos los datos de las malezas:
Malezas por metro
Producción
0
166,7 172,2 165,0 176,9
1
166,2 157,3 166,7 161,1
3
158,6 176,4 153,1 156,0
9
162,8 142,4 162,7 162,4
Tenemos que calcular los rangos de todos los datos ordenados. Luego calcular H. En SPSS podemos calcular los rangos con: Transformar, Asignar rangos a casos
Ri2 Grupos Suma de Rangos 0
52,5
2756,25
1
33,5
1122,25
3
25,0
625,0
9
25,0
625,0
Total
136
32
H
12 2756,25 1122,25 625,0 625,0 3(17) 16(17) 4 4 4 4
H
12 1282,125 51 5,56 272
Rangos
YIELD
WEEDS 0 1 3 9 Total
N 4 4 4 4 16
Rango promedio 13.13 8.38 6.25 6.25
Estadísticos de contrastea,b Chi-cuadrado gl Sig. as intót.
YIELD 5.573 3 .134
a. Prueba de Krus kal-Wallis b. Variable de agrupación: WEEDS
La diferencia con el cálculo de SPSS se debe a la corrección por empates. Esta corrección hace que la aproximación de Ji cuadrado sea más precisa. Es importante hacerla si hay muchos empates.
Podemos comparar este test no paramétrico con su equivalente paramétrico:
33
180
170
160
150
YIELD
140
130 N=
4
4
4
4
0
1
3
9
WEEDS
ANOVA YIELD
Int er-grupos Int ra-grupos Total
Suma de cuadrados 340.667 785.542 1126.209
gl 3 12 15
Media cuadrática 113.556 65.462
F 1.735
Sig. .213
Vemos que llegamos a la misma conclusión, es decir que las malezas no afectan significativamente la producción de maíz.
¿Ustedes qué creen?
Ejercicio: Se tienen datos del contenido en calorías y sodio de 3 tipos de vienesas: cerdo, mixtas, y de ave.
34
220 200 180 160 140 120
CALORIAS
100 80 60 N=
20
17
17
carne
mixto
ave
TIPOS
De scriptivos CALORIAS
N carne mixto ave Total
20 17 17 54
Media 155.80 158.71 122.47 146.22
Desviación típica 25.220 25.236 25.483 29.696
Error t ípico 5.639 6.121 6.181 4.041
Int ervalo de confianza para la media al 95% Límite Límite inferior superior 144.00 167.60 145.73 171.68 109.37 135.57 138.12 154.33
Prueba de homogeneidad de varianzas CALORIAS Es tadístico de Levene .301
gl1
gl2 2
51
Sig. .741
ANOVA CALORIAS
Int er-grupos Int ra-grupos Total
Suma de cuadrados 14074.369 32664.965 46739.333
gl 2 51 53
35
Media cuadrática 7037.184 640.490
F 10.987
Sig. .000
Mínimo 90 107 86 86
Máximo 190 195 170 195
CALORIAS a,b
HSD de Tukey
TIPOS ave carne mixto Sig.
N 17 20 17
Subconjunto para alfa = .05 1 2 122.47 155.80 158.71 1.000 .937
Se muestran las medias para los grupos en los subconjuntos homogéneos. a. Us a el tamaño muestral de la media armónica = 17.895. b. Los tamaños de los grupos no son iguales. Se utilizará la media armónica de los tamaños de los grupos. Los niveles de error de tipo I no están garantizados .
¿Cómo hacemos el análisis no paramétrico?
Ra ngos
CALORIAS
TIPOS carne mixto ave Total
N 20 17 17 54
Rango promedio 32.83 33.53 15.21
Estadísticos de contrastea,b CALORIAS 15.179 2 .001
Chi-cuadrado gl Sig. as intót.
a. Prueba de Kruskal-Wallis b. Variable de agrupación: TIPOS
¿Qué informamos a los consumidores de vienesas?
36
RANK of CALORIAS a,b
HSD de Tukey
TIPOS ave carne mixto Sig.
N 17 20 17
Subconjunto para alfa = .05 1 2 15.206 32.825 33.529 1.000 .987
Se muestran las medias para los grupos en los subconjuntos homogéneos. a. Us a el tamaño muestral de la media armónica = 17.895. b. Los tamaños de los grupos no son iguales. Se utilizará la media armónica de los tamaños de los grupos. Los niveles de error de tipo I no están garantizados .
Lo que hicimos fue calcular los rangos de la variable respuesta (calorías) y luego analizamos paramétricamente la nueva variable. Esta propuesta no es absolutamente convencional y fue publicada por:
Conover, W. Iman, R. (1981) Rank transformation as a bridge between parametric and non-parametric studies. The American Statistican, 35: 124-133.
Fisher, L. Van Belle, G. En Biostatistics, Wiley (1993) proponen rutinariamente hacer tanto el análisis paramétrico como su equivalente no paramétrico (cuando existe) y si las conclusiones son divergentes investigar el motivo.
Correlación por rangos de Spearman
Hasta ahora hemos analizado la correlación mediante el coeficiente de correlación lineal r de Pearson, sin embargo existen otros coeficientes de correlación útiles, particularmente el coeficiente de correlación por rangos de Spearman (rs). El uso de este coeficiente es apropiado cuando la escala de medida de las variables de interés no es cuantitativa sino que es ordinal.
37
La r de Spearman es en realidad el coeficiente de correlación lineal r de Pearson, aplicado a los datos que satisfacen los requisitos de una escala ordinal. La ecuación más sencilla para el cálculo de rs cuando no existen empates, o existen pocos, con respecto al número de pares de datos (x, y) es:
6 R( X i ) R(Yi )
2
rs 1
n3 n
Donde: R( X i ) es el rango del i-ésimo dato X y R (Yi ) es el rango del i-ésimo dato Y. Se puede mostrar que si los datos no tienen empates, la r de Pearson se reduce algebraicamente a la ecuación anterior. Ejemplo: Suponga que una gran corporación está interesada en calificar a un grupo de 12 aspirantes a gerentes según su capacidad de liderazgo. Se contrata a dos psicólogos para realizar el trabajo. Como resultado de sus exámenes y entrevistas, cada uno de los psicólogos, de manera independiente, han clasificado a los aspirantes según su capacidad de liderazgo. Los rangos van de 1 a 12, donde 1 representa el nivel máximo de liderazgo. Los datos aparecen en la tabla. ¿Cuál es la correlación entre las clasificaciones de los dos psicólogos?
R( X i ) R(Yi )2
Orden de
Orden de
Sujeto
Psicólogo 1
Psicólogo 2
Diferencias
1
6
5
1
1
2
5
3
2
4
3
7
4
3
9
4
10
8
2
4
5
2
1
1
1
6
3
6
-3
9
7
9
10
-1
1
8
1
2
-1
1
9
11
9
2
4
10
4
7
-3
9
11
8
11
-3
9
12
12
12
0
0
38
52
rs 1
6 52 1 0,182 0,818 123 12
Comparemos con la salida de SPSS: Corre laci one s PSI1 Rho de Spearman
PSI1
PSI2
Coefic ient e de correlación Sig. (bilateral) N Coefic ient e de correlación Sig. (bilateral) N
PSI2
1.000
.818**
. 12
.001 12
.818**
1.000
.001 12
**. La correlación es significativa al nivel 0,01 (bilateral).
Correlaciones PSI1 PSI1
PSI2
Correlación de Pears on Sig. (bilateral) N Correlación de Pears on Sig. (bilateral) N
1 . 12 .818** .001 12
**. La correlación es significativa al nivel 0,01 (bilateral).
39
PSI2 .818** .001 12 1 . 12
. 12
14
12
10
8
6
4
PSI1
2
0 0
2
4
6
8
10
12
14
PSI2
En este caso los dos coeficientes de correlación son iguales, pero tenemos argumentos a favor de usar un método no paramétrico. III.
ANALISIS DE REGRESIÓN
El análisis de regresión involucra el estudio la relación entre dos variables CUANTITATIVAS. En general interesa: Investigar si existe una asociación entre las dos variables testeando la hipótesis de independencia estadística. Estudiar la fuerza de la asociación, a través de una medida de asociación denominada coeficiente de correlación. Estudiar la forma de la relación. Usando los datos propondremos un modelo para la relación y a partir de ella será posible predecir el valor de una variable a partir de la otra. Para ello proponemos un MODELO que relaciona una variable dependiente (Y) con una variable independiente (X). La decisión sobre qué análisis usar en una situación particular, depende de la naturaleza del RESULTADO y del tipo de función que se propone para relacionar el RESULTADO y la variable independiente.
40
TIPOS DE ANÁLISIS DE REGRESION: REGRESIÓN LINEAL SIMPLE: La regresión lineal simple examina la relación lineal entre dos variables continuas: una respuesta (Y) y un predictor (X). Cuando las dos variables están relacionadas, es posible predecir un valor de respuesta a partir de un valor predictor con una exactitud mayor que la asociada únicamente a las probabilidades. La regresión proporciona la línea que "mejor" se ajusta a los datos. Esta línea se puede utilizar después para: Examinar cómo cambia la variable de respuesta a medida que cambia la variable predictora. Predecir el valor de una variable de respuesta (Y) para cualquier variable predictora (X). REGRESIÓN LINEAL MÚLTIPLE: La regresión lineal múltiple examina las relaciones lineales entre una respuesta continua y dos o más predictores. Si el número de predictores es grande, antes de ajustar un modelo de regresión con todos los predictores, se deberían utilizar las técnicas de selección de modelo paso a paso o de los mejores subconjuntos para excluir los predictores que no estén asociados con las respuestas. MODELOS DE REGRESIÓN LINEAL: Llamaremos MODELO MATEMÁTICO a la función matemática que proponemos como forma de relación entre la variable dependiente (Y) y la o las variables independientes. La función más simple para la relación entre dos variables es la FUNCIÓN LINEAL. Y=a+bX
41
Esta expresión es una aproximación de la verdadera relación entre X e Y. Para un dado valor de X el modelo predice un cierto valor para Y. Mientras mejor sea la predicción, mejor es el modelo para explicar el fenómeno. Por ejemplo,
Y=2X+3
Interpretación de los coeficientes: el coeficiente a es la PENDIENTE de la recta, mide el cambio en Y por cada unidad de cambio en X, en el ejemplo la pendiente es 2. El coeficiente b es la ORDENADA AL ORIGEN, el punto donde la recta intercepta el eje Y, es decir el valor de Y cuando X = 0. MODELO DETERMINÍSTICO supone que, bajo condiciones ideales, el comportamiento de la variable dependiente puede ser totalmente descripto por una función matemática de las variables independientes (o por un conjunto de ecuaciones que relacionen las variables). Es decir, en condiciones ideales el modelo permite predecir SIN ERROR el valor de la variable dependiente. Ejemplo: Ley de la Gravedad. Podemos predecir exactamente la posición de un objeto que cae en caída libre y en el vacío para cada instante de tiempo. MODELO ESTADÍSTICO permite la incorporación de un COMPONENTE ALEATORIO en la relación. En consecuencia, las predicciones obtenidas a través de modelos estadísticos tendrán asociado un error de predicción. Ejemplo: Relación de la altura con la edad en niños. Niños de la misma edad seguramente no tendrán la misma altura. Sin embargo, a través de un modelo estadístico es posible concluir que la altura aumenta con la edad. Es más, podríamos
42
predecir la altura de un niño de cierta edad y asociarle un ERROR DE PREDICCIÓN que tiene en cuenta: ERRORES DE MEDICIÓN y VARIABILIDAD ENTRE INDIVIDUOS. En problemas biológicos, trabajando en “condiciones ideales” es posible evitar los errores de medición, pero no la variabilidad individual, por eso es indispensable incluir el componente aleatorio en los modelos estadísticos. REGRESIÓN LINEAL SIMPLE: Consideremos el siguiente experimento controlado y aleatorizado para estudiar el efecto de una nueva droga sobre la frecuencia cardiaca de ratas sanas. Cinco ratas fueron asignadas aleatoriamente a una de cinco dosis y se registró la máxima disminución observada en la frecuencia cardiaca en una hora. Los datos obtenidos son:
La relación respuesta-dosis es aparentemente lineal. Parece razonable proponer DFC = β0 + β1 * DOSIS + error Yi = β0 + β1 * Xi + ei Como decidir que el modelo de recta correcta: Ejm: yi = 5.5 + 3.5 * xi yi = 0.5 + 7.0 * xi ¿Cuál recta es “mejor”? ¿Cómo decidir? Veamos los gráficos.
43
Para decidir cuál de las dos rectas ajusta mejor estos datos consideraremos una medida de cuán lejos está cada dato de la recta propuesta ⇒ RESIDUO.
La mejor recta sería aquella que minimice la suma de las distancias al cuadrado de los puntos a la recta, es decir deberíamos encontrar tales que:
Este método para encontrar la recta que mejor ajuste a los datos se conoce como: MÉTODO DE MÍNIMOS CUADRADOS: Afortunadamente no es necesario probar con diferentes rectas cuál de ellas es la que produce la menor suma de cuadrados, ya que es posible encontrar analíticamente las expresiones para En el caso general en que tenemos “n” pares de observaciones son las soluciones del sistema de ecuaciones normales:
44
y se obtiene:
En el ejemplo de dosis-respuesta los estimadores de mínimos cuadrados para βo y β1 resultan ser:
La RECTA AJUSTADA para nuestros datos es
¿Qué nos indican los valores de los coeficientes? βo = ORDENADA AL ORIGEN = 2.7 ⇒ es el punto donde la recta corta el eje vertical, es decir, la disminución esperada en el número de pulsaciones cuando la dosis es cero. No interpretable si el 0 no está contenido en el rango de valores de X. β1 =PENDIENTE = 5.4 ⇒ nos dice que por cada mg de aumento en la dosis se espera un cambio de 5.4 pulsaciones/min en la FC. Si β1 = entonces βo = Y. La media de los datos es el estimador de mínimos cuadrados cuando no hay variables regresoras.
45
NOTACIÓN: VALORES ESTIMADOS DE LOS PARÁMETROS: β1, βo. VALOR PREDICHO: RESIDUO o RESIDUAL = resultado observado – valor predicho = PENDIENTE ESTANDARIZADA: La pendiente β1 nos indica si hay relación entre las dos variables, su signo nos indica si la relación es positiva o negativa, pero no mide la FUERZA de la asociación. La razón es que su valor numérico depende de las unidades de medida de las dos variables. Un cambio de unidades en una de ellas puede producir un cambio drástico en el valor de la pendiente. Ejemplo:
Por esa razón, puede resultar interesante considerar una versión estandarizada de la pendiente:
donde Sx y Sy son las desviaciones estándares de las X’s y de las Y’s respectivamente. Esta es la pendiente que se obtendría al hacer la regresión de los scores Z de la variable dependiente respecto de los scores Z de la variable regresora.
donde r es el coeficiente de correlación de Pearson. Notar que si
tenemos:
Esta relación directa entre el coeficiente de correlación de Pearson y la pendiente de la recta de regresión sólo es válida en el contexto de regresión simple (una variable regresora) no vale para el caso de regresión múltiple (más de una variable regresora). Propiedades del coeficiente de correlación (de la pendiente estandarizada)
r mide la fuerza de la asociación LINEAL entre X e Y. -1 ≤ r ≤ 1 - r = 0 implica que no hay relación lineal r = ± 1 cuando todos los puntos caen sobre la recta r tiene el mismo signo que la pendiente mientras mayor el valor absoluto de r mayor la fuerza de la asociación
46
el valor de r no depende de las unidades de medición el coeficiente de correlación trata a X e Y simétricamente. Si ajustamos Y = α + βX o X = α* + β* Y, en ambos casos obtendremos el mismo coeficiente de correlación, pero no la misma pendiente
47