Estadistica No Parametrica.pdf

  • Uploaded by: Daniel Guzman Rojas
  • 0
  • 0
  • October 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Estadistica No Parametrica.pdf as PDF for free.

More details

  • Words: 20,092
  • Pages: 92
UNIVERSIDAD NACIONAL AGRARIA DE LA SELVA FACULTAD DE CIENCIAS ECONÓMICAS Y ADMINISTRATIVAS DEPARTAMENTO ACADÉMICO DE CIENCIAS ECONÓMICAS

TEXTO UNIVERSITARIO ESTADISTICA NO PARAMETRICA

Estadística No Paramétrica

INTRODUCCIÓN En la Estadística clásica se han analizado modelos estadísticos que implican distribuciones continuas con ciertos supuestos básicos para la aplicación de estas técnicas. El principal uso de esos modelos es la estimación de parámetros desconocidos de la población en estudio, para poder hacer pruebas de validación o ensayos de significación y testear así las hipótesis planteadas. Estos supuestos se plantean fundamentalmente sobre el valor que toman los parámetros poblacionales o sobre comparaciones de dos de ellos. Hasta ahora se ha trabajado con magnitudes de tipo cuantitativas y continuas. A las magnitudes discretas se las ha tratado como proporciones para poder usar los modelos, y cuando se usó el modelo de Gauss distribución normal) se tuvo que hacer una corrección por continuidad. A esta metodología de trabajo se la denomina Estadística Paramétrica, por contraposición a otra donde lo que interesa es comparar distribuciones en lugar de parámetros. Mientras los supuestos usados en la paramétrica especifican la distribución original (generalmente la gaussiana), hay otros casos en la práctica donde no se puede hacer esto, donde no se puede especificar la forma de distribución original. Se requiere entonces otra metodología de trabajo, una estadística de distribuciones libres, donde no se necesitan hacer supuestos acerca de la distribución poblacional, donde se puede comparar distribuciones entre sí o verificar supuestos a cerca de la forma de la población. Por ejemplo, verificar el supuesto de normalidad necesario para usar el modelo Student. La solución para estos casos es el empleo de la Estadística no paramétrica. Hay ciertas ventajas en su uso, tales como: 1.

Trabajar con magnitudes cualitativas, además de las cuantitativas.

2.

Estudiar casos donde no es posible precisar la naturaleza de la distribución.

3.

Estudiar los casos donde los supuestos de la forma poblacional son débiles.

4.

Aplicar el mismo modelo a casi todas las distribuciones en lugar a una sola;

5.

Es más fácil de entender para quienes no poseen base matemática adecuada.

Y también tiene algunas desventajas como: 1.

Cálculos usualmente más engorrosos;

2.

No extraen tanta información como los paramétricos si se aplican al mismo caso;

3.

Son menos eficientes si las muestras son grandes.

Los modelos paramétricos tienen mayor capacidad para detectar diferencias muestrales que los no paramétricos. Es decir, son capaces de ver una diferencia significativa en casos donde los otros no pueden.

1

Daniel Guzmán Rojas

Estadística No Paramétrica

Como su poder discriminador es mejor, siempre que se pueda, conviene usar modelos paramétricos antes que los no paramétricos, por su mayor sensibilidad para detectar diferencias significativas A menos que las diferencias sean tan grandes que con cualquier modelo pueden detectarse. Pero como los no paramétricos se aplican casi todos los casos, son más fáciles de entender y no tienen tanta “complicación matemática”; se están poniendo de moda en todas las especialidades cada vez más. El independizarse de la forma de la población llevó a estos modelos a otras aplicaciones no clásicas, como en las ciencias de la conducta, marketing, ciencias sociales, etc. En algunas técnicas, como las pruebas de rango o de orden, se trabaja con puntajes, que no son verdaderamente numéricos, lo cual ocasiona deformaciones en los datos si se empleasen técnicas paramétricas y el valor de las conclusiones de la validación estadística quedaría menoscabado. Por ejemplo, se pueden asignar rangos por textura, coloración, sabor, olor (magnitudes organolépticas), clasificar por infección con cierto tipo de virus, y otros casos donde no se cumpla el supuesto de homogeneidad de varianzas; acá el modelo de rangos puede ser la salida. Cuando se comparan dos muestras, los modelos paramétricos hacen hincapié en la comparación de las medias, mientras que los no paramétricos fijan su atención en comparar medianas.

2

Daniel Guzmán Rojas

UNIVERSIDAD NACIONAL AGRARIA DE LA SELVA FACULTAD DE CIENCIAS ECONÓMICAS Y ADMINISTRATIVAS DEPARTAMENTO ACADÉMICO DE CIENCIAS ECONÓMICAS

TEXTO UNIVERSITARIO LA PRUEBA DE RACHAS DE UNA MUESTRA

LA PRUEBA DE RACHAS DE UNA MUESTRA

Estadística No Paramétrica

LA PRUEBA DE RACHAS DE UNA MUESTRA Si un experimentador desea llegar a una conclusión acerca de una población usando la información contenida en una muestra de ella, su muestra debe ser aleatoria En años recientes, se han desarrollado varias técnicas que nos permiten probar que una muestra es aleatoria. Estas técnicas se basan en el orden o secuencia en que los puntajes u observaciones del individuo fueron obtenidos originalmente. La técnica que presentaremos aquí se basa en el número de rachas que la muestra exhibe. Se define una racha como una sucesión de símbolos idénticos que pueden estar o no estar separados por otros símbolos. Por ejemplo, supongamos una serie de símbolos de “más” y “menos” ocurrida en este orden: ++

---

+

----

++

-

Esta muestra de puntajes empieza con una racha de dos “más”, la sigue otra racha de tres “menos”, a continuación otra de un “más”, enseguida cuatro “menos”, dos “más”, etc. Podemos agruparlos en rachas, contando las series de símbolos idénticos: ++

---

+

----

++

-

+

1

2

3

4

5

6

7

Observamos que R, el número de rachas, es de 7. El número total de las rachas de una muestra de cualquier tamaño nos señala si la muestra es o no es aleatoria. La escasez de rachas puede deberse a tendencias temporales o a cierta falta de independencia. Por otra parte, al ocurrir rachas abundantes, las fluctuaciones cíclicas sistemáticas de corto periodo pueden causar esta influencia en los puntajes. Por ejemplo, supongamos que lanzamos al aire 20 veces una moneda y observamos la siguiente secuencia de caras (C) y sellos (S): C

C

C

C

C

C

C

C

C

C

S

S

S

S

S

S

S

S

S

S

En 20 lanzamientos, ocurrieron solamente dos rachas. Esto es muy poco si se trata de una moneda "legal" (lo de un jugador honesto) y sugiere que hay falta de independencia en los eventos. Por otra parte, supongamos que ocurrió la siguiente secuencia: C

S

C

S

C

S

C

S

C

S

C

S

C

S

C

S

C

S

C

S

Aquí se observan demasiadas rachas. En este caso, siendo R=20 cuando n=20, es otra vez razonable rechazar la hipótesis de que la moneda es "legal". Ninguna de las frecuencias anteriores parecen ser series al azar de C y S.

1

Daniel Guzmán Rojas

LA PRUEBA DE RACHAS DE UNA MUESTRA

Estadística No Paramétrica

Nótese que el análisis basado en el orden de los eventos nos da una información que no proviene de la frecuencia de los mismos. En ambos casos, ocurrieron 10 sellos y 10 caras. Si se analizaran los puntajes de acuerdo a sus frecuencias, por ejemplo, usando la prueba Chi-Cuadrado o la prueba binomial, no tendríamos razón para sospechar que la moneda no fuera "legal". La prueba de rachas solamente no atiende sino al orden de los eventos, descubriendo en una fuerte falta de aleatoriedad de los puntajes y así, la posible "legalidad" de la moneda. La distribución muestral de los valores de R que podemos esperar de repetidas muestras al azar es conocida. Usando esta distribución muestral, podemos saber cuándo una muestra observada tiene más o menos rachas de las que probablemente ocurrirían en una muestra al azar. Cuando los datos a probar, si provienen de un muestreo al azar, son valores numéricos, se debe seguir el siguiente procedimiento para clasificarlos en dos categorías o clases: 1.

Se determina la mediana de los valores observados.

2.

Se asigna como categoría 1 (por ejemplo “A”) a cada valor muestral observado que resulte ser menor que el valor de la mediana, se asigna como categoría 2 (por ejemplo “B”) a los valores que son mayores o igual que el valor de la mediana.

3.

Se ordena en orden secuencial por categoría o clases (“A” o “B”), tal como se han observado los valores muestrales.

MÉTODO Sea n1 el número de elementos de una clase, y n2 el número de elementos de la otra; n1 podría ser el número de caras y n2 el de sellos; o n1 podría ser el número de signos de “más” y n2 el de signos de “menos”. Sea na el número total de eventos observados, na= n1 + n2. puede suceder que n=na si los valores observados son cualitativos. Al usar la prueba de rachas de una muestra, se observan en primer lugar los eventos n 1 y n2 en el orden que han ocurrido y se determina el valor de R. La hipótesis nula y alternativa para una prueba de rachas son: H0: La serie de datos son escogidos al azar Ha: La serie de datos no son escogidos al azar

2

Daniel Guzmán Rojas

LA PRUEBA DE RACHAS DE UNA MUESTRA

Estadística No Paramétrica

Se acepta H0 Se acepta Ha

Se acepta Ha

1-  /2

/2

- Z(/2)

Z(/2)

MUESTRAS PEQUEÑAS Si tanto n1 como n2 son iguales o menores que 20, encontraremos en la tabla F (para prueba de rachas) los valores críticos de R conforme a H0 considerando =0.05. Son valores críticos de su distribución muestral: Si el valor observado de R está entre los valores críticos, se acepta H0. Si el valor observado de R es igual o más extremo que uno de los valores críticos, se rechaza H0. Son dos las tablas, F I y FII. La tabla FI contiene valores de r tan pequeños, que la probabilidad asociada con su ocurrencia conforme a H0 es p=0.025. La tabla F II contiene valores de R tan grandes, que la probabilidad asociada con su ocurrencia conforme H0 es p=0.025. Cualquier valor observado de R igual a o menor que el de la tabla F I, o igual a o mayor que el de la tabla F II, queda en la región de rechazo considerando =0.05. Por ejemplo, en la primera serie de lanzamientos de la moneda observamos dos rachas: una de 10 caras seguida por otra de 10 cruces. Aquí, n1=10, n2=10, y r=2. La tabla F muestra que a estos valores de n1 y n2, corresponde una muestra aleatoria de más de 6 rachas y menos de 16. Cualquier r observada de 6 (o menos) o de 16 (o más) está en la región de rechazo en =0.05. La R observada de 2 es menor que 6; por tanto, al nivel de significación de 0.05 se rechaza la hipótesis de nulidad que supone series aleatorias de caras y cruces producidas por esta moneda. Al considerar adecuada una prueba de una cola, es decir, al ser predeterminada la dirección de desviación de la aleatoriedad, solamente se necesita examinar una de las dos tablas. Si se predice una observación de muy pocas rachas, la tabla F I abarca los valores críticos de R. Si la R observada bajo la prueba de una cola es igual a o menor que la de la tabla F I, H0 puede rechazarse en =0.025. Si se predice una observación de demasiadas rachas, la tabla F II abarca los valores críticos de R significativos al nivel 0.025.

3

Daniel Guzmán Rojas

LA PRUEBA DE RACHAS DE UNA MUESTRA

Estadística No Paramétrica

Veamos ahora el caso de la segunda secuencia de lanzamientos de la moneda. Supongamos se ha hecho la predicción de que con esta moneda se producirán demasiadas rachas. Como R=20, y n1=10 y n2=10, y puesto que el valor observado de R es igual o mayor que el mostrado en la tabla F II, podemos rechazar H0 en =0.025, y concluir que la moneda es "legal" en la dirección predicha. EJEMPLO En un estudio de la dinámica de la agresión en niños menores, la experimentadora observó varias parejas de niños en una situación de juego controlada. La mayoría de los 24 sujetos infantiles del estudio provenía de la misma guardería y por tanto jugaban juntos diariamente. En vista de que la experimentadora fue observando solamente dos niños cada día, investigó qué propensiones reflejaría el estudio debido a las discusiones entre aquellos niños que ya habían servido como sujetos y aquellos que no lo habían hecho aún. Si las discusiones tenían efectos sobre el nivel de agresión durante las sesiones de juego, las consecuencias podrían señalar en el orden de los puntajes de agresión una carencia de aleatoriedad. Al finalizar el estudio, fue probada la aleatoriedad de la sucesión de puntajes convirtiendo el puntaje de agresión de cada niño en un “A” o un “B”, de acuerdo con que quedara por debajo o por encima de la mediana del grupo y aplicando la prueba de rachas de una muestra a la sucesión observada. TABLA Puntaje de agresión en orden de ocurrencia

Niño

1 2 3 4 5 6 7 8 9 lo 11 12

Clase de puntaje Puntaje con respecto a la mediana 31 B 23 A 36 B 43 B 51 B 44 B 12 A 26 B 43 B 75 B 2 A 3 A MEDIANA

Niño

13 14 15 16 17 18 19 20 21 22 23 24

4

Clase de puntaje Puntaje con respecto a la mediana 15 A 18 A 78 B 24 A 13 A 27 B 86 B 61 B 13 A 7 A 6 A 8 A 25

Daniel Guzmán Rojas

LA PRUEBA DE RACHAS DE UNA MUESTRA

1)

Estadística No Paramétrica

HIPOTESIS: H0: La sucesión las categorías A y B ocurren al azar. Ha: La sucesión de las categorías A y B no ocurre al azar.

2)

NIVEL DE SIGNIFICANCIA: =0.05.

3)

REGIÓN DE RECHAZO: Puesto que Ha no predice la dirección de la desviación que supone, se usa un test de dos colas. H0 será rechazada a nivel de significación 0.05 si R es igual o menor que un valor apropiado de la tabla F I o es igual a o mayor que un valor apropiado de la tabla F II. Para nA=12 y nB=12, la tabla F muestra que la región de rechazo consiste en los valores de R de 7 o menores y los valores de R de 19 o mayores.

4)

DETERMINACIÓN DE R: La tabla muestra los puntajes de agresión de cada niño en el orden en que ocurrieron. La mediana de este conjunto de puntajes es 25. Todos los puntajes por debajo de la mediana se designan como “A” en la tabla; y todos los que quedan por encima de la mediana se designan como “B”. En la columna que muestra la serie de “B” y “A” se puede rápidamente observar que ocurrieron 10 rachas en esta serie, por tanto, R=10.

5)

CONCLUSION: La referencia a la tabla F nos revela que R=10 para nA=12 y nB=12 no cae en la región de rechazo ( 7  10  19 ). Por tanto, se puede decidir que es aceptable la hipótesis de nulidad que supone una muestra de puntajes ocurrida al azar, a un nivel de confianza del 95%. MUESTRAS GRANDES

Si n1 o n2 es mayor que 20, la tabla F no puede usarse. Para muestras tan grandes, una buena aproximación a la distribución muestral de R es la distribución normal, con

R = R =

2n1 n2 +1 n1 + n2

2n1n2 (2n1n2 − n1 − n2 ) (n1 + n2 )2 (n1 + n2 − 1)

Por tanto, cuando n1 o n2 es mayor que 20, H0 puede probarse así: zc =

R − R

R

Las hipótesis nula y alternativa para una prueba de dos extremos son: H0: La serie de datos son escogidos al azar Ha: La serie de datos no son escogidos al azar

5

Daniel Guzmán Rojas

LA PRUEBA DE RACHAS DE UNA MUESTRA

Estadística No Paramétrica

Se acepta H0 Se acepta Ha

Se acepta Ha

1-  /2

/2

- Z(/2)

Z(/2)

Los valores de z que son dados por la fórmula son, conforme a H 0 aproximadamente distribuidos en forma normal con media de cero y varianza de uno; por tanto la significación de cualquier valor observado de z calculado con esta fórmula puede determinarse por medio de la tabla de curva normal. Esto es, en la tabla distribución normal estandarizada se encuentran las probabilidades de una cola asociadas con la ocurrencia conforme a H0 de valores tan extremos como el de cierta z observada. EJEMPLO Se interesa en descubrir el carácter ordenado o azaroso de la colocación de hombres y mujeres en la cola frente a la taquilla de un cine. Los datos se obtuvieron simplemente anotando el sexo de 50 personas en el momento de acercarse a la taquilla. TABLA Orden de 30 hombres (M) y 20 mujeres (F) formados frente a la taquilla del cine

1)

M

F

M

F

MMM

FF

M

F

M

F

M

F

MMMM

F

M

F

M

F

MM

FFF

M

F

M

F

M

F

MM

F

MM

F

MMMM

F

M

F

MM

HIPOTESIS: H0: La serie de hombres y mujeres en la cola, es al azar. Ha: La serie de hombres y mujeres en la cola, no es al azar.

2)

NIVEL DE SIGNIFICANCIA: =0.05.

3)

REGIÓN DE RECHAZO: Ha no predice la dirección de la desviación respecto al azar, en consecuencia, se usa una región de rechazo de dos colas. La región de rechazo, por tanto, incluye todos los valores de z iguales a o más extremos que 1.96.

6

Daniel Guzmán Rojas

LA PRUEBA DE RACHAS DE UNA MUESTRA

Estadística No Paramétrica Se acepta H0

Se acepta Ha 0.025

0.025

- 1.96

4)

1.96

DETERMINACIÓN DE R y zc: La muestra fue de 30 hombres y 20 mujeres. El examen de los datos de la tabla, determina que R=35 es el número de rachas, y por lo tanto:

R = R =

2(30)(20) + 1 = 25 30 + 20

2 ( 30 )( 20 ) ( 2 ( 30 )( 20 ) − 30 − 20 )

( 30 + 20 ) ( 30 + 20 − 1) 2

zc =

5)

Se acepta Ha

0.95

= 3.3564

35 − 25 = 2.98 3.3564

CONCLUSION: Como zc es mayor que z0.025 (2.98>1.96), entonces se acepta la Ha, es decir, la serie de hombres y mujeres en la cola, no es al azar, a un nivel de significancia del 5%.

METODO DE PROBABILIDAD 1)

HIPOTESIS: H0: la serie de hombres y mujeres en la cola, es al azar. Ha: la serie de hombres y mujeres en la cola, no es al azar.

2)

NIVEL DE SIGNIFICANCIA: =0.05.

3)

REGIÓN DE RECHAZO: Ha no predice la dirección de la desviación respecto al azar, en consecuencia, se usa una región de rechazo de dos colas. La región de rechazo, por tanto, incluye todos los valores de z iguales a o más extremos que 1.96. Se acepta H0 Se acepta Ha

Se acepta Ha

0.95 0.025

0.025

- 1.96

1.96

7

Daniel Guzmán Rojas

LA PRUEBA DE RACHAS DE UNA MUESTRA

4)

Estadística No Paramétrica

DETERMINACIÓN DE R, zc y 2 P Z  zc  : La muestra fue de 30 hombres y 20 mujeres. El examen de los datos de la tabla, determina que R=35 es el número de rachas, y por lo tanto:

R = R =

2(30)(20) + 1 = 25 30 + 20

2 ( 30 )( 20 ) ( 2 ( 30 )( 20 ) − 30 − 20 )

( 30 + 20 ) ( 30 + 20 − 1) 2

zc =

= 3.3564

35 − 25 = 2.98 3.3564

2 P  Z  2.98 = ( 2 )( 0.0014 ) = 0.003 5)

CONCLUSION: Como 2 P  Z  2.98 = 0.003 es menor que  = 0.05 , entonces se acepta la Ha, es decir, la serie de hombres y mujeres en la cola, no es al azar, a un nivel de significancia del 5%.

8

Daniel Guzmán Rojas

LA PRUEBA DE RACHAS DE UNA MUESTRA

Estadística No Paramétrica

TABLA F. Tabla de valores críticos de R en la prueba de Rachas

Se dan en los cuerpos de las tablas F I y FII diferentes valores críticos de R para distintos valores de n1 y n2. Para la prueba de las rachas de una muestra, cualquier valor de R es igual o menor que el que aparece en la taba FI, o igualo mayor que el que aparece en la tabla F II es significativo en el nivel 0.05.

9

Daniel Guzmán Rojas

LA PRUEBA DE RACHAS DE UNA MUESTRA

Estadística No Paramétrica

10

Daniel Guzmán Rojas

UNIVERSIDAD NACIONAL AGRARIA DE LA SELVA FACULTAD DE CIENCIAS ECONÓMICAS Y ADMINISTRATIVAS DEPARTAMENTO ACADÉMICO DE CIENCIAS ECONÓMICAS

TEXTO UNIVERSITARIO COEFICIENTE DE CORRELACIÓN DE LOS RANGOS DE SPEARMAN

Estadística No Paramétrica

COEFICIENTE DE CORRELACIÓN DE LOS RANGOS DE SPEARMAN

COEFICIENTE DE CORRELACIÓN DE LOS RANGOS DE SPEARMAN Este coeficiente es una medida de asociación lineal que utiliza los rangos, números de orden, de cada grupo de sujetos y compara dichos rangos. Existen dos métodos para calcular el coeficiente de correlación de los rangos uno señalado por Spearman y otro por Kendall (8). El r de Spearman llamado también rho de Spearman es más fácil de calcular que el de Kendall. El coeficiente de correlación de Spearman es exactamente el mismo que el coeficiente de correlación de Pearson calculado sobre el rango de observaciones. En definitiva la correlación estimada entre X e Y se halla calculado el coeficiente de correlación de Pearson para el conjunto de rangos apareados. El coeficiente de correlación de Spearman es recomendable utilizarlo cuando los datos presentan valores externos ya que dichos valores afectan mucho el coeficiente de correlación de Pearson, o ante distribuciones no normales. El cálculo del coeficiente viene dado por: n

rS = 1 −  i =1

6di2 n ( n 2 − 1)

en donde di = RX − RY es la diferencia entre los rangos de X e Y. Los valores de los rangos se colocan según el orden numérico de los datos de la variable en forma individual por muestra, tal como se realiza en Mann-Whitney. ✓ El coeficiente de Correlación por Rangos de Spearman permite determinar la correlación de datos de carácter ordinal midiendo la concordancia o discordancia entre las clasificaciones. ✓ Se define rango como número ordinal asignando a cada observación previamente ordenada o clasificada según criterio relativo a una característica. INTERPRETACIÓN Si rS=1: Correlación por Rangos perfecta y positiva. La concordancia entre los rangos es perfecta. Si rS=-1: Correlación por Rangos perfecta y negativa. La concordancia entre los rangos es perfecta. Si rS=0: Correlación por rangos nula. No hay concordancia entre rangos. Si 0
1

Daniel Guzmán Rojas

Estadística No Paramétrica

COEFICIENTE DE CORRELACIÓN DE LOS RANGOS DE SPEARMAN

EJEMPLO Se realiza un estudio para determinar la asociación entre la concentración de nicotina en sangre de un individuo y el contenido en nicotina de un cigarrillo. Concentración de NiContenido de Nicoticotina en sangre na por cigarrillo (mg) (nmol/litro) X Y

RY

RX

6di2 10 (102 − 1)

185.70

1.51

2

8

0.2182

197.30

0.96

5

3

0.0242

204.20

1.21

8

6

0.0242

199.90

1.66

7

10

0.0545

199.10

1.11

6

4

0.0242

192.80

0.84

3

2

0.0061

207.40

1.14

9

5

0.0970

183.00

1.28

1

7

0.2182

234.10

1.53

10

9

0.0061

196.50

0.76

4

1

0.0545

2  ( 6 )( 2 − 8 )2 6 )( 5 − 3) ( rS = 1 −  + +  (10 ) (102 − 1) (10 ) (102 − 1) 

( 6 )( 4 − 1)  = 0.2727 + (10 ) (102 − 1)  2

La interpretación del coeficiente rS de Spearman es similar a la Pearson. Valores próximos a 1 indican una correlación fuerte y positiva. Valores próximos a –1 indican una correlación fuerte y negativa. Valores próximos a cero indican que no hay correlación lineal. Así mismo el rS2 tiene el mismo significado que el coeficiente de determinación de r 2 . rS2 = ( 0.27 ) = 0.0744 2

2

Daniel Guzmán Rojas

UNIVERSIDAD NACIONAL AGRARIA DE LA SELVA FACULTAD DE CIENCIAS ECONÓMICAS Y ADMINISTRATIVAS DEPARTAMENTO ACADÉMICO DE CIENCIAS ECONÓMICAS

TEXTO UNIVERSITARIO LA PRUEBA DEL SIGNO PARA UNA MUESTRA

LA PRUEBA DEL SIGNO PARA UNA MUESTRA

Estadística No Paramétrica

LA PRUEBA DEL SIGNO PARA UNA MUESTRA Puede utilizarse ¡a prueba del signo para probar una hipótesis nula sobre el valor de una mediana poblacional. Por ello, es el equivalente no paramétrico de las pruebas de hipótesis sobre el valor de una media poblacional. Se requiere que los valores de la muestra aleatoria se encuentren cuando menos en escala ordinal, y no se hacen suposiciones con respecto a la forma de la distribución poblacional. PROCEDIMIENTO 1.

Se asigna un signo positivo (+) a cada valor muestral observado que resulte ser mayor que el valor hipotético de la mediana, un signo negativo (-) a los valores que son menores que ese valor hipotético de la mediana, y no se asigna nada cuando el valor muestral observado resulte ser igual que el valor hipotético de la mediana.

2.

Se obtiene por separado la suma de los signos, que serán los coeficientes de los signos: x + , x − .

3.

Si alguna de los valores muestrales es igual el valor hipotético de la mediana, se elimina del análisis la observación correspondiente, y se reduce el tamaño efectivo de la muestra.

na = n− # empates

PRUEBA DE DOS COLAS La menor de esas dos sumas de los signos para una prueba de dos criterios de calificación.







Cuando: Ha: Med  Med 0 , se toma como xc = min x + , x − .

Para rechazar la H0, el valor que se obtiene de x c debe ser menor que x− 2 cuando la P  X  xc / B; n;  

 2

; o mayor que x+ 2 cuando la P  X  xc / B; n;  

x− 2

 2

.

x+ 2

1

Daniel Guzmán Rojas

LA PRUEBA DEL SIGNO PARA UNA MUESTRA

Estadística No Paramétrica

PRUEBA DE UNA COLA En el caso de las pruebas de un criterio de clasificación, el rango de suma mayor debe corresponder a la dirección de la hipótesis alternante.



Cuando: Ha: Med  Med 0 , se toma como x c = x + (la suma de signos positivos). Para rechazar la H0, el valor que se obtiene de x c debe ser mayor que x+ cuando la P X  xc / B; n;    .

x+



Cuando: Ha: Med  Med 0 , se toma como x c = x + (la suma de signos positivos) Para rechazar la H0, el valor que se obtiene de x c debe ser menor que x− cuando la P X  xc / B; n;    .

x−

ESTABLECIENDO LAS HIPÓTESIS Las hipótesis nula y alternativa pueden designar pruebas de uno o de dos criterios de calificación. Utilizando Med para representar la mediana de la población, y Med 0 para representar el valor hipotético. Las hipótesis nula y alternativa para una prueba de dos extremos son: H0: Med = Med 0 Ha: Med  Med 0 Si es verdadera la hipótesis nula con respecto al valor de la mediana, el número de signos positivos debe ser aproximadamente igual al número de signos negativos. o, en otros términos, la proporción de signos positivos (o de signos negativos) debe ser de aproximadamente 0.50. Por ello, la hipótesis de una prueba de dos criterios de calificación es H0: p=0.50, en donde p es la proporción poblacional de signos positivos (o negativos). Por ello, una hipótesis que se refiere al valor de la mediana se prueba, de hecho, como una hipótesis sobre p.

2

Daniel Guzmán Rojas

LA PRUEBA DEL SIGNO PARA UNA MUESTRA

Estadística No Paramétrica

También se puede establecer las hipótesis con un criterio de calificación: H0: Med = Med 0 Ha: Med  Med 0 ó H0: Med = Med 0 Ha: Med  Med 0

3

Daniel Guzmán Rojas

LA PRUEBA DEL SIGNO PARA UNA MUESTRA

Estadística No Paramétrica

MUESTRAS PEQUEÑAS Si el tamaño de la muestra es pequeño (n < 30), se utiliza la distribución binomial para realizar la prueba. Donde: H0:  = 0.05 Ha:   0.05 ó Hipótesis nula: No hay diferencia entre los datos y la mediana. Hipótesis alternante: Hay diferencia entre los datos y la mediana. EJEMPLO Se afirma que las unidades ensambladas en un sistema rediseñado de ensamble de productos será mayor que con el sistema antiguo, cuya mediana poblacional es de 80 unidades por turno. No otorgando el beneficio de la duda al sistema rediseñado, plantee la hipótesis nula y pruébela a un nivel de significancia del 5%, Los datos muestrales se reportan en la primera parte de la Tabla Número de unidades ensambladas en el Sistema rediseñado Turno muestreado

Unidades ensambladas (X)

1 2 3 4 5 6 7 8 9 10 11 12

75 85 92 80 94 90 91 76 88 82 96 83

4

Signo de la diferencia (X - 80) + + 0 + + + + + + +

Daniel Guzmán Rojas

LA PRUEBA DEL SIGNO PARA UNA MUESTRA

1)

Estadística No Paramétrica

HIPOTESIS: H0: Med = 80 Ha: Med  80

2)

NIVEL DE SIGNIFICANCIA: =0.05.

3)

REGIÓN DE RECHAZO: Ha predice la dirección de la desviación a la derecha, en consecuencia, se usa una región de rechazo de una cola (cola derecha). La región de rechazo, por tanto, incluye el valor de x c iguales o más que x0+.05 = 9 .

PRUEBA DEL SIGNO PARA UNA MUESTRA (MUESTRAS PEQUEÑAS) 25.00%

22.56%

22.56%

PROBABILIDAD BINOMIAL (X)

20.00%

16.11%

16.11%

15.00%

 P  X  9 = 0.0327    = 0.05

10.00%

11.33%

8.06%

8.06%

5.00%

3.27%

2.69%

2.69%

0.59% 0.54%

0.05%

0.00% 0

1

2

3

4

5

6

7

VALORES DE X PROBABILIDAD [X]

4)

0.05%

0.54% 8

9

10

0.05% 11

12

9

PROBABILIDAD ACUMULADA [X] [X] PROBABILIDAD ACUMULADA

DETERMINACIÓN DE x c : La muestra fue de 12 turnos. Los valores que son mayores que la mediana poblacional (80) son 9, los valores que son menores que la mediana poblacional (80) son 2 y los valores que son iguales que la mediana poblacional (80) es 1. Por lo tanto la muestra se reduce a n=11. La H a define el valor de x c , como se esta probando una Ha: Med  80 , entonces se utiliza los valores que tienen signos positivos (+), por lo tanto xc = 9 .

5)

CONCLUSION: Como x c es igual que x0+.05 (9=9), entonces se acepta la Ha, es decir, la mediana del sistema rediseñado de ensamble de productos es mayor

5

Daniel Guzmán Rojas

LA PRUEBA DEL SIGNO PARA UNA MUESTRA

Estadística No Paramétrica

que la mediana del sistema antiguo, a un nivel de significancia del 5%. METODO DE PROBABILIDAD 1)

HIPOTESIS: H0: Med = 80 Ha: Med  80

2)

NIVEL DE SIGNIFICANCIA: =0.05.

3)

REGIÓN DE RECHAZO: Ha predice la dirección de la desviación a la derecha, en consecuencia, se usa una región de rechazo de una cola (cola derecha). La región de rechazo, por tanto, incluye el valor de x c iguales o más que x0+.05 = 9 , entonces se rechazará la H0 cuando la P X  xc / n = 11; = 0.5   = 0.05 .

PRUEBA DEL SIGNO PARA UNA MUESTRA (MUESTRAS PEQUEÑAS) 25.00%

22.56%

22.56%

PROBABILIDAD BINOMIAL (X)

20.00%

16.11%

16.11%

15.00%

 P  X  9 = 0.0327    = 0.05

10.00%

11.33%

8.06%

8.06%

5.00%

3.27%

2.69%

2.69%

0.59% 0.54%

0.05%

0.00% 0

1

2

3

4

5

6

7

VALORES DE X PROBABILIDAD [X]

4)

0.05%

0.54% 8

9

10

0.05% 11

12

9

PROBABILIDAD ACUMULADA [X] [X] PROBABILIDAD ACUMULADA

DETERMINACIÓN DE x c y P X  xc / n = 11; = 0.5 : La muestra fue de 12 turnos. Los valores que son mayores que la mediana poblacional (80) son 9, los valores que son menores que la mediana poblacional (80) son 2 y los valores que son iguales que la mediana poblacional (80) es 1. Por lo tanto la muestra se reduce a n=11. La Ha define el valor de x, como se esta probando una Ha: Med  80 ,

6

Daniel Guzmán Rojas

LA PRUEBA DEL SIGNO PARA UNA MUESTRA

Estadística No Paramétrica

entonces se utiliza los valores que tienen signos positivos (+), por lo tanto xc = 9 y P  X  9 / n = 11; = 0.5 = 0.0269 + 0.0054 + 0.0005 = 0.0327 = 3.3% . 5)

CONCLUSION: Como P  X  9 / n = 11; = 0.5 = 3.3% es menor que  = 5% , entonces se acepta la Ha, es decir, la mediana del sistema rediseñado de ensamble de productos es mayor que la mediana del sistema antiguo, a un nivel de significancia del 5%.

MUESTRAS GRANDES Si la muestra es grande (n30), puede utilizarse la distribución normal. Aproximando los datos a una distribución normal estandarizada

 p = n  p == n (1 −  )

zc =

xc  cc −  p

p

donde: cc= es la corrección de continuidad por la aproximación a una distribución continua.



Se resta cc=0.5 de x c cuando la Ha: Med  Med 0 .



Se suma cc=0.5 de x c cuando la Ha: Med  Med 0 .

Las hipótesis nula y alternativa para una prueba de dos extremos son: H0: Med = Med 0 Ha: Med  Med 0 Se acepta H0 Se acepta Ha

Se acepta Ha

1-  /2

/2

- Z(/2)

Z(/2)

También se puede establecer las hipótesis con un criterio de calificación:

7

Daniel Guzmán Rojas

LA PRUEBA DEL SIGNO PARA UNA MUESTRA

Estadística No Paramétrica

H0: Med = Med 0 Ha: Med  Med 0 Se acepta H0 Se acepta Ha

1-  

Z()

H0: Med = Med 0 Ha: Med  Med 0

Se acepta H0 Se acepta Ha

1-  

- Z()

8

Daniel Guzmán Rojas

LA PRUEBA DEL SIGNO PARA UNA MUESTRA

Estadística No Paramétrica

EJEMPLO Utilizando los datos del ejemplo anterior, en donde el jefe de planta afirma que las unidades ensambladas en un sistema rediseñado de ensamble de productos no será igual que con el sistema antiguo, cuya mediana poblacional es de 80 unidades por turno. En una muestra de 30 observaciones se determinó que 10 de las observaciones fueron superior a la media poblacional (80). Otorgando el beneficio de la duda al sistema rediseñado, plantee la hipótesis nula y pruébela a un nivel de significancia del 5%.

Unidades Unidades Diferencia Diferencia Turno Turno ensambladas ensambladas muestreado muestreado (X) (X) (X – 80) (X – 80)

1)

1 2 3 4

75 79 85 79

16 17 18 19

76 79 78 91

5 6 7

94 78 91

+

20 21 22

76 78 82

8 9 10 11 12 13 14

76 88 75 78 77 92 78

+ + -

23 24 25 26 27 28 29

70 72 83 75 77 94 79

+ + -

15

94

+

30

78

-

+ +

+ +

HIPOTESIS: H0: Med = 80 Ha: Med  80

2)

NIVEL DE SIGNIFICANCIA: =0.05.

3)

REGIÓN DE RECHAZO: Ha no predice la dirección de la desviación respecto al azar, en consecuencia, se usa una región de rechazo de dos colas. La región de rechazo, por tanto, incluye todos los valores de z iguales a o más extremos que 1.96.

9

Daniel Guzmán Rojas

LA PRUEBA DEL SIGNO PARA UNA MUESTRA

Estadística No Paramétrica Se acepta H0

Se acepta Ha

Se acepta Ha

0.95 0.025

0.025

- 1.96

4)

1.96

DETERMINACIÓN DE zc: La muestra fue de 30, de los cuales 10 observaciones fueron superior a la mediana con el sistema antiguo y 20 fueron inferior. Por lo tanto se toma el valor mas pequeño para xc = 10 y se determina:

 p = ( 30 )( 0.5 ) = 15

p = zc = 5)

(30)(0.5)(0.5) = 2.74 10 + 0.5 − 15 = −1.64 2.74

CONCLUSION: Como − z0.025  zc  z0.025 (-1.96<-1.64<1.96), entonces se acepta la H0, es decir, el gerente no tiene razón al afirmar que no existe diferencia en el número de ensambles con el sistema antiguo y el nuevo sistema, a un nivel de confianza del 95%.

METODO DE PROBABILIDAD 1)

HIPOTESIS: H0: Med = 80 Ha: Med  80

2)

NIVEL DE SIGNIFICANCIA: =0.05.

3)

REGIÓN DE RECHAZO: Ha no predice la dirección de la desviación respecto al azar, en consecuencia, se usa una región de rechazo de dos colas. La región de rechazo, por tanto, incluye todos los valores de z iguales a o más extremos que 1.96. Entonces si 2 P Z  − zc    = 0.05 se rechaza la H0. Se acepta H0 Se acepta Ha

Se acepta Ha

0.95 0.025

0.025

- 1.96

1.96

10

Daniel Guzmán Rojas

LA PRUEBA DEL SIGNO PARA UNA MUESTRA

4)

Estadística No Paramétrica

DETERMINACIÓN DE zc y 2 PZ  − zc  : La muestra fue de 30, de los cuales 10 observaciones fueron superior a la mediana con el sistema antiguo y 20 fueron inferior. Por lo tanto se toma el valor mas pequeño para xc = 10 y se determina:

 p = ( 30 )( 0.5 ) = 15

p = zc =

( 30)( 0.5)( 0.5) = 2.74 10 + 0.5 − 15 = −1.64 2.74

2 P  Z  −1.64 = ( 2 )( 0.05017 ) = 0.10035

5)

CONCLUSION: Como  2 P  Z  −1.64 = 0.10035   = 0.05 , entonces se acepta la H0, es decir, el gerente no tiene razón al afirmar que existe diferencia en el número de ensambles con el sistema antiguo y el nuevo sistema, a un nivel de confianza del 95%.

11

Daniel Guzmán Rojas

UNIVERSIDAD NACIONAL AGRARIA DE LA SELVA FACULTAD DE CIENCIAS ECONÓMICAS Y ADMINISTRATIVAS DEPARTAMENTO ACADÉMICO DE CIENCIAS ECONÓMICAS

TEXTO UNIVERSITARIO LA PRUEBA DEL SIGNO PARA DOS MUESTRAS (DATOS APAREADOS)

LA PRUEBA DEL SIGNO PARA DOS MUESTRAS (DATOS APAREADOS)

Estadística No Paramétrica

LA PRUEBA DEL SIGNO PARA DOS MUESTRAS (DATOS APAREADOS) Esta prueba se basa en los signos de las diferencias observadas entre valores apareados. La independencia se resguarda si la unidad de muestreo es el resultado de comparar a las parejas entre sí, en lugar de usar las observaciones individuales. Cada pareja de datos debe ser independiente de las otras, y la forma de lograrlo fácilmente es seleccionado al azar al elegir los componentes de las muestras. Una ventaja es que puede usarse cuando las observaciones pareadas están simplemente ordenada por rangos. No es necesaria la homogeneidad de las varianzas, ni que las muestras sean extraídas de la misma población. Su desventaja es que elimina mucha información pues la reduce a una dicotomía. Otras ventajas son: la facilidad de aplicación, la reducción de tiempo y costo para el investigador. Los supuestos básicos para aplicar este modelo son: 1.

La variable subyacente en las determinaciones es continua.

2.

Los pares de muestras son independientes.

3.

La hipótesis nula es: los signos se distribuyen al azar alrededor de la mediana.

PROCEDIMIENTO Se asigna un signo positivo (+) a cada valor observado de la primera muestra que resulte ser mayor que el valor observado de la segunda muestra, y un signo negativo (-) a cada valor observado de la primera muestra que resulte ser menor que el valor observado de la segunda muestra. Si un valor muestral de la primera muestra es exactamente igual al valor de la primera muestra, no se registra ningún signo (inicialmente se le puede asignar cero), y se reduce en forma correspondiente el tamaño efectivo de la muestra, es decir se reduce la muestra solamente a los valores que contengan signos positivos (+) y signos negativos (-). 1.

Se asigna un signo positivo (+) a cada valor observado de la primera muestra que resulte ser mayor que el valor observado de la segunda muestra, y un signo negativo (-) a cada valor observado de la primera muestra que resulte ser menor que el valor observado de la segunda muestra, y no se asigna nada cuando el valor observado de la primera muestra que resulte ser igual que el valor observado de la segunda muestra.

2.

Se obtiene por separado la suma de los signos, que serán los coeficientes de los signos: x + , x − .

3.

Si algún valor observado de la primera muestra que resulte ser igual que el valor observado de la segunda muestra, se elimina del análisis la observación correspondiente, y se reduce el tamaño efectivo de la muestra.

na = n− # empates

1

Daniel Guzmán Rojas

LA PRUEBA DEL SIGNO PARA DOS MUESTRAS (DATOS APAREADOS)

Estadística No Paramétrica

PRUEBA DE DOS COLAS La menor de esas dos sumas de los signos para una prueba de dos criterios de calificación.







Cuando: Ha: Med 1  Med 2 , se toma como xc = min x + , x − .

Para rechazar la H0, el valor que se obtiene de x c debe ser menor que x− 2 cuando la P  X  xc / B; n;  

 2

; o mayor que x+ 2 cuando la P  X  xc / B; n;  

x− 2

 2

.

x+ 2

PRUEBA DE UNA COLA En el caso de las pruebas de un criterio de clasificación, el rango de suma mayor debe corresponder a la dirección de la hipótesis alternante.



Cuando: Ha: Med 1  Med 2 , se toma como x c = x + (la suma de signos positivos). Para rechazar la H0, el valor que se obtiene de x c debe ser mayor que x+ cuando la P X  xc / B; n;    .

x+



Cuando: Ha: Med 1  Med 2 , se toma como x = x + (la suma de signos positivos) Para rechazar la H0, el valor que se obtiene de x c debe ser menor que x− cuando la P X  xc / B; n;    .

x−

ESTABLECIENDO LAS HIPÓTESIS Las hipótesis nula y alternativa pueden designar pruebas de uno o de dos criterios de calificación. Utilizando Med1 para representar la mediana 1, y Med 2 para representar la mediana 2.

2

Daniel Guzmán Rojas

LA PRUEBA DEL SIGNO PARA DOS MUESTRAS (DATOS APAREADOS)

Estadística No Paramétrica

Las hipótesis nula y alternativa para una prueba de dos extremos son: H0: Med 1 = Med 2 Ha: Med 1  Med 2 Si es verdadera la hipótesis nula con respecto a los valores de las medianas, el número de signos positivos debe ser aproximadamente igual al número de signos negativos. o, en otros términos, la proporción de signos positivos (o de signos negativos) debe ser de aproximadamente 0.50. Por ello, la hipótesis de una prueba de dos criterios de calificación es H0: p=0.50, en donde p es la proporción poblacional de signos positivos (o negativos). Por ello, una hipótesis que se refiere al valor de la mediana se prueba, de hecho, como una hipótesis sobre p. También se puede establecer las hipótesis con un criterio de calificación: H0: Med 1 = Med 2 Ha: Med 1  Med 2 ó H0: Med 1 = Med 2 Ha: Med 1  Med 2

MUESTRAS PEQUEÑAS

Si el tamaño de la muestra es pequeño (n1, n2 < 30), se utiliza la distribución binomial para realizar la prueba. Donde: H0:  = 0.5 Ha:   0.5 ó Hipótesis nula: No hay diferencia entre las medianas. Hipótesis alternante: Hay diferencia entre las mediana.

3

Daniel Guzmán Rojas

LA PRUEBA DEL SIGNO PARA DOS MUESTRAS (DATOS APAREADOS)

Estadística No Paramétrica

EJEMPLO A un grupo de consumidores que consta de 14 personas se le pide que califique dos marcas de té, de acuerdo con un sistema de evaluación por puntos que se basa en diversos criterios. En la Tabla se reportan los puntos asignados, y se indica también el signo de la diferencia para cada par de calificaciones. Pruebe la hipótesis nula de que no existe diferencia en el nivel de las calificaciones para las dos marcas de té, aun nivel de significancia del 5%, utilizando la prueba del signo y planteando las hipótesis nula y alternativa en términos de la proporción de signos positivos.

Calificaciones asignadas por grupo de consumidores a dos marcas de té

Miembro del grupo

Calificación por puntos que se asigna a cada marca

Signo de la diferencia

Marca 1

Marca 2

1

20

16

+

2

24

26

3

28

4

Miembro del grupo

Calificación por puntos que se asigna a cada marca

Signo de la diferencia

Marca 1

Marca 2

8

27

22

+

-

9

20

23

-

18

+

10

30

20

+

24

17

+

11

18

18

0

5

20

20

0

12

28

21

+

6

29

21

+

13

26

17

+

7

19

23

-

14

24

26

-

1)

HIPOTESIS: H0: Med 1 = Med 2 Ha: Med 1  Med 2

2)

NIVEL DE SIGNIFICANCIA: =0.05.

3)

REGIÓN DE RECHAZO: Ha no predice la dirección de la desviación respecto al azar, en consecuencia, se usa una región de rechazo de dos colas. La región de rechazo, por tanto, incluye el valor de x c iguales o menores que x0−.025 = 2 o, iguales o más que x0+.025 = 10 . 4

Daniel Guzmán Rojas

LA PRUEBA DEL SIGNO PARA DOS MUESTRAS (DATOS APAREADOS)

Estadística No Paramétrica

PRUEBA DEL SIGNO PARA DOS MUESTRA (MUESTRAS PEQUEÑAS) 25.00%

22.56%

20.00%

PROBABILIDAD BINOMIAL (X)

19.34%

19.34%

 P  X  2 = 0.0193   2 = 0.025

 P  X  10 = 0.0193   2 = 0.025

15.00%

12.08%

12.08%

10.00%

7.30%

7.30%

5.37%

5.00%

5.37%

1.93%

1.93%

1.61%

0.02%

0

0.32%

0.29%

0.02%

0.00%

1.61%

0.32%

1

2

2

3

4

5

6

7

VALORES DE X PROBABILIDAD [X]

4)

0.02%

0.29% 8

9

10

11

0.02% 12

13

10

PROBABILIDAD ACUMULADA [X] [X] PROBABILIDAD ACUMULADA

DETERMINACIÓN DE x c : La muestra fue de 14, los valores de la marca 1 que son mayores que los valores de la marca 2 son 8, los valores de la marca 1 que son menores que los valores de la marca 2 son 4 y los valores de la marca 1 que son iguales que los valores de la marca 2 son 2. Por lo tanto la muestra se reduce a n=12. La Ha define el valor de x, como se esta probando una Ha: Med 1  Med 2 , entonces se utiliza los valores que tienen signos negativos (-), por ser el menor, por lo tanto xc = 4 .

5)

CONCLUSION: Como x0−.025  x c  x0+.025 (2410), entonces se acepta la H0, es decir, la mediana de la marca 1 es igual a la mediana de la marca 2, a un nivel de confianza del 95%.

METODO DE PROBABILIDAD 1)

HIPOTESIS: H0: Med 1 = Med 2 Ha: Med 1  Med 2

2)

NIVEL DE SIGNIFICANCIA: =0.05.

3)

REGIÓN DE RECHAZO: Ha no predice la dirección de la desviación respecto al azar, en consecuencia, se usa una región de rechazo de dos colas. La región de rechazo, por tanto, incluye el valor de x c iguales o menores que x0−.025 = 2 o, 5

Daniel Guzmán Rojas

LA PRUEBA DEL SIGNO PARA DOS MUESTRAS (DATOS APAREADOS)

iguales o más que

Estadística No Paramétrica

x0+.025 = 10 , entonces se rechazará la H0 cuando la

2 PX  xc / n = 12; = 0.5   = 0.05

PRUEBA DEL SIGNO PARA DOS MUESTRA (MUESTRAS PEQUEÑAS) 25.00%

22.56%

20.00%

PROBABILIDAD BINOMIAL (X)

19.34%

19.34%

 P  X  2 = 0.0193   2 = 0.025

 P  X  10 = 0.0193   2 = 0.025

15.00%

12.08%

12.08%

10.00%

7.30%

7.30%

5.37%

5.00%

5.37%

1.93%

1.93%

1.61%

0.02%

0

0.32%

0.29%

0.02%

0.00%

1.61%

0.32%

1

2

2

3

4

5

6

7

VALORES DE X PROBABILIDAD [X]

4)

0.02%

0.29% 8

9

10

11

0.02% 12

13

10

PROBABILIDAD ACUMULADA [X] [X] PROBABILIDAD ACUMULADA

DETERMINACIÓN DE xc y P X  xc / n = 12; = 0.5 : La muestra fue de 14. Los valores de la marca 1 que son mayores que los valores de la marca 2 son 8, los valores de la marca 1 que son menores que los valores de la marca 2 son 4 y los valores de la marca 1 que son iguales que los valores de la marca 2 son 2. Por lo tanto la muestra se reduce a n=12. La Ha define el valor de x, como se esta probando una Ha: Med 1  Med 2 , entonces se utiliza los valores que tienen signos negativos (-), por ser el menor, por lo tanto y xc = 4 2 P  X  4 / n = 12; = 0.5 = (2)(0.0002 + 0.0029 + 0.0161 + 0.0537 + 0.1208) = 0.3877 = 38.77% .

5)

CONCLUSION: Como 2 P  X  4 / n = 12; = 0.5 = 38.77% es mayor que  = 5% , entonces se acepta la H0, es decir, la mediana de la marca 1 es igual a la mediana de la marca 2, a un nivel de confianza del 95%.

6

Daniel Guzmán Rojas

LA PRUEBA DEL SIGNO PARA DOS MUESTRAS (DATOS APAREADOS)

Estadística No Paramétrica

MUESTRAS GRANDES

Si la muestra es grande (n30), puede utilizarse la distribución normal. Aproximando los datos a una distribución normal estandarizada

 p = n  p == n (1 −  )

zc =

xc  cc −  p

p

donde: cc= es la corrección de continuidad por la aproximación a una distribución continua.



Se resta cc=0.5 de x c cuando la Ha: Med 1  Med 2 .



Se suma cc=0.5 de x c cuando la Ha: Med 1  Med 2 .

Las hipótesis nula y alternativa para una prueba de dos extremos son: H0: Med 1 = Med 2 Ha: Med 1  Med 2 Se acepta H0 Se acepta Ha

Se acepta Ha

1-  /2

/2

- Z(/2)

Z(/2)

También se puede establecer las hipótesis con un criterio de calificación: H0: Med 1 = Med 2 Ha: Med 1  Med 2

Se acepta H0 Se acepta Ha

1-  

Z()

7

Daniel Guzmán Rojas

LA PRUEBA DEL SIGNO PARA DOS MUESTRAS (DATOS APAREADOS)

Estadística No Paramétrica

H0: Med 1 = Med 2 Ha: Med 1  Med 2 Se acepta H0 Se acepta Ha

1-  

- Z()

EJEMPLO Utilizando los datos del ejemplo anterior, en donde el Gerente de la empresa de la marca de té Nº 1 afirma que la marca que producen tiene más aceptación por los consumidores. En una muestra de 40 observaciones se determinó que 28 de las calificaciones de la marca 1 fueron superior a las calificaciones de la marca 2. No otorgando el beneficio de la duda al Gerente de la Marca 1, plantee la hipótesis y pruébela a un nivel de significancia del 5%.

Miembro del grupo

Calificación por puntos que se asigna a cada marca Marca 1

Signo de la diferencia

Miembro del grupo

Marca 2

1

20

16

2

24

26

3

28

18

4

24

17

5

18

19

6

29

21

7

19

23

8

27

22

9

20

23

10

30

20

11

18

12

28

13

26

17

14

24

26

15

28

16

16

25

26

17

29

18

18

25

17

19

26

20

20

24

21

Calificación por puntos que se asigna a cada marca Marca 1

Marca 2

Signo de la diferencia

+ + + + + +

21

23

22

22

23

22

23

20

23

24

24

20

25

28

23

26

21

22

27

20

23

28

29

20

29

19

18

30

27

21

+ + + + + + +

19

-

31

20

17

+

21

+ + + + + + +

32

24

25

33

24

16

34

28

26

35

30

18

36

29

17

37

25

20

38

26

21

39

22

23

40

29

26

+ + + + + + +

8

Daniel Guzmán Rojas

LA PRUEBA DEL SIGNO PARA DOS MUESTRAS (DATOS APAREADOS)

1)

Estadística No Paramétrica

HIPOTESIS: H0: Med 1 = Med 2 Ha: Med 1  Med 2

2)

NIVEL DE SIGNIFICANCIA: =0.05.

3)

REGIÓN DE RECHAZO: Ha predice la dirección de la desviación a la derecha, en consecuencia, se usa una región de rechazo de una cola (cola derecha). La región de rechazo, por tanto, incluye todos los valores de z iguales a o más extremos que 1.65. Se acepta H0

Se acepta Ha

0.95 0.05

4)

1.65

DETERMINACIÓN DE zc: La muestra fue de 40, de los cuales 28 observaciones de las calificaciones de la marca 1 fueron superior a las calificaciones de la marca 2. Como la Ha: Med 1  Med 2 , por lo tanto el valor para xc = 28 y se determina:

 p = (40)(0.5) = 20 p = zc = 5)

(40)(0.5)(0.5) = 3.16 28 − 0.5 − 20 = 2.37 3.16

CONCLUSION: Como zc  z0.05 (2.37>1.65), entonces se acepta la Ha, es decir, el gerente tiene razón al afirmar que la marca de te Nº 1 tiene mayor preferencia que el de la marca de te Nº 2, a un nivel de significancia del 5%.

METODO DE PROBABILIDAD 1)

HIPOTESIS: H0: Med 1 = Med 2 Ha: Med 1  Med 2

2)

NIVEL DE SIGNIFICANCIA: =0.05.

3)

REGIÓN DE RECHAZO: Ha predice la dirección de la desviación a la derecha, 9

Daniel Guzmán Rojas

LA PRUEBA DEL SIGNO PARA DOS MUESTRAS (DATOS APAREADOS)

Estadística No Paramétrica

en consecuencia, se usa una región de rechazo de una cola (cola derecha). La región de rechazo, por tanto, incluye todos los valores de z iguales a o más extremos que 1.65. Entonces si P Z  zc    = 0.05 se rechaza la H0.

Se acepta H0 Se acepta Ha

0.95 0.05

1.65

4)

DETERMINACIÓN DE zc y P Z  zc : La muestra fue de 40, de los cuales 28 observaciones de las calificaciones de la marca 1 fueron superior a las calificaciones de la marca 2. Como la Ha: Med 1  Med 2 , por lo tanto el valor para xc = 28 y se determina:

 p = (40)(0.5) = 20 p = zc =

(40)(0.5)(0.5) = 3.16 28 − 0.5 − 20 = 2.37 3.16

P  Z  2.37  = 0.00885

5)

CONCLUSION: Como P  Z  2.37  = 0.00885 es menor que  = 0.05 , entonces se acepta la Ha, es decir, el gerente tiene razón al afirmar que la marca de te Nº 1 tiene mayor preferencia que el de la marca de te Nº 2, a un nivel de significancia del 5%.

10

Daniel Guzmán Rojas

UNIVERSIDAD NACIONAL AGRARIA DE LA SELVA FACULTAD DE CIENCIAS ECONÓMICAS Y ADMINISTRATIVAS DEPARTAMENTO ACADÉMICO DE CIENCIAS ECONÓMICAS

TEXTO UNIVERSITARIO [Escriba el subtítulo del documento]

LA PRUEBA DE WILCOXON PARA UNA MUESTRA

Estadística No Paramétrica

LA PRUEBA DE WILCOXON PARA UNA MUESTRA Puede utilizarse la prueba de Wilcoxon para probar una hipótesis nula sobre el valor de una mediana poblacional. Al igual que en el caso de la prueba del signo, puede utilizarse la prueba de Wilcoxon para probar una hipótesis sobre el valor de una mediana poblacional. Como la prueba de Wilcoxon considera la magnitud de la diferencia entre cada uno de los valores muestrales y el valor hipotético de la mediana, es una prueba más sensible que la prueba del signo. Por otro lado, como se determinan diferencias, los valores deben estar dados, cuando menos, en escala de intervalo. No se requieren suposiciones con respecto a la forma de la distribución poblacional. PROCEDIMIENTO Se determina la diferencia entre cada uno de los valores observados y el valor hipotético de la mediana, y esta diferencia, con signo aritmético, se designa d = X − Med 0 . Si alguna de las diferencias es igual a cero, se elimina del análisis la observación correspondiente, y se reduce el tamaño efectivo de la muestra. Después, se ordenan los valores absolutos de la diferencia, de menor a mayor, asignando el rango de 1 a la diferencia absoluta más pequeña. Cuando las diferencias absolutas son iguales, se asigna el rango promedio a los valores que son iguales. Finalmente, se obtiene por separado la suma de los rangos para las diferencias positiva y negativa. 1.

Se determina la diferencia entre cada uno de los valores observados y el valor hipotético de la mediana, y esta diferencia, con signo aritmético, se designa:

d = ( X − Med 0 ) . 2.

Se ordenan los valores absolutos de la diferencia, de menor a mayor ( d = X − Med 0 ), asignando el rango de 1 a la diferencia absoluta más pequeña. Cuando las diferencias absolutas son iguales, se asigna el rango promedio a los valores que son iguales.

3.

Se obtiene por separado la suma de los rangos, considerando el signo, que serán los coeficientes de Wilcoxon: T + , T − .

4.

Si alguna de las diferencias es igual a cero, se elimina del análisis la observación correspondiente, y se reduce el tamaño efectivo de la muestra.

na = n− # empates PRUEBA DE DOS COLAS La menor de esas dos sumas es la estadística T de Wilcoxon para una prueba de dos criterios de calificación.

1

Daniel Guzmán Rojas

LA PRUEBA DE WILCOXON PARA UNA MUESTRA



Estadística No Paramétrica





Cuando: Ha: Med  Med 0 , se toma como Tc = min T + , T − .

Para rechazar la H0, el valor que se obtiene de Tc debe ser menor que Tn; ;2 .

Tn; ;2

PRUEBA DE UNA COLA En el caso de las pruebas de un criterio de clasificación, el rango de suma mayor debe corresponder a la dirección de la hipótesis alternante.



Cuando: Ha: Med  Med 0 , se toma como Tc = T + (el rango de signos positivos). Para rechazar la H0, el valor que se obtiene de Tc debe ser mayor que Tn; ;1 .

Tn; ;1



Cuando: Ha: Med  Med 0 , se toma como Tc = T + (el rango de signos positivos). Para rechazar la H0, el valor que se obtiene de Tc debe ser menor que Tn; ;1 .

Tn; ;1

En a tabla T de Wilcoxon se identifican los valores críticos de Tn; ;#colas , de acuerdo con el tamaño de la muestra, el nivel de significancia y el número de colas. ESTABLECIENDO LAS HIPÓTESIS Las hipótesis nula y alternativa pueden designar pruebas de uno o de dos criterios de calificación. Utilizando Med para representar la mediana de la población, y Med o para representar el valor hipotético. Las hipótesis nula y alternativa para una prueba de dos extremos son: H0: Med = Med 0 Ha: Med  Med 0 También se puede establecer las hipótesis con un criterio de calificación: H0: Med = Med 0 Ha: Med  Med 0 2

Daniel Guzmán Rojas

LA PRUEBA DE WILCOXON PARA UNA MUESTRA

Estadística No Paramétrica

ó H0: Med = Med 0 Ha: Med  Med 0

3

Daniel Guzmán Rojas

LA PRUEBA DE WILCOXON PARA UNA MUESTRA

Estadística No Paramétrica

MUESTRAS PEQUEÑAS

Si el tamaño de la muestra es pequeño (n < 30), se utiliza la distribución Wilcoxon para realizar la prueba. Donde: H0: Med = Med 0 Ha: Med  Med 0 ó Hipótesis nula: No hay diferencia entre los datos y la mediana. Hipótesis alternante: Hay diferencia entre los datos y la mediana.

EJEMPLO Para el problema de muestras pequeñas para la prueba del signo de una muestra, utilice la prueba de Wilcoxon. Número de unidades ensambladas en el sistema rediseñado

Nº 1 2 3 4 5 6 7 8 9 10 11 12

Unidades ensambladas (X) 75 85 92 80 94 90 91 76 88 82 96 83

Diferencia (X-80)

Diferencia |X-80|

Rangos

-5 5 12

5 5 12

4.5 4.5 9

14 10 11 -4 8 2 16 3

14 10 11 4 8 2 16 3

10 7 8 3 6 1 11 2

Rangos -

Empates

4.5

5 5

4.5 9 10 7 8 3

T c=

4

Rangos +

6 1 11 2 58.5

7.5

Daniel Guzmán Rojas

LA PRUEBA DE WILCOXON PARA UNA MUESTRA

Estadística No Paramétrica

En la Tabla se observa que en el cuarto turno muestreado, el número de unidades ensambladas resultó ser exactamente igual que el valor hipotético de la mediana poblacional. Por ello, esta observación se omite de cualquier análisis ulterior, y se tiene una muestra de tamaño efectivo de n=11. 1)

HIPOTESIS: H0: Med = 80 Ha: Med  80

2)

NIVEL DE SIGNIFICANCIA: =0.05.

3)

REGIÓN DE RECHAZO: Ha predice la dirección de la desviación a la derecha, en consecuencia, se usa una región de rechazo de una cola (cola derecha). El valor T crítico de la tabla de Wilcoxon con una muestra de 11 y al 5% de nivel de significación es: T11;0.05;1 = 14 , por lo tanto, para rechazar la H0 el Tc debe ser igual o mayor que T11;0.05;1 = 14 .

4)

DETERMINACIÓN DE Tc :. La Ha: Med  80 , define el valor de Tc , entonces El T calculado de Wilcoxon, es la suma de rangos de signos positivos: Tc = 58.5 .

5)

CONCLUSION: Como Tc es mayor que T11;0.05;1 (58.514), entonces se acepta la Ha, es decir, la mediana del sistema rediseñado de ensamble de productos es mayor que la mediana del sistema antiguo, a un nivel de significancia del 5%. MUESTRAS GRANDES

Si la muestra es grande (n30), puede utilizarse la distribución normal como aproximación. Aproximando los datos a una distribución normal estandarizada

 (t l

L=

i =1

T =

T =

3 i

− ti )

48 n(n + 1) 4

n ( n + 1)( 2n + 1) −L 24 zc =

Tc − T

T

5

Daniel Guzmán Rojas

LA PRUEBA DE WILCOXON PARA UNA MUESTRA

Estadística No Paramétrica

Las hipótesis nula y alternativa para una prueba de dos extremos son: H0: Med = Med 0 Ha: Med  Med 0 Se acepta H0 Se acepta Ha

Se acepta Ha

1-  /2

/2

- Z(/2)

Z(/2)

También se puede establecer las hipótesis con un criterio de calificación: H0: Med = Med 0 Se acepta H0

Ha: Med  Med 0

Se acepta Ha

1-  

Z()

H0: Med = Med 0 /2

Ha: Med  Med 0

Se acepta H0 Se acepta Ha

1-  

- Z()

6

Daniel Guzmán Rojas

LA PRUEBA DE WILCOXON PARA UNA MUESTRA

Estadística No Paramétrica

EJEMPLO Utilizando los datos del ejemplo anterior, en donde el jefe de planta afirma que las unidades ensambladas en un sistema rediseñado de ensamble de productos no será igual que con el sistema antiguo, cuya mediana poblacional es de 80 unidades por turno. En una muestra de 30 observaciones se determinó que el rango para signos positivos es de Tc = 228 (el menor valor de los dos rangos). Otorgando el beneficio de la duda al sistema rediseñado, plantee la hipótesis nula y pruébela a un nivel de significancia del 5%. Nº

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Unidades ensambladas (X)

Diferencia (X-80)

Diferencia |X-80|

Rangos

75 79 85 79 94 78 91 76 88 75 78 77 92 78 94 76 79 78 91 76 78 82 70 72 83 75 77 94 79 78

-5 -1 5 -1 14 -2 11 -4 8 -5 -2 -3 12 -2 14 -4 -1 -2 11 -4 -2 2 -10 -8 3 -5 -3 14 -1 -2

5 1 5 1 14 2 11 4 8 5 2 3 12 2 14 4 1 2 11 4 2 2 10 8 3 5 3 14 1 2

19.5 2.5 19.5 2.5 29 8 25.5 16 22.5 19.5 8 13 27 8 29 16 2.5 8 25.5 16 8 8 24 22.5 13 19.5 13 29 2.5 8

Rangos

+

19.5 2.5

19.5 2.5 29 8 25.5 16 22.5 19.5 8 13

Empates

5 1 5 1 14 2 11 4 8 5 2 3

27 8

2 14 4 1 2 11 4 2 2

29 16 2.5 8 25.5 16 8 8 24 22.5 13 19.5 13 29

T c=

7

Rangos

228

2.5 8 237

8 3 5 3 14 1 2

Daniel Guzmán Rojas

LA PRUEBA DE WILCOXON PARA UNA MUESTRA

1)

Estadística No Paramétrica

HIPOTESIS: H0: Med = 80 Ha: Med  80

2)

NIVEL DE SIGNIFICANCIA: =0.05.

3)

REGIÓN DE RECHAZO: Ha no predice la dirección de la desviación respecto al azar, en consecuencia, se usa una región de rechazo de dos colas. La región de rechazo, por tanto, incluye todos los valores de z iguales a o más extremos que 1.96. Se acepta H0 Se acepta Ha

Se acepta Ha

0.95 0.025

0.025

- 1.96

4)

1.96

DETERMINACIÓN DE zc: La muestra fue de 30, se toma el valor Tc = 228 por ser el mas pequeño de los rangos (rango de signos positivos). Posteriormente se determina:

(4

3

L=

− 4 ) + ( 73 − 7 ) + ( 33 − 3) + ( 33 − 3) + ( 43 − 4 ) + ( 23 − 2 ) + ( 33 − 3) 48

T =

T =

5)

30(30 + 1) = 232.5 4

30 ( 30 + 1) ( 2 ( 30 ) + 1) 24

zc =

= 11.25

− 11.25 = 48.50

228 − 232.5 = −0.0928 48.50

CONCLUSION: Como − z0.025  zc  z0.025 (-1.96<-0.0928<1.96), entonces se acepta la H0, es decir, el gerente no tiene razón al afirmar que no existe diferencia en el número de ensambles con el sistema antiguo y el nuevo sistema, a un nivel de confianza del 95%.

8

Daniel Guzmán Rojas

LA PRUEBA DE WILCOXON PARA UNA MUESTRA

Estadística No Paramétrica

METODO DE PROBABILIDAD 1)

HIPOTESIS: H0: Med = 80 Ha: Med  80

2)

NIVEL DE SIGNIFICANCIA: =0.05.

3)

REGIÓN DE RECHAZO: Ha no predice la dirección de la desviación respecto al azar, en consecuencia, se usa una región de rechazo de dos colas. La región de rechazo, por tanto, incluye todos los valores de z iguales a o más extremos que 1.96. Entonces si 2 P Z  − zc    = 0.05 se rechaza la H0.

Se acepta H0 Se acepta Ha

Se acepta Ha

0.95 0.025

0.025

- 1.96

4)

1.96

DETERMINACIÓN DE zc y 2 PZ  − zc  : La muestra fue de 30, se toma el valor Tc = 228 por ser el mas pequeño de los rangos (rango de signos positivos). Posteriormente se determina:

(4 L=

3

− 4 ) + ( 73 − 7 ) + ( 33 − 3) + ( 33 − 3) + ( 43 − 4 ) + ( 23 − 2 ) + ( 33 − 3) 48

T =

T =

30(30 + 1) = 232.5 4

30 ( 30 + 1) ( 2 ( 30 ) + 1) 24

zc =

= 11.25

− 11.25 = 48.50

228 − 232.5 = −0.0928 48.50

2 P  Z  −0.0928 = ( 2 )( 0.46304 ) = 0.92608

5)

CONCLUSION: Como  2 P  Z  −0.0928 = ( 2 )( 0.46304 ) = 0.92608   = 0.05 , entonces se acepta la H0, es decir, el gerente no tiene razón al afirmar que exis-

9

Daniel Guzmán Rojas

LA PRUEBA DE WILCOXON PARA UNA MUESTRA

Estadística No Paramétrica

te diferencia en el número de ensambles con el sistema antiguo y el nuevo sistema, a un nivel de confianza del 95%.

10

Daniel Guzmán Rojas

LA PRUEBA DE WILCOXON PARA UNA MUESTRA

Estadística No Paramétrica

Valores críticos de T en la prueba de Wilcoxon

11

Daniel Guzmán Rojas

UNIVERSIDAD NACIONAL AGRARIA DE LA SELVA FACULTAD DE CIENCIAS ECONÓMICAS Y ADMINISTRATIVAS DEPARTAMENTO ACADÉMICO DE CIENCIAS ECONÓMICAS

TEXTO UNIVERSITARIO LA PRUEBA DE WILCOXON PARA DOS MUESTRAS (DATOS APAREADOS)

Estadística No Paramétrica

LA PRUEBA DE WILCOXON PARA DOS MUESTRAS (DATOS APAREADOS)

LA PRUEBA DE WILCOXON PARA DOS MUESTRAS (DATOS APAREADOS) En la prueba del Signo se utiliza la información acerca de la dirección de las diferencias encontradas en la pareja de muestras. Pero no se considera la magnitud relativa de tales diferencias. En cambio, en el modelo de Wilcoxon se toma en cuenta ambas cosas y por eso es más poderoso que el del Signo. Acá se le da un peso a cada signo, relativo a la magnitud de la diferencia encontrada. Se la denomina también: Prueba de rangos señalados y pares encontrados. El investigador debe hacer dos cosas básicas al examinar una pareja de datos. 1.

Determinar en la pareja cual es el "mayor" de ambos.

2.

Ordenar por rango las diferencias halladas (rango acá significa “ranking” u orden)

PROCEDIMIENTO 1.

Se determina la diferencia entre cada uno de los valores observados de la muestra 1 y los valores de la muestra 2, y esta diferencia, con signo aritmético, se designa: d = (X1 − X 2 ) .

2.

Se ordenan los valores absolutos de la diferencia, de menor a mayor ( d = X 1 − X 2 ), asignando el rango de 1 a la diferencia absoluta más pequeña. Cuando las diferencias absolutas son iguales, se asigna el rango promedio a los valores que son iguales.

3.

Se obtiene por separado la suma de los rangos, considerando el signo, que serán los coeficientes de Wilcoxon: T + , T − .

4.

Si alguna de las diferencias es igual a cero, se elimina del análisis la observación correspondiente, y se reduce el tamaño efectivo de la muestra.

na = n− # empates PRUEBA DE DOS COLAS La menor de esas dos sumas es la estadística T de Wilcoxon para una prueba de dos criterios de calificación.







Cuando: Ha: Med 1  Med 2 , se toma como Tc = min T + , T − .

Para rechazar la H0, el valor que se obtiene de Tc debe ser menor que Tn; ;2 .

Tn; ;2 1

Daniel Guzmán Rojas

Estadística No Paramétrica

LA PRUEBA DE WILCOXON PARA DOS MUESTRAS (DATOS APAREADOS)

PRUEBA DE UNA COLA En el caso de las pruebas de un criterio de clasificación, el rango de suma mayor debe corresponder a la dirección de la hipótesis alternante.



Cuando: Ha: Med 1  Med 2 , se toma como Tc = T + (el rango de signos positivos). Para rechazar la H0, el valor que se obtiene de Tc debe ser mayor que Tn; ;1 .

Tn; ;1



Cuando: Ha: Med 1  Med 2 , se toma como Tc = T + (el rango de signos positivos). Para rechazar la H0, el valor que se obtiene de Tc debe ser menor que Tn; ;1 .

Tn; ;1

En a tabla T de Wilcoxon se identifican los valores críticos de Tn; ;#colas , de acuerdo con el tamaño de la muestra, el nivel de significancia y el número de colas. ESTABLECIENDO LAS HIPÓTESIS Las hipótesis nula y alternativa pueden designar pruebas de uno o de dos criterios de calificación. Utilizando Med1 para representar la mediana 1, y Med 2 para representar la mediana 2. Las hipótesis nula y alternativa para una prueba de dos extremos son: H0: Med 1 = Med 2 Ha: Med 1  Med 2 También se puede establecer las hipótesis con un criterio de calificación: H0: Med 1 = Med 2 Ha: Med 1  Med 2 ó H0: Med 1 = Med 2 Ha: Med 1  Med 2

2

Daniel Guzmán Rojas

LA PRUEBA DE WILCOXON PARA DOS MUESTRAS (DATOS APAREADOS)

Estadística No Paramétrica

MUESTRAS PEQUEÑAS

Si el tamaño de la muestra es pequeño (n < 30), se utiliza la distribución binomial para realizar la prueba. Donde: H0: Med 1 = Med 2 Ha: Med 1  Med 2

3

Daniel Guzmán Rojas

Estadística No Paramétrica

LA PRUEBA DE WILCOXON PARA DOS MUESTRAS (DATOS APAREADOS)

ó Hipótesis nula: No hay diferencia entre las medianas. Hipótesis alternante: Hay diferencia entre y las medianas. EJEMPLO Para el problema de muestras pequeñas para la prueba del signo de dos muestras, utilice la prueba de Wilcoxon. Calificaciones asignadas por grupo de consumidores a dos marcas de té Nº

X1

X2

1 2 3 4 5 6 7 8 9 10 11 12 13 14

20 24 28 24 20 29 19 27 20 30 18 28 26 24

16 26 18 17 20 21 23 22 23 20 18 21 17 26

Diferencia (X1-X2)

Diferencia |X1-X2|

Rangos

4 -2 10 7

4 2 10 7

4.5 1.5 11.5 7.5

8 -4 5 -3 10

8 4 5 3 10

9 4.5 6 3 11.5

7 9 -2

7 9 2

7.5 10 1.5

Rangos

+

-

Empates

4.5 1.5 11.5 7.5

4 2 10 7

9 4.5

4

6 3

T c=

1)

Rangos

11.5

10

7.5 10

7

67.5

1.5 10.5

2

HIPOTESIS: H0: Med 1 = Med 2 Ha: Med 1  Med 2

2)

NIVEL DE SIGNIFICANCIA: =0.05.

3)

REGIÓN DE RECHAZO: Ha no predice la dirección de la desviación respecto al azar, en consecuencia, se usa una región de rechazo de dos colas. El valor T crítico de la tabla de Wilcoxon al 5% de nivel de significación y una muestra de 12 es: T12;0.05;2 = 14 , por lo tanto, para rechazar la H0 el Tc debe ser igual o menor que T12;0.05;2 = 14 .

4)

DETERMINACIÓN DE Tc : La Ha: Med 1  Med 2 , define el valor de Tc , entonces El T calculado de Wilcoxon, es la suma de rangos de signos negativos por ser el

4

Daniel Guzmán Rojas

Estadística No Paramétrica

LA PRUEBA DE WILCOXON PARA DOS MUESTRAS (DATOS APAREADOS)

menor: Tc = 10.5 . 5)

CONCLUSION: Como Tc es menor que T12;0.05;2 (10.514), entonces se acepta la Ha, es decir, la mediana de la marca 1 no es igual a la mediana de la marca 2, a un nivel de significancia del 5%. MUESTRAS GRANDES

Si la muestra es grande (n30), puede utilizarse la distribución normal. Aproximando los datos a una distribución normal estandarizada

 (t l

L=

i =1

T =

T =

3 i

− ti )

48 n(n + 1) 4

n ( n + 1)( 2n + 1) −L 24 zc =

Tc − T

T

Las hipótesis nula y alternativa para una prueba de dos extremos son: H0: Med 1 = Med 2 Ha: Med 1  Med 2

Se acepta H0 Se acepta Ha

Se acepta Ha

1-  /2

/2

- Z(/2)

Z(/2)

También se puede establecer las hipótesis con un criterio de calificación: H0: Med 1 = Med 2

Se acepta H0

Ha: Med 1  Med 2

Se acepta Ha

1-  

Z() 5

Daniel Guzmán Rojas

Estadística No Paramétrica

LA PRUEBA DE WILCOXON PARA DOS MUESTRAS (DATOS APAREADOS)

H0: Med 1 = Med 2 Ha: Med 1  Med 2 Se acepta H0 Se acepta Ha

1-  

- Z()

6

Daniel Guzmán Rojas

Estadística No Paramétrica

LA PRUEBA DE WILCOXON PARA DOS MUESTRAS (DATOS APAREADOS)

EJEMPLO Utilizando los datos del ejemplo anterior, en donde el Gerente de la empresa de la marca de té Nº 1 afirma que la marca que producen tiene más aceptación por los consumidores. En una muestra de 40 observaciones se determinó que 28 de las calificaciones de la marca 1 fueron superior a las calificaciones de la marca 2, obteniéndose un rango de diferencias positivas de Tc=701.5. No otorgando el beneficio de la duda al Gerente de la Marca 1, plantee la hipótesis y pruébela a un nivel de significancia del 5%. Nº 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40

X1 20 24 28 24 18 29 19 27 20 30 18 28 26 24 28 25 29 25 26 24 23 23 20 24 28 21 20 29 19 27 20 24 24 28 30 29 25 26 22 29

X2 16 26 18 17 19 21 23 22 23 20 19 21 17 26 16 26 18 17 20 21 22 22 23 20 23 22 23 20 18 21 17 25 16 26 18 17 20 21 23 26

Diferencia Diferencia (X1-X2) |X1-X2| 4 -2 10 7 -1 8 -4 5 -3 10 -1 7 9 -2 12 -1 11 8 6 3 1 1 -3 4 5 -1 -3 9 1 6 3 -1 8 2 12 12 5 5 -1 3

Rangos

4 2 10 7 1 8 4 5 3 10 1 7 9 2 12 1 11 8 6 3 1 1 3 4 5 1 3 9 1 6 3 1 8 2 12 12 5 5 1 3

20 11 35.5 28.5 5 31 20 23.5 15.5 35.5 5 28.5 33.5 11 39 5 37 31 26.5 15.5 5 5 15.5 20 23.5 5 15.5 33.5 5 26.5 15.5 5 31 11 39 39 23.5 23.5 5 15.5 Tc=

7

Rangos

Rangos

+

-

20 11 35.5 28.5 5 31 20 23.5 15.5 35.5 5 28.5 33.5 11 39 5 37 31 26.5 15.5 5 5 15.5 20 23.5 5 15.5 33.5 5 26.5 15.5 5 31 11 39 39 23.5 23.5 5 15.5 701.5

Empates 4 2 10 7 1 8 4 5 3 10 1 7 9 2 12 1 8 6 3 1 1 3 4 5 1 3 9 1 6 3 1 8 2 12 12 5 5 1 3

118.5 Daniel Guzmán Rojas

Estadística No Paramétrica

LA PRUEBA DE WILCOXON PARA DOS MUESTRAS (DATOS APAREADOS)

1)

HIPOTESIS: H0: Med 1 = Med 2 Ha: Med 1  Med 2

2)

NIVEL DE SIGNIFICANCIA: =0.05.

3)

REGIÓN DE RECHAZO: Ha predice la dirección de la desviación a la derecha, en consecuencia, se usa una región de rechazo de una cola (cola derecha). La región de rechazo, por tanto, incluye todos los valores de z iguales a o más extremos que 1.65. Se acepta H0 Se acepta Ha

0.95 0.05

1.65

4)

DETERMINACIÓN DE zc: La muestra fue de 40, de los cuales 28 observaciones de las calificaciones de la marca 1 fueron superior a las calificaciones de la marca 2, como la Ha: Med 1  Med 2 , entonces: Tc = 701.5 . Posteriormente se determina:

(9

3

L=

− 9 ) + ( 33 − 3) + ( 63 − 6 ) + ( 33 − 3) + ( 43 − 4 ) + ( 23 − 2 ) + ( 23 − 2 ) + ( 33 − 3) + ( 23 − 2 ) + ( 23 − 2 ) + ( 33 − 3) 48

T =

T =

5)

40(40 + 1) = 410 4

40 ( 40 + 1) ( 2 ( 40 ) + 1) 24

zc =

= 23.125

− 23.125 = 74.24

701.5 − 410 = 3.9263 74.24

CONCLUSION: Como zc  z0.05 (3.9263>1.65), entonces se acepta la Ha, es decir, el gerente tiene razón al afirmar que la marca de te Nº 1 tiene mayor preferencia que el de la marca de te Nº 2, a un nivel de significancia del 5%.

METODO DE PROBABILIDAD 1)

HIPOTESIS: H0: Med 1 = Med 2 Ha: Med 1  Med 2

8

Daniel Guzmán Rojas

Estadística No Paramétrica

LA PRUEBA DE WILCOXON PARA DOS MUESTRAS (DATOS APAREADOS)

2)

NIVEL DE SIGNIFICANCIA: =0.05.

3)

REGIÓN DE RECHAZO: Ha predice la dirección de la desviación a la derecha, en consecuencia, se usa una región de rechazo de una cola (cola derecha). La región de rechazo, por tanto, incluye todos los valores de z iguales a o más extremos que 1.65. Entonces si P Z  zc    = 0.05 se rechaza la H0. Se acepta H0 Se acepta Ha

0.95 0.05

1.65

4)

DETERMINACIÓN DE zc y P Z  zc : La muestra fue de 40, de los cuales 28 observaciones 28 de las calificaciones de la marca 1 fueron superior a las calificaciones de la marca 2,como la Ha: Med 1  Med 2 , entonces: Tc = 701.5 . Posteriormente se determina:

(9

3

L=

− 9 ) + ( 33 − 3) + ( 63 − 6 ) + ( 33 − 3) + ( 43 − 4 ) + ( 23 − 2 ) + ( 23 − 2 ) + ( 33 − 3) + ( 23 − 2 ) + ( 23 − 2 ) + ( 33 − 3) 48

T =

T =

5)

40(40 + 1) = 410 4

40 ( 40 + 1) ( 2 ( 40 ) + 1) 24

zc =

= 23.125

− 23.125 = 74.24

701.5 − 410 = 3.9263 74.24

CONCLUSION: Como P  Z  3.9263 = 0.000043 es menor que  = 0.05 , entonces se acepta la Ha, es decir, el gerente tiene razón al afirmar que la marca de te Nº 1 tiene mayor preferencia que el de la marca de te Nº 2, a un nivel de significancia del 5%.

9

Daniel Guzmán Rojas

UNIVERSIDAD NACIONAL AGRARIA DE LA SELVA FACULTAD DE CIENCIAS ECONÓMICAS Y ADMINISTRATIVAS DEPARTAMENTO ACADÉMICO DE CIENCIAS ECONÓMICAS

TEXTO UNIVERSITARIO LA PRUEBA DE FRIEDMAN PARA K MUESTRAS (MUESTRAS APAREADAS)

Estadística No Paramétrica

LA PRUEBA DE FRIEDMAN PARA K MUESTRAS (MUESTRAS APAREADAS)

LA PRUEBA DE FRIEDMAN PARA K MUESTRAS (MUESTRAS APAREADAS) Esta prueba puede considerarse como una extensión de la prueba de Wilcoxon para el caso de más de dos muestras. La prueba de Friedman, propuesta por el ganador del premio Nobel, el economista Milton Friedman, es una prueba no parametrica para comparar las distribuciones de las mediciones de k tratamientos apareados, dispuestos en n bloques, utilizando un diseño de bloques aleatorizados. Cuando el número de k de tratamientos o el número n de bloques es mayor que 5, la distribución muestral de coeficiente calculado de la prueba de la prueba de Friedman puede aproximarse mediante la distribución Chi Cuadrada con (k-1) grados de libertad. PROCEDIMIENTO 1.

El primer procedimiento es ordenar las k observaciones de los tratamientos dentro de cada bloque.

2.

Asignar el rango de 1 a la observación más pequeña de cada bloque. Cuando las observaciones son iguales, se asigna el rango promedio a cada una de ellas.

3.

Se obtiene por separado la suma de los rangos C1, C2,…, Ck para cada una de las muestras.

4.

Se calcula el estadístico de prueba X c2 :

 ( t n

L = 1−

K

i =1 k =1

3 ik

− tik )

nk ( k 2 − 1)

k 12 Ci2 − 3n ( k + 1)  nk ( k + 1) i =1 X c2 = L

5.

Calcular los rangos de libertad: gl = k − 1 .

6.

Comparar el estadístico X k2−1; , de acuerdo con los grados de libertad, en la tabla de distribución de Chi-cuadrada en razón de distribuirse de forma similar.

ESTABLECIENDO LAS HIPÓTESIS Las hipótesis nula y alternativa pueden designar pruebas de uno o de dos criterios de calificación. Utilizando Med1 para representar la mediana 1, Med 2 para representar la mediana 2, …, Med k para representar la mediana k. Las hipótesis nula y alternativa para la prueba son:

1

Daniel Guzmán Rojas

Estadística No Paramétrica

LA PRUEBA DE FRIEDMAN PARA K MUESTRAS (MUESTRAS APAREADAS)

H0: Med1 = Med 2 =  = Med k Ha: Med1  Med 2    Med k

EJEMPLO Suponga que se quiere comparar las clasificaciones de los consumidores de seis diferentes anuncios televisivos. Cuatro consumidores clasificaron cada anuncio en una escala de 1 (malo) a 10 (excelente). El objetivo del experimento es determinar si existen diferencias en los niveles de clasificación para los seis anuncios. Se presentan los datos en la tabla. Utilice la prueba de Friedman para determinar si los datos presentan suficiente evidencia para indicar diferencias en las clasificaciones de los seis anuncios televisivos, utilizando un nivel de significancia del 5%. Clasificaciones para los anuncios ANUNCIO

SUJETO A 5 6 8 4

1 2 3 4

B 8 10 10 6

C 7 6 9 7

D 6 7 9 5

E 4 4 6 3

F 5 4 7 5

Rangos ANUNCIO SUJETO 1 2 3 4 Rk=

A 2.5 3.5 3 2

B 6 6 6 5

C 5 3.5 4.5 6

D 4 5 4.5 3.5

E 1 1.5 1 1

F 2.5 1.5 2 3.5

11

23

19

17

4.5

9.5

2

Daniel Guzmán Rojas

Estadística No Paramétrica

LA PRUEBA DE FRIEDMAN PARA K MUESTRAS (MUESTRAS APAREADAS)

1)

HIPOTESIS: H0: Med A = Med B = MedC = Med D = Med E = Med F Ha: Med A  Med B  MedC  Med D  Med E  Med F

2)

NIVEL DE SIGNIFICANCIA: =0.05.

3)

REGIÓN DE RECHAZO:

Se acepta H0

Se acepta Ha

0.95 0.05 2 X 5;0.05 = 11.07

4)

DETERMINACIÓN DE X c2 :

(2 L = 1−

3

− 2 ) + ( 23 − 2 ) + ( 2 3 − 2 ) + ( 2 3 − 2 ) + ( 2 3 − 2 )

( 4 )( 6 ) ( 62 − 1)

= 0.964286

   12 2 2 2 2 2 2     (11) + ( 23) + (19 ) + (17 ) + ( 4.5 ) + ( 9.5 )   − 3 ( 4 )( 6 + 1)   ( 4 )( 6 )( 6 + 1)   X c2 =  = 17.3704 0.964286 5)

2 CONCLUSION: Como X c2 es mayor que X 5;0.05 (17.3711.07), entonces se acepta

la Ha, es decir, los seis anuncios tienen diferencias en las clasificaciones, a un nivel de significancia del 5%.

3

Daniel Guzmán Rojas

Estadística No Paramétrica

LA PRUEBA DE FRIEDMAN PARA K MUESTRAS (MUESTRAS APAREADAS)

METODO DE PROBABILIDAD 1)

HIPOTESIS: H0: Med A = Med B = MedC = Med D = Med E = Med F Ha: Med A  Med B  MedC  Med D  Med E  Med F

2)

NIVEL DE SIGNIFICANCIA: =0.05.

3)

REGIÓN DE RECHAZO:

Se acepta H0

Se acepta Ha

0.95 0.05 2 X 5;0.05 = 11.07

4)

DETERMINACIÓN DE X c2 :

(2 L = 1−

3

− 2 ) + ( 23 − 2 ) + ( 2 3 − 2 ) + ( 2 3 − 2 ) + ( 2 3 − 2 )

( 4 )( 6 ) ( 62 − 1)

= 0.964286

   12 2 2 2 2 2 2     (11) + ( 23) + (19 ) + (17 ) + ( 4.5 ) + ( 9.5 )   − 3 ( 4 )( 6 + 1)   ( 4 )( 6 )( 6 + 1)   X c2 =  = 17.3704 0.964286 P  X 2  17.3704 = 0.003848

5)

CONCLUSION: Como P  X 2  17.3704 = 0.003848 es menor que  = 0.05 , entonces se acepta la Ha, es decir, los seis anuncios tienen diferencias en las clasificaciones, a un nivel de significancia del 5%.

4

Daniel Guzmán Rojas

Estadística No Paramétrica

LA PRUEBA DE FRIEDMAN PARA K MUESTRAS (MUESTRAS APAREADAS)

PRUEBA DE WILCOXON PARA COMPARACIONES MÚLTIPLES (POR PARES) Clasificaciones anuncios, ordenado la mediana de mayor a menor ANUNCIO

SUJETO

B 8 10 10 6 9.00

1 2 3 4 MEDIANA

MEDIANAi

C 7 6 9 7 7.00

D 6 7 9 5 6.50

MEDIANAj MEDi - MEDj

A 5 6 8 4 5.50

F 5 4 7 5 5.00

E 4 4 6 3 4.00

zc

z0.05

P[z>zc]

B B B B B

C D A F E

2.00 2.50 3.50 4.00 5.00

1.1339 1.8411 1.8411 1.8411 1.8411

1.645 1.645 1.645 1.645 1.645

0.1284 0.0328 0.0328 0.0328 0.0328

C C C C

D A F E

0.50 1.50 2.00 3.00

-0.1841 0.3651 2.0000 1.8411

1.645 1.645 1.645 1.645

0.5730 0.3575 0.0228 0.0328

D D D

A F E

1.00 1.50 2.50

2.0000 0.3651 1.8570

1.645 1.645 1.645

0.0228 0.3575 0.0317

A A

F E

0.50 1.50

-0.1841 1.8570

1.645 1.645

0.5730 0.0317

F

E

1.00

0.3682

1.645

0.3564

Se puede concluir que los anuncios B y C son mejores, por cuanto la  P  z  zc  = 0.1284  0.05 (las medianas son iguales para B y C) y las comparaciones del anuncio B con los anuncios A, F y E respectivamente, sus P  z  zc   0.05 (sus medianas son diferentes); pero se puede observar que la comparación de C con D y C con A respectivamente, sus P  z  zc   0.05 (sus medianas son iguales), por lo tanto, el anuncio B es mejor que el resto de anuncios.

5

Daniel Guzmán Rojas

UNIVERSIDAD NACIONAL AGRARIA DE LA SELVA FACULTAD DE CIENCIAS ECONÓMICAS Y ADMINISTRATIVAS DEPARTAMENTO ACADÉMICO DE CIENCIAS ECONÓMICAS

TEXTO UNIVERSITARIO LA PRUEBA DE MANN − WHITNEY PARA DOS MUESTRAS (MUESTRAS INDEPENDIENTES)

LA PRUEBA DE MANN − WHITNEY PARA DOS MUESTRAS (MUESTRAS INDEPENDIENTES)

Estadística No Paramétrica

LA PRUEBA DE MANN − WHITNEY PARA DOS MUESTRAS (MUESTRAS INDEPENDIENTES) Este modelo de Mann−Whitney sirve para testear si dos muestras independientes han sido tomadas de la misma población. Se tiene, por lo menos, una magnitud ordinal de la misma. Este es el modelo no paramétrico más poderoso para comparar dos muestras cuando no son apareadas. Es para el caso donde se tiene dudas acerca de la verificación de los supuestos que piden el modelo Student, o cuando las medidas son ordinales. La hipótesis de trabajo (Ho), siempre es que ambas muestras provienen de la misma población. PROCEDIMIENTO 1.

Ordenar las observaciones en rangos de los dos grupos, del más pequeño al mayor.

2.

Asignar el rango de 1 a la observación más pequeña. Cuando las observaciones son iguales, se asigna el rango promedio a cada una de ellas.

3.

Se obtiene por separado la suma de los rangos para cada una de las dos muestras.

4.

Aplicar la ecuación de Mann-Whitney y obtener el estadístico U:

5.

U 1 = n1n2 +

n1 (n1 + 1) − R1 2

U 2 = n1n2 +

n2 (n2 + 1) − R2 2

Detectar las ligas o empates entre los rangos de cada grupo o muestra, en el caso de que los hubiese, determinar la ecuación:

 (t l

L=

6.

i =1

3 i

− ti )

12

Aplicar la ecuación L al estadístico  U para obtener el ajuste:

U =

 n1n2  N 3 − N − L  N ( N − 1)  12 

PRUEBA DE DOS COLAS La menor de esas dos sumas es la estadística U de Mann−Whitney para una prueba de dos criterios de calificación.



Cuando: Ha: Med  Med 0 , se toma como U c = min U1 , U 2 .

1

Daniel Guzmán Rojas

LA PRUEBA DE MANN − WHITNEY PARA DOS MUESTRAS (MUESTRAS INDEPENDIENTES)

Estadística No Paramétrica

Para rechazar la H0, el valor que se obtiene de U c debe ser menor que U n1 ;n2 ; ;2 .

U n1 ;n2 ; ;2

PRUEBA DE UNA COLA En el caso de las pruebas de un criterio de clasificación, el rango de suma mayor debe corresponder a la dirección de la hipótesis alternante.



Cuando: Ha: Med 1  Med 2 , se toma como U c = maxU1 , U 2  . Para rechazar la H0, el valor que se obtiene de U c debe ser mayor que U n1 ;n2 ; ;1 .

U n1 ;n2 ; ;1



Cuando: Ha: Med 1  Med 2 , se toma como U c = min U1 , U 2 . Para rechazar la H0, el valor que se obtiene de U c debe ser menor que U n1 ;n2 ; ;1 .

U n1 ;n2 ; ;1

En a tabla U de Mann−Whitney se identifican los valores críticos de U n1 ;n2 ; ;#colas , de acuerdo con el tamaño de las muestras n1 y n2, el nivel de significancia y el número de colas. ESTABLECIENDO LAS HIPÓTESIS Las hipótesis nula y alternativa pueden designar pruebas de uno o de dos criterios de calificación. Utilizando Med1 para representar la mediana 1, y Med 2 para representar la mediana 2. Las hipótesis nula y alternativa para una prueba de dos extremos son: H0: Med 1 = Med 2 Ha: Med 1  Med 2 También se puede establecer las hipótesis con un criterio de calificación: H0: Med 1 = Med 2 Ha: Med 1  Med 2 ó

2

Daniel Guzmán Rojas

LA PRUEBA DE MANN − WHITNEY PARA DOS MUESTRAS (MUESTRAS INDEPENDIENTES)

Estadística No Paramétrica

H0: Med 1 = Med 2 Ha: Med 1  Med 2 MUESTRAS PEQUEÑAS Para una muestra combinada de 20 o menos, se usan tablas especiales para probar la hipótesis nula de los dos grupos; estas tablas se encuentran en libros especializados en métodos no parametritos, de los cuales se puede obtener el U crítico U n1 ;n2 ; ;#colas para una prueba de una cola y de dos colas. Donde: H0: Med 1 = Med 2 Ha: Med 1  Med 2 ó Hipótesis nula: No hay diferencia entre las medianas. Hipótesis alternante: Hay diferencia entre y las medianas.

3

Daniel Guzmán Rojas

LA PRUEBA DE MANN − WHITNEY PARA DOS MUESTRAS (MUESTRAS INDEPENDIENTES)

Estadística No Paramétrica

EJEMPLO Para evaluar y comparar dos métodos de capacitación industrial, un director de capacitación asigna 10 entrenandos elegidos al azar a cada uno de dos métodos. Debido a la deserción normal 7 aprendices terminan el curso mediante el método 1, y 8 lo terminan llevando el método 2. A los dos grupos de entrenandos se les aplica el mismo examen .para evaluar el aprendizaje, según se reporta en la tabla. Pruebe la hipótesis nula de que nivel mediano de desempeño en la prueba no difiere en los dos métodos de capacitación, utilizando un nivel de significancia del 5%. Calificaciones asignadas a los aprendices en los dos métodos de instrucción Nº

Método 1

Método 2

Rangos 1

Rangos 2

1 2 3 4 5 6 7 8

86 78 90 82 65 87 80

70 90 82 64 86 77 84 79

11.5

3 14.5 8.5

5 14.5 8.5 2 13 7 Rc=

1)

1 11.5

Empates 86 90 82

90 82 86

4 10 6 58.5

61.5

HIPOTESIS: H0: Med 1 = Med 2 Ha: Med 1  Med 2

2)

NIVEL DE SIGNIFICANCIA: =0.05.

3)

REGIÓN DE RECHAZO: Ha no predice la dirección de la desviación respecto al azar, en consecuencia, se usa una región de rechazo de dos colas. El valor U crítico de la tabla de Mann−Whitney al 5% de nivel de significación, las muestras n1=7 y n2=8 y dos colas es: U 7;8;0.05;2 = 10 , por lo tanto, para rechazar la H0 el U c debe ser igual o menor que U 7;8;0.05;2 = 10 .

4)

DETERMINACIÓN DE U c y U ca : Como se esta probando una Ha: Med 1  Med 2 , entonces El U calculado de Mann−Whitney se determina el valor mas grande de los rangos (R), es: R1=61.5, con esto se determina: U c = U 1 = (7 )(8) +

5)

(7 )(8) − 61.5 = 22.5 2

CONCLUSION: Como U c es mayor que U 7;8;0.05;2 (22.510), entonces se acepta la H0, es decir, la mediana de la método 1 es igual a la mediana de la método 2, a un nivel de confianza del 95%. 4

Daniel Guzmán Rojas

LA PRUEBA DE MANN − WHITNEY PARA DOS MUESTRAS (MUESTRAS INDEPENDIENTES)

Estadística No Paramétrica

MUESTRAS GRANDES Si la muesta combinada es mayor que 20, se ha demostrado que la curva normal es una buena aproximación de la distribución muestral. Esta curva normal tiene parámetros que se encuentran en las ecuaciones que se presentaran a continuación. El estadístico U de Mann−Whitney: Aproximando los datos a una distribución normal estandarizada

 (t l

L=

i =1

− ti )

12

U =

U =

3 i

n1n2 2

 n1n2  N 3 − N − L  N ( N − 1)  12  zc =

U − U

U

Las hipótesis nula y alternativa para una prueba de dos extremos son: H0: Med 1 = Med 2 Ha: Med 1  Med 2

Se acepta H0 Se acepta Ha

Se acepta Ha

1-  /2

/2

- Z(/2)

Z(/2)

También se puede establecer las hipótesis con un criterio de calificación: H0: Med 1 = Med 2 Se acepta H0

Ha: Med 1  Med 2

Se acepta Ha

1-  

Z()

5

Daniel Guzmán Rojas

LA PRUEBA DE MANN − WHITNEY PARA DOS MUESTRAS (MUESTRAS INDEPENDIENTES)

Estadística No Paramétrica

H0: Med 1 = Med 2 Ha: Med 1  Med 2 Se acepta H0 Se acepta Ha

1-  

- Z()

EJEMPLO Utilizando los datos del ejemplo anterior, en donde el Director de capacitación afirma que el método 1 tiene mejores resultados. Obteniéndose los rangos: R1=190 y R2=161. No otorgando el beneficio de la duda al Gerente de capacitación, plantee la hipótesis y pruébela a un nivel de significancia del 5%. Calificaciones asignadas a los aprendices en los dos métodos de instrucción Nº

Método 1

Método 2

Rangos 1

Rangos 2

1

86

70

18.5

86

2

78

90

3

90

82

8 23.5

4 23.5 13

90

4

82

64

13

82

5

65

86

2

1 18.5

6

87

77

20

7

7

80

84

10

16

8

88

79

21

9

95

82

26

9 13

10

85

89

17

22

11

76

73

6

5

12

94

81

25

11

13

83

15

14

66

3 Rc=

190

6

Empates 90 82 86

82

161

Daniel Guzmán Rojas

LA PRUEBA DE MANN − WHITNEY PARA DOS MUESTRAS (MUESTRAS INDEPENDIENTES)

1)

Estadística No Paramétrica

HIPOTESIS: H0: Med 1 = Med 2 Ha: Med 1  Med 2

2)

NIVEL DE SIGNIFICANCIA: =0.05.

3)

REGIÓN DE RECHAZO: Ha predice la dirección de la desviación a la derecha, en consecuencia, se usa una región de rechazo de una cola (cola derecha). La región de rechazo, por tanto, incluye todos los valores de z iguales a o más extreSe mos que 1.65. acepta H0 Se acepta Ha

0.95 0.05

1.65

4)

DETERMINACIÓN DE U c y zc : n1=12 y n2=14, como la Ha: Med 1  Med 2 , entonces se toma el rango R2=161. Posteriormente se determina: U c = U 2 = (12)(14) +

(3 L=

3

12

=3

(12)(14) = 84 2

(12 )(14 )  263 − 26 − 3  = 19.42  ( 26 )( 26 − 1)  12  zc =

5)

2

− 3) + ( 23 − 2 ) + ( 23 − 2 )

U =

T =

(14)(15) − 161 = 112

112 − 84 = 1.4416 19.42

CONCLUSION: Como zc  z0.05 (1.4416<1.645), entonces se acepta la H0, es decir, el gerente no tiene razón al afirmar que la método 1 es mejor que el método 2, a un nivel de confianza del 95%.

7

Daniel Guzmán Rojas

LA PRUEBA DE MANN − WHITNEY PARA DOS MUESTRAS (MUESTRAS INDEPENDIENTES)

Estadística No Paramétrica

METODO DE PROBABILIDAD 1)

HIPOTESIS: H0: Med 1 = Med 2 Ha: Med 1  Med 2

2)

NIVEL DE SIGNIFICANCIA: =0.05.

3)

REGIÓN DE RECHAZO: Ha predice la dirección de la desviación a la derecha, en consecuencia, se usa una región de rechazo de una cola (cola derecha). La región de rechazo, por tanto, incluye todos los valores de z iguales a o más extremos que 1.65. Entonces si P Z  zc    = 0.05 se rechaza la H0. Se acepta H0 Se acepta Ha

0.95 0.05

6)

DETERMINACIÓN DE U c ,

1.65

U ca

, zc y P Z  zc : n1= 12 y n2=14, como la Ha:

Med 1  Med 2 , entonces se toma el rango R2=161. Posteriormente se determina: U c = U 2 = (12)(14) +

(3 L=

3

2

− 3) + ( 23 − 2 ) + ( 23 − 2 ) 12

U =

T =

(14)(15) − 161 = 112 =3

(12)(14) = 84 2

(12 )(14 )  263 − 26 − 3  = 19.42  ( 26 )( 26 − 1)  12  zc =

112 − 84 = 1.4416 19.42

P  Z  1.4416 = 0.0747

4)

CONCLUSION: Como P  Z  1.4416 = 0.0747 es mayor que  = 0.05 , entonces se acepta la H0, es decir, el gerente no tiene razón al afirmar que la método 1 es mejor que el método 2, a un nivel de confianza del 95%.

8

Daniel Guzmán Rojas

LA PRUEBA DE MANN − WHITNEY PARA DOS MUESTRAS (MUESTRAS INDEPENDIENTES)

Estadística No Paramétrica

Valores críticos de U en la prueba de Mann Whitney

Prueba de un extremo

9

Daniel Guzmán Rojas

LA PRUEBA DE MANN − WHITNEY PARA DOS MUESTRAS (MUESTRAS INDEPENDIENTES)

Estadística No Paramétrica

Prueba de dos extremos

10

Daniel Guzmán Rojas

UNIVERSIDAD NACIONAL AGRARIA DE LA SELVA FACULTAD DE CIENCIAS ECONÓMICAS Y ADMINISTRATIVAS DEPARTAMENTO ACADÉMICO DE CIENCIAS ECONÓMICAS

TEXTO UNIVERSITARIO LA PRUEBA DE KRUSKAL - WALLIS PARA K MUESTRAS (MUESTRAS INDEPENDIENTES)

LA PRUEBA DE MANN − WHITNEY PARA DOS MUESTRAS (MUESTRAS INDEPENDIENTES)

Estadística No Paramétrica

LA PRUEBA DE KRUSKAL - WALLIS PARA K MUESTRAS (MUESTRAS INDEPENDIENTES) Esta prueba estadística de análisis de varianza de entrada simple de Kruskal-Wallis es una extensión de la prueba de Mann-Whitney, en razón de que se usan rangos para su aplicación; por otra parte, este procedimiento se emplea cuando el modelo experimental contiene más de dos muestras independientes PROCEDIMIENTO 1.

Ordenar las observaciones en rangos de todos los grupos, del más pequeño al mayor.

2.

Asignar el rango de 1 a la observación más pequeña. Cuando las observaciones son iguales, se asigna el rango promedio a cada una de ellas.

3.

Se obtiene por separado la suma de los rangos para cada una de las muestras.

4.

Aplicar la ecuación de Kruskal-Wallis y obtener el estadístico H:   12   K Ri2   X =       − 3 ( n + 1)   n ( n + 1)   i =1 ni   2 c

5.

Detectar las ligas o empates entre los rangos de cada grupo o muestra, en el caso de que los hubiese, determinar la ecuación:

 (t i3 − t i ) K

L = 1−

6.

i =1

n3 − n

Aplicar la ecuación L al estadístico H para obtener el ajuste:

X ca2 =

  12   K Ri2         − 3 ( n + 1)   n ( n + 1)   i =1 ni  

 (t K

1−

i =1

3 i

− ti )

n3 − n

7.

Calcular los rangos de libertad: gl = k − 1 .

8.

Comparar el estadístico H, de acuerdo con los grados de libertad, en la tabla de distribución de Chi-cuadrada en razón de distribuirse de forma similar.

1

Daniel Guzmán Rojas

LA PRUEBA DE MANN − WHITNEY PARA DOS MUESTRAS (MUESTRAS INDEPENDIENTES)

Estadística No Paramétrica

ESTABLECIENDO LAS HIPÓTESIS Las hipótesis nula y alternativa pueden designar pruebas de uno o de dos criterios de calificación. Utilizando Med1 para representar la mediana 1, Med 2 para representar la mediana 2, …, Med k para representar la mediana k. Las hipótesis nula y alternativa para la prueba son: H0: Med1 = Med 2 =  = Med k Ha: Med1  Med 2    Med k

2

Daniel Guzmán Rojas

LA PRUEBA DE MANN − WHITNEY PARA DOS MUESTRAS (MUESTRAS INDEPENDIENTES)

Estadística No Paramétrica

EJEMPLO Un investigador estudia el efecto benéfico de cuatro sustancias anticonvulsionantes (fenobarbital, difenilhidantoinato -DFH-, diacepam y clonacepam), para proteger contra la muerte producida por un convulsionante, la tiosemicarbazida, la cual se manifiesta después de crisis clónica y tónica, respectivamente. El investigador elige al azar a 24 ratones de la misma edad y peso y les inyecta anticonvulsionante previamente a la tiosemicarbazida. A partir de este momento, inicia la cuenta en tiempo, hasta que mueren los ratones; además mide las observaciones en horas de tiempo transcurrido. Pruebe la hipótesis nula de que nivel mediano de desempeño en la prueba no difiere en las 4 sustancias anticonvulsionantes, utilizando un nivel de significancia del 5%. Tiempo en horas que tarda el fármaco en causar la muerte en ratones Fenobarbital

DFH

Diacepan

Clonacepan

2.0 4.0 6.0 4.0 2.0 1.0

0.5 1.0 6.0 6.0 0.3 0.4

8.0 9.0 8.0

4.0 3.0 5.0 1.0 6.0 3.0

RANGOS FÁRMACO

Nº 1 2 3 4 5 6 Rk=

1)

1 7.5 12 16.5 12 7.5 5

2 3 5 16.5 16.5

60.5

44

3 19.5 21 19.5

1 2 60

4 12 9.5 14 5 16.5 9.5 66.5

HIPOTESIS: H0: Med1 = Med 2 = Med 3 = Med 4 Ha: Med1  Med 2  Med 3  Med 4

3

Daniel Guzmán Rojas

LA PRUEBA DE MANN − WHITNEY PARA DOS MUESTRAS (MUESTRAS INDEPENDIENTES)

2)

NIVEL DE SIGNIFICANCIA: =0.05.

3)

REGIÓN DE RECHAZO:

Estadística No Paramétrica

Se acepta H0

Se acepta Ha

0.95 0.05

X 32;0.05 = 7.81

4)

DETERMINACIÓN DE H c y H ca :

 ( 33 − 3) + ( 23 − 2 ) + ( 23 − 2 ) + ( 33 − 3) + ( 43 − 4 ) + ( 23 − 2 )   = 0.98636 L = 1−  213 − 21   2 2 2 2     ( 60.5 ) ( 44 ) ( 60 ) ( 66.5 )   12 + + +   − 3 ( 21 + 1)   21)( 21 + 1)   6 6 3 6   (    X c2 =  = 8.65701 0.98636

5)

CONCLUSION: Como H ca es mayor que X 32;0.05 (8.897.81), entonces se acepta la Ha, es decir, las cuatro sustancias anticonvulsionantes tienen diferentes desempeño en las muertes de los ratones, a un nivel de confianza del 95%.

METODO DE PROBABILIDAD 1)

HIPOTESIS: H0: Med1 = Med 2 = Med 3 = Med 4 Ha: Med1  Med 2  Med 3  Med 4

4

Daniel Guzmán Rojas

LA PRUEBA DE MANN − WHITNEY PARA DOS MUESTRAS (MUESTRAS INDEPENDIENTES)

2)

NIVEL DE SIGNIFICANCIA: =0.05.

3)

REGIÓN DE RECHAZO:

Estadística No Paramétrica

Se acepta H0

Se acepta Ha

0.95 0.05

X 32;0.05 = 7.81

4)





DETERMINACIÓN DE H c y H ca y P X 2  H ca :

 ( 33 − 3) + ( 23 − 2 ) + ( 23 − 2 ) + ( 33 − 3) + ( 43 − 4 ) + ( 23 − 2 )   = 0.98636 L = 1−  213 − 21   2 2 2 2     ( 60.5 ) ( 44 ) ( 60 ) ( 66.5 )   12 + + +   − 3 ( 21 + 1)   21)( 21 + 1)   6 6 3 6   (    X c2 =  = 8.65701 0.98636

P  X 2  8.65701 = 0.03422

5)

CONCLUSION: Como P  X 2  8.65701 = 0.03422 es menor que  = 0.05 , entonces se acepta la Ha, es decir, las cuatro sustancias anticonvulsionantes tienen diferentes desempeños en las muertes de los ratones, a un nivel de confianza del 95%.

5

Daniel Guzmán Rojas

LA PRUEBA DE MANN − WHITNEY PARA DOS MUESTRAS (MUESTRAS INDEPENDIENTES)

Estadística No Paramétrica

PRUEBA DE MANN-WHITNEY PARA COMPARACIONES MÚLTIPLES (POR PARES) Tiempo en horas que tarda el fármaco en causar la muerte en ratones, ordenado la mediana de mayor a menor FÁRMACO



3 8 9 8

1 2 3 4 5 6 MEDIANA

MEDIANAi

4 4 3 5 1 6 3 3.50

8.00

MEDIANAj MEDi - MEDj

1 2 4 6 4 2 1 3.00

2 0.5 1 6 6 0.3 0.4 0.75

zc

z0.05

P[z>zc]

3 3 3

4 1 2

4.50 5.00 7.25

2.3434 2.3534 2.3434

1.645 1.645 1.645

0.0096 0.0093 0.0096

4 4

1 2

0.50 2.75

0.4872 1.0519

1.645 1.645

0.3130 0.1464

1

2

2.25

1.0538

1.645

0.1460

Se puede concluir que el fármaco 3 es el mejor, por cuanto el fármaco 3 con los fármacos 4, 1 y 2 respectivamente, sus P  z  zc   0.05 (sus medianas son diferentes).

6

Daniel Guzmán Rojas

Estadística No Paramétrica

PROBLEMAS DE ESTADÍSTICA NO PARAMÉTRICA

PROBLEMAS DE ESTADÍSTICA NO PARAMÉTRICA 1.

En un cajero automático situado en el Banco Continental de Tingo María se ha detectado una baja utilización del mismo por los clientes de la sucursal bancaria. Con el fin de investigar esta afirmación, se ha controlado el número de llegadas al mismo durante las noches en que la oficina permanece cerrada, contabilizándose los siguientes resultados: Número de llegadas al cajero

Número de noches

0

21

1

18

2

7

3

3

4 ó más

1

En base a esta afirmación, ¿se puede considerar que el número de llegadas es una variable aleatoria de Poisson? Utilizar un nivel de significancia del 5%. 2.

Los siguientes datos se corresponden con las temperaturas máximas de la Ciudad de Lima en los últimos 31 días de diciembre del 2005: 16.9 14.1 15.1 21.2

17.3 17.2 13.9 17.9

18.1 15.8 13.2 15.3

17.2 17.4 13.8 15.8

16.3 15.9 14.2

17.2 14.2 16

17.3 14.3 16.2

16.2 14 19.3

15.2 16.3 17.2

Comprobar si los datos proceden de una distribución Normal. Utilice un nivel de Significancia del 1%. 3.

Se piensa que las llamadas telefónicas de larga distancia a través de una cierta centralista de una empresa grande se producen en forma aleatoria con tiempos entre llamadas siguiendo una distribución exponencial. Las primeras llamadas después de las 13 horas un lunes ocurrieron a las: 13:06 13:08 13:16 13:22 13:23 13:34 13:44 13:47 13:51 13:57

Los tiempos sucesivos entre llamadas, contando que el primer tiempo va desde las 13:00 hasta las 13:06, son (en minutos): 6

2

8

6

1

11

10

3

4

6

Comprobar a un nivel de significación del 5% si la afirmación es correcta. 4.

En una revista científica salio publicado un articulo relativo al tiempo transcurrido entre un relámpago y un trueno, donde se afirmaba que el tiempo mediano

1

Daniel Guzmán Rojas

Estadística No Paramétrica

PROBLEMAS DE ESTADÍSTICA NO PARAMÉTRICA

era de 10 segundos. Un grupo de científicos intentaron comprobar este hecho y recogieron una muestra con los siguientes datos: Observación

1

Tiempo (Segundos)

5.

6.

7.3

2

3

4

5

6

17.5 25.3 18.2 15.0 10.0

7

8

9

9.6

7.9

10

10.8 19.3

11 8.5

a)

Pruebe la aleatoriedad de la sucesión de tiempo (segundos) transcurridos entre un relámpago y un trueno. Utilice un nivel de significancia del 5%.

b)

Utilizando la Prueba del Signo, ¿puede asegurar que el tiempo mediano es de 10 segundos? Utilice un nivel de significancia del 5%.

c)

Utilizando la Prueba de Wilcoxon, ¿puede asegurar que el tiempo mediano es de 10 segundos? Utilice un nivel de significancia del 5%.

d)

Haga una comparación entre la Prueba del Signo y la Prueba de Wilcoxon. Explique.

Una muestra aleatoria de 36 familias en el Distrito de Rupa Rupa proporcionó los siguientes ingresos (en miles de Soles al año) 20

27

15

8

7

6

8

9

9

22

24

8

9

9

6

5

5

7

6

15

13

12

12

11

9

7

20

17

15

13

11

10

12

9

8

8

a)

Pruebe la aleatoriedad de la sucesión de ingresos (miles de Soles). Utilice un nivel de significancia del 5%.

b)

Utilizando la Prueba del Signo, ¿puede asegurar que el ingreso mediano es de 11 (miles de Soles) tal como afirma el Alcalde Provincial? Utilice un nivel de significancia del 5%.

c)

Utilizando la Prueba de Wilcoxon, ¿puede asegurar que el ingreso mediano es de 11 (miles de Soles) tal como afirma el Alcalde Provincial? Utilice un nivel de significancia del 5%.

d)

Haga una comparación entre la Prueba del Signo y la Prueba de Wilcoxon. Explique.

Dos policias de transito de la Ciudad de Tingo María llevan un control del número de multas que han puesto durante siete días. Las observaciones apareadas para cada día son: PT1

17

15

12

9

17

18

14

PT2

14

14

15

7

16

18

10

2

Daniel Guzmán Rojas

Estadística No Paramétrica

PROBLEMAS DE ESTADÍSTICA NO PARAMÉTRICA

7.

a)

Utilizando la Prueba del Signo, ¿puede asegurar que hay diferencias entre el número de multas puestas por cada policia de transito? Utilice un nivel de significancia del 10%.

b)

Utilizando la Prueba de Wilcoxon, ¿puede asegurar que hay diferencias entre el número de multas puestas por cada policia de transito? Utilice un nivel de significancia del 10%.

c)

Haga una comparación entre la Prueba del Signo y la Prueba de Wilcoxon. Explique.

De una muestra de 30 fumadores se obtiene el número de cigarrillos que consumen en el trabajo y durante el mismo número de horas en sus hogares, información que aparece en la siguiente tabla: Individuo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Consumo en Consumo en el Trabajo la Casa 20 15 8 42 7 9 12 21 16 10 14 10 7 12 9 20 8 15 5 2 10 4 5 11 18 9 15 12 9 8

7 14 4 36 25 11 14 15 2 6 11 5 1 18 1 12 10 10 7 10 12 8 2 20 6 4 12 10 2 12

3

Daniel Guzmán Rojas

Estadística No Paramétrica

PROBLEMAS DE ESTADÍSTICA NO PARAMÉTRICA

El gerente de la empresa afirma que los trabajadores fuman más en el trabajo que en sus casas.

8.

a)

Utilizando la Prueba del Signo, pruebe la afirmación del gerente de la Empresa. Utilice un nivel de significancia del 5%.

b)

Utilizando la Prueba de Wilcoxon, pruebe la afirmación del gerente de la Empresa. Utilice un nivel de significancia del 5%.

c)

Haga una comparación entre la Prueba del Signo y la Prueba de Wilcoxon. Explique.

Una compañía de empaquetado de comida quisiera estar razonablemente segura que las cajas de cereal que produce, contiene de hecho al menos la cantidad de cereal que figura en el exterior de la caja. Para conseguir esto debe establecer la cantidad promedio por caja un poco por encima de la cantidad anunciada, porque la inevitable variación causada por la máquina de empaquetado pondrá un poco menos o un poco más de cereal en la caja. Una máquina con una variación más pequeña ahorraría a la compañía dinero, por que la cantidad promedio por caja se pondría ajustar para que fuera cercana a la cantidad anunciada. Una nueva máquina está siendo comprobada para ver si es menos variable que la máquina actual, en cuyo caso se comprobará para remplazar la maquina vieja. Varias cajas llenadas con cereal usando la máquina actual y la cantidad en cada caja es medida. Lo mismo se hace con la máquina nueva para contrastar. Máquina Actual

10.7 11.1 10.4 10.1 10.9

Máquina Nueva

10.8 10.9 11.0 10.9 11.2 10.7 10.8

El gerente de producción de la compañía afirma que la máquina nueva envasa más que la máquina nueva. Pruebe la hipótesis del gerente de producción utilizando la prueba de Mann-Whitney. Utilice un nivel de significancia del 5%. 9.

Una compañía que fabrica accesorios para cocinas montó la misma exhibición para el producto en grandes almacenes en dos mercados diferentes, A y B. Se seleccionaron aleatoriamente en cada localidad a diez personas que vieron la exhibición, y se les pidió que calificaran la exhibición en una escala de 1 a 20. Se muestra las veinte calificaciones en la tabla siguiente: Mercado A

15

11

20

14

9

12

5

17

13

18

Mercado B

17

6

15

10

6

8

10

16

8

7

¿Con los datos hay suficiente evidencia para indicar una diferencia en los niveles de calificaciones entre los dos mercados? Utilice un nivel de significancia del 1%.

4

Daniel Guzmán Rojas

Estadística No Paramétrica

PROBLEMAS DE ESTADÍSTICA NO PARAMÉTRICA

10.

Se comparan tres métodos de capacitación utilizando un diseño completamente aleatorizado. Los datos se muestran en la tabla. Método 1

Método 2

Método 3

26

27

25

29

31

24

23

30

27

24

28

22

28

29

24

26

32

20

30

21

33

11.

a)

¿Proporcionan los datos suficiente evidencia para indicar una diferencia en por lo menos dos de los métodos? Utilice un nivel de significancia del 5%.ç

b)

Si la prueba de Kruskal-Wallis realizada en le inciso anterior proporciona la suficiente evidencia para indicar una diferencia en por lo menos dos de los métodos, realice la prueba de Mann-Whitney para determinar cual de los métodos es mejor. Utilice un nivel de significancia del 5%

Una empresa consultora de administración realizó una encuesta para comparar las estimaciones hechas por la administración a nivel superior, por la administración a nivel medio y por un director financiero en jefe de la compañía del crecimiento anual porcentual probable de las ganancias de la compañía. Se selecciono una muestra aleatoria de diez compañías para el experimento y se eligieron al azar representantes de la administración del nivel superior, del nivel medio y del nivel de director financiero. Compañía

Administración a nivel Superior

Administración a nivel Medio

Director Financiero

1 2 3 4 5 6 7 8 9 10

10 16 13 22 14 19 25 14 16 21

7 10 20 15 12 8 10 12 12 15

9 11 10 6 12 6 8 12 13 12

5

Daniel Guzmán Rojas

Estadística No Paramétrica

PROBLEMAS DE ESTADÍSTICA NO PARAMÉTRICA

12.

a)

¿Proporcionan los datos suficiente evidencia para indicar una diferencia en los niveles de los incrementos pronosticados para los tres tipos de pronosticadores? Utilice un nivel de significancia del 5%.ç

b)

Si la prueba de Friedman realizada en le inciso anterior proporciona la suficiente evidencia para indicar una diferencia en por lo menos dos de los pronosticadores, realice la prueba de Wilcoxon para determinar cual de los pronosticadores es mejor. Utilice un nivel de significancia del 5%

Un supervisor de planta clasificó una muestra de ocho trabajadores según el número de horas extras trabajadas y la antigüedad en el empleo. Halle el coeficiente de correlación de rangos de Spearman. Horas Extras

30

17

35

28

42

25

19

29

Años de Empleo

35

31

43

46

50

32

33

42

6

Daniel Guzmán Rojas

Related Documents

Clase No 4 Estadistica
November 2019 19
Estadistica Clase No 2
November 2019 19
Estadistica Clase No 3
November 2019 16
Estadistica
November 2019 25
Estadistica
August 2019 43

More Documents from ""

November 2019 3
November 2019 6
May 2020 5