ESTADISTICA INFERENCIAL 1. INTRODUCCIÓN Es evidente que un conocimiento previo por parte del investigador de las características de la realidad de la población mejora o debe mejorar los resultados inferenciales que se pueden obtener de la obtención de una muestra; parece claro que si bien el método de selección aleatoria conlleva los mejores resultados, quizá el adecuar la manera de extraer la muestra a las posibles distintas naturalezas de las poblaciones puede mejorar el rendimiento, aunque sólo fuere a nivel de costos. No es por tanto lo mismo intentar conocer la altura media de los habitantes de un país, que el número de errores en una gran contabilidad, dado que la naturaleza de su universo y por tanto el comportamiento poblacional son distintos. Es por ello, que para distintas "naturalezas" del problema han de plantearse distintas soluciones, si bien todas, o casi todas, pasan por la aleatoriedad; de ahí que se establezcan diversas "técnicas" o "métodos" de muestreo, de los que brevemente enumeramos algunos. El objetivo de la estadística inferencial es obtener la información acerca de una población, partiendo de la información que contiene una muestra. El proceso que se sigue para seleccionar una muestra se denomina Muestreo. Las ventajas que nos brinde el muestreo son: - Los operativos son menores. - Posibilita analizar un mayor número de variables. - Permite controlar las variables en estudio. 2. TIPOS DE MUESTREO - Muestreo Probabilístico: Cuando el muestreo o proceso para seleccionar una muestra es aleatorio. Así definimos una muestra probabilística a una muestra extraída de una población de tal manera que todo elemento de la población conocida pueda ser incluida en la muestra. Puede ser a su vez: A. MUESTREO ALEATORIO SIMPLE: (M.A.S.): Es aquel muestreo aleatorio en el que la probabilidad de que un elemento resulte seleccionado se mantiene constante a lo largo de todo el proceso de obtención de la misma. La técnica del muestreo puede asimilarse a un modelo de extracción de bolas de una urna con devolución (reemplazamiento) de la bola extraída. Un mismo dato puede, en consecuencia, resultar muestreado más de una vez. Cada elección no depender de las anteriores y, por tanto, los datos muestrales serán estocásticamente independientes.
B. MUESTREO ALEATORIO SISTEMÁTICO. Esta técnica consiste en extraer elementos de la población mediante una regla sistematizadora que previamente hemos creado (sencillamente cada K elementos). Así; numerada la población, se elige (aleatoriamente) un primer elemento base, partiendo de éste se aplica la regla para conseguir los demás hasta conseguir el tamaño muestral adecuado. Este procedimiento conlleva el riesgo de dar resultados sesgados si en la población se dan periodicidades o rachas.
C. MUESTREO ALEATORIO ESTRATIFICADO: Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen una gran homogeneidad interna (poca varianza interna) y no obstante son heterogéneos entre sí (mucha varianza entre estratos). La muestra se distribuye (se extrae de) entre los estratos predeterminados según la naturaleza de la población (ejemplo: sexo, lugar geográfico, etc.). Dicha distribución-reparto de la muestra se denomina afijación ; que puede ser de varias formas : - Afijación simple: a cada estrato le corresponde igual número de elementos (extracciones) muestrales. - Afijación proporcional: La distribución se hace de acuerdo con el peso (tamaño) relativo de cada estrato.
1
-
Afijación óptima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que se considera la proporción y la desviación típica. D. MUESTREO POR CONGLOMERADOS: La unidad muestral es un grupo de elementos de la población que forman previsiblemente una unidad de comportamiento representativo. Dicha unidad es el conglomerado cuyo comportamiento interno puede ser muy disperso (varianza grande) pero que presumiblemente poseerá un comportamiento próximo a otros conglomerados (varianza entre conglomerados, pequeña). Los conglomerados se estudian en profundidad hasta conseguir el tamaño muestral adecuado.
E. OTROS TIPOS DE MUESTREO. Es evidente que los planteados no son las únicas técnicas de muestreo. Existen otras como las no aleatorias: Cuotas, Intencional, Incidental, bola de nieve, etc. Y otras aleatorias y complicadas como el muestreo por superpoblaciones, y que en este curso no podemos desarrollar. 3. ESTIMACION DE INTERVALO La "estimación por intervalo" consiste en determinar un par de valores a y b, tales que constituidos en intervalo [a ,b] ; y para una probabilidad 1-α prefijada (nivel de confianza) se verifique en relación al parámetro θ a estimar se cumpla: P (ϑ ∈ [a, b]) = 1 − α ó en otros términos: P (a ≤ ϑ ≤ b) = 1 − α . Podemos considerar el nivel de confianza (1-α ) que hemos prefijado para la expresión anterior como la probabilidad que existe (antes de tomar la muestra) de que el intervalo a construir a partir de la muestra incluya el verdadero valor del parámetro a estimar. Refleja la "confianza" en la "construcción" del intervalo y de que éste tras concretar la muestra contendrá el valor a estimar. De ahí que en términos numéricos dicho nivel o probabilidad haya de tomar un valor alto (0.9, 0.95, 0.99). Evidentemente el complementario al nivel de confianza; es decir α, nivel de significación supondrá las probabilidades de cometer el error de no dar por incluido el verdadero valor del parámetro a estimar en un intervalo en el que realmente si está. De ahí y dado que se trata de un error posible a cometer, su cuantificación en términos de probabilidad sea muy pequeña (0.1, 0.05, 0.005,..). En relación a lo anterior. Obviamente, cuanto mayor sea el nivel de confianza prefijado la amplitud del intervalo de estimación será también mayor y por tanto la estimación será menos precisa. La siguiente tabla presenta las diferentes fórmulas que ayudaran a crear los intervalos.
2
Para la distribución Normal utilice la siguiente tabla: Nivel de confianza
α
α/2
Zα
90% 95% 99%
0.1 0.05 0.01
0.05 0.025 0.005
1.645 1.96 2.576
2
Ejemplo Nº 001 En población cuya distribución se desconoce se obtiene una muestra (m.a.s.) de 2000 valores de la que resulta una media de 225 y una desviación típica de 10. Suponiendo que la varianza muestral coincide con la poblacional, estimar un intervalo para la media de la población con un nivel de confianza del 95%. Tendríamos 1-α =0.95 luego α =0.05; S=10=σ (muestra grande n>30); n=2000, población normal.
P( x − Z α 2
para una
σ σ ≤ u ≤ x + Zα ) = 0.95 n n 2
el resultado sería : µ ∈ [224,56 , 225,44] con el 95 % de confianza.
3
Ejemplo Nº 002 Las ventas diarias de cierta oficina comercial se supone que siguen una distribución normal. Para estimar el volumen medio de ventas por día se realiza una muestra de 10 días escogidos al azar, resultando que la media de las ventas de esos 10 días es S/. 100 con una desviación típica de S/. 4. Dar un intervalo de estimación para el volumen medio de ventas por día con una confianza del 95 %. Conocemos que según la información que poseemos, estamos ante: Distribución normal; n=10 (muestra pequeña); S=4(poblacional desconocida); media muestral=100; Para 1-α =0.95, luego α =0.05 con lo que tα 2 (9 gl ) = 2.26 (según tabla T)
P( x − t α 2
S S ≤ u ≤ x + tα ) = 0.95 n n 2
El resultado sería: µ ∈ [S/.96,99 ; S/.103,01] con el 95 % de confianza. Ejemplo Nº 003 Se quiere obtener un intervalo de confianza para el valor de las ventas medias por hora que se producen en un kiosco. Para ello realizamos una muestra consistente en elegir al azar las ventas que se realizaron durante 1000 horas distintas; muestra cuyos resultados fueron: ventas medias por hora S/. 4000, y varianza de dicha muestra S2/. 4000. Obtener dicho intervalo con un nivel de confianza del 95.5 %. Queremos construir un intervalo para la media con las siguientes características: Tamaño muestral=n=1000, con muestreo aleatorio simple, la población no es normal ni conocemos su varianza. El resultado de la muestra es x = 4000 , S2=4000. Si bien se trata de un intervalo para la media con varianza desconocida y población no normal, dado que el tamaño muestral es grande podemos suponer normalidad y tomar como varianza poblacional a la muestral así:
P( x − z α 2
σ σ ≤ u ≤ x + zα ) = 0.95 n n 2
El resultado sería: µ ∈ [S/.399,08 ; S/.4003,92] con el 95 % de confianza. 4. DETERMINACION DEL TAMAÑO DE LA MUESTRA Cuando se necesita información para realizar estudios con datos estadísticos y no se puede contar un censo, porque es muy caro, o porque demora mucho o no se cuenta con el personal adecuado; entonces será necesario obtener una muestra, ahora. Pero viene la pregunta: ¿cuál será el número adecuado mínimo del tamaño de la muestra? En principio existe todo un proceso para obtener una muestra representativa de la población. Si el método es aleatorio o probabilistico, entonces el número adecuado de los elementos de la muestra, se pueden calcular usando las siguientes fórmulas. 1. CUANDO EL ESTUDIO ES DE CARÁCTER CUALITATIVO a. Cuando se supone que N es muy grande o cuando el muestreo es con reposición:
n=
Z α2 PQ E2 4
b. Cuando la población es finita (se conoce N) o el muestro es sin reposición.
n=
NZ α2 PQ ( N − 1) E 2 + Z α2 PQ
Donde: P=Proporción de éxito; que se conoce por estudios anteriores o similares. Q=(1-P). Proporción de fracaso. Zα=Valor que se obtiene de la distribución normal, para un nivel de significación a. Generalmente se toma: Z=1.96 para un nivel de significancia del 5%. Z=2.575 para un nivel de significancia del 1%. E=Error de estimación. Valor que lo determina el investigador. Se sugiere valores en torno al 5%. N= Número de los elementos de la población. Nota: Si no se conoce P, se puede adoptar las siguientes decisiones: i) Tomar una muestra piloto y calcular el valor de P. ii) Considerar el valor de P=0.5, lo cual dará el número de elementos de la muestra el mayor posible. 2. CUANDO EL ESTUDIO ES DE CARÁCTER CUANTITATIVO a) Cuando no se conoce el tamaño N de la población o éste es infinito:
n=
Z α2σ 2 E2
b) Cuando el tamaño N de la población es finito:
n=
NZ α2σ 2 ( N − 1) E 2 + Z α2σ 2
Ejemplos Nº 004 Se van a realizar un gran y desconocido número de ensayos para calibrar la resistencia media a la rotura de un determinado azulejo en una partida de 10 000,000 unidades. Si deseamos cometer un error inferior a 10 kg/cm2, y por ensayos anteriores conocemos que la varianza en la rotura ha sido de 40 (kg/cm2)2, ¿Qué número de ensayos hemos de realizar si hemos decidido trabajar con un nivel de confianza del 95%? Si suponemos un gran número de ensayos, suponemos, también, que el tamaño muestral es grande, por lo que podemos establecer normalidad. Los datos serian los siguientes: α=95%, E2=10 kg/cm2 ,σ2=40(kg/cm2)2. Utilizando la fórmula siguiente: n =
n=
Z α2σ 2 , tenemos: E2
(1.96 2 )(40) = 15.36 ≈ 15 muestras de azulejos. 10
Ejemplo Nº 005 Para conocer la valoración en forma de porcentaje de aceptación hacia un determinado profesor decidimos encuestar a un determinado número de sus 100 alumnos. Calcular dicho número, si el error que estamos dispuestos a admitir es del más menos 3% y trabajamos con un nivel de confianza del 95%. Tenemos los siguientes datos:
5
N=100, E=3%, α=95%, p=0.5. q=1-p=0.5 Utilizando la fórmula tenemos:
n=
NZ α2 PQ (100)(1.96) 2 (0.5)(0.5) = = 91.51 ≡ 91 alumnos. ( N − 1) E 2 + Zα2 PQ (100 − 1)(0.03) 2 + (1.96) 2 (0.5)(0.5)
Ejemplo Nº 006 Para conocer la valoración en forma de porcentaje de aceptación hacia un determinado profesor decidimos encuestar a un determinado número de sus 100 alumnos. Calcular dicho número, si el error que estamos dispuestos a admitir es del más menos 3% y trabajamos con un nivel de confianza del 95%. El tamaño de la población es pequeño con Ν=100, Ε=3%, α=95%, p=0,5
q=1-p=0.5.
Utilizando la fórmula tenemos:
n=
NZ α2 PQ (100)(1.96) 2 (0.5)(0.5) = = 91.51 ≡ 91 alumnos. ( N − 1) E 2 + Zα2 PQ (100 − 1)(0.03) 2 + (1.96) 2 (0.5)(0.5)
5. CONSTRASTE DE HIPÓTESIS El problema del contraste de hipótesis consiste básicamente en comprobar cotejar, decidir, en definitiva, sobre la veracidad de una hipótesis prefijada previamente como supuestamente cierta. En términos estadísticos, la o las hipótesis que formulamos lo serán lógicamente sobre la población. Bien afectando a algún parámetro de ésta, lo que da origen a los contrastes paramétricos o bien a otras características de la mismas que no lo sean estrictamente, lo que origina contrates "no" paramétricos. La solución estadística del problema de contrastación se basará en los datos muestrales y la base estadística (probabilística) de la que arrancará el contraste, de algún estadístico muestral. Pasemos a definir los principales conceptos implicados en nuestro problema: Región crítica: Será aquella región del campo de variación del estadístico tal que si contiene al valor evaluado del mismo con los datos muestrales nos llevará a rechazar la hipótesis. La designaremos por R1 Región de aceptación: Es la región complementaria de la anterior. Si el valor evaluado del estadístico pertenece a ella No rechazamos la hipótesis (las hipótesis nunca se aceptan de forma definitiva, sólo se aceptan provisionalmente, es decir, no se rechazan, a la espera de una nueva información que eventualmente pueda llevarnos a rechazarla en el futuro). La designaremos por R0. Evidentemente los conjuntos de puntos que forman ambas regiones son disjuntos. Una hipótesis estadística (paramétrica): Es una conjetura sobre el valor concreto que tiene en realidad. El establecer una hipótesis sobre un parámetro θ, supone dividir los posibles valores del parámetro en dos grupos disjuntos tales que unos son hipotéticamente ciertos (θ0) y los otros (θ1) no lo son. A la hipótesis que se desea contrastar se la denomina "hipótesis nula", siendo, por tanto, el valor o valores θ0 que hipotéticamente consideramos reales, dicha hipótesis viene expresada como H0. Alternativamente y consecuentemente se establece la denominada "hipótesis alternativa" (H1) compuesta ésta por el valor o valores θ1 que en consecuencia de la elección y de la complementariedad de los de la hipótesis nula, son los que, en principio, no consideramos cómo hipotéticamente reales.
6
El hecho de que las hipótesis, tanto la nula cómo la alternativa puedan recoger en sus planteamientos uno o varios valores, da lugar a hipótesis de carácter simple, si el número de valores plausibles e hipotéticos es de uno en ambas, o bien a hipótesis compuestas si dicho valor no es único en alguna de ellas. Teniendo en cuenta lo dicho anteriormente, el problema de rechazar o aceptar una hipótesis puede plantearse como un problema de decisión, en el que evidentemente existe la posibilidad de fracasar o acertar en la elección o decisión a la hora de concluir que la hipótesis, bien nula o bien alternativa, son rechazables o no. El problema de decisión: rechazo/no rechazo, vendría expresado en las siguientes opciones en forma de tabla: Hipótesis/Acción Es cierta Es falsa
• • • •
No Rechazamos Correcto Error Tipo II
Rechazamos Error Tipo I Correcto
Si la hipótesis nula (H0) es cierta y nuestra decisión es no rechazarla, la decisión ha sido correcta. Si la hipótesis nula (H0) es cierta y nuestra decisión es rechazarla, la decisión provoca un error. Dicho error se denomina error tipo I. Si la hipótesis nula (H0) es falsa y nuestra decisión es no rechazarla, la decisión provoca un error. Dicho error se denomina error tipo II. Si la hipótesis nula (H0) es falsa y nuestra decisión es rechazarla, la decisión ha sido correcta.
Ejemplo: Enunciado 1: La altura del estudiante de la Universidad Nacional de Tumbes es Planteando las Hipótesis tenemos: H0: µ=1.65 H1: µ>1.65, µ<1.65 ó µ ≠ 1.65
1,65 m.
Enunciado 2: El promedio ponderado de los alumnos de la Escuela de contabilidad de la Universidad Nacional de Tumbes es 13.5. Planteando las Hipótesis tenemos: H0: µ=13.5 H1: µ>13.5, µ<13.5 ó µ ≠ 13.5 Enunciado 3: El porcentaje de alumnos de escuelas de la Región que tienen caries es mayor que 0.7. Planteando las Hipótesis tenemos: H0: p ≥ 0.7 H1: p<0.7 PRUEBA UNILATERALES Y BILATERALES Dependiendo de cómo se formulen H0 y H1, las pruebas pueden ser:
a) Pruebas Unilaterales o de una cola: Que puede ser: -
Prueba de cola inferior o de lado izquierdo: cuyo caso la hipótesis en general toma la siguiente forma: Ho: θ=θ0, H1: θ<θ0
7
Donde θ es el parámetro de la población estadística sobre la cual se esta haciendo la prueba de hipótesis. Ejemplo: 1) H0: µ=1.65 H1: µ<1.65 2) H0: µ=13.5 H1: µ<13.5
-
Prueba de cola superior o de lado derecho: cuyo caso la hipótesis en general toma la siguiente forma: Ho: θ=θ0, H1: θ>θ0 Donde θ es el parámetro de la población estadística sobre la cual se esta haciendo la prueba de hipótesis. Ejemplo: 1) H0: µ=1.65 H1: µ>1.65 2) H0: µ=13.5 H1: µ>13.5
b) Pruebas de dos colas o bilateral: Que puede ser: Ho: θ=θ0, H1: θ ≠ θ0 Ejemplo: 1) H0: µ=1.65 H1: µ ≠ 1.65 2) H0: µ=13.5 H1: µ ≠ 13.5 PROCEDIMIENTO PARA UNA PRUEBA DE HIPOTESIS Los pasos a seguir son: 1. Formular la hipótesis nula H0 y la alternativa H1, de acuerdo al problema. 2. Escoger un nivel de significación o riesgos α. 3. Elegir la estadística de prueba apropiada, cuya distribución por muestreo sea conocida en el supuesto de que Ho es cierta. 4. En base a α y H1, determinar el valor (o los valores) críticos y con ello se establecen las regiones de aceptación o rechazo. 5. Calcular los valores de la prueba estadística a partir de una muestra aleatoria de tamaño n, Ho y reemplazarlos en la estadística de prueba elegida en el paso 3, para hallar el valor experimental. 6. Tomar la decisión de aceptar Ho si el valor experimental cae en la región de aceptación y rechazarla si dicho valor cae en la región crítica o de rechazo. 7. Opcional: Si se rechaza H0, se puede hallar un intervalo de confianza para el parámetro de interés.
8
PRUEBA DE HIPOTESIS SOBRE LA MEDIA POBLACIONAL Caso A: Cuando la varianza poblacional es conocida. Deseamos contrastar la hipótesis de que el parámetro poblacional θ = µ toma un determinado valor µ=0 . Conocemos que la población se distribuye normalmente y conocemos también su varianza , o bien si nos es desconocida, el tamaño muestral es lo suficientemente grande cómo para poder utilizar la muestral cómo poblacional. Hemos determinado un nivel de significación para la realización del contraste y vamos a plantearlo en el supuesto de realizar una muestra aleatoria de tamaño n.
Así: conocemos que x ⇒ N u , σ
x−u ⇒ N [0,1] de forma que de lo que deducimos que σ n n
la hipótesis nula es: H0: µ=µ0.
x − u0
El estadístico está dado por: Z = σ
.
n
Ejemplo Nº 000 De 100 observaciones de una población normal se obtiene que x = 5 y que S=2.Contrastar con un nivel de significación del 5% la hipótesis de que la media de la población sea 7. Aplicando el procedimiento para probar una hipótesis tenemos: 1. H0: µ0=7 H1: µ0 ≠ 7 2. El nivel de significancia es del 5%. (α=5%)
x − u0
3. Z = σ
n
4. Establecemos la región de aceptación y de rechazo:
5. Realizamos la prueba estadística:
Z=
5−7 = −10 2 100
6. Dado que Z=-10 y no pertenece a la región de aceptación estamos en condiciones de rechazar la hipótesis nula, luego aceptar la alternativa : µ0 ≠ 7. Ejemplo Nº 00z
9
Un empresario está considerando la posibilidad de ampliar su negocio mediante la adquisición de un pequeño bar. El dueño actual del bar afirma que el ingreso diario del establecimiento sigue una distribución normal de media 675 soles y una desviación estándar de 75 soles. Para comprobar si decía la verdad, tomó una muestra de treinta días y ésta reveló un ingreso diario promedio de 625 soles. Utilizando un nivel de significación del 10 %. ¿Hay evidencia de que el ingreso diario promedio sea menor del que afirma el presente dueño?. Aplicando el procedimiento para probar una hipótesis tenemos: 1. H0: µ0 ≥ 675 H1: µ0<675 2. El nivel de significancia es del 10%. (α=10%)
x − u0 Z = 3. σ n 4. Establecemos la región de aceptación y de rechazo:
5. Realizamos la prueba estadística:
Z=
625 − 675 = −3.65 75 30
6. Dado que Z=-3.65 y no pertenece a la región de aceptación estamos en condiciones de rechazar la hipótesis nula, luego aceptar la alternativa: µ0<7.
Caso B: Cuando no se conoce la varianza poblacional y para una muestra pequeña. Deseamos contrastar la hipótesis de que el parámetro poblacional θ = µ toma un determinado valor µ=0 . Desconocemos la varianza de la población y, dado que el tamaño muestral es pequeño, no podemos utilizar la muestral en su lugar. Hemos determinado un nivel de significación para la realización del contraste y vamos a plantearlo en el supuesto de realizar una muestra aleatoria de tamaño n.
x−u
Así: conocemos que s
n
⇒ t n−1 de forma que la hipótesis nula es: H : µ=µ 0 0. x − u0
El estadístico está dado por: t = s
.
n
Ejemplo 2.
10
Se escoge a 17 individuos al azar y se les mide, resultando que su estatura media es de 1,71 metros con desviación típica de 0,02 .Contrastar la hipótesis de que la estatura media nacional sea de 1.75 metros si utilizamos un nivel del significación del 5%. Se supone normalidad Aplicando el procedimiento para probar una hipótesis tenemos: 1. H0: µ0=1.75 H1: µ0 ≠ 1.75 2. El nivel de significancia es del 5%. (α=5%).
x − u0 t = 3. s n 4. Establecemos la región de aceptación y de rechazo: Utilizamos la tabla T.
5. Realizamos la prueba estadística:
t=
1.71 − 1.75 = −8.25 0.02 17
6. Dado que t=-8.25 y no pertenece a la región de aceptación estamos en condiciones de rechazar la hipótesis nula, luego aceptar la alternativa: µ0=1.75.
PRUEBA DE HIPOTESIS PARA LA PROPORCIÓN POBLACIONAL: p Se trata de efectuar una prueba de hipótesis acerca de la proporción de elementos con cierto atributo en una población, hipótesis de la forma: H0: p ≤ p0. H0: p ≥ p0. H0: p=p0. H1: p>p0. H1: p
El estadístico está dado por: Donde P =
Z=
P − p0 p0 (1 − p0 ) n
x (proporción muestral) n
Tiene una distribución N(0,1) cuando n ≥ 30. Ejemplo 4. Una empresa de publicidad desea comprobar si un determinado programa de televisión es visto por el 30% de la audiencia potencial .Para ello se escoge al azar una muestra de 200
11
familias resultando que de ellas 50 lo ven asiduamente. Contrastar la hipótesis con un nivel de significación del 5%. Aplicando el procedimiento para probar una hipótesis tenemos: 1. H0: p=0.3 H1: p ≠ 0.30 2. El nivel de significancia es del 5%. (α=5%). 3.
Z=
P − p0 p0 (1 − p0 ) n
4. Establecemos la región de aceptación y de rechazo:
5. Realizamos la prueba estadística:
50 = 0.25 200 P − p0 0.25 − 0.30 Z= = = −1.54 p0 (1 − p0 ) 0.3(1 − 0.3) 200 n P=
6. Dado que Z=-1.54 y pertenece a la región de aceptación estamos en condiciones de acepta la hipótesis nula, es decir: p=0,3 Ejemplo Un fabricante de refrescos sin burbujas desea sacar al mercado una variedad de su producto que tenga burbujas. Su director comercial opina que al menos el 50 % de los consumidores verá con buenos ojos la innovación. Se realiza un sondeo de mercado y resulta que de 100 consumidores encuestados 40 son favorables a la innovación.
a) Contrastar la hipótesis del director comercial frente a la alternativa de que el % de aceptación es inferior, con un nivel de significación del 1%.
b) Si el aceptable la hipótesis de que el % de aceptación del nuevo producto es inferior o igual al 30 % el fabricante decidirá no fabricarlo. Si es aceptable el criterio del director comercial entonces sí fabricarán el refresco con burbujas. Y si ninguna de las 2 hipótesis es aceptable procederán a hacer otro sondeo. Para tomar esta decisión trabajarán con un nivel de significación del 5 %. ¿ Por qué optarán?.
12
Para el punto a) Aplicando el procedimiento para probar una hipótesis tenemos: 1. H0: p ≤ 0.5 H1: p>0.5 2. El nivel de significancia es del 1%. (α=1%). 3.
Z=
P − p0 p0 (1 − p0 ) n
4. Establecemos la región de aceptación y de rechazo:
5. Realizamos la prueba estadística:
40 = 0.4 100 P − p0 Z= = p0 (1 − p0 ) n P=
0.4 − 0.5 = −2 0.5(1 − 0.5) 100
6. Dado que Z=-2 y pertenece a la región de aceptación estamos en condiciones de aceptar la hipótesis nula, es decir: p ≤ 0,5. Para el punto b) Aplicando el procedimiento para probar una hipótesis tenemos: 1. H0: p ≤ 0.3 H1: p>0.3 2. El nivel de significancia es del 1%. (α=1%). 3.
Z=
P − p0 p0 (1 − p0 ) n
4. Establecemos la región de aceptación y de rechazo:
13
5. Realizamos la prueba estadística:
40 = 0.4 100 P − p0 Z= = p0 (1 − p0 ) n P=
0.4 − 0.3 = 2.18 0.3(1 − 0.3) 100
6. Dado que Z=2.18 y pertenece a la región de aceptación estamos en condiciones de aceptar la hipótesis nula, es decir: p ≤ 0,3. Por lo tanto se recomiendo no fabricar el refresco.
ESTIMACIÓN DE UNA DIFERENCIA ENTRE DOS MEDIAS DE POBLACIONES NORMALES (Población 1 y 2) Para encontrar el intervalo de la diferencia de la media de dos poblaciones se considera que las muestras tomadas de las poblaciones son independientes. SI SE CONOCE LAS DESVIACIONES ESTÁNDAR POBLACIONALES ( σ 1 Y σ 2 ). El intervalo de 100(1 − α ) % , resulta ser:
(
)
Límite inferior: x1 − x 2 − z tabla •
(
)
Límite superior: x1 − x 2 + z tabla •
σ 12 σ 22 + ; n1 n2 σ 12 σ 22 + n1 n2
Donde: n1 : es el tamaño de la muestra tomada de la población 1
n1 : es el tamaño de la muestra tomada de la población 2 x1 : es la media de la muestra tomada de la población 1 x 2 : es la media de la muestra tomada de la población 2 σ 1 : es la desviación estándar de la población 1 σ 2 : es la desviación estándar de la población 2 N es el tamaño de la población z tabla : es el valor z de la tabla N(0,1) SI NO SE CONOCE LAS DESVIACIONES ESTÁNDAR POBLACIONALES ( σ 1 Y σ 2 ).
14
El intervalo de 100(1 − α ) % , resulta ser:
1 1 + n1 n2
Límite inferior: x1 − x2 − t tabla ; gl =n1 + n2 −2 * s p * Límite superior: x1 − x2 + t tabla ; gl = n1 + n2 −2 * s p *
;
1 1 + n1 n2
Donde:
t tabla ; gl =n −2 : es el valor “t” de la tabla “t” de Student, con n1 + n2 − 2 grados de libertad 2 Donde las varianzas poblacionales, si bien son desconocidas, se considera que son iguales, s c representa entonces la varianza común y se calcula:
s
2 p
( n1 − 1) ⋅ s12 + ( n2 − 1) ⋅ s 22 = n1 + n2 − 2
ESTIMACIÓN DE UNA DIFERENCIA ENTRE DOS PROPORCIONES POBLACIONALES (Población 1 y 2). (Caso de muestras grandes) El intervalo de 100(1 − α ) % , resulta ser: Límite inferior: ( pˆ 1 − pˆ 2 ) − z tabla •
Pˆ1 • Qˆ 1 Pˆ2 • Qˆ 2 + n1 n2
Límite superior: ( pˆ 1 − pˆ 2 ) + z tabla •
;
Pˆ1 • Qˆ 1 Pˆ2 • Qˆ 2 + n1 n2
Donde: n1 : es el tamaño de la muestra tomada de la población 1
n2 : es el tamaño de la muestra tomada de la población 2 Pˆ1 : es la proporción en la muestra tomada de la población 1; Qˆ 1 = 1 − Pˆ1 Pˆ : es la proporción en la muestra tomada de la población 1; Qˆ = 1 − Pˆ 2
2
2
N es el tamaño de la población z tabla : es el valor z de la tabla N(0,1) PRUEBA DE HIPÓTESIS PARA UNA DIFERENCIA DE MEDIAS DE POBLACIONES CON DISTRIBUCIÓN NORMAL (Con muestras independientes).
(
Aquí se tiene entonces: X 1 ~ N µ1 ; σ 12
)
(
y X 2 ~ N µ 2 ; σ 22
)
En este caso las hipótesis son de la forma: 1.
H 0 : µ1 = µ 2
2.
H a : µ1 ≠ µ 2
H 0 : µ1 = µ 2
3.
H a : µ1 < µ 2
H 0 : µ1 = µ 2 H a : µ1 > µ 2
En forma equivalente se puede plantear las hipótesis: 1.
H 0 : µ1 − µ 2 = 0 H a : µ1 − µ 2 ≠ 0
2.
H 0 : µ1 − µ 2 = 0 H a : µ1 − µ 2 < 0
3.
H 0 : µ1 − µ 2 = 0 H a : µ1 − µ 2 > 0
CASO EN QUE SE CONOCEN LAS VARIANZAS POBLACIONALES ( σ 12 Y σ 22 )
15
El valor calculado es:
x1 − x 2
z calc =
σ 12 σ 22 + n1 n2
Los valores críticos son: Hipótesis tipo 1: − z tabla y z tabla , Hipótesis tipo 2: − z tabla , Hipótesis tipo 3: z tabla CASO EN QUE NO SE CONOCEN LAS VARIANZAS POBLACIONALES ( σ 12 Y σ 22 ) Si se considera que: σ 12 = σ 22 El valor calculado es:
t calc =
x1 − x2 1 1 sp + n1 n2
Donde:
s
2 p
( n1 − 1) ⋅ s12 + ( n2 − 1) ⋅ s 22 = n1 + n2 − 2
s12 y s 22 ; son las varianzas de las muestras sacadas de la población 1 y 2 respectivamente x1 y x 2 ; son las medias de las muestras sacadas de la población 1 y 2 respectivamente Los valores críticos son: Hipótesis tipo 1: − t tabla ; gl = n1 + n2 − 2 y t tabla ; gl = n1 + n2 − 2 Hipótesis tipo 2: − t tabla ; gl = n1 + n2 − 2 Hipótesis tipo 3: t tabla ; gl = n1 + n2 − 2 SI SE CONSIDERA QUE: σ 12 ≠ σ 22 El valor calculado es:
t calc =
x1 − x 2 s12 s 22 + n1 n2
Los valores críticos son los mismos anteriores, pero, los grados de libertad están dados por:
gl =
s12 s 22 + n1 n 2 1 s12 n1 + 1 n1
2
2
1 s 22 + n2 + 1 n 2
2
−2
Ejemplo: Dos fabricantes A y B producen un artículo similar, cuyas vidas útiles tienen desviaciones estándar respectivas de 120 horas y 90 horas. Para comparar el promedio de vida útil de estos artículos se extrae una muestra aleatoria de 60 artículos de cada fabricante encontrándose la duración media de 1.230 horas para la marca A y de 1.190 horas para la marca B. ¿Se puede concluir a un nivel de significación del 5% que los artículos de marca A tienen mayor duración media que los artículos de marca B? Se tiene una prueba de hipótesis para la diferencia de dos medias con varianzas poblacionales conocidas.
16
Datos: n1 = n 2 = 60; x1 = 1.230; x 2 = 1.190; σ 12 = 120 2 ; σ 22 = 90 2 z tabla = 1,645 En este problema, si bien es cierto, no se dice que las poblaciones sean normales, se tiene que los tamaños de muestra son grandes, por lo que la estadística de prueba:
x1 − x 2
z calc =
σ 12 σ 22 + n1 n2
Tiene una distribución aproximadamente normal estándar, por lo que se puede usar lo presentado en el punto 4.1.
H 0 : µ1 − µ 2 = 0 H a : µ1 − µ 2 > 0 El valor calculado es:
z calc =
x1 − x 2
=
σ σ + n1 n2 2 1
2 2
1.230 − 1.190 120 2 60
+
90 2
= 2,07
60
Valor critico: z tabla = 1,645
La región de rechazo es entonces: RR = [1,645; ∞[ Por lo tanto se rechaza Ho, se acepta Ha. Se puede decir que existen evidencias significativas, al nivel de significación del 5%, para decir que la duración media de los artículos de marca A es mayor a los de marca B. PRUEBA DE HIPÓTESIS PARA UNA DIFERENCIA DE PROPORCIONES (Muestras grandes). En este caso las hipótesis son de la forma: 1.
H 0 : P1 = P2
2.
H a : P1 ≠ P2
H 0 : P1 = P2
3.
H a : P1 < P2
H 0 : P1 = P2 H a : P1 > P2
En forma equivalente se puede plantear las hipótesis: 1.
H 0 : P1 − P2 = 0
2.
H a : P1 − P2 ≠ 0
El valor calculado es:
z calc =
H 0 : P1 − P2 = 0 H a : P1 − P2 < 0
3.
H 0 : P1 − P2 = 0 H a : P1 − P2 > 0
Pˆ1 − Pˆ2
(
)
1 1 Pˆ • 1 − Pˆ + n1 n2
n • Pˆ + n2 • Pˆ2 Donde: Pˆ = 1 1 n1 + n2
Los valores críticos son: Hipótesis tipo 1: − z tabla y z tabla Hipótesis tipo 2: − z tabla Hipótesis tipo 3: z tabla
17
Ejemplo: Una muestra aleatoria de 300 hombres y otro de 400 mujeres de una determinada población reveló que 120 hombres y 120 mujeres estaban a favor de cierto candidato. ¿Se puede concluir a un nivel de significación del 5% que la proporción de hombres a favor del candidato es mayor que la proporción de mujeres? Aquí se tiene una prueba de hipótesis para diferencias de proporciones con muestras grandes. Si denotamos con 1 a la población de hombres y con 2 a la de mujeres, se tiene: 1° Plantear las hipótesis de interés
H 0 : P1 = P2 H a : P1 > P2 2° Calcular la estadística de prueba (valor calculado), bajo Ho:
El valor calculado es:
z calc =
Pˆ1 − Pˆ2
(
)
1 1 Pˆ • 1 − Pˆ + n1 n2
=
0,4 − 0,3 1 1 0,34 • 0,66 + 300 400
= 2,76
n • Pˆ + n2 • Pˆ2 300 • 0,4 + 400 • 0,3 = = 0,34 Donde: Pˆ = 1 1 n1 + n 2
300 + 400
3° Construir la regla de decisión y decidir El valor crítico es: z tabla = 1,645 La región de rechazo (RR) es: RR = [1,645; ∞[ Por lo tanto se rechaza Ho, se acepta Ha Se puede decir entonces que existen evidencias suficientes, a un 5% de significación, para decir que la proporción de hombres a favor del candidato es mayor que el de las mujeres, en esa población
18