UNIVERSIDAD DE SAN CARLOS DE GUATEMALA Centro Universitario del Norte –CUNORCarreras de Ingeniería Estadística 2 Ing. Danilo Sierra
ENSAYO DE UNA HIPÓTESIS PARA UNA Y DOS POBLACIONES
Juan Carlos Guá Lem 201545576 Nelshon Fernando Choc Guá 201340622
Cobán Alta Verapaz, 18 de marzo de 2019
ENSAYO DE HIPÓTESIS HIPÓTESIS Tenemos que empezar por definir que es una hipótesis y que es un ensayo de hipótesis. Hipótesis es una aseveración de una población elaborado con el propósito de poner a prueba, para verificar si la afirmación es razonable se usan datos. Un ensayo de hipótesis se puede utilizar para tomar una decisión respecto a una afirmación hecha sobre el valor de uno o más parámetros poblacionales, sobre la forma específica de la distribución de una determinada característica, sobre la independencia (o correlación) de distintas variables, sobre mejoras introducidas (por ej. en tratamientos o procesos), etc. En principio se establece una hipótesis nula (H0) y se analiza si la información estadística obtenida es suficiente o no para rechazarla. Por otro lado, se define la hipótesis alternativa (H1), que sería la afirmación a “aceptar” cuando la H0 es rechazada. El resultado del test puede ser “rechazar H0 en favor de H1” o “no rechazar H0” (también puede “no hacerse nada” y pedir más datos antes de decidir) Rechazar una hipótesis es más fuerte que no hacerlo. Por ello, suele usarse como H0 a la hipótesis que uno desea rechazar. Hay también un compromiso respecto a la simplicidad (por ej. es más simple el cálculo asumiendo que dos cosas son iguales a que son distintas) El no rechazo de H0 no implica que sea cierta. Simplemente no se cuenta con evidencia Suficiente para rechazarla a favor de H1. EN UN TEST NO SE HACE UN JUICIO DE VALOR LÓGICO (VERDADERO O FALSO)
Un ensayo de una hipótesis: se realiza mediante un procedimiento sistemático de cinco paso:
Siguiendo este procedimiento sistemático, al llegar al paso cinco se puede o no rechazar la hipótesis, pero debemos de tener cuidado con esta determinación ya que en la consideración de estadística no proporciona evidencia de que algo sea verdadero. Esta prueba aporta una clase de prueba más allá de una duda razonable.
Objetivo del ensayo de hipótesis. El propósito del ensayo de hipótesis no es cuestionar el valor calculado del estadístico (muestral), sino hacer un juicio con respecto a la diferencia entre estadístico de muestra y un valor planteado del parámetro. - Procedimiento sistemático para un ensayo de hipótesis de una muestra .Paso 1: Plantear la hipótesis nula Ho y la hipótesis alternativa H1. Cualquier investigación estadística implica la existencia de hipótesis o afirmaciones acerca de las poblaciones que se estudian. La hipótesis nula (Ho) se refiere siempre a un valor especificado del parámetro de población, no a una estadística de muestra. La letra H significa hipótesis y el subíndice cero no hay diferencia. Por lo general hay un "no" en la hipótesis nula que indica que "no hay cambio" Podemos rechazar o aceptar Ho. La hipótesis nula es una afirmación que no se rechaza a menos que los datos maestrales proporcionen evidencia convincente de que es falsa. El planteamiento de la hipótesis nula siempre contiene un signo de igualdad con respecto al valor especificado del parámetro. La hipótesis alternativa (H1) es cualquier hipótesis que difiera de la hipótesis nula. Es una afirmación que se acepta si los datos maestrales proporcionan evidencia suficiente de que la hipótesis nula es falsa. Se le conoce también como la hipótesis de investigación. El planteamiento de la hipótesis alternativa nunca contiene un signo de igualdad con respecto al valor especificado del parámetro. Paso 2: Seleccionar el nivel de significancia. Nivel de significancia: Probabilidad de rechazar la hipótesis nula cuando es verdadera. Se le denota mediante la letra griega α, también es denominada como nivel de riesgo, este término es más adecuado ya que se corre el riesgo de rechazar la hipótesis nula, cuando en realidad es verdadera. Este nivel está bajo el control de la persona que realiza la prueba. Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de significación indicará la probabilidad de no aceptarla, es decir, estén fuera de área de aceptación. El nivel de confianza (1-α), indica la probabilidad de aceptar la hipótesis planteada, cuando es verdadera en la población. La distribución de muestreo de la estadística de prueba se divide en dos regiones, una región de rechazo (conocida como región crítica) y una región de no rechazo (aceptación). Si la estadística de prueba cae dentro de la región de aceptación, no se puede rechazar la hipótesis nula. La región de rechazo puede considerarse como el conjunto de valores de la estadística de prueba que no tienen posibilidad de presentarse si la hipótesis nula es verdadera. Por otro lado, estos valores no son tan improbables de presentarse si la hipótesis nula es falsa. El valor crítico separa la región de no rechazo de la de rechazo. Tipos de errores Cualquiera sea la decisión tomada a partir de una prueba de hipótesis, ya sea de aceptación de la Ho o de la H1, puede incurrirse en error:
Un error tipo I se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y debía ser aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es aceptada cuando de hecho es falsa y debía ser rechazada. = P(error tipo I) = P(rechazar H0H0 es verdadera) = P(error tipo II) = P(no rechazar H0H0 es falsa) En cualquiera de los dos casos se comete un error al tomar una decisión equivocada. El procedimiento general de la prueba de hipótesis consiste en especificar un valor para , la probabilidad de error tipo I, llamado a menudo, nivel de significación de la prueba, para después diseñar un procedimiento que asegure un valor pequeño para la probabilidad de error tipo II. En ocasiones, es más conveniente trabajar con la potencia de la prueba, donde Potencia = 1 - P(rechazar H0 H0 es falsa) Para tomar la decisión, se utiliza la información de una muestra de la población. Debido a la naturaleza aleatoria de la muestra, es de esperarse que uno pueda cometer errores al tomar la decisión. El test permite cuantificar dichos errores. La “gravedad” de cada error es relativa al problema.
EJEMPLO: SISTEMA LEGAL 1) Se presume inocente hasta que se “pruebe” lo contrario 2) Se presenta evidencia 3) Las pruebas deben ser “más allá de una duda razonable” 4) El resultado es “culpable” o “no culpable” 5) Los errores que pueden cometerse son: - Declarar culpable a una persona que es inocente (tipo I) - Declarar no culpable a una persona que es culpable (tipo II) Una persona políticamente de derecha no tolera el error tipo II mientras que la de izquierda no tolera el tipo I. Si se analizan las políticas sociales, sucede lo contrario. Para analizar la muestra y tomar una decisión se utiliza un estadístico. Su elección depende de la forma de H0 y de la información sobre la población que se está estudiando. Notar que los pivotes usados para construir intervalos de confianza pueden usarse aquí para testear hipótesis sobre los respectivos parámetros. En base al estadístico, se puede evaluar los errores cometidos al usar una regla arbitraria, o se construye la región crítica (o de rechazo) para satisfacer cierta condición sobre los errores. La región crítica es un conjunto de valores tales que si el valor del estimador para la muestra tomada pertenece a dicha región, se decide rechazar H0. Dicha región está delimitada por el/los valor/es crítico/s. También puede obtenerse a partir de una optimización de una función que evalúe las consecuencias/costos asociados a la aparición de cada uno de los errores.
La región crítica y la evaluación de los errores son independientes del resultado de una muestra (forman parte del diseño del test). En varios casos prácticos, si no se rechaza H0 se rehace el test con una nueva muestra (de ser posible). En general, el aumento del tamaño muestral tiende a mejorar ambos errores. En la siguiente tabla se muestran las decisiones que pueden tomar el investigador y las consecuencias posibles.
Para que cualquier ensayo de hipótesis sea bueno, debe diseñarse de forma que minimice los errores de decisión. En la práctica un tipo de error puede tener más importancia que el otro, y así se tiene a conseguir poner una limitación al error de mayor importancia. La única forma de reducir ambos tipos de errores es incrementar el tamaño de la muestra, lo cual puede ser o no ser posible. La probabilidad de cometer un error de tipo II denotada con la letra griega beta β, depende de la diferencia entre los valores supuesto y real del parámetro de la población. Como es más fácil encontrar diferencias grandes, si la diferencia entre la estadística de muestra y el correspondiente parámetro de población es grande, la probabilidad de cometer un error de tipo II, probablemente sea pequeña. El estudio y las conclusiones que obtengamos para una población cualquiera, se habrán apoyado exclusivamente en el análisis de una parte de ésta. De la probabilidad con la que estemos dispuestos a asumir estos errores, dependerá, por ejemplo, el tamaño de la muestra requerida. Las contrastaciones se apoyan en que los datos de partida siguen una distribución normal Existe una relación inversa entre la magnitud de los errores α y β: conforme a aumenta, β disminuye. Esto obliga a establecer con cuidado el valor de a para las pruebas estadísticas. Lo ideal sería establecer α y β.En la práctica se establece el nivel α y para disminuir el Error β se incrementa el número de observaciones en la muestra, pues así se acortan los límites de confianza respecto a la hipótesis planteada. La de las pruebas estadísticas es rechazar la hipótesis planteada. En otras palabras, es deseable aumentar cuando ésta es verdadera, o sea, incrementar lo que se llama poder de la prueba (1- β) La aceptación de la hipótesis
planteada debe interpretarse como que la información aleatoria de la muestra disponible no permite detectar la falsedad de esta hipótesis. Paso 3: Cálculo del valor estadístico de prueba Valor determinado a partir de la información muestral, que se utiliza para determinar si se rechaza la hipótesis nula., existen muchos estadísticos de prueba para nuestro caso utilizaremos los estadísticos z y t. La elección de uno de estos depende de la cantidad de muestras que se toman, si las muestras son de la prueba son iguales a 30 o más se utiliza el estadístico z, en caso contrario se utiliza el estadístico t. Tipos de prueba a) Prueba bilateral o de dos extremos: la hipótesis planteada se formula con la igualdad b) Pruebas unilateral o de un extremo: la hipótesis planteada se formula con ≥ o ≤ Paso 4: Formular la regla de decisión SE establece las condiciones específicas en la que se rechaza la hipótesis nula y las condiciones en que no se rechaza la hipótesis nula. La región de rechazo define la ubicación de todos los valores que son tan grandes o tan pequeños, que la probabilidad de que se presenten bajo la suposición de que la hipótesis nula es verdadera, es muy remota Distribución muestral del valor estadístico z, con prueba de una cola a la derecha Valor crítico: Es el punto de división entre la región en la que se rechaza la hipótesis nula y la región en la que no se rechaza la hipótesis nula. Paso 5: Tomar una decisión. En este último paso de la prueba de hipótesis, se calcula el estadístico de prueba, se compara con el valor crítico y se toma la decisión de rechazar o no la hipótesis nula. Tenga presente que en una prueba de hipótesis solo se puede tomar una de dos decisiones: aceptar o rechazar la hipótesis nula. Debe subrayarse que siempre existe la posibilidad de rechazar la hipótesis nula cuando no debería haberse rechazado (error tipo I). También existe la posibilidad de que la hipótesis nula se acepte cuando debería haberse rechazado (error de tipo II). Conclusiones:
Se rechaza la hipótesis nula (Ho), se acepta la hipótesis alterna (H1) a un nivel de significancia de α = 0.05. La prueba resultó ser significativa. La evidencia estadística no permite aceptar la aceptar la hipótesis nula.
Pruebas de hipótesis para una población Se trata de probar una afirmación sobre parámetros de la población (media ; varianza σ2 o proporción ) en base a datos de estadísticos de una muestra (X media, s2 o p respectivamente):
ELEMENTOS DE LA PRUEBA:
Prueba Estadística: Procedimiento para decidir aceptar o rechazar hipótesis.
Hipótesis: Es una afirmación acerca de una o más poblaciones.
Hipótesis Nula (Ho): Usualmente es una afirmación representando una situación “status quo”. Generalmente deseamos rechazar la hipótesis nula. o
Es la hipótesis o afirmación a ser probada
o
Puede ser por ejemplo =, σ, o a constante
o
Sólo puede ser rechazada o no rechazada
o
Las pruebas de hipótesis pueden ser de dos colas, de cola derecha o de cola izquierda, a continuación se esquematizan cada una de ellas. Pruebas de Hipótesis de dos colas:
Ho: a = b Ha: a b
Región de Rechazo
Región de Rechazo
-Z
Z
0
Pruebas de Hipótesis de cola derecha:
Ho: a b Ha: a > b
Región de Rechazo
Pruebas de Hipótesis cola izquierda:
Ho: a b Ha: a < b
0
Z
Región de Rechazo
-Z
0
Z
Fórmulas para calcular los estadísticos utilizados en las pruebas de Hipótesis de una pob. f) Estadístico Zc muestras grandes (n >= 30 ) y cuando la es conocida (ya se tiene historial):
Zc
X HIPOTESIS
n
f) Si no se conoce la entonces se reemplaza por la S de la
muestra. g) Estadístico tc para muestras pequeñas (n < 30) y la es desconocida:
tC
X HIPOTESIS s
n
h) Estadístico Zc para proporciones y muestras grandes (n >= 30):
p Zc
HIPOTESIS (1 HIPOTESIS ) n p HIPOTESIS
p
Prueba de Hipótesis para dos Poblaciones
Llamadas también pruebas bimuestreales, son usadas cuando queremos comparar dos estadísticos poblacionales calculados a partir de muestras de esas poblaciones. Pruebas de hipótesis para dos medias con muestras independientes Las pruebas con respecto a dos medias representan un conjunto de herramientas analíticas muy importantes para el científico, el economista o el ingeniero. El procedimiento experimental es muy parecido al de la construcción del intervalo de confianza para la diferencia de medias. Se extraen dos muestras aleatorias independientes de tamaño n1 y n2, respectivamente, de dos poblaciones con medias μ1 y μ2 y varianzas σ1 y σ2. Sabemos quela variable aleatoria tiene una distribución normal estándar.
Si el tamaño de la muestra es grande y desconocemos la varianza Se puede trabajar la primera fórmula con s en vez de σ, y los resultados no dieren
Definición (Hipótesis nula y alternativa no direccional)