Inferencia 3

  • October 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Inferencia 3 as PDF for free.

More details

  • Words: 3,044
  • Pages: 9
INFERENCIA ESTADISTICA

BIOESTADISTICA 2004 INFERENCIA ESTADISTICA Ing. Wilfredo Mormontoy Laurel MPH

2. AREAS DE LA INFERENCIA ESTADISTICA.ESTADISTICA Tiene dos áreas: A. ESTIMACIÓN.Efectuar una estimación es usar las medidas calculadas en una muestra (estimadores) para predecir el valor de uno o más parámetros de la población. Un estimador es a menudo expresado en términos de una fórmula matemática que da la estimación como una función de las medidas muestrales.

Hablaremos en general de un parámetro poblacional W. Un estimador ŵ para el parámetro W, generará estimaciones en repetidas muestras de la población y producirá una distribución de los estimadores este estimador será considerado bueno si las estimaciones se agrupan estrechamente al rededor de W. Si la media de los estimadores es W, entonces ŵ se dice que es un estimador insesgado de W y E (ŵ) = W. Si la dispersión (varianza) de ŵ es más pequeña que la de cualquier otro estimador, entonces ŵ se dice que tiene varianza mínima

1. DEFINICIÓN Es el procedimiento por el que se llega a inferencias respecto a una población, con base en los resultados que se obtienen en una muestra extraída de esa población. Puesto que las poblaciones son descritas por medidas numéricas descriptivas, llamados parámetros de la población, se puede hacer inferencias acerca de la población haciendo inferencias respecto a sus parámetros.

La estimación de un parámetro poblacional puede realizarse de dos maneras: 1. Por punto. Se usan las medidas de la muestra para calcular un único valor numé numérico que es la estimación del parámetro poblacional. 2. Por intervalo. Las medidas de la muestra pueden también usarse para calcular dos valores numé numéricos que definen un intervalo el cual, con un cierto nivel de confianza, se considera que incluye al parámetro. La “bondad” de un estimador se evalúa observando su comportamiento en repetidas muestras.

Por lo tanto, un buen estimador deberá tener las siguientes propiedades: a.- Ser insesgado b.- Varianza mínima Así por ejemplo: •X

es un estimador insesgado y de varianza mínima de µ. • p también es un estimador insesgado y de varianza mínima de π; etc. En la siguiente tabla veremos algunos parámetros, estimadores y los errores estándar del estimador:

1

Parámetro

Estimador

µ

x =∑x I / n

Error estándar

EEx = σ/√n ó EEx = s / √n

Parámetro Estimador

____________ EE(x 1 -x 2 ) = √(σ 21/n 1 + σ 22/n 2) ó (µ1-µ2)

(x 1 -x 2 )

______________ EE(x 1 -x 2 ) = √(s p 2/n 1 + s p2/n 2)

Error estándar __________________ EE(p1 - p2) =√π1(1-π1)/n1 + π2(1-π2)/n2

(π1 -π2)

(p1 – p2)

Donde:

__________________ EE(p1 - p2) =√p1 (1-p1)/n1 + p2(1-p2)/n2

s 2p = (n 1-1)s 12 + (n 2-1)s 22 n 1 +n 2 - 2

π

p =a/n

________ EEp = √(π(1-π)/n) _________ EEp = √(p(1-p) /n)

(n1 y n2 > 30)

ó n >30

Una estimación por intervalo es una regla que nos dice cómo calcular dos valores que forman un intervalo estrecho que incluye al parámetro. No todos los intervalos generados por un estimador incluirán realmente el parámetro. La probabilidad de que una estimación por intervalo incluya el parámetro se denomina nivel de confianza.. Sabemos que: W: parámetro poblacional. EEŵ : error estándar del estimador ŵ: estimador del parámetro. c : coeficiente de confiabilidad, cuyo valor depende del nivel de confianza utilizado.

El modelo general de estimación por intervalo de un parámetro es:

Paráme-tro =

Estima-dor ±

Coeficiente de x Confiabilidad

Error estándar del estimador

Al restar el producto del estimador se obtiene el limite inferior del intervalo (LI) y al sumar, el limite superior (LS). Por consiguiente, los limites del intervalo de confianza se calculan de la siguiente manera:

LI = ŵ - c EE ŵ LS = ŵ + c EE ŵ

p(ŵ - c EE ŵ < W < ŵ + c EE ŵ ) = (1 - α)

B.- PRUEBA DE HIPOTESIS: Es un área importante de la Inferencia Estadística se denomina también docimacia de hipótesis o contraste de hipótesis. Una hipótesis estadística es un supuesto acerca de algún parámetro poblacional o sobre alguna situación existente en la población.

p (LI < W < LS ) = (1 - α)

2

Existen dos tipos de hipótesis estadística: a.-Hipótesis nula, H0.Es un supuesto de no diferencia , de conformidad, de no cambio, de acuerdo, de independencia, etc. Es una hipótesis conservadora y como habitualmente se investiga para observar diferencias, cambios, asociaciones etc., la H0 generalmente se plantea con la finalidad de rechazarla y es la que se somete a contrastación.

b.-Hipótesis alterna, H1.Supuesto alternativo a la H0; es decir, si la H0 es rechazada, entonces los datos apoyan al cumplimiento de la H1. Al tomar una decisión respecto a la H0, se puede correr el riesgo de cometer dos distintos tipos de error. En la tabla siguiente se muestra la terminología propia de la prueba de hipótesis

PLANTEAMIENTO (SITUACION POBLACIONAL)

DECISIÓN

Rec h azar H o

N o r ec h azar H o

H o c ier t a

H o f al s a

Error Tipo I

Acierto

Prob: α (p) Nivel de Significación

Prob. (1-β ) Potencia

Acierto

Error Tipo II

Prob: (1-α) Nivel de confianza

Prob: β

Mostraremos estas cuatro probabilidades utilizando la distribución de medias y una prueba unilateral. H1

H0

(1- β)

(1-α)

µ0

ββ α _ xc

Zona de no rechazo de H0

µ1

_ xi

Zona de rechazo de H0

Las cuatro son probabilidades condicionales: α = Prob. (rechazar H0 / H0 cierta ) (1-α) = Prob. ( no rechazar H0 / H0 cierta ) β = Prob. ( no rechazar H0 / H0 falsa ) (1-β) = Prob. (rechazar H0 / H0 falsa ) α y β están relacionadas de manera inversa: al decrecer una aumenta la otra. Habitualmente α está bajo nuestro control; pero, β sólo está en forma indirecta mediante su relación inversa con α. (α+β) ≠ 1 salvo en un caso muy especial (α+β) = 1, esto sucede cuando H0 = H1; en este caso (α+β) son complementarios .

Generalmente no se calcula la probabilidad de cometer el error tipo II, o sea β, porque su cálculo se puede hacer solamente para hipótesis alternas (H1 ) específicas. A falta de una buena razón para tomar cualquier otro valor hipotético como una hipótesis especifica, lo mejor que podemos hacer es seleccionar arbitrariamente varias alternativas razonables, cada una en la vecindad del valor de H0, es decir, calcular una probabilidad β para varias hipótesis especificas alternas.

3

La representación gráfica de la relación entre valores de β , para diferentes valores de H1 , se denomina curva característica de operación (CCO) y la relación entre potencia (1- β) y valores de H1 se llama función de potencia y la gráfica, curva de potencia. Siendo α y β medidas de la probabilidad de cometer errores, sería ideal que estos valores fueran mínimos; es decir, tener pequeñas probabilidades

de

tomar

decisiones

equivocadas.

La

recomendación

Pero, una disminución de α (en el gráfico anterior al mover la media crítica hacia la derecha) producirá al mismo tiempo un aumento de β o viceversa. Veamos este punto con mayor amplitud utilizando para ello, el siguiente ejemplo del campo legal. Sea:

H0: el acusado es inocente H1: el acusado es culpable Si se condena a un hombre inocente (rechazar Ho) se comete un error tipo I, mientras que si se pone en libertad a un hombre culpable se incurre en el error tipo II

del

juez

es

que

la

“culpabilidad” debe probarse mas allá de una duda “razonable”, lo que significa que α debe mantenerse muy pequeña. No hay manera de reducir α a cero (si pudiera reducirse

se

aseguraría completamente que no se condene a un inocente) sin aumentar β a 1 (permitiendo que la persona salga en libertad y haciendo que el juicio carezca de sentido).

INFERENCIA ESTADISTICA SOBRE MEDIAS ARITMETICAS 1.- ESTIMACIÓN DE LA MEDIA POBLACIONAL (µ) Según el modelo general de estimación por intervalo se tiene : L.S

µ = x ± z

La única forma como α y β pueden reducirse simultáneamente es mejorar los procedimientos de detección criminal, es decir aumentar la evidencia que guarda relación con H0. Por consiguiente, la decisión del Juez será mejor si dispone de mayor información. Esto, en una prueba de hipótesis estadística, significa utilizar una muestra de elementos razonablemente grande. El aumento de n disminuirá σ/√n y, por consiguiente, también disminuirá la extensión de la distribución de las medias muestrales (ver el gráfico anterior). Esto permite una reducción de α y β: o también una reducción aún mayor de β, con α constante al 5%.

Ejemplo 1: Estimar la edad promedio de las mujeres que habitualmente consultan en el servicio de Ginecología. Se sabe que σ=9,2 años y en una muestra de n=40 se calculó x =23,3 años. Solución : Como no se indica el nivel de confianza se supone que es 95%, luego: Z = 1,96; entonces:

σ √n

L.I.

Modelo utilizado cuando se conoce σ

µ = 23,3 ± 1,96 9,2 √40

26,15 años 20,45 años

4

Interpretación: Con 95% de confianza la media de la población se encuentra entre 20,45 y 26,15 años. Es decir, la edad promedio de las mujeres que habitualmente consultan en ginecología, con una seguridad del 95% fluctuará entre dichos valores. Estos resultados se pueden presentar también como: I.C. 95% ( 20,45 ; 26,15 años)

Donde t n-1 es el coeficiente de confiabilidad, cuyo valor se obtiene de la tabla de distribución “t” de Student con n-1 grados de libertad para el nivel de confianza deseado. Algunas características de la distribución “t” de Student son: 9 La distribución tiene forma acampanada. 9 Es simétrica respecto al punto t=0 9 Forma cola rápidamente a la derecha e izquierda; por lo tanto “t” es más variable que Z 9 La “forma” de la distribución cambia conforme el valor de n. Es decir, para cada grado de libertad (n-1) existe una curva simétrica. 9 A medida que n aumenta, “t” se aproxima a la normal Z.

2.-PRUEBA DE HIPOTESIS: UNA SOLA MEDIA POBLACIONAL En este caso se contrastará o docimará algunas de las siguientes hipótesis: H0 : µ = µ0

H1: µ ≠ µ0

H0 : µ ≥ µ0

H1 : µ < µ0

H0 : µ ≤ µ0

H1: µ > µ0

Donde µ0 es un valor que se postula para la media de la población. Ejemplo: Habitualmente la población de mujeres en edad fértil tiene un nivel promedio de Hb de 11,50.

Ejemplo 2 Se desea estimar el tiempo promedio de estancia hospitalaria para cierto tipo de pacientes. Se toma una muestra de 25 historias clínicas y se calcula x =5,7 y s = 4,5 días. Estimar µ con 95% de confianza. Solución: En este caso no se conoce σ, luego el modelo de estimación, será: L.S

µ = x ± t n-1

s √n

L.I.

Luego de la tabla “t” se obtiene para un nivel de significación de 0,05 bilateral: t24 = 2,064

7,68 días µ = 5,7 ± 2,064 4,8 √25 3,72 días Interpretación: La probabilidad de que el tiempo promedio de estancia hospitalaria, en la población de pacientes, se encuentre entre 3,72 y 7,68 es de 0,95.

En una muestra de 20 mujeres se encontró unax = 10,9 ; s = 1,2 ¿Puede concluirse que la media poblacional ha disminuido significativamente? Solución: a) Hipótesis: Ho: µ ≥ 11,5 H1 : µ < 11,5 (unilateral negativo) b) Contraste estadístico: Como no se conoce σ, se usa:

t n-1 = x - µ s/√n

5

t 19 = 10,9-11,5 = -2,236 1,2/√20 c) Valor de p: Con 19 grados de libertad, el valor de p, para un contraste unilateral está entre 0,01 y 0,025. Se expresa: 0,01 < p < 0,025 d) Decisión y Conclusión. D: Siendo p < 0,05; se rechaza Ho C: Hubo una disminución estadísticamente significativa de la media poblacional.

3.-PRUEBA DE HIPOTESIS: DIFERENCIA ENTRE DOS MEDIAS DE POBLACIONES INDEPENDIENTES Se contrastará alguna de las hipótesis que sigue: H0: µ1 = µ2 H1: µ1 ≠ µ2

H0 : µ1 ≥ µ2 H1: µ1 < µ2

H0 : µ1 ≤ µ2 H1: µ1 > µ2

Solución: a) Hipótesis

Ho: µ1 = µ2 H1: µ1 ≠ µ2 b)Contraste estadístico: Como se conocen las varianzas poblacionales; se usará

Z = ( x1 -x2 ) - (µ1-µ2 ) √(σ12/n1 + σ22/n2)

=

(4,5 - 3,4) – 0 = 2,84 √(1/12+1/15)

Nota: Si se conociera σ el contraste estadístico se realizaría con:

Z = x - µ σ/√n

Ejemplo 1: Se llevó a cabo un estudio para comparar las medias aritméticas de ácido úrico en el suero de dos poblaciones de niños. Con Síndrome Down Sin Síndrome Down n1 = 12 n2 =15 x2 = 3,4 mg/100ml x1 =4,5 mg/100ml Resulta razonable suponer que las dos poblaciones están normalmente distribuidas con varianzas iguales a 1. ¿Existe diferencia significativa entre los niveles de ácido úrico?

c) Valor de p: utilizando la tabla de áreas: p= 2(0,0024) = 0,0048 d) Decisión y conclusión: Se rechaza Ho con un error de 0,0048. La conclusión es que difieren estadísticamente las dos poblaciones en cuanto al ácido úrico. Ejemplo 2: Se realizó un estudio sobre el efecto de las dietas A y B, usando dos grupos de animales experimentales. El grupo 1 recibió la dieta A (enriquecida) y el grupo 2 la dieta B. Después de 5 semanas se calculó la ganancia en peso para cada animal. Los resultados son:

6

Grupo 1 n1 = 12 x1 = 27,2 g s1 = 6 g

Grupo2 n2 = 12 x2 = 21,2 g s2 = 3,8 g

¿Puede concluirse que con la dieta A, los animales, ganaron mayor peso que con la B ? Solución: En vista de que no se conocen las varianzas poblacionales se hará uso del contraste “t”. Pero, es necesario recordar antes que para un uso adecuado, los datos deben satisfacer los siguientes supuestos:

b)Contraste estadístico:

t (n1 + n2-2) = ( x1 -x2 ) - (µ1 - µ2 )

√(S2p/ n1 + S2p/ n2)

9

9 9

Las muestras provienen de poblaciones distribuidas normalmente (supuesto de normalidad). Las muestras constituyen muestras aleatorias (supuesto de aleatoriedad). Las varianzas poblacionales son iguales (supuesto de homogeneidad de varianzas) Si estas suposiciones pueden asociarse a este caso, entonces se usará el contraste “t”:

a) Hipótesis:

t22=

H0 : µ1 ≤ µ2 H1: µ1 > µ2

(27,2 - 21,2) - 0 √(25,22/12 + 25,22/12)

= 2,927

c) Valor de p: 0,0025 < p < 0,005

Donde: S2p = varianza ponderada S2p = (n1-1)S21 + (n2-1)S22 n1 +n2 - 2

d) Decisión y conclusión: Rechazar Ho; es decir, la dieta A produjo una ganancia mayor de peso que la dieta B.

S2p = 62 + (3,8)2 = 25,22 2 :

4.- PRUEBA DE HIPOTESIS: COMPARACION DE DOS MUESTRAS RELACIONADAS (comparaciones pareadas) Ejemplo: Se tienen los niveles de colesterol total de una muestra de 8 pacientes antes y después de participar en un programa dieta-ejercicio.¿ puede concluirse que el programa tuvo efecto favorable?.

Paciente Antes Después di 1° 201 200 +1 2° 231 236 -5 3° 221 216 +5 4° 260 233 +27 5° 228 224 +4 6° 237 216 +21 7° 326 296 +30 8° 235 195 +40

a.-Hipótesis: H0 : µd ≤ 0 (Los valores de colesterol no disminuyeron significativamente) H1 : µd > 0 (Los valores de colesterol disminuyeron significativamente)

7

b) Contraste estadístico

c) Valor de p 0,010 < p < 0,025

t n-1 = d - µd Sd /√n Donde: d = media aritmética de diferencias en la muestra. Sd = desviación estándar de diferencias en la muestra. µd = media aritmética de diferencias en la población t7 = 15,375 - 0

=

d) Decisión y conclusión Se rechaza Ho. Se concluye que después del programa los niveles de colesterol son significativamente menores que los valores obtenidos antes.

2,678

16,2387/√8

INFERENCIA ESTADISTICA SOBRE PROPORCIONES 1.-ESTIMACION DE UNA PROPORCION POBLACIONAL Ejemplo: Se desea estimar la proporción de niños menores de cinco años que llegaron al hospital con signos de deshidratación entre Enero y Marzo del 2001. Se toma una muestra de 80 historias clínicas de esa población y se encuentra que 16 habían llegado con signos de deshidratación. :

2.-PRUEBA DE HIPOTESIS: UNA SOLA PROPORCION POBLACIONAL Puede contrastarse alguna de las siguientes hipótesis: H0:π=π0

H0 : π≥π0

H0 : π≤π0

H1: π≠π0

H1 : π<π0

H1 : π>π0

Donde π0 es la proporción asignada a la población

Solución: Para estimar el parámetro se utiliza el siguiente modelo: LS

π=p ± Z

pq n

LI

p = (16/80)100 = 20% q=80% n= 80 Reemplazando en la fórmula anterior,los resultados se expresarán : IC 95% (11,2; 28,8% ) Lo que indica que, con 95% de confianza, la proporción en la población está entre 11,2 y 28,8%

Ejemplo: En cierto hospital, durante muchos años se ha observado que el 12% de mujeres tienen su primer bebe antes de cumplir los 15 años. Hay razones para pensar que esta proporción últimamente ha aumentado. Se toma una n de 150 historias clínicas y se encuentra que el 16% de los primeros partos correspondió a menores de 15 años. ¿ El incremento fue estadísticamente significativo?

8

Solución: a) Ho: π≤12% H1: π>12% b) Contraste estadístico.

p-π

Z=

√π(1−π)/n

Reemplazando: Z = 16 - 12 = 1,51 √ (12x88)/150

d) Decisión y conclusión: No se rechaza Ho. Es decir, no hubo un incremento estadísticamente significativo. 3.-PRUEBA DE HIPOTESIS: DIFERENCIA ENTRE PROPORCIONES DE DOS POBLACIONES INDEPENDIENTES Las hipótesis que pueden contrastarse son: H0 :π1=π2 H0 : π1≥π2 H0 : π1≤π2 H1: π1≠π2 H1 : π1<π2 H1: π1>π2

c) Cálculo de p: p = 0,0655

Ejemplo: Se desea comparar la proporción de hipertensos en dos razas humanas. Los datos son Raza A Raza B n1 = 180 n2 = 120 p1 = 17% p2 = 23% hipertensos q1 = 83% q2 = 77% no hipertensos Solución: a) H0 : π1=π2 H1 : π1≠π2

b) Contraste estadístico:

Z=

(p -p )-(π −π ) 1 2 1 2 √(p1q1/n1 + p2q2/n2)

Reemplazando: Z=

17-23 = √(17x83/180 + 23x77/120)

-1,26

c) Valor de p p = 2x 0,1038 = 0,2076 d) Decisión y conclusión No se rechaza Ho. Las dos razas no difieren respecto a la proporción de hipertensos

9

Related Documents