HIPOTESIS PARA COMPARAR DOS POBLACIONES Caso 1. Comparar Medias entre dos poblaciones Supuestos: - Poblaciones Normales - Varianzas conocidas - Muestras independientes
Tipos de hipótesis H 0 : µ1 = µ2 µ1 − µ2 ⇔ H 1 : µ1 ≠ µ2 µ1 − µ2 H 0 : µ1 ≤ µ2 µ1 − µ2 ⇔ H 1 : µ1 > µ2 µ1 − µ2 H 0 : µ1 ≥ µ2 µ1 − µ2 ⇔ H 1 : µ1 < µ2 µ1 − µ2
Estadística para la prueba =0 ≠0 ≤0 >0 ≥0 <0
ZC
X 1 X 2 1 2 12 22 n1 n2
: N (0,1)
EJEMPLO Se estudió un grupo de 29 alcohólicos que sufren de hipertensión secundaria para probar la eficacia de un agente antihipertensivo. Se tomó la presión sanguínea a cada uno durante 30 días y a la misma hora, obteniendo los siguientes datos:
Tratados con placebo n1 16
Tratados con el agente
x1 127,1
n2 13 x2 99
12 579,8
22 77, 7
Suponiendo normalidad de las poblaciones, que las varianzas en cada grupo se conocen y que las muestras son independientes: ¿Se puede concluir, estadísticamente, que la presión media en los que recibieron placebo es mayor a la de los tratados con el agente? X 1 X 2 (1 2 ) 4.32 H 0 : 1 2 1 2 0 Estadística Z C
H1 : 1 2
Prueba Unilateral
1 2 0
Valor p = P( Z > 4.32) 0.0000
12 22 n1 n2
Se acepta la alternativa
Caso 2. Comparar Medias entre dos poblaciones Supuestos:
- Poblaciones Normales - Varianzas desconocidas, pero iguales
SUPUESTO IMPORTANTE
- Muestras independientes
Tipos de hipótesis H 0 : µ1 = µ2 µ1 − µ2 ⇔ H 1 : µ1 ≠ µ2 µ1 − µ2 H 0 : µ1 ≤ µ2 µ1 − µ2 ⇔ H 1 : µ1 > µ2 µ1 − µ2 H 0 : µ1 ≥ µ2 µ1 − µ2 ⇔ H 1 : µ1 < µ2 µ1 − µ2
Estadística para la prueba =0 ≠0
tC
SP
≤0 >0 ≥0 <0
X 1 X 2 1 2
SP
1 1 n1 n2
: T( n1 n2 2)
(n1 1) S12 (n2 1) S22 n1 n2 2
EJEMPLO Un grupo de investigadores obtuvo datos acerca de las concentraciones de amilasa en el suero de muestras de individuos sanos y de individuos hospitalizados. Desean saber si es posible concluir que las medias de las poblaciones son distintas. Los datos son mediciones de amilasa en suero de n2 15 individuos sanos, y de n1 22 individuos hospitalizados.
Hospitalizados n1 = 22 Sanos n2 = 15
x1 = 120 unid / ml
s1 = 40 unid / ml
x2 = 96 unid / ml
s2 = 35 unid / ml
SUPUESTOS: Muestras independientes, poblaciones normales y varianzas desconocidas pero iguales. (Se probarán más tarde)
H 0 : 1 2
Hipótesis bilateral
H1 : 1 2
Estadística SP
1 2 0 1 2 0
21(40) 14(35) 1450 21 14 2
2
tC
120 96 0 1 1 22 15
1450
Valor p = 1.88
2 p (t(35) 1.88) 0.0684
Caso 3. Comparar Medias entre dos poblaciones Supuestos:
- Poblaciones Normales - Varianzas desconocidas - Muestras PAREADAS (dependientes)
Las Poblaciones son X e Y, pero en este caso, se define la población D = X – Y, y se trabaja como si fuera una sola población. Las muestras dan valores xi y yi para cada individuo, pero se transforma en una sola muestra d i = xi − yi de tamaño n
Tipos de hipótesis H 0 : µ1 = µ 2 µ1 − µ 2 = 0 µ D = 0 ⇔ ⇔ H1 : µ1 ≠ µ 2 µ1 − µ 2 ≠ 0 µ D ≠ 0 H 0 : µ1 ≤ µ 2 µ D ≤ 0 ⇔ H 1 : µ1 > µ 2 µ D > 0 H 0 : µ1 ≥ µ 2 µ D ≥ 0 ⇔ H 1 : µ1 < µ 2 µ D < 0
Estadística para la prueba
tC
d D
sd
n
: t( n 1)
EJEMPLO Doce individuos participaron en un experimento para estudiar la efectividad de cierta dieta, combinada con un programa de ejercicios, para la reducción de los niveles de colesterol en suero. En la siguiente tabla se encuentran los niveles de colesterol antes y después del programa. ¿Proporcionan los datos suficiente evidencia para concluir que el programa de ejercicios y dieta es efectivo? Individuos
6
1
2
3
4
5
6
7
8
9
10
11
12
Colesterol antes
X1
201
231
221
260
228
237
326
235
240
267
284
201
Colesterol después
X2
200
236
216
233
224
216
296
195
207
247
210
209
Diferencia: antes - después
di
1
-5
5
27
4
21
30
40
33
20
74
-8
Hipótesis
H 0 : 1 2 H1 : 1 2
La estadística
1 2 0 D 0 1 2 0 D 0
tC
(20.17 0) 12 535.06
d 20.17
y sd 535.06
3.02
valor p P (t11 3.02) 0.0058
Se rechaza Ho y se acepta la disminución del colesterol.
Caso 3. Comparar Proporciones entre dos poblaciones Supuestos: - Poblaciones Bernoulli - Muestras independientes de tamaños mayores o iguales a 30
Tipos de hipótesis
Estadística para la prueba
H 0 : p1 p2
pˆ1 pˆ 2 ( p1 p2 ) ZC : N (0,1) 1 1 p q( n1 n2 )
p1 p2 0 p p 0 H1 : p1 p2 1 2 H 0 : p1 p2 p1 p2 0 p p 0 H1 : p1 p2 1 2 H 0 : p1 p2 p1 p2 0 H1 : p1 p2 p1 p2 0
n1 pˆ1 n2 pˆ 2 donde p n1 n2
EJEMPLO En un estudio para comparar un nuevo tratamiento para la migraña con el tratamiento habitual, 78 de los 100 individuos que recibieron el tratamiento habitual, respondieron favorablemente. De los 100 individuos que recibieron el nuevo tratamiento, 90 respondieron favorablemente.¿Proporcionan los datos evidencia suficiente para afirmar que el nuevo tratamiento es más efectivo?
pˆ1
78 0.78 100
Hipótesis
Estadística
Valor p Decisión
pˆ 2
90 100 0,78 100 0,90 0.90 pˆ 0,84 100 100 100
H 0 : p1 p2
p1 p2 0 H1 : p1 p2 p1 p2 0
ZC
0, 78 0,90 2,32 1 1 0,84 0,16( 100 100 )
p ( Z 2,32) 0, 01 Rechazar Ho y aceptar que el nuevo tratamiento es más efectivo
Caso 4. Comparar Varianzas entre dos poblaciones Supuestos: Poblaciones Normales Tipos de Hipótesis 12 2 2
H 0 : 12 22 H1 :
2 1
2 2
12
H 0 : 12 22 H1 :
2 1
2 2
2 2
2 1
H 0 : 12 22 H1 : 12
2 1 2 2
22
12
2 2 2 2 2 1 22
Estadística para la prueba 1 1 1 1 1 1
S22 12 FC 2 2 : F( n2 1, n1 1) S1 2 22 Si H 0 : 2 1 , la estadística será 1
S12 22 FC 2 2 : F( n1 1, n2 1) S2 1
EJEMPLO Se comparó la eficacia de dos analgésicos con base en el tiempo transcurrido desde su administración hasta el momento del cese del dolor. Treinta pacientes recibieron el medicamento 1, y otros 13 el medicamento 2. Las 2 2 varianzas de las muestras son s1 64 y s2 16. Probar la hipótesis que las varianzas de los tiempos de las dos poblaciones son iguales. HIPOTESIS
H 0 : 12 22
H1 : 2 1
2 2
12 2 1 2 2 1 1 22
Estadística
S 22 12 16 FC 2 2 1 0, 25 S1 2 64
Valor p
2 P( F(12,29) 0, 25) 0,0144
Decisión
Rechazar la igualdad de varianzas
PRUEBAS CHI- CUADRADO 1.- PRUEBA PARA LA BONDAD DE UN AJUSTE Se utiliza para decidir si existe incompatibilidad entre la distribución de frecuencias observadas en una muestra y alguna distribución propuesta en la hipótesis para la población. La hipótesis más utilizada es la de suponer que la población de la que se extrae la muestra se distribuye normal.
HIPOTESIS
H 0 : La población es normal H1 : La población no es normal
Estadística para la prueba
oi ei 2 C : (2k s 1) ei i 1 k
2
Donde: k = Nº de intervalos de clasificación de los datos
oi
= frecuencia observada del intervalo i-ésimo
ei
= frecuencia esperada si la población fuera normal
v p p( (2k s 1) C2 )
EJEMPLO La siguiente tabla muestra la distribución de las mediciones de ácido úrico en 250 pacientes. Pruebe la hipótesis de que la muestra proviene de una población normal, con
5, 74 y 2, 01
Hipótesis
H0 : H1 :
.
LA POBLACIÓN ES NORMAL LA POBLACION NO ES NORMAL
Estadística
% esperado de
k
Determinación
Frecuencia
pacientes bajo
Frecuencia
de ácido úrico
Observada
Ho: Normalidad
Esperada
(Oi -ei)^2/ei
menor a 1
1
0,92
2,3
0,734782609
1 - 1.99
5
2,22
5,55
0,054504505
2 - 2.99
15
5,5
13,75
0,113636364
3 - 3.99
24
10,7
26,75
0,28271028
4 - 4.99
43
16,3
40,75
0,124233129
5 - 5.99
50
19,5
48,75
0,032051282
6 - 6.99
45
18,32
45,8
0,013973799
7 - 7.99
30
13,5
33,75
0,416666667
8 - 8.99
22
7,8
19,5
0,320512821
9 - 9.99
10
3,54
8,85
0,149435028
5
1,7
4,25
0,132352941
10 o más
250
250
C2
=2,37485
C2
(o e ) i 1
i
ei
i
2
: (2k 1)
Valor p: 2 P ( (10) 2, 3748) 0, 99
No se rechaza Ho
2.- PRUEBA DE INDEPENDENCIA
Se utiliza para probar independencia entre dos criterios de clasificación. Por ejemplo, “El tabaco produce cáncer”
H 0 : Los criterios de clasificación son independientes H1 : Los criterios son dependientes
HIPOTESIS
Las frecuencias Oij son las observadas de los datos
Y
Y1
Y2
X1
O11
O12
f1
X2
O21
O22
f2
c2
n total f c f c datos eij i j n i j
X
Total
c1
Total
Se comparan con las frecuencias eij que deberían haber en cada celda si la hipótesis nula fuera verdadera, es decir, si X e Y fueran independientes.
H 0 p ( X Xi Y Yj ) p ( X Xi ) p (Y Yj ) luego la frecuencia esperada bajo H 0 es : n
Estadística para la prueba
n
n
2 C
j
i
o
ij
eij eij
2
: (2c 1)( f 1)
EJEMPLO Se quiere investigar si existe alguna relación entre el estado nutricional y el desempeño académico de los niños de primaria. Se tomó una muestra de 500 niños de la población clasificándolos en la siguiente tabla:
DESEMPEÑO ACADEMICO
Las frecuencias esperadas en cada celda bajo Ho de independencia son:
ESTADO NUTRICIONAL Malo
Bueno total
Malo
105
15
120
Satisfactorio
80
300
380
Total
185
315
500
Malo Malo Satisfactorio
Bueno
120 185 44.4 500
140.6
75.6 239.4
H 0 : Desempeño académico independiente del Estado Nutricional H1 : Desempeño académico depende del Estado Nutricional
La estadística para la (105 44.4) 2 (15 75.6) 2 (80 140.6) 2 (300 239.4) 2 prueba: 2 172.74 C
El valor p es :
44.4
75.6
140.6
2 p( (1) 172, 74) 0.0000
239.4
Rechazar Independencia
Salida del Statistica 2 x 2 Table (Spreadsheet1) Column 1 Column 2 Row Totals Frequencies, row 1 105 15 120 Percent of total 21,000% 3,000% 24,000% Frequencies, row 2 80 300 380 Percent of total 16,000% 60,000% 76,000% Column totals 185 315 500 Percent of total 37,000% 63,000% Chi-square (df=1) 172,75 p=0,0000 V-square (df=1) 172,40 p=0,0000 Yates corrected Chi-square 169,91 p=0,0000 Phi-square ,34549 Fisher exact p, one-tailed p=0,0000 two-tailed p= ,0000 McNemar Chi-square (A/D) 92,93 p=0,0000 Chi-square (B/C) 43,12 p= ,0000
Valor p
3.- PRUEBA CHI-CUADRADO DE HOMOGENEIDAD La hipótesis Nula de esta prueba, plantea que dos muestras extraídas independientemente, provienen de dos poblaciones homogéneas con respecto a algún criterio de clasificación. Se diferencia de la Prueba de independencia, porque en esta prueba se fijan los tamaños de muestra de cada población. Hipótesis
Categorias de respuestas
GRUPO 1
GRUPO 2
TOTAL
1
O11
O12
O1g
2
O21
O22
O2 g
3
O31
O32
O3g
TOTAL
Fijos
Og1
Og2
n
H0 : H1 :
Las muestras provienen de la misma población. Las proporciones son las mismas Las poblaciones son distintas
La estadística es la misma de la Chi-cuadrado de independencia
Para el caso de dos muestras y dos categorías de respuestas, es un método alternativo para probar la igualdad de proporciones entre dos poblaciones
EJEMPLO Una muestra de 150 portadores crónicos de cierto antígeno, y una muestra de 500 no portadores, revelaron la siguiente distribución de grupos sanguíneos. GRUPO Sanguíneo
Hipótesis Nula: La distribución de grupos sanguíneos, es la misma en portadores y no portadores.
Portadores
No Portadores
Total
0
72
230
302
A
54
192
246
B
16
63
79
AB
8
15
23
La hipótesis es distinta.
150
500
650
La estadística es la misma.
Total ˆ ( grupo 0) p
302 0, 4646 650
Hipótesis Alternativa: Las distribuciones difieren
Se diferencia con el caso de independencia, porque aquí no se eligen al azar los 650 individuos.
frecuencia esperada en portadores 0, 4646 150 69, 7 frecuencia esperada en no portadores 0, 4646 500 232, 3
ˆ ( grupo A) p
246 0, 3784 650
frec. esp. en portadores 0, 3784 150 56.8 frec. esp. en no portadores 0, 3784 500 189.2
Se puede observar que las frecuencias esperadas de cada celda, bajo la hipótesis de igualdad de proporciones en las dos poblaciones, se calculan igual que en el caso de independencia, es decir, como el producto de los totales por fila y columna, dividido por el total de datos
RIESGO RELATIVO Medida de asociación que se usa frecuentemente en estudios epidemiológicos. Se define como el cuociente entre las probabilidad de enfermar de un individuo expuesto a un factor de riesgo y la probabilidad de enfermar de un individuo no expuesto al factor. EXPUESTO
NO EXPUESTO
ENFERMA
A
B
NO ENFERMA
C
D
A RR A C B BD
El RR no tiene dimensiones Rango de 0 a infinito Si RR = 1 no hay asociación entre la presencia del factor y el evento Si RR > 1 la presencia del factor se asocia una mayor ocurrencia del evento y si RR < 1 la asociación es negativa
RIESGO RELATIVO . placebo
tratamiento
enfermos
420
307
No enfermos
2634
2744
3054
3051
307 = 0.73 RR = 3051 420 3054 El tratamiento se asocia con una menor ocurrencia de enfermos
TABLAS DE CONTINGENCIA DE 2X2 Indice de Disparidad u Odd’s Ratio Si se tienen dos variables aleatorias que representan una enfermedad y la otra la exposición a ella, el índice de disparidad se define como: “La probabilidad en favor de la enfermedad entre los individuos expuestos, dividida por la probabilidad en favor de la enfermedad entre los no expuestos”
OR =
P (enfermedad / exp uesto) /[1 − P (enfermedad / exp uesto)] P (enfermedad / no exp uesto) /[1 − P (enfermedad / no exp uesto)]
Una muestra de n individuos se ordenan en una tabla de contingencia de 2x2
No expuesto
Expuesto Enferman No enferman
A C
B D
Total
A+C
B+D
Total A+B C+D
ODDS RATIO El cuociente entre la probabilidad de que un evento ocurra y la probabilidad de que no ocurra, se llama Odds o Chance. Si un evento ocurre con probabilidad p, entonces la razón p/q es la odds. Un Odds indica cuánto más probable es la ocurrencia del evento que su no ocurrencia. El Odds Ratio (OR) , se define como el cuociente entre el odds en el grupo expuesto al factor de riesgo y el odds en el grupo sin el factor. EXPUESTOS
NO EXPUESTOS
ENFERMAN
A
B
A+B
NO ENFERMAN
C
D
C+D
A+C
B+D
Si p1 es el odds de los expuestos y p2 el odds de los no expuestos, entonces la razón de los odds u Odds Ratio, se define por:
p1 OR =
p2
q1 q2
=
p1q2 A ⋅D = p2 q1 B ⋅C
Observaciones: - Si el OR = 1, no hay asociación entre el factor de riesgo y la enfermedad - Si OR > 1 , indica que la presencia del factor aumenta la ocurrencia de la enfermedad, si OR < 1 la asociación es negativa - El OR se puede estimar siempre y en la misma forma, el RR no se puede en los caso-control. - El OR está siempre más alejado del 1 que el RR
EJEMPLO CÁNCER
NO CANCER
EXPUESTO A RADIACION
45
15
NO EXPUESTO
18
27
El OR =
45 ⋅ 27 = 4.5 18 ⋅15
Esto se interpreta como: la posibilidad de contraer cáncer, es 4.5 veces mayor en un individuo expuesto a la radiación que frente a uno no expuesto.