• TEORÍA DEL MUESTREO – Estudia la relación entre la población y las muestras extraidas de la misma.
• DISTRIBUCIÓN MUESTRAL – Es una distribución de probabilidad que indica hasta que punto un estadístico tiende a variar a causa del muestreo aleatorio. La distribución es generada por la repetición del muestreo un gran número de veces.
TEOREMA DEL LÍMITE CENTRAL En condiciones muy generales la suma de n variables aleatorias , independientes y con la misma distribución tiende a la distribución normal a medida que n tiende a infinito Sean X1, X2,.... Xn variables aleatorias independientes y de idéntica distribución con E(X)=µ y Var(X) = σ2>0
Zn =
(x n σ
−µ)
→ Z ≅ N (0 ,1 ) D
n
La convergencia vale para cualquiera que se la distribución original de las variables ( continuas o discretas)
TEOREMA CENTRAL DEL LIMITE • Para muestras de tamaño grande la distribución de la media muestral será aproximadamente normal sin considerar la distribución de probabilidad de la población. • Si la población muestreada tiene distribución normal, la distribución de las medias muestrales también será normal para todos los tamaños de muestra.
CREACIÓN DE UNA DISTRIBUCIÓN • De una población finita de tamaño N, se extraen de manera aleatoria todas las muestras posibles de tamaño “n”. • Se calcula el estadístico de interés para cada muestra. • Listar en una columna los distintos valores observados del estadístico y en otra columna las frecuencias correspondientes de cada valor observado.
Distribución en el muestreo de las medias
8 10 12 14
8 8 9 10 11
10 9 10 11 12
12 10 11 12 13
14 11 12 13 14
D istribución de m edias m uestrales 0 ,3 0 0
0 ,2 5 0
xi
8 9 10 11 12 13 14
f 1 2 3 4 3 2 1 16
fr 0,063 0,125 0,188 0,250 0,188 0,125 0,063 1,000
0 ,2 0 0
0 ,15 0
0 ,10 0
0 ,0 5 0
0 ,0 0 0 8
9
10
11 E s ta d ís tic o m e d ia a ritm étic a
12
13
14
Población: 8; 10; 12; 14
µ = 8 + 10 + 12 + 14 4 = 11
xi
8 9 10 11 12 13 14
f 1 2 3 4 3 2 1 16
σ 2 = 20 4 = 5
xi × f xi2 × f fr 0,063 8 64 µx = 176 = 11 16 0,125 18 162 2 176 1976 − 2 16 = 2.5 0,188 30 300 σ = x 16 0,250 44 484 0,188 36 432 µ x = µ 0,125 26 338 2 σ 2 σx = n 0,063 14 196 1,000 176 1976 σ = σ x i
i
i
i
i
n
Distribución en el Muestreo • Muestreo de una población con distribución normal: – La distribución de las medias será normal – La media de la distribución de las medias será igual a la media poblacional – La varianza de la distribución de las medias será igual a la varianza poblacional dividida por el tamaño de la muestra
• Cuando el tamaño de la muestra aumenta la distribución de los resultados muestrales tiende a una distribución normal
ESTIMACIÓN DE PARÁMETROS • Intervalo de confianza para medias σ conocida • Intervalo de confianza para proporciones muestras grandes (npq > 5 ó np>15 y nq>15) • Intervalo de confianza para medias σ desconocida • Tamaño de muestra para estimación (MAS)
ESTIMADORES • DE PUNTO a partir de los datos de la muestra
se calcula un número que puede ser usado como estimador del parametro poblacional. No proporciona información sobre la variabilidad del estimador. (n??)
• DE INTERVALO son dos números calculados en función de la muestra entre los cuales se considera que se encuentra el parámetro poblacional con una confianza determinada (INTERVALO DE CONFIANZA). Indica la precisión de una estimación
ESTIMADORES • DE INTERVALO – Ej. IC 95% significa que si eligiéramos 100 muestras aleatorias de la población y calculáramos con c/u un IC 95% para µ, aproximadamente 95 intervalos cubrirían la verdadera media poblacional y 5 NO. – µ se localiza en el intervalo o no. (Una vez tomada la muestra ya no hay probabilidades involucradas dado que µ es un parámetro (constante).
PROPIEDADES DE LOS ESTIMADORES • INSESGADOS – Una estimación es insesgada si la media de la distribución del estadístico es igual al parametro.
• EFICIENTES – Un estimador eficiente es el que ofrece menor varianza con una misma media. Ej.: la media y mediana de una distribución simétrica tienen la misma media pero la primera tiene menor varianza
• INTERVALO DE CONFIANZA IDEAL • Que Contenga el parámetro • Que sea relativamente estrecho (mayor precisión)
• LÍMITES DE CONFIANZA – Extremos Superior e Inferior del IC • COEFICIENTE DE CONFIANZA – Indica la fracción de veces, en muestreos repetitivos, que los intervalos construidos contendrán al parametro poblacional. • NIVEL DE CONFIANZA – Es el coeficiente de confianza expresado en porcentaje (ej. nc=95%)
Estimación de Medias • Distribución de Probabilidad Utilizada – Distribución Normal • DN variable y σ2 conocida • Muestras grandes y σ2 conocida (TLC-DN) • Aproximación a t (n>30)
– Distribución t (Student) • DN variable y σ2 desconocida
Estimación de Medias µ =µ
• Distribución Normal
σ = σ/
• DN variable y σ2 conocida • Muestras grandes (TLC-DN) • Aproximación a t (n>30)
ERROR TÍPICO
nc
Intervalo µ = ± z
α = 1- nc
INTERVALO DE CONFIANZA PARA MEDIAS σ CONOCIDA supuesto
entonces
f ( x) → N o bien n > 30 ⇒ f ( x ) ≅ N ( µ ,σ x−µ ≅ N (0,1) f z = n σ
z Hallar z α/2 y
z 1-α/2
(son simétricas)
z Transformar en valores de x :
µ = x ± zσ
n
n)
EJEMPLO
n=100
x = 20 σ = 5
n.c.=0.95
⇒ α = 0.05
Z 0.025 = −1.96 y Z 0.975 = +1.96 de las tablas de N(0,1) LCi = x0.025
= 20 − 1.96 × 5
100
= 19.02 ⇒ µ ∈ (19.02;20.98)
LCs = x0.975
= 20 + 1.96 × 5
100
= 20.98
POBLACIÓN FINITA σ² = (1-(n/N)) . σ²/n z1-(n/N) Factor de corrección de la población finita zCuando evaluamos toda la población no hay variabilidad de muestreo en la media zSi n/N es próximo a 0 (poblaciones grandes) el factor de corrección vale aprox. 1
Estimación de Proporciones • Sea X una variable binomial de parámetros n y p (una variable binomial es el número de éxitos en n ensayos; en cada ensayo la probabilidad de éxito (p) es la misma • Si n es grande y (npq ≥ 5 o np ≥ 15 y nq ≥ 15) X es aproximadamente normal con media np y varianza npq y se puede usar el estadístico proporción muestral (x/n) que tiene también distribución aproximadamente normal, con media p (proporción poblacional)y desviación típica dada por:
Estimación de Proporciones • Distribución Normal • Muestras grandes (TLC-DN) • np > 15 y nq >15 (ó npq > 5)
nc
α = 1- nc
INTERVALO DE CONFIANZA PARA PROPORCIONES muestras grandes
f ( p ) ≅ N ( P, PQ n ) zHallar z α/2 y
z 1-α/2
(son simétricas)
z Transformar en valores de p :
zCorrección por continuidad p :
(
P = p ± z pq n + 1 2n
)
EJEMPLO
n=100
x(éxitos) = 10
n.c.=0.95 LCi =
(
p= x/n = 0.1
⇒ α = 0.05 ⇒ z = ± 1.96
)
0.1 − 1.96 0.1× 0.9 100 + 1/ 200 = 0.036 LCs =
⇒ P ∈ (0.036;0.164)
(
)
0.1 + 1.96 0.1× 0.9 100 + 1/ 200 = 0.164
Estimación de Medias • Distribución t (Student) • DN variable y σ2 desconocida • Si n>30 podemos aproximar por la DN t
s gl= n-1
Intervalo µ = ± ts/
nc
α = 1- nc
INTERVALO DE CONFIANZA PARA MEDIAS σ DESCONOCIDA supuesto
x−µ f ( x) = N ⇒ f (t = ) = f (t n −1 ) sˆ n
z Hallar t α/2 y
t 1-α/2
(son simétricas)
z Transformar en valores de x :
µ = x ± tsˆ
n
EJEMPLO
n=100
x = 20 sˆ = 5
↓
ν = n-1 =99 ⇒
n.c.=0.95
⇒ α = 0.05
Como en la tabla no hay ν= 99, ν =60 aproximadamente
t 0.025 = −2.00 y t 0.975 = +2.00 de las tablas de t LCi =
LCs =
x0.025 = 20 − 2 × 5 x0.975 = 20 + 2 × 5 Cuando
100 100
= 19 ⇒µ ∈ (19 ; 21)
= 20
ν = n-1 es grande, t ≅ z
TAMAÑO DE MUESTRA PARA ESTIMACION (MAS) 1. Fijar el nivel de confianza
Intervalo µ = ± z
2. Fijar el máximo error admisible (d) mitad del IC 3. Calcular n
zσ Medias ( σ conocida) n ≥ d Ejemplo
σ =5 2
d =2
2
nc = 0.95 ⇒ z = 1.96
1.96 × 5 n≥ = 24.01 ⇒ n ≥ 25 2
TAMAÑO DE MUESTRA PARA ESTIMACION (MAS) Intervalo µ = ± ts/ gl= n-1
2 ˆ tσ Medias ( σ desconocida) n ≥ iterativo d Ejemplo
σ =5
d =2
nc = 0.95 ⇒ z = 1.96
no = 25(como en el ejemplo anterior ) ⇒ t 0.975,24= 2.06 2
2.06 × 5 n1 ≥ = 26.52 ⇒ n1 ≥ 27 ⇒ t 0.975,26 = 2.06 2
n ≥ 27
¿Cómo obtener muestra?
σˆ
(estimación de
σ ) si
aún no se tomó la
1. Utilizar σ histórica (si la hay) 2. Utilizar sˆ de un muestreo anterior 3. Tomar una muestra piloto y calcular
sˆ
4. Conociendo la forma de f(x) y la amplitud total (A)
A
σˆ ≅ 0.29 A
A
σˆ ≅ 0.24 A
σˆ ≅ 0.17 A A
A
σˆ ≅ 0.21A
( d)
n ≥ Pˆ Qˆ z
Proporciones
EJEMPLO
Intervalo
2
Pˆ = 0.3 ⇒ Qˆ = 1 − 0.3 = 0.7 n.c.=0.95
⇒ z =1.96
(
n ≥ 0.3 × 0.7 1.96 ¿Cómo obtener
Pˆ
d = 0.01 (1%)
) = 8068 0.01 2
si aún no se tomó la muestra?
1. Utilizar P histórica 2. Utilizar p de un muestreo anterior 3. Tomar una muestra piloto y calcular p 4. Suponer necesario)
Pˆ = 0.5 (conduce a muestras más grandes de lo
Determinación de prevalencia Tamaño de muestra
1000 800 600 400 200
Prevalencia
90%
85%
80%
75%
70%
65%
60%
55%
50%
45%
40%
35%
30%
25%
20%
15%
0 10%
Número de animales
1200