Villarroel Ramírez: Distribución hipergeométrica
Distribución hipergeométrica Carlos Alfredo Villarroel Ramírez RESUMEN La distribución hipergeométrica es el modelo de la probabilidad exacta del número de éxitos en una muestra sin reemplazo de una población dicotómica finita, suele aparecer en procesos muéstrales, en los que se investiga la presencia o ausencia de una cierta característica. Palabras clave: Distribución hipergeométrica
La distribución hipergeometrica es una distribución discreta que modela el número de eventos en una muestra de tamaño fijo cuando se conoce el número total de elementos en la población de la cual proviene la muestra. Las muestras no tienen reemplazo, por lo que cada elemento de la muestra es diferente. Cuando se elige un elemento de la población, no se puede volver a elegir. Por lo tanto, la probabilidad de que un elemento sea seleccionado aumenta con cada ensayo efectuado. Presuponiendo que aún no haya sido seleccionado, las probabilidades no se mantienen constante. Dicha distribución es especialmente útil en donde se realicen experiencias repetidas sin devolución del elemento extraído o sin retomar a la situación experimental inicial. Es fundamental en el estudio de muestras de poblaciones pequeñas y en el cálculo de probabilidades de juegos de azar, tiene grandes aplicaciones en el control de calidad en otros procesos experimentales en los que no es posible retomar la situación de partida Los supuestos que conducen a dicha distribución son: 1.
La población o conjunto que se va a muestrar se compone de N individuos, objetos o elementos (una población finita)
2.
Cada individuo puede ser caracterizado como éxito (E) o fracaso (F) (población dicotómica)
3. Se selecciona una muestra n de individuos sin reemplazo y se supone además que en dicha muestra hay M individuos clasificados como éxito (E) Si nos interesa la probabilodad de seleccionar x éxitos de los M artículos considerados como éxito y N-M fracasos de los cuales N-M artículos que se consieran fracasos cuando se selecciona una muestra aleatoria de tamaño n de N artículos. Sea 𝑋 ~ℎ(𝑁, 𝑀, 𝑛) entonces la pdf de X es 𝑀 𝑁−𝑀 ( )( ) ℎ(𝑁, 𝑀, 𝑛) = 𝑥 𝑛 − 𝑥 , 𝑥 = 0,1,2, … , min(𝑀, 𝑛) 𝑁 ( ) 𝑛 ec Donde: N: Tamaño población dicotómica. M: Individuos clasificados como éxito n: Tamaño de muestra sin reemplazo X: Numero de éxitos de la muestra extraída Además, es necesario mencionar que: Departamento de Ingeniería Civil y Ambiental. Universidad del Bío-Bío. CP: 4051381. Concepción, Chile. Email:
[email protected]
Villarroel Ramírez: Distribución hipergeométrica
1. 2. 3.
𝑁 Hay ( ) formas distintas de extraer una muestra de tamaño n (sin importar el orden) de una población de tamaño 𝑛 N, con 𝑛 ≤ 𝑁 𝑀 Hay ( ) formas distintas de escoger x éxitos (sin importar el orden) entre los M exitosos que hay en la población, 𝑥 de donde 𝑥 ≤ 𝑀 𝑁−𝑀 En la población hay 𝑁 − 𝑀 fracasos entonces hay ( ) formas distintas de escoger 𝑛 − 𝑥 fracasos entre 𝑁 − 𝑀 𝑛−𝑥 fracasos que hay
Aplicando el principio de la multiplicación y la interpretación clásica de probabilidad obtenemos el resultado. La media y la varianza de una variable aleatoria X con distribución ℎ (𝑥; 𝑁, 𝑀, 𝑛) pueden obtenerse al considerar los ensayos que conforman el experimento. E (X) =
𝑛𝑀 𝑁
ec 𝑉(𝑋) = (
𝑁−𝑀 𝑛𝑀 𝑛−𝑥
)
𝑁
𝑀
(1 − ) 𝑁
ec 𝑀
Si consideramos 𝑝 = . Entonces, p puede interpretarse como la proporción de éxitos con el conjunto del cual se toma la 𝑁
muestra, dicho esto la media y la varianza quedan expresadas como: E (X) =𝑛𝑝 ec 𝑉(𝑋) = (
𝑁−𝑀 𝑛−𝑥
) 𝑛𝑝(1 − 𝑝)
ec Donde (
𝑁−𝑀 𝑛−𝑥
) Es el factor de corrección de población finita, representa la corrección a la varianza binomial debido a que el muestreo
se hace sin reemplazo de un conjunto finito de tamaño N. Este coeficiente es tanto más pequeño cuanto mayor es el tamaño muestral y puede comprobarse como tiende a aproximarse a 1 cuando el tamaño de la población N es muy grande. Este último suceso nos dice que con una población muy grande se cual fuere el tamaño de n, el factor corrector sería uno lo que convertiría, en cierto modo a la hipergeométrica en una binomial Conclusiones La distribución hipergeometrica está relacionada con la distribución binomial. En tanto la distribución binomial es el modelo de probabilidad aproximada de muestreo sin reemplazo de una población finita dicotómica, la distribución hipergeometrica es el modelo de la probabilidad exacta del número de éxitos en la muestra. Referencias Jay L. Devore (2008). Probabilidad y estadística para ingeniería y ciencias. California Polytechnic State University, San Luis Obispo Departamento de Ingeniería Civil y Ambiental. Universidad del Bío-Bío. CP: 4051381. Concepción, Chile. Email:
[email protected]
Villarroel Ramírez: Distribución hipergeométrica
Departamento de Ingeniería Civil y Ambiental. Universidad del Bío-Bío. CP: 4051381. Concepción, Chile. Email:
[email protected]