Probabilidad y estadística
Dirección General de Educación Superior Te c n o l ó g i c a INSTITUTO TECNOLOGICO DE S ALIN A CRUZ
Probabilidad y Estadística Ing. Beatriz Elena Nieto Camacho Salina Cruz, Oaxaca.
ITSAL
1
Probabilidad y estadística
Dirección General de Educación Superior Te c n o l ó g i c a INSTITUTO TECNOLOGICO DE S ALIN A CRUZ TEMA: Esta CARRERA: Ingeniería electrónica OPCIÓN: Comunicaciones MATERIA Probabilidad y Estadística CATEDRÁTICO: Ing. Beatriz Elena Nieto Camacho SEMESTRE: II GRUPO: “C-2’
Salina Cruz Oaxaca a 16 de abril del 2007.
ITSAL
2
Probabilidad y estadística
Estadística descriptiva y teoría de muestreo.
Objetivo. Aplicar los fundamentos básicos de muestreo; representar y analizar los datos obtenidos a partir de una situación especifica. Índice Temas
Pág.
Introducción……………………………………………………………………….. 5 Distribución de frecuencia relativa y frecuencia acumulada……………….... 6 Medidas de tendencia central…………………………………………………… 8 Media………………………………………………………………………………. 8 Mediana……………………………………………………………………………. 11 Moda……………………………………………………………………………….. 14 Promedio ponderado, móvil, media geométrica, media armónica, cuantiles Cuarteles, deciles y percentiles ………………………………………………… 14 Medidas de dispersión…………………………………………………………… 16 Rango o amplitud de variación…………........................................................ 16 Desviación media…………………………………………………………………. 19 Varianza o desviación estándar…………………………………………………. 20 Momentos y courtosis…………………………………………………………….. 25 Muestreo aleatorio………………………………………………………………… 26 Simple………………………………………………………………………………. 26 Sistemático…………………………………………………………………………. 27
ITSAL
3
Probabilidad y estadística
Estratificado………………………………………………………………………… 28 Por conglomerados………………………………………………………………… 29 Muestreo no aleatorio……………………………………………………………… 30 Dirigido………………………………………………………………………………. 30 Por cuotas…………………………………………………………………………… 33 Deliberado…………………………………………………………………………… 33 Conclusiones………………………………………………………………………… 37
ITSAL
4
Probabilidad y estadística
Introducción Para aplicar los fundamentos básicos de muestreo, tenemos conocer ciertos pasos para conocer detalladamente las diferentes frecuencias relativas y acumuladas, como primer paso , conoceremos las definiciones de estos aspectos, seguiremos con las medidas de tendencia central. Al calcular el promedio de un valor determinado nos enfoca a estar haciendo una característica aritméticamente, nosotros podemos llegar a una conclusión bajo calculos o símbolos que utilizeriamos en un problema. En este espacio se relata cada una de estos temas sabiendo desarrollar y entendiendo detenidamente al contenido de este tema.. Aprenderemos a determinar lo que nos enfoca y desarrollar problemas, gracias a estos temas, los conceptos basicos de muestreo son los que a continuación veremos. Vamos a compartir el aprendizaje de este tema, ya que gracias a este entraremos al mundo del conocimiento más al fondo.
ITSAL
5
Probabilidad y estadística
DISTRIBUCION DE FRECUENCIA, FRECUENCIA RELATIVA Y ACOMULADA
Una distribución de frecuencias es una herramienta estadística muy útil para organizar un grupo de observaciones. Distribución de frecuencias: es una serie de datos agrupados en categorías o intervalos de clase
en las cuales se muestra el número de observaciones que
contiene cada categoría. En donde (F) denota la frecuencia y (N) el número total de la muestra. En algunos casos, al agrupar la información en distribución de frecuencia, ésta resulta insuficiente para dar respuesta a todas las preguntas inicialmente planteadas, como: el porcentaje de cada clase en la población, la cantidad de elementos que están por arriba o debajo de una determinada clase. Por tal motivo, se construyen distribuciones acumuladas relativas y relativas acumuladas. FRECUENCIA RELATIVA La frecuencia relativa de un intervalo, la cual denotaremos como (Fr), se define como: la fracción del total de datos que representa la frecuencia de la clase, es decir: Fr=F/N Cuando esta cantidad es elevada a porcentaje
se llama frecuencia relativa
porcentual o frecuencia porcentual: Fr (100%)
ITSAL
6
Probabilidad y estadística
De manera análoga a la frecuencia relativa, definiremos ahora la frecuencia relativa acumulada como: el cociente de las frecuencias acumuladas y el número total de elementos de la muestra, esto es: Fra=Fa/N Y al igual que la frecuencia relativa, cuando sea elevada a porcentaje le llamaremos frecuencia relativa acumulada porcentual: Fra (100%)
FRECUENCIA ACUMULADA Se puede clasificar en: frecuencia acumulada menor que y frecuencia acumulada o más. La frecuencia acumulada menor que de una clase se define como: La suma de la frecuencia de dicha clase con todas las frecuencias de la clase cuyos intervalos son menores que el límite real superior de tal clase.
La frecuencia acumulada o más se define como: La suma de las frecuencias de clases de los intervalos que son mayores que el límite real inferior de la clase.
ITSAL
7
Probabilidad y estadística
MEDIDAS DE TENDENCIA CENTRAL
Estadística sumaria. Podemos usar una serie de números conocidos como estadística sumaria para describir las características del conjunto de datos. Dos de estas características son de particular importancia para los responsables de tomar decisiones: la de tendencia central y la de dispersión. Tendencia central: la tendencia central se refiere al punto medio de una distribución. Las medidas de tendencia central se conocen como medidas de posición. Dispersión: se refiere a la extensión de los datos en una distribución, es decir, al grado en que las observaciones se distribuyen. Sesgo: las curvas que representan los puntos de datos de un conjunto de datos pueden ser simétricas o sesgadas. Las curvas simétricas, tienen una forma tal que una línea vertical que pase por el punto más alto de la curva dividirá el área de ésta en dos partes iguales. Cada parte es una imagen espejo de la otra. En las curvas sesgadas, los valores de su distribución de frecuencias están concentrados en el extremo inferior o en el superior de la escala de medición del eje horizontal. Los valores no están igualmente distribuidos. Las curvas pueden estar sesgadas hacia la derecha (positivamente sesgadas) o sesgadas hacia la izquierda (negativamente sesgadas). La media aritmética. Cuando nos referimos al "promedio" de algo, estamos hablando de la media aritmética. Para encontrar la media aritmética, sumamos los valores y el resultado lo dividimos entre el número de observaciones.
ITSAL
8
Probabilidad y estadística
Símbolos convencionales. Una muestra de una población consiste en n observaciones, con una media de x (léase equis testada). Las medidas que calculamos para una muestra se conocen como estadística. La notación es diferente cuando calculamos medidas para la población entera, es decir, para el grupo que contiene a todos los elementos que estamos describiendo. La media de una población se simboliza con μ (letra griega mi). El número de elementos de una población se denota con la letra mayúscula cursiva N. Por lo general, en estadística utilizamos letras del alfabeto latino para simbolizar la información sobre las muestras y letras del griego para referirnos a la información sobre poblaciones. Cálculo de la media a partir de datos no agrupados. Media de la población: μ = ∑x / N x = ∑x / n Para calcular esta media, sumamos todas las observaciones. Los estadísticos se refieren a este tipo de datos como datos no agrupados. Cálculo de la media de datos agrupados: Una distribución de frecuencias consta de datos agrupados en clases. Cada valor de una observación cae dentro de alguna de las clases. No sabemos el valor individual de cada observación. A partir de la información de la tabla, podemos calcular fácilmente una estimación del valor de la media de estos datos agrupados. De haber usado los datos originales sin agrupar, podríamos haber calculado el valor real de la media.
ITSAL
9
Probabilidad y estadística
Para encontrar la media aritmética de datos agrupados, primero calculamos el punto medio de cada clase. Para lograr que los puntos medios queden en cifras cerradas, redondeamos las cantidades. Después, multiplicamos cada punto medio por la frecuencia de las observaciones de dicha clase, sumamos todos los resultados y dividimos esta suma entre el número total de observaciones de la muestra. x = å (f x) / n f = frecuencia de observaciones de cada clase x= punto medio de cada clase de la muestra n = número de observaciones de la muestra Codificación: Mediante esta técnica, podemos eliminar el problema de tener puntos medios muy grandes o inconvenientes. En lugar de utilizar los puntos medios reales para llevar a efecto nuestros cálculos, podemos asignar enteros consecutivos de valor pequeño, conocidos como códigos, a cada uno de los puntos medios. El entero cero puede ser asignado a cualquier punto medio, pero para que nuestros enteros sean pequeños, asignaremos cero al punto medio de la parte media de la distribución (o la parte más cercana a ésta). Podemos asignar enteros negativos a los valores menores a dicho punto medio y enteros positivos a los valores más grandes. Los estadísticos usan xo para representar el punto medio al que se le ha asignado el código 0 y u para el punto medio codificado: x = xo + w [(u f)] / n w = ancho numérico del intervalo de clase u = código asignado a cada punto medio de clase
ITSAL
10
Probabilidad y estadística
Ventajas y desventajas de la media aritmética. La media aritmética, en su carácter de un solo número que representa a un conjunto de datos completo, tiene importantes ventajas: Se trata de un concepto familiar para la mayoría de las personas y es intuitivamente claro. Cada conjunto de datos tiene una media, es una medida que puede calcularse y es única debido a que cada conjunto de datos posee una y sólo una media. Es útil para llevar a cabo procedimientos estadísticos como la comparación de medias de varios conjuntos de datos. Desventajas: Puede verse afectada por valores extremos que no son representativos del resto de los datos. Resulta tedioso calcular la media debido a que utilizamos cada uno de los puntos de dato de nuestro cálculo. Somos incapaces de calcular la media para un conjunto de datos que tiene clases de extremo abierto, ya sea en el inferior o en el superior de la escala. SUGERENCIA: La media aritmética, a menudo, puede mal interpretarse si los datos no entran en un grupo homogéneo. La mediana. La mediana es un solo valor calculado a partir del conjunto de datos que mide la observación central de éstos. Esta sola observación es la más central o la que está
ITSAL
11
Probabilidad y estadística
más en medio en el conjunto de números. La mitad de los elementos están por encima de este punto y la otra mitad está por debajo. Cálculo de la mediana a partir de datos no agrupados: Para hallar la mediana de un conjunto de datos, primero hay que organizarlos en orden descendente o ascendente. Si el conjunto de datos contiene un número impar de elementos, el de en medio en el arreglo es la mediana. Si hay un número par de observaciones, la mediana es el promedio de los dos elementos de en medio. Mediana = (n + 1) / 2 Cálculo de la mediana a partir de datos agrupados: Encontrar qué observación de la distribución está más al centro (Mediana = (n + 1) / 2). Sumar las frecuencias de cada clase para encontrar la clase que contiene a ese elemento más central. Determinar el número de elementos de la clase y la localización de la clase que contiene al elemento mediano. Determinar el ancho de cada paso para pasar de una observación a otra en la clase mediana, dividiendo el intervalo de cada clase entre el número de elementos contenido en la clase. Determinar el número de pasos que hay desde el límite inferior de la clase mediana hasta el elemento correspondiente a la mediana. Calcular el valor estimado del elemento mediano multiplicando el número de pasos que se necesitan para llegar a la observación mediana por el ancho de cada paso. Al producto sumarle el valor del límite inferior de la clase mediana.
ITSAL
12
Probabilidad y estadística
Si existe un número par de observaciones en la distribución, tomar el promedio de los valores obtenidos para el elemento mediano calculados en el paso número 6. Un método más sencillo: m = {[(n + 1) / 2 – (F + 1)] / fm} w + Lm m = mediana de la muestra n = número total de elementos de la distribución F = suma de todas las frecuencias de clase hasta, pero sin incluir, la clase mediana fm = frecuencia de la clase mediana w = ancho de intervalo de clase Lm = límite inferior del intervalo de clase mediano Ventajas y desventajas de la mediana: Los valores extremos no afectan a la mediana tan intensamente como a la media. La mediana es fácil de entender y se puede calcular a partir de cualquier tipo de datos – incluso a partir de datos agrupados con clases de extremo abierto – a menos que la mediana entre en una clase de extremo abierto. Podemos encontrar la mediana incluso cuando nuestros datos son descripciones cualitativas, en lugar de números. Ciertos procedimientos estadísticos que utilizan la mediana son más complejos que aquellos que utilizan la media. Debido a que la mediana es una posición promedio, debemos ordenar los datos antes de llevar a cabo cualquier cálculo. Esto implica consumo de tiempo para cualquier conjunto de datos que contenga un gran número de elementos. Por consiguiente, si deseamos utilizar una estadística de muestra para estimar un parámetro de población, la media es más fácil de usar que la mediana.
ITSAL
13
Probabilidad y estadística
La moda. La moda es una medida de tendencia central diferente de la media, pero un tanto parecida a la mediana, pues en realidad no se calcula mediante algún proceso aritmético ordinario. La moda es aquel valor que más se repite en el conjunto de datos. En ocasiones, el azar hace que un solo elemento no representativo se repita lo suficiente para ser el valor más frecuente del conjunto de datos. Es por esta razón que rara vez utilizamos la moda de un conjunto de datos no agrupados como medida de tendencia central. Por esta razón, siempre que utilizamos la moda como medida de tendencia central de un conjunto de datos, debemos calcular la moda de datos agrupados (buscar la clase modal). Cálculo de la moda de datos agrupados: Cuando los datos ya se encuentran agrupados en una distribución de frecuencias, podemos poner que la moda está localizada en la clase que contiene el mayor número de elementos, es decir, en la clase que tiene mayor frecuencia. Para determinar un solo valor para la moda a partir de esta clase modal: Mo = Lmo + [d1 / (d1 + d2 )] w Lmo = límite inferior de la clase modal. d1 = frecuencia de la clase modal menos la frecuencia de la clase que se encuentra inmediatamente por debajo de ella. d2 = frecuencia de la clase modal menos la frecuencia de la clase que se encuentra inmediatamente por encima de ella. w = ancho del intervalo de la clase modal.
ITSAL
14
Probabilidad y estadística
Ventajas y desventajas de la moda: La moda, al igual que la mediana, se puede utilizar como una posición central para datos tanto cualitativos como cuantitativos. También, al igual que la mediana, la moda no se ve mayormente afectada por los valores extremos. Incluso si los valores extremos son muy altos o muy bajos, nosotros escogemos el valor más frecuente del conjunto de datos como el valor modal. Podemos utilizar la moda sin importar qué tan grandes o qué tan pequeños sean los valores del conjunto de datos, e independientemente de cuál sea su dispersión.
Comparación entre la media, la mediana y la moda. Cuando trabajamos un problema de estadística, debemos decidir si vamos a utilizar la media, la mediana o la moda como medidas de tendencia central. Las distribuciones simétricas que sólo contienen una moda, siempre tienen el mismo valor para la media, la mediana y la moda. En tales casos, no es necesario escoger la medida de tendencia central, pues ya está hecha la selección. En una distribución positivamente sesgada (es decir, sesgada hacia la derecha), la moda todavía se encuentra en el punto más alto de la distribución, la mediana está hacia la derecha de la moda y la media se encuentra todavía más a la derecha de la moda y la mediana. En una distribución negativamente sesgada, la moda sigue siendo el punto más alto de la distribución, la mediana está hacia la izquierda de ella y la media se encuentra todavía más a la izquierda de la moda y la mediana. Cuando la población está sesgada negativa o positivamente, con frecuencia la mediana resulta ser la mejor medida de posición, debido a que siempre está entre la moda y la media. La mediana no se ve altamente influida por la frecuencia de ITSAL
15
Probabilidad y estadística
aparición de un solo valor como es el caso de la moda, ni se distorsiona con la presencia de valores extremos como la media. SUGERENCIA La selección de la media, la mediana o la moda, en ocasiones, depende de la práctica común de una industria en particular (salario medio de los obreros, precio mediano de una casa, familia modal para el diseño de automóviles). La dispersión. Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la moda sólo nos revelan una parte de la información que necesitamos acerca de las características de los datos. Para aumentar nuestro entendimiento del patrón de los datos, debemos medir también su dispersión, extensión o variabilidad. La dispersión es importante porque: Proporciona información adicional que permite juzgar la confiabilidad de la medida de tendencia central. Si los datos se encuentran ampliamente dispersos, la posición central es menos representativa de los datos. Ya que existen problemas característicos para datos ampliamente dispersos, debemos ser capaces de distinguir que presentan esa dispersión antes de abordar esos problemas. Quizá se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una amplia dispersión de valores con respecto al centro de distribución o esto presenta Medidas de dispersión.
ITSAL
16
Probabilidad y estadística
La dispersión puede medirse en términos de la diferencia entre dos valores seleccionados del conjunto de datos. Las medidas de distancia son: el alcance, el alcance interfractil y el alcance intercuartil.
Alcance.
Es la diferencia entre el más alto y el más pequeño de los valores observados.
Alcance = valor de la observación más alta – valor de la observación más pequeña
El alcance es fácil de entender y de encontrar, pero su utilidad como medida de dispersión es limitada. Sólo toma en cuenta los valores más alto y más bajo de una distribución y no considera ninguna otra observación del conjunto de datos. Ignora la naturaleza de la variación entre todas las demás observaciones, y se ve muy influido por los valores extremos.
Las distribuciones de extremo abierto no tienen alcance, pues no existe un valor más alto o más bajo en la clase de extremo abierto.
ITSAL
17
Probabilidad y estadística
Alcance interfractil. En una distribución de frecuencias, una fracción o proporción dada de los datos cae en un fractil o por debajo de éste. La mediana, por ejemplo, es el fractil 0,5, puesto que la mitad de los datos es menor o igual a este valor. Los fractiles son parecidos a los porcentajes. En una distribución cualquiera, el 25% de los datos está en el fractil 0,25 o por debajo de éste; igualmente, 25% de los datos cae en el vigésimo quinto percentil o por debajo de éste. El alcance interfractil es una medida de la dispersión entre dos fractiles de una distribución de frecuencias, es decir, la diferencia entre los valores de los dos fractiles.
Los fractiles tienen nombres especiales, dependiendo del número de partes iguales en que se dividen los datos. Los fractiles que los dividen en 10 partes iguales se conocen como deciles. Los cuartiles dividen los datos en cuatro partes iguales. Los percentiles dividen el conjunto de datos en 100 partes iguales.
Alcance intercuartil.
El alcance intercuartil mide aproximadamente qué tan lejos de la mediana tenemos que ir en cualquiera de las dos direcciones antes de que podamos recorrer una mitad de los valores del conjunto de datos. Para calcular este alcance, dividimos nuestros datos en cuatro partes, cada una de las cuales contiene 25% de los elementos de la distribución. Los cuartiles son, entonces, los valores más alto y más bajo de estas cuatro partes, y el alcance intercuartil es la diferencia entre los valores del primer cuartil y el tercer cuartil.
ITSAL
18
Probabilidad y estadística
SUGERENCIA
El punto fractil es siempre el punto en el o debajo del cual cae la proporción establecida de valores.
Medidas de desviación promedio.
Las descripciones más comprensivas de la dispersión son aquellas que tratan con la desviación promedio con respecto a alguna medida de tendencia central. Dos de tales medidas son la varianza y la desviación estándar. Ambas medidas nos dan una distancia promedio de cualquier observación del conjunto de datos con respecto a la media de la distribución.
Varianza de la población.
Cada población tiene una varianza, que se simboliza con s 2 (sigma cuadrada). Para calcular la varianza de una población, dividimos la suma de las distancias al cuadrado entre la media y cada elemento de la población entre el número total de observaciones de dicha población. s 2 = å (x - m )2 / N
ITSAL
19
Probabilidad y estadística
s 2 = varianza de la población. x = elemento u observación. m = media de la población. N = número total de elementos de la población. Para la varianza, las unidades son el cuadrado de las unidades de los datos. Estas unidades no son intuitivamente claras o fáciles de interpretar. Por esta razón, tenemos que hacer un cambio significativo en la varianza para calcular una medida útil de la desviación, que sea menos confusa. Esta medida se conoce como la desviación estándar, y es la raíz cuadrada de la varianza. La desviación estándar, entonces, está en las mismas unidades que los datos originales. Desviación estándar de la población. La desviación estándar de la población, o s , es simplemente la raíz cuadrada de la varianza de la población. Como la varianza es el promedio de las distancias al cuadrado que van desde las observaciones a la media, la desviación estándar es la raíz cuadrada del promedio de las distancias al cuadrado que van desde las observaciones a la media. La desviación estándar está en las mismas unidades que las que se usaron para medir los datos. La raíz cuadrada de un número positivo puede ser tanto positiva como negativa. Cuando tomamos la raíz cuadrada de la varianza para calcular la desviación estándar, los estadísticos solamente consideran la raíz cuadrada positiva. Para calcular la varianza o la desviación estándar, construimos una tabla utilizando todos los elementos de la población.
ITSAL
20
Probabilidad y estadística
Usos de la desviación estándar. La desviación estándar nos permite determinar, con un buen grado de precisión, dónde están localizados los valores de una distribución de frecuencias con relación a la media. El teorema de Chebyshev dice que no importa qué forma tenga la distribución, al menos 75% de los valores caen dentro de + 2 desviaciones estándar a partir de la media de la distribución, y al menos 89% de los valores caen dentro de + 3 desviaciones estándar a partir de la media.
Con más precisión: Aproximadamente 68% de los valores de la población cae dentro de + 1 desviación estándar a partir de la media. Aproximadamente 95% de los valores estará dentro de + 2 desviaciones estándar a partir de la media. Aproximadamente 99% de los valores estará en el intervalo que va desde tres desviaciones estándar por debajo de la media hasta tres desviaciones estándar por arriba de la media. MEDIDAS DE DISPERSIÓN: Son indicadores estadísticos que muestran la distancia promedio que existe entre los datos y la media aritmética. Las medidas de dispersión nos indican la distancia promedio de los datos respecto a las medidas de tendencia central. Así podremos diferenciar dos conjuntos de datos que poseen iguales medias, siendo los datos de uno más dispersos del otro.
Rango:
ITSAL
21
Probabilidad y estadística
Es la primera medida que vamos a estudiar, se define como la diferencia existente entre el valor mayor y el menor de la distribución,. Lo notaremos como R. Realmente no es una medida muy significativa e la mayoría de los casos, pero indudablemente es muy fácil de calcular. Hemos estudiado varias medidas de centralización, por lo que podemos hablar de desviación con respecto a cualquiera de ellas, sin embargo, la mas utilizada es con respecto a la media. Desviación: Es la diferencia que se observa entre el valor de la variable y la media aritmética. La denotaremos por di . No es una medida, son muchas medidas, pues cada valor de la variable lleva asociada su correspondiente desviación, por lo que precisaremos una medida que resuma dicha información. La primera solución puede ser calcular la media de todas las desviaciones, es decir, si consideramos como muestra la de todas las desviaciones y calculamos su media. Pero esta solución es mala pues como veremos siempre va a ser 0.
Luego por lo tanto esta primera idea no es valida, pues las desviaciones positivas se contrarrestan con las negativas. Para resolver este problema, tenemos dos caminos: •
Tomar el valor absoluto de las desviaciones. Desviación media
•
Elevar al cuadrado las desviaciones. Varianza.
Desviación media: Es la media de los valores absolutos de las desviaciones, y la denotaremos por dm.
ITSAL
22
Probabilidad y estadística
Varianza: El cuadrado de la desviación estándar recibe el nombre de varianza y se representa por . La suma de los cuadrados de los desvíos de la totalidad de las observaciones, respecto de la media aritmética de la distribución, es menor que la suma de los cuadrados de los desvíos respecto de cualquier otro valor que no sea la media aritmética. Si observamos, veremos que la varianza no es másque el desvío estándar al cuadrado. Precisamente la manera de simbolizarla es . Por lo mismo, el desvío estándar puede definirse como la raíz cuadrada de la varianza
Es la media de los cuadrados de las desviaciones, y la denotaremos por también por
o
.
Aunque también es posible calcularlo como:
ITSAL
23
Probabilidad y estadística
Este estadístico tiene el inconveniente de ser poco significativo, pues se mide en el cuadrado de la unidad de la variable, por ejemplo, si la variable viene dada en cm. La varianza vendrá en cm2. Desviación estándar o típica (S o σ): Es igual a la raíz cuadrada de la varianza. La S representa la desviación estándar de una muestra, mientras que σ la desviación para todos los datos de una población. Ampliando las fórmulas tenemos Aplicamos el mismo procedimiento a las fórmulas para las tablas de frecuencias tipo A. Y para las tablas de frecuencias tipo B.
La desviación estándar soluciona el problema obteniendo la raíz cuadrada de la varianza, consiguiendo así, un valor similar a la desviación media.
Es la raíz cuadrada de la varianza, se denota por Sx o s x.
Este estadístico se mide en la misma unidad que la variable por lo que se puede interpretar mejor. Otros dos estadísticos importantes son la cuasivarianza y la cuasidesviación típica, que como veremos cuando estudiemos el tema de estimación estadística, son los estimadores de la varianza y desviación típica poblacionales respectivamente.
ITSAL
24
Probabilidad y estadística
MEDIDAS DE APUNTAMIENTO O CURTOSIS: COEFICIENTE DE CURTOSIS DE FISHER
Con estas medidas nos estamos refiriendo al grado de apuntamiento que tiene una distribución; para determinarlo, emplearemos el coeficiente de curtosis de Fisher.
MOMENTO: En estadística el momento centrado de orden k de una variable aleatoria X es la esperanza matemática E[(X − E[X])k] donde E es el operador de la esperanza. Si una variable aleatoria no tiene media el momento centrado es indefinido. Normalmente la letra griega para el momento centrado es μ. El primer momento centrado es zero y el segundo se llama varianza (σ²) donde σ es la desviación estándar. MOMENTOS Y COURTOSIS La deformación del eje horizontal de una distribución de frecuencias se conoce como courtosis o aplastamiento. Una medida cualitativa de la forma de las distribuciones de frecuencias las clasifica en: Leptocùrticas: sus datos se concentran en un reducido intervalo de valores Mesocùrticas: estas presentan una concentración de valores alrededor de la media, y una reducción de estos hacia los extremos. A estas se les Conoce como distribuciones normales o de campana
ITSAL
25
Probabilidad y estadística
Platicùrticas: En ellas los datos se redistribuyen de manera relativa uniformé en todo el rango de valores El momento de courtosis puede calcularse por medio de los momentos de la distribución de frecuencias,
MUESTREO ALEATORIO SIMPLE, MUESTREO ALEATORIO SISTEMÁTICO,
MUESTREO
ALEATORIO
ESTRATIFICADO,
MUESTREO ALEATORIO POR CONGLOMERADOS Muestreo: Proceso por el cual se seleccionan los individuos que formarán una muestra. El tamaño de la muestra depende de la precisión que se quiera conseguir en la estimación que se realice a partir de ella. Para su determinación se requieren técnicas estadísticas superiores, pero resulta sorprendente cómo, con muestras notablemente pequeñas, se pueden conseguir resultados suficientemente precisos.
Muestreo Aleatorio Una muestra se dice que es extraída al azar cuando la manera de selección es tal, que cada elemento de la población tiene igual oportunidad de ser seleccionado. Una muestra aleatoria es también llamada una muestra probabilística son generalmente preferidas por los estadísticos porque la selección de las muestras es objetiva y el error muestral puede ser medido en términos de probabilidad bajo la curva normal. Los tipos comunes de muestreo aleatorio son el muestreo aleatorio simple, muestreo sistemático, muestreo estratificado y muestreo de conglomerados. Muestreo aleatorio simple Una muestra aleatoria simple es seleccionada de tal manera que cada muestra posible del mismo tamaño tiene igual probabilidad de ser seleccionada de la población. Para obtener una muestra aleatoria simple, cada elemento en la población tenga la misma probabilidad de ser seleccionado, el plan de muestreo puede no
ITSAL
26
Probabilidad y estadística
conducir a una muestra aleatoria simple. Por conveniencia, este método pude ser reemplazado por una tabla de números aleatorios. Cuando una población es infinita, es obvio que la tarea de numerar cada elemento de la población es infinita, es obvio que la tarea de numerar cada elemento de la población es imposible. Por lo tanto, ciertas modificaciones del muestreo aleatorio simple son necesarias. Los tipos más comunes de muestreo aleatorio modificado son sistemáticos, estratificados y de conglomerados. El muestreo aleatorio simple puede ser de dos tipos: Sin reposición de los elementos: cada elemento extraído se descarta para la subsiguiente extracción. Por ejemplo, si se extrae una muestra de una "población" de bombillas para estimar la vida media de las bombillas que la integran, no será posible medir más que una vez la bombilla seleccionada. Con
reposición
de
los
elementos:
las
observaciones
se
realizan
con
reemplazamiento de los individuos, de forma que la población es idéntica en todas las extracciones. En poblaciones muy grandes, la probabilidad de repetir una extracción es tan pequeña que el muestreo puede considerarse sin reposición aunque, realmente, no lo sea. Para realizar este tipo de muestreo, y en determinadas situaciones, es muy útil la extracción de números aleatorios mediante ordenadores, calculadoras o tablas construidas al efecto.
Muestreo sistemático. Una muestra sistemática es obtenida cuando los elementos son seleccionados en una manera ordenada. La manera de la selección depende del número de elementos incluidos en la población y el tamaño de la muestra. El número de elementos en la
ITSAL
27
Probabilidad y estadística
población es, primero, dividido por el número deseado en la muestra. El cociente indicará si cada décimo, cada onceavo, o cada centésimo elemento en la población va a ser seleccionado. El primer elemento de la muestra es seleccionado al azar. Por lo tanto, una muestra sistemática puede dar la misma precisión de estimación acerca de la población, que una muestra aleatoria simple cuando los elementos en la población están ordenados al azar. El riesgo de los muestreos sistemáticos es el de las periodicidades ocultas. Supongamos que queremos testear el funcionamiento de una máquina, para lo cuál vamos a seleccionar una de cada 15 piezas producidas. Si ocurriera la desgracia de que justamente 1 de cada 15 piezas fuese defectuosa y el error de la máquina fuera defectuoso periódicamente, tendríamos dos posibles resultados muéstrales: -
Que falla siempre
-
Que no falla nunca.
Muestreo Estratificado Para obtener una muestra aleatoria estratificada, primero se divide la población en grupos, llamados estratos, que son más homogéneos que la población como un todo. Los elementos de la muestra son entonces seleccionados al azar o por un método sistemático de cada estrato. Las estimaciones de la población, basadas en la muestra estratificada, usualmente tienen mayor precisión (o menor error muestral) que si la población entera muestreada mediante muestreo aleatorio simple. El número de elementos seleccionado de cada estrato puede ser proporcional o desproporcional al tamaño del estrato en relación con la población. Según la cantidad de elementos de la muestra que se han de elegir de cada uno de los estratos, existen dos técnicas de muestreo estratificado:
ITSAL
28
Probabilidad y estadística
•
Asignación proporcional: el tamaño de cada estrato en la muestra es proporcional a su tamaño en la población.
•
Asignación óptima: la muestra recogerá más individuos de aquellos estratos que tengan más variabilidad. Para ello es necesario un conocimiento previo de la población.
Por ejemplo, para un estudio de opinión, puede resultar interesante estudiar por separado las opiniones de hombres y mujeres pues se estima que, dentro de cada uno de estos grupos, puede haber cierta homogeneidad. Así, si la población está compuesta de un 55% de mujeres y un 45% de hombres, se tomaría una muestra que contenga también esa misma proporción.
Muestreo de conglomerados. Para obtener una muestra de conglomerados, primero dividir la población en grupos que son convenientes para el muestreo. En seguida, seleccionar una porción de los grupos al azar o por un método sistemático. Finalmente, tomar todos los elementos o parte de ellos al azar o por un método sistemático de los grupos seleccionados para obtener una muestra. Bajo este método, aunque no todos los grupos son muestreados, cada grupo tiene una igual probabilidad de ser seleccionado. Por lo tanto la muestra es aleatoria. Una muestra de conglomerados, usualmente produce un mayor error muestral (por lo tanto, da menor precisión de las estimaciones acerca de la población) que una muestra aleatoria simple del mismo tamaño. Los elementos individuales dentro de cada "conglomerado" tienden usualmente a ser iguales. Por ejemplo la gente rica puede vivir en el mismo barrio, mientras que la gente pobre puede vivir en otra área. No todas las áreas son muestreadas en un muestreo de áreas. La variación entre los elementos obtenidos de las áreas seleccionadas es, por lo tanto, frecuentemente mayor que la obtenida si la población entera es muestreada mediante muestreo
ITSAL
29
Probabilidad y estadística
aleatorio simple. Esta debilidad puede reducida cuando se incrementa el tamaño de la muestra de área. El incremento del tamaño de la muestra puede fácilmente ser hecho en muestra muestra de área. Los entrevistadores no tienen que caminar demasiado lejos en una pequeña área para entrevistar más familias. Por lo tanto, una muestra grande de área puede ser obtenida dentro de un corto período de tiempo y a bajo costo. Por otra parte, una muestra de conglomerados puede producir la misma precisión en la estimación que una muestra aleatoria simple, si la variación de los elementos individuales dentro de cada conglomerado es tan grande como la de la población.
MUESTREOS NO ALEATORIOS
Cuando hemos reunido los resultados de una muestra no aleatoria a partir de una población, lo normal es que queramos generalizar nuestros resultados. Generalizar significa que afirmamos que los resultados son ciertos no sólo para la muestra, sino también respecto a la población. ¿Es posible evaluar la credibilidad de tal declaración? La cuestión crucial en la evaluación es si la muestra se desvía de la población en aspectos relevantes. Por relevantes entendemos aquellas cuestiones que medimos o que se incluyen en nuestra hipótesis o en los objetivos del proyecto. Habitualmente la única manera de estimas esto sería investigar otra muestra de la misma población, lo que en la mayor parte de los casos iría más allá de los recursos disponibles. Como un débil sucedáneo del examen arriba descrito, podríamos plantearnos el estudiar si nuestra muestra no aleatoria se desvía de la población respecto a aspectos distintos de los puntos “relevantes” arriba mencionados. Con frecuencia podremos examinar archivos públicos y descubrir por ejemplo la conformación demográfica, edad o estructura por sexos de nuestra población y comparar estas cifras con nuestra muestra. Si encontramos desviaciones, tenemos que plantearnos si éstas nos dan
ITSAL
30
Probabilidad y estadística
razones para sospechar sobre desviaciones también en las variables “relevantes” arriba aludidas. Para ayudarnos a la hora de plantearnos esto, podríamos calcular las correlaciones entre la variable demográfica que aparece desviada y nuestras variables “relevantes” (si son numéricas). Por ejemplo, si la distribución por sexos no es igual a la distribución por sexos de la población, calcularemos las correlaciones entre sexo y nuestras variables “relevantes” en la muestra. Una correlación alta indica que nuestra muestra estaba sesgada. El muestreo no aleatorio, llamado “opinático puro”, consiste en la elección de una muestra según el juicio del equipo investigador. Naturalmente, la calidad del muestreo no puede valorarse ni a priori ni objetivamente, pues depende de los criterios utilizados para escoger a los componentes de la muestra. A veces, razones de economía y rapidez lo hacen aconsejable. En ocasiones se completa el muestreo con el denominado “sistema de cuotas”, que consiste en realizar cierto número de encuestas entre cada uno de los distintos grupos en que se divide el universo. Así, se puede exigir que haya “X” entrevistas a familias que tengan dos hijos, “Y” entrevistas a familias que vivan los padres con ellos... Esas especificaciones se determinan teniendo en cuenta las características conocidas del universo. Dentro de este apartado, tenemos el muestreo denominado “semialeatorio” consistente en la obtención al azar de ciertos grupos del colectivo para dejar, a criterio del entrevistador, la elección del elemento que se va a elegir. Un muestreo, bastante utilizado en las entrevistas y que según algunos autores puede resultar prácticamente aleatorio, es el denominado “muestreo por rutas” en el que partiendo de unos puntos determinados (calle, número...), los agentes van siguiendo su itinerario y efectúan las entrevistas de acuerdo con un ritmo (por ejemplo, cada 10 edificios) y unas normas (para la elección de viviendas). Una variante de muestreo no aleatorio, que suele utilizarse frecuentemente en determinados casos, son las “reuniones de grupo” o “grupos de discusión”. Su
ITSAL
31
Probabilidad y estadística
importancia en determinados estudios es tal que hemos considerado oportuno incluirlo como tema independiente al final del capítulo.
CARACTERÍSTICAS •
Útil cuando se quiere cualificar.
•
Todos los casos no tiene la misma probabilidad de ser seleccionados para la muestra.
•
El investigador elige los casos que más le interesan para una información más rica.
•
Requiere un conocimiento elevado de la población.
•
Permite hacer inferencias lógicas.
TIPOS •
Muestreo
de
conveniencia:
en
los
límites
periféricos
del
muestreo
metodológico. •
Muestreo por cuotas: estructura de muestreo probabilístico.
•
Muestreo intencional: desarrolla la potencialidad de un muestreo no probabilístico.
•
ITSAL
En cuanto a encuestas sociales se suelen usar los dos primeros.
32
Probabilidad y estadística
MUESTREO POR CUOTAS También denominado en ocasiones “accidental”. Se asienta generalmente sobre la base de un buen conocimiento de los estratos de la población y/o de los individuos más “representativos” o “adecuados” para los fines de la investigación. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél. Es una serie bastante amplia de variantes la mayoría de las cuales se asemeja bastante a una muestra aleatoria estratificada con fijación proporcional. Todo muestreo por cuotas rompe el proceso de aleatoriedad en la fase de extracción del elemento muestral (la selección del entrevistado) PASOS: 1. Selección de unas características de control tales como: edad, sexo...etc. Las variables de control se escogen porque se cree que están relacionadas con la variable a investigar, Se emplean para estratificar la población determinar que proporción e ella tiene cada estrato. 2. Se adopta una representación general de cada estrato en la muestra final. 3. Elección del entrevistado (con las características que deben reunir de acuerdo con las variables de control que se emplearon para estratificar a la población y fijar la muestra).
ITSAL
33
Probabilidad y estadística
4. Este método asume que una muestra que se parece a la población con respecto a características importantes, lo hará de igual forma respecto a las demás que se quieren estudiar (una función bastante arriesgada).
VENTAJAS DEL MUESTREO POR CUOTAS
Bajo coste. Asegura la heterogeneidad y proporcionalidad de la muestra
INCONVENIENTES DEL MUESTREO POR CUOTAS Dificultad de diseñar un sistema de estratificación (para construir las cuotas) que considere más de tres variables de control. (Esto se debe a que el nº de variables a considerar actúa como una función multiplicativa de cada una de las categorías dentro de la variable) A cada entrevistador se le adjudica una cuota de personas a entrevistar. El hecho de poder elegir los entrevistados siempre que reúnan los requisitos adecuados, puede llevar a error (entrevistas a amigos en proporción excesiva, a las salida de mercados, universidades...etc.) Son muchas las estrategias para reducir los sesgos al seleccionar entrevistados (control sobre los barrios a investigar xej).Una de las opciones es llevar a cabo un muestreo probabilístico polietápico con cluster, seleccionando a los entrevistadores mediante cuotas en la última etapa.
ITSAL
34
Probabilidad y estadística
MUESTREO INTENCIONAL El muestreo intencional constituye una estrategia no probabilística válida para la recolección de datos, en especial para muestras pequeñas y muy específicas. TIPOS Muestreo de casos extremos: seleccionar sólo aquellos casos cuyos valores se encuentren en el extremo del rango de una variable. Muestreo de casos poco usuales: Seleccionar aquellos elementos cuyos valores en el rango de una variable son poco frecuentes. Muestreo de casos con máxima variación: pretende construir una muestra los más heterogénea posible. Esto que en muestras pequeñas representa un problema, se convierte en este tipo de muestreo en una potencialidad. Muestreo de subgrupos homogéneos: Escoger una muestra pequeña lo más homogénea posible, si surge la necesidad de recoger información sobre uno o varios grupos. Reúne una serie de individuos de condiciones sociales y experiencias semejantes. Muestreos estructurales: Los individuos que componen la muestra son seleccionados en virtud de sus posiciones sociales, situación en una red social, en una jerarquía...etc.
ITSAL
35
Probabilidad y estadística
Muestreos con informantes estratégicos: Este tipo de muestreo es un compuesto del homogéneo y del estructural, y parte de que el conocimiento y la información están desigualmente distribuidos. Tiene 2 subtipos: -Bola de nieve o en cadena: Usado en poblaciones especiales o de difícil acceso. Se pide a una serie de informantes iniciales que suministren los nombres de otros miembros potenciales de la muestra. -Experto:
Mandar
a
un
experto
escoger
individuos
típicos,
ciudades
representativas...etc. No se debe generalizar a partir de la experiencia de los individuos que componen la muestra. Muestreo de criterio: Selecciona para su estudio a aquellos casos que se ajustan a algún criterio predeterminado (xej un estudio sobre conducta desviada). Muestreo de casos críticos: Trata casos que en relación al tema de estudio, pueden servir de referencia lógica para el resto de la población o parte de ella. estos muestreos hacen posible las generalizaciones lógicas derivadas del peso de la evidencia que puede llegar a producir incluso un solo caso. Muestreo de casos confirmatorios y contradictorios: Es interesante cuando la investigación está avanzada; ya que muestrea específicamente en busca de casos que sirvan para confirmar o contradecir el trabajo que se ha efectuado.
ITSAL
36
Probabilidad y estadística
Conclusión Ahora que ya sabemos el contenido de este tema, podremos llevarlo a cabo a la práctica,gracias al aprendizaje, nuestro conocimiento sera más abierto al realizarlo. Esperemos que estos temas se haya comprendido satisfactoriamente, al poder entender el desarrollo de cada una de estos temas nosotros seremos fuertes, analizando estratégicamente y poder realizar un trabajo bien hecho. Ya sabemos como trabajar a partir de la situación especifica que te propongan en el problema poder llevar a cabo estos pasos o bien dicho temas que nos ayuden a realizarlo correctamente. El resultado de tus ejercicios sera gracias al apoyo de este contenido, escrito para que en cualquier tipo de situación podremos definirlo correctamente. Estos temas fueron analizados cada una de ellas, para incrementar nuestro aprendizaje, nos ayudaran mucho, este trabajo fue realizado por todo el grupo en general.
ITSAL
37