Población y muestra Una población es el conjunto completo de todos los objetos que interesan a un investigador. El tamaño de la población, N, puede ser muy grande o incluso infinito. Una muestra es un subconjunto observado de valores poblacionales que tiene un tamaño muestral que viene dado por n. Nuestro objetivo final es hacer afirmaciones basadas en datos muestrales que tengan alguna validez sobre la población en general. Necesitamos, pues, una muestra que sea representativa de la población. Muestreo aleatorio El muestro aleatorio simple es un método que se emplea para seleccionar una muestra de n objetos de una población en el que cada miembro de la población se elige estrictamente al azar, cada miembro de la población se elige con la misma probabilidad y todas las muestras posibles de un tamaño dado, n, tienen la misma probabilidad de ser seleccionadas. Este método es tan frecuente que generalmente se suprime el adjetivo simple y la muestra resultante se denomina muestra aleatoria Parámetro y estadístico Un parámetro es una característica específica de una población. Un estadístico es una característica específica de una muestra. Estadística descriptiva e inferencial La estadística descriptiva está formada por los métodos gráficos y numéricos que se utilizan para resumir y procesar los datos y transformarlos en información. La estadística inferencial constituye la base para hacer predicciones, previsiones y estimaciones que se utilizan para transformar la información en conocimiento. Realización de inferencias La estadística inferencial es un proceso, no un mero resultado numérico. Este proceso pue-
de consistir en una estimación, un contraste de hipótesis, un análisis de relaciones o una predicción. En primer lugar, podemos querer estimar un parámetro. Clasificación de las variables Categóricas o numéricas Las variables categóricas producen respuestas que pertenecen a grupos o categorías. Las variables numéricas pueden ser variables discretas o variables continuas. Una variable numérica discreta puede tener (pero no necesariamente) un número finito de valores. Sin embargo, el tipo más frecuente de variable numérica discreta con el que nos encontraremos produce una respuesta que proviene de un proceso de recuento. Una variable numérica continua puede tomar cualquier valor de un intervalo dado de números reales y normalmente proviene de un proceso de medición (no de recuento). Niveles de medición También podemos dividir los datos en cualitativos y cuantitativos. Con datos cualitativos, la «diferencia» entre los números no tiene ningún significado mensurable. Veremos que los datos cualitativos pueden ser niveles de medición nominales y ordinales. Los datos cuantitativos pueden ser niveles de medición basados en intervalos y en razones. Los niveles de medición nominales y ordinales se refieren a los datos que se obtienen con preguntas categóricas. Las respuestas a preguntas sobre el sexo, el país de origen, la afiliación política y la propiedad de un teléfono móvil son nominales. Se considera que los datos nominales son el tipo de datos más bajo o más débil, ya que la identificación numérica se elige estrictamente por comodidad. Los valores de las variables nominales son palabras que describen las categorías o clases de respuestas. Los datos ordinales indican el orden que ocupan los objetos y, al igual que en el caso de los datos nominales, los valores son palabras que describen las respuestas. Los niveles de medición basados en intervalos y en razones se refieren a los datos en una escala ordenada, en la que la diferencia entre las mediciones tiene un significado. Una
escala de intervalos indica el orden y la distancia con respecto a un cero arbitrario medidos en intervalos unitarios. Es decir, se ofrecen datos en relación con un nivel de referencia determinado arbitrariamente. Los datos basados en una escala de razones sí indican tanto el orden como la distancia con respecto a un cero natural y los cocientes entre dos medidas tienen un significado. Después de recoger datos, primero tenemos que clasificar las respuestas en categóricas o numéricas o según la escala de medición. A continuación, asignamos un número arbitrario a cada respuesta. Distribución de frecuencias Una distribución de frecuencias es una tabla utilizada para organizar datos. La columna de la izquierda (llamada clases o grupos) contiene todas las respuestas posibles sobre una variable estudiada. La columna de la derecha es una lista de las frecuencias o número de observaciones correspondientes a cada clase Gráficos de barras y gráficos de tarta Los gráficos de barras y los gráficos de tarta se utilizan normalmente para describir datos categóricos. Si nuestro objetivo es llamar la atención sobre la frecuencia de cada categoría, lo más probable es que tracemos un gráfico de barras. Si es hacer hincapié en la proporción de cada categoría, es probable que elijamos un gráfico de tarta. En un gráfico de barras, la altura de un rectángulo representa esta frecuencia. No es necesario que las barras se toquen. Diagrama de Pareto Un diagrama de Pareto es un gráfico de barras que muestra la frecuencia de las causas de los defectos. La barra de la izquierda indica la causa más frecuente y las de la derecha indican las causas con frecuencias decrecientes. Los diagramas de Pareto se utilizan para separar lo «poco vital» de lo «mucho trivial». Gráfico de series temporales
Un gráfico de series temporales representa una serie de datos en varios intervalos de tiempo. Midiendo el tiempo en el eje de abscisas y la cantidad numérica que interesa en el de ordenadas se obtiene un punto en el gráfico por cada observación. Uniendo los puntos contiguos en el tiempo por medio de líneas rectas se obtiene un gráfico de series temporales. Una distribución de frecuencias de datos numéricos es, al igual que una distribución de frecuencias de datos categóricos (apartado 2.2), una tabla que resume datos enumerando las clases en la columna de la izquierda y el número de observaciones de cada clase en la columna de la derecha. Sin embargo, en una distribución de frecuencias de datos numéricos las clases o intervalos no son fácilmente identificables. Construcción de una distribución de frecuencias Regla 1: Decidir k, el número de intervalos (clases). Regla 2: Los intervalos (clases) deben ser de la misma amplitud, w; la amplitud viene determinada por lo siguiente: w % Amplitud de los intervalos :(Número mayor - Número menor) --------------------------------------Número de intervalos Tanto k como w deben redondearse al alza, posiblemente al siguiente número entero mayor. Regla 3: Los intervalos (clases) deben ser inclusivos y no solaparse. Regla 1. Número de intervalos El número de intervalos (clases) utilizados en una distribución de frecuencias se decide de una manera algo arbitraria. Regla 2. Amplitud de los intervalos Después de elegir el número de intervalos, el paso siguiente es elegir la amplitud de los intervalos: w % Amplitud de los intervalos %(Número mayor . Número menor)/Número de intervalos La amplitud de los intervalos a menudo se redondea a un número entero para facilitar la
interpretación. Regla 3. Intervalos inclusivos y que no se solapen Los intervalos deben ser inclusivos y no solaparse. Cada observación debe pertenecer a uno y sólo un intervalo. Los límites o extremos de cada clase deben estar claramente definidos. Para evitar solapamientos Distribuciones de frecuencias relativas, acumuladas y relativas acumuladas Se obtiene una distribución de frecuencias relativas dividiendo cada frecuencia por el número de observaciones y multiplicando la proporción resultante por 100 por ciento. Una distribución de frecuencias acumuladas contiene el número total de observaciones cuyos valores son menores que el límite superior de cada intervalo. Se construye sumando las frecuencias de todos los intervalos de la distribución de frecuencias e incluyendo el presente intervalo. En una distribución de frecuencias relativas acumuladas, las frecuencias acumuladas pueden expresarse en proporciones o porcentajes acumulados. Histograma Un histograma es un gráfico formado por barras verticales construidas sobre una línea recta horizontal delimitada por los intervalos de la variable mostrada. Los intervalos corresponden a los de una tabla de distribución de frecuencias. La altura de cada barra es proporcional al número de observaciones que hay en ese intervalo. El número de observaciones puede indicarse encima de las barras. Ojiva Una ojiva, llamada a veces gráfico de frecuencias acumuladas, es una línea que conecta puntos que son el porcentaje acumulado de observaciones situadas por debajo del límite superior de cada intervalo en una distribución de frecuencias acumuladas. Simetría Se dice que la forma de un histograma es simétrica si las observaciones están equilibradas,
es decir, distribuidas de una manera uniforme a un lado y a otro del punto medio del histograma. Sesgo Una distribución está sesgada o es asimétrica si las observaciones no están distribuidas simétricamente en ninguno de los lados de la mitad. Una distribución sesgada positivamente tiene una cola que se extiende hacia la derecha, en la dirección de los valores positivos. Una distribución sesgada negativamente tiene una cola que se extiende hacia la izquierda, en la dirección de los valores negativos. Diagrama de tallo y hojas Un diagrama de tallo y hojas es un gráfico AED que es una alternativa al histograma. Los datos se agrupan de acuerdo con sus primeros dígitos (llamados tallo) y se hace un listado de los últimos dígitos (llamados hojas) de cada miembro de una clase. Las hojas se muestran individualmente en orden ascendente después de cada uno de los tallos. Diagrama de puntos dispersos Podemos trazar un diagrama de puntos dispersos localizando un punto por cada par de dos variables que representan una observación del conjunto de datos. El diagrama de puntos dispersos es una representación de los datos, que comprende lo siguiente: 1) El rango de cada variable. 2) La pauta de valores existente dentro del rango. 3) Una sugerencia sobre la posible relación entre las dos variables. 4) Una indicación de los casos atípicos (puntos extremos). Tablas cruzadas Una tabla cruzada, llamada a veces tabla de contingencia, enumera el número de observaciones correspondiente a cada combinación de valores de dos variables categóricas u ordinales. La combinación de todos los intervalos posibles de las dos variables define las casillas en una
tabla. Una tabla cruzada de r filas y c columnas se denomina tabla cruzada de dimensión r Errores en la presentación de datos Los gráficos mal realizados pueden distorsionar fácilmente la verdad. Hemos examinado varios gráficos que resumen y presentan datos. Si se emplean de una manera sensata y prudente, pueden ser excelentes instrumentos para extraer la información esencial de lo que, de lo contrario, sería una mera masa de números. Desgraciadamente, no siempre se intenta resumir los datos de una manera sensata o prudente. En esas circunstancias, es fácil que la manera en que se presenta el resumen induzca a error. Debemos extraer de los datos la imagen más clara y precisa posible. Los gráficos incorrectos pueden ofrecer una imagen distorsionada y dar una falsa impresión. Es posible transmitir un mensaje erróneo sin ser deliberadamente deshonesto. Histogramas engañosos Sabemos que la amplitud de todos los intervalos debe ser la misma. Supongamos que un conjunto de datos contiene muchas observaciones que se encuentran dentro de una parte relativamente reducida del rango, mientras que otras están muy dispersas. Podríamos tener la tentación de construir una distribución de frecuencias con intervalos reducidos en los que se encontrara la mayoría de las observaciones e intervalos más amplios en otra parte. Aunque recordemos que son las áreas, no las alturas, de los rectángulos del histograma las que deben ser proporcionales a las frecuencias, nunca es una opción deseable construir un histograma con diferentes anchos de columnas, ya que puede engañar o distorsionar los resultados. Incluimos este apartado simplemente para señalar los errores que podemos encontrarnos en los histogramas.
Medidas de la tendencia central Las medidas de la tendencia central suministran información numérica sobre una observación «típica» de los datos. Las medidas de la tendencia central normalmente se calculan a partirde datos muestrales más que a
partir de datos poblacionales. Una de las medidas de la tendencia central que nos viene rápidamente a la mente es la media. Media aritmética La media aritmética (o media simplemente) de un conjunto de datos es la suma de los valores de los datos dividida por el número de observaciones. Si el conjunto de datos es toda la población de datos, la media poblacional, k, es un parámetro que viene dado por donde N % tamaño de la población y G significa «la suma de». Si el conjunto de datos procede de una muestra, entonces la media muestral, x6, es un estadístico que viene dado pordonde n % tamaño de la muestra y G significa «la suma de». Mediana La mediana es la observación que ocupa el lugar central de un conjunto de observaciones ordenadas en sentido ascendente (o descendente). Si el tamaño de la muestra, n, es un número impar, la mediana es la observación que se encuentra en el medio. Si el tamaño de la muestra, n, es un número par, la mediana es la media de las dos observaciones que se encuentran en el medio. La mediana se encontrará en la 0,50(n ! 1) primera posición ordenada Moda La moda, si existe, es el valor que aparece con más frecuencia. Forma de la distribución En la Figura 2.10 del Capítulo 2 presentamos histogramas que eran simétricos, estaban sesgados positivamente y sesgados negativamente. La media y la mediana de una distribución simétrica son iguales, ya que las observaciones están equilibradas, o sea, están distribuidas uniformemente en torno al centro. La media de una distribución sesgada positiva-mente es mayor que su mediana. La media de una distribución sesgada negativamente es menor que su mediana. Medidas de la variabilidad
Rango es la diferencia entre la observación mayor y la menor Cuanto mayor es la dispersión de los datos con respecto al centro de la distribución, mayor es el rango. Como el rango sólo tiene en cuenta la observación mayor y la menor, puede estar muy distorsionado si hay una observación excepcionalmente extrema. Aunque el rango mide la dispersión total de los datos, puede ser una medida insatisfactoria de la variabilidad (dispersión) debido a que los casos atípicos, o bien muy altos o bien muy bajos, influyen en él. Una manera de evitar esta dificultad es ordenar los datos en sentido ascendente o descendente, descartar algunos de los números más altos y algunos de los más bajos y hallar el rango del resto. Rango intercuartílico El rango intercuartílico ( RIC ) mide la dispersión que hay en el 50 por ciento central de los datos; es la diferencia entre la observación de Q 3 , el tercer cuartil (o sea, el 75. o percentil) y la observación de Q 1 , el primer cuartil (o sea, el 2. o percentil). Por lo tanto, RIC % Q 3 . Q 1 (3.4) donde Q 3 se encuentra situado en la 0,75(n ! 1) primera posición cuando los datos están ordenados en sentido ascendente y Q 1 está situado en la 0,25(n ! 1) primera posición cuando los datos están ordenados en sentido ascendente. Resumen de cinco números El resumen de cinco números se refiere a las cinco medidas descriptivas: mínimo, primer cuartil, mediana, tercer cuartil y máximo. Es evidente que Mínimo a Q 1 a Mediana a Q 3 a Máximo Varianza y desviación típica Aunque el rango y el rango intercuartílico miden la dispersión de los datos, ambas medidas
sólo tienen en cuenta dos de los valores de los datos. Necesitamos una medida que considere cada uno de los valores de los datos. Esa medida promediaría la distancia total ( G ) entre cada observación y la media. Esta distancia sería negativa en el caso de los valores menores que la media (y la distancia no es negativa). Si se eleva al cuadrado cada una de estas diferencias, (x i . x6) 2 , cada observación (tanto por encima como por debajo de la media) contribuye a la suma de los términos al cuadrado. La media de la suma de los términos al cuadrado se llama varianza. Varianza Con respecto a la varianza, la varianza poblacional, p2 , es la suma de los cuadrados de las diferencias entre cada observación y la media poblacional dividida por el tamaño de la población, N:La varianza muestral, s 2 , es la suma de los cuadrados de las diferencias entre cada observación y la media muestral dividida por el tamaño de la muestra, n, menos 1. Desviación típica Con respecto a la desviación típica, la desviación típica poblacional, p, es la raíz cuadrada(positiva) de la varianza poblacional. Teorema de Chebychev Para cualquier población de media p, desviación típica p y k b 1, el porcentaje de observaciones que se encuentran dentro del intervalo [k ! kp] esal menos 100 donde k es el número de desviaciones típicas. La ventaja del teorema de Chebychev es que puede aplicarse a cualquier población. Sinembargo, en esa garantía se encuentra su principal inconveniente. En el caso de muchaspoblaciones, el porcentaje de valores que se encuentran dentro de un intervalo determinadoes mucho mayor que el mínimo asegurado por el teorema de Chebychev. En el mundo real,muchas grandes poblaciones proporcionan datos en forma de campana que son simétricos,al menos aproximadamente, y muchos de los puntos de datos están agrupados en torno a la media. Regla empírica (68 por ciento, 95 por ciento o casi todo) En el caso de muchas grandes poblaciones, la regla empírica da una estimación del porcentaje aproximado de observaciones que están contenidas en una, dos o tres desviaciones típicas de la media:
Alrededor del 68 por ciento de las observaciones se encuentra en el intervalo k u 1p. Alrededor del 95 por ciento de las observaciones se encuentra en el intervalo k u 2p. Casi todas las observaciones se encuentran en el intervalo k u 3p. Coeficiente de variación El coeficiente de variación,es una medida de la dispersión relativa que expresa la desviación típica en porcentaje de la media (siempre que la media sea positiva). Media ponderada y medidas de datos agrupados
Supongamos que los datos se agrupan en K clases y que las frecuencias son f 1 , f 2 , ..., f K . Si los puntos medios de estas clases son m 1 , m 2 , ..., m K , la media poblacional y la varianza poblacional de los datos agrupados se estiman de la siguiente manera:
Medidas de las relaciones entre variables La covarianza (Cov) es una medida de la relación lineal entre dos variables. Un valor positivo indica una relación lineal directa o creciente y un valor negativo indica una relación lineal decreciente. El coeficiente de correlación muestral nos da una medida estandarizada de la relación lineal entre dos variables. Generalmente es una medida más útil, ya que indica tanto el sentido como el grado de relación. La covarianza y el coeficiente de correlación correspon-
diente tienen el mismo signo (ambos son positivos o ambos son negativos). Coeficiente de correlación El coeficiente de correlación se calcula dividiendo la covarianza por el producto de las desviaciones típicas de las dos variables. El coeficiente de correlación va de . 1 a ! 1. Cuanto más cerca se encuentra r de ! 1, más cerca se encuentran los datos de puntos de una línea recta ascendente que indica una relación lineal positiva. Cuanto más cerca se encuentra r de . 1, más cerca se encuentran los datos de puntos de una línea recta descendente que indica una relación lineal negativa. Cuando r % 0, no existe ninguna relación lineal entre x e y, pero eso no quiere decir necesariamente que no exista ninguna relación. Obtención de relaciones lineales La ecuación lineal representada por la recta es la ecuación lineal que mejor se ajusta. Vemos que los puntos de datos individuales se encuentran por encima y por debajo de la recta y que ésta tiene puntos con desviaciones tanto positivas como negativas. La distancia de cada punto (x i , y i ) con respecto a la ecuación lineal es el residuo, e i . Nos gustaría elegir la ecuación de manera que alguna función de los residuos positivos y negativos fuera lo más pequeña posible. Eso significa estimar los coeficientes b0 y b1 . Regresión por mínimos cuadrados La recta de regresión por mínimos cuadrados basada en datos muestrales es b1es la pendiente de la recta, o sea la variación de y por cada variación unitaria de x, Media geométrica: La media geométrica se utiliza para hallar el crecimiento medio de varios periodos, dado elcrecimiento compuesto de cada periodo.
Sesgo: El sesgo es positivo si una distribución está sesgada hacia la derecha, ya que las discrepancias medias al cubo en torno a la media son positivas. El sesgo es negativo en el caso de las distribuciones sesgadas hacia la izquierda y 0 en el de las distribuciones, como la distribución normal, que son simétricas en torno a la media.
Experimento aleatorio Un experimento aleatorio es un proceso que tiene dos o más resultados posibles y existe incertidumbre sobre el resultado que se obtendrá. Espacio muestral Los resultados posibles de un experimento aleatorio se llaman resultados básicos y el conjunto de todos los resultados básicos se llama espacio muestral y se representa por medio del símbolo S. Suceso Un suceso, E, es cualquier subconjunto de resultados básicos del espacio muestral. Un suceso ocurre si el experimento aleatorio genera uno de los resultados básicos que lo constituyen. El suceso nulo representa la ausencia de un resultado básico y se representa por medio de Intersección de sucesos Sean A y B dos sucesos contenidos en el espacio muestral S. Su intersección, representada por A ç B, es el conjunto de todos los resultados básicos en S que pertenecen tanto a A como a B. Por lo tanto, la intersección A ç B ocurre si y sólo si ocurren tanto A como B. Utilizaremos la expresión probabilidad conjunta de A y B para representar la probabilidad de la intersección de A y B.En términos más generales, dados K sucesos E 1 , E 2 , ..., E K, su intersección,E 1 ç E 2 ç ñ ç E K es el conjunto de todos los resultados básicos que pertenecen a todos los E i(i % 1, 2, ..., K).. Mutuamente excluyentes Si los sucesos A y B no tienen ningún resultado básico común, se llaman mutuamente excluyentes y se dice que su intersección, A ç B, es el conjunto vacío que indica que A ç B no puede ocurrir.En términos más generales, se dice que los K sucesos E 1 , E 2 , ..., E K son mutuamente excluyentes si todo par (E i , E j ) es un par de sucesos mutuamente excluyentes. Cuando consideramos conjuntamente varios sucesos, otra posibilidad interesante es que ocurra al menos uno de ellos. Eso sucederá si el resultado básico del experimento aleatorio pertenece al menos a uno de los sucesos. El conjunto de resultados básicos pertenecientes
al menos a uno de los sucesos se llama unión. Unión Sean A y B dos sucesos contenidos en el espacio muestral, S. Su unión, representada por A é B, es el conjunto de todos los resultados básicos contenidos en S que pertenecen al menos a uno de estos dos sucesos. Por lo tanto, la unión A é B ocurre si y sólo si ocurre A o B o ambos.En términos más generales, dados K sucesos E 1 , E 2 , ..., E K , su unión, E 1 é E 2 ñ é E K , es el conjunto de todos los resultados básicos pertenecientes al menos a uno de estos K sucesos. Si la unión de varios sucesos cubre todo el espacio muestral, S, decimos que estos sucesos son colectivamente exhaustivos. Dado que todos los resultados básicos están en S, se deduce que todo resultado del experimento aleatorio estará al menos en uno de estos sucesos. Colectivamente exhaustivo Dados K sucesos E 1 , E 2 , ..., E K contenidos en el espacio muestral, S, si E 1 é E 2 , é ñ é E K % S, se dice que estos K sucesos son colectivamente exhaustivos. Complementario Sea A un suceso contenido en el espacio muestral, S. El conjunto de resultados básicos de un experimento aleatorio perteneciente a S pero no a A se llama complementario de A y se representa por medio de A1.
PROBABILIDADES La probabilidad se mide en una escala de 0 a 1. Una probabilidad de 0 indica que el suceso no ocurrirá y una probabilidad de 1 indica que el suceso es seguro que ocurra. Ninguno de estos dos extremos es habitual en los problemas aplicados. Probabilidad clásica La probabilidad clásica es la proporción de veces que ocurrirá un suceso, suponiendo que todos los resultados contenidos en un espacio muestral tienen la misma probabilidad de ocurrir.
La división del número de resultados contenidos en el espacio muestral que satisface el suceso. por el número total de resultados contenidos en el espacio muestral se obtiene la probabilidad de un suceso. La probabilidad de un suceso A es donde N A es el número de resultados que satisfacen la condición del suceso A y N es el número total de resultados contenidos en el espacio muestral. La idea importante aquí es que sepuede hallar una probabilidad a partir de un razonamiento fundamental sobre el proceso. Fórmula para hallar el número de combinaciones El proceso de recuento puede generalizarse utilizando la siguiente ecuación para calcular el número de combinaciones de n objetos que se toman k de cada vez: C nk %: n!/k!(n . k)!0! % 1 Frecuencia relativa La frecuencia relativa es el límite de la proporción de veces que ocurre el suceso A en ungran número de pruebas, n: P(A) %n A/n donde n A es el número de veces que se obtiene A y n es el número total de pruebas o resultados. La probabilidad es el límite a medida que n se hace más grande (o tiende a infinito). Probabilidad subjetiva La probabilidad subjetiva expresa el grado en que una persona cree que ocurrirá un suceso. Estas probabilidades subjetivas se utilizan en algunos procedimientos empresariales de toma de decisiones. Postulados probabilísticos Sea S el espacio muestral de un experimento aleatorio, O i los resultados básicos y A un suceso. Para cada suceso A del espacio muestral, S, suponemos que se define P(A) y tenemos los siguientes postulados probabilísticos: 1. Si A es cualquier suceso del espacio muestral, S, 0 m P(A) m 1 2. Sea A un suceso de S y sea O i los resultados básicos. Entonces,P(A) % ;AP(O i ) donde la notación implica que el sumatorio abarca todos los resultados básicos contenidos en A.
3. P(S) % 1. Consecuencias de los postulados 1. Si el espacio muestral, S, está formado por n resultados básicos igualmente probables, E 1 , E 2 , ..., E n , entoncesP(E i ) %1n i % 1, 2, ..., n ya que los n resultados cubren el espacio muestral y son igualmente probables. 2. Si el espacio muestral, S, está formado por n resultados básicos igualmente probables y el suceso A está formado por n A de estos resultados, entoncesP(A) %n An Este resultado se deduce de la consecuencia 1 y el postulado 2. Todo resultado básico tiene la probabilidad 1/n y, por el postulado 2, P(A) es simplemente la sumade las probabilidades de los n A resultados básicos de A 3. Sean A y B sucesos mutuamente excluyentes. En ese caso, la probabilidad de su unión es la suma de sus probabilidades individuales; es decir,P(A é B) % P(A) ! P(B) En general, si E 1 , E 2 , ..., E K son sucesos mutuamente excluyentes,P(E 1 é E 2 é ñ é E K ) % P(E 1 ) ! P(E 2 ) ! ñ ! P(E K ) Este resultado es una consecuencia del postulado 2. La probabilidad de la unión de A y B es P(A é B) % ;A é BP(O i )donde el sumatorio abarca todos los resultados básicos de A é B. Pero, dado que Ay B son mutuamente excluyentes, ningún resultado básico pertenece a ambos, porlo que;A é B P(O i ) % ;AP(O i ) ! ;BP(O i ) % P(A) ! P(B)4. Si E 1 , E 2 , ..., E K son sucesos colectivamente exhaustivos, la probabilidad de suunión esP(E 1 é E 2 é ñ é E K ) % 1 Dado que los sucesos son colectivamente exhaustivos, su unión es todo el espaciomuestral, S, y el resultado se deduce del postulado 3. Regla del complementario Sea A un suceso y A1 su complementario. La regla del complementario es P(A1) % 1 .-P(A)
La regla de la suma de probabilidades Sean A y B dos sucesos. Utilizando la regla de la suma de probabilidades, la probabilidad de su unión es P(A é B) % P(A) ! P(B) . P(A ç B) Probabilidad condicionada Sean A y B dos sucesos. La probabilidad condicionada del suceso A, dado que ha ocurrido el suceso B, se representa por medio del símbolo P(AB) . Consideremos un par de sucesos, A y B. Supongamos que nos interesa saber cuál es la probabilidad de A, dado que ha ocurrido B. Este problema puede analizarse por medio del concepto de probabilidad condicionada. La idea básica es que la probabilidad de que ocurra cualquier suceso a menudo depende de que hayan ocurrido o no otros sucesos. La regla del producto de probabilidades Sean A y B dos sucesos. Utilizando la regla del producto de probabilidades, la probabilidad de su intersección puede deducirse de la probabilidad condicionada de la forma siguiente: PA ç B) % P(AB)P(B) También, P(A ç B) % P(BA)P(A) Independencia estadística La independencia estadística es un caso especial en el que la probabilidad condicionada de A, dado B, es igual que la probabilidad incondicionada de A. Es decir, P(AB) % P(A). En general, este resultado no es cierto, pero cuando lo es, vemos que el hecho de saber que el suceso B no ha ocurrido no altera la probabilidad del suceso A. Sean A y B dos sucesos. Se dice que estos sucesos son estadísticamente independientes si y sólo si P(A ç B) % P(A)P(B) También se deduce de la regla del producto que P(AB) % P(A) (si P(B) b 0) P(BA) % P(B) (si P(A) b 0) En términos más generales, los sucesos E 1 , E 2 , ..., E K son independientes estadísticamente si y sólo si P(E 1 ç E 2 ç ñ ç E K ) % P(E 1 )P(E 2 ) ñ P(E K )
Probabilidades conjuntas y marginales En el contexto de las probabilidades bivariantes, las probabilidades de la intersección, P(Aiç Bj), se llaman probabilidades conjuntas. Las probabilidades de sucesos individuales, P(Ai) o P(Bj), se denominan probabilidades marginales. Las probabilidades marginales se encuentran en el margen de una tabla como la 4.5 y pueden calcularse sumando la fila o la columna correspondiente. . Las probabilidades marginales de los distintos sucesos suman 1 porque esos sucesos son mutuamente excluyentes y mutuamente exhaustivos. Sucesos independientes Sean A y B un par de sucesos, cada uno dividido en categorías de sucesos mutuamente excluyentes y colectivamente exhaustivos representados por A1, A2, ..., Ahy B1, B2, ..., BK. Sitodo suceso Aies estadísticamente independiente de todo suceso B j , entonces A y B son sucesos independientes. Ventaja La ventaja de un suceso es el cociente entre la probabilidad del suceso dividida por la probabilidad de su complementario. La ventaja a favor de A es Ventaja %P(A)//1 . P(A)%P(A)P(A1 Cocientes de «sobreparticipación» La probabilidad del suceso A 1 , condicionada al suceso B 1 , dividida por la probabilidad de A 1 ,condicionada al suceso B 2 , es el cociente de «sobreparticipación»:
Teorema de Bayes Se ha realizado una interesante interpretación del teorema de Bayes en el contexto de las probabilidades subjetivas. Supongamos que una persona está interesada en el suceso B y tiene una opinión subjetiva sobre la probabilidad de que ocurra; en este contexto, la probabilidad P(B) se llama probabilidad a priori. Si obtiene entonces más información —a saber, que ha ocurrido el suceso A—, eso puede cambiar su opinión personal sobre laprobabilidad de que ocurra B. Como se sabe que A ha ocurrido, la probabilidad relevante de B ahora es la probabilidad condicionada de B, dado A, y se denomina probabilidad a posteriori. Podemos considerar que el teorema de Bayes, visto de esta forma, es un mecanismo para actualizar una probabilidad a priori y convertirla en una probabilidad a posteriori cuando se dispone de la información de que ha ocurrido A. El teorema establece que la actualización se logra multiplicando la probabilidad a priori por P(AB)/P(A). La ventaja de esta reformulación del teorema se halla en que las probabilidades que implica a menudo son precisamente las probabilidades de las que se dispone directamente. Este proceso para hallar la probabilidad condicionada y resolver problemas de Bayes puede resumirse de la forma siguiente. Pasos para calcular la probabilidad por medio del teorema de Bayes
1. Se definen los sucesos de los subconjuntos, dado el problema. 2. Se definen las probabilidades de los sucesos definidos en el paso 1. 3. Se calculan los complementarios de las probabilidades. 4. Se aplica el teorema de Bayes para calcular la probabilidad que es la solución del problema Número de ordenaciones El número total de formas posibles de ordenar x objetos viene dado por x(x . 1)(x . 2) ñ (2)(1) % x! donde x! es «x factorial». Permutaciones El número total de permutaciones de x objetos elegidos de n, P nx , es el número de ordenaciones posibles cuando se seleccionan x objetos de un total de n y se ordenan.
Número de combinaciones El número de combinaciones, C nx , de x objetos elegidos de n es el número de selecciones posibles que pueden realizarse. Variable aleatoria Una variable aleatoria es una variable que toma valores numéricos determinados por el resultado de un experimento aleatorio. Variable aleatoria discreta Una variable aleatoria es una variable aleatoria discreta si no puede tomar más que una cantidad numerable de valores.
Variable aleatoria continua Una variable aleatoria es una variable aleatoria continua si puede tomar cualquier valor de un intervalo. Distribuciones de probabilidad de variables aleatorias discretas La función de probabilidad de una variable aleatoria es una representación de las probabilidades de todos los resultados posibles. Esta representación podría ser algebraica, gráfica o tabular. En el caso de las variables aleatorias discretas, un sencillo método es enumerar las probabilidades de todos los resultados posibles de acuerdo con los valores de x. Función de distribución de probabilidad La función de distribución de probabilidad, P(x), de una variable aleatoria discreta X expresa la probabilidad de que X tome el valor x, como una función de x. Propiedades que deben satisfacer las funciones de probabilidad de variables aleatorias discretas Sea X una variable aleatoria discreta que tiene una función de probabilidad P(x ). En ese caso,1. 0 m P(x) m 1 para cualquier valor x y 2. Las probabilidades individuales suman 1, es decir,x P(x) % 1donde la notación indica que el sumatorio abarca todos los valores posibles de x. Función de probabilidad acumulada La función de probabilidad acumulada, F (x0), de una variable aleatoria X, expresa la probabilidad de que X no tenga un valor superior a x0, como una función de x0 . Es decir,F(x 0 ) % P(X m x 0 ) donde la función se evalúa en todos los valores de x 0 . Relación entre la función de probabilidad y la funciónde probabilidad acumulada Sea X una variable aleatoria que tiene la función de probabilidad P(x) y la función de probabilidad acumulada F(x 0 ). Podemos demostrar que F(x 0 ) % ;x m x0P(x) donde la notación implica que el sumatorio abarca todos los valores posibles de x que son menores o iguales que x 0 . Propiedades de las funciones de probabilidad acumulada de variables aleatorias discretas Sea X una variable aleatoria discreta que tiene una función de probabilidad acumulada F(x 0 ).
Podemos demostrar que 1. 0 m F (x 0 ) m 1 para todo número x 0 ; y 2. Si x 0 y x 1 son dos números tales que x 0 a x 1 , entonces F(x 0 ) m F(x 1 ). Propiedades de las variables aleatorias discretas El valor esperado es la medida correspondiente del punto central de una variable aleatoria. El valor esperado puede expresarse por medio de frecuencias relativas a largo plazo. . La media de los valores que toma la variable aleatoria en las Npruebas es la suma de los xN x /N correspondientes a todos los valores posibles de x Varianza de una variable aleatoria discreta La varianza muestral es el promedio de los cuadrados de las diferencias entre las observaciones y la media. La varianza de una variable aleatoria es el promedio ponderado de los cuadrados de sus diferencias posibles con respecto a la media, (x . k); la ponderación correspondiente a(x . k) 2 es la probabilidad de que la variable aleatoria tome el valor x. Sea X una variable aleatoria discreta. La esperanza de los cuadrados de las diferencias con respecto a la media, (X . k) 2 , se llama varianza, se representa por medio del símbolo p2 y viene dada por
La varianza de una variable aleatoria discreta X también puede
expresarse de la forma siguiente: positiva de la varianza.
La desviación típica, pX , es la raíz cuadrada
Media y varianza de funciones lineales de una variable aleatoria Valor esperado de las funciones de variables aleatorias Sea X una variable aleatoria cuya función de probabilidad es P(x) y sea g(X) una función de X. El valor esperado, E[g(X)], de esa función se define de la forma siguiente: E[g(X)]Sumatoria;xg(x)P(x) Resumen de las propiedades de las funciones lineales de una variable aleatoria Sea X una variable aleatoria de media kx y varianza px2 y sean a y b unos números fijos constantes cualesquiera. Definamos la variable aleatoria Y como a ! bX. Entonces, la media y lavarianza de
Y son
,
por lo que la
desviación típica de Y es Resultados sintéticos de la media y la varianza de funciones lineales especiales a) Sea b % 0 en la función lineal W % a ! bX. Entonces, W % a (para cualquier constante a). E(a) % a y Var (a) % 0 Si una variable aleatoria siempre toma el valor a, tendrá una media a y una varianza 0. Si una variable aleatoria siempre toma el valor a, tendrá una media a y una varianza 0. b) Sea a % 0 en la función lineal W % a ! bX. Entonces, W % bX.
Distribución binomial la distribución de probabilidad binomial que se utiliza mucho en numerosos problemas aplicados empresariales y económicos. Sea P la probabilidad de éxito, por lo que la probabilidad de fracaso es (1 . P). Definamos ahora la variable aleatoria X de manera que tome el valor 1 si el resultado del experimento es un éxito y 0 en caso contrario. La función de probabilidad de esta
variable aleatoria es, entonces, P(0) = (1 - P) y P(1) = P
Una importante generalización de la distribución de Bernoulli es el caso en el que serealiza varias veces un experimento aleatorio con dos resultados posibles y las repeticionesson independientes. En este caso, podemos hallar las probabilidades utilizando la distribución binomial. Dado que las n pruebas son independientes entre sí, la probabilidad de cualquier secuencia de resultados es, por la regla del producto de probabilidades igual al producto de las probabilidades de los resultados individuales. Por lo tanto, la probabilidad de observar la secuencia específica de resultados que acabamos de describir es [P x P x … x P] (x veces) x [(1 -P) x (1 - P) x ñ x(1 - P)] % P x (1 . P) (n . x) (n . x veces) Número de secuencias con xéxitos en n pruebas
El número de secuencias con x éxitos en n pruebas independientes es (n . 1) x (n . 2) x..x1 y 0! % 1.
donde n! % n #
El suceso «se obtienen x éxitos en n pruebas» puede ocurrir de C nx maneras mutua-mente excluyentes, cada una con una probabilidad P x (1 . P) n . x . Por lo tanto, por la regla de la suma de probabilidades la probabilidad que buscamos es la suma de estas C nx probabilidades individuales. El suceso «se obtienen x éxitos en n pruebas» puede ocurrir de C nx maneras mutuamente excluyentes, cada una con una probabilidad P x (1 . P) n . x . Por lo tanto, por la regla de la suma de probabilidades , la probabilidad que buscamos es la suma de estas C n x probabilidades individuales. La distribución binomial
Supongamos que un experimento aleatorio puede tener dos resultados posibles mutuamente excluyentes y colectivamente exhaustivos, «éxito» y «fracaso», y que P es la probabilidad de éxito en una única prueba. Si se realizan n pruebas independientes, la distribución del número de éxitos resultantes, x, se llama distribución binomial. Su función de probabilidad de la variable aleatoria binomial X % x es
Media y varianza de una distribución binomial Sea X el número de éxitos en n repeticiones independientes, cada una con una probabilidad de éxito P. Entonces, X sigue una distribución binomial de media
y varianza
1. En la aplicación se realizan varias pruebas, cada una de las cuales sólo tiene dos resultados: sí o no, encendido o apagado, éxito o fracaso. 2. La probabilidad del resultado es la misma en cada prueba. 3. La probabilidad del resultado de una prueba no afecta a la probabilidad del resultado de otras pruebas. Distribución hipergeométrica Podemos utilizar la distribución binomial en las situaciones que se denominan «muestreo con reposición». Si se repone el objeto seleccionado en la población, la probabilidad de seleccionar ese tipo de objeto sigue siendo la misma y se satisfacen los supuestos binomiales. En cambio, si no se reponen los objetos —«muestreo sin reposición»— las probabilidades varían con cada selección y, por lo tanto, el modelo de probabilidad que debe utilizarse es la distribución hipergeométrica. Si la población es grande (N b 10.000) y el tamaño de la muestra es pequeño ( a 1%), la variación de la probabilidad después de cada selección es muy pequeña. En esas situaciones, la distribución binomial es una aproximación muy buena y es la que se utiliza normalmente. Supongamos que se elige una muestra aleatoria de n objetos de un grupo de N objetos, de los cuales S son éxitos. La distribución del número de éxitos, X, en la muestra se llama distribución hipergeométrica. Su función de probabilidad es
1. El número de formas en que pueden seleccionarse x éxitos en la muestra de un total de S éxitos
contenidos en la población: 2. El número de formas en que pueden seleccionarse n . x fracasos en la población que contiene N . S
fracasos: 3.Y, por último, el número total de muestras de tamaño n que pueden obtenerse en una población de
tamaño N: Cuando se combinan estos componentes utilizando la definición clásica de probabilidad, se obtiene la distribución de probabilidad hipergeométrica. La distribución de Poisson Podemos utilizar la distribución de Poisson para hallar la probabilidad de cada una de estas variables aleatorias, que se caracterizan por ser el número de ocurrencias o de éxitos de un suceso en un intervalo continuo dado (como el tiempo, la superficie o la longitud). La distribución de Poisson se basa en ciertos supuestos. 1. La probabilidad de que ocurra un suceso es constante en todos los subintervalos. 2. No puede haber más de una ocurrencia en cada subintervalo. 3. Las ocurrencias son independientes; es decir, las ocurrencias en intervalos que no se solapan son independientes entre sí.
Funcion de probabilidad:
,La media y la varianza
La suma de las variables aleatorias de Poisson también es una variable aleatoria de Poisson. Por lo tanto, la suma de K variables aleatorias de Poisson, cada una de media j,es una variable aleatoria de Poisson de media Kj.
Aproximación de Poisson de la distribución binomial Antes hemos señalado que la distribución de probabilidades de Poisson se obtiene partiendo de la distribución binominal, donde P tiende a 0 y n tiende a infinito. Por lo tanto, la distribución de Poisson puede utilizarse como aproximación de las probabilidades binomiales cuando el número de pruebas, n, es grande y al mismo tiempo la probabilidad, P, es pequeña (generalmente tal que Landa=nP > 7)
Comparación de la distribución de Poisson y la distribución binomial podemos utilizar la distribución de Poisson como aproximación de la distribución binomial. También puede demostrarse que cuando n n 20 y P m 0,05 y la media poblacional es la misma, se observa que los valores de la probabilidad son los mismos con la distribución binomial que con la distribución de Poisson. Distribución conjunta de variables aleatorias discretas Función de probabilidad conjunta Sean X e Y un par de variables aleatorias discretas. Su función de probabilidad conjunta expresa la probabilidad de que simultáneamente X tome el valor específico x e Y tome el valor y como función de x e y. Señalamos que este análisis es una extensión directa del apartado 4.4, en el que presentamos la probabilidad de la intersección de dos sucesos, P(Aiç Bj). Aquí utilizamos variables aleatorias. La notación empleada es P(x, y), de donde P(x, y) % P(X = x ç Y = y) Obtención de la función de probabilidad marginal Sean X e Y un par de variables aleatorias distribuidas conjuntamente. En este contexto, la función de probabilidad de la variable aleatoria X se llama función de probabilidad marginal y se obtiene sumando las
probabilidades conjuntas correspondientes a todos los valores posibles; es decir, Propiedades de las funciones de probabilidad conjunta de variables aleatorias discretas Sean X e Y variables aleatorias discretas que tienen una función de probabilidad conjunta P(x, y). 1. 0 a P(x, y) a 1 para cualquier par de valores x e y. 2. La suma de las probabilidades conjuntas P(x, y) correspondientes a todos los pares posibles de valores debe ser 1. Función de probabilidad condicionada Sean X e Y un par de variables aleatorias discretas distribuidas conjuntamente. La función de
probabilidad condicionada de la variable aleatoria Y, dado que la variable aleatoria X toma el valor x, expresa la probabilidad de que Y tome el valor y en función de y cuando se especifica el valor x de X. Esta función se representa por medio de P(y x) y, por lo tanto, por la definición
de probabilidad condicionada. Independencia de las variables aleatorias distribuidas conjuntamente Se dice que las variables aleatorias distribuidas conjuntamente X e Y son independientes si y sólo si su función de probabilidad conjunta es el producto de sus funciones de probabilidad marginal; es decir, si y sólo si P(x, y) = P(x)P(y) para todos los pares posibles de valores x e y. Y k variables aleatorias son independientes si y sólo si P(X 1 , X 2 , ..., X k ) % P(X 1 )P(X 2 ) … P(X k ) Covarianza La covarianza es una medida de la variabilidad conjunta de dos variables aleatorias. Sea X una variable aleatoria de media kXe Y una variable aleatoria de media kY. El valor esperado de (X . kX) (Y . kY) se llama covarianza entre X e Y y se representa por medio de Cov (X, Y). En el caso de las variables aleatorias discretas,
Una
expresión equivalente es Correlación Aunque la covarianza indica el sentido de la relación entre variables aleatorias, no tiene un límite superior o inferior y su magnitud depende extraordiariamente de las unidades en las que se mide. Existe una estrecha relación lineal cuando los puntos de observación están cerca de una línea recta. Es difícil utilizar la covarianza para medir el grado de relación lineal, ya que no tiene límites. Una medida relacionada con ésta, el coeficiente de correlación, es una medida del grado de relación lineal entre dos variables cuyo valor sólo puede estar entre . 1 y 1.
La correlación es la covarianza dividida por las desviaciones típicas de las dos variables aleatorias. El resultado es una medida estandarizada de la relación que puede ir de . 1 a ! 1. Son importantes las siguientes interpretaciones: 1. Una correlación de 0 indica que no existe ninguna relación lineal entre las dos variables aleatorias. Si las dos variables aleatorias son independientes, la correlación es igual a 0. 2. Una correlación positiva indica que, si una de las variables aleatorias es alta (baja), la otra tiene una probabilidad mayor de ser alta (baja) y decimos que las variables son dependientes positivamente. La dependencia lineal positiva perfecta se indica por medio de una correlación de ! 1,0. 3. Una correlación negativa indica que, si una de las variables aleatorias es alta (baja), la otra tiene una probabilidad mayor de ser baja (alta) y decimos que las variables son dependientes negativamente. La dependencia lineal negativa perfecta se indica por medio de una correlación de . 1,0. La correlación es más útil que la covarianza para describir relaciones. Con una correlación de ! 1, las dos variables aleatorias tienen una relación lineal positiva perfecta, y, por lo tanto, un valor específico de una variable, X, predice la otra, Y, exactamente. Una correlación de . 1 indica la existencia de una relación lineal negativa perfecta entre dos variables; una de las variables, X, predice la negativa de la otra, Y. Una correlación de 0 indicaque no existe ninguna relación lineal entre las dos variables. Los valores intermedios indican que las variables tienden a estar relacionadas; las relaciones son más estrechas cuando el valor absoluto de la correlación tiende a 1. Covarianza e independencia estadística
Si dos variables aleatorias son estadísticamente independientes, la covarianza entre ellas es 0. Sin embargo, lo contrario no es necesariamente cierto. Funciones lineales de variables aleatorias Sean X e Y un par de variables aleatorias discretas que tienen la función de probabilidad conjunta P(x, y). La esperanza de cualquier función g(X, Y) de estas variables aleatorias se define
de la forma siguiente: Resumen de los resultados relativos a las sumas y las diferencias de variables aleatorias Sean X e Y un par de variables aleatorias que tienen las medias kXy kYy las varianzas p2Xyp2Y . Se cumplen las siguientes propiedades:
1. El valor esperado de su suma es la suma de sus valores esperados: 2. El valor esperado de su diferencia es la diferencia entre sus valores esperados:
3. Si la covarianza entre X e Y es 0, la varianza de su suma es la suma de sus varianzas: pero si la covarianza no es 0, entonces
4. Si la covarianza entre X e Y es 0, la varianza de su diferencia es la suma de sus varianzas:
pero si la covarianza no es 0, entonces 5. El valor esperado de su suma es 6. Si la covarianza entre cada par de estas variables aleatorias es 0, la varianza de su suma es
Verificación de una fórmula alternativa de la varianza de una variable aleatoria discreta
Comenzamos con la definición original de varianza:
Pero hemos visto que
Por lo tanto,
y,
por último, Verificación de la media y la varianza de una función lineal de una variable aleatoria De la definición de esperanza se deduce que si Y toma los valores a ! bx con las probabilidades P X (x), su media
es
Entonces, dado que el primer sumatorio del segundo miembro
de esta ecuación es 1 y que el segundo es la media de X, tenemos que
Además, la
varianza de Y es, por definición, Sustituyendo kY por a ! bkX , tenemos que
Dado que el sumatorio del segundo miembro de esta ecuación es, por definición, la varianza de X, es fácil deducir el resultado de la ecuación
Verificación de la media y la varianza de la distribución binomial Para hallar la media y la varianza de la distribución binomial, es útil volver a la distribución de Bernoulli. Consideremos n pruebas independientes, cada una de las cuales tiene una probabilidad de éxito P, y sea X i= 1 si la i-ésima prueba tiene éxito y 0 en caso contrario. Las variables aleatorias X 1 , X 2 , ..., X n son, por lo tanto, n variables de Bernoulli independientes, cada una de las cuales
tiene una probabilidad de éxito P. Además, el número total de éxitos X es Por lo tanto, la variable aleatoria binomial es la suma de variables aleatorias de Bernoulli independientes. La media y la varianza de variables aleatorias de Bernoulli pueden utilizarse para hallar la media y la varianza de la distribución binomial. Entonces, en el caso de la distribución binomial, Dado que las variables aleatorias de Bernoulli son independientes, la covarianza entre cualquier par de ellas es cero y
Variables aleatorias continuas La función de distribución acumulada, F(x), de una variable aleatoria continua X expresa la probabilidad de que X no sea mayor que el valor de x, en función de x F(x) % P(X < x) Probabilidad de un intervalo utilizando una función de distribución acumulada Sea X una variable aleatoria continua que tiene una función de distribución acumulada F(x) y sean a y b dos valores posibles de X, siendo a a b. La probabilidad de que X se encuentre entre a yb es P(a < X
can todos los valores de la variable aleatoria, X, es igual a 1,0. 3. Supongamos que se representa gráficamente esta función de densidad. Sean a y b dos valores posibles de la variable aleatoria X, siendo a a b. En ese caso, la probabilidad de que X se encuentre entre a y b es el área situada debajo de la función de densidad entre estos puntos. 4. La función de distribución acumulada, F(x0), es el área situada debajo de la función de
densidad de probabilidad, aleatoria X.
donde xm es el valor mínimo de la variable
Áreas situadas debajo de funciones de probabilidad continua Sea X una variable aleatoria continua que tiene una función de densidad de probabilidad f (x) y una función de distribución acumulada F(x). Se cumplen las siguientes propiedades: 1. El área total situada debajo de la curva f (x) es 1. 2. El área situada debajo de la curva f (x) a la izquierda de x0 es F(x0), donde x 0 es cualquier valor que pueda tomar la variable aleatoria. La distribución uniforme Cualquier variable aleatoria uniforme definida en el rango entre a y b tiene la siguiente función de densidad
de probabilidad: Esta función de densidad de probabilidad puede utilizarse para hallar la probabilidad de que la variable aleatoria se encuentre dentro de un intervalo específico. Esperanzas de variables aleatorias continuas Supongamos que en un experimento aleatorio se obtiene un resultado que puede representarse por medio de una variable aleatoria continua. Si se realizan N réplicas independientes de este experimento, el valor esperado de la variable aleatoria es la media de los valores obteni-
dos, cuando el número de réplicas tiende a infinito. El valor esperado de una variable aleatoria se representa de la siguiente manera: E(X). Asimismo, si g(X) es cualquier función de la variable aleatoria X, el valor esperado de esta función es el valor medio obtenido en pruebas independientes repetidas, cuando el número de pruebas tiende a infinito. Esta esperanza se representa de la siguiente manera: E [g(X)]. Utilizando el cálculo podemos definir los valores esperados de variables aleatorias continuas similares a los utilizados en el caso de las variables aleatorias discretas:
Media, varianza y desviación típica de variables aleatorias continuas
1. La media de X , representada por o X, es el valor esperado de X La varianza de X , representada por p2X, es la esperanza del cuadrado de la diferencia entre la variable
aleatoria y su media (X . kX) 2 :
otra expresión es
La desviación típica deX, pX, es la raíz cuadrada de la varianza Para una distribución uniforme definida en el rango a a b, tenemos los siguientes resultados:
Funciones lineales de variables aleatorias Sea X una variable aleatoria continua de media kX y de varianza p2X y sean a y b unas constantes cualesquiera. Definiendo la variable aleatoria WW = a + bX. la media y la varianza de W son
y la desviación típica de W es
caso especial de estos resultados es la variable aleatoria estandarizada varianza 1.
n importante
de media 0 y
La distribución normal
Son muchas las razones por las que se utiliza frecuentemente. 1. La distribución normal es una aproximación muy buena de las distribuciones de probabilidad de una amplia variedad de variables aleatorias. Por ejemplo, las dimensiones de las piezas y el peso de los paquetes de alimentos a menudo siguen una distribución normal, por lo que tiene muchas aplicaciones en el control de calidad. Las ventas o la producción a menudo siguen una distribución normal, por lo que ésta tiene una gran cantidad de aplicaciones en el marketing y en la gestión de la producción. Las pautas de los precios de las acciones y de los bonos a menudo se analizan utilizando la distribución normal en grandes modelos informáticos de contratación financiera. Los modelos económicos utilizan la distribución normal para algunas medidas económicas. 2. Las distribuciones de las medias muestrales siguen una distribución normal, si el tamaño de la muestra es «grande». 3. El cálculo de probabilidades es directo e ingenioso. 4. La razón más importante es que la distribución de probabilidad normal ha llevado a tomar buenas decisiones empresariales en algunas aplicaciones. Son muchas las razones por las que se utiliza frecuentemente. 1. La distribución normal es una aproximación muy buena de las distribuciones de
probabilidad de una amplia variedad de variables aleatorias. Por ejemplo, las dimensiones de las piezas y el peso de los paquetes de alimentos a menudo siguen una distribución normal, por lo que tiene muchas aplicaciones en el control de calidad. Las ventas o la producción a menudo siguen una distribución normal, por lo que ésta tiene una gran cantidad de aplicaciones en el marketing y en la gestión de la producción. Las pautas de los precios de las acciones y de los bonos a menudo se analizan utilizando la distribución normal en grandes modelos informáticos de contratación financiera. Los modelos económicos utilizan la distribución normal para algunas medidas económicas. 2. Las distribuciones de las medias muestrales siguen una distribución normal, si el tamaño de la muestra es «grande». 3. El cálculo de probabilidades es directo e ingenioso. 4. La razón más importante es que la distribución de probabilidad normal ha llevado a tomar buenas decisiones empresariales en algunas aplicaciones. Función de densidad de probabilidad de la distribución normal La función de densidad de probabilidad de una variable aleatoria X que sigue una distribución normal X
es
donde k y p
2 son números tales que .ä a k a ä y 0 a p 2a ä y donde e y n son constantes físicas, e % 2,71828... y n % 3,14159... Propiedades de la distribución normal Supongamos que la variable aleatoria X sigue una distribución normal cuyos parámetros son p2 . En ese caso, se cumplen las siguientes propiedades: 1. La media de la variable aleatoria es k: E(X) = u 2. La varianza de la variable aleatoria es o2
3. La forma de la función de densidad de probabilidad es una curva simétrica en forma de campana centrada en la media, k. 4. Si conocemos la media y la varianza, podemos definir la distribución normal utilizando
la notación La distribución normal tiene algunas características importantes para nuestros análisis estadísticos aplicados. Es simétrica. Las diferentes tendencias centrales son indicadas por las diferencias entre las k. En cambio, las diferencias entre las p 2 dan como resultado funciones de densidad de diferentes amplitudes. Seleccionando distintos valores de k y p2 , podemos definir una gran familia de funciones de densidad normales. Si cambia la media, se desplaza toda la distribución. Pero cambiando la varianza se obtienen distribuciones de diferentes amplitudes. La media de la distribución es una medida de la tendencia central y la varianza es una medida de la dispersión en torno a la media. Por lo tanto, los parámetros k y p 2 producen diferentes efectos en la función de densidad de una variable aleatoria normal. La Figura 6.9(a) muestra funciones de densidad de dos distribuciones normales que tienen una varianza común y diferentes medias. Vemos que los aumentos de la media desplazan la distribución sin alterar su forma. En la Figura 6.9(b), las dos funciones de densidad tienen la misma media, pero diferentes varianzas. Las dos son simétricas en torno a la media común, pero la que tiene la mayor varianza es más dispersa. la función de distribución acumulada es F(x 0 ) = P(X < x 0 ) sta es el área situada debajo de la función de densidad normal a la izquierda de x0 , como semuestra en la Figura 6.10. Al igual que ocurre en cualquier función de densidad, el área total situada debajo de la curva es 1; es decir, F( ä ) = 1 Probabilidades de intervalos de variables aleatorias normales
Sea X una variable aleatoria normal que tiene una función de distribución acumulada F(x) y sean a y b dos valores posibles de X, siendo a a b. Entonces, P(a < X < b) = F(b) - F(a) La distribución normal estándar Sea Z una variable aleatoria normal de media 0 y varianza 1; es decir,Z V N(0, 1) Decimos que Z sigue la distribución normal estándar. Si la función de distribución acumulada es F(z) y a y b son dos números tales que a < b,entonces, P(a < Z < b) %=F(b) - F(a). Podemos hallar las probabilidades de cualquier variable aleatoria distribuida normalmente convirtiendo primero la variable aleatoria en la variable aleatoria normal estándar,Z. Siempre existe una relación directa entre cualquier variable aleatoria distribuida normalmente y Z. Esa
relación utiliza la transformación.
, donde X es una variable aleatoria distribuida
normalmente Para hallar la probabilidad acumulada de un valor negativo de Z (por ejemplo,
Z = 1,0), que se define de la forma siguiente,
La Figura 6.15 indica la simetría de los valores positivos correspondientes de Z. En la Figura 6.16 podemos ver que el área situada debajo de la curva a la izquierda de Z % . 1 es igual al área situada a la derecha de Z % ! 1 debido a la simetría de la distribución normal. El área situada muy por debajo de . Z a menudo se llama «cola inferior» y el área situada muy por encima de ! Z se llama «cola superior». También podemos utilizar tablas normales que indican las probabilidades de los valores de Z de la mitad superior o positivos a partir de la distribución normal. Recuérdese que en el Capítulo 2 presentamos la regla empírica que establece como una guía aproximada que k u p abarca alrededor del 68 por ciento del rango, mientras que k u 2p abarca alrededor del 95 por ciento del rango. A todos los efectos prácticos, casi
ningún valor del rango se encuentra a más de 3p de k. Este útil instrumento de aproximación para las interpretaciones realizadas a partir de los estadísticos descriptivos se basa en la distribución normal. Recuérdese que en el Capítulo 2 presentamos la regla empírica que establece como una guía aproximada que k u p abarca alrededor del 68 por ciento del rango, mientras que k u 2p abarca alrededor del 95 por ciento del rango. A todos los efectos prácticos, casi ningún valor del rango se encuentra a más de 3p de k. Este útil instrumento de aproximación para las interpretaciones realizadas a partir de los estadísticos descriptivos se basa en la distribución normal. Cómo se hallan las probabilidades de variables aleatorias distribuidas normalmente Sea X una variable aleatoria distribuida normalmente de media k y varianza p2 . La variable aleatoria Z % (X . k)/p tiene una distribución normal estándar: Z V N(0, 1). Se deduce que si a y b son dos números tales que a a b, entonces
donde Z es la variable aleatoria normal estándar y F representa su función de distribución acumulada La distribución normal como aproximación de la distribución binomial Esta aproximación puede utilizarse para calcular las probabilidades de muestras de mayor tamaño cuando no es fácil disponer de tablas. La distribución normal como aproximación de la distribución binomial también es útil para resolver problemas aplicados. Vemos que los métodos basados en la distribución normal también pueden utilizarse en problemas en los que hay variables aleatorias binomiales y proporcionales.
Utilizando la media y la varianza de la distribución binomial, observamos que si el número
de pruebas n es grande —tal que nP(1 . P) b 9— la distribución de la variable aleatoriaes
aproximadamente normal estándar. Este resultado es muy importante, porque nos permite hallar, cuando n es grande, la probabilidad de que el número de éxitos se encuentre dentro de un intervalo dado. Si queremos hallar la probabilidad de que el número de éxitos se encuentre entre a y b, inclusive, tenemos que
Cuando n es grande, la normal estándar es una buena aproximación de Z y podemos hallar la probabilidad utilizando los métodos del apartado. Variable aleatoria proporcional Podemos calcularlas utilizando una extensión directa de la aproximación de la distribución binomial por medio de la distribución normal. Una variable aleatoria proporcional, P, puede calcularse dividiendo el
número de éxitos, X, por el tamaño de la muestra, n Utilizando la transformación lineal de variables aleatorias, podemos calcular la media y la varianza de P de la forma siguiente:
La distribución exponencial La variable aleatoria exponencial T(t > 0) tiene una función de densidad donde j es el número medio de ocurrencias por unidad de
tiempo, t es el número de unida€€€des de tiempo hasta la siguiente ocurrencia y e % 2,71828... Se dice que T sigue una distribución de probabilidad exponencial. Puede demostrarse que j es el mismo parámetro utilizado para la distribución de Poisson en el apartado 5.6 y que el tiempo medio entre las ocurrencias es 1/j.
La función de distribución acumulada es tiene una media de 1/landa y una varianza de 1/landa
La distribución 2
Distribución conjunta de variables aleatorias continuas Función de distribución acumulada conjunta Sean X1, X2 ..., Xk variables aleatorias continuas. 1. Su función de distribución acumulada conjunta, F(x1, x2, ..., xk) define la probabilidad de que simultáneamente X1.sea menor que x1, X2. sea menor que x 2, y así sucesivamente; es decir,F(x 1 , x 2 , ..., x k ) = P(X 1 < x 1 ç X 2 a x 2 ç … ç X k < x k ) 2. Las funciones de distribución acumulada —F(x1), F( x2), ..., F(k)— de las variables aleatorias individuales se llaman funciones de distribución marginal. Para cualquier i, F(xi) es la probabilidad de que la variable aleatoria xi no sea mayor que el valor específico xi 3. Las variables aleatorias son independientes si y sólo si F(x 1 , x 2 , ..., x k ) =F(x 1 )F(x 2 ) … F(x k ) El concepto de independencia es en este caso exactamente igual que en el caso discreto. La independencia de un conjunto de variables aleatorias implica que en la distribución de probabilidad de cualquiera de ellas no influyen los valores que tomen las demás. Covarianza Sean X e Y un par de variables aleatorias continuas que tienen las medias ux y ukY, respectivamente. El valor esperado de (X -uX)(Y -uY) se denomina covarianza (Cov) entre X e Y. Es decir, Otra expresión alternativa, pero equivalente, es Si las variables aleatorias X e Y son independientes, la covarianza entre ellas es 0. Sin embargo, lo contrario no es necesariamente cierto.