Medidas de resumen para variables cualitativas Ya se ha estudiado que en el análisis de variables cualitativas o categóricas se quiere conocer el número de casos en cada una de las categorías, reflejando habitualmente el porcentaje que representan del total, y expresándolo en una tabla de distribución de frecuencias. Para variables cuantitativas o numéricas, en las que puede haber un gran número de valores observados distintos, se ha de optar por un método de análisis distinto, respondiendo a las siguientes preguntas: a. ¿Alrededor de qué valor se agrupan los datos? (medidas de tendencia central) b. Si se agrupan alrededor de un número, ¿cómo lo hacen? ¿concentrados? ¿dispersos? (medidas de dispersión)
Medidas de tendencia central Las medidas de tendencia central o de centralización vienen a responder a la primera pregunta. Entre las medidas más frecuentemente utilizadas para resumir la información están la moda, la mediana y la media.
La media La medida más evidente que podemos calcular para describir un conjunto de observaciones numéricas es su valor promedio o media. La media no es más que la suma de todos los valores de una variable dividida entre el número total de datos de los que se dispone. Se denota por X . O sea, si se dispone de n valores x1, x2, ..., xn, su media será: n
x + x 2 + ... + x n X= 1 = n
∑x i =1
i
n
Si los datos están agrupados en una tabla de distribución de frecuencias entonces: X = x1f1 + x 2f 2 + ... + x k f k =
x1n1 + x 2 n 2 + ... + x k n k n
k
k
∑x n
i =1
n
X = ∑ x if i =
i
i =1
i
donde: xi es la marca de la clase i; ni es la f.a. de la clase i; fi es la f.r. de la clase i. n = n1+...+nk
• •
La media utiliza en su cálculo a todos los valores, por lo que puede verse influenciada por valores extremos de la variable. No puede ser calculada en una tabla de frecuencias si alguno de los intervalos extremos no está limitado.
La mediana Otra medida de tendencia central que se utiliza habitualmente es la mediana. La mediana es un valor (denotado por Med) tal que a su izquierda y a su derecha se encuentra la misma cantidad de observaciones. O sea, que el número de observaciones menores o iguales que Med es igual al número de observaciones mayores o iguales que Med. Si los datos están agrupados en una tabla de distribución de frecuencias entonces: n − N i −1 Med = li −1 + 2 ai ni donde: i es la primera clase para la cual Fi ≥0,50. Entre las propiedades de la mediana, vamos a destacar las siguientes: •
• • •
Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya que no depende de los valores que toma la variable, sino del orden de las mismas. Por ello es adecuado su uso en distribuciones asimétricas. Es de cálculo rápido y de interpretación sencilla. El mayor defecto de la mediana es que tiene unas propiedades matemáticas complicadas, lo que hace que sea muy difícil de utilizar en inferencia estadística. Puede ser calculada aunque el intervalo inferior o el superior no tenga límites.
La moda Se llamará moda al valor (o a los valores) que con más frecuencia se presenta. Si los datos están agrupados en una tabla de distribución de frecuencias entonces: Moda = li −1 +
ni − ni −1 ai (ni − ni −1 ) + (ni − ni +1 )
donde: i es la clase donde ni mayor. De la moda destacamos las siguientes propiedades:
• • • •
Es muy fácil de calcular. Puede no ser única. Es función de los intervalos elegidos a través de su amplitud, número y límites de los mismos. Aunque el primero o el último de los intervalos no posean extremos inferior o superior respectivamente, la moda puede ser calculada.