Datos agrupados En la mayor parte de los casos, las medidas de localización y variabilidad se calculan mediante los valores individuales de los datos. Sin embargo, otras veces sólo se tienen datos agrupados o datos en una distribución de frecuencias. En la argumentación siguiente se muestra cómo usar la fórmula de la media ponderada para obtener aproximaciones a la media, la varianza y la desviación estándar de datos agrupados. En la sección 2.2 se presentó una distribución de las duraciones en días en una muestra de auditorías de fin de año de una empresa pequeña de contadores públicos. La distribución de frecuencias de las duraciones de las auditorías que se obtuvo de una muestra de 20 clientes se presenta de nuevo en la tabla 3.11. Con base en esta distribución de frecuencias, ¿cuál es la media muestral de la duración de las auditorías? Para calcular la media usando datos agrupados, considere el punto medio de cada clase como representativo de los elementos de esa clase. Si Mi denota el punto medio de la clase i y fi denota la frecuencia de la clase i. Entonces la fórmula para la media ponderada (3.15) se usa con los valores de los datos denotados por Mi y los pesos dados por las frecuencias fi. En este caso, el denominador de la ecuación (3.15) es la suma de las frecuencias, que es el tamaño de la muestra n. _
3.6 La media ponderada y el empleo de datos agrupados
Como el punto medio de clase, Mi, se encuentra a la mitad entre los límites de clase, en tabla 3.11 el punto medio de la primera clase, 10–14, es (10 _ 14)/2 _ 12. En la tabla 3.12 se presentan los cinco puntos medios de clase y los cálculos de la media ponderada de los datos de la duración de las auditorías. Como puede ver, la media muestral de la duración de las auditorías es 19 días. Para calcular la varianza de datos agrupados se emplea una versión ligeramente modificada de la fórmula para la varianza dada en la ecuación (3.5). En la ecuación (3.5) los cuadrados de las desviaciones de los datos respecto a la media muestral se escribieron como (xi _ )2. Pero cuando se tienen datos agrupados no se conocen los valores. En este caso, se considera el punto medio de clase, Mi, como representativo de los valores xi de la clase correspondiente. Por tanto, los cuadrados de las desviaciones respecto a la media (xi _ )2 son sustituidos por (Mi _ )2. Entonces, igual que en el cálculo de la media muestral de datos agrupados, pondere cada valor por la frecuencia de la clase, fi. La suma de los cuadrados de las desviaciones respecto a la media de todos los datos se aproxima mediante _fi(Mi _ )2. En el denominador aparece el término n _ 1 en lugar de n, con objeto de hacer que la varianza muestral sea un estimador de la varianza poblacional. Por consiguiente, la fórmula usada para obtener la varianza muestral de datos agrupados es:
En la tabla 3.13 se presenta el cálculo de la varianza muestral de las duraciones de las auditorías a partir de los datos agrupados de la tabla 3.11, ahí la varianza muestral es 30. La desviación estándar de datos agrupados es simplemente la raíz cuadrada de la varianza de los datos agrupados. La desviación estándar muestral de los datos de las duraciones de las auditorías es Antes de terminar esta sección sobre el cálculo de medidas de localización y de dispersión de datos agrupados, debe observar que las fórmulas (3.16) y (3.17) son para muestras. El cálculo de las medidas poblacionales es semejante. A continuación se presentan las fórmulas para la media y la varianza poblacional de datos agrupados.
DATOS NO AGRUPADOS Los datos no agrupados son el conjunto de datos que no se ha clasificado y se es presentada en su forma de aparición en una tabla de datos donde cada valor se representa de forma individual. Por lo general este conjunto comprende una cantidad de elementos menor a 30 (n<30) con poca o nula repetición. El tratamiento de estos datos sin agrupar. El manejo de estos datos es simple, se recolectan los datos de la población de estudio y dichos datos se distribuyen en una tabla de datos y se analizan sin necesidad de formar clases con ellos. Estos datos al distribuirse en tabla de frecuencia donde cada dato mantiene su propia identidad después que la distribución de frecuencia se ha elaborado. Vas a investigar la edad a un grupo de 20 Niños en datos no agrupados (es decir, vienen los 20 niños y así como te dan la edad así la anotas) 2,2,1,3,3,3,4,4,5,6,1,2,2,3,3,3,4,4,3,6 (Total 20 niños) Estos son datos no agrupados por qué no los has clasificado y contado. 1,1,2,2,2,2,3,3,3,3,3,3,3,4,4,4,4,5,5,6 (Total 20 niños). Los datos no agrupados también los puedes ordenar, por ejemplo de la edad menor a la edad mayor, no están contabilizados ni clasificados solamente están ordenados. En una investigación sobre el calentamiento de varios elementos líquidos para determinar en cada uno de ellos el punto, la temperatura, en la cual cambian de estado, los científicos van anotando las temperaturas que van dando efecto. 134°C, 345°C, 234°C, 456°C, 837°C, 456°C, 122°C, 4567°C, 3456°C, 456°C, 190°C, 900°C. estas medidas pueden ser apiladas en una tabla de datos, y mantener su independencia como valor unico y representativo
Distribuciones de frecuencia relativa y de frecuencia porcentual En una distribución de frecuencia se aprecia el número (frecuencia) de los elementos de cada una de las diversas clases disyuntas. Sin embargo, con frecuencia lo que interesa es la proporción o porcentaje de elementos en cada clase. La frecuencia relativa de una clase es igual a la parte o proporción de los elementos que pertenecen a cada clase. En un conjunto de datos, en el que hay n observaciones, la frecuencia relativa de cada clase se determina como sigue:
La frecuencia porcentual de una clase es la frecuencia relativa multiplicada por 100. Una distribución de frecuencia relativa da un resumen tabular de datos en el que se muestra la frecuencia relativa de cada clase. Una distribución de frecuencia porcentual da la frecuencia porcentual de los datos de cada clase. En la tabla 2.3 se presenta una distribución de frecuencia
relativa y una distribución de frecuencia porcentual de los datos de los refrescos. En esta tabla se observa que la frecuencia relativa de la Coca cola clásica es 19/50 _ 0.38, la de la Coca cola de dieta es 8/50 _ 0.16, etc. En la distribución de frecuencia porcentual, se muestra que 38% de las ventas fueron de Coca cola clásica, 16% de Coca cola de dieta, etc. También resulta que 38% _ 26% _ 16% _ 80% de las ventas fueron de los tres refrescos que más se venden.