DATOS AGRUPADOS Regularmente se calculan las medidas de tendencia central, dispersión y de posición utilizando la totalidad de los datos, más ahora que se cuenta con programas estadísticos para analizar cualquier cantidad de observaciones por variable. Sin embargo, es posible utilizar agrupación cuando el número de datos es mayor que 20. La elección de realizar o no un análisis descriptivo utilizando datos agrupados está en función del interés del investigador y finalidad del estudio, y no necesariamente, de la cuantía de observaciones que se tienen de la variable de estudio.
DATOS AGRUPADOS Resulta de interés el uso de datos agrupados cuando la finalidad es: • Configurar la forma de la distribución de los datos. En el proceso del análisis exploratorio de datos es común determinar si los mismos siguen una distribución normal. • Analizar el comportamiento de la variable en determinados rangos de valores mediante una distribución de frecuencias. La caracterización de los árboles de un rodal en clases diamétricas es de uso extendido en el ámbito forestal. En ciertos casos se recoge información ubicando las respuestas en rangos en lugar de utilizar valores exactos (información sobre salarios por ejemplo). • Facilitar la comparación e interpretación. Estructurar una tabla de frecuencias a partir de un conjunto de datos constituye un proceso de reducción de información.
DATOS AGRUPADOS El cálculo de estadísticos descriptivos a partir de datos agrupados, requiere el uso de puntos medios de clase para aproximar los valores de los datos de cada clase. Por tanto, los resultados que se obtienen a través de la técnica de datos agrupados son estadísticos aproximados. El procedimiento consiste en elaborar una distribución de frecuencias, calculando el rango, el número de clases y el intervalo de clases. Una tabla de distribución de frecuencias se define como una agrupación de datos en clases mutuamente excluyentes, que muestra el número de observaciones que hay en cada clase y su proporción o peso porcentual respecto al total de observaciones.
DATOS AGRUPADOS Un institución que informa sobre la utilización de tecnología en el hogar, obtuvo los siguientes datos sobre el tiempo de uso de computadora expresado en horas por semana, en una muestra de 50 personas. 4.1 3.1 4.1 10.8 7.2
1.5 4.8 4.1 2.8 6.1
10.4 5.9 3.4 2.0 14.8 5.4 8.8 5.6 4.3 9.5 12.9 12.1 5.7 5.9 4.7
5.7 4.2 3.3 0.7 3.9
1.6 3.9 7.1 4.0 3.7
6.1 3.0 4.1 11.1 10.3 6.2 9.2 4.4 3.1 6.1
3.7 3.5 7.6 5.7 3.1
DATOS AGRUPADOS Con los datos anteriores se debe realizar lo siguiente: a) Elaborar una tabla de frecuencias b) Calcular la media aritmética y la moda. c) Determinar la desviación estándar y el coeficiente de variación. d) Calcular la mediana, el P95 y el rango intercuartil. e) Graficar el polígono de frecuencias y la ojiva de frecuencias. f) Graficar un histograma y la curva de distribución normal estandarizada. g) Responder las siguientes preguntas: ¿Qué porcentaje de personas utiliza la computadora al menos 9 horas? ¿Qué porcentaje utiliza la computadora entre 2 y 6 horas inclusive? a) Clasifique el tipo de distribución con base a los coeficiente de asimetría y curtosis e interprete. CLASES LI LS
M
Absoluta A. Acum f F
M ×f
M‐
Relativa R. Acum fr FR
(M‐)2
(M‐)2*f
%datos
(M‐)3*f
(M‐)4*f
DATOS AGRUPADOS Cálculo del rango (R): R DM dm 14.8 0.7 14.1
Número de clases (k): Regla de Sturges k 1 log 2 n
k n ln n k ln 2
k 1 3.322 log n
Utilizada en Excel (para n<100)
2k n
Criterio del mínimo número de clases (Lind & Marchal, 2012)
Utilizada en InfoStat (similar a la anterior) k log 2 n 1 De los modelos disponibles, se opta por utilizar el de Lind & Marchal: ln n ln 50 k 5.64 6 Aproximar a unk número entero siempre que 2 >n. En este caso ln 2 ln 2
Intervalo de clase (I): R 14.1 I 2.35 k 6
25<50. Por ello, k=6, 26>50 La aproximación dependerá de que se cubra el rango (2.35*6=14.1)
DATOS AGRUPADOS Cálculo límites de clases: LI1ra clase dm 0.7 LS1ra clase LI I 0.7 2.35 3.05
1ra clase 0.7 3.05
Cálculo marca de clase (M) LI LS 0.7 3.05 1.88 2 2 LI LS 3.05 5.40 4.23 2 2
M 1ra clase M 2 da clase
LI 2 da clase LSclase anterior 3.05 LS 2 da clase LI I 3.05 2.35 5.4 2da clase 3.05 5.40
Y así sucesivamente.
Frecuencias absolutas de clase Por conteo se determina cuántas observaciones quedan dentro de los límites definidos para cada una de las clases. Aunque en la tabla no se indique expresamente y con intención de corregir la aparente ambigüedad de que el límite superior de una clase sea igual el límite inferior de la siguiente, debe entenderse que, que el límite superior de las clases a excepción de la última, es abierto. Por ello, cualquier dato de la serie que sea igual al límite superior debe colocarse en la siguiente clase.
DATOS AGRUPADOS CÁLCULO DE FRECUENCIAS ACUMULADAS Y RELATIVAS PARA LAS PRIMERAS TRES CLASES Primera clase
Segunda clase
Tercera clase
f 6 F 6
f 21 F 6 21 27
f 13 F 27 13 40
6 fr 100 12% 50 Fr 12%
21 fr 100 42% 50 Fr 12 42 54%
13 100 26% 50 Fr 54 26 80% fr
Donde f es la frecuencia absoluta, F la frecuencia absoluta acumulada, fr la frecuencia relativa y FR la frecuencia relativa acumulada.
La tabla de frecuencias concluye con las frecuencias relativas acumuladas, no obstante, es necesario agregar otras columnas para el cálculo de los estadísticos requeridos. La tabla de frecuencias aumentada presentada parcialmente a continuación, responde al objetivo de calcular coeficientes de asimetría y curtosis.
DATOS AGRUPADOS CLASES LI LS 0.70 3.05 3.05 5.40 5.40 7.75 7.75 10.10 10.10 12.45 12.45 14.80
M 1.88 4.23 6.58 8.93 11.28 13.63
Absoluta A. Acum f F 6.00 6.00 20.00 26.00 14.00 40.00 3.00 43.00 5.00 48.00 2.00 50.00 50.00
Relativa fr 12.00 40.00 28.00 6.00 10.00 4.00 100.00
R. Acum FR 12.00 52.00 80.00 86.00 96.00 100.00
M ×f
M‐ ‐4.09 ‐1.74 0.61 2.96 5.31 7.66 10.72
11.25 84.50 92.05 26.78 56.38 27.25 298.20
(M‐)
2
(M‐ ) *f 2
16.72 3.02 0.37 8.77 28.21 58.69 115.78
100.32 60.48 5.23 26.30 141.03 117.38 450.75
Identificación de clases La clase mediana es la de menor frecuencia absoluta acumulada que contiene a n/2 (25 datos) y la clase modal es la que tiene mayor frecuencia absoluta. Por lo tanto, la segunda clase, es tanto la clase mediana como la modal.
Cálculo de la media aritmética
M x
i
n
fi
298.20 5.96 horas 50 Me
Mo
s2
P95
Q
HIST
DistN
DATOS AGRUPADOS Cálculo de la mediana (Me):
nF am 2 Me Li I f m
xn 50n n 100 100 2
Donde: n= número de datos Fam=Frecuencia absoluta acumulada de la clase anterior a la clase mediana. fm= frecuencia absoluta de la clase de la clase mediana Li=límite inferior de la clase mediana I= intervalo de la clase mediana
50 6 Me 3.05 2.35 2 5.28 horas 20 Me
DATOS AGRUPADOS Cálculo de la moda (Mo):
f ma Mo Li I f f mp ma Donde: fma= diferencia positiva entre la frecuencia absoluta de la clase modal y la anterior fmp= diferencia positiva entre la frecuencia absoluta de la clase modal y la posterior Li=límite inferior de la clase modal I= intervalo de la clase modal
14 Mo 3.05 2.35 4.7 horas 14 6 Mo
DATOS AGRUPADOS CÁLCULO DE LA VARIANZA (S2): AGRUPADOS
SIN AGRUPAR n
s2
xi x i 1
k
2
s2
n 1
s 2
i 1
2
s 2
n 1
x i n 2 i 1 x i n s 2 i 1 n 1 n
i 1
k
n
2 x i nx
2 M x fi i
2
M i 1
n 1
f x
2 i i
k
2
f i 1
i
n 1
2 k M i fi k 1 s2 M i2 fi i 1 k n 1 i 1 fi i 1
DATOS AGRUPADOS Cálculo de la varianza y desviación estándar (s): 2 M x f 450.75 2 s 9.20 h 2 49 n 1
s s 2 9.25 3.03 horas Cálculo del coeficiente de variación (CV):
CV
s 3.03 100 100 50.84% x 5.96
s2
DATOS AGRUPADOS CÁLCULO DE MEDIDAS DE POSICIÓN (CUANTILES) xn F ac 100 Cx Li I fc
Donde: Cx= cuantil de orden x. x= Orden del cuantil n= número de datos Fac=Frecuencia acumulada de la clase anterior a la clase Cx. fc= frecuencia absoluta de la clase Cx Li=límite inferior de la clase Cx Ic= intervalo de la clase Cx
La clase Cx es la de menor frecuencia absoluta acumulada que contiene a xn/100
DATOS AGRUPADOS Cálculo del percentil 95 (P95)
xn F ac 100 Cx Li I fc
xn 95 50 47.5 p 100 La clase P95 es la quinta
47.5 43 P95 10.10 2.35 5 P95 12.22 h
P95
DATOS AGRUPADOS Cálculo del rango intercuartil (RIQ):
RIQ Q3 Q1 Primer cuartil (Q1=P25) xn 25 50 12.5 100 100 La clase Q1 es la segunda
12.5 6 Q1 3.05 2.35 20 Q1 3.81 h
xn F ac 100 Cx Li I fc Tercer cuartil (Q3=P75) xn 75 50 37.5 100 100 La clase Q3 es la tercera
Q3 5.4 2.35
37.5 26 14
Q3 7.330 h
RIQ 7.330 3.81 3.52 h Q
DATOS AGRUPADOS HISTOGRAMA Y POLÍGONO DE FRECUENCIAS El histograma es la gráfica de un conjunto de datos compuesta por una serie de rectángulos, cada uno con un ancho proporcional al rango de los valores de cada clase y altura proporcional a la frecuencia absoluta o frecuencia relativa de cada clase. La frecuencia relativa puede ser en porcentaje o en forma decimal (densidad). Se utiliza para representar gráficamente la distribución de variables cuantitativas continuas con agrupamiento de datos. El polígono de frecuencias es la línea que une los puntos medios (marca de clase) de cada clase de un conjunto de datos, trazada a la altura correspondiente a la frecuencia de los datos. El propósito del polígono de frecuencias es simular la función de densidad de la distribución de datos.
DATOS AGRUPADOS HISTOGRAMA Y POLÍGONO DE FRECUENCIAS
Histograma de Horas
Histograma y poligono de frecuencias 22
45
20
40 35
16
30
14
Porcentaje
Frecuencia absoluta
18
12 10 8
25 20 15
6
10
4
5
2 0.70
3.05
5.40
7.75
Horas
10.10
12.45
14.81
0
0.70
3.05
5.40
7.75
10.10
12.45
14.80
Horas
El histograma muestra la distribución del tiempo de uso por semana del ordenador. El polígono de frecuencias simula la función de densidad de la distribución de datos. Hist
DATOS AGRUPADOS OJIVA DE FRECUENCIAS (OJIVA DE GALTON) La ojiva es la gráfica de una distribución de frecuencias acumuladas, ya sea absoluta o relativa. Se traza uniendo los límites de cada clase del conjunto de datos. Una ojiva permite observar porcentaje de los datos que está por debajo o por arriba de ciertos valores, en lugar de hacer un mero registro del número de elementos que hay en cada intervalo. El propósito de la ojiva de frecuencias es simular la función de distribución empírica (función de densidad acumulada) del conjunto de observaciones. Ojiva de frecuencias
Frecuencia relativa acumulada (%)
100
96
100
80
80
60
La frecuencia relativa acumulada puede ser en porcentaje o en forma decimal (probabilidad)
86
52
40
20
0
12
0.70
3.05
5.40
7.75
Horas
10.10
12.45
14.81
DATOS AGRUPADOS Lo deseable es que los datos describan una distribución aproximadamente normal, configurando una curva en forma de campana. Por ejemplo, en una distribución normal simétrica, a una desviación estándar tanto hacia la izquierda como a la derecha deben concentrarse aproximadamente el 68.3% de los datos, a 2 desviaciones estándar el 95.4% y a 3 el 99.7% 1
68.26894% de los datos
2 3
95.44997% de los datos 99.73002% de los datos
4
99.99367% de los datos
DATOS AGRUPADOS El número de desviaciones estándar a la que se encuentra ubicado un dato a partir de la media se puede determinar restándole al dato la media y luego dividirlo por la desviación estándar. A ese número de desviaciones estándar se le llama valor z y se obtiene a través de la siguiente fórmula:
zi
xi x zi s
xi
La función de densidad normal para cualquier serie de datos con media y desviación estándar se puede construir graficando la siguiente función:
f x
1 e 2
x 12
2
f z
0.4 e
0.5 z 2
Ahora bien, para graficar la función de densidad normal estándar, con media cero (µ=0) y desviación estándar uno (=1), se utiliza la siguiente función simplificada:
f z 0.4 e
0.5 z 2
N 0,1
DATOS AGRUPADOS GRAFICANDO LA FUNCIÓN DE DENSIDAD NORMAL En el caso de datos sin agrupar, la curva normal se obtiene utilizando la función de densidad. Para sobreponer la curva normal estandarizada a un histograma (datos agrupados), se le agrega a la función de densidad el intervalo de clase (I). El eje y se escala tomando en cuenta las frecuencias relativas de clases. Como xi se utilizan los límites inferiores de clase, el límite superior de la última clase, las marcas de clases y el valor de la media aritmética. Para cada xi se calculan los valores zi, luego f(zi), finalmente, se grafican los puntos [xi,f(zi)] y unen los puntos formando la curva (campana de Gauss).
xi x zi s
0.4 I e f z s
0.5 z 2
Para calcular puntos adicionales simétricos (xis) se utiliza:
xi s zi s x
DATOS AGRUPADOS Para el tiempo del uso de la computadora se tiene: zi
xi x 0.7 5.96 1.74 3.03 s
0.4 I e 0.5 z f z s 2 0.5 1.74 0.4 2.35 e f z 0.07 3.03 2
Punto : 0.7, 0.07
xi s zi s x xi s 1.74 3.03 5.96 xi s 11.23 Punto : 11.23, 0.07
xi
zi
f (zi )
0.70 1.88 3.05 4.23 5.40 6.58 7.75 8.93 10.10 11.28 12.45 13.63 14.80 5.96
‐1.74 ‐1.35 ‐0.96 ‐0.57 ‐0.18 0.20 0.59 0.98 1.37 1.76 2.14 2.53 2.92 0.00
0.07 0.13 0.20 0.26 0.30 0.30 0.26 0.19 0.12 0.07 0.03 0.01 0.00 0.31
DATOS AGRUPADOS Al graficar los puntos se configura la curva de la función de densidad normal. Luego se procede a unir los puntos a mano alzada y graficar el histograma 0.35 0.30 0.25
fr 12.00 40.00 28.00 6.00 10.00 4.00
0.20 0.15 0.10 0.05 0.00 ‐1.65
0.70
3.05
5.40
7.75
10.10
12.45
14.80
DATOS AGRUPADOS Un histograma permite tener una idea de la forma de la distribución de datos. En el caso del tiempo de uso de la computadora, la curva descrita evidencia cierto grado de sesgo positivo (formación de una cola hacia la derecha del gráfico). Si los datos tiende a agruparse en las primeras clases, se dice que la distribución tiene un sesgo positivo. Si los datos tienden a agruparse en las últimas clases de la distribución de frecuencias, se dice que esta tiene sesgo negativo. Histograma y ajuste normal Media 5.706 Desv.Est. 3.128 N 50
40
Frecuencia relativa (%)
35 30 25 20 15 10 5 0
-1.65
0.70
3.05
5.40
7.75
Horas
10.10
12.45
14.80
Se observa sesgo positivo de la distribución de datos
DATOS AGRUPADOS HISTOGRAMA Y AREA (PORCENTAJE DE DATOS) Histograma y área (procentaje de datos)
fr I 12 fru 2.35 5.11% fru h fru
35 Frecuencia relativa (%)
fr fru I 4 fru 2.35 1.70% fru h
40%
40
30
28%
25 20 15
12%
10%
10
6%
5 0
5.11% 0.70
17.02%
3.05
11.91%
5.40
4%
2.55%
7.75
4.26%
10.10
1.70%
12.45
14.80
Horas %datos
Histo
DATOS AGRUPADOS HISTOGRAMA Y AREA (PORCENTAJE DE DATOS) La suma del área de las barras es igual a la unidad, que en porcentaje representa el 100% de los datos. Así, la frecuencia relativa de cada barra es el porcentaje de datos que queda incluido en cada una. Por ejemplo, para aproximar el porcentaje de personas que utiliza la computadora al menos 9 horas se procede de la siguiente manera: 10.10h 9.0h 1.10h 2.55% 1.10h 2.81% h 4% 10% 2.81% 16.81%
Ahora para aproximar el porcentaje de personas que la utiliza la computadora entre 2 y 6 horas inclusive. 3.05h 2.0h 1.05h 1.05h
5.11% 5.37% h
6.0h 5.4h 0.6h 0.6h
40% 5.37% 7.15% 52.52%
11.91% 7.15% h Histo
DATOS AGRUPADOS HISTOGRAMA Y AREA (PORCENTAJE DE DATOS)
52.52% 16.81%
x
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
x
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
MEDIDAS DE FORMA Adicionalmente a los histogramas para observar la forma de distribución de los datos, también es posible estudiarla empleando métodos numéricos. Las medidas de forma son valores que proveen información del aspecto de la distribución de datos. Estas medidas se conocen como SESGO y CURTOSIS. Una se refiere a la forma de la dispersión de los datos y la otra a la forma de la concentración de los mismos, respectivamente. Medidas de asimetría Coeficiente de asimetría de Fisher Coeficiente de asimetría de Yule‐Bowley Coeficiente de asimetría de Pearson Medidas de curtosis Coeficientes de curtosis de Fisher Coeficiente de curtosis de Pearson Coeficiente de curtosis de Moors
MEDIDAS DE FORMA: SESGO Se dice que una distribución en simétrica si se puede doblar a lo largo de un eje vertical central, de manera que ambos lados coincidan. Una distribución normal tiene la mayor concentración de datos en la región central. Así mismo, la media, moda y mediana son iguales. Cuando no ocurre esa situación se dice que la distribución está sesgada. En ese sentido, puede que exista asimetría positiva o negativa. Cuando la media es mayor que la mediana el sesgo se da a la derecha (asimetría positiva) porque se hace una cola hacia esa dirección. Cuando la media es menor que la mediana, entonces el sesgo se da a la izquierda (asimetría negativa) y la cola es larga en esa dirección. La asimetría positiva indica que los valores más extremos son mayores que la media. La asimetría negativa indica que los valores más extremos son menores que la media. Los índices de asimetría de Fisher próximos a cero indican simetría.
MEDIDAS DE FORMA: SESGO Tal y como se ha mencionado, la dispersión de los datos se presenta en tres formas. Cada una define y precisa la forma de cómo están distribuidos los datos respecto al eje de simetría (la mediana). 1. Asimetría positiva. Cuando la cola más dispersa se extiende sobre el lado de los valores más altos de la variable con escasa frecuencia. 2. Simétrica, si la dispersión es igual o similar en ambos lados de distribución de frecuencias respecto a eje de simetría. Una distribución normal simétrica es una distribución con colas ligueras. 3. Asimetría negativa. En el caso que la cola más dispersa se extiende sobre el lado de los valores más pequeños y con escasa frecuencia.
MEDIDAS DE FORMA: SESGO ASIMETRÍA POSITIVA A>0
DISTRIBUCIÓN SIMÉTRICA A=0
22
18
20
16
18
20 18
14
16
12
14
16 14
ASIMETRÍA NEGATIVA A<0
12
10
10
8
12 10 8
8
6
6
6
4
4
4 2
2 3
8
13
18
23
28
33
38
Mo Me Media
43
48
2
0
3
8
13
18
23
28
33
Mo Me Media
38
43
48
0
50
50
45
45
45
40
40
40
35
35
35
30
30
25
25
20
30 25
20
20
15
15
10
10
10
5
5
5
0
0
0
15
13
18
23
28
33
38
43
Media<Me<Mo
50
8
48
Media Me Mo
Mo=Me=Media
Media>Me>Mo
3
MEDIDAS DE FORMA: SESGO ASIMETRÍA POSITIVA A>0 22
18
20
16
18
ASIMETRÍA NEGATIVA A<0
DISTRIBUCIÓN SIMÉTRICA A=0
20 18
14
16
12
14
16 14 12
10
10
8
12 10 8
8
6
6
6
4
4
4 2
2 3
8
13
18
23
28
33
38
Mo Me Media
43
48
0
simétrica
3
8
13
18
23
28
33
Mo Me Media
38
43
0
48
Media Mediana Moda 18.39 18 8 25.5
Asimétrica: sesgo negativo 32.61
3
8
13
18
23
28
33
38
43
48
Media Me Mo
Media<Me<Mo
Mo=Me=Media
Media>Me>Mo Distribución Asimétrica: sesgo positivo
2
Q1 8
Q3 IQR Asimetría 24.25 16.25 0.83
25.5
25.5
18
33
15
0
33
43
26.75
43
16.25
-0.83
MEDIDAS DE FORMA: SESGO COEFICIENTES DE ASIMETRÍA (A) PEARSON*
YULE‐BOWLEY (1920)
3 x Me A s
Q3 Q1 2Q2 A Q3 Q1
Si A≥1 ó A≤1, los datos se consideran significativamente sesgados.
DATOS AGRUPADOS n
A
DE FISHER n
n xi x
3
3 1 ei i 1 A t s3 s 3 n 1 n 2
DATOS SIN AGRUPAR: Excel e InfoStat
n M i x f i 3
i 1 3
s n 1 n 2
POBLACIONAL n
A
x i 1
i
n3
3
MEDIDAS DE FORMA: CURTOSIS La curtosis (k o g2) surge al comparar la forma de una distribución en particular con la forma de una distribución normal. Las medidas de curtosis ofrecen una idea sobre la concentración de datos (masa de probabilidad) en la zona central, así como, en las colas de la distribución de frecuencias. La mayor o menor concentración de frecuencias a los extremos de la media y en la zona central de la distribución dará lugar a una distribución más o menos apuntada en comparación con la distribución normal. Por esta razón a las medidas de curtosis se les llama también de apuntamiento. Las medidas de curtosis se aplican a distribuciones campaniformes, es decir, unimodales con ligera asimetría.
MEDIDAS DE FORMA: CURTOSIS Según el valor del coeficiente, las curvas pueden clasificarse en platicúrticas, mesocúrticas o leptocúrticas. Un valor grande y positivo para la curtosis indica que las colas de la distribución son más largas que las de una distribución normal; un valor negativo para curtosis indica colas más cortas (llegando a ser como las de una distribución uniforme en forma de caja). Al representar gráficamente variables con curtosis pequeña, platicúrticas, se observan curvas o histogramas con colas cortas y aspecto aplanado. Si la variable tiene curtosis grande, es decir, si es leptocúrtica, su gráfica tiende a ser alta, con colas largas y pesadas. En comparación con la distribución normal, una distribución con colas pesadas tiene más datos en sus extremos inferior y superior.
MEDIDAS DE FORMA: CURTOSIS La importancia de la curtosis está, en parte, relacionada al hecho que, en la misma forma que la asimetría afecta la inferencia respecto a la media, alta curtosis afecta la inferencia respecto a medidas de dispersión. Otra motivación para el estudio de la curtosis es que un valor alto de esta medida se relaciona con una distribución de colas pesadas. Las medidas de curtosis y asimetría están fuertemente relacionadas, dado que ambas otorgan importancia a las colas de la distribución. Cabe esperar que el coeficiente de curtosis sea más sensible a las colas de la distribución y esté correlacionada con la medida de asimetría. En la práctica, al tratar con datos y distribuciones empíricas puede ser mejor calcular más de una estadística de curtosis debido a que cada una tiende a ser más sensible que otras dependiendo de la concentración de datos en la parte central o en las colas de la distribución.
MEDIDAS DE FORMA: CURTOSIS Las distribuciones de colas pesadas como la exponencial o gamma son adecuadas para representar series de datos cuando ocurren muchos valores extremos. El coeficiente de variación se puede utilizar para generar una idea del peso de las colas. Las distribuciones con colas pesadas presentan un coeficiente da variación mayor que uno. Por otra parte, cabe destacar que existen distribuciones de datos que presentan colas mas pesadas que la exponencial con un coeficiente de variación mayor que uno. Las distribuciones de colas ligeras tienen colas menos pesadas que la exponencial con un coeficiente de variación menor que uno y la situación límite corresponde a la distribución exponencial con un coeficiente de variación igual a uno.
DATOS AGRUPADOS Mayor cantidad de datos en la parte central, la cual disminuye gradualmente hacia los extremos.
MESOCÚRTICA, igual de apuntada que la normal.
k 0 5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
k 0
20
100
10
k0 5
15
95
PLATICÚRTICA, aplanada en comparación con la normal.
LEPTOCÚRTICA, más apuntada que la normal.
10
90
Los datos se distribuyen formando una región central amplia más o menos uniforme, poco diferenciada o gradualmente diferenciada respecto a los extremos.
Los datos se concentran en una región estrecha de la parte central de la distribución, claramente diferenciada en comparación con los extremos
5
85
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
10
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
105
MEDIDAS DE FORMA: CURTOSIS DATOS SIN AGRUPAR Basado en octiles (Moors, 1988)*
Coef. De curtosis percentílico
P 7 P 5 P 3 P 1 8 8 8 1.23 k 8 P 6 P 2
k
8
8
InfoStat (Pearson) n
k
x i 1
i
n
4
Excel (Fisher) n
4
3
n
4 n n 1 M i x f i
n n 1 xi x
4
2 3 n 1 i 1 k 4 s n 1 n 2 n 3 n 2 n 3
DATOS AGRUPADOS (Fisher) 2 3 n 1 k 4 s n 1 n 2 n 3 n 2 n 3 i 1
Q3 Q1 0.263 2 P90 P10
MEDIDAS DE FORMA: NORMALIDAD Y DESVIACIONES Distribución simétrica con cola ligera
Distribución normal 21
20
20
16
14
14
12
12
Frecuencia
Frecuencia
15
10
10
6 2
1 0
9
10
7
8 6
4
4
4
5
-2.4
-1.6
-0.8
0.0
0.8
1.6
0.0
2.4
0.3
Normal Asimetría Curtosis Si ‐0.16 0.05
Distribución simétrica con cola ligera
19 16
11
12
9 7 4
5
15
14
Frecuencia
Frecuencia
15
16
15
10
0.9
Normal Asimetría Curtosis No 0.03 ‐1.06
Distribución asimétrica con cola ligera 20
0.6
uniforme
Normal
5
4
10
9 7
8 6
5
4
2
2 0
0.72
4
2 0
-3.2
14
0.80
0.88
0.96
Dis beta
Normal Asimetría Curtosis No ‐0.81 ‐0.52
1.04
0
1.2346E-01 2.4030E-01 3.5715E-01 4.7400E-01 5.9084E-01 7.0769E-01 8.2454E-01 9.4138E-01
Beta
Normal Asimetría Curtosis Si ‐0.03 ‐0.83
MEDIDAS DE FORMA: NORMALIDAD Y DESVIACIONES Distribuciones simétricas con colas pesadas 21
21
25
23
20
24
20
Frecuencia
Frecuencia
15
10
7 5
5
-2.4
3
-1.6
-0.8
0.0
0.8
1.6
2.4
5
3.2
Student5
20
Frecuencia
20
15
9
10
6 2 -3
1 -2
-1
0
4
3
1
Student10
Normal Asimetría Curtosis Si 0.23 0.71
2
1 3
4
2
1
0 -3.235E+00 -2.125E+00 -1.014E+00 9.7264E-02 1.2082E+00 2.3191E+00 3.4300E+00 4.5409E+00
Normal Asimetría Curtosis Si 0.29 1.48
25
25
0
7
Laplace
Normal Asimetría Curtosis Si 0.62 0.73
5
10
5 2
0
15
MEDIDAS DE FORMA: NORMALIDAD Y DESVIACIONES Distribuciones asimétricas con colas pesadas 25
25
18
15
16 14
20
Frecuencia
Frecuencia
12 15
13
11 10
7
0.1
3
1.3
2.5
Frecuencia
20
14
10
5
0
4
3 0
5
2
0
-1
5
11
Normal Asimetría Curtosis No 0.5 ‐0.66
25
15
5
chi10
Normal Asimetría Curtosis No 1.53 1.88
15
8
2
3.7
expon
25
8
8
4
0 -1.1
10
10
6
5
5
0
16
10
chi5
Normal Asimetría Curtosis No 1.21 1.3
2
1 15
17
23
MEDIDAS DE FORMA: CURTOSIS En algunos casos los coeficientes de asimetría y curtosis pueden no reflejar la forma real de la distribución, especialmente cuando hay uno o más valores atípicos en la serie de datos. Por esta razón, puede ser difícil dar una interpretación sensata a los valores de estas medidas simplemente por no saber si están afectados por valores atípicos. Por ello es deseable contar con mediciones robustas de asimetría y curtosis que no sean demasiado sensibles a valores atípicos. En este sentido, Bowley (1920) propuso un coeficiente de asimetría basado en cuantiles. Otro estadístico robusto es el coeficiente de asimetría de Pearson que considera la media aritmética, la mediana y la desviación estándar. Moors (1988) demostró que el coeficiente de curtosis puede ser grande cuando la masa de probabilidad está centrada cerca de la media o en las colas de las distribuciones. Con base en esta interpretación, propuso una alternativa robusta para el coeficiente de curtosis basada en octiles. En este caso se debe considerar que siete octiles dividen a la serie de datos en ocho partes iguales. El primer octil equivale al percentil 12.5 (O1=P12.5), O2=P25=Q1, O3=P37.5, O4=P50=Me, O5=P62.5, O6=P75=Q3 y el octil 7 (O7) equivale al percentil 87.5 (P87.5)
MEDIDAS DE FORMA: SESGO Para el ejemplo, horas de uso de la computadora: M
1.88 4.23 6.58 8.93 11.28 13.63 Suma
f 6.00 20.00 14.00 3.00 5.00 2.00 50.00
3
4
n
(M‐media) *f i (M‐media) *f i
‐410.21 1677.33 ‐105.18 182.91 3.19 1.95 77.88 230.61 749.03 3978.10 899.26 6889.25 1213.98157 12960.14410
A
n M i x fi
2 3 n 1 k 4 s n 1 n 2 n 3 n 2 n 3 50 51 12960.14 3 492 k 4 3.03 49 48 47 48 47 k 0.35 Leptocúrtica, más apuntada i 1
que la normal
i 1 3
s n 1 n 2 50 1213.98 A 3.033 49 48 A 0.93 Asimetría positiva, con
n
4 n n 1 M i x f i
3
cola hacia la derecha
MEDIDAS DE FORMA COEFICIENTE DE ASIMETRÍA Y CURTOSIS ESTANDARIZADOS (STATGRAPHICS SOFTWARE) Se utilizan para determinar si la variable sigue una distribución normal. De ser así, los coeficientes de asimetría y curtosis deben oscilar entre ‐2 y 2, que sería el rango esperado para una distribución normal. Los valores de estos estadísticos fuera del rango indicado indican alejamiento significativo de normalidad, lo que tendería a invalidar cualquier prueba estadística con referencia a la desviación estándar. Si la distribución de los datos muestrales es normal, entonces el coeficiente de asimetría tiene distribución asintótica normal de media cero y varianza 6/n, por lo que se puede emplear para estandarizar el coeficiente de asimetría.
A*
A0 A n 6 6 n
MEDIDAS DE FORMA COEFICIENTE DE ASIMETRÍA Y CURTOSIS ESTANDARIZADOS (STATGRAPHICS SOFTWARE) Del mismo modo, si la distribución de los datos muestrales es normal, entonces la curtosis tiene distribución asintótica normal de media cero y varianza 24/n, por lo que se puede emplear para estandarizar el coeficiente de curtosis.
k*
k 0 k n 24 24 n
El valor estandarizado se obtiene, en términos generales, restando la media y dividiendo por su correspondiente desviación estándar.
MEDIDAS DE FORMA COEFICIENTE DE ASIMETRÍA Y CURTOSIS ESTANDARIZADOS (SPSS SOFTWARE) El análisis descriptivo de datos utilizando el programa estadístico SPSS reporta los valores del error estándar (EE) tanto del coeficiente de asimetría (A) como del de curtosis (k). La relación de asimetría o curtosis a su error estándar (A/EE, k/EE) se puede usar como una prueba de normalidad (es decir, puede rechazar la normalidad si la proporción es menor que ‐2 o mayor que +2. Al emplear el criterio anterior (Statgraphics software) o el expuesto (SPSS software), con base en los coeficientes de asimetría y curtosis estandarizados, es posible concluir en que una serie de datos sigue una distribución normal cuando:
2 A* 2
y
2 k* 2
MEDIDAS DE FORMA COEFICIENTE DE ASIMETRÍA Y CURTOSIS ESTANDARIZADOS (STATGRAPHICS SOFTWARE) Para nuestro ejemplo tenemos que los coeficientes de asimetría y curtosis estandarizados son:
A n 0.93 50 A 6 6 A* 2.68 *
k n 0.35 50 k 24 24 k * 0.51 *
Como el valor del coeficiente de asimetría estandarizado excede de 2, se concluye que la muestra no proviene de una población con distribución normal. Los datos no se distribuyen normalmente. Por tanto, en cuanto al resumen de medidas descriptivas se tiene que:
Incorrecto Correcto
5.96 3.03 Me 5.28 7.33 3.81
EJERCICIO DE REPASO Cuando no se tiene previsto calcular coeficientes de asimetría y curtosis utilizando las expresiones de Fisher, la tabla de frecuencias aumentada pude contener solo los siguientes encabezados. CLASES LI LS
M
Absoluta A. Acum Relativa R. Acum f F fr FR
M ×f
M2*f
EJERCICIO DE REPASO Los siguiente datos se refieren al consumo de frijol per cápita por año expresado en libras, los cuales se obtuvieron a partir de una muestra seleccionada aleatoriamente de 120 guatemaltecos. a) Elaborar una tabla de frecuencias b) Calcular la media aritmética, moda y mediana. c) Determinar la desviación estándar y el coeficiente de variación. d) Calcular el rango intercuartil y la desviación intercuartílica. e) Graficar el histograma, polígono y ojiva de frecuencias. f) ¿Qué porcentaje de guatemaltecos consume entre 19 y 25 libras de frijol por año inclusive? g) ¿Cuántos guatemaltecos de la muestra consumen a lo sumo 20 libras de frijol por año? h) Clasifique el tipo de distribución con base a los estadísticos de forma. i) Determine los coeficientes de asimetría estandarizados ¿Siguen los datos una distribución normal? ¿Por qué?
EJERCICIO DE REPASO 12.10
12.30
12.40
22.40
22.60
22.70
22.70
22.80
23.50
13.50
23.60
23.90
24.20
14.20
24.30
24.50
24.50
15.00
15.90
16.10
16.30
16.60
17.10
17.10
17.30
17.50
25.30
18.30
18.40
26.50
27.00
18.90
19.00
25.80
19.20
19.30
26.40
19.50
19.50
19.70
19.70
19.80
19.80
20.10
20.10
20.40
20.50
20.70
20.80
20.80
20.80
21.00
21.00
21.10
21.20
21.30
21.50
21.90
21.90
20.10
20.20
22.40
22.40
22.40
22.70
22.70
22.70
22.80
22.80
23.20
23.20
23.40
23.40
23.50
23.50
23.70
25.60
25.70
25.80
25.00
25.10
25.60
25.70
25.80
26.50
26.60
26.70
26.70
26.80
27.00
27.00
27.00
27.10
27.10
27.20
27.30
27.40
27.40
27.50
27.50
27.60
27.60
27.70
27.80
27.80
28.00
28.20
28.30
28.30
28.70
29.10
29.20
29.30
29.30
29.40
29.50
29.50
29.60
29.60
29.80
CLASES LI LS
M
Absoluta A. Acum f F
M ×f
M‐
Relativa R. Acum fr FR
(M‐)2
(M‐)2*f
%datos
(M‐)3*f
(M‐)4*f
EJERCICIO DE REPASO A continuación se presenta el histograma y los valores correspondientes a la producción (en gramos) de hule seco por sangría, por planta de hule, en el área A de la Hacienda "Caballo Blanco", Génova Costa Cuca, Quetzaltenango. A) Determine el porcentaje de los árboles que tienen una producción entre 14 y 21 gramos de hule seco. B) ¿Cuál es el valor de hule seco sobre el cual queda el 15% de árboles con mayor producción? C) Si los valores de asimetría y curtosis son ‐0.12 y ‐0.83, respectivamente, indique el tipo de asimetría y curtosis que presenta la distribución de los datos. D) ¿Siguen los datos una distribución normal? ¿por qué? 23 13 18
14 17 14
19 17 21
24 19 23
25 24 21
22 18 23
24 10 25
11 18 13 26 28 21 15 16 21 14 21 19 20 23 27 65% 41.67% 23.33% 100% 21.67% 20% 14 81.67%18.33% 16.67% 15% 12 11
25 20 Porcentaje
12 21 27
22 21 20
10
9
15 10
19 14 26
6.67%
4
5 0
5% 10
7.78%
13 16 19 22 25 Intervalos de clase (hule seco en gramos)
28
18 25 18
27 28 16
10 23 16
17 13 15
26 20 16
EJERCICIO DE REPASO Calcule la media aritmética, la desviación estándar y analice la siguiente serie de datos utilizando medidas de forma. Concluya en relación al aspecto de la distribución. 3
33 n
A
30
n xi x i 1
14
7
17
3
s n 1 n 2 3
36
38 n
k
xi i 1
n 4
26 4
3
44
EJERCICIO DE REPASO Una empresa de servicios de recreación estudia la cantidad que gastan al día en alimento y bebida las familias que visitan un parque de diversiones. Una muestra de 40 familias que visitó el parque la semana pasada revela que han gastado las siguientes cantidades en dólares: 77 41 60
18 58 60
63 58 45
84 53 66
38 51 83
54 62 71
50 43 63
59 52 58
54 53 61
56 63 71
36 62
26 65
50 61
34 61
44 52
a) b) c) d) e) f) g)
Elabore una tabla de frecuencias Calcular la media aritmética y la moda. Determinar la desviación estándar y el coeficiente de variación. Calcular la mediana y el rango intercuartil. ¿Cuál es la cantidad sobre la cual queda el 15% de familias que más gastan? Graficar el histograma, el polígono de frecuencias y la ojiva de frecuencias. ¿Cuántas familias gastan entre 18 y 57 dólares inclusive? ¿Qué porcentaje gasta 50 dólares o más? h) Clasifique el tipo de distribución con base a los coeficiente de asimetría y curtosis e interprete. ¿Los datos siguen una distribución normal? ¿Por qué?
Calcular el número clases utilizando el criterio de Sturges
EJERCICIOS DE REPASO A continuación se muestran los histogramas de las notas obtenidas por los estudiantes en tres exámenes del curso. Para cada uno de los tres casos, opere y conteste las siguientes preguntas: a) b) c) d) e) f) g)
Elabore la tabla de frecuencias y demás columnas requeridas Calcular la media aritmética y la moda. Determinar la desviación estándar y el coeficiente de variación. Calcular la mediana y el rango intercuartil. Graficar el polígono de frecuencias y la ojiva de frecuencias. ¿Qué porcentaje de alumnos obtuvieron al menos 61 puntos. ¿Cuál es la nota bajo la cual queda el 25% de los alumnos con menor nota? h) Clasifique el tipo de distribución con base a los coeficiente de asimetría y curtosis e interprete. i) ¿Cuál de los tres casos se asemeja más a una distribución normal y por qué? Los respectivos histogramas se presentan en la siguiente diapositiva
EJERCICIOS DE REPASO 18 16
13
12
11
10
10
8
8
6
6
14
12
12 Frecuencia absoluta
Frecuencia absoluta
14
10
9
8
8
7
6 4
4
2
2 0
14
14
16
5.00
20.84
36.68
52.52
68.36
84.20
0
100.04
5.00
20.84
36.68
Clases (notas)
Examen 1
68.36
84.20
15
15
11
10
10
8
5
0
100.04
Examen 2
20
20
Frecuencia absoluta
52.52 Clases (notas)
0 5.00
20.84
36.68
52.52 Clases (notas)
68.36
84.20
100.04
Examen 3
TABLA DE FRECUENCIAS VARIABLES DISCRETAS SIN AGRUPACIÓN En ciertos casos donde la variable es discreta, es necesario organizar datos utilizando tablas de frecuencias sin recurrir a la agrupación de datos y formación de intervalos, principalmente, cuando las distintas observaciones de la variable de estudio son relativamente pocas, pero que se repiten un número significativo de veces. El cálculo de los estadísticos característicos del conjunto de datos pueden obtenerse a través de procedimientos análogos a la agrupación de datos, no obstante, el histograma como opción gráfica no aplica. Pueden utilizarse gráficos circulares o de barras para presentar las frecuencias. A continuación se muestra el procedimiento para obtener las medidas de tendencia central y de dispersión para este tipo particular de casos.
TABLA DE FRECUENCIAS VARIABLES DISCRETAS SIN INTERVALO La MODA es la observación con mayor frecuencia absoluta. La MEDIANA se obtiene a partir de la frecuencia absoluta acumulada y el cociente n/2, siendo n el número total de datos. Se calcula así: Si en la distribución de frecuencias no aparece ninguna frecuencia absoluta acumulada igual a n/2, se toma como mediana la observación cuya frecuencia absoluta acumulada es la menor que contiene a n/2. Si en la distribución de frecuencias aparece una observación cuya frecuencia acumulada es igual a n/2, la mediana es el promedio entre esa observación y la siguiente. En este caso n debe ser par.
TABLA DE FRECUENCIAS VARIABLES DISCRETAS SIN INTERVALO El promedio corresponde a una media ponderada:
xp
x p x f p f i
i
i
i i i
La desviación estándar se calcula utilizando cualquiera de las siguientes expresiones: x f i i k 2 xi f i i 1k i 1 fi k
k
s
x i 1
f x
2 i i
n 1
k
2
f i 1
i
s
i 1
n 1
2
TABLA DE FRECUENCIAS VARIABLES DISCRETAS SIN INTERVALO En un estudio de la dinámica poblacional del gusano medidor (Trichoplusia ni) en el cultivo de repollo (Brassica oleracea var. Capitata), el número de plantas en las que se encontraron 0, 3, 5, 6, 7, 9 ó 10 insectos por planta se presentan a continuación. Completar la tabla de frecuencias. Calcular la moda, mediana y media aritmética del número de insectos por planta. Obtener la desviación estándar. No. Insectos No. Plantas 0 7 3 12 5 35 6 28 7 23 9 17 10 12
TABLA DISTRIBUCIÓN DE FRECUENCIAS VARIABLES DISCRETAS SIN INTERVALO No. Insectos 0 3 5 6 7 9 10
fi 7 12 35 28 23 17 12 134
xi fi 813 xp f i 134
x p 6.1 in s planta
Fi 7 19 54 82 105 122 134
2
x if i 0 36 175 168 161 153 120 813
2
xi 0 9 25 36 49 81 100
k
s
f i*x i 0 108 875 1008 1127 1377 1200 5695
x i 1
f x
2 i i
n 1
s 2.4 in s planta
Mo 5 in s planta
Posición
134 67 2
Me 6 in s planta
k
2
f i 1
i
5695 6.07 2 134 134 1
TABLA DE FRECUENCIAS VARIABLES DISCRETAS SIN INTERVALO De los registros de una finca, se obtuvo el número de árboles que ha podado cada trabajador por día de una especie forestal. Organice los datos en una tabla de frecuencias. Calcule la media, mediana, moda y el coeficiente de variación del número de árboles podados al día por trabajador. 30 33 35 35 38 38 40 41
30 33 35 35 38 38 40 41
30 33 35 35 38 38 40 41
30 33 35 36 38 38 40 41
30 33 35 36 38 40 40 41
30 33 35 36 38 40 40 41
30 33 35 36 38 40 40 41
30 33 35 36 38 40 40 41
30 33 35 36 38 40 40 41
30 33 35 36 38 40 41 41
30 33 35 36 38 40 41 41
30 33 35 36 38 40 41 41
30 35 35 36 38 40 41 ‐‐‐
33 35 35 36 38 40 41 ‐‐‐
33 35 35 38 38 40 41 ‐‐‐
33 35 35 38 38 40 41 ‐‐‐
No árboles 30 33 35 36 38 40 41
TABLA DISTRIBUCIÓN DE FRECUENCIAS VARIABLES DISCRETAS SIN INTERVALO Se evalúa la respuesta a la fertilización en el cultivo de rosa y se registra el número de retoños por planta a los 30 días de realizada la misma. Los datos que se obtuvieron son los siguientes: 3, 4, 3, 4, 5, 1, 6, 3, 4, 5, 3, 4, 3, 3, 4, 3, 5, 5, 5, 5, 6, 11, 10, 2, 1, 2, 3, 1, 5 y 2. Con esta información: a) Organice los datos en una tabla de frecuencias. b) Calcule la media, mediana y el coeficiente de variación del número de retoños por planta.