CLASE05: MEDIDAS DE DISPERSION Material de Clases © Germán Pomachagua Perez 7-Ene.-19
MEDIDAS DE DISPERSIÓN Una de las características importantes en el análisis de los datos es la DISPERSIÓN ó VARIABILIDAD. La dispersión es la cantidad de variación, de los datos en torno al promedio. Las medidas de Dispersión más usadas son:
RANGO RANGO INTERCUARTILIC0 VARIANZA DESVIACION ESTANDAR COEFICIENTE DE VARIACION Material de Clases © Germán Pomachagua Perez 7-Ene.-19
MEDIDAS DE DISPERSIÓN Nos permiten cuantificar cuan separados están los datos de una distribución. A
B
mA=mB Dispersión A > B Material de Clases © Germán Pomachagua Perez 7-Ene.-19
Mín.
P50
Máx.
P75
0.03
0.04
P25
0.02
25%
25% 25%
25%
0.01
Rango intercuartílico
Rango 0.00
Permite ubicar 50% de los datos que se encuentran en el centro de la distribución R.I.= Q3 – Q1 Mide la dispersión en la parte central de los datos, así que no se ve influenciada por los valores extremos. Es una medida resistente en el sentido de ser poco sensible a las observaciones extremas
0.05
2 : RANGO INTERCUARTILICO
150
160
170
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
180
190
Ejemplo2: La tabla muestra la experiencia (en años) del personal que labora en el Hospital Central. Experiencia (años)
Trabajadores
0–4 4-8 8 - 12
18 42 68
12 - 16 16 - 20 20 - 24 24 - 27 Total
120 40 34 12 334
F 18 60 128 248 288 322 334
a)¿Entre qué valores se encuentra el 50% intermedio de estos datos? Rpta: b)¿Cuál es el rango intercuartílico? Rpta: 50 %
25 %
25 %
Q1
Q3
Rango Intercuartílico
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
Ejemplo 2: La siguiente tabla muestra información de los precios del artículo de perfumería (en nuevos soles) en establecimientos elegidos al azar en el distrito de Surco.
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
ANALISIS EXPLORATORIO DE DATOS El análisis exploratorio de datos es el proceso de utilizar herramientas estadísticas (como gráficas. medidas de tendencia central y medidas de variación) con la finalidad de investigar conjuntos de datos para comprender sus características importantes Antes de proceder a cualquier análisis se debe hacer un Análisis Exploratorio que nos permita ver la naturaleza de los datos. El Análisis exploratorio se usa para detectar valores atípicos (outliers) es decir valores que no son igual al resto
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
PROCEDIMIENTO DE CALCULO Es un dato atípico si cae fuera del intervalo
en la grafica se indica como ° Es un dato atípico extremo si cae fuera del intervalo en la grafica se indica como *
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
Ejemplo 1: Sean los puntajes de un grupo de trabajadores. Calcular el RI y ver si y ver si hay datos atípicos 150 151 150 147 155 145 151 152 150 149 166 142 158 153 144 190 145 147 151 156 SOLUCION: Primero ordenar los datos ORDEN PUNTAJES 1 142 2 144 3 145 4 145 5 147 6 147 7 149 8 150 9 150 10 150 Boxplot of PUNTAJES 11 151 12 151 13 151 14 152 15 153 16 155 17 156 18 158 PUNTAJES 19 166 Material de Clases © Germán Pomachagua Perez 7-Ene.-19 20 190 166
1 40
1 50
1 60
190
1 70
1 80
1 90
3. VARIANZA: La varianza se define como la media de las diferencias cuadráticas de todas las observaciones con respecto a su media aritmética. Se usa • Para comparar dos o más poblaciones. • En inferencia estadística • Para calcular el tamaño de muestra
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
Muestra (Xj)
Población (X)
Parámetro s2
x1 x2 . . . . . xN
x1j x2j . . xnj
n
N
s2
( xi m ) i 1
N
Estimador S2
2
s2
2 ( x x ) i 11
n 1
De esta manera S2 es estimador de s 2 Material de Clases © Germán Pomachagua Perez 7-Ene.-19
MEDIDAS DE DISPERSIÓN
DATOS SIN AGRUPAR x i n 2 i 1 x i n i 1 n 1 n
n
S2
2 ( x x ) i
Calculo abreviado
i 1
n 1
S2
DATOS AGRUPADOS SIN INTERVALOS CON INTERVALOS m
S2
i 1
f i ( xi x ) 2 n 1
m
S2
i 1
f i ( X i x ) 2 n 1
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
2
• Ejemplo1 : Calcular la varianza de los siguientes valores numéricos: 5, 9, 11, 7 n
• Primero calculamos el promedio
5 9 11 7 x 8 4
S2
2 ( x x ) i i 1
n 1
• Entonces la varianza será 2 2 2 2 (5 8) (9 8) (11 8) (7 8) 9 1 9 1 2 S 6.667 3 3
• Utilizando la fórmula simplificada: 2 2 2 2 2 (5 9 11 7 ) 4(8) S2 6.667 3
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
Ejemplo2: La siguiente información se refiere al número de radiografías reprocesadas durante una semana. Calcule la varianza. 8, 10, 5, 12, 10, 15 Primero, elaboramos un cuadro de la forma siguiente:
Xi
Xi x
Xi x
2
8
8 - 10 = 2
10 5
10 - 10 = 0 5 - 10 = 5
12
12 - 10 = 2
25 4
10
10 - 10 = 0 15 - 10 = 5
0 25
15
X 60
Xi x 0
n
s 2
4 0
(x 11
i
x)2
n 1
60 x 10 6
Xi x
2
58
58 S 6 1 11.6 2
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
Ejemplo3: Se uso dos tipos de máquinas para la producción de un tipo de agujas descartables. Se tomo una muestra de 5 y se muestran los tiempos en segundos.
A: 14, 24, 46, 50, 70 B: 15, 38, 46, 52, 53 ¿En qué grupo hay mas dispersión?
n xi n xi2 i 1 n S 2 i 1 n 1
Reemplazando
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
2
n
Usando la fórmula en maquina A
S2
2 ( x x ) i i 1
n 1
Reemplazando 1964.8 S 491.2 4 2
s2
1964.8 491.2 4
5
i 1
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
DATOS AGRUPADOS: sin intervalos m
S2
i 1
f i ( xi x ) 2 n 1
Ejemplo: En cierta clínica, muestra los días de permanencia que se distribuye entre sus paciente Días (xi) Nº Pacientes(fi) 1 3 5 3 6 3 9 4 12 1 14
Xifi 3 15 18 36 12 84
Calcular varianza desviación estándar y coeficiente de variación
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
X i
DATOS AGRUPADOS: con intervalos
S 2
Li [39 <46 <53 <60 <67
- Ls - 46] - 53] - 60] - 67] - 74]
2 f ( X X ) i i i 1
n 1
fi 3 2 7 3 6 21
Calcular varianza desviación estándar y coeficiente de variación
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
PROPIEDADES DE LA VARIANZA Se X una variable tal que Xi : x1 , x2 ,…….., xn 1. La varianza de una constante es cero En este caso Xi : k, k,……..,k i:1, 2……..n
V ( X ) V (K ) 0
2. La varianza de una constante multiplicada por una variable, es igual a la constante al cuadrado multiplicada por la varianza de la variable. Yi = kxi i:1, 2……..n
V (Y ) V (kX ) k V ( X ) 2
3. La varianza de una constante multiplicada por una variable mas(o menos) una constante es igual a: En este caso Yi = axi ±b i:1, 2……..n
V (Y ) V (aX b) V (aX ) a V ( X ) 2
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
MEDIDAS DE DISPERSIÓN 4. DESVIACIÓN ESTÁNDAR (TÍPICA): Es la raíz cuadrada de la varianza 2 ( x x i ) n
S
i 1
n 1
Luego la desviación estándar de
A es S 491.2 22.16 B es S 243.7 15.61
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
5.
COEFICIENTE DE VARIACIÓN: Es una medida de dispersión relativa que es fácilmente comparable con otro coeficiente de variabilidad, correspondiente a un distinto conjunto de observaciones. El resultado se expresa en porcentaje. Mientras menor es el Coeficiente de Variación, menor es la dispersión de los datos (Mayor homogeneidad).
s C.V . 100 X
Si el Coeficiente de Variación es: < 5% ----> datos muy homogéneos, Media aritmética muy representativa 5% CV 20% ----> datos con homogeneidad aceptable. La media aritmética es representativa Si el CV 20% ----> datos heterogéneos, la media aritmética es poco representativa
Tipo
A B
X
40.8 40.8
s
C.V.
22.16 15.61
0.5432 0.3826
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
MEDIDAS DE FORMA Las medidas de forma permiten comprobar si una distribución de frecuencia tiene características especiales como simetría, asimetría, nivel de concentración de datos y nivel de apuntamiento que la clasifiquen en un tipo particular de distribución.
Las medidas de forma son necesarias para determinar el comportamiento de los datos y así, poder adaptar herramientas para el análisis probabilístico.
En este capitulo analizaremos dos medidas de forma: 1) Coeficiente de asimetría 2) Curtosis
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
Estadísticos para detectar asimetría Hay diferentes estadísticos que sirven para detectar asimetría. – Coeficiente de simetría de Pearson: Se usa solo en datos unimodales 𝑥ҧ − 𝑀𝑒 𝐴𝑠 = 3 𝑠
– Basado en la diferencia entre el 1º y 2º cuartiles y 2º y 3º. – Basados en desviaciones con signo al cubo con respecto a la media. 𝑨𝒔 =
𝒏 𝒏−𝟏 𝒏−𝟐
𝒏
𝒊=𝟏
ഥ 𝒙𝒊 − 𝒙 𝒔
𝟑
• Calculados con software. Es pesado de hacer a mano. En función del signo del estadístico diremos que la asimetría es positiva o negativa. Material de Clases © Germán Pomachagua Perez 7-Ene.-19
Las medidas de asimetría se dirigen a elaborar un indicador que permita establecer el grado de simetría (asimetría) que presenta la distribución, sin la necesidad de llevar a cabo su representación grafica (histograma)
Asimetría nula (simétrica) As=0
Asimetría negativa As<0
Asimetría positiva As>0
m =Me=Mo
m >Me>Mo
0.15 0.05
0.1
0.05
0.2
0.10
0.10
0.3
0.15
0.4
0.20
0.5
0.20
m <Me<Mo
x s
66 %
78 %
0.00
x s
0.0
0.00
78 %
x s
8
10
12
14 x
16
18
20
-2
-1
0
1 x
2
3
0
2
4
6
8 x
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
10
12
14
Sean las ganancias por acción del año 2014 en una muestra de 15 empresas 0.09 0.13 0.41 0.51 1.12 1.20 1.49 3.18 3.50 6.36 7.83 8.92 10.13 12.99 16.40 Calcular la asimetría Por fórmula
Minitab
𝐴𝑠 = 3
𝑥ҧ − 𝑀𝑒 𝑠
𝐴𝑠 = 3
4.95 − 3.18 = 1.017 5.22
Las ganancias por acción tienen asimetría positiva Material de Clases © Germán Pomachagua Perez 7-Ene.-19
Curtosis • La curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribución con respecto a la distribución normal (distribución simétrica). • Indican el nivel de concentración de los datos respecto a su media.
1 n 4 ( xi x ) n i 1 K 3 4 s Material de Clases © Germán Pomachagua Perez 7-Ene.-19
Apuntamiento o curtosis Platicúrtica (aplanada): curtosis < 0
serán de especial interés las mesocúrticas y simétricas (parecidas a la normal).
Mesocúrtica (como la normal): curtosis = 0 Leptocúrtica (apuntada): curtosis > 0 2.0
Aplanada
Apuntada como la normal
0.2
0.5
0.1
0.4
1.0
0.2
0.6
1.5
0.3
0.8
Apuntada
x s
x s
x s
68 %
82 %
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.0
0.0
57 %
-3
-2
-1
0
1
2
3
-2
-1
0
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
1
2
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
Ejemplo2: Un grupo de 47 personas fueron sometidas a un tratamiento para disminuir el nivel de colesterol en la sangre. Se registró el nivel de colesterol de los 47 antes y después de realizado el tratamiento. Calcular si hay datos atípicos Antes 146
160
182
186
186
190
200
200
202
210
214
216
218
218
220
220
220
226
234
234
236
236
238
240
242
244
244
248
248
258
266
270
270
272
276
276
278
278
282
288
288
294
294
350
385
401
420
Después 142
156
160
162
164
166
168
170
178
178
182
182
182
182
182
182
184
186
188
188
196
198
198
198
198
200
200
204
204
206
212
214
216
218
230
232
236
238
242
242
248
256
256
264
264
280
294
30
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
Ejemplo 1: Los trabajadores de cierta empresa tienen un sueldo promedio de $383.29, con una varianza de 30.571 ($)2. Si a cada trabajador se le aumenta el sueldo en 8% más un bono de $10.5. a) Determine el sueldo promedio y la varianza luego del aumento. b) En porcentaje en cual hay mas variabilidad antes o después del aumento
Ejemplo 2: En una Empresa donde los salarios tienen una media de $100 y una desviación estándar de $10, el sindicato solicita que cada salario X, se transforme en Y, mediante la siguiente relación Y = 2,5 X +10. El Gerente acoge la petición rebajando los salarios propuestos por el sindicato en10%, lo que es aceptado. ¿Qué distribución de salarios es más homogénea? ¿Qué propuesta prefieren los trabajadores? Ejemplo 3 : El coeficiente de variación de los salarios pagados a 200 trabajadores de una empresa es del 30%. Con el aumento de 100 soles a cada trabajador, el nuevo coeficiente de variación sería del 25% ¿Qué cantidad debe tener disponible la compañía para hacer efectiva la nueva planilla? .Rpta: S/.120,000
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
Ejemplo4: En un proceso de reorganización una empresa pública fue sometida a evaluación mediante una prueba de conocimientos con escala de calificación centesimal. Las puntuaciones obtenidas fueron tabuladas en un cuadro de frecuencias con 7 clases de igual amplitud. Si la puntuación mínima es de 30 puntos, la media aritmética es de 61.5 y las frecuencias acumuladas porcentuales de los intervalos del 1 al 6 son respectivamente: 8, 23, 43, 73, 91 y 97. Identificar el tipo de asimetría que presenta esta distribución. a) Calcular e interpretar el coeficiente de variación.. b) Si la empresa tiene 2000 trabajadores y el directorio acuerda promocionar a todos los empleados con una puntuación superior a la media + S. ¿ Cuántos trabajadores serán promovidos?.
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
Ejemplo
6: : Si los datos del archivo Herramientas es del año 2018. Para el año 2019, los sueldos aumentaran en un 10% mas una bonificación de 150 soles. a) Determine el sueldo promedio y la varianza luego del aumento. b) En porcentaje en cual hay mas variabilidad antes o después del aumento
Material de Clases © Germán Pomachagua Perez 7-Ene.-19