05estad2018-unac.pdf

  • Uploaded by: Benito Quispe Valeriano
  • 0
  • 0
  • June 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View 05estad2018-unac.pdf as PDF for free.

More details

  • Words: 2,669
  • Pages: 33
CLASE05: MEDIDAS DE DISPERSION Material de Clases © Germán Pomachagua Perez 7-Ene.-19

MEDIDAS DE DISPERSIÓN Una de las características importantes en el análisis de los datos es la DISPERSIÓN ó VARIABILIDAD. La dispersión es la cantidad de variación, de los datos en torno al promedio. Las medidas de Dispersión más usadas son:     

RANGO RANGO INTERCUARTILIC0 VARIANZA DESVIACION ESTANDAR COEFICIENTE DE VARIACION Material de Clases © Germán Pomachagua Perez 7-Ene.-19

MEDIDAS DE DISPERSIÓN Nos permiten cuantificar cuan separados están los datos de una distribución. A

B

mA=mB Dispersión A > B Material de Clases © Germán Pomachagua Perez 7-Ene.-19

Mín.

P50

Máx.

P75

0.03

0.04

P25

0.02

25%

25% 25%

25%

0.01

Rango intercuartílico

Rango 0.00

 Permite ubicar 50% de los datos que se encuentran en el centro de la distribución R.I.= Q3 – Q1  Mide la dispersión en la parte central de los datos, así que no se ve influenciada por los valores extremos.  Es una medida resistente en el sentido de ser poco sensible a las observaciones extremas

0.05

2 : RANGO INTERCUARTILICO

150

160

170

Material de Clases © Germán Pomachagua Perez 7-Ene.-19

180

190

Ejemplo2: La tabla muestra la experiencia (en años) del personal que labora en el Hospital Central. Experiencia (años)

Trabajadores

0–4 4-8 8 - 12

18 42 68

12 - 16 16 - 20 20 - 24 24 - 27 Total

120 40 34 12 334

F 18 60 128 248 288 322 334

a)¿Entre qué valores se encuentra el 50% intermedio de estos datos? Rpta: b)¿Cuál es el rango intercuartílico? Rpta: 50 %

25 %

25 %

Q1

Q3

Rango Intercuartílico

Material de Clases © Germán Pomachagua Perez 7-Ene.-19

Ejemplo 2: La siguiente tabla muestra información de los precios del artículo de perfumería (en nuevos soles) en establecimientos elegidos al azar en el distrito de Surco.

Material de Clases © Germán Pomachagua Perez 7-Ene.-19

ANALISIS EXPLORATORIO DE DATOS El análisis exploratorio de datos es el proceso de utilizar herramientas estadísticas (como gráficas. medidas de tendencia central y medidas de variación) con la finalidad de investigar conjuntos de datos para comprender sus características importantes Antes de proceder a cualquier análisis se debe hacer un Análisis Exploratorio que nos permita ver la naturaleza de los datos. El Análisis exploratorio se usa para detectar valores atípicos (outliers) es decir valores que no son igual al resto

Material de Clases © Germán Pomachagua Perez 7-Ene.-19

PROCEDIMIENTO DE CALCULO  Es un dato atípico si cae fuera del intervalo en la grafica se indica como °  Es un dato atípico extremo si cae fuera del intervalo en la grafica se indica como *

Material de Clases © Germán Pomachagua Perez 7-Ene.-19

Ejemplo 1: Sean los puntajes de un grupo de trabajadores. Calcular el RI y ver si y ver si hay datos atípicos 150 151 150 147 155 145 151 152 150 149 166 142 158 153 144 190 145 147 151 156 SOLUCION: Primero ordenar los datos ORDEN PUNTAJES 1 142 2 144 3 145 4 145 5 147 6 147 7 149 8 150 9 150 10 150 Boxplot of PUNTAJES 11 151 12 151 13 151 14 152 15 153 16 155 17 156 18 158 PUNTAJES 19 166 Material de Clases © Germán Pomachagua Perez 7-Ene.-19 20 190 166

1 40

1 50

1 60

190

1 70

1 80

1 90

3. VARIANZA: La varianza se define como la media de las diferencias cuadráticas de todas las observaciones con respecto a su media aritmética. Se usa • Para comparar dos o más poblaciones. • En inferencia estadística • Para calcular el tamaño de muestra

Material de Clases © Germán Pomachagua Perez 7-Ene.-19

Muestra (Xj)

Población (X)

Parámetro s2

x1 x2 . . . . . xN

x1j x2j . . xnj

n

N

s2 

 ( xi  m ) i 1

N

Estimador S2

2

s2 

2 ( x  x )  i 11

n 1

De esta manera S2 es estimador de s 2 Material de Clases © Germán Pomachagua Perez 7-Ene.-19

MEDIDAS DE DISPERSIÓN

DATOS SIN AGRUPAR   x   i  n 2  i 1  x   i n  i 1 n 1 n

n

S2 

2 ( x  x )  i

Calculo abreviado

i 1

n 1

S2

DATOS AGRUPADOS SIN INTERVALOS CON INTERVALOS m

S2 

 i 1

f i ( xi  x ) 2 n 1

m

S2 

 i 1

f i ( X i  x ) 2 n 1

Material de Clases © Germán Pomachagua Perez 7-Ene.-19

2

• Ejemplo1 : Calcular la varianza de los siguientes valores numéricos: 5, 9, 11, 7 n

• Primero calculamos el promedio

5  9  11  7 x 8 4

S2 

2 ( x  x )  i i 1

n 1

• Entonces la varianza será 2 2 2 2 (5  8)  (9  8)  (11  8)  (7  8) 9 1 9 1 2 S    6.667 3 3

• Utilizando la fórmula simplificada: 2 2 2 2 2 (5  9  11  7 )  4(8) S2   6.667 3

Material de Clases © Germán Pomachagua Perez 7-Ene.-19

Ejemplo2: La siguiente información se refiere al número de radiografías reprocesadas durante una semana. Calcule la varianza. 8, 10, 5, 12, 10, 15 Primero, elaboramos un cuadro de la forma siguiente:

Xi

Xi  x

Xi  x 

2

8

8 - 10 = 2

10 5

10 - 10 = 0 5 - 10 = 5

12

12 - 10 = 2

25 4

10

10 - 10 = 0 15 - 10 = 5

0 25

15

 X  60

 Xi  x   0

n

s  2

4 0

 (x 11

i

 x)2

n 1

60 x  10 6

 Xi  x 

2

 58

58 S  6  1  11.6 2

Material de Clases © Germán Pomachagua Perez 7-Ene.-19

Ejemplo3: Se uso dos tipos de máquinas para la producción de un tipo de agujas descartables. Se tomo una muestra de 5 y se muestran los tiempos en segundos.

A: 14, 24, 46, 50, 70 B: 15, 38, 46, 52, 53 ¿En qué grupo hay mas dispersión?

 n    xi  n xi2   i 1   n S 2  i 1 n 1

Reemplazando

Material de Clases © Germán Pomachagua Perez 7-Ene.-19

2

n

Usando la fórmula en maquina A

S2 

2 ( x  x )  i i 1

n 1

Reemplazando 1964.8 S   491.2 4 2

s2 

1964.8  491.2 4

5

 i 1

Material de Clases © Germán Pomachagua Perez 7-Ene.-19

DATOS AGRUPADOS: sin intervalos m

S2 

 i 1

f i ( xi  x ) 2 n 1

Ejemplo: En cierta clínica, muestra los días de permanencia que se distribuye entre sus paciente Días (xi) Nº Pacientes(fi) 1 3 5 3 6 3 9 4 12 1 14

Xifi 3 15 18 36 12 84

Calcular varianza desviación estándar y coeficiente de variación

Material de Clases © Germán Pomachagua Perez 7-Ene.-19

X i

DATOS AGRUPADOS: con intervalos

S  2

Li [39 <46 <53 <60 <67

- Ls - 46] - 53] - 60] - 67] - 74]

2  f ( X  X )  i i i 1

n 1

fi 3 2 7 3 6 21

Calcular varianza desviación estándar y coeficiente de variación

Material de Clases © Germán Pomachagua Perez 7-Ene.-19

PROPIEDADES DE LA VARIANZA Se X una variable tal que Xi : x1 , x2 ,…….., xn 1. La varianza de una constante es cero En este caso Xi : k, k,……..,k i:1, 2……..n

V ( X )  V (K )  0

2. La varianza de una constante multiplicada por una variable, es igual a la constante al cuadrado multiplicada por la varianza de la variable. Yi = kxi i:1, 2……..n

V (Y )  V (kX )  k V ( X ) 2

3. La varianza de una constante multiplicada por una variable mas(o menos) una constante es igual a: En este caso Yi = axi ±b i:1, 2……..n

V (Y )  V (aX  b)  V (aX )  a V ( X ) 2

Material de Clases © Germán Pomachagua Perez 7-Ene.-19

MEDIDAS DE DISPERSIÓN 4. DESVIACIÓN ESTÁNDAR (TÍPICA): Es la raíz cuadrada de la varianza  2 ( x  x  i ) n

S

i 1

n 1

Luego la desviación estándar de

A es S  491.2  22.16 B es S  243.7  15.61

Material de Clases © Germán Pomachagua Perez 7-Ene.-19

5.

COEFICIENTE DE VARIACIÓN: Es una medida de dispersión relativa que es fácilmente comparable con otro coeficiente de variabilidad, correspondiente a un distinto conjunto de observaciones. El resultado se expresa en porcentaje. Mientras menor es el Coeficiente de Variación, menor es la dispersión de los datos (Mayor homogeneidad).

s C.V .   100 X

Si el Coeficiente de Variación es: < 5% ----> datos muy homogéneos, Media aritmética muy representativa 5%  CV  20% ----> datos con homogeneidad aceptable. La media aritmética es representativa Si el CV  20% ----> datos heterogéneos, la media aritmética es poco representativa

Tipo

A B

X

40.8 40.8

s

C.V.

22.16 15.61

0.5432 0.3826

Material de Clases © Germán Pomachagua Perez 7-Ene.-19

Material de Clases © Germán Pomachagua Perez 7-Ene.-19

MEDIDAS DE FORMA Las medidas de forma permiten comprobar si una distribución de frecuencia tiene características especiales como simetría, asimetría, nivel de concentración de datos y nivel de apuntamiento que la clasifiquen en un tipo particular de distribución.

Las medidas de forma son necesarias para determinar el comportamiento de los datos y así, poder adaptar herramientas para el análisis probabilístico.

En este capitulo analizaremos dos medidas de forma: 1) Coeficiente de asimetría 2) Curtosis

Material de Clases © Germán Pomachagua Perez 7-Ene.-19

Estadísticos para detectar asimetría  Hay diferentes estadísticos que sirven para detectar asimetría. – Coeficiente de simetría de Pearson: Se usa solo en datos unimodales 𝑥ҧ − 𝑀𝑒 𝐴𝑠 = 3 𝑠

– Basado en la diferencia entre el 1º y 2º cuartiles y 2º y 3º. – Basados en desviaciones con signo al cubo con respecto a la media. 𝑨𝒔 =

𝒏 𝒏−𝟏 𝒏−𝟐

𝒏

෍ 𝒊=𝟏

ഥ 𝒙𝒊 − 𝒙 𝒔

𝟑

• Calculados con software. Es pesado de hacer a mano.  En función del signo del estadístico diremos que la asimetría es positiva o negativa. Material de Clases © Germán Pomachagua Perez 7-Ene.-19

Las medidas de asimetría se dirigen a elaborar un indicador que permita establecer el grado de simetría (asimetría) que presenta la distribución, sin la necesidad de llevar a cabo su representación grafica (histograma)

Asimetría nula (simétrica) As=0

Asimetría negativa As<0

Asimetría positiva As>0

m =Me=Mo

m >Me>Mo

0.15 0.05

0.1

0.05

0.2

0.10

0.10

0.3

0.15

0.4

0.20

0.5

0.20

m <Me<Mo

x s

66 %

78 %

0.00

x s

0.0

0.00

78 %

x s

8

10

12

14 x

16

18

20

-2

-1

0

1 x

2

3

0

2

4

6

8 x

Material de Clases © Germán Pomachagua Perez 7-Ene.-19

10

12

14

Sean las ganancias por acción del año 2014 en una muestra de 15 empresas 0.09 0.13 0.41 0.51 1.12 1.20 1.49 3.18 3.50 6.36 7.83 8.92 10.13 12.99 16.40 Calcular la asimetría Por fórmula

Minitab

𝐴𝑠 = 3

𝑥ҧ − 𝑀𝑒 𝑠

𝐴𝑠 = 3

4.95 − 3.18 = 1.017 5.22

Las ganancias por acción tienen asimetría positiva Material de Clases © Germán Pomachagua Perez 7-Ene.-19

Curtosis • La curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribución con respecto a la distribución normal (distribución simétrica). • Indican el nivel de concentración de los datos respecto a su media.

1 n 4 ( xi  x )  n i 1 K 3 4 s Material de Clases © Germán Pomachagua Perez 7-Ene.-19

Apuntamiento o curtosis Platicúrtica (aplanada): curtosis < 0

serán de especial interés las mesocúrticas y simétricas (parecidas a la normal).

Mesocúrtica (como la normal): curtosis = 0 Leptocúrtica (apuntada): curtosis > 0 2.0

Aplanada

Apuntada como la normal

0.2

0.5

0.1

0.4

1.0

0.2

0.6

1.5

0.3

0.8

Apuntada

x s

x s

x s

68 %

82 %

0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.0

0.0

57 %

-3

-2

-1

0

1

2

3

-2

-1

0

Material de Clases © Germán Pomachagua Perez 7-Ene.-19

1

2

Material de Clases © Germán Pomachagua Perez 7-Ene.-19

Ejemplo2: Un grupo de 47 personas fueron sometidas a un tratamiento para disminuir el nivel de colesterol en la sangre. Se registró el nivel de colesterol de los 47 antes y después de realizado el tratamiento. Calcular si hay datos atípicos Antes 146

160

182

186

186

190

200

200

202

210

214

216

218

218

220

220

220

226

234

234

236

236

238

240

242

244

244

248

248

258

266

270

270

272

276

276

278

278

282

288

288

294

294

350

385

401

420

Después 142

156

160

162

164

166

168

170

178

178

182

182

182

182

182

182

184

186

188

188

196

198

198

198

198

200

200

204

204

206

212

214

216

218

230

232

236

238

242

242

248

256

256

264

264

280

294

30

Material de Clases © Germán Pomachagua Perez 7-Ene.-19

Ejemplo 1: Los trabajadores de cierta empresa tienen un sueldo promedio de $383.29, con una varianza de 30.571 ($)2. Si a cada trabajador se le aumenta el sueldo en 8% más un bono de $10.5. a) Determine el sueldo promedio y la varianza luego del aumento. b) En porcentaje en cual hay mas variabilidad antes o después del aumento

Ejemplo 2: En una Empresa donde los salarios tienen una media de $100 y una desviación estándar de $10, el sindicato solicita que cada salario X, se transforme en Y, mediante la siguiente relación Y = 2,5 X +10. El Gerente acoge la petición rebajando los salarios propuestos por el sindicato en10%, lo que es aceptado. ¿Qué distribución de salarios es más homogénea? ¿Qué propuesta prefieren los trabajadores? Ejemplo 3 : El coeficiente de variación de los salarios pagados a 200 trabajadores de una empresa es del 30%. Con el aumento de 100 soles a cada trabajador, el nuevo coeficiente de variación sería del 25% ¿Qué cantidad debe tener disponible la compañía para hacer efectiva la nueva planilla? .Rpta: S/.120,000

Material de Clases © Germán Pomachagua Perez 7-Ene.-19

Ejemplo4: En un proceso de reorganización una empresa pública fue sometida a evaluación mediante una prueba de conocimientos con escala de calificación centesimal. Las puntuaciones obtenidas fueron tabuladas en un cuadro de frecuencias con 7 clases de igual amplitud. Si la puntuación mínima es de 30 puntos, la media aritmética es de 61.5 y las frecuencias acumuladas porcentuales de los intervalos del 1 al 6 son respectivamente: 8, 23, 43, 73, 91 y 97. Identificar el tipo de asimetría que presenta esta distribución. a) Calcular e interpretar el coeficiente de variación.. b) Si la empresa tiene 2000 trabajadores y el directorio acuerda promocionar a todos los empleados con una puntuación superior a la media + S. ¿ Cuántos trabajadores serán promovidos?.

Material de Clases © Germán Pomachagua Perez 7-Ene.-19

Ejemplo

6: : Si los datos del archivo Herramientas es del año 2018. Para el año 2019, los sueldos aumentaran en un 10% mas una bonificación de 150 soles. a) Determine el sueldo promedio y la varianza luego del aumento. b) En porcentaje en cual hay mas variabilidad antes o después del aumento

Material de Clases © Germán Pomachagua Perez 7-Ene.-19

More Documents from "Benito Quispe Valeriano"