3datos_agrupados_y_mf.pdf

  • Uploaded by: Cristian Padilla
  • 0
  • 0
  • May 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View 3datos_agrupados_y_mf.pdf as PDF for free.

More details

  • Words: 7,809
  • Pages: 64
 DATOS AGRUPADOS Regularmente se calculan las medidas de tendencia central, dispersión y de posición utilizando la totalidad de los datos, más ahora que se cuenta con programas estadísticos para analizar cualquier cantidad de observaciones por variable. Sin embargo, es posible utilizar agrupación cuando el número de datos es mayor que 20. La elección de realizar o no un análisis descriptivo utilizando datos agrupados está en función del interés del investigador y finalidad del estudio, y no necesariamente, de la cuantía de observaciones que se tienen de la variable de estudio.

 DATOS AGRUPADOS Resulta de interés el uso de datos agrupados cuando la finalidad es: • Configurar la forma de la distribución de los datos. En el proceso del análisis exploratorio de datos es común determinar si los mismos siguen una distribución normal. • Analizar el comportamiento de la variable en determinados rangos de valores mediante una distribución de frecuencias. La caracterización de los árboles de un rodal en clases diamétricas es de uso extendido en el ámbito forestal. En ciertos casos se recoge información ubicando las respuestas en rangos en lugar de utilizar valores exactos (información sobre salarios por ejemplo). • Facilitar la comparación e interpretación. Estructurar una tabla de frecuencias a partir de un conjunto de datos constituye un proceso de reducción de información.

 DATOS AGRUPADOS El cálculo de estadísticos descriptivos a partir de datos agrupados, requiere el uso de puntos medios de clase para aproximar los valores de los datos de cada clase. Por tanto, los resultados que se obtienen a través de la técnica de datos agrupados son estadísticos aproximados. El procedimiento consiste en elaborar una distribución de frecuencias, calculando el rango, el número de clases y el intervalo de clases. Una tabla de distribución de frecuencias se define como una agrupación de datos en clases mutuamente excluyentes, que muestra el número de observaciones que hay en cada clase y su proporción o peso porcentual respecto al total de observaciones.

 DATOS AGRUPADOS Un institución que informa sobre la utilización de tecnología en el hogar, obtuvo los siguientes datos sobre el tiempo de uso de computadora expresado en horas por semana, en una muestra de 50 personas. 4.1 3.1 4.1 10.8 7.2

1.5 4.8 4.1 2.8 6.1

10.4 5.9 3.4 2.0 14.8 5.4 8.8 5.6 4.3 9.5 12.9 12.1 5.7 5.9 4.7

5.7 4.2 3.3 0.7 3.9

1.6 3.9 7.1 4.0 3.7

6.1 3.0 4.1 11.1 10.3 6.2 9.2 4.4 3.1 6.1

3.7 3.5 7.6 5.7 3.1

 DATOS AGRUPADOS Con los datos anteriores se debe realizar lo siguiente: a) Elaborar una tabla de frecuencias b) Calcular la media aritmética y la moda. c) Determinar la desviación estándar y el coeficiente de variación. d) Calcular la mediana, el P95  y el rango intercuartil. e) Graficar el polígono de frecuencias y la ojiva de frecuencias.  f) Graficar un histograma y la curva de distribución normal estandarizada. g) Responder las siguientes preguntas:  ¿Qué porcentaje de personas utiliza la computadora al menos 9 horas?  ¿Qué porcentaje utiliza la computadora  entre 2 y 6 horas inclusive? a) Clasifique el tipo de distribución con base a los coeficiente de asimetría  y curtosis e interprete.  CLASES LI LS

M

Absoluta A. Acum f F

M ×f

M‐

Relativa R. Acum fr FR

(M‐)2

(M‐)2*f

%datos

(M‐)3*f

(M‐)4*f

 DATOS AGRUPADOS Cálculo del rango (R): R  DM  dm  14.8  0.7  14.1

Número de clases (k): Regla de Sturges k  1  log 2 n

k n ln n k ln 2

k  1  3.322  log n

Utilizada en Excel (para n<100)

 2k  n

Criterio del mínimo número de clases  (Lind & Marchal, 2012) 

Utilizada en InfoStat (similar a la anterior) k  log 2  n  1 De los modelos disponibles, se opta por utilizar el de Lind & Marchal: ln n ln 50 k   5.64  6 Aproximar a unk número entero siempre que 2 >n. En este caso ln 2 ln 2

Intervalo de clase (I): R 14.1 I   2.35 k 6

25<50. Por ello, k=6, 26>50 La aproximación dependerá de que se cubra el  rango (2.35*6=14.1)

 DATOS AGRUPADOS Cálculo límites de clases: LI1ra clase  dm  0.7 LS1ra clase  LI  I  0.7  2.35  3.05

1ra clase  0.7  3.05 

Cálculo marca de clase (M) LI  LS 0.7  3.05   1.88 2 2 LI  LS 3.05  5.40    4.23 2 2

M 1ra clase  M 2 da clase

LI 2 da clase  LSclase anterior  3.05 LS 2 da clase  LI  I  3.05  2.35  5.4 2da clase 3.05  5.40 

Y así sucesivamente.

Frecuencias absolutas de clase Por conteo se determina cuántas observaciones quedan dentro de los límites definidos para cada una de las clases. Aunque en la tabla no se indique expresamente y con intención de corregir la aparente ambigüedad de que el límite superior de una clase sea igual el límite inferior de la siguiente, debe entenderse que, que el límite superior de las clases a excepción de la última, es abierto. Por ello, cualquier dato de la serie que sea igual al límite superior debe colocarse en la siguiente clase.

 DATOS AGRUPADOS CÁLCULO DE FRECUENCIAS ACUMULADAS Y RELATIVAS PARA LAS  PRIMERAS TRES CLASES Primera clase

Segunda clase

Tercera clase

f 6 F 6

f  21 F  6  21  27

f  13 F  27  13  40

6 fr  100  12% 50 Fr  12%

21 fr   100  42% 50 Fr  12  42  54%

13  100  26% 50 Fr  54  26  80% fr 

Donde f es la frecuencia absoluta, F la frecuencia absoluta acumulada, fr la frecuencia relativa y FR la frecuencia relativa acumulada.

La tabla de frecuencias concluye con las frecuencias relativas acumuladas, no obstante, es necesario agregar otras columnas para el cálculo de los estadísticos requeridos. La tabla de frecuencias aumentada presentada parcialmente a continuación, responde al objetivo de calcular coeficientes de asimetría y curtosis.

 DATOS AGRUPADOS CLASES LI LS 0.70 3.05 3.05 5.40 5.40 7.75 7.75 10.10 10.10 12.45 12.45 14.80

M 1.88 4.23 6.58 8.93 11.28 13.63

Absoluta A. Acum f F 6.00 6.00 20.00 26.00 14.00 40.00 3.00 43.00 5.00 48.00 2.00 50.00 50.00

Relativa fr 12.00 40.00 28.00 6.00 10.00 4.00 100.00

R. Acum FR 12.00 52.00 80.00 86.00 96.00 100.00

M ×f

M‐ ‐4.09 ‐1.74 0.61 2.96 5.31 7.66 10.72

11.25 84.50 92.05 26.78 56.38 27.25 298.20

(M‐)

2

(M‐ ) *f 2

16.72 3.02 0.37 8.77 28.21 58.69 115.78

100.32 60.48 5.23 26.30 141.03 117.38 450.75

Identificación de clases La clase mediana es la de menor frecuencia absoluta acumulada que contiene a n/2 (25 datos) y la clase modal es la que tiene mayor frecuencia absoluta. Por lo tanto, la segunda clase, es tanto la clase mediana como la modal.

Cálculo de la media aritmética

M  x

i

n

 fi 



298.20  5.96 horas 50 Me

Mo

s2

P95

Q

HIST

DistN

 DATOS AGRUPADOS Cálculo de la mediana (Me):

 nF  am  2 Me  Li  I   f m  

xn 50n n   100 100 2

Donde: n= número de datos Fam=Frecuencia absoluta acumulada de la clase anterior a la clase mediana. fm= frecuencia absoluta de la clase de la clase mediana Li=límite inferior de la clase mediana I= intervalo de la clase mediana

 50  6    Me  3.05  2.35  2   5.28 horas  20  Me

 DATOS AGRUPADOS Cálculo de la moda (Mo):

f ma   Mo  Li  I      f f mp   ma Donde: fma= diferencia positiva entre la frecuencia absoluta de la clase  modal y la anterior fmp= diferencia positiva entre la frecuencia absoluta de la clase  modal y la posterior Li=límite inferior de la clase modal I= intervalo de la clase modal

14  Mo  3.05  2.35    4.7 horas  14  6  Mo

 DATOS AGRUPADOS CÁLCULO DE LA VARIANZA (S2): AGRUPADOS

SIN AGRUPAR n

s2 

  xi  x  i 1

k

2

s2 

n 1

s  2

i 1

2

s  2

n 1

  x  i  n 2  i 1  x   i n s 2  i 1 n 1 n

i 1

k

n

2 x  i nx

2  M x fi      i

2

M i 1

n 1

f x

2 i i

k

2

f i 1

i

n 1

2 k     M i fi    k   1    s2  M i2 fi   i 1 k   n  1  i 1 fi    i 1  

 DATOS AGRUPADOS Cálculo de la varianza y desviación estándar (s): 2    M x f  450.75    2 s    9.20 h 2 49 n 1

s  s 2  9.25  3.03 horas Cálculo del coeficiente de variación (CV):

CV 

s 3.03 100  100  50.84% x 5.96

s2

 DATOS AGRUPADOS CÁLCULO DE MEDIDAS DE POSICIÓN (CUANTILES)  xn  F ac  100 Cx  Li  I  fc 

   

Donde: Cx= cuantil de orden x. x= Orden del cuantil n= número de datos Fac=Frecuencia acumulada de la clase anterior a la clase Cx. fc= frecuencia absoluta de la clase Cx Li=límite inferior de la clase Cx Ic= intervalo de la clase Cx

La clase Cx es la de menor frecuencia absoluta  acumulada que contiene a xn/100

 DATOS AGRUPADOS Cálculo del percentil 95 (P95)

 xn  F ac  100 Cx  Li  I  fc 

   

xn 95  50   47.5 p 100 La clase P95 es la quinta 

47.5  43  P95  10.10  2.35   5   P95  12.22 h

P95

 DATOS AGRUPADOS Cálculo del rango intercuartil (RIQ):

RIQ  Q3  Q1 Primer cuartil (Q1=P25) xn 25  50   12.5 100 100 La clase Q1 es la segunda 

12.5  6  Q1  3.05  2.35    20  Q1  3.81 h

 xn  F ac  100 Cx  Li  I  fc  Tercer cuartil (Q3=P75) xn 75  50   37.5 100 100 La clase Q3 es la tercera 

Q3  5.4  2.35



37.5  26 14



Q3  7.330 h

RIQ  7.330  3.81  3.52 h Q

   

 DATOS AGRUPADOS HISTOGRAMA Y POLÍGONO DE FRECUENCIAS El histograma es la gráfica de un conjunto de datos compuesta por una serie de rectángulos, cada uno con un ancho proporcional al rango de los valores de cada clase y altura proporcional a la frecuencia absoluta o frecuencia relativa de cada clase. La frecuencia relativa puede ser en porcentaje o en forma decimal (densidad). Se utiliza para representar gráficamente la distribución de variables cuantitativas continuas con agrupamiento de datos. El polígono de frecuencias es la línea que une los puntos medios (marca de clase) de cada clase de un conjunto de datos, trazada a la altura correspondiente a la frecuencia de los datos. El propósito del polígono de frecuencias es simular la función de densidad de la distribución de datos.

 DATOS AGRUPADOS HISTOGRAMA Y POLÍGONO DE FRECUENCIAS

Histograma de Horas

Histograma y poligono de frecuencias 22

45

20

40 35

16

30

14

Porcentaje

Frecuencia absoluta

18

12 10 8

25 20 15

6

10

4

5

2 0.70

3.05

5.40

7.75

Horas

10.10

12.45

14.81

0

0.70

3.05

5.40

7.75

10.10

12.45

14.80

Horas

El histograma muestra la distribución del tiempo de uso por semana del ordenador. El polígono de frecuencias simula la función de densidad de la distribución de datos. Hist

 DATOS AGRUPADOS OJIVA DE FRECUENCIAS (OJIVA DE GALTON) La ojiva es la gráfica de una distribución de frecuencias acumuladas, ya sea absoluta o relativa. Se traza uniendo los límites de cada clase del conjunto de datos. Una ojiva permite observar porcentaje de los datos que está por debajo o por arriba de ciertos valores, en lugar de hacer un mero registro del número de elementos que hay en cada intervalo. El propósito de la ojiva de frecuencias es simular la función de distribución empírica (función de densidad acumulada) del conjunto de observaciones. Ojiva de frecuencias

Frecuencia relativa acumulada (%)

100

96

100

80

80

60

La frecuencia relativa acumulada puede ser en porcentaje o en forma decimal (probabilidad)

86

52

40

20

0

12

0.70

3.05

5.40

7.75

Horas

10.10

12.45

14.81

 DATOS AGRUPADOS Lo deseable es que los datos describan una distribución aproximadamente normal, configurando una curva en forma de campana. Por ejemplo, en una distribución normal simétrica, a una desviación estándar tanto hacia la izquierda como a la derecha deben concentrarse aproximadamente el 68.3% de los datos, a 2 desviaciones estándar el 95.4% y a 3 el 99.7%  1

68.26894% de los datos

 2  3

95.44997% de los datos 99.73002% de los datos

 4

99.99367% de los datos

 DATOS AGRUPADOS El número de desviaciones estándar a la que se encuentra ubicado un dato a partir de la media se puede determinar restándole al dato la media y luego dividirlo por la desviación estándar. A ese número de desviaciones estándar se le llama valor z y se obtiene a través de la siguiente fórmula:

zi 

xi  x zi  s

xi  



La función de densidad normal para cualquier serie de datos con media  y desviación estándar  se puede construir graficando la siguiente función:

f  x 

1 e  2

 x   12     

2

f z 

0.4 e

 0.5 z 2



Ahora bien, para graficar la función de densidad normal estándar, con media cero (µ=0) y desviación estándar uno (=1), se utiliza la siguiente función simplificada:

f  z   0.4 e

 0.5 z 2

   

N 0,1

 DATOS AGRUPADOS GRAFICANDO LA FUNCIÓN DE DENSIDAD NORMAL En el caso de datos sin agrupar, la curva normal se obtiene utilizando la función de densidad. Para sobreponer la curva normal estandarizada a un histograma (datos agrupados), se le agrega a la función de densidad el intervalo de clase (I). El eje y se escala tomando en cuenta las frecuencias relativas de clases. Como xi se utilizan los límites inferiores de clase, el límite superior de la última clase, las marcas de clases y el valor de la media aritmética. Para cada xi se calculan los valores zi, luego f(zi), finalmente, se grafican los puntos [xi,f(zi)] y unen los puntos formando la curva (campana de Gauss).

xi  x zi  s

0.4 I e f z  s

 0.5 z 2

Para calcular puntos adicionales simétricos (xis) se utiliza:

xi s    zi   s  x

 DATOS AGRUPADOS Para el tiempo del uso de la computadora se tiene: zi 

xi  x 0.7  5.96   1.74 3.03 s

0.4 I e 0.5 z f  z  s 2  0.5  1.74    0.4 2.35 e f  z   0.07 3.03 2

Punto :  0.7, 0.07 

xi s    zi   s  x xi s    1.74   3.03  5.96 xi s  11.23 Punto : 11.23, 0.07 

xi

zi

f (zi )

0.70 1.88 3.05 4.23 5.40 6.58 7.75 8.93 10.10 11.28 12.45 13.63 14.80 5.96

‐1.74 ‐1.35 ‐0.96 ‐0.57 ‐0.18 0.20 0.59 0.98 1.37 1.76 2.14 2.53 2.92 0.00

0.07 0.13 0.20 0.26 0.30 0.30 0.26 0.19 0.12 0.07 0.03 0.01 0.00 0.31

 DATOS AGRUPADOS Al graficar los puntos se configura la curva de la función de densidad normal. Luego se procede a unir los puntos a mano alzada y graficar el histograma 0.35 0.30 0.25

fr 12.00 40.00 28.00 6.00 10.00 4.00

0.20 0.15 0.10 0.05 0.00 ‐1.65

0.70

3.05

5.40

7.75

10.10

12.45

14.80

 DATOS AGRUPADOS Un histograma permite tener una idea de la forma de la distribución de datos. En el caso del tiempo de uso de la computadora, la curva descrita evidencia cierto grado de sesgo positivo (formación de una cola hacia la derecha del gráfico). Si los datos tiende a agruparse en las primeras clases, se dice que la distribución tiene un sesgo positivo. Si los datos tienden a agruparse en las últimas clases de la distribución de frecuencias, se dice que esta tiene sesgo negativo. Histograma y ajuste normal Media 5.706 Desv.Est. 3.128 N 50

40

Frecuencia relativa (%)

35 30 25 20 15 10 5 0

-1.65

0.70

3.05

5.40

7.75

Horas

10.10

12.45

14.80

Se observa sesgo positivo  de la distribución de datos

 DATOS AGRUPADOS HISTOGRAMA Y AREA (PORCENTAJE DE DATOS) Histograma y área (procentaje de datos)

fr I 12 fru  2.35 5.11% fru  h fru 

35 Frecuencia relativa (%)

fr fru  I 4 fru  2.35 1.70% fru  h

40%

40

30

28%

25 20 15

12%

10%

10

6%

5 0

5.11% 0.70

17.02%

3.05

11.91%

5.40

4%

2.55%

7.75

4.26%

10.10

1.70%

12.45

14.80

Horas %datos

Histo

 DATOS AGRUPADOS HISTOGRAMA Y AREA (PORCENTAJE DE DATOS) La suma del área de las barras es igual a la unidad, que en porcentaje representa el 100% de los datos. Así, la frecuencia relativa de cada barra es el porcentaje de datos que queda incluido en cada una. Por ejemplo, para aproximar el porcentaje de personas que utiliza la computadora al menos 9 horas se procede de la siguiente manera: 10.10h  9.0h  1.10h 2.55% 1.10h   2.81% h 4%  10%  2.81%  16.81%

Ahora para aproximar el porcentaje de personas que la utiliza la computadora entre 2 y 6 horas inclusive. 3.05h  2.0h  1.05h 1.05h 

5.11%  5.37% h

6.0h  5.4h  0.6h 0.6h 

40%  5.37%  7.15%  52.52%

11.91%  7.15% h Histo

 DATOS AGRUPADOS HISTOGRAMA Y AREA (PORCENTAJE DE DATOS)

52.52% 16.81%

x

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

x

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

 MEDIDAS DE FORMA Adicionalmente a los histogramas para observar la forma de distribución de los datos, también es posible estudiarla empleando métodos numéricos. Las medidas de forma son valores que proveen información del aspecto de la distribución de datos. Estas medidas se conocen como SESGO y CURTOSIS. Una se refiere a la forma de la dispersión de los datos y la otra a la forma de la concentración de los mismos, respectivamente.  Medidas de asimetría Coeficiente de asimetría de Fisher Coeficiente de asimetría de Yule‐Bowley Coeficiente de asimetría de Pearson  Medidas de curtosis Coeficientes de curtosis de Fisher Coeficiente de curtosis de Pearson Coeficiente de curtosis de Moors

 MEDIDAS DE FORMA: SESGO  Se dice que una distribución en simétrica si se puede doblar a lo largo de un eje vertical central, de manera que ambos lados coincidan. Una distribución normal tiene la mayor concentración de datos en la región central. Así mismo, la media, moda y mediana son iguales. Cuando no ocurre esa situación se dice que la distribución está sesgada. En ese sentido, puede que exista asimetría positiva o negativa. Cuando la media es mayor que la mediana el sesgo se da a la derecha (asimetría positiva) porque se hace una cola hacia esa dirección. Cuando la media es menor que la mediana, entonces el sesgo se da a la izquierda (asimetría negativa) y la cola es larga en esa dirección. La asimetría positiva indica que los valores más extremos son mayores que la media. La asimetría negativa indica que los valores más extremos son menores que la media. Los índices de asimetría de Fisher próximos a cero indican simetría.

 MEDIDAS DE FORMA: SESGO  Tal y como se ha mencionado, la dispersión de los datos se presenta en tres formas. Cada una define y precisa la forma de cómo están distribuidos los datos respecto al eje de simetría (la mediana). 1. Asimetría positiva. Cuando la cola más dispersa se extiende sobre el lado de los valores más altos de la variable con escasa frecuencia. 2. Simétrica, si la dispersión es igual o similar en ambos lados de distribución de frecuencias respecto a eje de simetría. Una distribución normal simétrica es una distribución con colas ligueras. 3. Asimetría negativa. En el caso que la cola más dispersa se extiende sobre el lado de los valores más pequeños y con escasa frecuencia.

 MEDIDAS DE FORMA: SESGO  ASIMETRÍA POSITIVA A>0

DISTRIBUCIÓN SIMÉTRICA A=0

22

18

20

16

18

20 18

14

16

12

14

16 14

ASIMETRÍA NEGATIVA A<0

12

10

10

8

12 10 8

8

6

6

6

4

4

4 2

2 3

8

13

18

23

28

33

38

Mo Me Media

43

48

2

0

3

8

13

18

23

28

33

Mo Me Media

38

43

48

0

50

50

45

45

45

40

40

40

35

35

35

30

30

25

25

20



30 25

20

20

15

15

10

10

10

5

5

5

0

0

0

15

13

18

23

28

33

38

43

Media<Me<Mo

50



8

48

Media Me Mo

Mo=Me=Media

Media>Me>Mo

3



 MEDIDAS DE FORMA: SESGO  ASIMETRÍA POSITIVA A>0 22

18

20

16

18

ASIMETRÍA NEGATIVA A<0

DISTRIBUCIÓN SIMÉTRICA A=0

20 18

14

16

12

14

16 14 12

10

10

8

12 10 8

8

6

6

6

4

4

4 2

2 3

8

13

18

23

28

33

38

Mo Me Media

43

48

0

simétrica

3

8

13

18

23

28

33

Mo Me Media

38

43

0

48

Media Mediana Moda 18.39 18 8 25.5

Asimétrica: sesgo negativo 32.61

3

8

13

18

23

28

33

38

43

48

Media Me Mo

Media<Me<Mo

Mo=Me=Media

Media>Me>Mo Distribución Asimétrica: sesgo positivo

2

Q1 8

Q3 IQR Asimetría 24.25 16.25 0.83

25.5

25.5

18

33

15

0

33

43

26.75

43

16.25

-0.83

 MEDIDAS DE FORMA: SESGO COEFICIENTES DE ASIMETRÍA (A)  PEARSON* 

YULE‐BOWLEY (1920)

3  x  Me  A s

Q3  Q1  2Q2 A Q3  Q1

Si A≥1 ó A≤1, los datos se consideran significativamente sesgados.

DATOS AGRUPADOS n

A

DE FISHER n

n  xi  x 

3

3 1  ei i 1 A  t s3 s 3  n  1 n  2 

DATOS SIN AGRUPAR: Excel e InfoStat

n  M i  x  f i 3

i 1 3

s  n  1 n  2 

POBLACIONAL n

A

 x    i 1

i

n3

3

 MEDIDAS DE FORMA: CURTOSIS La curtosis (k o g2) surge al comparar la forma de una distribución en particular con la forma de una distribución normal. Las medidas de curtosis ofrecen una idea sobre la concentración de datos (masa de probabilidad) en la zona central, así como, en las colas de la distribución de frecuencias. La mayor o menor concentración de frecuencias a los extremos de la media y en la zona central de la distribución dará lugar a una distribución más o menos apuntada en comparación con la distribución normal. Por esta razón a las medidas de curtosis se les llama también de apuntamiento. Las medidas de curtosis se aplican a distribuciones campaniformes, es decir, unimodales con ligera asimetría.

 MEDIDAS DE FORMA: CURTOSIS Según el valor del coeficiente, las curvas pueden clasificarse en platicúrticas, mesocúrticas o leptocúrticas. Un valor grande y positivo para la curtosis indica que las colas de la distribución son más largas que las de una distribución normal; un valor negativo para curtosis indica colas más cortas (llegando a ser como las de una distribución uniforme en forma de caja). Al representar gráficamente variables con curtosis pequeña, platicúrticas, se observan curvas o histogramas con colas cortas y aspecto aplanado. Si la variable tiene curtosis grande, es decir, si es leptocúrtica, su gráfica tiende a ser alta, con colas largas y pesadas. En comparación con la distribución normal, una distribución con colas pesadas tiene más datos en sus extremos inferior y superior.

 MEDIDAS DE FORMA: CURTOSIS La importancia de la curtosis está, en parte, relacionada al hecho que, en la misma forma que la asimetría afecta la inferencia respecto a la media, alta curtosis afecta la inferencia respecto a medidas de dispersión. Otra motivación para el estudio de la curtosis es que un valor alto de esta medida se relaciona con una distribución de colas pesadas. Las medidas de curtosis y asimetría están fuertemente relacionadas, dado que ambas otorgan importancia a las colas de la distribución. Cabe esperar que el coeficiente de curtosis sea más sensible a las colas de la distribución y esté correlacionada con la medida de asimetría. En la práctica, al tratar con datos y distribuciones empíricas puede ser mejor calcular más de una estadística de curtosis debido a que cada una tiende a ser más sensible que otras dependiendo de la concentración de datos en la parte central o en las colas de la distribución.

 MEDIDAS DE FORMA: CURTOSIS Las distribuciones de colas pesadas como la exponencial o gamma son adecuadas para representar series de datos cuando ocurren muchos valores extremos. El coeficiente de variación se puede utilizar para generar una idea del peso de las colas. Las distribuciones con colas pesadas presentan un coeficiente da variación mayor que uno. Por otra parte, cabe destacar que existen distribuciones de datos que presentan colas mas pesadas que la exponencial con un coeficiente de variación mayor que uno. Las distribuciones de colas ligeras tienen colas menos pesadas que la exponencial con un coeficiente de variación menor que uno y la situación límite corresponde a la distribución exponencial con un coeficiente de variación igual a uno.

 DATOS AGRUPADOS Mayor cantidad de datos en la parte central, la cual disminuye gradualmente hacia los extremos.

MESOCÚRTICA, igual de apuntada que la normal.

k 0 5

10

15

20

25

30

35

40

45

50

55

60

65

70

75

80

k 0

20

100

10

k0 5

15

95

PLATICÚRTICA, aplanada en comparación con la normal.

LEPTOCÚRTICA, más apuntada que la normal.

10

90

Los datos se distribuyen formando una región central amplia más o menos uniforme, poco diferenciada o gradualmente diferenciada respecto a los extremos.

Los datos se concentran en una región estrecha de la parte central de la distribución, claramente diferenciada en comparación con los extremos

5

85

25

30

35

40

45

50

55

60

65

70

75

80

85

90

95

100

10

10

15

20

25

30

35

40

45

50

55

60

65

70

75

80

85

90

95

100

105

 MEDIDAS DE FORMA: CURTOSIS DATOS SIN AGRUPAR Basado en octiles (Moors, 1988)*

Coef. De curtosis percentílico

P 7   P 5   P 3   P 1  8 8 8  1.23 k 8 P 6   P 2 

k

8

8

InfoStat (Pearson) n

k

x   i 1

i

n

4

Excel (Fisher)  n

4

3

n

4 n  n  1   M i  x  f i

n  n  1   xi  x 

4

2   3 n  1 i 1 k 4      s n  1 n  2 n  3  n  2  n  3

DATOS AGRUPADOS (Fisher) 2 3  n  1 k 4      s n  1 n  2 n  3  n  2  n  3 i 1

Q3  Q1  0.263 2  P90  P10 

 MEDIDAS DE FORMA: NORMALIDAD Y DESVIACIONES Distribución simétrica con cola ligera

Distribución normal 21

20

20

16

14

14

12

12

Frecuencia

Frecuencia

15

10

10

6 2

1 0

9

10

7

8 6

4

4

4

5

-2.4

-1.6

-0.8

0.0

0.8

1.6

0.0

2.4

0.3

Normal Asimetría Curtosis Si ‐0.16 0.05

Distribución simétrica con cola ligera

19 16

11

12

9 7 4

5

15

14

Frecuencia

Frecuencia

15

16

15

10

0.9

Normal Asimetría Curtosis No 0.03 ‐1.06

Distribución asimétrica con cola ligera 20

0.6

uniforme

Normal

5

4

10

9 7

8 6

5

4

2

2 0

0.72

4

2 0

-3.2

14

0.80

0.88

0.96

Dis beta

Normal Asimetría Curtosis No ‐0.81 ‐0.52

1.04

0

1.2346E-01 2.4030E-01 3.5715E-01 4.7400E-01 5.9084E-01 7.0769E-01 8.2454E-01 9.4138E-01

Beta

Normal Asimetría Curtosis Si ‐0.03 ‐0.83

 MEDIDAS DE FORMA: NORMALIDAD Y DESVIACIONES Distribuciones simétricas con colas pesadas 21

21

25

23

20

24

20

Frecuencia

Frecuencia

15

10

7 5

5

-2.4

3

-1.6

-0.8

0.0

0.8

1.6

2.4

5

3.2

Student5

20

Frecuencia

20

15

9

10

6 2 -3

1 -2

-1

0

4

3

1

Student10

Normal Asimetría Curtosis Si 0.23 0.71

2

1 3

4

2

1

0 -3.235E+00 -2.125E+00 -1.014E+00 9.7264E-02 1.2082E+00 2.3191E+00 3.4300E+00 4.5409E+00

Normal Asimetría Curtosis Si 0.29 1.48

25

25

0

7

Laplace

Normal Asimetría Curtosis Si 0.62 0.73

5

10

5 2

0

15

 MEDIDAS DE FORMA: NORMALIDAD Y DESVIACIONES Distribuciones asimétricas con colas pesadas 25

25

18

15

16 14

20

Frecuencia

Frecuencia

12 15

13

11 10

7

0.1

3

1.3

2.5

Frecuencia

20

14

10

5

0

4

3 0

5

2

0

-1

5

11

Normal Asimetría Curtosis No 0.5 ‐0.66

25

15

5

chi10

Normal Asimetría Curtosis No 1.53 1.88

15

8

2

3.7

expon

25

8

8

4

0 -1.1

10

10

6

5

5

0

16

10

chi5

Normal Asimetría Curtosis No 1.21 1.3

2

1 15

17

23

 MEDIDAS DE FORMA: CURTOSIS En algunos casos los coeficientes de asimetría y curtosis pueden no reflejar la forma real de la distribución, especialmente cuando hay uno o más valores atípicos en la serie de datos. Por esta razón, puede ser difícil dar una interpretación sensata a los valores de estas medidas simplemente por no saber si están afectados por valores atípicos. Por ello es deseable contar con mediciones robustas de asimetría y curtosis que no sean demasiado sensibles a valores atípicos. En este sentido, Bowley (1920) propuso un coeficiente de asimetría basado en cuantiles. Otro estadístico robusto es el coeficiente de asimetría de Pearson que considera la media aritmética, la mediana y la desviación estándar. Moors (1988) demostró que el coeficiente de curtosis puede ser grande cuando la masa de probabilidad está centrada cerca de la media o en las colas de las distribuciones. Con base en esta interpretación, propuso una alternativa robusta para el coeficiente de curtosis basada en octiles. En este caso se debe considerar que siete octiles dividen a la serie de datos en ocho partes iguales. El primer octil equivale al percentil 12.5 (O1=P12.5), O2=P25=Q1, O3=P37.5, O4=P50=Me, O5=P62.5, O6=P75=Q3 y el octil 7 (O7) equivale al percentil 87.5 (P87.5)

 MEDIDAS DE FORMA: SESGO Para el ejemplo, horas de uso de la computadora: M

1.88 4.23 6.58 8.93 11.28 13.63 Suma

f 6.00 20.00 14.00 3.00 5.00 2.00 50.00

3

4

n

(M‐media) *f i (M‐media) *f i

‐410.21 1677.33 ‐105.18 182.91 3.19 1.95 77.88 230.61 749.03 3978.10 899.26 6889.25 1213.98157 12960.14410

A

n  M i  x  fi

2 3  n  1 k 4      s n  1 n  2 n  3  n  2  n  3 50  51 12960.14 3  492 k  4 3.03  49  48  47 48  47 k  0.35 Leptocúrtica, más apuntada i 1

que la normal

i 1 3

s  n  1 n  2  50 1213.98  A 3.033  49  48  A  0.93 Asimetría positiva, con 

n

4 n  n  1   M i  x  f i

3

cola hacia la derecha

 MEDIDAS DE FORMA COEFICIENTE DE ASIMETRÍA Y CURTOSIS  ESTANDARIZADOS (STATGRAPHICS SOFTWARE)  Se utilizan para determinar si la variable sigue una distribución normal. De ser así, los coeficientes de asimetría y curtosis deben oscilar entre ‐2 y 2, que sería el rango esperado para una distribución normal. Los valores de estos estadísticos fuera del rango indicado indican alejamiento significativo de normalidad, lo que tendería a invalidar cualquier prueba estadística con referencia a la desviación estándar. Si la distribución de los datos muestrales es normal, entonces el coeficiente de asimetría tiene distribución asintótica normal de media cero y varianza 6/n, por lo que se puede emplear para estandarizar el coeficiente de asimetría.

A* 

A0 A n  6 6 n

 MEDIDAS DE FORMA COEFICIENTE DE ASIMETRÍA Y CURTOSIS  ESTANDARIZADOS (STATGRAPHICS SOFTWARE)  Del mismo modo, si la distribución de los datos muestrales es normal, entonces la curtosis tiene distribución asintótica normal de media cero y varianza 24/n, por lo que se puede emplear para estandarizar el coeficiente de curtosis.

k* 

k 0 k n  24 24 n

El valor estandarizado se obtiene, en términos generales, restando la media y dividiendo por su correspondiente desviación estándar.

 MEDIDAS DE FORMA COEFICIENTE DE ASIMETRÍA Y CURTOSIS  ESTANDARIZADOS (SPSS SOFTWARE)  El análisis descriptivo de datos utilizando el programa estadístico SPSS reporta los valores del error estándar (EE) tanto del coeficiente de asimetría (A) como del de curtosis (k). La relación de asimetría o curtosis a su error estándar (A/EE, k/EE) se puede usar como una prueba de normalidad (es decir, puede rechazar la normalidad si la proporción es menor que ‐2 o mayor que +2. Al emplear el criterio anterior (Statgraphics software) o el expuesto (SPSS software), con base en los coeficientes de asimetría y curtosis estandarizados, es posible concluir en que una serie de datos sigue una distribución normal cuando:

2  A*  2

y

 2  k*  2

 MEDIDAS DE FORMA COEFICIENTE DE ASIMETRÍA Y CURTOSIS  ESTANDARIZADOS (STATGRAPHICS SOFTWARE)  Para nuestro ejemplo tenemos que los coeficientes de asimetría y curtosis estandarizados son:

A n 0.93 50 A   6 6 A*  2.68 *

k n 0.35 50 k   24 24 k *  0.51 *

Como el valor del coeficiente de asimetría estandarizado excede de 2, se concluye que la muestra no proviene de una población con distribución normal. Los datos no se distribuyen normalmente. Por tanto, en cuanto al resumen de medidas descriptivas se tiene que:

Incorrecto Correcto

  5.96  3.03 Me  5.28  7.33  3.81

 EJERCICIO DE REPASO Cuando no se tiene previsto calcular coeficientes de asimetría y curtosis utilizando las expresiones de Fisher, la tabla de frecuencias aumentada pude contener solo los siguientes encabezados. CLASES LI LS

M

Absoluta A. Acum Relativa R. Acum f F fr FR

M ×f

M2*f

 EJERCICIO DE REPASO Los siguiente datos se refieren al consumo de frijol per cápita por año  expresado en libras, los cuales se obtuvieron a partir de una muestra  seleccionada aleatoriamente de 120 guatemaltecos.  a) Elaborar una tabla de frecuencias b) Calcular la media aritmética, moda y mediana. c) Determinar la desviación estándar y el coeficiente de variación. d) Calcular el rango intercuartil y la desviación intercuartílica. e) Graficar el histograma, polígono y ojiva de frecuencias.  f) ¿Qué porcentaje de guatemaltecos consume entre 19 y 25 libras de  frijol por año inclusive? g) ¿Cuántos guatemaltecos de la muestra consumen a lo sumo 20  libras de frijol por año? h) Clasifique el tipo de distribución con base a los estadísticos de  forma. i) Determine los coeficientes de asimetría estandarizados ¿Siguen los  datos una distribución normal? ¿Por qué?

 EJERCICIO DE REPASO 12.10

12.30

12.40

22.40

22.60

22.70

22.70

22.80

23.50

13.50

23.60

23.90

24.20

14.20

24.30

24.50

24.50

15.00

15.90

16.10

16.30

16.60

17.10

17.10

17.30

17.50

25.30

18.30

18.40

26.50

27.00

18.90

19.00

25.80

19.20

19.30

26.40

19.50

19.50

19.70

19.70

19.80

19.80

20.10

20.10

20.40

20.50

20.70

20.80

20.80

20.80

21.00

21.00

21.10

21.20

21.30

21.50

21.90

21.90

20.10

20.20

22.40

22.40

22.40

22.70

22.70

22.70

22.80

22.80

23.20

23.20

23.40

23.40

23.50

23.50

23.70

25.60

25.70

25.80

25.00

25.10

25.60

25.70

25.80

26.50

26.60

26.70

26.70

26.80

27.00

27.00

27.00

27.10

27.10

27.20

27.30

27.40

27.40

27.50

27.50

27.60

27.60

27.70

27.80

27.80

28.00

28.20

28.30

28.30

28.70

29.10

29.20

29.30

29.30

29.40

29.50

29.50

29.60

29.60

29.80

CLASES LI LS

M

Absoluta A. Acum f F

M ×f

M‐

Relativa R. Acum fr FR

(M‐)2

(M‐)2*f

%datos

(M‐)3*f

(M‐)4*f

 EJERCICIO DE REPASO A continuación se presenta el histograma y los valores correspondientes a la producción (en gramos) de hule seco por sangría, por planta de hule, en el área A de la Hacienda "Caballo Blanco", Génova Costa Cuca, Quetzaltenango. A) Determine el porcentaje de los árboles que tienen una producción entre 14 y 21 gramos de hule seco. B) ¿Cuál es el valor de hule seco sobre el cual queda el 15% de árboles con mayor producción? C) Si los valores de asimetría y curtosis son ‐0.12 y ‐0.83, respectivamente, indique el tipo de asimetría y curtosis que presenta la distribución de los datos. D) ¿Siguen los datos una distribución normal? ¿por qué? 23 13 18

14 17 14

19 17 21

24 19 23

25 24 21

22 18 23

24 10 25

11 18 13 26 28 21 15 16 21 14 21 19 20 23 27 65% 41.67% 23.33% 100% 21.67% 20% 14 81.67%18.33% 16.67% 15% 12 11

25 20 Porcentaje

12 21 27

22 21 20

10

9

15 10

19 14 26

6.67%

4

5 0

5% 10

7.78%

13 16 19 22 25 Intervalos de clase (hule seco en gramos)

28

18 25 18

27 28 16

10 23 16

17 13 15

26 20 16

 EJERCICIO DE REPASO Calcule la media aritmética, la desviación estándar y analice la siguiente serie de datos utilizando medidas de forma. Concluya en relación al aspecto de la distribución. 3

33 n

A

30

n  xi  x  i 1

14

7

17

3

s  n  1 n  2  3

36

38 n

k

  xi    i 1

n 4

26 4

3

44

 EJERCICIO DE REPASO Una empresa de servicios de recreación estudia la cantidad que gastan al día en alimento y bebida las familias que visitan un parque de diversiones. Una muestra de 40 familias que visitó el parque la semana pasada revela que han gastado las siguientes cantidades en dólares: 77 41 60

18 58 60

63 58 45

84 53 66

38 51 83

54 62 71

50 43 63

59 52 58

54 53 61

56 63 71

36 62

26 65

50 61

34 61

44 52

a) b) c) d) e) f) g)

Elabore una tabla de frecuencias Calcular la media aritmética y la moda. Determinar la desviación estándar y el coeficiente de variación. Calcular la mediana y el rango intercuartil. ¿Cuál es la cantidad sobre la cual queda el 15% de familias que más gastan? Graficar el histograma, el polígono de frecuencias y la ojiva de frecuencias.  ¿Cuántas familias gastan entre 18 y 57 dólares inclusive? ¿Qué porcentaje gasta 50  dólares o más? h) Clasifique el tipo de distribución con base a los coeficiente de asimetría y curtosis e  interprete. ¿Los datos siguen una distribución normal? ¿Por qué?

Calcular el número clases utilizando el criterio de Sturges

 EJERCICIOS DE REPASO A continuación se muestran los histogramas de las notas obtenidas por los estudiantes en tres exámenes del curso. Para cada uno de los tres casos, opere y conteste las siguientes preguntas: a) b) c) d) e) f) g)

Elabore la tabla de frecuencias y demás columnas requeridas Calcular la media aritmética y la moda. Determinar la desviación estándar y el coeficiente de variación. Calcular la mediana y el rango intercuartil. Graficar el polígono de frecuencias y la ojiva de frecuencias.  ¿Qué porcentaje de alumnos obtuvieron al menos 61 puntos.  ¿Cuál es la nota bajo la cual queda el 25% de los alumnos con menor  nota? h) Clasifique el tipo de distribución con base a los coeficiente de asimetría y  curtosis e interprete.  i) ¿Cuál de los tres casos se asemeja más a una distribución normal y por  qué? Los respectivos histogramas se presentan en la siguiente diapositiva

 EJERCICIOS DE REPASO 18 16

13

12

11

10

10

8

8

6

6

14

12

12 Frecuencia absoluta

Frecuencia absoluta

14

10

9

8

8

7

6 4

4

2

2 0

14

14

16

5.00

20.84

36.68

52.52

68.36

84.20

0

100.04

5.00

20.84

36.68

Clases (notas)

Examen 1

68.36

84.20

15

15

11

10

10

8

5

0

100.04

Examen 2

20

20

Frecuencia absoluta

52.52 Clases (notas)

0 5.00

20.84

36.68

52.52 Clases (notas)

68.36

84.20

100.04

Examen 3

 TABLA DE FRECUENCIAS VARIABLES DISCRETAS SIN AGRUPACIÓN En ciertos casos donde la variable es discreta, es necesario organizar datos utilizando tablas de frecuencias sin recurrir a la agrupación de datos y formación de intervalos, principalmente, cuando las distintas observaciones de la variable de estudio son relativamente pocas, pero que se repiten un número significativo de veces. El cálculo de los estadísticos característicos del conjunto de datos pueden obtenerse a través de procedimientos análogos a la agrupación de datos, no obstante, el histograma como opción gráfica no aplica. Pueden utilizarse gráficos circulares o de barras para presentar las frecuencias. A continuación se muestra el procedimiento para obtener las medidas de tendencia central y de dispersión para este tipo particular de casos.

 TABLA DE FRECUENCIAS VARIABLES DISCRETAS SIN INTERVALO La MODA es la observación con mayor frecuencia absoluta. La MEDIANA se obtiene a partir de la frecuencia absoluta acumulada y el cociente n/2, siendo n el número total de datos. Se calcula así:  Si en la distribución de frecuencias no aparece ninguna frecuencia absoluta acumulada igual a n/2, se toma como mediana la observación cuya frecuencia absoluta acumulada es la menor que contiene a n/2.  Si en la distribución de frecuencias aparece una observación cuya frecuencia acumulada es igual a n/2, la mediana es el promedio entre esa observación y la siguiente. En este caso n debe ser par.

 TABLA DE FRECUENCIAS VARIABLES DISCRETAS SIN INTERVALO El promedio corresponde a una media ponderada:

xp

x p x f    p f i

i

i

i i i

La desviación estándar se calcula utilizando cualquiera  de las siguientes expresiones:   x f  i i  k 2  xi f i   i 1k  i 1  fi k

k

s

x i 1

f x

2 i i

n 1

k

2

f i 1

i

s

i 1

n 1

2

 TABLA DE FRECUENCIAS VARIABLES DISCRETAS SIN INTERVALO En un estudio de la dinámica poblacional del gusano medidor (Trichoplusia ni) en el cultivo de repollo (Brassica oleracea var. Capitata), el número de plantas en las que se encontraron 0, 3, 5, 6, 7, 9 ó 10 insectos por planta se presentan a continuación. Completar la tabla de frecuencias. Calcular la moda, mediana y media aritmética del número de insectos por planta. Obtener la desviación estándar. No. Insectos No. Plantas 0 7 3 12 5 35 6 28 7 23 9 17 10 12

 TABLA DISTRIBUCIÓN DE FRECUENCIAS VARIABLES DISCRETAS SIN INTERVALO No. Insectos 0 3 5 6 7 9 10

fi 7 12 35 28 23 17 12 134

xi fi 813  xp   f  i 134

x p  6.1 in s planta

Fi 7 19 54 82 105 122 134

2

x if i 0 36 175 168 161 153 120 813

2

xi 0 9 25 36 49 81 100

k

s

f i*x i 0 108 875 1008 1127 1377 1200 5695

x i 1

f x

2 i i

n 1

s  2.4 in s planta

Mo  5 in s planta

Posición 

134  67 2

Me  6 in s planta

k

2

f i 1

i

5695  6.07 2 134  134  1

 TABLA DE FRECUENCIAS VARIABLES DISCRETAS SIN INTERVALO De los registros de una finca, se obtuvo el número de árboles que ha podado cada trabajador por día de una especie forestal. Organice los datos en una tabla de frecuencias. Calcule la media, mediana, moda y el coeficiente de variación del número de árboles podados al día por trabajador. 30 33 35 35 38 38 40 41

30 33 35 35 38 38 40 41

30 33 35 35 38 38 40 41

30 33 35 36 38 38 40 41

30 33 35 36 38 40 40 41

30 33 35 36 38 40 40 41

30 33 35 36 38 40 40 41

30 33 35 36 38 40 40 41

30 33 35 36 38 40 40 41

30 33 35 36 38 40 41 41

30 33 35 36 38 40 41 41

30 33 35 36 38 40 41 41

30 35 35 36 38 40 41  ‐‐‐

33 35 35 36 38 40 41  ‐‐‐

33 35 35 38 38 40 41  ‐‐‐

33 35 35 38 38 40 41  ‐‐‐

No árboles 30 33 35 36 38 40 41

 TABLA DISTRIBUCIÓN DE FRECUENCIAS VARIABLES DISCRETAS SIN INTERVALO Se evalúa la respuesta a la fertilización en el cultivo de rosa y se registra el número de retoños por planta a los 30 días de realizada la misma. Los datos que se obtuvieron son los siguientes: 3, 4, 3, 4, 5, 1, 6, 3, 4, 5, 3, 4, 3, 3, 4, 3, 5, 5, 5, 5, 6, 11, 10, 2, 1, 2, 3, 1, 5 y 2. Con esta información: a) Organice los datos en una tabla de frecuencias. b) Calcule la media, mediana y el coeficiente de variación del número de retoños por planta.

More Documents from "Cristian Padilla"

Cap
May 2020 54
December 2019 70
El Mensaje Celeste.docx
November 2019 64