• EL ANÁLISIS EXPLORATORIO DE DATOS II
AGOSTO DE 2018
Descripciones numéricas de las distribuciones • La descripción inicial que hemos realizado a partir de la exploración de los datos mediante gráficos suele complementarse con una descripción numérica que de una idea de la ubicación o del centro de los datos (medidas de posición), usando cantidades que informen de la concentración de las observaciones alrededor de dicho centro (medidas de dispersión) y mediante medidas numéricas que reflejen otros rasgos de la distribución, como la asimetría y el apuntamiento; medidas numéricas de forma.
¿Qué resúmenes numéricos calcular para una distribución?
•La decisión de qué resúmenes numéricos usar para describir numéricamente una distribución dependerá de la forma de la distribución, es decir, si es simétrica o asimétrica.
La media aritmética o promedio de los datos • Una medida de centro muy usual es la media aritmética, que se define por:
n
1 x = xi n i =1
Si los datos están agrupados en una tabla de frecuencias Media aritmética
K es el número de valores posibles que toma la variable. En esta expresión se asume que la variable toma los valores:
Con frecuencias respectivamente.
N° Hijos Varones
Madres
0 1
278290 509469
2 3 4
339180 177050 92233
5 6 7
50916 27791 15004
8
7328
9+
7366
Ejemplo: Resistencia en Kg/cm2 de 100 baldosas de las fábrica “ de las casas “
Distribución de frecuencias por intervalos de la resistencia de 100 baldosas de la fábrica “de las casas”
De acuerdo a esta definición • En el cálculo de la media aritmética se consideran todos los datos, aún los datos más extremos. Por consiguiente la media es una medida que se verá muy afectada si en los datos hay algunos con valores muy extremos y en ese sentido la media no será muy representativa como centro de la distribución. • Supongamos que en un grupo de 5 estudiantes, para la realización de una tarea ex-aula que consiste en realizar una tarea de Estadística, cada uno de ellos invierte las horas que se indican a continuación: • 3, 2, 30,1, 4 • Si empleamos la media aritmética como medida de centro diríamos que, en promedio, un estudiante de ese grupo invirtió, en promedio, 8 horas de trabajo para completar dicho trabajo. • Inmediatamente nos damos cuenta que esa medida numérica no es representativa del tiempo que ese grupo de estudiantes dedicó a la realización de dicha tarea.
La media es atraída por los valores extremos
•Como se pudo ver en el ejemplo anterior, cuando una distribución es muy asimétrica y además presenta valores muy extremos, entonces no es conveniente usar la media aritmética como medida de centro, ya que no sería representativa del conjunto general de datos, pues es muy sensible a los valores extremos.
Veamos que sucede con la mediana • Primero ordenamos los datos: 1, 2, 3, 4, 30 • Vemos que la mediana es 3. este valor si es representativo del conjunto general de datos. • Entonces la mediana no es afectada por los datos extremos y por esa razón se dice que es una medida robusta. • También podemos observar en este sencillo ejemplo que la mediana difiere mucho de la media. Esto quiere decir que en distribuciones muy asimétricas ambas medidas difieren mucho.
Ahora examinemos las siguientes distribuciones de datos reales
En esta distribución simétrica de tipo normal tenemos
• Media = 12.2 • Mediana = 12.3 • Obsérvese que media y mediana son prácticamente iguales. • En estos casos usaremos la media aritmética como medida numérica de centro.
En este caso, los datos atípicos muy extremos seguramente son datos erróneos
Si hacemos el análisis separando niños y niñas tenemos:
Vemos que ambas distribuciones son simétricas de tipo normal. • HOMBRES • Media = 12.5 Mediana = 12.6 • MUJERES • Media = 11.9 Mediana = 12 • Nuevamente al comparar media y mediana, en ambos casos observamos que prácticamente tienen el mismo valor.
Otra medida de dispersión. La desviación típica o desviación estándar. • La desviación típica mide la dispersión de las observaciones respecto de la media. • ¿por qué se toman las desviaciones al cuadrado? ¿por qué no sumar simplemente las desviaciones respecto a la media?
1 2 s= ( xi − x ) n −1
Varianza • La varianza es el cuadrado de la desviación típica y no se emplea para fines descriptivos. Es útil para temas de teoría estadística. • Puede verse claramente que la suma de desviaciones es grande si las observaciones están muy dispersas respecto de la media, y es pequeña si todas las observaciones se sitúan cerca de la media. • Observe que la desviación típica mide la dispersión de los datos respecto a la media en la escala original.
Propiedades de la desviación típica • s mide la dispersión respecto a la media. Debe emplearse sólo cuando se escoge la media como medida de centro. • s = 0 sólo cuando no hay dispersión, es decir, cuando todas las observaciones tienen el mismo valor. De lo contrario siempre s>0. • s, al igual que la media aritmética, está fuertemente influenciada por las observaciones extremas. Unas pocas observaciones atípicas pueden hacer que s sea muy grande.
Veamos la siguiente distribución asimétrica
• mean sd IQR 0% 25% 50% 75% 100% n • 104.4694 38.4911 6 51 46 75 93.5 126 230 392
•Media = 104.5 •Mediana = 93.5 • la diferencia entre ambas medidas es sustancial
Mediana, cuartiles y diagramas de caja y bigotes • Ejemplo
Percentiles
Diagramas de caja y bigotes (brazos)
Ahora examinemos las siguientes distribuciones de datos reales
En esta distribución simétrica de tipo normal tenemos
• Media = 12.2 • Mediana = 12.3 • Obsérvese que media y mediana son prácticamente iguales. • En estos casos usaremos la media aritmética como medida numérica de centro.
En este caso, los datos atípicos muy extremos seguramente son datos erróneos
construcción
Cálculo de cuartiles en variable discreta
Análisis por grupos
• Vemos que la distribución más asimétrica es la correspondiente a los carros de USA. • ¿Qué esperaríamos de una comparación de media y mediana? • Las distribuciones de la UE y de JAPON si bien presentan cierta asimetría, debe observarse que ésta no es muy pronunciada • ¿Qué esperaríamos de una comparación de la media y la mediana para estas dos distribuciones? • Veamos los resultados en la siguiente vista
• mean sd IQR 0% 25% 50% 75% 100% data:n • American 119.0 39.8 62.0 52 88.00 105.0 150 230 245 • European 80.6 20.2 20.3 46 69.75 76.5 90 133 68 • Japanese 79.8 17.8 28.0 52 67.00 75.0 95 132 79
origen
media
DT
IQR
0%
25%
50%
75%
100%
n
USA
119
39.8
62
52
88
105
150
230
245
UE
80.6
20.2
20.3
46
69.75
76.5
90
133
68
JAP
79.8
17.8
28
52
67
75
95
132
79
•Veamos la variable población municipios 2003”
distribución de la “porcentaje de urbana en los de El Salvador-
•Este tipo de asimetría es frecuente que se presente en variables que expresan tamaño
Porcentaje de población urbana en los municipios de El Salvador-2003 • mean sd IQR 0% 25% 50% 75% 100% n • 32.67 21.9 26.8 0 16.1 25.9 42.9 100 262 • Media = 32.7 • Desviación estándar = 21.9 • RI = 26.8 • Q1 = 16.1 • Mediana = 25.9 • Q3 = 42.9 • Se observa una sustancial diferencia entre media y mediana. En este caso la mediana es más representative como centro de los datos.
Ejemplo 4 (Datos macroeconómicos) En este ejemplo analizamos diversas variables de una base de datos que contiene información macroeconómica de una muestra de países del mundo. Exportaciones En la Tabla 6 y las Figuras 5 y 6 se muestran los resultados del análisis estadístico de las Exportaciones de los países de la muestra. Así, en la Tabla 6 se muestran las medidas descriptivas numéricas de dicha variable y en las Figuras 5 y 6 su histograma y su diagrama de cajas, respectivamente. La media de las exportaciones ha sido 66.718 miles de millones de $ y su mediana 23.4. Esta diferencia refleja el elevado grado de asimetría hacia la derecha que se pone claramente de manifiesto con el histograma (Figura 4, tipo c) y sus coeficientes de asimetría (2.434) y curtosis (5.588). Como ya se comentó esta variable expresa tamaño; es de esperar un histograma asimétrico a la izquierda
Algunas medidas estadísticas
•Media aritmética = 66.7180 •Mediana = 23.4000
Ejemplo:la esperanza de vida al nacer Esperanza de Vida • En la Tabla 7 y las Figuras 7 y 8 se muestran los resultados del análisis estadístico de la Esperanza de Vida al Nacer de los países de la muestra. Así, en la Tabla 7 se muestran las medidas descriptivas numéricas de dicha variable y en las Figuras 7 y 8 su histograma y su diagrama de cajas, respectivamente. • Piensa en esta variable ¿Qué tipo de histograma se esperaría?
Medidas de dispersión: los cuartiles • Caracterizar una distribución sólo con una medida de su centro puede ser engañoso. • Dos países con el mismo ingreso mediano por hogar son muy distintos si uno de ellos presenta extremos de pobreza y riqueza, mientras que el otro tiene poca variación entre familias. • Una manera de medir la dispersión es calcular el rango o recorrido de los datos, el cual muestra la dispersión total de los datos. Depende solo de las observaciones máxima y mínima que podrían ser atípicas. • La descripción de la dispersión se mejora observando la dispersión del 50% de los valores centrales del conjunto de datos. Los cuartiles determinan entre que valores se encuentra la mitad central de las observaciones.
Cálculo de los cuartiles • Teniendo los datos ordenados en orden creciente localizamos la mediana. • El primer cuartil es la mediana de los datos situados a la izquierda de la mediana de la totalidad de los datos. • El tercer cuartil es la mediana de los datos situados a la derecha de la mediana de la totalidad de los datos. • Ejemplo: tenemos el número de operaciones realizadas por una muestra de cirujanos durante un trimestre. • 20, 25, 25, 27, 28, 31, 33, 34, 36, 37, 44, 50, 59, 85, 86
Diagramas de Tukey densidad
• Resumen con 5 números:
0.02
• Mínimo, cuartiles y máximo. • Suelen dar una buena idea de la distribución.
0.04
0.06
0.08
Diagrama de cajas de Tukey: Resumen en 5 números
P25
P50
P75
Máx.
0.00
Mín.
• La zona central, ‘caja’, contiene al 50% central de las observaciones.
40
45
50
55
60
65
Velocidad (Km/h) de 200 vehículos en ciudad
• Su tamaño se llama ‘rango intercuartílico’ (R.I.)
0.03 0.02 0.01
P25
Mín.
P50
P75
Máx.
0.00
• Más allá de esa distancia se consideran anómalas, y así se marcan.
densidad
• Es costumbre que ‘los bigotes’, no lleguen hasta los extremos, sino hasta las observaciones que se separan de la caja en no más de 1,5 R.I.
0.04
Diagrama de cajas de Tukey: Resumen en 5 números
80
90
100
110
120
Velocidad (Km/h) de 200 vehículos en autovía
130
140
Medidas de dispersión P25
P50
Máx.
P75
0.03 0.02
• Amplitud o Rango (‘range’): Diferencia entre observaciónes extremas. • 2,1,4,3,8,4. El rango es 8-1=7 • Es muy sensible a los valores extremos.
Mín.
0.04
0.05
Miden el grado de dispersión (variabilidad) de los datos, independientemente de su causa.
25%
25% 25%
25%
0.01
Rango intercuartílico
Rango
0.00
• Rango intercuartílico (‘interquartile range’): • Es la distancia entre primer y tercer cuartil. 180 170 160 150 • Rango intercuartílico = P75 - P25 • Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores. • No es tan sensible a valores extremos.
190
Los 5 números resumen y el diagrama de caja • Una manera conveniente de describir el centro y la dispersión de los datos es dar la mediana para medir el centro de la distribución, y los cuartiles y las observaciones individuales mínima y máxima para indicar la dispersión. • Estos 5 números presentan una descripción razonablemente completa del centro y la dispersión. • Los 5 números resumen están representados en el diagrama de caja. La altura de la caja es la amplitud del 50% de los datos centrales. El segmento del interior es la mediana. Los extremos de los segmentos perpendiculares a los lados superior e inferior indican la posición de los valores máximo y mínimo, respectivamente. • Como ya se comentó estos diagramas son útiles para hacer comparaciones entre grupos. • La situación relativa de los lados de la caja, y de los extremos de los segmentos exteriores, respecto a la mediana, dan una indicación de la simetría o de la asimetría de la distribución.
¡atención!
•Como los diagramas de caja muestran menos detalles que los histogramas y los diagramas de tallos y hojas, es mejor utilizarlos para la comparación de más de una distribución en un mismo gráfico.
Forma de las distribuciones
Asimetría o Sesgo • Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha. • En las distribuciones simétricas media y mediana coinciden. Si sólo hay una moda también coincide • La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución. • La media tiende a desplazarse hacia las valores extremos (colas). • Las discrepancias entre las medidas de centralización son indicación de asimetría.
Estadísticos para detectar asimetría • Hay diferentes estadísticos que sirven para detectar asimetría. • Basado en diferencia entre estadísticos de tendencia central. • Basado en la diferencia entre el 1º y 2º cuartiles y 2º y 3º. • Basados en desviaciones con signo al cubo con respecto a la media. • Los calculados con ordenador. Es pesado de hacer a mano.
0.15 0.05
0.1
0.05
0.2
0.10
0.10
0.3
0.15
0.4
0.20
0.5
0.20
• En función del signo del estadístico diremos que la asimetría es positiva o negativa. • Distribución simétrica ➔ asimetría nula.
x s
66 %
0.00
x s 78 %
0.0
0.00
78 %
x s
8
10
12
14 x
16
18
20
-2
-1
0
1 x
2
3
0
2
4
6
8 x
10
12
14
Para describir una distribución asimétrica • Es preferible utilizar los 5 números resumen en lugar de la media y la desviación típica. • Utilizar la media aritmética y la desviación típica sólo para distribuciones razonablemente simétricas. • La desviación típica es la medida natural de la dispersión para una clase de distribuciones simétricas: las distribuciones aproximadamente normales.
Apuntamiento o curtosis La curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribución con respecto a la distribución normal o gaussiana. Es adimensional. Platicúrtica (aplanada): curtosis < 0 Mesocúrtica (como la normal): curtosis = 0
En el curso serán de especial interés las mesocúrticas y simétricas (parecidas a la normal).
Leptocúrtica (apuntada): curtosis > 0
Apuntada
Apuntada como la normal
0.4 0.2
0.5
0.1
1.0
0.2
0.6
1.5
0.3
0.8
2.0
Aplanada
x s
x s
x s
68 % 0.0
82 %
0.0
0.0
57 %
0.0
0.2
0.4
0.6
0.8
1.0
-3
-2
-1
0
1
2
3
-2
-1
0
1
2
Siempre debemos tener en cuenta que: • La mejor visión global de una distribución la da un gráfico. • Las medidas numéricas de centro y de dispersión reflejan características concretas de una distribución, pero no describen completamente su forma. • Los resúmenes numéricos no detectan, por ejemplo, la presencia de múltiples picos o de espacios vacíos. Por tal razón:
• REPRESENTA SIEMPRE TUS DATOS GRÁFICAMENTE
Una medida relativa de dispersión: el coeficiente de variación CV • Para comparar la dispersión de variables que aparecen en unidades distintas o que toman valores de magnitudes muy diferentes, es necesario disponer de una medida de variabilidad que no dependa de las unidades o del tamaño de los datos. • Una variabilidad de $500 no representa lo mismo en datos de economía doméstica y en datos correspondientes a economías de distintos países. • Una manera natural de construir una medida de variabilidad que supere esos obstáculos es el llamado Coeficiente de Variación
Coeficiente de variación: compara dispersión respecto a la media de dos o más variables
s CV = 100% x
Propiedades matemáticas de la media aritmética y de la desviación típica
Coeficiente de variación Es la razón entre la desviación típica y la media. • Mide la desviación típica en forma de “qué tamaño tiene con respecto a la media”
S CV = x
• También se la denomina variabilidad relativa. • Es frecuente mostrarla en porcentajes • Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25% (variabilidad relativa)
• Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables. • Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso que en altura.
• No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente • Por ejemplo 0ºC ≠ 0ºF • Los ingenieros electrónicos hablan de la razón ‘señal/ruido’ (su inverso).
Tipificación de una variable
Otras medidas de posición: los percentiles
• mean sd IQR 0% 25% 50% 75% 100% n NA • 4.656667 2.583193 3.875 0.5 2.475 4.7 6.35 9.5 30 1
media
DE
IQR
0%
25%
50%
75%
100%
n
4.7
2.6
3.9
0.5
2.5
4.7
6.4
9.5
30
Ejercicio:
•Se proporciona en la siguiente tabla de frecuencias información sobre el número de horas por semana que cada estudiante de Estadística General dedica para su estudio
Horas de estudio
# estudiantes
0-5
Frec. Absolutas acumuladas
Frecuencias relativas %
Frecuencias relativas acumuladas
Marcas de clase
Anchos de clase
10
2.5
5
5-7
25
6
2
7 – 12
5
9.5
5
12 - 15
10
13.5
3