El análisis exploratorio de datos
En esta presentación se han retomado algunos materiales y datos de: • Salvador Figueras, M y Gargallo, P. (2003): "Análisis Exploratorio de Datos“ y Análisis exploratorio de datos y probabilidad e inferencia estadística. Funes Torres, J. N. y Peña Aguilar, J. A.
¿Qué es el análisis exploratorio de datos o AED?
•ANALISIS EXPLORATORIO DE DATOS: Conjunto de técnicas estadísticas cuya finalidad es conseguir un entendimiento básico de los datos y de las relaciones existentes entre las variables analizadas, principalmente haciendo uso de técnicas gráficas.
Dos estrategias básicas
¿Que es el AED?
•Organizar y presentar los datos de tal forma que hablen por si mismos. •En realidad hay que distinguir entre los datos de que se dispone y el universo más amplio al que se quieren extender las conclusiones. Por ej. La EHPM de El Salvador.
•Desde el punto de vista del AED las cosas son más simples; basta con explorar y comprender los datos disponibles.
Qué hacer ante un conjunto de datos • Plantearnos las siguientes preguntas: • ¿a qué individuos describen los datos? ¿cuántos individuos aparecen en los datos? • ¿cuántas variables contienen los datos? • ¿cuáles son las definiciones exactas de dichas variables?
•¿en qué unidades se ha registrado cada variable? •¿Qué propósito se persigue con los datos? •¿queremos responder alguna pregunta concreta? •¿queremos obtener conclusiones sobre una población?
ETAPAS PARA UN AED • Preparar los datos para poder aplicar cualquier técnica estadística. • Realizar un análisis gráfico de la naturaleza de las variables individuales y un análisis descriptivo numérico para cuantificar algunas características generales de los datos. • Realizar un análisis gráfico de las relaciones entre variables. • Evaluar algunos supuestos básicos subyacentes: Por ejemplo el supuesto de normalidad. Identificar los casos atípicos (outliers) y evaluar su impacto potencial. Evaluar, si es necesario, el impacto de los datos perdidos (missing data)
1.Etapa 1: PREPARACIÓN DE LOS DATOS • Digitación y codificación de los datos teniendo en cuenta los requerimientos del programa a utilizar. Los datos también se pueden importar de archivos ya existentes. • La codificación depende del tipo de variable: datos tipo cadena, numéricos, nominales, ordinales, etc. • Los archivos deben ser tales que se puedan combinar, separar en varias partes según alguna variable, seleccionar casos, transformar variables, ordenar casos, agregar nuevos casos o nuevas variables, etc. • Asociar a la base de datos un libro de códigos o diccionario de datos
Como conseguir este objetivo •El AED proporciona métodos sencillos sistemáticos para organizar y preparar los datos, detectar fallos en el diseño y recogida de los mismos. •Tratamiento y evaluación de datos ausentes (missing values). •Identificación de casos atípicos. •Comprobación de hipótesis subyacentes.
AED univariado para lograr una idea inicial de los datos
•Hacer un análisis estadístico univariado gráfico con el fin de tener una idea inicial de la información contenida en el conjunto de datos. Este análisis dependerá de la escala de medida correspondiente.
Nominal
Ordinal
De intervalo
De razón
Diagramas de barras, de líneas y de sectores Diagramas de barras y Diagramas de caja Histograma y polígono de frecuencias
Moda
Mediana
Rango intercuartílico
Media aritmética
Desviación típica o estándar y coeficiente de variación
Media aritmética y Media geométrica
Desviación típica o estándar y coeficiente de variación
Las escalas más informativas pueden usar las representaciones gráficas y los resúmenes numéricos de las menos informativas
VARIABLES CUALITATIVAS •Los datos de variables cualitativas se agrupan de manera natural en categorías o clases y luego se cuenta el número de datos que aparecen en cada una de ellas •Se pueden representar mediante diagramas de barras, de sectores o de líneas
DIAGRAMA DE BARRAS Diagrama de Barras:
• Para el caso de distribuciones de frecuencias no agrupadas en intervalos, el diagrama de barras es el gráfico más empleado. Que se usa cuando se pretende resaltar la representación de porcentajes o frecuencias de datos que componen un total. Una gráfica de barras contiene barras verticales que representan valores numéricos. Las frecuencias están asociadas con categorías. El objetivo es poner una barra de altura igual a la frecuencia. La gráfica de barras sirve para comparar y tener una representación gráfica de la diferencia de frecuencias o de intensidad de la característica numérica de interés entre las modalidades que asume la variable.
GRÁFICOS DE SECTORES • Los gráficos de sectores, también conocidos como diagramas de "pastel", se divide un círculo en tantas porciones como clases tenga la variable, de modo que a cada clase le corresponde un sector de círculo proporcional a su frecuencia absoluta o relativa. Si el número de categorías es excesivamente grande, la imagen proporcionada por el gráfico de sectores no es lo suficientemente clara y por lo tanto la situación ideal es cuando hay pocas categorías. En este caso se pueden apreciar con claridad dichos subgrupos.
Ejemplo. La población según nivel de estudio del Municipio de Ayutuxtepeque se presenta en el siguiente cuadro:
Parvulari a
1168
Primari ao básica
Educ ación medi a
15895 6842
Superior no universit aria
Técnico universit ario
499
Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.
363
Superior universita ria
4556
Maest ría
70
Doct orad o
7
Total
29400
GRÁFICO DE SECTORES • Elaborar un gráfico de sectores. • Se tienen 8 categorías, por lo tanto debe aparecer el círculo dividido en 8 porciones. La tabla anterior presenta las frecuencias absolutas, habrá que dividir cada dato por el total (29,400) a fin de obtener la frecuencia relativa y luego multiplicar esta última por 100. Por ejemplo, para la categoría de educación básica: (15,895/ 29,400)*100 = 54,06%.
•Es evidente que la mayoría de la población tiene un nivel educativo básico o medio con el 54.06% y 23.27% respectivamente. En general la población de Ayutuxtepeque tiene un nivel educativo relativamente bajo, son muy pocos los que llegan a hacer estudios universitarios.
EJEMPLO
•En un supermercado se pregunta a una muestra de clientes sobre su estado civil
Ejemplo: Variable socioeconómica (SOC): La variable SOC describe la categoría socioeconómica:
1 2 3 SOC = 4 5 6 7
trabajadores agrarios empresarios agrarios obreros autonomos clase media clase alta retirados
Los datos de 75 hogares (o unidades de gasto) son:
373535157553351132231 375333555775142 1734 33353 366 727133253722 752276153533343
Categoría
ni
fi
1.Trabajadores agrarios
8
0,11
1.Empresarios agrarios
9
0,12
1.Obreros
25
0,33
1.Autónomos
3
0,04
1.Clase media
16
0,21
1.Clase alta
3
0,04
1.Retirados
11
0,15
N=75
1
DIAGRAMA DE PARETO •
Diagrama de Pareto: Es como un diagrama de barras en el que se ordenan las clases de mayor a menor frecuencia (absoluta o relativa). En la parte superior de la figura suele trazarse una línea que representa la suma de la frecuencia de cada clase y las que la preceden, esto se usa para identificar la minoría de las características que representan la mayoría de casos.
DIAGRAMA DE PARETO 1.0
0.8
0.6
0.4
0.2
0.0 3
5
7
2
1
4
6
Ejemplo 1: nivel educativo Se ha clasificado a 20 individuos según su nivel de estudios que puede tomar valores:
y se han obtenido los siguientes datos: 11 4 3 3 3 2 2 4 2 2 1 4 2 3 2 3 4 2 3; N=20; k=4
Distribución de frecuencias:
Categorías
ni
fi
1.Sin estudios
3
0,15
1.Primaria
7
0,35
1.Media
6
0,3
1.Superior
4
0,2
N=20
1
La categoría más frecuente es la de estudios primarios y la menos frecuente la de sin estudios
0.40 0.35 0.30 0.25 0.20 0.15 0.10 1
2
3
4
Ejemplo. La población según condición de ocupación del Municipio de Ayutuxtepeque se presenta en el siguiente cuadro:
ÁREA URBANA EL ZAPOTE LOS LLANITOS Total
OCUPADOS
DESOCUPADOS
10966
2832
8531
22329
329
42
477
848
2410
227
2550
5187
13705
3101
11558
28364
Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.
INACTIVOS
Total
BARRAS AGRUPADAS
•Se emplean para hacer comparaciones de las modalidades de una variable cualitativa en el tiempo o el espacio
Ejemplo: El siguiente cuadro presenta el número de homicidios para los años 2004, 2005, 2006, 2007 y 2008, para los municipios de Soyapango, Ilopango y San Martín.
Grupo s de edade s
SOYAPANGO Femeni no
Mascul ino
ILOPANGO Tota l
Femen ino
Mascul ino
SAN MARTÍN Tot al
Femen ino
Mascul ino
Tot al
90
11
42
53
74
79
11
75
86
69
84
6
48
54
77
8
71
79
75
7
54
61
AÑO 2004 Total
15
167
182
12
78
AÑO 2005 Total
14
228
242
5
AÑO 2006 Total
16
246
262
15
AÑO 2007 Total
20
179
199
10
67
AÑO 2008 Total
10
128
138
9
66
Fuente: Fuente estadísticas de homicidios de Instituto de Medicina Legal. Los cadáveres que no se pudo identificar el sexo, no aparecen registrados en el cuadro anterior.
• 4.2- Variables cuantitativas
• Las variables cuantitativas son las que pueden expresarse numéricamente. Una primera clasificación, basada en el tipo de valores que puede tomar, permite distinguir entre variables cuantitativas discretas – que son, frecuentemente el resultado de contar y, por tanto, toman sólo valores enteros – y continuas, que resultan de medir y pueden contener cifras decimales. Variables discretas son el número de lavadoras producidas por una empresa en un año. Variables continuas son aquellas cuyos valores pueden ser cualquier cantidad en un intervalo, como la temperatura, el peso o la altura de una persona o la superficie de las viviendas. • Ejemplo 3 (Encuesta en un supermercado)
EJEMPLO
•Ejemplo. Con la información del VI Censo de Población y V de Vivienda, El Salvador, 2007, se han clasificado las mujeres de El Salvador de 12 años y más, según el número de hijos varones, resultando los siguientes datos.
N° Hijos Varones
0 1 2 3 4 5 6 7 8 9+
Madres
278290 509469 339180 177050 92233 50916 27791 15004 7328 7366
• VARIABLES DISCRETAS QUE TOMAN MUCHOS VALORES Y VARIABLES CONTINUAS
Si la variable analizada es continua o discreta con un elevado número de valores distintos se tabula como una distribución de frecuencias agrupadas y se representa gráficamente mediante histogramas, diagramas de tallos y hojas y boxplots ( diagramas de caja) con el fin de estudiar la forma de la distribución y analizar, en particular, la posible existencia de varias modas en la misma que pongan de manifiesto la presencia de diversos grupos homogéneos en la muestra.
Variables cuantitativas discretas con muchos valores • Ejemplo: Errores de ortografía que comete una secretaria en un dictado de 1000 palabras. n=50 • 10, 8, 2, 20, 5, 6, 2, 15, 9, 25 • 4, 12, 7, 8, 16, 3, 17, 1, 8, 11 • 6,9, 13, 6, 14, 2, 5, 12, 11, 10 • 22, 5, 8, 8, 6, 13, 11, 7, 7, 16 • 9, 5, 13,7, 7, 9, 12, 16, 8, 1
N° de errores 1-5 6 - 10 11 - 15 16 - 20 21 - 25
Frecuencia Frec. Rel. %
Frec. Rel. Ac.
Diagrama de tallos y hojas 1. Situar los tallos de forma vertical en orden creciente de arriba abajo. Trazar una línea vertical a la derecha de los tallos. 2. Repasar todos los datos y situar cada hoja a la derecha de su tallo. 3. Ordenar las hojas de cada tallo en orden creciente.
•Un diagrama de tallos y hojas tiene un aspecto parecido al de un histograma colocado en posición vertical. •Los DTH, a diferencia de los histogramas, mantienen los valores de cada observación. •Interpretamos los DTH como los histogramas, buscando caracterizar su aspecto general e identificando también las observaciones atípicas.
Redondeo • En un histograma se puede escoger las clases. Las clases o tallos de un DTH vienen dadas por los datos. • Hay dos modificaciones de los diagramas de tallos que nos dan más flexibilidad a la hora de representar las distribuciones. • La primera consiste en redondear los datos de manera que el dígito final, después del redondeo, sea adecuado como hoja. Por ejemplo: 3.468,
2.567, 2.981, 1.095, …
En este caso tendríamos muchos tallos si tomamos los tres primeros dígitos como tallos y el último como hoja.
Podríamos redondear así: •3.5, 2.6, 3.0, 1.1, …
División de los tallos • Cuando todas las hojas se sitúan en unos pocos tallos, se pueden dividir éstos para duplicar su número. Cada tallo aparece entonces, dos veces. • Las hojas que van de 0 a 4 se sitúan en el tallo superior y las que van de 5 a 9 en el inferior • El redondeo o la división de tallos es una decisión subjetiva, al igual que la elección del número de clases de un histograma. • Los DTH son útiles cuando se dispone de pocos datos; a lo sumo 100 datos.
DTH para la variable caballos de fuerza de 392 vehículos automotores • n: 392 • 6 4 | 668889 • 15 5 | 222233488 • 59 6 | 00000122333455555555556777777777777888888999 • 112 7 | 00000000000011111222222444555555555555556666788888899 • 168 8 | 00000001123333444444555555555666667788888888888888888889 • (57) 9 | 000000000000000000001222222345555555555555566677777777788 • 167 10 | 000000000000000002355555555555578 • 134 11 | 0000000000000000002223555556 • 106 12 | 0000255599 • 96 13 | 000002357899 • 84 14 | 00000002555555589 • 67 15 | 0000000000000000000000233558 • 39 16 | 0055557 • 32 17 | 0000055555 • 22 18 | 00000 • 17 19 | 000388 • 11 20 | 08
Diagrama de caja
Ejemplo
HISTOGRAMAS
•Cuando una variable cuantitativa la agrupamos en clases o intervalos de clase, el gráfico más frecuentemente usado para representar la distribución de frecuencias es el histograma.
Histograma
Patrones frecuentes de histogramas.
Examen de una distribución • Forma: simétrica (normal o uniforme), asimétrica (a la izquierda o a la derecha), multimodal, sin patrón. • Centro: valor que de forma aproximada divide la distribución en dos partes iguales. • Dispersión: rango de los datos (valor máximo – valor mínimo). Considerar si se ignoran los valores atípicos en casos de que los haya. • Valores atípicos: observaciones individuales que quedan fuera del aspecto general. Buscar posibles explicaciones.
Ejemplo
•Porcentaje de población mayor de 65 años en cada uno de los estados de Estados Unidos en 1996
Diagrama de tallos y hojas para los residentes de 65 años o más en los USA por cada estado. Comparar con el histograma
¿cuántas clases deben seleccionarse? • No hay una sola elección correcta del número de clases de un histograma. • Pocas clases pueden dar un histograma muy apretado con aspecto de rascacielos con todos los valores en unas pocas clases con barras altas y del cual no podamos obtener un examen general inicial de la distribución. Por el contrario muchas clases darán un histograma con aspecto aplastado muy disperso con clases con pocas observaciones o vacías. • Al trabajar con un programa estadístico, éste hace la selección de manera automática (por ejemplo, utilizando la regla de Sturges).
k = 1 + 3 .3 2 (lo g ( n )) • No debe ser menor que 5 ni mayor que 15, salvo algunos casos especiales
Examen de la distribución • La distribución es aproximadamente simétrica y unimodal • El centro de la distribución está próximo al 13% • Si se ignoran las observaciones atípica, los datos van del 10% al 16%. • Observaciones atípicas: dos estados se hallan en los extremos del histograma. Florida tiene un 18.5% de residentes de más de 65 años o más, mientras que Alaska solamente tiene un 5.5%. Una vez identificados los atípicos, buscamos una posible explicación.
Pesos de niños menores de un año
Pesos de niños y niñas separados
Masa corporal
•IMC: Se calcula dividiendo el peso de una persona (en Kg) entre su estatura (en metros) al cuadrado. •Se considera que una persona es obesa si su IMC es superior a 30.
Ejemplo 4 (Datos macroeconómicos) En este ejemplo analizamos diversas variables de una base de datos que contiene información macroeconómica de una muestra de países del mundo. Exportaciones En la Tabla 6 y las Figuras 5 y 6 se muestran los resultados del análisis estadístico de las Exportaciones de los países de la muestra. Así, en la Tabla 6 se muestran las medidas descriptivas numéricas de dicha variable y en las Figuras 5 y 6 su histograma y su diagrama de cajas, respectivamente. La media de las exportaciones ha sido 66.718 miles de millones de $ y su mediana 23.4. Esta diferencia refleja el elevado grado de asimetría hacia la derecha que se pone claramente de manifiesto con el histograma (Figura 4, tipo c) y sus coeficientes de asimetría (2.434) y curtosis (5.588).
Algunas medidas estadísticas • Media aritmética = 66.7180 • Mediana = 23.4000
Ejemplo:la esperanza de vida al nacer • Esperanza de Vida • En la Tabla 7 y las Figuras 7 y 8 se muestran los resultados del análisis estadístico de la Esperanza de Vida al Nacer de los países de la muestra. Así, en la Tabla 7 se muestran las medidas descriptivas numéricas de dicha variable y en las Figuras 7 y 8 su histograma y su diagrama de cajas, respectivamente.
Número de huracanes costa este USA. Periodo de 70 años
Ejemplo: Resistencia en Kg/cm2 de 100 baldosas de las fábrica “ de las casas “
El número de clases y la amplitud de los intervalos los fija el investigador de acuerdo con el conocimiento que posea de la población, la necesidad de hacer comparación con otras investigaciones y la presentación de la información. Sin embargo, se recomienda que la información no sea demasiado compacta, lo cual le restaría precisión, ni demasiado dispersa, ya que no se tendría claridad. En términos generales, es usual que el número de intervalos no sea inferior a 5 ni superior a 15. Sturges propone que el número de clases o intervalos sea determinado por la expresión m = 1 + 3.3 log(n). La amplitud debe ser igual para todos los intervalos y, en lo posible, no se debe trabajar con clases abiertas.
Distribución de frecuencias por intervalos de la resistencia de 100 baldosas de la fábrica “de las casas”
Resumen
Ejercicio: distribución las familias de las familias en USA en 1973, según su renta
Nivel de ingresos en $ 0 - 1000 1000 - 2000 2000 - 3000 3000 - 4000 4000 - 5000 5000 - 6000 6000 - 7000 7000 - 10000 10000 - 15000 15000 - 25000 25000 - 50000
Porcentaje 1 2 3 4 5 5 5 15 26 26 8
Ejercicio: distribución de la población USA de 25 años según nivel educativo, 1986
Nivel educativo (años de escolarización)
Porcentaje
0-5
3
5-8
5
8-9
6
9 - 12
12
12 - 13
38
13 - 16
17
16 o más
19