Presentación 3- Análisis Exploratorio De Datos.pdf

  • Uploaded by: ABel Ochoa
  • 0
  • 0
  • June 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Presentación 3- Análisis Exploratorio De Datos.pdf as PDF for free.

More details

  • Words: 3,096
  • Pages: 111
El análisis exploratorio de datos

En esta presentación se han retomado algunos materiales y datos de: • Salvador Figueras, M y Gargallo, P. (2003): "Análisis Exploratorio de Datos“ y Análisis exploratorio de datos y probabilidad e inferencia estadística. Funes Torres, J. N. y Peña Aguilar, J. A.

¿Qué es el análisis exploratorio de datos o AED?

•ANALISIS EXPLORATORIO DE DATOS: Conjunto de técnicas estadísticas cuya finalidad es conseguir un entendimiento básico de los datos y de las relaciones existentes entre las variables analizadas, principalmente haciendo uso de técnicas gráficas.

Dos estrategias básicas

¿Que es el AED?

•Organizar y presentar los datos de tal forma que hablen por si mismos. •En realidad hay que distinguir entre los datos de que se dispone y el universo más amplio al que se quieren extender las conclusiones. Por ej. La EHPM de El Salvador.

•Desde el punto de vista del AED las cosas son más simples; basta con explorar y comprender los datos disponibles.

Qué hacer ante un conjunto de datos • Plantearnos las siguientes preguntas: • ¿a qué individuos describen los datos? ¿cuántos individuos aparecen en los datos? • ¿cuántas variables contienen los datos? • ¿cuáles son las definiciones exactas de dichas variables?

•¿en qué unidades se ha registrado cada variable? •¿Qué propósito se persigue con los datos? •¿queremos responder alguna pregunta concreta? •¿queremos obtener conclusiones sobre una población?

ETAPAS PARA UN AED • Preparar los datos para poder aplicar cualquier técnica estadística. • Realizar un análisis gráfico de la naturaleza de las variables individuales y un análisis descriptivo numérico para cuantificar algunas características generales de los datos. • Realizar un análisis gráfico de las relaciones entre variables. • Evaluar algunos supuestos básicos subyacentes: Por ejemplo el supuesto de normalidad. Identificar los casos atípicos (outliers) y evaluar su impacto potencial. Evaluar, si es necesario, el impacto de los datos perdidos (missing data)

1.Etapa 1: PREPARACIÓN DE LOS DATOS • Digitación y codificación de los datos teniendo en cuenta los requerimientos del programa a utilizar. Los datos también se pueden importar de archivos ya existentes. • La codificación depende del tipo de variable: datos tipo cadena, numéricos, nominales, ordinales, etc. • Los archivos deben ser tales que se puedan combinar, separar en varias partes según alguna variable, seleccionar casos, transformar variables, ordenar casos, agregar nuevos casos o nuevas variables, etc. • Asociar a la base de datos un libro de códigos o diccionario de datos

Como conseguir este objetivo •El AED proporciona métodos sencillos sistemáticos para organizar y preparar los datos, detectar fallos en el diseño y recogida de los mismos. •Tratamiento y evaluación de datos ausentes (missing values). •Identificación de casos atípicos. •Comprobación de hipótesis subyacentes.

AED univariado para lograr una idea inicial de los datos

•Hacer un análisis estadístico univariado gráfico con el fin de tener una idea inicial de la información contenida en el conjunto de datos. Este análisis dependerá de la escala de medida correspondiente.

Nominal

Ordinal

De intervalo

De razón

Diagramas de barras, de líneas y de sectores Diagramas de barras y Diagramas de caja Histograma y polígono de frecuencias

Moda

Mediana

Rango intercuartílico

Media aritmética

Desviación típica o estándar y coeficiente de variación

Media aritmética y Media geométrica

Desviación típica o estándar y coeficiente de variación

Las escalas más informativas pueden usar las representaciones gráficas y los resúmenes numéricos de las menos informativas

VARIABLES CUALITATIVAS •Los datos de variables cualitativas se agrupan de manera natural en categorías o clases y luego se cuenta el número de datos que aparecen en cada una de ellas •Se pueden representar mediante diagramas de barras, de sectores o de líneas

DIAGRAMA DE BARRAS Diagrama de Barras:

• Para el caso de distribuciones de frecuencias no agrupadas en intervalos, el diagrama de barras es el gráfico más empleado. Que se usa cuando se pretende resaltar la representación de porcentajes o frecuencias de datos que componen un total. Una gráfica de barras contiene barras verticales que representan valores numéricos. Las frecuencias están asociadas con categorías. El objetivo es poner una barra de altura igual a la frecuencia. La gráfica de barras sirve para comparar y tener una representación gráfica de la diferencia de frecuencias o de intensidad de la característica numérica de interés entre las modalidades que asume la variable.

GRÁFICOS DE SECTORES • Los gráficos de sectores, también conocidos como diagramas de "pastel", se divide un círculo en tantas porciones como clases tenga la variable, de modo que a cada clase le corresponde un sector de círculo proporcional a su frecuencia absoluta o relativa. Si el número de categorías es excesivamente grande, la imagen proporcionada por el gráfico de sectores no es lo suficientemente clara y por lo tanto la situación ideal es cuando hay pocas categorías. En este caso se pueden apreciar con claridad dichos subgrupos.

Ejemplo. La población según nivel de estudio del Municipio de Ayutuxtepeque se presenta en el siguiente cuadro:

Parvulari a

1168

Primari ao básica

Educ ación medi a

15895 6842

Superior no universit aria

Técnico universit ario

499

Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.

363

Superior universita ria

4556

Maest ría

70

Doct orad o

7

Total

29400

GRÁFICO DE SECTORES • Elaborar un gráfico de sectores. • Se tienen 8 categorías, por lo tanto debe aparecer el círculo dividido en 8 porciones. La tabla anterior presenta las frecuencias absolutas, habrá que dividir cada dato por el total (29,400) a fin de obtener la frecuencia relativa y luego multiplicar esta última por 100. Por ejemplo, para la categoría de educación básica: (15,895/ 29,400)*100 = 54,06%.

•Es evidente que la mayoría de la población tiene un nivel educativo básico o medio con el 54.06% y 23.27% respectivamente. En general la población de Ayutuxtepeque tiene un nivel educativo relativamente bajo, son muy pocos los que llegan a hacer estudios universitarios.

EJEMPLO

•En un supermercado se pregunta a una muestra de clientes sobre su estado civil

Ejemplo: Variable socioeconómica (SOC): La variable SOC describe la categoría socioeconómica:

1 2  3  SOC =  4 5  6 7 

trabajadores agrarios empresarios agrarios obreros autonomos clase media clase alta retirados

Los datos de 75 hogares (o unidades de gasto) son:

373535157553351132231 375333555775142 1734 33353 366 727133253722 752276153533343

Categoría

ni

fi

1.Trabajadores agrarios

8

0,11

1.Empresarios agrarios

9

0,12

1.Obreros

25

0,33

1.Autónomos

3

0,04

1.Clase media

16

0,21

1.Clase alta

3

0,04

1.Retirados

11

0,15

N=75

1

DIAGRAMA DE PARETO •

Diagrama de Pareto: Es como un diagrama de barras en el que se ordenan las clases de mayor a menor frecuencia (absoluta o relativa). En la parte superior de la figura suele trazarse una línea que representa la suma de la frecuencia de cada clase y las que la preceden, esto se usa para identificar la minoría de las características que representan la mayoría de casos.

DIAGRAMA DE PARETO 1.0

0.8

0.6

0.4

0.2

0.0 3

5

7

2

1

4

6

Ejemplo 1: nivel educativo Se ha clasificado a 20 individuos según su nivel de estudios que puede tomar valores:

y se han obtenido los siguientes datos: 11 4 3 3 3 2 2 4 2 2 1 4 2 3 2 3 4 2 3; N=20; k=4

Distribución de frecuencias:

Categorías

ni

fi

1.Sin estudios

3

0,15

1.Primaria

7

0,35

1.Media

6

0,3

1.Superior

4

0,2

N=20

1

La categoría más frecuente es la de estudios primarios y la menos frecuente la de sin estudios

0.40 0.35 0.30 0.25 0.20 0.15 0.10 1

2

3

4

Ejemplo. La población según condición de ocupación del Municipio de Ayutuxtepeque se presenta en el siguiente cuadro:

ÁREA URBANA EL ZAPOTE LOS LLANITOS Total

OCUPADOS

DESOCUPADOS

10966

2832

8531

22329

329

42

477

848

2410

227

2550

5187

13705

3101

11558

28364

Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.

INACTIVOS

Total

BARRAS AGRUPADAS

•Se emplean para hacer comparaciones de las modalidades de una variable cualitativa en el tiempo o el espacio

Ejemplo: El siguiente cuadro presenta el número de homicidios para los años 2004, 2005, 2006, 2007 y 2008, para los municipios de Soyapango, Ilopango y San Martín.

Grupo s de edade s

SOYAPANGO Femeni no

Mascul ino

ILOPANGO Tota l

Femen ino

Mascul ino

SAN MARTÍN Tot al

Femen ino

Mascul ino

Tot al

90

11

42

53

74

79

11

75

86

69

84

6

48

54

77

8

71

79

75

7

54

61

AÑO 2004 Total

15

167

182

12

78

AÑO 2005 Total

14

228

242

5

AÑO 2006 Total

16

246

262

15

AÑO 2007 Total

20

179

199

10

67

AÑO 2008 Total

10

128

138

9

66

Fuente: Fuente estadísticas de homicidios de Instituto de Medicina Legal. Los cadáveres que no se pudo identificar el sexo, no aparecen registrados en el cuadro anterior.

• 4.2- Variables cuantitativas

• Las variables cuantitativas son las que pueden expresarse numéricamente. Una primera clasificación, basada en el tipo de valores que puede tomar, permite distinguir entre variables cuantitativas discretas – que son, frecuentemente el resultado de contar y, por tanto, toman sólo valores enteros – y continuas, que resultan de medir y pueden contener cifras decimales. Variables discretas son el número de lavadoras producidas por una empresa en un año. Variables continuas son aquellas cuyos valores pueden ser cualquier cantidad en un intervalo, como la temperatura, el peso o la altura de una persona o la superficie de las viviendas. • Ejemplo 3 (Encuesta en un supermercado)

EJEMPLO

•Ejemplo. Con la información del VI Censo de Población y V de Vivienda, El Salvador, 2007, se han clasificado las mujeres de El Salvador de 12 años y más, según el número de hijos varones, resultando los siguientes datos.

N° Hijos Varones

0 1 2 3 4 5 6 7 8 9+

Madres

278290 509469 339180 177050 92233 50916 27791 15004 7328 7366

• VARIABLES DISCRETAS QUE TOMAN MUCHOS VALORES Y VARIABLES CONTINUAS

Si la variable analizada es continua o discreta con un elevado número de valores distintos se tabula como una distribución de frecuencias agrupadas y se representa gráficamente mediante histogramas, diagramas de tallos y hojas y boxplots ( diagramas de caja) con el fin de estudiar la forma de la distribución y analizar, en particular, la posible existencia de varias modas en la misma que pongan de manifiesto la presencia de diversos grupos homogéneos en la muestra.

Variables cuantitativas discretas con muchos valores • Ejemplo: Errores de ortografía que comete una secretaria en un dictado de 1000 palabras. n=50 • 10, 8, 2, 20, 5, 6, 2, 15, 9, 25 • 4, 12, 7, 8, 16, 3, 17, 1, 8, 11 • 6,9, 13, 6, 14, 2, 5, 12, 11, 10 • 22, 5, 8, 8, 6, 13, 11, 7, 7, 16 • 9, 5, 13,7, 7, 9, 12, 16, 8, 1

N° de errores 1-5 6 - 10 11 - 15 16 - 20 21 - 25

Frecuencia Frec. Rel. %

Frec. Rel. Ac.

Diagrama de tallos y hojas 1. Situar los tallos de forma vertical en orden creciente de arriba abajo. Trazar una línea vertical a la derecha de los tallos. 2. Repasar todos los datos y situar cada hoja a la derecha de su tallo. 3. Ordenar las hojas de cada tallo en orden creciente.

•Un diagrama de tallos y hojas tiene un aspecto parecido al de un histograma colocado en posición vertical. •Los DTH, a diferencia de los histogramas, mantienen los valores de cada observación. •Interpretamos los DTH como los histogramas, buscando caracterizar su aspecto general e identificando también las observaciones atípicas.

Redondeo • En un histograma se puede escoger las clases. Las clases o tallos de un DTH vienen dadas por los datos. • Hay dos modificaciones de los diagramas de tallos que nos dan más flexibilidad a la hora de representar las distribuciones. • La primera consiste en redondear los datos de manera que el dígito final, después del redondeo, sea adecuado como hoja. Por ejemplo: 3.468,

2.567, 2.981, 1.095, …

En este caso tendríamos muchos tallos si tomamos los tres primeros dígitos como tallos y el último como hoja.

Podríamos redondear así: •3.5, 2.6, 3.0, 1.1, …

División de los tallos • Cuando todas las hojas se sitúan en unos pocos tallos, se pueden dividir éstos para duplicar su número. Cada tallo aparece entonces, dos veces. • Las hojas que van de 0 a 4 se sitúan en el tallo superior y las que van de 5 a 9 en el inferior • El redondeo o la división de tallos es una decisión subjetiva, al igual que la elección del número de clases de un histograma. • Los DTH son útiles cuando se dispone de pocos datos; a lo sumo 100 datos.

DTH para la variable caballos de fuerza de 392 vehículos automotores • n: 392 • 6 4 | 668889 • 15 5 | 222233488 • 59 6 | 00000122333455555555556777777777777888888999 • 112 7 | 00000000000011111222222444555555555555556666788888899 • 168 8 | 00000001123333444444555555555666667788888888888888888889 • (57) 9 | 000000000000000000001222222345555555555555566677777777788 • 167 10 | 000000000000000002355555555555578 • 134 11 | 0000000000000000002223555556 • 106 12 | 0000255599 • 96 13 | 000002357899 • 84 14 | 00000002555555589 • 67 15 | 0000000000000000000000233558 • 39 16 | 0055557 • 32 17 | 0000055555 • 22 18 | 00000 • 17 19 | 000388 • 11 20 | 08

Diagrama de caja

Ejemplo

HISTOGRAMAS

•Cuando una variable cuantitativa la agrupamos en clases o intervalos de clase, el gráfico más frecuentemente usado para representar la distribución de frecuencias es el histograma.

Histograma

Patrones frecuentes de histogramas.

Examen de una distribución • Forma: simétrica (normal o uniforme), asimétrica (a la izquierda o a la derecha), multimodal, sin patrón. • Centro: valor que de forma aproximada divide la distribución en dos partes iguales. • Dispersión: rango de los datos (valor máximo – valor mínimo). Considerar si se ignoran los valores atípicos en casos de que los haya. • Valores atípicos: observaciones individuales que quedan fuera del aspecto general. Buscar posibles explicaciones.

Ejemplo

•Porcentaje de población mayor de 65 años en cada uno de los estados de Estados Unidos en 1996

Diagrama de tallos y hojas para los residentes de 65 años o más en los USA por cada estado. Comparar con el histograma

¿cuántas clases deben seleccionarse? • No hay una sola elección correcta del número de clases de un histograma. • Pocas clases pueden dar un histograma muy apretado con aspecto de rascacielos con todos los valores en unas pocas clases con barras altas y del cual no podamos obtener un examen general inicial de la distribución. Por el contrario muchas clases darán un histograma con aspecto aplastado muy disperso con clases con pocas observaciones o vacías. • Al trabajar con un programa estadístico, éste hace la selección de manera automática (por ejemplo, utilizando la regla de Sturges).

k = 1 + 3 .3 2 (lo g ( n )) • No debe ser menor que 5 ni mayor que 15, salvo algunos casos especiales

Examen de la distribución • La distribución es aproximadamente simétrica y unimodal • El centro de la distribución está próximo al 13% • Si se ignoran las observaciones atípica, los datos van del 10% al 16%. • Observaciones atípicas: dos estados se hallan en los extremos del histograma. Florida tiene un 18.5% de residentes de más de 65 años o más, mientras que Alaska solamente tiene un 5.5%. Una vez identificados los atípicos, buscamos una posible explicación.

Pesos de niños menores de un año

Pesos de niños y niñas separados

Masa corporal

•IMC: Se calcula dividiendo el peso de una persona (en Kg) entre su estatura (en metros) al cuadrado. •Se considera que una persona es obesa si su IMC es superior a 30.

Ejemplo 4 (Datos macroeconómicos) En este ejemplo analizamos diversas variables de una base de datos que contiene información macroeconómica de una muestra de países del mundo. Exportaciones En la Tabla 6 y las Figuras 5 y 6 se muestran los resultados del análisis estadístico de las Exportaciones de los países de la muestra. Así, en la Tabla 6 se muestran las medidas descriptivas numéricas de dicha variable y en las Figuras 5 y 6 su histograma y su diagrama de cajas, respectivamente. La media de las exportaciones ha sido 66.718 miles de millones de $ y su mediana 23.4. Esta diferencia refleja el elevado grado de asimetría hacia la derecha que se pone claramente de manifiesto con el histograma (Figura 4, tipo c) y sus coeficientes de asimetría (2.434) y curtosis (5.588).

Algunas medidas estadísticas • Media aritmética = 66.7180 • Mediana = 23.4000

Ejemplo:la esperanza de vida al nacer • Esperanza de Vida • En la Tabla 7 y las Figuras 7 y 8 se muestran los resultados del análisis estadístico de la Esperanza de Vida al Nacer de los países de la muestra. Así, en la Tabla 7 se muestran las medidas descriptivas numéricas de dicha variable y en las Figuras 7 y 8 su histograma y su diagrama de cajas, respectivamente.

Número de huracanes costa este USA. Periodo de 70 años

Ejemplo: Resistencia en Kg/cm2 de 100 baldosas de las fábrica “ de las casas “

El número de clases y la amplitud de los intervalos los fija el investigador de acuerdo con el conocimiento que posea de la población, la necesidad de hacer comparación con otras investigaciones y la presentación de la información. Sin embargo, se recomienda que la información no sea demasiado compacta, lo cual le restaría precisión, ni demasiado dispersa, ya que no se tendría claridad. En términos generales, es usual que el número de intervalos no sea inferior a 5 ni superior a 15. Sturges propone que el número de clases o intervalos sea determinado por la expresión m = 1 + 3.3 log(n). La amplitud debe ser igual para todos los intervalos y, en lo posible, no se debe trabajar con clases abiertas.

Distribución de frecuencias por intervalos de la resistencia de 100 baldosas de la fábrica “de las casas”

Resumen

Ejercicio: distribución las familias de las familias en USA en 1973, según su renta

Nivel de ingresos en $ 0 - 1000 1000 - 2000 2000 - 3000 3000 - 4000 4000 - 5000 5000 - 6000 6000 - 7000 7000 - 10000 10000 - 15000 15000 - 25000 25000 - 50000

Porcentaje 1 2 3 4 5 5 5 15 26 26 8

Ejercicio: distribución de la población USA de 25 años según nivel educativo, 1986

Nivel educativo (años de escolarización)

Porcentaje

0-5

3

5-8

5

8-9

6

9 - 12

12

12 - 13

38

13 - 16

17

16 o más

19

Related Documents


More Documents from "Elias Said-Hung"

June 2020 8
June 2020 4
Almanaque-262.docx
June 2020 8
Document
August 2019 47