Facultad de Ingeniería y Ciencia Básicas Estadística II
La siguiente serie de ejercicios se dividirán en dos partes, la primera tendrá una fecha de realización hasta el jueves de la semana 4, y finalizando la semana 5 la segunda parte, el documento final y consolidación del trabajo debe ser subido en pdf en el (Foro: Desarrollo del trabajo Semana 2 - 7) en cada uno de los respectivo grupos a más tardar el jueves de la semana 7. El documento final debe tener: Portada de los que participaron activamente en el foro, Solución de los problemas planteados, conclusiones y referencia. Todos los puntos deben ser justificados, en caso de hacer uso de una hoja de cálculo debe ser también adjuntada en el foro. Para mayor detalle: https://www.youtube.com/watch?v=MTLbHXeJoeo
Contexto A continuación, se tiene la información de la Gran Encuesta Integrada de Hogares (GEIH), realizada por el DANE[1]. Esta encuesta se hace en las 13 ciudades principales del Colombia (Bogotá, Medellín, Cali, barranquilla, Bucaramanga, Manizales, Pasto, Pereira, Ibagué, Cúcuta, Villavicencio, Montería, Cartagena) y 11 ciudades intermedias (Tunja, Florencia, Popayán, Valledupar, Quibdó, Neiva, Riohacha, Santa Marta, Armenia, Sincelejo, San Andrés). Esta encuesta, se solicita información sobre las condiciones de empleo de las personas (si trabajan, en qué trabajan, cuánto ganan, si tienen seguridad social en salud o si están buscando empleo), además de las características generales de la población como sexo, edad, estado civil y nivel educativo, se pregunta sobre sus fuentes de ingresos. La GEIH proporciona al país información a nivel nacional, cabecera - resto, regional, departamental, y para cada una de las capitales de los departamentos. Este trabajo colaborativo, tiene 5 actividades diferentes. Cada actividad corresponde a un tema de los cuales se desarrolla durante el módulo. El grupo debe resolver cada actividad e ir plasmando los resultados en el documento en línea. Los niveles de cada actividad varían según el tema que se esté desarrollando. Sin embargo, cabe aclarar que las actividades son independientes. Los temas que se desarrollan en este documento van hasta la semana 7. En el archivo de Excel ( https://goo.gl/rarYdV ) se tiene información sobre las características generales de las personas que respondieron en un mes en particular. Para este trabajo colaborativo, realice lo siguiente:
Parte 1 Tamaño de muestra 1.1 Utilizando la variable edad (P6040), realice lo siguiente: ●
Realice un histograma y describa la información según la forma y la curtosis de los datos.
A continuación se presenta la tabla que contiene los datos agrupados relacionados con la variable EDAD P6040.
INTERVALO NRO-CLASES
Marca Lim.Inf Lim.Sup Clase 0 13 6.5 14 27 20.5 28 41 34.5 42 55 48.5 56 69 62.5 70 83 76.5 84 97 90.5 98 111 104.5
1 2 3 4 5 6 7 8
Fi (Frecuencia Absoluta acumulada)
14623 15497 11620 10109 5511 2508 474 14
14623 30120 41740 51849 57360 59868 60342 60356
HI (Frecuencia relativa acumulada)
hi (Frecuencia relativa) 24.23% 25.68% 19.25% 16.75% 9.13% 4.16% 0.79% 0.02%
Histograma de Frecuencias-EDAD
18000 16000
fi (Frecuencia absoluta)
14623
15497
14000
11620
12000
10109
10000 8000
5511
6000 4000
2508
2000
474
0 6.5
20.5 34.5 48.5 Histograma de Frecuencias
62.5 76.5 90.5 Poligono de Frecuencias
14 104.5
24.23% 49.90% 69.16% 85.91% 95.04% 99.19% 99.98% 100.00%
En el histograma de frecuencia podemos observar que el comportamiento de las edades presenta una curtosis negativa lo cual mide mayor o menor concentración de datos alrededor de la media; por tanto, el coeficiente de curtosis que presenta el comportamiento de la variable edad nos indica que la distribución es platicúrtica y hay una menor concentración de datos en torno a la media. De igual manera, para el coeficiente de asimetría (Sesgo) en la distribución nos indica que existe a una asimetría positiva, lo cual permite concluir que aproximadamente el 50% de las edades de las personas están entre 0 y 27 años recién cumplidos.
●
Realice una descripción numérica y descripción como es la población:
P6040-EDAD Media Error típico Mediana Moda
30.97223143 0.084482354 28 11
Desviación estándar
20.75516708
Varianza de la muestra Curtosis Coeficiente de asimetría Rango Mínimo Máximo Suma Cuenta Mayor (1) Menor(1)
430.7769606 -0.498186542 0.538757775 101 0 101 1869360 60356 101 0
Nivel de confianza (95.0%) 0.165585693
De acuerdo al análisis descriptivo realizado a la edad de los encuestados se evidencia que el 69.16% de las edades se encuentran comprendidas entre 0 y 41 años lo cual induce a pensar que la encuesta fue realizada a una población muy joven. Sin embargo, encontramos que 4.94% de las edades se concentran en una población adulta a partir de los 70 años. Además, el promedio de edad de los encuestados es 31 años aproximadamente y que el mayor número de personas tienen 11 años (Moda).
1.2
Calcule una nueva variable que sea el
:
NOTA: La variable se calcula en el archivo de excel adjunto: (DESARROLLO.xlsx)
●
Teniendo en cuenta la variable anterior realice el cálculo del tamaño de muestra, utilizando la siguiente fórmula:
Donde, se tiene lo siguiente: Z: Es el cuantil de la distribución normal estándar al nivel de significancia que se establezca. S: Es la desviación estándar de la variable. Es el margen de error absoluto. Para calcular el tamaño de la muestra, utilice un nivel de confianza del 95% y un margen de error de absoluto que no supere 0.5.
Z2
No
3,8416
S2(Varianza)
21
DELTA2(Margen de Error absoluto) TAMANO_POBLACION
●
321
TAMAÑO MUESTRA
319
25% 60356
Teniendo en cuenta los resultados anteriores, realice una selección de elementos para una muestra, utilizando el algoritmo del coordinado negativo. Ver
el
resultado
del
(DESARROLLO.XLSX).
algoritmo
del
coordinado
negativo
en
el
archivo
de
excel
adjunto
●
Compara la media poblacional, con la media muestral y determine la variación relativa.
MEDIA POBLACIONAL VS MEDIA MUESTRAL PROMEDIO-MEDIA POBLACIONAL 9,287915844 PROMEDIO-MEDIA MUESTRAL
9,667295597
Vemos que la media poblacional para la variable P6040_new es de 9 años aproximadamente, comparado con respecto a la media muestral de la misma variable que es de 10 años aproximadamente.
VARIACION RELATIVA: La variación relativa corresponde a la medición de la variable con respecto a su promedio. DESV_POBLACION 4,569716753 DESV_MUESTRAL 4,723636743 COEFICIENTE_VARIACION_POB 49,20% COEFICIENTE_VARIACION_MUESTRAL 48,86%
De acuerdo con la anterior tabla se puede observar que la variación con de la media poblacional es muy similar con respecto a la variación de la media muestral, ya que sus coeficientes de variación están alrededor del 49 y 48% respectivamente. Además, podemos decir que la variación de la media muestral es un poco menos que la variación asociada a la media poblacional.
Parte 2 2.1 Intervalo de confianza para dos variables numéricas Un investigador, cree determinar que existen diferencias entre los niveles de estudio de los hombres y las mujeres en Colombia. Para determinar lo anterior, se sugiere utilizar la base de la hoja “muestra” y realizar lo siguiente: ●
Utilizando la variable escolaridad (ESC) y sexo (P6020), realice un histograma para los hombres y mujeres. Según los resultados, ¿Existen diferencias?
GRADO DE ESCOLARIDAD SEXO
0 1 2
Hombre Mujer Total general
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 NA
17 6 9 12 8 21 8 9 10 6 21 1 5 11 6 25 10 11 11 7
3 30 1 7 47 7
38 7 14 23 14 46 18 20 21 13 10 77
4 7
2 8
8 11 10
2 9 1 3 13 0
1 1
0 1
5 22
2
1
1
4 5 9
Total general 163 207 370
Grado de Escolaridad vs Género 50
Número de personas
45 40 35 30 25 20 15 10 5 0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20 21
Grado de escolaridad Hombre
Mujer
En el presente grafico se puede observar el número de hombres y mujeres según el grado de escolaridad en la muestra tomada. Además, se observa que las mujeres son las que tienen un alto grado de escolaridad (11) que se relaciona con la Media (10º -13º) comparado con los hombres. Sin embargo, las mujeres también lideran en los
niveles inferiores de escolaridad como: ninguna, prescolar y básico primaria. En general, las mujeres son las que tienen mayor número de escolaridad que los hombres llegando a nivel de posgrado, universitario y técnico y tecnólogo a comparación de los hombres donde sólo se obtuvo una mayor concentración en el nivel de escolaridad Media.
Teniendo en cuenta lo anterior, realice un estudio descriptivo de ambas variables. Realice lectura de resultados. Variable: SEXO
SEXO Hombre Mujer
NRO_PERSONAS 163 207
SEXO
163, 44% 207, 56%
Hombre
Mujer
Según los datos de la muestra, se presenta un mayor número de mujeres que de hombres en la encuesta realizada al tener un 56% del total de encuestados.
Variable: GRADO DE ESCOLARIDAD
GRADO DE ESCOLARIDAD Media Error típico Mediana Moda Desviación estándar Varianza de la muestra Curtosis Coeficiente de asimetría Rango Mínimo Máximo Suma Cuenta
7,427027027 0,251014637 7 11 4,828362942 23,3130887 -0,9365999 0,083478949 19 0 19 2748 370
GRADO DE ESCOLARIDAD FRECUENCIA 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
47 7 14 23 14 46 18 20 21 13 10 77 8 11 10 5 22 1 2 1
FRECUENCIA
GRADO DE ESCOLARIDAD 90 80 70 60 50 40 30 20 10 0 0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19
GRADO DE ESCOLARIDAD GRADO DE ESCOLARIDAD
Con respecto al comportamiento del grado de escolaridad de los encuestados se observa que la gran mayoria de las personas tienen un grado de escolaridad 11 (Media 10o – 13o). Por otro lado, se observa personas con ningún grado de escolaridad (0) y con una cifra importante (47) en total.
●
Asumiendo que los datos son normales, calcule un intervalo de confianza del 95% y determine, la escolaridad de los hombres y de las mujeres de forma individual. ESC_HOMBRES X
Media desv.standar confianza tamaño muestra
Z alpha
INTERVALOS: L INFERIOR L SUPERIOR
6,766871166 4,781097751 95% 163 1,96 5%
X+-Z*DESV/RAIZ(n) 6,032895077 7,500847255
ESC_MUJERES Y
Media desv.standar confianza tamaño muestra
207
Z alpha
1,96 5%
INTERVALOS: L INFERIOR L SUPERIOR
●
7,946859903 4,813217773 95%
Y+-Z*DESV/RAIZ(n) 7,2911701 8,602549707
Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95% para la diferencia de los niveles de escolaridad para los hombres y mujeres.
INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS
L INFERIOR L SUPERIOR
-2,164188929 -0,195788546
De acuerdo a intervalo de confianza para la diferencia de medias con respecto al grado de escolaridad par hombres y mujeres, encontramos que al NO contener en dicho intervalo al cero (0), podemos afirmar que EXISTE diferencia significativa en el promedio de mujeres y hombres según su grado de escolaridad, puesto que para los hombres 6,76 que es aproximadamente 7 en promedio y para las mujeres es 7,94 que es 8 aproximadamente.
2.2 Prueba de hipótesis para dos variables nominales: Un investigador, cree determinar que los hombres asisten más a un colegio oficial que las mujeres en Colombia. Para determinar lo anterior, se sugiere utilizar la base de la hoja de “muestra” y realizar lo siguiente: Utilizando la variable si actualmente asiste a un establecimiento oficial (P6175) y sexo (P6020), realice un diagrama de barras comparativo para los hombres y mujeres en un solo gráfico. Según los resultados, ¿Existen diferencias?
ASISTE A ESTABLECIMIENTO OFICIAL? SEXO N/A No Sí Total general Hombre 118 12 33 Mujer 153 13 41 Total general 271 25 74
163 207 370
ASISTIR A ESTABLECIMIENTO OFICIAL VS SEXO Número de personas
●
200 150 100 50 0 N/A
No
Sí
Asistencia a un establecimiento oficial Hombre
Mujer
De acuerdo al grafico presentado, se puede observar que las mujeres son las que más asisten a cojegio oficial en comparación de los hombres. Sin embargo, tambien se observa un alto volumen de encuestados que NO tiene un registro de si asiste o no (N/A).
●
Con un nivel de confianza del 95%, realice una estimación de los hombres que asisten a un establecimiento oficial.
PROPORCION DE HOMBRES QUE ASISTEN A UN ESTABLECIMIENTO OFICIAL Número de hombres Tamaño muestra Proporción muestral Nivel de confianza (1-apha) Nivel de significancia (alpha) Valor de Z(alpha/2) Limite Inferior Limite Superior
●
33 370 8,92% 95% 5% 1,96 6,01% 11,82%
Con un nivel de confianza del 95%, realice una estimación de las mujeres que asisten a un establecimiento oficial. PROPORCION DE MUJERES QUE ASISTEN A UN ESTABLECIMIENTO OFICIAL Número de mujeres Tamaño muestra Proporción muestral Nivel de confianza (1-apha) Nivel de significancia (alpha) Valor de Z(alpha/2) Limite Inferior Limite Superior
41 370 11,08% 95% 5% 1,96 7,88% 14,28%
CONCLUSION: Se puede afirmar que la proporción muestral de las mujeres que asisten a colegios oficiales es mayor en un 2 % aproximadamente con respecto a los hombres.
●
Realice una prueba de hipótesis para determinar la afirmación del investigador. Utilice un nivel de significancia del 5%. ¿Qué se puede decir de lo anterior? PRUEBA DE HIPOTESIS: Para validar la afirmación del investigador es necesario plantear la prueba de hipótesis de la siguiente manera:
𝑃𝑟𝑜𝑝𝐻 : 𝑃𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛 𝑑𝑒 ℎ𝑜𝑚𝑏𝑟𝑒𝑠 𝑞𝑢𝑒 𝑒𝑠𝑡𝑢𝑑𝑖𝑎𝑛 𝑒𝑛 𝑐𝑜𝑙𝑒𝑔𝑖𝑜 𝑜𝑓𝑖𝑐𝑖𝑎𝑙 𝑃𝑟𝑜𝑝𝑀 : 𝑃𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛 𝑑𝑒 𝑚𝑢𝑗𝑒𝑟𝑒𝑠 𝑞𝑢𝑒 𝑒𝑠𝑡𝑢𝑑𝑖𝑎𝑛 𝑒𝑛 𝑐𝑜𝑙𝑒𝑔𝑖𝑜 𝑜𝑓𝑖𝑐𝑖𝑎𝑙 Por tanto la prueba de hipótesis es: Paso 1:
𝐻𝑜 : 𝑃𝑟𝑜𝑝𝐻 ≤ 𝑃𝑟𝑜𝑝𝑀 𝐻𝐴 : 𝑃𝑟𝑜𝑝𝐻 > 𝑃𝑟𝑜𝑝𝑀 Donde la afirmación del investigador se refiere a la hipótesis alternativa: 𝐻𝐴
Paso 2: Utilizando la distribución de probabilidad normal con ensayo unilateral a la derecha con un nivel significativo del 0.05 (5%), el valor crítico es de 1.645, ya que corresponde a la siguiente zona de aceptación y rechazo:
Paso 3: Calculo del estadístico de prueba 𝑍 es el siguiente:
Por tanto el valor de Z para la prueba de hipótesis es:
𝑍=
0.0892 − 0.1108 − (0) √0.0892(1 − 0.0892) + 0.1108(1 − 0.1108) 163 207 𝑍 = −0.69
Por lo cual, como -0.69 es < 1.645 se puede afirmar que hay evidencia estadística suficiente para aceptar 𝐻𝑜 y rechazar la 𝐻𝐴 la cual hace referencia a la afirmación del investigador. Así mismo, se puede concluir que el investigador, con una confiabilidad del 95%, estaba equivocado al afirmar que la proporción de hombres era mayor a la proporción de mujeres que estudian en un colegio oficial.
[1] http://www.dane.gov.co/files/investigaciones/fichas/empleo/ficha_metodologica_GEIH-01_V10.pdf