Estadística - Pagina 1
Asignatura: Estadística Descriptiva
Presentación Como dijera David Huntsberger: La palabra estadística a menudo nos trae a la mente imágenes de números apilados en grandes arreglos y tablas, de volúmenes de cifras relativas a nacimientos, muertes, impuestos, poblaciones, ingresos, deudas, créditos y así sucesivamente. David tiene razón pues al instante de escuchar esta palabra estas son las imágenes que llegan a nuestra cabeza. El siguiente módulo tiene como objetivo facilitar el trabajo del estudiante de la materia Estadística Descriptiva que se imparte en la Corporación Universitaria Remington. Se presentan los conceptos y fórmulas necesarios para realizar una adecuada organización e interpretación de los datos recopilados de una muestra cuando se realiza un estudio o investigación de tipo descriptiva. Existen en el presente módulo diversos ejercicios, muchos de ellos son el resultado de las observaciones de los estudiantes de dicha materia en cursos anteriores. Sin el compromiso ferviente de mis estudiantes no se habría podido realizar este módulo, por lo tanto les doy un inmenso agradecimiento a ellos por todo lo que me han enseñado. La Estadística es mucho más que sólo números apilados y gráficas bonitas. Es una ciencia con tanta antigüedad como la escritura, y es por
Estadística - Pagina 2 sí misma auxiliar de todas las demás ciencias. Los mercados, la medicina, la ingeniería, los gobiernos, etc, se nombran entre los más destacados clientes de ésta. La ausencia de ésta conllevaría a un caos generalizado, dejando a los administradores y ejecutivos sin información vital a la hora de tomar decisiones en tiempos de incertidumbre. La Estadística que conocemos hoy en día debe gran parte de su realización a los trabajos matemáticos de aquellos hombres que desarrollaron la teoría de las probabilidades, con la cual se adhirió la Estadística a las ciencias formales. Definición de Estadística La Estadística es la ciencia cuyo objetivo es reunir una información cuantitativa concerniente a individuos, grupos, series de hechos, etc. y deducir de ello gracias al análisis de estos datos unos significados precisos o unas previsiones para el futuro. La estadística, en general, es la ciencia que trata de la recopilación, organización presentación, análisis e interpretación de datos numéricos con el fin de realizar una toma de decisión más efectiva. Otros autores tienen definiciones de la Estadística semejantes a las anteriores, y algunos otros no tan semejantes. Para Chacón esta se define como “la ciencia que tiene por objeto el estudio cuantitativo de los colectivos”; otros la definen como la expresión cuantitativa del conocimiento dispuesta en forma adecuada para el escrutinio y análisis. La más aceptada, sin embargo, es la de Minguez, que define la Estadística como “La ciencia que tiene por objeto aplicar las leyes de la cantidad a los hechos sociales para medir su intensidad, deducir las leyes que los rigen y hacer su predicción próxima”. Los estudiantes confunden comúnmente los demás términos asociados con las Estadísticas, una confusión que es conveniente aclarar debido a que esta palabra tiene tres significados: la palabra estadística, en primer término se usa para referirse a la información estadística; también se utiliza para referirse al conjunto de técnicas y métodos que se utilizan para analizar la información estadística; y el término estadístico, en singular y en masculino, se refiere a una medida derivada de una muestra. Utilidad e Importancia
Estadística - Pagina 3 Los métodos estadísticos tradicionalmente se utilizan para propósitos descriptivos, para organizar y resumir datos numéricos. La estadística descriptiva, por ejemplo trata de la tabulación de datos, su presentación en forma gráfica o ilustrativa y el cálculo de medidas descriptivas. Ahora bien, las técnicas estadísticas se aplican de manera amplia en ingeniería, mercadotecnia, contabilidad, control de calidad y en otras actividades; estudios de consumidores; análisis de resultados en deportes; administradores de instituciones; en la educación; organismos políticos; médicos; y por otras personas que intervienen en la toma de decisiones. Historia de la Estadística Los comienzos de la estadística pueden ser hallados en el antiguo Egipto, cuyos faraones lograron recopilar, hacia el año 3050 antes de Cristo, prolijos datos relativos a la población y la riqueza del país. De acuerdo al historiador griego Heródoto, dicho registro de riqueza y población se hizo con el objetivo de preparar la construcción de las pirámides. En el mismo Egipto, Ramsés II hizo un censo de las tierras con el objeto de verificar un nuevo reparto. En el antiguo Israel la Biblia da referencias, en el libro de los Números, de los datos estadísticos obtenidos en dos recuentos de la población hebrea. El rey David por otra parte, ordenó a Joab, general del ejército hacer un censo de Israel con la finalidad de conocer el número de la población. También los chinos efectuaron censos hace más de cuarenta siglos. Los griegos efectuaron censos periódicamente con fines tributarios, sociales (división de tierras) y militares (cálculo de recursos y hombres disponibles). La investigación histórica revela que se realizaron 69 censos para calcular los impuestos, determinar los derechos de voto y ponderar la potencia guerrera. Pero fueron los romanos, maestros de la organización política, quienes mejor supieron emplear los recursos de la estadística. Cada cinco años realizaban un censo de la población y sus funcionarios públicos tenían la obligación de anotar nacimientos, defunciones y matrimonios, sin olvidar los recuentos periódicos del ganado y de las riquezas contenidas en las tierras conquistadas. Todos recordamos que para el nacimiento de Cristo sucedía uno de estos empadronamientos de la población bajo la autoridad del imperio romano. Durante los mil años siguientes a la caída del imperio Romano se realizaron muy pocas operaciones Estadísticas, con la notable excepción de las relaciones de tierras pertenecientes a la Iglesia, compiladas por
Estadística - Pagina 4 Pipino el Breve en el 758 y por Carlomagno en el 762 DC. Durante el siglo IX se realizaron en Francia algunos censos parciales de siervos. En Inglaterra, Guillermo el Conquistador recopiló el Domesday Booko libro del Gran Catastro para el año 1086, un documento de la propiedad, extensión y valor de las tierras de Inglaterra. Esa obra fue el primer compendio estadístico de Inglaterra. Aunque Carlomagno, en Francia; y Guillermo el Conquistador, en Inglaterra, trataron de revivir la técnica romana, los métodos estadísticos permanecieron casi olvidados durante la Edad Media. Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicolás Copérnico, Galileo, Neper, William Harvey, Sir Francis Bacon y René Descartes, hicieron grandes contribuciones al método científico, de tal forma que cuando se crearon los Estados Nacionales y surgió como fuerza el comercio internacional, existía ya un método capaz de aplicarse a los datos económicos. Para el año 1532 empezaron a registrarse en Inglaterra las defunciones debido al temor que Enrique VII tenía por la peste. Más o menos por la misma época, en Francia la ley exigió a los clérigos registrar los bautismos, fallecimientos y matrimonios. Durante un brote de peste que apareció a fines de la década de 1500, el gobierno inglés comenzó a publicar estadística semanales de los decesos. Esa costumbre continuó muchos años, y en 1632 estos Bills of Mortality(Cuentas de Mortalidad) contenían los nacimientos y fallecimientos por sexo. En 1662, el capitán John Graunt usó documentos que abarcaban treinta años y efectuó predicciones sobre el número de personas que morirían de varias enfermedades y sobre las proporciones de nacimientos de varones y mujeres que cabía esperar. El trabajo de Graunt, condensado en su obra Natural and Political Observations...Made upon the Bills of Mortality(Observaciones Políticas y Naturales ... Hechas a partir de las Cuentas de Mortalidad), fue un esfuerzo innovador en el análisis estadístico. Por el año 1540 el alemán Sebastián Muster realizó una compilación estadística de los recursos nacionales, de datos sobre organización política, instrucciones sociales, comercio y poderío militar. Durante el siglo XVII aportó indicaciones más concretas de métodos de observación y análisis cuantitativo y amplió los campos de la inferencia y la teoría Estadística. Los eruditos del siglo XVII demostraron especial interés por la Estadística Demográfica como resultado de la especulación sobre si la población aumentaba, decrecía o permanecía estática. En los tiempos modernos tales métodos fueron resucitados por algunos reyes que necesitaban conocer las riquezas monetarias y el potencial
Estadística - Pagina 5 humano de sus respectivos países. El primer empleo de los datos estadísticos para fines ajenos a la política tuvo lugar en 1691 y estuvo a cargo de Gaspar Neumann, un profesor alemán que vivía en Breslau. Este investigador se propuso destruir la antigua creencia popular de que en los años terminados en siete moría más gente que en los restantes, y para lograrlo hurgó pacientemente en los archivos parroquiales de la ciudad. Después de revisar miles de partidas de defunción pudo demostrar que en tales años no fallecían más personas que en los demás. Los procedimientos de Neumann fueron conocidos por el astrónomo inglés Halley, descubridor del cometa que lleva su nombre, quien los aplicó al estudio de la vida humana. Sus cálculos sirvieron de base para las tablas de mortalidad que hoy utilizan todas las compañías de seguros. Durante el siglo XVII y principios del XVIII, matemáticos como Bernoulli, Francis Maseres, Lagrange y Laplace desarrollaron la teoría de probabilidades. No obstante durante cierto tiempo, la teoría de las probabilidades limitó su aplicación a los juegos de azar y hasta el siglo XVIII no comenzó a aplicarse a los grandes problemas científicos. Godofredo Achenwall, profesor de la Universidad de Gotinga, acuñó en 1760 la palabra estadística, que extrajo del término italiano statista(estadista). Creía, y con sobrada razón, que los datos de la nueva ciencia serían el aliado más eficaz del gobernante consciente. La raíz remota de la palabra se halla, por otra parte, en el término latino status, que significa estado o situación; Esta etimología aumenta el valor intrínseco de la palabra, por cuanto la estadística revela el sentido cuantitativo de las más variadas situaciones. Jacques Quételect es quien aplica las Estadísticas a las ciencias sociales. Éste interpretó la teoría de la probabilidad para su uso en las ciencias sociales y para resolver la aplicación del principio de promedios y de la variabilidad a los fenómenos sociales. Quételect fue el primero en realizar la aplicación práctica de todo el método Estadístico, entonces conocido, a las diversas ramas de la ciencia. Entretanto, en el período del 1800 al 1820 se desarrollaron dos conceptos matemáticos fundamentales para la teoría Estadística; la teoría de los errores de observación, aportada por Laplace y Gauss; y la teoría de los mínimos cuadrados desarrollada por Laplace, Gauss y Legendre. A finales del siglo XIX, Sir Francis Gaston ideó el método conocido por Correlación, que tenía por objeto medir la influencia relativa de los factores sobre las variables. De aquí partió el desarrollo del coeficiente de correlación creado por Karl Pearson y otros cultivadores de la ciencia biométrica como J. Pease Norton, R. H. Hooker y G. Udny Yule, que efectuaron amplios estudios sobre la medida de las relaciones.
Estadística - Pagina 6 Los progresos más recientes en el campo de la Estadística se refieren al ulterior desarrollo del cálculo de probabilidades, particularmente en la rama denominada indeterminismo o relatividad, se ha demostrado que el determinismo fue reconocido en la Física como resultado de las investigaciones atómicas y que este principio se juzga aplicable tanto a las ciencias sociales como a las físicas.
Etapas de Desarrollo de la Estadística La historia de la estadística está resumida en tres grandes etapas o fases. 1.- Primera Fase: Los Censos: Desde el momento en que se constituye una autoridad política, la idea de inventariar de una forma más o menos regular la población y las riquezas existentes en el territorio está ligada a la conciencia de soberanía y a los primeros esfuerzos administrativos. 2.- Segunda Fase: De la Descripción de los Conjuntos a la Aritmética Política: Las ideas mercantilistas extrañan una intensificación de este tipo de investigación. Colbert multiplica las encuestas sobre artículos manufacturados, el comercio y la población: los intendentes del Reino envían a París sus memorias. Vauban, más conocido por sus fortificaciones o su Dime Royale, que es la primera propuesta de un impuesto sobre los ingresos, se señala como el verdadero precursor de los sondeos. Más tarde, Bufón se preocupa de esos problemas antes de dedicarse a la historia natural. La escuela inglesa proporciona un nuevo progreso al superar la fase puramente descriptiva. Sus tres principales representantes son Graunt, Petty y Halley. El penúltimo es autor de la famosa Aritmética Política. Chaptal, ministro del interior francés, publica en 1801 el primer censo general de población, desarrolla los estudios industriales, de las producciones y los cambios, haciéndose sistemáticos durante las dos terceras partes del siglo XIX. 3.- Tercera Fase: Estadística y Cálculo de Probabilidades: El cálculo de probabilidades se incorpora rápidamente como un instrumento de análisis extremadamente poderoso para el estudio de los fenómenos económicos y sociales y en general para el
Estadística - Pagina 7 estudio de fenómenos “cuyas causas son demasiado complejas para conocerlos totalmente y hacer posible su análisis”.
División de la Estadística La Estadística para su mejor estudio se ha dividido en dos grandes ramas: la Estadística Descriptiva y la Inferencial.
Estadística Descriptiva: consiste sobre todo en la presentación de datos en forma de tablas y gráficas. Esta comprende cualquier actividad relacionada con los datos y está diseñada para resumir o describir los mismos sin factores pertinentes adicionales; esto es, sin intentar inferir nada que vaya más allá de los datos, como tales. Estadística Inferencial: se deriva de muestras, de observaciones hechas sólo acerca de una parte de un conjunto numeroso de elementos y esto implica que su análisis requiere de generalizaciones que van más allá de los datos. Como consecuencia, la característica más importante del reciente crecimiento de la estadística ha sido un cambio en el énfasis de los métodos que describen a métodos que sirven para hacer generalizaciones. La Estadística Inferencial investiga o analiza una población partiendo de una muestra tomada.
Método Estadístico El conjunto de los métodos que se utilizan para medir las características de la información, para resumir los valores individuales, y para analizar los datos a fin de extraerles el máximo de información, es lo que se llama métodos estadísticos. Los métodos de análisis para la información cuantitativa se pueden dividir en los siguientes seis pasos: 1. 2. 3.
Definición del problema. Recopilación de la información existente (previa). Obtención de información original (nueva).
Estadística - Pagina 8 4. 5. 6.
Clasificación de la información. Presentación de la información. Análisis, conclusiones y proposiciones.
Errores Estadísticos Comunes Al momento de recopilar los datos que serán procesados se es susceptible de cometer errores así como durante los cómputos de los mismos. No obstante, hay otros errores que no tienen nada que ver con la digitación y que no son tan fácilmente identificables. Algunos de éstos errores son: Sesgo: Es imposible ser completamente objetivo o no tener ideas preconcebidas antes de comenzar a estudiar un problema, y existen muchas maneras en que una perspectiva o estado mental pueda influir en la recopilación y en el análisis de la información. En estos casos se dice que hay un sesgo cuando el individuo da mayor peso a los datos que apoyan su opinión que a aquellos que la contradicen. Un caso extremo de sesgo sería la situación donde primero se toma una decisión y después se utiliza el análisis estadístico para justificar la decisión ya tomada. Datos no comparables: el establecer comparaciones es una de las partes más importantes del análisis estadístico, pero es extremadamente importante que tales comparaciones se hagan entre datos que sean comparables. Proyección descuidada de tendencias: la proyección simplista de tendencias pasadas hacia el futuro es uno de los errores que más ha desacreditado el uso del análisis estadístico. Muestreo Incorrecto: en la mayoría de los estudios sucede que el volumen de información disponible es tan inmenso que se hace necesario estudiar muestras, para derivar conclusiones acerca de la población a que pertenece la muestra. Si la muestra se selecciona correctamente, tendrá básicamente las mismas propiedades que la población de la cual fue extraída; pero si el muestreo se realiza incorrectamente, entonces puede suceder que los resultados no signifiquen nada. La Estadística es la ciencia que más aporta en la toma de decisiones en todos los ámbitos gerenciales. Desde el poder ejecutivo hasta los
Estadística - Pagina 9 “draft’s” deportivos, la Estadística juega su papel a la hora de hacer cualquier movimiento. Por otro lado, si no se sabe manejar con cautela puede generar resultados falaces que podrían a su vez llevar a la toma de decisiones erradas. Por consiguiente se recomienda un estudio pleno y científico de la materia a fin de que quien utilice sus servicios pueda hacerlo de manera objetiva y con resultados satisfactorios. Es imposible pensar en instituciones que manejan cierto volúmenes de datos e informaciones y que no utilicen sus herramientas para verificación, planeación y seguimiento de políticas, estudios de factibilidades, etc.
Estadística - Pagina 10 Capítulo 1 Objetivos: – – – – –
Tener una aproximación inicial a los conceptos de población, muestra y censo. Conocer datos generales sobre el último censo realizado en nuestro país. Reconocer la importancia de las variables estadísticas y diferenciarlas entre sí. Conocer los parámetros necesarios para realizar la ficha técnica de una investigación. Aplicar los conceptos al entorno específico de cada estudiante.
Reflexión: CLAVOS “ Esta es la historia de un muchachito que tenia muy mal carácter. Su padre le dio una bolsa de clavos y le dijo que cada vez que perdiera la paciencia, debería clavar un clavo detrás de la puerta. El primer día, el muchacho clavó 37 clavos detrás de la puerta. Las semanas que siguieron, a medida que él aprendía a controlar su genio, clavaba cada vez menos clavos detrás de la puerta y así fue descubriendo que era más fácil controlar su genio que clavar clavos detrás de la puerta. Llego el día en que pudo controlar su mal carácter durante todo el día y se sintió feliz. Después de informar a su padre, éste le sugirió que retirara un clavo cada día que lograra controlarse. Los días pasaron y el joven pudo anunciar a su padre que no quedaban más clavos para retirar de la puerta...Su padre lo tomó de la mano y lo llevo hasta la puerta. Le dijo: "has trabajado duro, hijo mío, pero mira todos esos hoyos en la puerta. Nunca más será la misma. Cada vez que tú pierdes la paciencia, dejas cicatrices en las personas exactamente como las que aquí ves."
Estadística - Pagina 11 Tú puedes insultar a alguien y retirar lo dicho, pero el modo como se lo digas lo devastará, y la cicatriz perdurará para siempre. Una ofensa verbal es tan dañina como una ofensa física.”
1. Conceptos Generales. 1.1Población y Muestra. Algo importante que hay que mencionar es que no siempre se trabaja con todos los datos. Esto por diversas razones, tanto prácticas como económicas. Por ejemplo, resultaría muy costoso obtener los datos de todos los seres humanos, o impráctico (y a la vez destructivo) obtener como datos el tiempo en el que se funden las bombillas producidas por una cierta marca realizando la medición de toda la producción. El estudio conduciría a la empresa a la ruina, pues la producción entera desaparecería. Por esta razón se considera un subconjunto del total de los casos, sujetos u objetos que se estudian y a quienes se les obtienen los datos. La población entonces, es el total hipotético de los datos que se estudian o recopilan. De acuerdo a su tamaño, la población puede considerarse como finita o infinita. Las observaciones de un estudio pueden ser de cualquier naturaleza, por ejemplo, la estatura de los soldados de un batallón de infantería, el diámetro de los balines producidos por una determinada máquina, el número de computadores existentes en Antioquia, el número de peatones que transitan por un puente peatonal, etcétera. De los ejemplos anteriores cuáles se refieren a poblaciones infinitas y cuáles a poblaciones finitas? Ante la imposibilidad ocasional de conseguir la información de toda la población, se recurre a la muestra, que viene siendo un subconjunto de los datos de la población, pero tal subconjunto tiene que contener datos que pueden servir para posteriores generalizaciones de las conclusiones, las cuales deben ser extrapoladas a toda la población. 1.2. Censo Es el estudio de la población completa. También se le denomina enumeración completa. Es realizado generalmente por instituciones de carácter gubernamental debido a sus grandes costos y a las dificultades propias de su realización. Los Estados deben realizar censos con el
Estadística - Pagina 12 objeto de determinar no sólo las necesidades de la población en cuanto a materia de servicios públicos, servicios de salud, obras de infraestructura física, etcétera, si no también con el objeto de “medir” la capacidad de los ciudadanos para responder a cargas impositivas o tributarias, con las cuales se suplirán las necesidades iniciales. Un censo es una operación muy complicada, que requiere de larga preparación y amplia publicidad. Legiones de censistas especialmente preparados recorren todas las viviendas del país durante las 24 horas de un día elegido especialmente, que por lo general se declara feriado. Estos funcionarios llevan planillas en las que anotan toda clase de datos relativos al género de vida de cada familia (incluyendo las características de su vivienda) y a la historia personal de cada habitante del país. Los resultados de los censos son tabulados por complejos programas estadísticos para luego ser publicados en volúmenes especiales los cuales quedan a disposición de gobernantes e investigadores. Los censos deben realizarse cada 5 años, pero existe la posibilidad de que se realicen máximo cada 11 años, pues de lo contrario se tendrían dificultades para acceder a créditos del Banco Interamericano de Desarrollo (BID). De los resultados del censo de 1993, el cual fue el XVI censo nacional de población y vivienda puede destacarse lo siguiente: Departamentos Municipios
y
Total
Hombres
Mujeres
33.109.840
16.296.539
16.813.301
4.945.448
2.341.775
2.603.673
Amazonas Leticia
37.764 22.866
19.537 11.150
18.227 11.356
Antioquia Medellín
4.342.347 1.630.009
2.095.461 753.220
2.246.886 876.789
137.193 39.796
70.435 19.838
66.758 19.958
Atlántico Barranquilla
1.667.500 993.759
806.249 470.637
861.251 523.122
Bolívar Cartagena
1.439.291 656.632
721.605 312.452
717.686 344.180
Boyacá Tunja
1.174.031 107.807
582.843 50.220
591.188 57.587
Caldas Manizales
925.358 327.663
462.825 155.218
462.533 172.445
Caquetá Florencia
311.464 96.247
160.381 46.405
151.083 49.842
Total Nacional Santa Fe de Bogotá D.C.
Arauca Arauca
Estadística - Pagina 13 Casanare Yopal
158.149 44.761
82.616 22.855
75.533 21.876
Cauca Popayán
979.231 187.519
491.106 89.119
488.125 98.400
Cesar Valledupar
729.634 248.525
369.256 120.202
360.378 128.323
Chocó Quibdo
338.160 102.003
169.200 47.847
168.960 54.156
Córdoba Montería
1.088.087 275.952
547.690 132.320
540.397 143.632
Cundinamarca
1.658.698
831.979
826.719
Guainía Puerto Inírida
13.491 7.287
7.350 3.936
6.141 3.351
Guaviare San José del Guaviare
57.884 29.663
33.008 16.431
24.876 13.232
Huila Neiva
758.013 250.838
378.135 119.018
379.878 131.820
Guajira Riohacha
387.773 97.289
192.503 48.450
195.270 48.839
Magdalena Santa Marta
882.571 283.711
447.910 136.760
434.661 146.951
Meta Villavicencio
561.121 253.780
287.676 124.051
273.445 129.729
Nariño Pasto
1.274.708 294.024
632.316 137.288
642.392 156.736
Norte de Santander Cúcuta
1.046.577 482.490
520.474 234.158
526.103 248.332
Putumayo Mocoa
204.309 20.736
108.551 10.226
95.758 10.510
Quindío Armenia
435.018 223.284
216.909 107.858
218.109 115.426
Risaralda Pereira
744.974 354.625
366.560 170.927
378.414 183.698
50.094 46.254 3.840
24.600 22.602 1.998
25.494 23.652 1.842
1.598.688 414.365
787.158 194.468
811.530 219.897
San Andrés y Providencia San Andrés Providencia y Santa Catalina Santander Bucaramanga
Estadística - Pagina 14 Sucre Sincelejo
624.463 174.345
316.553 83.008
307.910 91.337
Tolima Ibagué
1.150.080 365.136
583.122 173.897
566.958 191.239
Valle Cali
3.333.150 1.666.468
1.611.455 787.905
1.721.695 878.563
Vaupés Mitú
18.235 9.596
9.772 5.045
8.463 4.551
Vichada Puerto Carreño
36.336 7.059
19.529 3.765
16.807 3.294 Censo de 1993
La población colombiana para el año 2003 se estima en 43.000.000, lo cual significa un aumento de aproximadamente 10 millones de personas en 10 años, si hablamos en porcentaje diríamos que el aumento fue del 30% respecto al último censo. 1.3. Parámetros y estadísticos Existen medidas para realizar descripciones cuantitativas de los conjuntos de datos, o poblaciones, y de sus muestras, diferenciándose entre ellas las que se refieren a las mismas poblaciones y a las muestras. Para el caso de las poblaciones, las medidas que las describen se denominan parámetros, y suelen estar representadas con letras griegas (por ejemplo µ). Por otro lado, para el caso de aquellas medidas que describen a una muestra se les llama estadísticos o estimadores, y son representados por letras de nuestro alfabeto (por ejemplo X ).
1.4 Variables Estadísticas Son aquellas características o propiedades de las unidades elementales (es aquello que se quiere observar) cuya variación se atribuye al azar. Por ejemplo: la estatura, el color de los ojos, el sexo, el estado civil, la calificación de un curso, los artículos defectuosos producidos por una máquina, etcétera.
Estadística - Pagina 15 Las variables estadísticas pueden separarse en dos grupos distintos: cualitativas o cuantitativas. La variables serán de tipo cualitativo si los valores que asume son simplemente categorías de clasificación o atributos, es decir, no son susceptibles de medirse numéricamente. Por ejemplo el sexo puede asumir: masculino y femenino; el grado de escolaridad puede asumir: analfabeta, educación primaria, bachiller, profesional, especialista, maestro en, doctorado, etc. Una variable es cuantitativa si los valores que puede asumir son los resultados de un conteo o de una medición numérica. Será una variable cuantitativa discreta cuando sus resultados son propios de un conteo “datos de conteo”, por ejemplo el número de personas infectadas por el virus del SIDA el año anterior en cada país, el número de pasajeros que ingresan al metro de la ciudad de Medellín en cada estación, el número de hijos por familia que tienen en una región del país, etc. Es importante resaltar que una variable cuantitativa discreta tendrá siempre valores enteros y en ningún caso valores decimales. Será una variable cuantitativa continua cuando sus resultados son propios de una medición “datos de medida”, por ejemplo el peso de los estudiantes del cuarto nivel de ingenierías en una universidad en particular, la estatura que tienen los jóvenes de una escuela determinada, el tiempo que tarda en ser producido y empacado un producto, las temperaturas que se registran en la ciudad en el mes de octubre, etc. Las variables cuantitativas continuas pueden tomar valores enteros o decimales, dependiendo de la precisión del instrumento de medida utilizado.
1.5 Ficha Técnica La ficha técnica contiene aspectos importantes a resaltar de un estudio determinado, es importante comenzar con la revisión de la ficha técnica de un estudio pues nos dará luces importantes sobre si la investigación realizada es de nuestro interés o no. En ella podemos encontrar aspectos como población, muestra, descripción de la variable que se ha tomado de la unidad elemental y el tipo de variable (cualitativa o cuantitativa y de qué tipo). Observemos la realización de la ficha técnica a través de un ejemplo: Entre los visitantes al centro comercial el Tesoro, se realizó una encuesta con el objetivo de evaluar la calidad de los servicios que allí se prestan. La encuesta se realizó durante dos meses y posteriormente se
Estadística - Pagina 16 escogieron al azar 1000 encuestas del total de realizadas. ¿Cuál sería la ficha técnica de este estudio? a. La población sería la información suministrada sobre los servicios que se prestan a los visitantes del centro comercial el Tesoro durante dos meses. b. La muestra estaría constituida por la información suministrada sobre los servicios que presta el centro comercial el Tesoro a 1000 visitantes. c. La descripción de la variable serían los servicios prestados por el centro comercial el Tesoro. d. El tipo de variable sería cualitativo pues estamos recopilando información sobre atributos de estos servicios, como el que sean excelentes, buenos, regulares o malos. Observemos otro ejemplo: Se realizó un estudio por parte de la compañía Sony con el fin de cuantificar el número de televisores por casa o apartamento en la ciudad de Medellín. Para ello se encuestaron 10 mil viviendas. La ficha técnica sería: a. Población: Información sobre el número de televisores por casa o apartamento en la ciudad de Medellín. b. Muestra: Información sobre el número de televisores en 10.000 casas o apartamentos de la ciudad de Medellín. c. Descripción de la variable: Número de televisores por casa o apartamento. d. Tipo de variable: Cuantitativa Discreta.
1.6 Ejercicios 1. Proponga 5 ejemplos adicionales sobre poblaciones finitas y 5 sobre poblaciones infinitas. 2. ¿En qué momento debería tomarse toda la población para realizar un estudio determinado? 3. ¿Qué diferencia existe entre el concepto de muestra y el de muestreo?
Estadística - Pagina 17
4. Observando los datos suministrados sobre el censo de 1993 y basándose en las condiciones sociales, económicas y políticas por las cuales ha atravesado el país en estos 10 años, cómo cree que estaría compuesta la población colombiana en cuanto al sexo, si aceptamos el dato hipotético de 43 millones de habitantes para el año 2004? 5. Identifique las siguientes variables como cualitativas o cuantitativas y de qué tipo: a. Las notas definitivas (de 0 a 5) obtenidas por los estudiantes del curso de estadística descriptiva el semestre anterior. b. La cantidad de hemoglobina en la sangre obtenida de unos deportistas de alto rendimiento. c. Las marcas de calculadoras empleadas por 100 estudiantes de contaduría de la universidad. d. Los supervisores de turno encargados de las operaciones de cómputo de una aerolínea. e. Las tasas de accidentalidad de 46 talleres de doblado de metal. f. El tiempo de servicio que llevan los trabajadores de la empresa Fabricato. g. Los conceptos dados por un grupo de personas sobre el trabajo realizado hasta el momento por el presidente de la república. 6. Cientos de tortugas marinas recién salidas del cascarón, siguiendo instintivamente las brillantes luces de unas casas, caminaron hacia la muerte al cruzar una autopista costera en Florida (Tampa Tribune, septiembre de 1990). Este incidente propició que algunos investigadores comenzaran a experimentar con lámparas de sodio especiales de baja presión. Cierta noche, 60 crías de tortugas se soltaron en una playa oscura y se tomó nota de la dirección en que viajaron. La noche siguiente se instalaron las lámparas especiales y se volvieron a soltar las mismas 60 crías. Por último, en la tercera noche, se colocó papel alquitranado sobre las lámparas de sodio. Así pues se registró la dirección de desplazamiento de cada una de las crías en tres condiciones experimentales: oscuridad, lámparas de sodio y lámparas de sodio cubiertas con papel alquitranado. Realice la ficha técnica para el presente estudio. 7. Las Empresas Públicas de Medellín realizaron un estudio acerca de los deudores morosos que éstas poseen con el fin de revisar las causas por las cuales se llega a este tipo de situación y con miras a llegar a un acuerdo que beneficie a las partes involucradas. En este estudio se entrevistaron a 106 personas que aparecían como los titulares de las
Estadística - Pagina 18 cuentas que se encontraban vencidas. Realice la ficha técnica de este estudio. ¿Cuáles cree usted que sean las causas más importantes por las cuales se ha dejado de pagar por los servicios públicos, siendo éstos en extremo esenciales? 8. Entre 125 aspirantes al cargo de secretaria ejecutiva para una reconocida empresa de financiamiento de la ciudad, se escogieron sólo 15 para entrevistarlas personalmente, basándose en los resultados obtenidos en una prueba sobre coeficiente intelectual (CI), el cual debía estar por encima de 270 puntos. Realice la ficha técnica para esta selección de personal. 9. ¿Podría investigar acerca de lo que realiza la sociometría, la historiametría, la econometría y la biometría? 10. Proponga un estudio relacionado con su área en donde se realice la ficha técnica, sea lo más creativo posible.
Estadística - Pagina 19 Capítulo 2 Objetivos: – – – – –
Reconocer la importancia de realizar un muestreo adecuado cuando se recogen los datos en una investigación, diferenciando claramente algunos tipos de muestreo existentes. Aprender a calcular el tamaño de una muestra tanto para tamaños de poblaciones conocidas como desconocidas. Escoger el tipo de muestreo adecuado para el tipo de investigación que se encuentra realizando. Adquirir práctica en el manejo de la tabla que muestra áreas bajo la curva normal (apéndice). Aplicar los conceptos al entorno específico de cada estudiante.
Reflexión: EL CIELO “Un hombre, su caballo y su perro iban por una carretera. Cuando pasaban cerca de un árbol enorme cayó un rayo y los tres murieron fulminados. Pero el hombre no se dio cuenta de que ya había abandonado este mundo, y prosiguió su camino con sus dos animales (a veces los muertos tardan un cierto tiempo antes de ser conscientes de su nueva condición...) La carretera era muy larga, el sol era muy intenso, y ellos estaban sudados y sedientos. En una curva del camino vieron un magnifico portal de mármol, que conducía a una plaza pavimentada con adoquines de oro, en el centro de la cual había una fuente de donde manaba agua cristalina. El caminante se dirigió al hombre que custodiaba la entrada. –
Buenos días.
–
Buenos días - Respondió el guardián.-
–
¿Como se llama este lugar tan bonito?
–
Esto es el Cielo.
–
Que bien que hayamos llegado al Cielo, porque estamos sedientos.
–
Usted puede entrar y beber tanta agua como quiera. Y el guardián señaló la fuente.
–
Pero mi caballo y mi perro también tienen sed...
–
Lo siento mucho - Dijo el guardián- pero aquí no se permite la entrada a los animales.
Estadística - Pagina 20 El hombre se levantó con gran disgusto, puesto que tenía muchísima sed, pero no pensaba beber solo; dio las gracias al guardián y siguió adelante. Después de caminar un buen rato cuesta arriba, ya exhaustos, llegaron a otro sitio, cuya entrada estaba marcada por una puertecita vieja que daba a un camino de tierra rodeado de árboles. A la sombra de uno de los árboles había un hombre echado, con la cabeza cubierta por un sombrero.
- Buenos días - dijo el caminante. El hombre respondió con un gesto de la cabeza. –
Tenemos mucha sed, mi caballo, mi perro y yo.
–
Hay una fuente entre aquellas rocas - dijo el hombre, indicando el lugar.
–
Podéis beber tanta agua como queráis.
El hombre, el caballo y el perro fueron a la fuente y calmaron su sed. El caminante volvió atrás para dar las gracias al hombre. –
Podéis volver siempre que queráis - le respondió-
–
A propósito ¿Como se llama este lugar?
–
Cielo.-
–
¿El Cielo? ¿Si? Pero si el guardián del portal de mármol me ha dicho que aquello era el Cielo!-
–
Aquello no era el Cielo, era el Infierno, contestó el guardián.
El caminante quedó perplejo. –
¡Deberíais prohibir que utilicen vuestro nombre! ¡Esta información falsa debe de provocar grandes confusiones!
–
¡De ninguna manera! En realidad, nos hacen un gran favor. Porque allí se quedan todos los que son capaces de abandonar a sus mejores amigos... “
Autor: Paulo Coelho
Estadística - Pagina 21
2. Teoría de muestreo Una parte fundamental para realizar un estudio estadístico de cualquier tipo es obtener unos resultados confiables y que puedan ser aplicables. Como ya se comentó anteriormente, resulta casi imposible o impráctico llevar a cabo algunos estudios sobre toda una población, siendo la solución llevar a cabo el estudio basándose en un subconjunto de ésta denominada muestra. Sin embargo, para que los estudios tengan la validez y confiabilidad buscada, es necesario que tal subconjunto de datos, o muestra, posea algunas características específicas que permitan, al final, generalizar los resultados hacia la población de la cual se tomó. Esas características tienen que ver principalmente con el tamaño de la muestra y con la manera de obtenerla. 2.1 Importancia del Muestreo El muestreo implica cierto grado de incertidumbre que debe ser aceptado para poder realizar el trabajo, pues aparte de que estudiar una población resulta ser un trabajo en ocasiones demasiado grande, pueden argumentarse otras razones: •
Recursos limitados. Es decir, no existen los recursos humanos, materiales o económicos para realizar el estudio sobre el total de la población. Es como cuando se compra un automóvil usado (por ejemplo), que se prueba unos minutos (el encendido, una carrerita, etc.) para ver si funciona correctamente y luego se adquiere, pero no se espera probarlo toda la vida.
•
Escasez. Es el caso en que se dispone de una sola muestra. Por ejemplo, para el estudio paleontológico de los dinosaurios (el T. Rex por ejemplo) sería muy bueno contar con muchos restos fósiles y así realizar tales investigaciones; sin embargo, se cuenta sólo con una docena de esqueletos fosilizados (casi todos incompletos) de esas criaturas en todo el mundo.
•
Pruebas destructivas. Es el caso en el que realizar el estudio sobre toda la población llevaría a la destrucción misma de la población. Por ejemplo, si se quisiese saber el conteo exacto de hemoglobina de una persona habría que extraerle toda la sangre.
•
El muestreo puede ser más exacto. Esto es en el caso en el que el estudio sobre la población total puede causar errores por su tamaño o, en el caso de los censos, que sea necesario utilizar personal no lo suficientemente capacitado; mientras que, por otro
Estadística - Pagina 22 lado, el estudio sobre una muestra podría ser realizado con menos personal pero más capacitado. 2.2 Tamaño de las muestras Para calcular el tamaño de una muestra hay que tomar en cuenta tres factores: 1. El porcentaje de confianza con el cual se quiere generalizar los datos desde la muestra hacia la población total. 2. El porcentaje de error que se pretende aceptar al momento de hacer la generalización. 3. El nivel de variabilidad que se calcula para comprobar la hipótesis. La confianza o el porcentaje de confianza es el porcentaje de seguridad que existe para generalizar los resultados obtenidos. Esto quiere decir que un porcentaje del 100% equivale a decir que no existe ninguna duda para generalizar tales resultados, pero también implica estudiar a la totalidad de los casos de la población. Para evitar un costo muy alto para el estudio o debido a que en ocasiones llega a ser prácticamente imposible el estudio de todos los casos, entonces se busca un porcentaje de confianza menor. Comúnmente se fija en un 95%. El error o porcentaje de error equivale a elegir una probabilidad de aceptar una hipótesis que sea falsa como si fuera verdadera, o la inversa: rechazar la hipótesis verdadera por considerarla falsa. Al igual que en el caso de la confianza, si se quiere eliminar el riesgo del error y considerarlo como 0%, entonces la muestra es del mismo tamaño que la población, por lo que conviene correr un cierto riesgo de equivocarse. Comúnmente se aceptan entre el 4% y el 6% como error, tomando en cuenta de que no son complementarios la confianza y el error. La variabilidad es la probabilidad (o porcentaje) con el que se aceptó y se rechazó la hipótesis que se quiere investigar en alguna investigación anterior o en un ensayo previo a la investigación actual. El porcentaje con que se aceptó tal hipótesis se denomina variabilidad positiva y se denota por p, y el porcentaje con el que se rechazó la hipótesis es la variabilidad negativa, denotada por q. Hay que considerar que p y q son complementarios, es decir, que su suma es igual a la unidad p+q =1. Además, cuando se habla de la máxima variabilidad, en el caso de no existir antecedentes sobre la investigación (no hay otras o no se pudo aplicar una prueba previa), entonces los valores de variabilidad son p = q = 0.5.
Estadística - Pagina 23 Una vez que se han determinado estos tres factores, entonces se puede calcular el tamaño de la muestra. Hablando de una población de alrededor de 10,000 casos, o mínimamente esa cantidad, podemos pensar en la manera de calcular el tamaño de la muestra a través de las siguientes fórmulas. Hay que mencionar que estas fórmulas se pueden aplicar de manera aceptable pensando en instrumentos que no incluyan preguntas abiertas y que sean un total de alrededor de 30. Vamos a presentar dos fórmulas, siendo la primera la que se aplica en el caso de que no se conozca con precisión el tamaño de la población, y es:
n=
Z 2 pq E2
(1)
donde: n Z p q E
es el tamaño de la muestra; es el nivel de confianza; es la variabilidad positiva; es la variabilidad negativa; es la precisión o error.
Hay que tomar nota de que debido a que la variabilidad y el error se pueden expresar por medio de porcentajes, hay que convertir todos esos valores a proporciones en el caso necesario. También hay que tomar en cuenta que el nivel de confianza no es ni un porcentaje, ni la proporción que le correspondería, a pesar de que se expresa en términos de porcentajes. El nivel de confianza se obtiene a partir de la distribución normal estándar, pues la proporción correspondiente al porcentaje de confianza es el área simétrica bajo la curva normal que se toma como la confianza, y la intención es buscar el valor Z de la variable aleatoria que corresponda a tal área. Por ejemplo: Si se quiere un porcentaje de confianza del 95%, entonces hay que considerar la proporción correspondiente, que es 0.95. Lo que se buscaría en seguida es el valor Z para la variable aleatoria z tal que el área simétrica bajo la curva normal desde -Z hasta Z sea igual a 0.95, es decir, P(-Z
Estadística - Pagina 24 En el caso de que sí se conozca el tamaño de la población entonces se aplica la siguiente fórmula:
Z 2 pqN n= NE 2 + Z 2 pq
(2)
donde n Z p q N E
es el tamaño de la muestra; es el nivel de confianza; es la variabilidad positiva; es la variabilidad negativa; es el tamaño de la población; es la precisión o el error.
La ventaja sobre la primera fórmula es que al conocer exactamente el tamaño de la población, el tamaño de la muestra resulta con mayor precisión y se puede incluso ahorrar recursos y tiempo para la aplicación y desarrollo de la investigación. Por ejemplo: Se desea realizar una investigación sobre las personas que se encuentran sin empleo en una ciudad intermedia de Colombia. Se tomará una muestra de manera aleatoria, por razones de tiempo y costos. En primera instancia, suponiendo que no se conoce el tamaño exacto de la población, pero con la seguridad de que ésta se encuentra cerca a los diez mil, se aplicará la primera fórmula. Se considerará una confianza del 95%, un porcentaje de error de sólo el 4% y la máxima variabilidad por no existir antecedentes en la institución sobre la investigación y porque no se puede aplicar una prueba previa. Primero habrá que obtener el valor de Z de tal forma que la confianza sea del 95%, es decir, buscar un valor de Z tal que P(-Z
Esto quiere decir que el tamaño de la muestra es de 600 personas. Supongamos ahora que sí se conoce el tamaño de la población, la cual es de 9,408, entonces se aplica la segunda fórmula, ecuación número (2). Utilizando los mismos parámetros la sustitución queda como:
n=
2 (1.96 )(0.5)(0.5 )(9408) 9035.4432 = = 564.25 2 2 (9408)(0.0 4 ) + (1.96)(0.5)(0.5 ) 16.0132
Estadística - Pagina 25 Con lo que se tiene una cota mínima de 564 personas para la muestra y así poder realizar la investigación sin más costo del necesario, pero con la seguridad de que las condiciones aceptadas para la generalización (confiabilidad, variabilidad y error) se mantienen.
2.3. Tipos de muestreo Los autores proponen diferentes criterios de clasificación de los diferentes tipos de muestreo, aunque en general pueden dividirse en dos grandes grupos: métodos de muestreo probabilísticos y métodos de muestreo no probabilísticos. 2.3.1. Métodos de muestreo probabilísticos Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamaño n tienen la misma probabilidad de ser elegidas. Sólo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por tanto, los más recomendables. Dentro de los métodos de muestreo probabilísticos encontramos los siguientes tipos: 2.3.1.1 Muestreo aleatorio simple: El procedimiento empleado es el siguiente: 1º Se asigna un número a cada individuo de la población 2º A través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc, se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población que estamos manejando es muy grande.