Estad´ıstica Administrativa II. Gesti´on y administraci´on P´ ublica. Curso 2006/2007
1
Tema 8. Conceptos b´ asicos de muestreo. 1.
Introducci´ on
Ya hemos visto las t´ecnicas estad´ısticas b´asicas que nos permiten extraer conclusiones acerca de una poblaci´on a partir de una muestra. Sin embargo, un proceso estad´ıstico completo se compone de m´as etapas. Estas etapas se pueden resumir como sigue: Planteamiento del problema. Como solemos hacer, una vez establecido el objetivo y el tipo de inferencias que conlleva, se debe determinar el experimento, la poblaci´on y las caracter´ısticas que interesan de la misma. Planificaci´ on del experimento. En los temas anteriores nos daban ya los datos del experimento, sin embargo, a la hora de hacer una estad´ıstica real completa debemos decidir la forma de realizar del experimento (tipo de muestreo o encuesta, redacci´on de preguntas, etc.) Selecci´ on de la muestra. Una vez que sabemos c´omo vamos a realizar el experimento, debemos determinar los individuos concretos que van a formar parte de la muestra (realizaci´on de sorteo, etc.) Obtenci´ on de los datos. En esta etapa se obtienen los datos correspondientes a las mediciones u observaciones en la muestra. Descripci´ on de los datos. Como hac´ıamos en Estad´ıstica I, se trata de tabular, resumir e interpretar la informaci´on contenida en los datos de la muestra que pueda ser relevante para conseguir nuestro objetivo final. Estudio inferencial. Como hac´ıamos en los temas 6, 7 y 8, en esta etapa se hacen inferencias que nos interesen a partir de los datos disponibles. Informe estad´ıstico. Como decimos siempre, los resultados obtenidos en el proceso estad´ıstico se deben presentar de forma clara y rigurosa, indicando los aspectos t´ecnicos necesarios y exponiendo las conclusiones en t´erminos accesibles. Vemos que los u ´nicos puntos que no hemos tratado hasta ahora del proceso estad´ıstico se refieren a la forma de llevar a cabo el experimento en la pr´actica. La recogida de datos es un punto fundamental en todo estudio estad´ıstico, porque todo lo que hemos estudiado no sirve de nada si se aplica a datos “falsos” o tomados en malas condiciones. Las T´ecnicas de Muestreo se ocupan de determinar, para cada estudio concreto, cu´al es el procedimiento ´optimo para recopilar la informaci´on que se precisa.
2.
Objetivos de las muestras
Ya sabemos que para sacar conclusiones sobre toda una poblaci´on, o bien examinamos todas las unidades de la poblaci´on (es decir, realizamos un censo) o bien examinamos s´olo ciertas unidades de la poblaci´on (muestra), y suponemos que los resultados obtenidos son representativos de toda la poblaci´on para obtener inferencias. El muestreo es necesario, por ejemplo, si la poblaci´on es tan grande que el censo exceda de las posibilidades del investigador, o cuando el proceso de recolecci´on de datos es destructivo, como ocurre al consumir un art´ıculo para juzgar su calidad, o al determinar el punto de ruptura de un material. Adem´as, existen otras razones que pueden hacer ventajoso el estudiar una poblaci´on a partir de sus muestras: Coste reducido. Si los datos que buscamos los podemos obtener a partir de una peque˜ na parte del total de la poblaci´on, los gastos de recogida y tratamiento de los datos ser´an menores. Por ejemplo, cuando se realizan encuestas previas a un refer´endum, es m´as barato preguntar a 4.000 personas su intenci´on de voto, que a 30.000.000. No s´olo hay que considerar el coste absoluto, sino tambi´en el relativo, esto es, el coste en relaci´on a la cantidad de informaci´on obtenida. Puede ocurrir que el aumento de informaci´on que se obtenga con un censo no compense su mayor coste. Mayor rapidez. Disponiendo de ciertos recursos puede obtenerse mediante muestras informaci´on m´as r´apida, frecuente y detallada, lo que aumentar´a su utilidad, sobre todo para fen´omenos din´amicos, como la variaci´on de precios de consumo (IPC), calidad del aire, etc. Estamos acostumbrados a ver c´omo con los resultados del escrutinio de las primeras mesas electorales, se obtiene una aproximaci´on bastante buena del resultado final de unas elecciones, muchas horas antes de que el recuento final de votos haya finalizado.
Estad´ıstica Administrativa II. Gesti´on y administraci´on P´ ublica. Curso 2006/2007
2
En muchas ramas del conocimiento (como astronom´ıa, f´ısica o qu´ımica), no hace falta realizar muestreos complicados para asegurar la representatividad de las muestras, porque a veces se puede garantizar de otras formas, por ejemplo: 1. Supuesto de uniformidad. A veces las caracter´ısticas poblacionales son m´as o menos constantes en toda su extensi´on y cualquier porci´on es representativa del total. Por ejemplo, las muestras de sangre, ya que su composici´on es m´as o menos constante en todo el cuerpo. 2. Supuesto de disposici´ on aleatoria. En otras ocasiones la poblaci´on no es uniforme en cuanto a los valores de la(s) variable(s) de inter´es, pero ´estos se reparten aleatoriamente en toda la extensi´on poblacional. Por esta raz´on, cualquier porci´on de la poblaci´on es, en realidad, una muestra aleatoria y, por lo tanto, no necesitamos m´as que elegir una parte cualquiera (sin sorteos ni procedimientos m´as complicados). Sin embargo estos supuestos no se suelen verificar en otras ciencias, como las ciencias sociales, medicina o biolog´ıa, y por eso, en este tema estudiaremos algunas t´ecnicas para obtener muestras representativas en distintas circunstancias. En el proceso de muestreo intervienen elementos de distinta naturaleza. Por un lado se encuentran las cuestiones pr´acticas relativas a la determinaci´on de los objetivos, la recogida de datos, la elaboraci´on de cuestionarios, la preparaci´on de los encuestadores, etc., que b´asicamente no son de naturaleza estad´ıstica, aunque es fundamental detenerse en ellas para que el muestreo sea realmente v´alido. Por otro lado est´an las cuestiones propiamente estad´ısticas, como son la elecci´on de procedimientos de muestreo adecuados, la elecci´on de m´etodos de estimaci´on de las caracter´ısticas poblacionales y la interpretaci´on de los resultados. De estas cuestiones se ocupa la Teor´ıa de Muestras, cuyo objetivo general se puede resumir diciendo que es la parte de la Estad´ıstica que se encarga de estudiar procedimientos de selecci´on de la muestra y de estimaci´on que, con el coste m´ınimo posible, proporcionen estimaciones con la mayor eficacia posible.
3.
Conceptos b´ asicos
Habitualmente llamamos poblaci´on al conjunto de individuos que nos interesa. Sin embargo, a la hora de realizar un experimento, a veces no todos los individuos de la poblaci´ on objetivo son accesibles. Por ejemplo, si realizamos el muestreo por tel´efono, sabemos que no llegamos a toda la poblaci´on. El conjunto que realmente investigamos se denominar´a poblaci´ on muestreada. A la hora de seleccionar la muestra, los individuos pueden extraerse de uno en uno o agrupados (por ejemplo, en una poblaci´on humana la selecci´on puede hacerse persona a persona, familia a familia, edificio a edificio, etc). Una unidad muestral ser´a un individuo o conjunto de individuos que se seleccionan en una u ´nica extracci´on. Las unidades muestrales distintas no deben tener elementos comunes y deben cubrir toda la poblaci´on muestreada. El conjunto de todas las unidades muestrales consideradas se llama marco del muestreo. Hay que tener en cuenta que a veces, hay unidades en el marco de muestreo que no pertenecen a la poblaci´on objetivo y esto es un problema que hay que intentar minimizar para que no se distorsionen los resultados. Ejemplo: encuesta telef´onica sobre intenci´on de voto en Asturias. La poblaci´on la constituir´ıan, en principio, todos los asturianos con derecho a voto, pero para realizar el muestreo necesitamos un listado de n´ umeros de tel´efono. La poblaci´on muestreada la constituir´an entonces todas aquellas personas con derecho a voto a las que se pueda acceder con ese listado y el marco de muestreo estar´a formado por las familias (unidades muestrales) con n´ umero en ese listado. Este marco en m´as amplio que la poblaci´on muestreada, porque puede responder al tel´efono una persona que no tenga derecho a voto, con lo que no ser´ıa elegible para la muestra y la tendr´ıamos que descartar.
4.
Tipos de muestreo
Los procedimientos de muestreo que nos permiten conocer de antemano la probabilidad de seleccionar cada muestra se denominan muestreos probabil´ısticos. Dentro de los m´etodos de muestreo probabil´ısticos encontramos los siguientes tipos: Muestreo aleatorio. Se utiliza alguna t´ecnica (como el sorteo) que permita que cada unidad del marco tenga la misma probabilidad de ser elegida. La muestra se puede extraer: • sin reposici´ on: una vez extra´ıda una unidad, se retira y no se tiene en cuenta para las siguientes extracciones. • con reposici´ on: una unidad seleccionada en una extracci´on se repone y participa en las siguientes extracciones, por lo que se podr´ıa seleccionar la misma unidad dos veces o m´as.
Estad´ıstica Administrativa II. Gesti´on y administraci´on P´ ublica. Curso 2006/2007
3
En general tiene m´as sentido un muestreo sin reposici´on, porque tener en cuenta el mismo individuo m´as de una vez no aporta informaci´on nueva. Sin embargo, desde el punto de vista t´ecnico suele ser mucho m´as sencillo manejar el muestreo con reposici´on (por ejemplo, en muestreos en la calle es dif´ıcil aislar a una persona para que no pueda volver a aparecer en la muestra) y si la poblaci´on es grande, la probabilidad de que aparezca dos veces la misma unidad es muy peque˜ na, por lo que se utiliza m´as a menudo este segundo tipo. Muestreo sistem´ atico. Se numeran las unidades del marco, se divide en bloques, se elige una unidad k al azar del primer bloque y de ah´ı en adelante se toma siempre la k-´esima unidad de cada bloque. A veces este tipo de muestreo resulta m´as c´omodo que el muestreo aleatorio porque s´olo hay que realizar un sorteo, sin embargo, hay que ser cuidadoso y aplicarlo s´olo cuando estemos seguros de que as´ı extraeremos una muestra representativa. Muestreo aleatorio estratificado. A veces la poblaci´on est´a dividida en estratos, que son subconjuntos homog´eneos respecto a alguna caracter´ıstica que nos interese. Ejemplo: si queremos determinar el precio medio de los pisos en Oviedo, los barrios o zonas podr´ıan constituir un estrato, porque a pesar de haber variaciones entre los pisos de una zona, suelen ser m´as homog´eneos dentro de cada zona que en comparaci´on con otras zonas. Por ejemplo, nos esperamos que haya menos diferencia entre dos pisos de Otero que entre uno de Otero y otro de la calle Ur´ıa. El muestreo estratificado consiste en seleccionar muestras de modo independiente en cada estrato para asegurar la presencia adecuada de los distintos estratos en los que se divide la poblaci´on en la muestra (intentando de este modo que nuestra muestra se parezca m´as a la poblaci´on). La forma de fijar el tama˜ no de muestra dentro de cada estrato se llama afijaci´on y puede ser: • Uniforme: se eligen muestras del mismo tama˜ no dentro de cada estrato. Se utiliza cuando suponemos que todos los estratos son m´as o menos iguales o no sabemos nada sobre ellos Ejemplo: si queremos una muestra de 50 pisos en 4 zonas de Oviedo, con esta afijaci´on elegir´ıamos 12 o 13 pisos en cada zona. • Proporcional : el tama˜ no de la muestra en cada estrato en relaci´on al tama˜ no total sigue la misma proporci´on que el tama˜ no del estrato respecto a la poblaci´on. Se utiliza cuando los estratos tienen distinto peso en la poblaci´on; conocemos su tama˜ no, pero no tenemos m´as informaci´on sobre ellos. Ejemplo: si queremos una muestra de 50 pisos en 4 zonas de Oviedo, y sabemos que la zona 1 representa el 20 % de la poblaci´on, la zona 2 el 40 %, la 3 el 30 % y la 4 el 10 % con esta afijaci´on elegir´ıamos 10 pisos en la zona 1, 20 en la zona 1, 15 en la 2 y 5 en la zona 4. ´ • Optima (con o sin costes): el tama˜ no de la muestra en cada estrato es proporcional a la dispersi´on de la caracter´ıstica de inter´es en cada estrato y, en caso de conocer los costes de muestrear cada unidad en cada estrato, se tienen tambi´en en cuenta. Esta es la afijaci´on que mejores resultados produce, sin embargo, es la m´as complicada. Por un lado, necesitamos tener una estimaci´on de la variabilidad de la caracter´ıstica que estamos investigando, lo que se suele conseguir con un muestreo piloto (es decir, tomando una muestra peque˜ na inicial). Por otro lado, para calcular los tama˜ nos muestrales en este caso hay que emplear procedimientos matem´aticos complejos, por lo que, en la pr´actica, s´olo se suele emplear en trabajos elaborados. Muestreo por conglomerados. En otras ocasiones la poblaci´on est´a dividida en conglomerados, que son subconjuntos heterog´eneos respecto a alguna caracter´ıstica que nos interese. Ejemplo: si queremos determinar la fruta preferida por los escolares de Oviedo, las aulas de los distintos colegios podr´ıan constituir un conglomerado, ya que posiblemente haya la misma variedad de gustos dentro de una misma clase que si elegimos ni˜ nos de distintas aulas. Cuando la poblaci´on se divide de forma natural en conglomerados, muchas veces es sencillo seleccionar conglomerados y que todos sus componentes formen parte del muestreo, con lo que se consiguen muestreos grandes con poco esfuerzo. Esto se denomina muestreo por conglomerados uniet´apico. En el ejemplo anterior ser´ıa sencillo seleccionar unas cuantas aulas y que todos los alumnos de las aulas seleccionadas diesen su opinion.
Estad´ıstica Administrativa II. Gesti´on y administraci´on P´ ublica. Curso 2006/2007
4
A veces, es costoso obtener datos de todas las unidades del conglomerado y es preferible realizar dentro de ´el un nuevo muestreo, esto ser´ıa un muestreo multiet´apico. Los muestreos multiet´apicos pueden constar de 2 o m´as etapas y combinar cualquiera de las t´ecnicas que hemos visto. Ejemplo: en una encuesta sobre la estatura de los asturianos, se podr´ıan seleccionar en primer lugar municipios (conglomerados) y luego, dentro de cada municipio, elegir´ıamos una muestra aleatoria. Si pretendemos hacer inferencias rigurosas, necesitamos aplicar un muestreo probabil´ıstico que garantice una “muestra v´alida”, no sesgada. Sin embargo, el muestreo probabil´ıstico resulta a veces muy costoso y si el objetivo es exploratorio y no se trata de sacar conclusiones generales, se pueden utilizar muestreos no probabil´ısticos, como por ejemplo: Muestreo sin norma: se toma la muestra de cualquier manera, por razones de comodidad o circunstancias o capricho. Esta muestra no suele ser muy representativa, salvo que la poblaci´on sea muy homog´enea. Ejemplo: tomar como muestra para la estatura de los asturianos los asistentes a esta clase. Muestreo intencional u opin´ atico: la selecci´on se lleva a cabo seg´ un el criterio de un experto. La representatividad depende de la intenci´on u opini´on de la persona que la obtiene y, en este caso, la composici´on de la muestra puede estar influenciada por sus preferencias o tendencias, incluso inconscientemente. Ejemplo: en una encuesta de intenci´on de voto, preguntar en la calle a la gente que consideramos m´as representativa, por ejemplo, elegir una persona de traje y otra con vaqueros, etc. Muestreo por cuotas: conceptualmente es un muestreo estratificado en el que los estratos suelen estar determinados por carater´ısticas sociol´ogicas o demogr´aficas (el sexo, la edad, profesi´on, etc.). Sin embargo, se suele llevar a cabo en la calle, de forma que los encargados de recoger los datos, buscan a las personas de cada estrato que deben entrevistar para cubrir la cuota en vez de elegirlas al azar, por lo que en la pr´actica se convierte en un muestreo no probabil´ıstico. Ejemplo: en una encuesta de intenci´on de voto, se estratifica la poblaci´on por sexos y grupos de edad y se trata de preguntar en la calle a 10 mujeres entre 20 y 30 a˜ nos, 15 entre 30 y 40, etc. En la pr´actica, el investigador va buscando gente que cumpla esas condiciones, en vez de ir seleccionando al azar de entre las que las cumplen (lo que har´ıa que el muestreo fuese probabil´ıstico y v´alido para sacar conclusiones estad´ısticas). Muestreo semiprobabil´ıstico: es un muestreo multiet´apico en el que se mezclan muestreos probabil´ısticos (normalmente en las primeras etapas) y no probabil´ısticos.
5.
Tipos de error
Ya sabemos que los datos obtenidos en una muestra nos permiten inferir unos valores aproximados de la poblaci´on en su totalidad (estimaciones). Estos valores aproximados no suelen ser exactos, es decir, cometemos error que se denomina error de muestreo. Obviamente, el objetivo es que este error sea peque˜ no. Si el muestreo es probabil´ıstico, se puede cuantificar el error m´aximo que se puede cometer al hacer una estimaci´on con cierta probabilidad. Ejemplo: al estimar la media de una poblaci´on a partir de una muestra aleatoria, con un razonamiento similar al que hac´ıamos cuando habl´abamos de la precisi´on de los intervalos de confianza, podr´ıamos decir que, fijado un nivel de bX S confianza α, nos vamos a equivocar como mucho en aproximadamente aα √ (suponiendo que tenemos una estimaci´on de la n b variabilidad SX de un muestreo previo). As´ı, si fijamos, por ejemplo, una confianza del 95 %, podremos decir el error m´aximo que cometeremos en el 95 % de las ocasiones (como en el tema 7, podr´ıamos hablar de un 95 % de muestras buenas, para las que tendremos controlado el error, y un 5 % de muestras malas, para las que no controlaremos el error). Nos fijamos en que el error de muestreo depende de la confianza (si queremos asegurar una mayor confianza, el error m´aximo ser´a mayor), de la variabilidad (a mayor variabilidad, mayor error) y del tama˜ no muestral (a mayor tama˜ no muestral, menor error). La f´ormula anterior tiene un doble uso: cuantificar el error de muestreo dada la confianza, la estimaci´on de la variabilidad y el tama˜ no muestral o bien, fijar el tama˜ no muestral dado el error m´ aximo que estamos dispuestos a asumir, la confianza y la estimaci´on de la variabilidad. Si el muestreo no es probabil´ıstico, no se puede cuantificar el error que se comete al extrapolar a la poblaci´on de ninguna manera, con lo que la credibilidad de los resultados que se obtienen queda limitado a la muestra. Adem´as de los errores de muestreo, existen otros errores que hay que tratar de eliminar en la medida de lo posible con un buen dise˜ no de la investigaci´on y una buena preparaci´on del equipo que lo lleve a cabo. Principalmente, se pueden distinguir las siguientes fuentes de error no muestral:
Estad´ıstica Administrativa II. Gesti´on y administraci´on P´ ublica. Curso 2006/2007
5
Error de cobertura: aparece cuando la poblaci´on muestreada y la poblaci´on objetivo son muy diferentes, ya sea por omisiones, duplicidades y unidades extra˜ nas, etc. Ejemplo: si realizamos un muestreo por e-mail acerca de la intenci´on de voto de los asturianos, llegar´ıamos a una parte muy peque˜ na de la poblaci´on (omisi´on), adem´as mucha gente tiene varias direcciones, por lo que podr´ıan darse duplicidades. Adem´as, no todas las direcciones de e-mail son personales, con lo que podr´ıamos enviar la encuesta, por ejemplo, a un buz´on de contestaci´on autom´atica (unidades extra˜ nas). Error de selecci´ on: surge cuando no se respeta la selecci´on muestral original determinada por el procedimiento de muestreo que se est´a considerando. Ejemplo: por ejemplo, en un muestreo casa por casa debemos entrevistar a alguien de la familia del 1o B de cierto portal, pero como no nos abren, vamos al 1o A, que s´ı responden. Esto puede introducir un sesgo, porque quiz´as la opini´on de las personas que est´an en casa a ciertas horas no coincide con la de las que no suelen estar. Error de respuesta: se produce cuando no es posible obtener las mediciones de inter´es sobre alg´ un elemento en la muestra. Puede deberse a: la ausencia temporal del encuestado durante las horas de entrevista, negativa absoluta a colaborar, falta de conocimientos o capacidad por parte del informante, m´etodo de recogida de datos, condiciones personales y grado de adiestramiento de los entrevistadores, motivaci´on de los encuestados, etc. Existen algunos m´etodos estad´ısticos de tratamiento de la falta de respuesta y suele ser un problema grave en muchas encuestas de opini´on, ya que muchas veces el hecho de no contestar est´a asociado a una opini´on que no se puede identificar. Error de medici´ on o de tratamiento de datos: se produce cuando se anota la informaci´on muestral de forma incorrecta o incompleta. Algunos de estos errores se pueden detectar utilizando t´ecnicas de an´alisis exploratorio, como vimos en Estad´ıstica I. Ejemplo: por ejemplo, estamos anotando cantidades grandes y ponemos un n´ umero de menos, en vez de poner 14658660 ponemos 1465860.
6.
Dise˜ no de una encuesta por muestreo
El dise˜ no y ejecuci´on de una encuesta depende de las caracter´ısticas espec´ıficas del estudio y a las dificultades concretas que se presenten. Sin embargo, hay una serie de pasos fundamentales comunes a toda encuesta por muestreo: Objetivo de la encuesta: se deben evaluar las necesidades que debe cubrir la encuesta, consultando todos los posibles usuarios. Las necesidades estimadas sobrepasan generalmente las posibilidades de estudio, y es necesario decidir cu´ales de ellas han de eliminarse, o pueden ser tratadas a partir de otros datos. En este momento se debe fijar la poblaci´on y la(s) variable(s) de estudio. Condiciones en las cuales se desarrollar´ a la encuesta: debe tenerse en cuenta la informaci´on que ya se tiene. Por ejemplo, si la encuesta ya ha sido realizada, se puede utilizar el mismo m´etodo o modificar lo que sea necesario a la vista de los resultados. Por otro lado, para realizar muestreos probabil´ısticos suele ser necesaria una lista que permita localizar a la poblaci´on muestreada. Habitualmente se utilizan censos, aunque suelen surgir problemas debido a la evoluci´on de la poblaci´on (cambios de domicilio, tel´efono, etc.). A veces los listados contienen grupos de individuos (por ejemplo, un listado de colegios) y se deben hacer muestreos multiet´apicos. En ocasiones en los listados aparece informaci´on adicional de los individuos (sexo, ciudad de residencia, etc.) que pueden ser u ´tiles a la hora de determinar la t´ecnica de muestreo (aleatorio, estratificado,...). Tambi´en es importante evaluar las restricciones de tiempo, dinero, material disponible, etc., o restricciones sociales, como el nivel de formaci´on de los encuestadores, el grado de educaci´on de los encuestados, etc. y actuar en consecuencia. Elecci´ on del sistema de trabajo: el sistema de trabajo viene determinado por las respuestas a las siguientes cuatro preguntas. ¿Qu´e datos recoger?: obviamente necesitamos la informaci´on que hayamos fijado en el punto anterior, pero a veces, el car´acter a estudiar es complejo y una pregunta directa engendra respuestas incorrectas, por lo que puede ser preferible preguntar varias cuestiones diferentes, m´as sencillas, que permitan reconstruir la informaci´on buscada. Algo similar ocurre con las preguntas indiscretas que tienen el riesgo del rechazo a responder o de respuestas voluntariamente falsas.
Estad´ıstica Administrativa II. Gesti´on y administraci´on P´ ublica. Curso 2006/2007
6
¿A partir de qui´en?: no siempre es necesario acudir a los individuos a los cuales conciernen, a veces, pueden ser tomados de otros que poseen m´as informaci´on o m´as exacta (como informaci´on fiscal, acad´emica,...). ¿Cu´ando?: la fecha de comienzo de la encuesta y su duraci´on se fijan en funci´on de las restricciones de tiempo y la naturaleza de los datos. La tasa de no respuesta depende mucho del momento de recogida de la informaci´on y debemos tener en cuenta cuando es m´as dif´ıcil localizar a los encuestados o cuando est´an m´as ocupados y no pueden contestar (vacaciones, horas de trabajo, etc.). ¿Cu´antos?: ya sabemos que a mayor tama˜ no muestral, mejores resultados. Sin embargo, a veces llega un punto en el que no compensa el esfuerzo o coste que supone recoger m´as datos en relaci´on con la cantidad de nueva informaci´on que aportan. A la hora de determinar el n´ umero de unidades muestrales, se deben tener en cuenta las condiciones generales y restricciones de tiempo, coste etc. evaluadas en el apartado anterior. Una de las mejores estrategias para fijar un tama˜ no muestral adecuado es realizar una muestra piloto como se describe en el apartado siguiente y utilizarlo como base. ¿C´omo?: existen diversos procedimientos de recogida de datos, los m´as utilizados son: Observaci´ on directa: se trata de obtener la caracter´ıstica de inter´es sin que sea el encuestado (o unidad muestreada) quien nos informe de ello. Por ejemplo, se utiliza observaci´on directa en an´alisis de sangre, medici´on de ´arboles, audiencias televisivas mediante dispositivos autom´aticos, etc. Entrevista personal: se trata de acudir a hogares o a determinados lugares y obtener la informaci´on anotando las respuestas a las preguntas que le hacemos personalmente al encuestado. Se puede utilizar en muchas m´as situaciones que la observaci´on directa, aunque suele ser m´as costoso. La desventaja que presenta es que la intervenci´on directa del encuestador y el encuestado hace que haya dos fuentes de sesgo importantes; el encuestado puede mentir y el encuestador puede tratar de influir en las respuestas, por lo que es necesaria una preparaci´on muy exhaustiva de los encuestadores. Entrevista telef´ onica: se trata de obtener la informaci´on anotando las respuestas a las preguntas que le hacemos al encuestado por tel´efono. Es muy com´ un en investigaciones comerciales y de mercado y debe cuidarse el horario para localizar el mayor n´ umero de gente de la poblaci´on objetivo. Es m´as econ´omico y r´apido que las encuestas personales y el hecho de que el encuestador no est´e viendo al encuestado, hace que usualmente las respuestas sean m´as sinceras. Adem´as, suele tener un elevado ´ındice de respuesta. Los mayores inconvenientes es que debe ser breve (unos 10 minutos m´aximo) y que, con este m´etodo, no es posible llegar a toda la poblaci´on. Entrevista por correo: se trata de obtener la informaci´on con las respuestas a las preguntas que le hacemos al encuestado por carta. Es recomendable facilitar el franqueo y tener en cuenta las fechas de distribuci´on para evitar problemas (vacaciones, navidad...). Es un sistema econ´omico con el que se puede llegar f´acilmente a gran cantidad de gente (aunque se limita a la poblaci´on alfabetizada) y elimina los sesgos que se pueden producir por el entrevistador. Sin embargo, debe extremarse el cuidado en la redacci´on, para que el encuestado no tenga dudas que le hagan no responder o responder inadecuadamente. El mayor inconveniente es que la falta de respuesta es mucho m´as importante, porque al no haber contacto directo, los entrevistados no se sienten obligados a responder. Adem´as, no podemos estar seguros de si contest´o la encuesta la persona a la que nos dirigimos sola o no. Los datos se suelen recoger en cuestionarios o formularios, donde constan las preguntas numeradas y deben anotarse las respuestas. Es conveniente que el formato sea c´omodo y el lenguaje sea claro para facilitar la labor de los encargados de recoger los datos. A la hora de elaborar un cuestionario las preguntas pueden ser de diversos tipos: • Cerradas: se presenta una serie de posibles respuestas y se le pide al encuestado que elija una de ellas. Este tipo de preguntas facilita el procesado de datos, pero son dif´ıciles de definir, ya que si no se ofrece una variedad suficientemente amplia de posibles respuestas, el entrevistado puede no contestar o contestar mal. • Abiertas: no se le presentan posibles respuestas al encuestado dejando a ´este libertad para que conteste seg´ un su criterio. Este tipo de respuestas son dif´ıciles de manejar estad´ısticamente, porque habitualmente son todas distintas y exigen mucho trabajo de lectura y agrupaci´on de conceptos comunes. Muchas veces se opta por dejar abiertas las preguntas en la muestra piloto (como explicaremos m´as adelante) y se utilizan las contestaciones como base para establecer las opciones de una pregunta cerrada.
Estad´ıstica Administrativa II. Gesti´on y administraci´on P´ ublica. Curso 2006/2007
7
• Preguntas cuantitativas: se responden con un n´ umero, que puede corresponderse bien a una medida (edad, altura, etc.) o a una valoraci´on (por ejemplo, el grado de adherencia a una afirmaci´on expuesta). Este tipo de respuestas son las que admiten un tratamiento estad´ıstico m´as completo. El dise˜ no del cuestionario determina de forma decisiva la calidad y veracidad de la informaci´on que se recoge, por lo que requiere mucha atenci´on y conocimientos que minimicen los sesgos que acarrear´ıa una incorrecta elecci´on de preguntas o de lenguaje. En general se recomienda que no sean muy largos (no m´as de 30 preguntas), con preguntas preferentemente cerradas o num´ericas redactadas en lenguaje sencillo y de forma precisa. Se recomienda no hacer preguntas indiscretas o con mucha carga emocional y si es necesario, debemos intentar ser “diplom´aticos” y dejarlas para el final (para evitar que no nos contesten a nada). Por ejemplo, no conviene comenzar preguntando la edad, es mejor preguntar al final la fecha de nacimiento. Adem´as, debemos intentar formular las preguntas de manera neutral, de forma que no se condicione la respuesta. Por ejemplo, no es recomendable preguntar algo del estilo “¿qu´e opina de mi empresa?” o “¿no cree usted que...?”. Trabajo de campo: la recolecci´on de datos puede acarrear diversos problemas. A veces, en esta fase se ponen de manifiesto errores en el dise˜ no de las preguntas (que hace que los encuestados no las entiendan o no contesten a lo que esper´abamos) o en el dise˜ no de la muestra (por ejemplo, podemos encontrar estratos mal definidos, etc.). Este es uno de los motivos por los que se recomienda siempre un muestreo piloto, es decir, la recogida de un n´ umero reducido de observaciones que ayuden a detectar y corregir ese tipo de deficiencias. Los objetivos de un muestreo piloto se pueden resumir como sigue: Determinar la idoneidad del marco propuesto para seleccionar la muestra, ya que si en la pr´actica, el marco que utilizamos para seleccionar las unidades muestrales contiene demasiados individuos no v´alidos, no nos servir´a. Estimar la variabilidad de las caracter´ısticas de inter´es. Ya sabemos que a mayor variabilidad, mayor error muestral, por lo que se necesita un mayor tama˜ no muestral. Como hemos dicho antes, si fijamos la confianza y el error m´aximo que nos permitimos, conocer la variabilidad nos puede ayudar a determinar los tama˜ nos muestrales adecuados para conseguir nuestros objetivos. Determinar la tasa esperada de falta de respuesta, con distinci´on de negativas y ausentes y analizar las horas y preguntas que producen una parte importante de la falta de respuesta, ya que la falta de respuesta es responsable de importantes sesgos (habitualmente la gente no contesta por alg´ un motivo). Determinar si el cuestionario est´a bien dise˜ nado y los encuestados lo entienden bien y si el m´etodo de recogida de datos es v´alido. Determinar si el entrenamiento de los encuestadores fue suficiente y act´ uan adecuadamente. Estimar el coste y el tiempo que se espera emplear por unidad muestreada con el fin de evaluar el coste y la duraci´on de la encuesta principal. De esta forma, se podr´a adecuar el tama˜ no muestral a las restricciones de tiempo y dinero. La intervenci´ on en esta fase de encuestadores y encuestados es causa de gran n´ umero de errores de medida. Como ya hemos dicho, los encuestadores o investigadores de campo han de recibir informaci´on exhaustiva acerca de los objetivos del estudio, as´ı como adiestramiento en el control de los m´etodos de medici´on y en el manejo de los instrumentos a utilizar. Este punto es esencial, puesto que la actuaci´on de los investigadores influye considerablemente en los resultados de la encuesta. Procesamiento y an´ alisis de la calidad de los datos: una vez recogidos y anotados los datos en el cuestionario, estamos en condiciones de aplicar todo lo que aprendimos en Estad´ıstica I acerca del procesado y filtrado de datos. Si los datos son num´ericos o se corresponden con distintas opciones a una pregunta son sencillos de procesar (introduci´endolos directamente en el ordenador o codific´andolos si es necesario). Cuando las preguntas son abiertas el proceso el m´as complicado, ya hemos se˜ nalado que debemos intentar quedarnos con los los t´erminos o conceptos comunes analizando el contenido de las respuestas para poder clasificarlas en grupos cerrados y analizarlas as´ı de manera eficiente. An´ alisis estad´ıstico y la interpretaci´ on de los resultados: en este paso debemos aplicar las t´ecnicas estad´ısticas necesarias (habitualmente ser´an las inferencias sobre par´ametros introducidas en los temas anteriores) para conseguir los objetivos a partir de los datos procesados y sacar las conclusiones. Presentaci´ on de resultados: debemos presentar nuestros resultados de forma clara y rigurosa, y procurando guardar el anonimato de los encuestados. La Conferencia de Estad´ısticos Europeos (CEE) considera necesarios dos tipos de
Estad´ıstica Administrativa II. Gesti´on y administraci´on P´ ublica. Curso 2006/2007
8
informes: t´ecnico y resumido. El informe t´ ecnico debe recoger informaci´on detallada sobre fuentes de los datos, conceptos, definiciones, clasificaciones, metodolog´ıa, etc. Los informes resumidos est´an destinados principalmente al usuario general y, seg´ un la CEE deber´ıan incluir: Informaci´on b´asica sobre la fuente de los datos, as´ı como sobre las definiciones y las clasificaciones. La cobertura de la encuesta, incluyendo la idoneidad del marco. Descripci´on de los m´etodos de selecci´on y estimaci´on. Tasas de respuesta y su definici´on. Error de muestreo e indicaci´on de su interpretaci´on. Indicadores sobre el tama˜ no y direcci´on de otros posibles errores. Informaci´on de cambios en procedimientos que podr´ıan afectar la compatibilidad en el tiempo. Comparabilidad con estad´ısticas procedentes de otras fuentes. Referencia al informe t´ecnico detallado.