Estadistica Y Bioestadistica - Nutrición.pdf

  • Uploaded by: Gaby Herrera
  • 0
  • 0
  • June 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Estadistica Y Bioestadistica - Nutrición.pdf as PDF for free.

More details

  • Words: 43,308
  • Pages: 197
UNIVE ERSIDAD D CATÓLIICA DE CÓRDOBA C A FACULT TAD DE M MEDICIN NA CARRER RA DE NUTRICIÓ N ÓN

EST TADÍS STICA A Y BIIOEST TADÍSSTICA

Dra a. Sonia A A. Pou Lic. Grraciela F F. Scruzzzi

Año o 2013

UNIVERSIDAD CATÓLICA DE CÓRDOBA FACULTAD DE MEDICINA NUTRICIÓN

ESTADÍSTICA Y BIOESTADÍSTICA AÑO 2013

PLANTEL DOCENTE

Profesora Titular: Sonia Alejandra Pou. Doctora en Ciencias de la Salud, Licenciada en Nutrición.

Docente Adscripta: Graciela Fabiana Scruzzi Licenciada en Nutrición.

OBJETIVOS GENERALES

‐ Fortalecer en el alumno su capacidad de discernimiento entre diferentes metodologías estadísticas para la resolución de situaciones concretas que impliquen toma de decisiones en la vida profesional. ‐ Brindar al alumno las herramientas necesarias para aplicar procedimientos estadísticos al tratamiento de datos empíricos de tipo bio‐socio‐ cultural, aportando a la producción de conocimiento científico en el campo de las Ciencias de la Salud y la Nutrición. ‐ Promover una actitud crítica en la valoración de la bibliografía científica.

1

OBJETIVOS ESPECÍFICOS

‐ Proporcionar una introducción a los fundamentos teóricos y las aplicaciones prácticas de la Estadística, con especial enfoque en la Bioestadística. ‐ Brindar las herramientas estadísticas metodológicas básicas para fortalecer la capacidad de actuación en el campo específico profesional en el cual se pueda desempeñar el alumno. ‐ Contribuir a la adquisición de los conocimientos básicos para la actividad científica y la resolución de situaciones prácticas en materia sanitaria y nutricional, facilitando el proceso de toma de decisiones. ‐ Contribuir a desarrollar la capacidad de interpretación de los resultados de pruebas de hipótesis, tendiente a la correcta interpretación de resultados científicos.

SÍNTESIS CONCEPTUAL DE LA ASIGNATURA

La presente materia aborda los conocimientos básicos que los nutricionistas deben adquirir para: acceder, con idoneidad y actitud crítica, al conocimiento científico; evaluar la información cuantitativa que como ciudadanos y profesionales reciben en un mundo donde la estadística juega un papel creciente; y conocer aspectos metodológicos fundamentales que le permitan resolver situaciones concretas en su desempeño profesional. Los contenidos temáticos de la asignatura se estructuran en dos grandes ejes: la estadística descriptiva y la inferencial. De manera simultánea, cada núcleo teórico es articulado con sus aplicaciones prácticas, de modo de reforzar su asimilación. Con este propósito, el estudio teórico y la ejercitación se 2

completan con el análisis de problemas reales o potenciales en el campo de la Salud y la Nutrición, para que el estudiante compruebe por sí mismo lo que le aporta la teoría estudiada, actuando el docente como facilitador y guía en el proceso de aprendizaje.

CONTENIDOS PROGRAMÁTICOS

MÓDULO 1: INTRODUCCIÓN A LA ESTADÍSTICA

El rol de la estadística, su concepto y objetivos. Bioestadística. Conceptos claves: población, muestra, variable, unidad de observación. Aplicaciones de la estadística. Ramas de la estadística: estadística descriptiva e inferencial. Ciencia y conocimiento científico. Estadística y método científico. Tipos y niveles de investigación. Tipos de estudios en ciencias biomédicas. Etapas de la investigación científica y proceso estadístico. Planificación del diseño metodológico. Aplicaciones en el área de las ciencias de la salud y la nutrición.

MÓDULO 2: LA ESTADÍSTICA DESCRIPTIVA

Introducción al análisis estadístico: metodologías descriptivas. Fuente de información e instrumentos de recolección de datos. Información uni y multivariada. Conceptos de confiabilidad y validez. Tipos de variables y escalas de medición. Abordajes cualitativos vs cuantitativos: generalidades. Descripción de datos basada en métodos gráficos: tablas y gráficos. Descripción de datos basada en medidas numéricas: medidas resumen de tendencia central y de dispersión. Noción de variabilidad y sesgo.

3

MÓDULO 3: PROBABILIDAD

Introducción a la Probabilidad. Definiciones de Probabilidad: Clásica, Frecuencial y Axiomática. Conceptos básicos: espacio muestral y evento aleatorio. Probabilidad del suceso suma, complemento y producto. Eventos independientes y probabilidad condicional. Teorema de Bayes. Concepto de Variable Aleatoria. Funciones de probabilidad

de una variable aleatoria.

Esperanza matemática y varianza de una variable aleatoria. Variables aleatorias discretas y continuas: distribuciones de probabilidad. Distribuciones discretas: Binomial y Poisson. Distribuciones continuas: Normal, t de Student, Chi‐ cuadrado, F de Fisher o de Snedecor. Aplicaciones en el área de la Salud Pública y la Nutrición.

MÓDULO 4: INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

Principios del muestreo. Tipos de muestreo. Métodos de muestreo probabilístico. Tamaño muestral. Estimación de Parámetros. Estimadores: concepto y propiedades. Distribución de muestreo de la media. Teorema Central del Límite. Procedimientos de estimación de parámetros de una variable aleatoria normal: puntual y por intervalos. Estimación del parámetro media poblacional. Estimación del parámetro varianza poblacional. Consideraciones importantes en la interpretación de intervalos de confianza.

MÓDULO 5: LA ESTADÍSTICA INFERENCIAL

Concepto y formulación de hipótesis estadísticas: hipótesis nula y alternativa. Pruebas de hipótesis, significación y decisión estadística. Error tipo I y tipo II. Potencia de un test. Prueba de hipótesis en una población referida al parámetro media y varianza poblacional. Prueba de hipótesis en dos 4

poblaciones para la diferencia de medias en muestras independientes y dependientes. Generalización a más de dos poblaciones. Introducción al análisis de la varianza. Aplicaciones en el área de la Nutrición.

MÓDULO 6: ANÁLISIS DE RELACIONES

Análisis para variables categóricas. Construcción de tablas de contingencia. Prueba Chi‐cuadrado. Test exacto de Fisher. Análisis de Regresión. Regresión Lineal Simple. Estimación y pruebas de significación de los parámetros. Generalidades del Análisis de Regresión Lineal Múltiple. Correlación Lineal Simple.

MÓDULO 7: ESTADÍSTICAS SANITARIAS Y NUTRICIONALES

Concepto de Demografía. Demografía cuantitativa: estructura y dinámica poblacional. Censos y hechos demográficos. Pirámides poblaciones. Concepto de Tasa. Clasificación, cálculo e interpretación de tasas. Estadísticas vitales y nutricionales. Aplicaciones a problemas en el campo de la Nutrición e interpretación de estadísticas oficiales.

5

METODOLOGÍA

ESTADÍSTICA Y BIOESTADÍSTICA es una asignatura correspondiente al segundo año de la carrera Licenciatura en Nutrición, de cursado anual, presencial, representando al alumno una carga horaria de 2 hs semanales. Su modalidad es teórico‐práctica, dado que se pretende alcanzar una articulación de sus fundamentos teóricos con su aplicación práctica en la resolución de problemas concretos relacionados con el campo de la salud y la nutrición. Como material didáctico de apoyo, el docente empleará para presentar los contenidos programáticos diapositivas Power Point, empleando este recurso como disparador y estimulando la permanente participación de los alumnos. Para acompañar el proceso de aprendizaje se facilitará al alumno un Apunte de Cátedra y Guía de Trabajos Prácticos. De manera complementaria se invitará al alumno a matricularse en el curso virtual correspondiente a esta asignatura. Así, el aula virtual será una instancia más de interacción docente‐alumno, en la cual el alumno encontrará un espacio para evacuar dudas y realizar consultas, responder a consignas de trabajo, participar de foros temáticos, intercambiar información útil con los demás participantes del curso (alumnos y docentes) y consultar material de estudio adicional propuesto por el docente.

6

TRABAJOS PRÁCTICOS

A lo largo del ciclo lectivo se trabajará en base a una Guía de Trabajos Prácticos, de resolución extra‐áulica individual y revisión grupal intra‐áulica, con el acompañamiento y guía del docente. Esta Guía de Trabajos Prácticos comprende una serie de ejercicios para cada uno de los módulos de contenidos teóricos de la materia. Se prevé además: a) hacer uso del aula virtual de esta asignatura para conducir trabajos prácticos adicionales, y b) organizar una actividad práctica en sala de cómputos, para presentar a los alumnos un software de análisis estadístico. A modo de integrar los contenidos teóricos abordados, y promover su aplicación en la resolución de un caso práctico concreto en el campo de la Salud y Nutrición, se realizarán dos trabajos prácticos evaluables (uno al finalizar cada semestre), bajo la modalidad de trabajo grupal. Específicamente en el año en curso, estos trabajos prácticos estarán enmarcados en el Proyecto de Proyección Social con Vinculación Curricular de la UCC titulado “Promoción de estilos de vida saludables en la escuela”, bajo la coordinación del cuerpo docente de esta materia.

CRITERIOS Y FORMAS DE EVALUACIÓN

Como instancias de evaluación del proceso de aprendizaje de los estudiantes a lo largo del ciclo lectivo se prevé realizar: •

Exámenes parciales (2), con opción a un recuperatorio al finalizar la materia;

7



Trabajos prácticos integradores (2), en el marco del Proyecto de Proyección Social con Vinculación Curricular antes mencionado;



Actividades evaluables en aula virtual;



Coloquio integrador, solo para los alumnos en condiciones de acceder a la promoción.

CONDICIONES PARA OBTENER LA REGULARIDAD



Asistencia mínima del 80%



Participación en Proyecto RSU, con Trabajos Prácticos integradores aprobados



Aprobar con un mínimo de 4 puntos cada parcial (con opción a 1 recuperatorio)



Aprobar el 80% de las actividades evaluables en aula virtual.

CONDICIONES PARA OBTENER LA PROMOCIÓN



Asistencia mínima del 80%



Participación en Proyecto RSU, con TP evaluables aprobados



Aprobar con un mínimo de 7 puntos cada parcial (no promediables)



Aprobar el 100% de las actividades evaluables en aula virtual.



Aprobar un Coloquio integrador

8

CALENDARIO DE ACTIVIDADES

Inicio de clases (1er semestre): 04/03/2013 Finalización de las clases (1er semestre): 15/06/2013 Entrega de 1er Práctico Evaluable (grupal): 04/06/2013 1er Parcial: 11/06/2013 Inicio de clases (2do semestre): 29/07/2013 Finalización de las clases (2do semestre): 09/11/2013 2do Parcial: 29/10/2013 Entrega del 2do Práctico Evaluable (grupal): 08/10/2013 Recuperatorio y coloquio para acceder a la Promoción: 05/11/2013

BIBLIOGRAFIA SUGERIDA

ƒ Bordón LG. Estadística aplicada a Ciencias de la Salud. Una herramienta para la Investigación. 5ta ed. Córdoba: LG Bordón Ed. 1999. ƒ Canavos GC. Probabilidad y Estadística. Aplicaciones y métodos. México, D.F.: McGraw‐Hill; 1988. ƒ Devore JL. Probabilidad y Estadística para ingeniería y ciencias. 6ta ed. México, D.F: International Thompson Ed.; 2005. ƒ Di Rienzo JA, Casanoves F, Gonzalez LA et al. Estadística para las Ciencias Agropecuarias. 6ta ed. Córdoba: Ed. Brujas.2005. ƒ Peña D. Fundamentos de Estadística. Madrid: Alianza Editorial; 2001. ƒ Ríus Díaz F, Barón Lopez FJ, Sánchez Font E, Parras Guijosa L. Bioestadística: Universidad

Métodos de

y

Aplicaciones.

Málaga.

Facultad

de

Medicina,

Disponible

en

http://www.bioestadistica.uma.es/libro/ ƒ Wackerly DD, Mendenhall W, Scheaffer R. Estadística matemática con aplicaciones. 6ta ed. México, D.F.: International Thompson Ed.; 2002. 9

10

ESTADÍSTICA Y BIOESTADÍSTICA

MÓDULO 1 INTRODUCCIÓN A LA ESTADÍSTICA

11

12

INTRODUCCIÓN En los últimos años la evolución de la estadística como disciplina ha sido notable. Esto sin duda se encuentra ligado al hecho de que los avances teóricos en la materia acompañaron importantes avances tecnológicos, como por ejemplo la optimización a nivel de software, ampliación de la capacidad de almacenamiento informático de datos, mejoras en la velocidad de transmisión y procesamiento de la información, entre otros. Si bien esto implica grandes ventajas en el campo de las ciencias, tiene también muchas implicancias en distintos aspectos de la vida cotidiana, donde las técnicas estadísticas se aplican de manera corriente. A modo de ejemplo podemos mencionar las encuestas de opinión difundidas en los medios de comunicación, los estudios de mercado, los ensayos de evaluación sensorial en la industria alimentaria, las encuestas que miden las tendencias en época de elecciones, el seguimiento oficial de índices económicos para predecir el comportamiento de nuestra economía, los estudios de calidad alimentaria basados en muestreos de la producción alimentaria para evaluar si se ajustan a las normas, la información presentada a modo de gráficos o tablas en la prensa escrita, la construcción de tablas de valoración nutricional a partir del relevamiento de datos antropométricos en poblaciones de interés, el control y seguimiento de índices socioeconómicos o de salud para evaluar el impacto de políticas sanitarias o programas nutricionales, etc. En cada una de estas situaciones prácticas la metodología estadística desempeñó sin duda un papel importante, aun cuando se persiguen objetivos muy distintos. En concordancia con lo expuesto por Peña,1 podemos entonces afirmar que: a) un conocimiento básico de los métodos estadísticos y una formación en los conceptos estadísticos básicos es necesario para cualquier ciudadano; b) en el ámbito profesional, el estudio de la estadística se constituye en una herramienta indispensable para entender las posibilidades y limitaciones de la investigación, en definitiva, para desarrollar un pensamiento crítico y objetivo de la realidad sobre la cual vamos a actuar como profesionales de la nutrición, y como tales de las ciencias de la salud. ¿QUÉ ES LA ESTADÍSTICA Y CUÁLES SON SUS OBJETIVOS ? Cuando se piensa en la noción de estadística es frecuente aludir a cuestiones numéricas que describen un fenómeno o hecho de la realidad. Efectivamente, la estadística es una ciencia que estudia cómo obtener conclusiones basadas en la observación de la realidad mediante uso de modelos matemáticos. Actúa como disciplina puente entre los modelos matemáticos y los fenómenos reales.1 En un sentido más amplio: 13

La estadística puede ser definida como la disciplina que se ocupa de los métodos y procedimientos para recoger, clasificar, resumir, presentar y analizar datos, así como de realizar inferencias a partir de ellos, con la finalidad de ayudar en la toma de decisiones en presencia de incertidumbre y variabilidad.2‐4 Hablamos de incertidumbre porque una característica intrínseca de los datos que serán tratados desde la teoría estadística es la no certeza de su comportamiento. Por su parte, el concepto de variabilidad tiene que ver con las diferencias observadas que pueden atribuirse a la verdadera diversidad de una población, debidas a cambios en factores no controlables que influyen sobre él, de naturaleza azarosa o no, pero desconocidos. Así, el objetivo último de la estadística consiste en hacer inferencias de una población con base en la información que contiene una muestra de ésta y proporcionar una medida de validez de la inferencia.5 En particular, se denomina bioestadística a la aplicación de procedimientos estadísticos al estudio de los problemas biológicos y de salud, tanto individuales como grupales y comunitarios.6 CONCEPTOS CLAVES: POBLACIÓN, MUESTRA, VARIABLE Existen algunos conceptos claves en el “lenguaje estadístico” que intentaremos definir y ejemplificar a continuación. Tanto en la práctica profesional como en la vida cotidiana, tratamos de forma constante con conjuntos de hechos o datos. Una investigación por lo común tiene que ver con una colección muy bien definida de objetos que forman una población de interés2 sobre la cual se intentarán sacar conclusiones. Se denomina población al conjunto total de individuos o elementos acotados en un tiempo y espacio determinado, que cumplen ciertas propiedades comunes de interés (características medibles u observables) sobre las cuales se extraen las conclusiones de estudio. Ilustremos este concepto con dos ejemplos. Obsérvese a partir de ellos que no siempre el concepto de población hace alusión a una población de personas. Ejemplo 1. Supongamos que en un estudio realizado en Mendoza en el año 2010 se propuso conocer si el sobrepeso de un sujeto adulto está relacionado con su nivel socioeconómico. Tendremos que comenzar definiendo la población que queremos estudiar: por ejemplo, todos los individuos mayores de 18 años 14

que residan en la ciudad de Mendoza en el año 2010. La población debe quedar claramente delimitada dado que las conclusiones sólo serán aplicables a esa población previamente definida. Ejemplo 2. Se desea determinar el grado de contaminación del agua con un determinado compuesto en una localidad de la provincia de Córdoba, dado que se ha observando en un sector de la misma una elevada prevalencia de una enfermedad cutánea posiblemente asociadas a la exposición a dicho compuesto, que se sospecha esté siendo vehiculizado mediante el agua de bebida. En este caso se puede definir como población de estudio: todos los tanques de agua de la localidad X en un periodo determinado. En relación al concepto de población es necesario mencionar el de unidad experimental o de observación. Una unidad experimental o de observación es el mínimo objeto de estudio sobre el cual se realiza una observación (se intenta clasificar una categoría) o se efectúa una medición cuantitativa. Las unidades experimentales o de observación pueden ser individuos o grupos de individuos (familias, localidades, viviendas, etc.), o bien elementos o grupos de elementos, como alimentos o lotes de alimentos producidos, vacas o tambos, semillas o silos de semillas, células o tejidos, etc. En los ejemplos 1 y 2 mencionados, se definen como unidades de observación: un individuo mayor de 18 años que resida en la ciudad de Mendoza en el año 2010, y un tanque de agua de la localidad X en el periodo de interés, respectivamente. Generalmente las restricciones de tiempo, dinero y demás recursos insuficientes hacen poco práctico o imposible levantar datos acerca de toda una población. Es posible entonces seleccionar un subconjunto de la población, denominado muestra. Se denomina muestra al subconjunto, representativo, de unidades de observación seleccionadas de una población. Las unidades que componen dicha muestra se conocen con el nombre de unidades muestrales. La palabra representativo implica el diseño de una buena muestra que refleje las características esenciales de la población de la cual se obtuvo.7 Siguiendo los ejemplos anteriores, se podría obtener una muestra, debidamente diseñada, del padrón de votantes (mayores de 18 años) de la ciudad de Mendoza en el año 2010. En el caso 2 podrían seleccionarse una cantidad 15

determinada de tanques de agua para cada barrio de la localidad, identificados a partir de datos censales de las viviendas, disponibles a nivel municipal. Así, estas muestras podrían definirse como: a) n sujetos mayores de 18 años que residan en la ciudad de Mendoza en el año 2010. b) n tanques de agua de la localidad X en un periodo determinado. Frecuentemente, en un estudio de investigación el interés se centra sólo en ciertas características de los objetos de una población, como ejemplo: ‐ sexo, edad, peso, talla, nivel de instrucción, características socioeconómicas, presencia/ausencia de enfermedad si se estudian personas; ‐ temperatura, presión, densidad, color, volumen, procedencia, años de vida útil, características organolépticas, entre otras, si las unidades de observación son elementos u objetos. Una característica puede referirse a una cualidad o poseer naturaleza numérica. Una variable es cualquier característica cuyo valor o modalidad cambia entre los objetos de una población.2 En los problemas planteados anteriormente algunas variables de estudio podrían ser: peso, talla, edad, sexo, nivel de instrucción e ingresos (Ejemplo 1); microgramo/litro del compuesto y barrio de procedencia (Ejemplo 2). APLICACIONES DE LA ESTADÍSTICA Para ilustrar de manera práctica lo hasta aquí mencionado, cabe señalar algunos problemas que resuelve la estadística1: • Descripción de datos: trata de encontrar procedimientos para resumir la información contenida en los datos. Supongamos que se han realizado 1500 valoraciones antropométricas a niños en edad escolar de una determinada ciudad. Valiéndose de la estadística se intentará encontrar los procedimientos adecuados que permitan resumir la información contenida en los datos relevados. • Análisis de muestras: suministra las herramientas para elegir una muestra representativa y poder hacer inferencias respecto a la población a partir de lo observado en la muestra. Siguiendo el ejemplo anterior, seguramente por razones técnicas o económicas no sea posible estudiar todos los niños escolarizados en esa ciudad. Se deberá entonces acudir a la estadística para la selección de un subgrupo representativo de esa 16

población, es decir una muestra debidamente diseñada. El análisis de la misma implica la utilización de métodos de inferencia adecuados que permitirán extraer conclusiones respecto a la población de escolares a partir de lo observado en la muestra. • Contrastación de hipótesis: se requiere una metodología estadística que permita comparar los datos observados con los resultados esperados, de modo que las conclusiones que se extraigan de la experimentación no estén invalidadas por factores no controlados. Un objetivo frecuente en la investigación biomédica es contrastar hipótesis en torno a problemas como: ¿es una nueva medicina eficaz para una determinada enfermedad? ¿es un tratamiento mejor que otro? • Medición de relaciones: permite determinar y medir relaciones entre variables (físicas, sociales, técnicas, etc.) para responder, en términos estadísticos, a preguntas como: ¿depende el peso de nacimiento del estado nutricional materno? ¿cómo se relaciona la obesidad con el nivel socioeconómico familiar? ¿cuál es la relación entre hipertensión arterial e ingesta de café? • Predicción: muchas variables económicas, físicas y de salud‐enfermedad tiene cierta inercia en su evolución, y aunque sus valores futuros son desconocidos, el estudio de su historia es informativo para prever su evolución futura. Valiéndonos de la estadística, la previsión puede mejorar estudiando la relación entre la variable de interés y otras variables. Este es el mecanismo que se utiliza para prever, por ejemplo, la demanda de un producto alimentario en la industria alimentaria, las tendencias temporales en los índices de salud como herramienta para la planificación sanitaria, etc. RAMAS DE LA ESTADÍSTICA La denominada estadística descriptiva es una rama de la estadística que se encarga de resumir y presentar la información contenida en un grupo de datos, valiéndose de métodos descriptivos, como son los métodos de naturaleza gráfica y el cálculo de medidas numéricas de resumen. Una vez obtenida una muestra de una población, el investigador querrá usar la información de la muestra para llegar a algún tipo de conclusión (hacer una inferencia de cierto tipo) acerca de la población. Las técnicas para hacer una generalización en toda la población a partir de una muestra se ubican dentro de la rama de la estadística llamada estadística inferencial.2 Así, apoyándose en el cálculo de probabilidades y a partir de datos muestrales, efectúa estimaciones, predicciones u otras generalizaciones sobre un conjunto mayor de datos.3

17

CIENCIA Y CONOCIMIENTO CIENTÍFICO El término ciencia puede ser definido en función de dos aspectos: ‐ Como proceso, dado que se remite a una actividad humana y social destinada a “descubrir lo desconocido”. Valiéndose de la investigación científica, se dedica a la búsqueda del conocimiento, se distingue por su carácter sistemático y dirigido a un fin determinado. ‐ Como producto es un cuerpo de conocimientos sistematizados, expresados como enunciados científicos.8 A diferencia del conocimiento habitual, el cual se caracteriza por ser predominantemente no sistemático, superficial, sensitivo, subjetivo y acrítico, el conocimiento científico es resultado del proceso de investigación científica, logrado mediante un método científico, esto es, mediante procedimientos metódicos con pretensiones de validez, utilizando la reflexión sistemática, los razonamientos lógicos y respondiendo a una búsqueda intencionada por la cual se delimita el problema de estudio y se previenen los medios de indagación.6 Una pieza fundamental en la producción de conocimiento científico es la aplicación adecuada de la teoría estadística. ESTADÍSTICA Y MÉTODO CIENTÍFICO Si bien es posible encontrar varias acepciones de método científico, éste se puede definir como un conjunto de procedimientos sistematizados que regulan la producción de conocimiento científico, es decir, cuya finalidad es alcanzar un conocimiento válido y riguroso del objeto de estudio. Las grandes etapas del método científico son las siguientes: 1. Observación: consiste en la observación metódica y objetiva de los hechos o fenómenos y teorías preexistentes, lo cual constituyen el marco de justificación de la investigación. 2. Formulación de hipótesis: a partir de la revisión realizada, se postulan enunciados hipotéticos, que serán traducidos a hipótesis estadísticas adecuadas al campo específico de la investigación para que puedan ser sometidos a evaluación objetiva sobre la base de los resultados de la investigación. 3. Constatación de hipótesis: consiste en la verificación de las hipótesis formuladas, es decir, su corroboración o refutación, para finalmente enriquecer y realimentar el ciclo de generación de nuevo conocimiento científico. En esta etapa es donde la estadística se convierte en la herramienta fundamental del método científico.

18

El método científico se basa en dos tipos de razonamientos para el establecimiento de la veracidad o no de los enunciados: el deductivo (a partir de algo general se conduce a lo particular) y el inductivo (a partir de observaciones particulares de ciertos fenómenos se intentan deducir reglas generales). En el caso de la investigación empírica se utilizan ambos tipos de razonamiento siguiendo un ciclo deductivo‐inductivo: la estadística descriptiva se utiliza para sintetizar y resumir datos transformándolos en información; luego esta información es procesada a través de modelos y utilizada para adaptar el modelo a la realidad estudiada, con lo que convertimos la información en conocimiento científico de esa realidad.1 Vemos que esta segunda etapa, la inferencial, es inductiva porque se proyecta de lo específico (muestra) hacia lo general (población).7 TIPOS Y NIVELES DE INVESTIGACIÓN . TIPOS DE ESTUDIOS. Según el criterio de clasificación que se adopte, se han propuestos distintas clasificaciones de la investigación científica. Haremos mención a dos de ellas: Tipos de investigación de acuerdo a su objetivo y metodología estadística propuesta: ‐ Investigación descriptiva: pretende realizar un análisis exploratorio de los datos (aplicación de la estadística descriptiva). ‐ Investigación analítica: tiene como objetivo el análisis confirmatorio de los datos (aplicación de la estadística inferencial). Tipos de investigación de acuerdo a su finalidad de aplicación: ‐ Investigación básica (fundamental o pura): su finalidad es la producción o avance de conocimientos científicos de tipo téoricos. Responde frecuentemente a diseños experimentales, llevados a cabo en laboratorios. Ej: Estudios sobre biología molecular. ‐ Investigación aplicada: orientada a aplicar los conocimientos o avances generados a partir de la investigación básica para provecho de la sociedad desde un campo disciplinar concreto. Ej: Investigación aplicada a las ciencias de la salud, la epidemiología, etc. Se han postulado también distintos niveles de investigación, en función del grado de profundidad en la indagación de un problema.6 Estos son: • Nivel descriptivo: desde un nivel primario de investigación, intenta realizar una aproximación descriptiva del problema de estudio, respondiendo a interrogantes como: ¿cuánto? ¿dónde? ¿en quienes? • Nivel explicativo: en un nivel avanzado de investigación, trata de responder a las preguntas ¿por qué? (¿por qué ocurre determinado fenómeno, en qué condiciones?) y ¿cómo? (por ejemplo en la búsqueda 19

de cómo se dan relaciones entre variables de tipo causa‐efecto, valiéndose de lo que se denomina la inferencia causal). En relación a las clasificaciones descriptas, haremos una breve mención a algunos tipos de estudios comúnmente definidos en la investigación aplicada a las ciencias de la salud: ‐ Estudios observacionales: en este tipo de estudio el investigador mide las variables de interés, las observa y analiza, pero no interviene, es decir, no manipula variables. Estos a su vez pueden ser clasificados como estudios descriptivos, cuando mediante la estadística descriptiva se limitan precisamente a la descripción de la/s variable/s de interés, ó como estudios analíticos, cuando además pretenden analizar las relaciones entre variables y extrapolar los resultados a una población de referencia. Un ejemplo de estos últimos, muy empleados en el campo de la salud, son los estudios de cohortes, y de tipo caso‐ control, frecuentemente utilizados para identificar factores de riesgo de ciertas enfermedades. ‐ Estudios experimentales: se caracterizan por la intervención del investigador en la manipulación de variables, de manera controlada, a los fines de observar por ejemplo sus efectos o la influencia sobre el comportamiento de otras variables de interés. En el área de salud se aplican en ciertos estudios de seguimiento para probar el efecto de nuevos fármacos o tratamientos. ETAPAS DE LA INVESTIGACIÓN CIENTÍFICA Y PROCESO ESTADÍSTICO Toda investigación científica sigue un proceso dinámico que puede sistematizarse en tres grandes etapas operativas: Planificación, Ejecución, Tratamiento y difusión de datos.8 En forma breve, a modo de repaso, se mencionan los aspectos principales que definen cada una de estas etapas: • Etapa de planificación: se define un protocolo de investigación o plan a seguir, pasando por las fases de selección del problema (identificación, planteamiento y objetivos), construcción del marco teórico de referencia y formulación de hipótesis, y planificación del diseño metodológico. • Etapa de ejecución: se refiere al denominado trabajo de campo que se realiza para captar la información (recolección de datos mediante mediciones, encuestas, observaciones directas o indirectas, experimentos). • Etapa de tratamiento y difusión de datos: en una primera fase implica el procesamiento de los datos recabados (codificación para su posterior análisis) y su presentación (en tablas y gráficos), para luego seguir con el análisis estadístico de los mismos y su interpretación. La etapa concluye con la elaboración de un informe final de investigación. 20

Las etapas hasta aquí descriptas pertenecen al proceso de investigación científica. Si consultamos la bibliografía especializada veremos que se habla también, más específicamente, del proceso o método estadístico. Este, acompaña al anterior y puede ser sistematizado también en etapas que le son propias y que están íntimamente ligadas a las ya mencionadas. Siguiendo al autor Peña1, se enuncian a continuación las etapas básicas del proceso o método estadístico y sus características principales. Cabe destacar que esto se expone a modo de introducción en el tema, pero muchos de los conceptos aquí volcados serán abordados y profundizados en módulos más avanzados de la materia. 1) Planteamiento del problema: requiere definir el problema en términos precisos, indicando claramente la población que se quiere investigar y las variables que debemos observar (y cómo se medirán). 2) Construcción de un modelo estadístico: en términos generales, los modelos estadísticos establecen la información que se utilizará en el análisis estadístico (variables y relación entre ellas) y se definen en función del objetivo que persiguen (ej. modelos explicativos acerca de la relación entre variables, modelos dinámicos si se desea investigar la evolución de una variable en el tiempo, o modelos estáticos si el objetivo es su estudio en un instante temporal). 3) Recolección de la información muestral: implica medir los valores de las variables de interés, mediante adecuadas técnicas de muestreo o con un diseño de experimentos. 4) Depuración de la muestra: aplicar técnicas estadísticas simples para identificar valores anómalos y eliminar los errores de medición. 5) Estimación de los parámetros: esta fase consiste en utilizar la información disponible para estimar los valores de ciertas constantes desconocidas de orden poblacional (denominadas parámetros), así como cuantificar el posible error en la estimación. 6) Contrastes de hipótesis: una hipótesis se contrasta comparando sus predicciones con los datos observados; si coinciden, dentro del margen de error admisible, mantendremos la hipótesis; en caso contrario, la rechazaremos, y buscaremos nuevas hipótesis capaces de explicar los datos observados. 7) Crítica del modelo: si después del análisis de datos (fase 5 y 6) aceptamos el modelo como correcto, lo utilizaremos para tomar decisiones o realizar previsiones de la variable. En caso contrario volveremos a la fase 2 y reformularemos el modelo, repitiendo el proceso.

21

PLANIFICACIÓN DEL DISEÑO METODOLÓGICO En la primera etapa de una investigación científica, antes descripta, hemos mencionado la necesidad de planificación de un adecuado diseño metodológico. El diseño metodológico es la planificación detallada de cómo van a ser tratadas las variables de interés. Los elementos que lo componen son: • Selección del tipo de estudio: de acuerdo a los objetivos que se persiguen. • Especificación de la población objetivo (sobre la cual se pretende inferir los resultados) y definición de la muestra: esto implica precisar claramente cuál será la población de estudio, su tamaño y composición, así como cuál será el procedimiento estadístico que se empleará para muestrear dicha población, definiendo: tipo de muestreo, unidades de muestreo y observación, y tamaño muestral. • Selección y definición de las variables de interés: esto es, la identificación y conceptualización de las variables en términos teóricos (definición teórica) y operacionales (forma de medición para su estudio). • Elección de técnicas e instrumentos de recolección de datos: entendiendo por instrumentos a los medios directos que emplea el investigador para recolectar y/o registrar la información (ej. formulario de encuesta, cuestionarios, guía de observación, cámara fotográfica, balanza, etc), y por técnicas las reglas y operaciones concretas que guían el uso de los instrumentos.8 • Planificación del tratamiento y análisis de datos: definición del plan de análisis exploratorio de los datos (metodologías estadísticas descriptivas a emplear, ej. tablas, gráficos y medidas cuantitativas que resuman la información) y selección de los procedimientos estadísticos para la verificación de las hipótesis planteadas.

22

BIBLIOGRAFÍA - MÓDULO 1

1. Peña D. Fundamentos de Estadística. Madrid: Alianza Editorial; 2001. 2. Devore JL. Probabilidad y Estadística para ingeniería y ciencias. 6ta ed. México, D.F: International Thompson Ed.; 2005. 3. Ríus Díaz F, Barón Lopez FJ, Sánchez Font E, Parras Guijosa L. Bioestadística: Métodos y Aplicaciones. Facultad de Medicina, Universidad de Málaga. Disponible en :http://www.bioestadistica.uma.es/libro/ 4. Moschetti E, Ferrero S, Palacios G, Ruiz M. Introducción a la Estadística para las Ciencias de la Vida. Editorial Fundación UNRC; 2000. 5. Wackerly DD, Mendenhall W, Scheaffer R. Estadística matemática con aplicaciones. 6ta ed. México, D.F.: International Thompson Ed.; 2002. 6. Bordón LG. Estadística aplicada a Ciencias de la Salud. Una herramienta para la Investigación. 5ta ed. Córdoba: LG Bordón Ed. 1999. 7. Canavos GC. Probabilidad y Estadística. Aplicaciones y métodos. México, D.F.: McGraw‐Hill; 1988. 8. Sabulsky J. Investigación científica en salud‐enfermedad. 2da. Ed. Córdoba: Ed. Kosmos S.R.L.; 1998.

23

24

ESTADÍSTICA Y BIOESTADÍSTICA

MÓDULO 2 LA ESTADÍSTICA DESCRIPTIVA

25

26

INTRODUCCIÓN AL ANÁLISIS ESTADÍSTICO: METODOLOGÍAS DESCRIPTIVAS En el Módulo 1 hemos visto que el análisis estadístico combina metodologías descriptivas, las cuales resumen en primera instancia la información contenida en el conjunto de datos muestrales, con metodologías inferenciales, tendientes a la generalización de los resultados en toda la población. Aunque la estadística descriptiva puede resultar más sencilla desde el punto de vista matemático, el análisis inferencial requiere primeramente describir un conjunto de datos para poder efectuar la inferencia. La descripción debe ser tal que el conocimiento de las medidas descriptivas nos permita tener una apreciación objetiva de ese conjunto de datos.1 Decimos entonces que: Dado un conjunto de datos de una variable X, la estadística descriptiva estudia procedimientos para sintetizar la información que contienen.2 Una descripción informativa de cualquier conjunto de datos está dada por la frecuencia de repetición y forma en que se distribuyen las observaciones en el conjunto. Las metodologías descriptivas se dividen en dos áreas: 1. Descripción basada en métodos gráficos y tabular: consiste en representar un conjunto de datos por medio de técnicas visuales: tablas y gráficos.3 2. Descripción basada en medidas resumen numéricas: búsqueda de valores numéricos que describan la distribución de frecuencias del conjunto de mediciones de interés.1 Las medidas resumen más importantes son las de tendencia central o de posición, que indican el valor medio de los datos, y las de dispersión, que miden su variabilidad.2 Estos conceptos serán profundizados más adelante. FUENTES DE INFORMACIÓN E INSTRUMENTOS DE RECOLECCIÓN DE DATOS Antes de abordar el tema de la aplicación de metodologías descriptivas al análisis de datos, es importante mencionar algunos conceptos o cuestiones relacionadas con la etapa de recolección de la información, a los fines de garantizar que se trabajará con datos confiables, obtenidos en condiciones controladas, y acorde a los objetivos y diseño metodológico predefinidos por el investigador. En la etapa de recolección de la información de una investigación científica nos ocuparemos de recabar, mediante técnicas e instrumentos adecuados, un 27

conjunto de datos (numéricos o categóricos) acerca de la\s variable\s de interés, los cuales, en etapas posteriores serán sometidos a los análisis pertinentes. Enunciamos a continuación qué se entiende por dato: Los datos son el resultado de las observaciones efectuadas sobre una unidad de observación o experimental, respecto de una o más variables. Las observaciones resultantes, por ejemplo, respecto de la variable edad, podrían dar lugar al siguiente conjunto de datos numéricos (años de edad): x = {19, 40, 18, 22, 38, 39, 39, 44, 18, 59, 76, 20, 45} Las observaciones efectuadas respecto de la variable región geográfica, podría generar un conjunto de datos cualitativos (siendo N= región norte; S= región sur; E= región este; O= región oeste) como el que sigue: y = {N, N, E, O, S, N, N, E, E, O, O, S, N, E, O, S, S, E} Un conjunto de datos como los anteriores se denomina univariado, dado que consisten en observaciones de una sola variable, mientras que los datos denominados bivariados o multivariados se obtiene cuando se observan de modo simultáneo dos o más variables, respectivamente.3 Así, un conjunto de datos bivariados podría consistir en un par de características de un sujeto, por ejemplo peso y talla, pudiendo ser la primera observación o dato el par (72, 1.68), la segunda (75, 1.81), y así sucesivamente. La tarea de recopilación de datos conlleva a seleccionar las unidades de observación (individuos o elementos) sobre los cuales se efectuarán las mediciones u observaciones pertinentes. Por lo tanto, será necesario definir el origen o procedencia de los datos a levantar. Decimos que, de acuerdo su origen la información a recabar puede provenir de: ‐ Fuentes primarias: la información la obtiene el investigador por sí mismo, mediante observaciones directas, cuestionarios, entrevistas, grabaciones, fotografías, etc. ‐ Fuentes secundarias: en este caso, la información proviene solamente de documentos (censos, estadísticas vitales, registros demográficos, historias clínicas, encuestas oficiales, documentales, revistas y publicaciones periódicas, etc.).4 Es decir, los datos son obtenidos por terceros y recopilados o revisados luego por el investigador. En el caso de recurrir a fuentes primarias de información, y de acuerdo a las características del estudio, se seleccionarán o elaborarán las técnicas y los instrumentos necesarios para recopilar la información. Dos conceptos claves 28

que se refieren a las condiciones fundamentales que deben reunir los instrumentos diseñados o empleados son: • Confiabilidad: es la precisión del instrumento, reflejada en la consistencia y estabilidad de los datos recogidos. Esto significa que un instrumento es confiable si en idénticas condiciones capta siempre la misma información.4 • Validez: expresa el grado en que mide lo que realmente pretende medir.5 Así, si se efectúan sucesivas mediciones del peso de un alimento con una balanza, tomadas en condiciones similares, y se obtienen resultados constantes, decimos que el instrumento es confiable. Sin embargo esto no implica que también sea válido, es decir que verdaderamente el alimento tenga ese peso. Es posible, por ejemplo, que la balanza no esté adecuadamente calibrada y se obtengan pesos estables, siempre iguales, pero que registren sistemáticamente 100 g. de diferencia (por debajo) del peso real. En este caso decimos que los datos son confiables pero no válidos. CLASIFICACIÓN DE VARIABLES Retomando el concepto de variable como característica o propiedad objetiva (que se mide u observa) con respecto a la cual las unidades de observación de la población difieren de manera apreciable,6 vemos que dicha característica medible u observable puede adoptar valores numéricos ó no (expresar atributos). Así, la clasificación de las variables de acuerdo a su modalidad es la siguiente: 1. Variables cualitativas o categóricas: son aquellas que están definidas por medio de categorías o atributos. Es decir, no toman valores numéricos sino que describen cualidades.2 Estas variables a su vez pueden clasificarse en: ‐ Nominales: cuando sus categorías se pueden listar sin ningún orden o jerarquización. Ej: sexo (masculino, femenino); estado civil (soltero, casado, viudo, divorciado); nacionalidad (argentino, italiano, español, otro); hábito de fumar (fumador, no fumador); tipo de carne consumida (de vaca, de pollo, de cerdo, otra); diabetes (presencia/ausencia). ‐ Ordinales: aunque sus modalidades son de tipo nominal (expresan cualidades o atributos), es posible establecer un orden entre ellas.7 Ej: nivel de instrucción (sin instrucción, primario incompleto, primario completo, secundario completo, estudios terciarios o universitarios); estado nutricional (bajo peso, normal, pre‐obesidad, obesidad); grado de hipertensión arterial (leve, moderada, severa). 29

2. Variables cuantitativas: son aquellas que adoptan valores numéricos. Estas a su vez pueden clasificarse como: ‐ Discretas: toman únicamente valores enteros; corresponden en general a un conteo.2 Ej: número de comidas al día, número de hijos, cantidad de veces que consume lácteos por día. ‐ Continuas: pueden tomar infinitos valores en un intervalo que resultan de efectuar mediciones. Corresponden a medir magnitudes continuas,2 es decir que surgen de mediciones que pueden adoptar números decimales. Ej: talla y peso al nacer, tiempo de cocción, temperatura de una cámara frigorífica. Ocurre a veces que una variable cuantitativa continua por naturaleza ha sido discretizada o categorizada. Un ejemplo del primer caso sería cuando por cuestiones que conciernen a la precisión de un aparato de medición, por ejemplo de longitud, la regla no ofrezca unidades de medición en decimales, o cuando la variable tiempo se expresa en años, aunque por naturaleza es una variable de tipo continua que puede adoptar infinitos valores (años, meses, semanas, días, horas, segundos). En el segundo caso, podemos decir que la variable índice de masa corporal fue categorizada cuando se expresa como bajo, normal o sobrepeso, aunque es por naturaleza una variable cuantitativa continua (kg/m2). ESCALAS DE MEDICIÓN

El establecimiento de números, códigos o categorías a las observaciones efectuadas implica el empleo de una escala apropiada. Una escala consiste en la enunciación de las posibles alternativas que ofrece una variable.8 Existen cuatro grandes tipos de escalas de medición: 1. Escalas nominales: aquellas en las que las observaciones se clasifican en categorías, sin ninguna jerarquización.5, 8 Ej: Para la variable localización de la vivienda: zona urbana, zona rural. 2. Escalas ordinales: en las que se asigna un orden o jerarquización a las categorías. Ej: leve, moderada, severa.5 3. Escalas de intervalo: aquellas en las que está definida la distancia que existe entre dos mediciones5 y que se caracteriza porque el punto de origen (punto cero) en la escala es arbitrario (es un punto de acuerdo). Esto quiere decir que se puede especificar si un objeto es mayor o menor que otro en función de las unidades de diferencia que hay entre ambos, y que el valor cero no implica la ausencia de lo que se estudia. Ej: escala de coeficiente intelectual, temperatura (cero grados no implica ausencia de calor).8

30

4. Escalas de razones: posee las propiedades de la escala de intervalo pero el punto de origen o punto cero representa el cero absoluto, o sea la ausencia de lo que se estudia.8 Ej: peso, talla, longitud en general. ABORDAJES CUALITATIVOS VS CUANTITATIVOS: GENERALIDADES Habiendo introducido los conceptos de variables cualitativas y cuantitativas, cabe aquí hacer una salvedad. Si se revisa bibliografía actualizada en materia de metodología de la investigación se encontrará, posiblemente, la distinción entre investigación cualitativa y cuantitativa. Dicha terminología no hace referencia al tipo de variables analizadas, sino a la modalidad de abordaje del problema de estudio en cuestión y al campo de aplicación. Veamos las características generales de ambos abordajes: ‐ Investigación cuantitativa: tradicionalmente usada en diversos campos de las ciencias (biológicas, sociológicas, biomédicas, económicas, etc.) pretende analizar los datos en forma numérica, valiéndose de la estadística para tal fin. Para ello requiere que las variables estudiadas (cualquiera sea su naturaleza) o su relación, puedan ser representadas por algún valor o modelo numérico. ‐ Investigación cualitativa: de uso creciente en las ciencias sociales, se orienta al estudio de las relaciones sociales y el comportamiento humano, empleando métodos de recolección de datos que no son cuantitativos (entrevistas abiertas en profundidad, documentos personales, observación participante). Los contenidos que estamos desarrollando en el presente material responden al abordaje cuantitativo de la investigación científica. DESCRIPCIÓN DE DATOS BASADA EN MÉTODOS GRÁFICOS Y TABULAR FRECUENCIA ABSOLUTA Y RELATIVA

La presentación de un conjunto de datos suele hacerse indicando los valores de la variable y sus frecuencias de aparición, tanto en términos absolutos como relativos.2 Si consideramos los datos que consisten en observaciones sobre una variable X tenemos que: La frecuencia absoluta (ni) de cualquier valor o modalidad de X es la cantidad de veces que se presenta ese valor o modalidad en el conjunto de datos. La frecuencia relativa (fi) de un valor o modalidad es la fracción o proporción de las veces que se presenta en el conjunto de datos.

31

De esta manera, si ni = frecuencia absoluta de un valor o modalidad de X n = número total de observaciones entonces

fi =

ni n

Supongamos que el conjunto de datos consiste en 200 observaciones para la variable X= cantidad de comidas al día. Si 70 de esas observaciones registraron valores correspondientes a 3 comidas al día y 50 a 2 comidas, entonces la ni del valor 3 es 70 y su fi = 70 / 200 = 0,35, mientras que la ni del valor 2 es 50 y su fi = 50 / 200 = 0,25. Luego, si multiplicamos por 100 una frecuencia relativa podemos expresarla a modo de porcentaje. En el ejemplo citado, concluiremos que 35% de los sujetos de la muestra consumen 3 comidas al día, mientras que un 25% consumen solo 2 comidas diarias. La distribución de frecuencias puede ser representada mediante una tabla o un gráfico, a partir de los cuales se pueden hacer evidentes los patrones existentes en un conjunto de datos, como veremos a continuación.

TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS . FRECUENCIAS ACUMULADAS

Como ilustración, veamos los siguientes casos:

Tabla 1. Distribución de frecuencias según ocupación de mujeres jefas de hogar Frecuencia Frecuencia Ocupación absoluta (ni) relativa (fi) Docente 60 0,43 Empleada de comercio 40 0,29 Empleada doméstica 20 0,14 Profesional 12 0,09 Administrativa 6 0,04 Otro 2 0,01 TOTAL 140 1

32

Tabla 2. Distribución de frecuencias para la cantidad de unidades vendidas de cierto producto por día en una cadena de supermercados Frecuencia Frecuencia Cantidad absoluta (ni) relativa (fi) 0 40 0,44 1 26 0,29 2 14 0,16 3 6 0,07 4 3 0,03 5 0 0,00 6 1 0,01 TOTAL 90 1

La tabla 1 presenta un ejemplo de una distribución de frecuencias para una variable cualitativa: se indica cada categoría o modalidad de la variable ocupación y sus frecuencias observadas (absoluta y relativa). La tabla 2 en cambio presenta la distribución de frecuencias para una variable cuantitativa discreta, la cantidad de unidades vendidas de cierto producto alimentario. En este ejemplo vemos que el número de valores posibles de la variable es pequeño (entre cero y 6), lo cual permite este tipo de representación, es decir mediante una tabla de frecuencias no agrupadas. Cuando el número de valores distintos que toma una variable cuantitativa discreta sea grande, o cuando ésta sea continua, conviene agrupar los datos en clases o intervalos,2 construyendo lo que se denomina una tabla de frecuencias agrupadas. El siguiente ejemplo intenta ilustrar el procedimiento para la construcción de estas tablas: Ejemplo 1. Supongamos que se registraron los siguientes pesos en kg, de 40 adultos masculinos al ingresar como participantes en un programa de control del sobrepeso: 82 92 99 105

85 93 99 105

86 94 100 106

87 95 100 107

87 95 101 107

89 95 101 107

89 95 103 109

90 95 103 110

91 97 103 110

91 98 104 111

Se desea establecer un esquema de agrupamiento para este conjunto de datos y determinar las frecuencias absolutas y relativas. Algunas consideraciones importantes en relación a la construcción de intervalos son las siguientes: ‐ Por lo general se sugiere que, siempre que sea posible, se construyan intervalos de longitud igual. Como regla para determinar la longitud de los 33

intervalos a construir debemos realizar la diferencia entre el mayor y el menor valor de la serie de datos, lo cual se denomina rango, y dividirlo por el número deseado de intervalos. Se sugiere tomar no menos de 5 ni más de 20 intervalos y emplear el mayor número de intervalos cuanto mayor es el tamaño (n) de nuestra muestra.1‐2 ‐ El primer intervalo siempre debe contener al menor valor de la serie de datos a agrupar, y el último intervalo al mayor valor registrado. ‐ Las fronteras de un intervalo se denominan límites de clase o intervalo, y el promedio entre los límites superior e inferior recibe el nombre de marca de clase (punto medio del intervalo).9 Se deben seleccionar los límites de clase que definen los intervalos de manera que cada observación se clasifique sin ambigüedad en una sola clase o intervalo.2 Siguiendo con el ejemplo 1, vemos que el mayor valor que toma la variable peso es 111 y el menor 82, por lo tanto el rango es 111 ‐ 82 = 29. Suponiendo que queremos dividir la serie de datos en 6 intervalos, se calcula 29/6 = 4,8 por lo cual establecemos que la longitud de cada intervalo será aproximadamente de 5 kg. Luego, para establecer la frecuencia absoluta de cada intervalo se cuentan los valores de la variable que caen en cada uno de ellos, y se calcula la frecuencia relativa para cada intervalo (dividiendo cada ni por 40, que es el valor de n en este caso), como se muestra en la tabla 3. Tabla 3. Distribución del peso (en kg) de adultos masculino al momento del ingreso en un programa de control del sobrepeso. Frecuencias absoluta y relativa. Frecuencia Frecuencia Pesos (kg) relativa (fi) absoluta (ni) 82‐86 3 0,075 87‐91 7 0,175 92‐96 8 0,200 97‐101 8 0,200 102‐106 7 0,175 107‐111 7 0,175 TOTAL 40 1

Observando la información que nos brinda esta tabla podemos decir, por ejemplo, que de los 40 adultos masculinos 16 tuvieron un peso entre 92 y 101 kg, lo cual representa un 40% de la muestra, mientras que menos del 10% de los sujetos registraron un peso inferior a 87 kg, y casi un 20% superó los 106 kg. En el caso de variables cuantitativas (discretas o continuas) ó categóricas ordinales (no así las nominales) es útil presentar también lo que se denominan frecuencias acumuladas.

34

La frecuencia acumulada para un valor dado de la variable es la suma de las frecuencias (absolutas o relativas) de los valores menores o iguales al valor que se está considerando.10 La tabla anterior se puede completar entonces de la siguiente manera (llámese ahora Tabla 4): Tabla 4. Distribución del peso (en kg) de adultos masculino al momento del ingreso en un programa de control del sobrepeso. Frecuencias absoluta, relativa y acumuladas. Frecuencia Frecuencia Frecuencia Frecuencia absoluta relativa relativa Pesos (kg) absoluta (ni) acumulada (Ni) (fi) acumulada (Fi) 82‐86 3 3 0,075 0,075 87‐91 7 10 0,175 0,250 92‐96 8 18 0,200 0,450 97‐101 8 26 0,200 0,650 102‐106 7 33 0,175 0,825 107‐111 7 40 0,175 1 TOTAL 40 ‐ 1 ‐

A modo de ejemplificar cómo se interpretan las frecuencias acumuladas, podríamos decir que la proporción de adultos con pesos menores a 92 kg es de 0,25 (lo cual corresponde a 10 sujetos de un total de 40), o lo que es lo mismo, que un 25% de los adultos registraron pesos menores a 92 kg. CONSTRUCCIÓN DE TABLAS DE PRESENTACIÓN DE DATOS La obtención de frecuencias, en primera instancia, permitirá disponer los datos de manera tabulada y ordenada en la etapa de presentación y difusión de la información recabada. Se podrán construir tablas de menor o mayor complejidad, siguiendo siempre un criterio metodológico en su elaboración, de modo que la información brindada sea completa, clara y permita la aplicación del análisis estadístico.4 Se denomina tablas de contingencia a aquellas que permiten la representación o cruce de dos o más variables. Veamos algunas normas que facilitan la construcción de tablas a incluir en un informe de investigación, considerando las distintas partes que debe presentar una tabla, a saber: • Título: debe informar de manera clara y breve acerca de las variables que ilustra, el grupo de estudio, lugar y tiempo de la investigación. 35

• Matriz o molde: es el encabezamiento de columnas y filas que la componen. Deben estar claramente rotuladas, indicando las categorías de análisis y, si correspondiere, las unidades de medición.8 • Cuerpo: consta de las celdas de entrecruzamiento de columnas y filas. • Totales: para la sumatoria de las cifras contenidas en el cuerpo de la tabla se habilitan las celdas denominadas marginales, en los límites inferior y/o derecho de la tabla. • Fuente: si los datos no son propios, es decir, si se trabaja con datos provenientes de una fuente secundaria de información, esta debe consignarse al pie de la tabla. En el siguiente ejemplo la matriz aparece sombreada en gris claro, los totales en gris oscuro y las celdas blancas corresponden al cuerpo de la tabla. Frecuencia de consumo de bebidas alcohólicas según sexo en adultos de la ciudad X, Provincia de Bs. As., Argentina. Año 2009. Consumo de bebidas alcohólicas Hombres Mujeres TOTAL Cant. % Cant. % Cant. % Ingesta nula 12 25,0 9 37,5 21 29,2 < 10 vasos por semana 17 35,4 6 25,0 23 31,9 > 10 vasos por semana 19 39,6 9 37,5 28 38,9 TOTAL 48 100 24 100 72 100 Fuente: Estudio sobre factores de riesgo cardiovasculares, Fac. de Medicina, UBA, 2009.

GRÁFICOS Como se mencionó anteriormente, una distribución de frecuencias puede ser representada mediante tablas como las expuestas, ó también mediante un gráfico adecuado, basado en la información contenida en dichas tablas. Se mencionan a continuación distintos tipos de gráficos frecuentemente empleados en la etapa descriptiva de una investigación. Se considerará para ello el tipo de variable para el cual se indica su uso. GRÁFICOS PARA VARIABLES CUALITATIVAS: ‐ Diagrama de barras: Considerando un sistema de coordenadas cartesianas, sobre el eje horizontal se representan las distintas categorías de la variable en estudio y sobre el eje vertical se construye una escala adecuada para representar la frecuencia (absoluta o relativa) correspondiente a cada una de estas categorías. Sobre cada categoría de la variable, se levanta una barra o rectángulo de altura igual a la frecuencia de la categoría en cuestión.10

36

Ejemplo 2: Diagrama de barras para una variable cualitativa. Nivel de actividad física en adolescentes. San Luis, Argentina, 2012.

En el caso de querer comparar varias poblaciones se pueden emplear otras modalidades de este tipo de gráfico, como: ‐



Diagramas de barras múltiples o agrupadas: ubica dos o más rectángulos o barras juntas representando las poblaciones a comparar, y cada categoría de la variable se indica en el eje de abscisas, como lo muestra el Ejemplo 3. Diagramas de barras proporcionales: cada barra representa el total de observaciones en una población y su área se divide según las proporciones encontradas en cada categoría de la variable8 (Ejemplo 4).

Ejemplo 3. Diagrama de barras múltiples o agrupadas para una variable cualitativa. Distribución porcentual del consumo de bebidas alcohólicas según su tipo, en hombres y mujeres de la localidad X, Provincia de Córdoba, Argentina, año 2010.

37

Ejemplo 4. Diagrama de barras proporcionales para una variable cualitativa. Desnutrición intrahospitalaria según sexo en hospitales cabecera del departamento de Río Primero, Córdoba, Argentina, en el año 2009.

Cabe destacar aquí que, cuando los tamaños de las poblaciones representadas son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro caso podrían resultar engañosas.7

‐ Diagrama de sectores: se construye dividiendo el área de un círculo en sectores o porciones, de modo que a cada categoría de la variable representada le corresponde un ángulo proporcional a su frecuencia absoluta o relativa.

Ejemplo 5. Diagrama de sectores para una variable cualitativa. Tipo principal de abastecimiento de agua de bebida en viviendas del interior provincial, La Pampa, Argentina, año 2010.

38

GRÁFICOS PARA VARIABLES CUANTITATIVAS DISCRETAS: ‐ Diagrama de barras: es el mismo que hemos descripto para variables cualitativas. Se utiliza para representar gráficamente la distribución de frecuencias absolutas o relativas. Como se presenta en el siguiente ejemplo (6) las barras no deben estar unidas pues, dada la naturaleza discreta de la variable, entre dos valores no existen valores intermedios. Ejemplo 6. Diagrama de barras para una variable cuantitativa discreta. Distribución de la variable número de hijos en la comuna X, Santa Fe, Argentina. Año 2012.

‐ Gráfico de bastones: representación gráfica similar al diagrama de barras con la diferencia de que las barras son suplantadas por líneas verticales o bastones (Ejemplo 7). Ejemplo 7. Gráfico de bastones para una variable cuantitativa discreta. Distribución de la variable número de hijos en la comuna X, Santa Fe, Argentina. Año 2012.

39

‐ Gráfico a escalones: permite ilustrar la distribución de frecuencias absolutas o relativas acumuladas. Sobre el eje horizontal se representan los distintos valores posibles (enteros) de la variable y sobre el eje vertical la frecuencia acumulada (absoluta o relativa) correspondiente a cada una de esos valores. Cada valor de la variable experimenta un salto de magnitud igual a su frecuencia absoluta o relativa representada. Ejemplo 8. Gráfico de escalones para una variable cuantitativa discreta. Frecuencia relativa acumulada del número de consultas al odontólogo realizadas en un año en pacientes del Centro de Salud N°8 de la localidad de Las Rosas. Córdoba, Argentina, 2011‐2012.

Nro de consultas

GRÁFICOS PARA VARIABLES CUANTITATIVAS CONTINUAS: ‐ Histograma: se construye graficando en el eje vertical la frecuencia (absoluta o relativa) y en el eje horizontal los límites inferiores de cada intervalo.9 Para ello se emplean rectángulos, cada uno de los cuales representa un intervalo de agrupación.2 Como se observa en el ejemplo 9, las bases de estos rectángulos son iguales a la amplitud del intervalo y deben estar unidas dada la naturaleza continua de la variable representada. Su altura está dada por la frecuencia de cada intervalo. Dicha representación intenta dar idea de áreas o superficies.

40

Ejemplo 9. Histograma para una variable cuantitativa continua. Para la construcción del siguiente histograma remítase a los datos presentados en la tabla 4 del Ejemplo 1.

Distribución de frecuencias relativas del peso (en kg) de adultos masculino al momento del ingreso en un programa de control del sobrepeso. Río Cuarto, año 2010.

‐ Polígono de frecuencias: consiste en unir mediante líneas rectas los puntos del histograma que corresponden a las marcas de clase.7 Si se representan las frecuencias acumuladas el gráfico se denomina polígono de frecuencias acumuladas. Ejemplo 10. Polígono de frecuencias para una variable cuantitativa continua. Distribución de frecuencias relativas del peso (en kg) de adultos masculino al momento del ingreso en un programa de control del sobrepeso. Río Cuarto, año 2010.

41

DESCRIPCIÓN DE DATOS BASADA EN MEDIDAS NUMÉRICAS : MEDIDAS RESUMEN DE TENDENCIA CENTRAL Y DE DISPERSIÓN

En la instancia de resumir las particularidades de un conjunto de números el investigador se interesará en definir cantidades de manera rigurosa para analizar la información de la muestra y reconocer a partir de ello sus características más interesantes. Una característica importante de un conjunto de números es su distribución, y en particular su centro.3 Otra característica de interés es la variabilidad de los datos en torno a ese valor central. A continuación se describe la metodología para describir la posición o centro de un conjunto de datos (cálculo de medidas de tendencia central o posición), y más adelante los métodos que miden su variabilidad (cálculo de medidas de dispersión), aplicables fundamentalmente a datos cuantitativos. En la explicación de ambas metodologías se realiza la distinción para su cálculo a partir de: ‐ Un conjunto de datos en series simples (es decir, no agrupados) ‐ Datos discretos agrupados (pero sin intervalos) ‐ Datos continuos o discretos agrupados en intervalos de clases MEDIDAS DE TENDENCIA CENTRAL O POSICIÓN En términos generales podemos decir que estas medidas indican el valor medio de los datos. Las más frecuentemente empleadas son las que presentamos a continuación: media, mediana y moda. También se describirán otras de interés como los cuantiles, cuartiles y percentiles. LA MEDIA La medida de tendencia central que más se usa en estadística es la media, también llamada media aritmética. La media de un conjunto de observaciones es una medida de posición que se conoce comúnmente como promedio.10 La media muestral se denota por X , mientras que la media de una población se denota mediante la letra griega µ. ‐ Cálculo de la media muestral para datos en series simples Supóngase que un conjunto de datos es de la forma x1, x2, …, xn, donde cada xi es un número para la observación i y n es el tamaño de la muestra.3 42

La media muestral ( X ) de un conjunto de datos x1, x2, …, xn está dada por: X =

x1 + x 2 + ... + x n n

Esto se puede expresar de manera mas formal como X =

∑x n

i

donde el

numerador representa la sumatoria de las observaciones y el denominador el número total de observaciones o tamaño muestral (n). Ejemplo 11: Dado el siguiente conjunto de datos correspondiente a la información recabada sobre la variable semanas bajo tratamiento médico en una muestra de 11 enfermos crónicos atendidos en una determinada Institución de Salud: 25, 32, 22, 21, 25, 30, 45, 50, 27, 28, 25 Se efectúa el cálculo de la media muestral como sigue: X =

25 + 32 + 22 + 21 + 25 + 30 + 45 + 50 + 27 + 28 + 25 11

X = 30

Concluimos que la media muestral de semanas bajo tratamiento médico es de 30 semanas, o en otras palabras, que el número de semanas promedio de tratamiento médico en estos pacientes es de 30. ‐ Cálculo de la media muestral para datos discretos agrupados (sin intervalos) Para un conjunto de datos discretos agrupados, sin intervalos, el cálculo de la media se efectúa a partir de la siguiente ecuación: X =

Siendo

∑ x .n i

i

n

xi los distintos valores que toma la variable ni sus frecuencias absolutas respectivas n el tamaño muestral (o sea el número total de observaciones)



el símbolo que representa una sumatoria

43

Ejemplo 12. Supongamos que la siguiente tabla resume la información recabada por el dueño de un comercio acerca del número de ausencias que registraron sus empleados en un periodo determinado: Frecuencia absoluta (ni) 1 5 3 0 2 11

Nro 2 3 4 5 6 TOTAL

Para facilitar este cálculo puede ser útil construir una tabla de cálculo como la que sigue:

xi 2 3 4 5 6 TOTAL

Frecuencia absoluta (ni) 1 5 3 0 2 11

xi . ni 2 15 12 0 12 ∑ xi .ni = 41

Así, X =

2 ⋅1 + 3 ⋅ 5 + 4 ⋅ 3 + 5 ⋅ 0 + 6 ⋅ 2 = 41/11 = 3,7 11

Se interpreta que el número de ausencias promedio de los empleados es de aproximadamente 4. ‐ Cálculo de la media muestral para datos continuos o discretos agrupados en intervalos En el caso de variables continuas o discretas que se presentan agrupadas en intervalos de clase el cálculo de la media está dado por la ecuación: X =

donde

∑ m .n i

i

n

mi representa la marca de clase o punto medio del intervalo ni la correspondiente frecuencia absoluta del intervalo n el tamaño muestral 44

Ejemplo 13. Retomando un caso ya presentado anteriormente, supongamos que se desea calcular el peso medio a partir de la correspondiente tabla de distribución de frecuencias: Distribución del peso (en kg) de adultos masculino al momento del ingreso en un programa de control del sobrepeso. Frecuencia Pesos (kg) absoluta (ni) 82‐86 3 87‐91 7 92‐96 8 97‐101 8 102‐106 7 107‐111 7 TOTAL 40

Para calcular la media agregamos a la tabla anterior un par de columnas que facilitará dicha tarea. Recuerde que la marca de clase se calcula como el promedio (o punto medio) entre los límites de cada intervalo. La columna mi . ni representa el producto entre su marca de clase y la frecuencia absoluta: Marca de clase (mi) 84 89 94 99 104 109 ‐

Pesos (kg) 82‐86 87‐91 92‐96 97‐101 102‐106 107‐111 TOTAL

Luego, X = X =

∑ m .n i

Frecuencia absoluta (ni) 3 7 8 8 7 7 40

mi . ni 252 623 752 792 728 763 ∑ mi .ni = 3910

i

n 3910 = 97,7 40

Concluimos entonces que el peso promedio de los adultos masculino al momento del ingreso en un programa de control del sobrepeso fue de 97,7 kg.

45

LA MEDIANA La mediana de un conjunto de observaciones es el valor de la variable que se encuentra a la mitad del conjunto (ordenado de menor a mayor), dejando por debajo de este valor al 50% de las observaciones y por encima a la mitad restante. Denotaremos como Me a la mediana muestral. ‐ Cálculo de la mediana muestral para datos en series simples Ordenados los datos de una variable de menor a mayor, la mediana muestral (Me) es el valor de la observación que se encuentra a la mitad o centro del conjunto de datos si su tamaño (n) es impar. Si el número de observaciones es par se considera la Me como el promedio de los valores de las dos observaciones que se encuentren en la mitad del conjunto ordenado.9 Ejemplo 14. Considere los siguientes datos en relación con la concentración de un determinado indicador biológico en sangre para una muestra de 11 individuos: 15,2 9,3 7,6 11,9 10,4 9,7 9,4 11,5 16,2 9,4 8,3 La lista de valores ordenados es: 7,6 8,3 9,3 9,4 9,4 9,7

10,4 11,5 11,9 15,2 16,2

Dado que el tamaño muestral es impar (n = 11) la Me resultante corresponde al valor que se encuentra en el centro del conjunto ordenado, en este ejemplo el valor 9,7. Esto indica que en el 50% de los individuos registró una concentración de 9,7 o menos para el indicador biológico estudiado, mientras que la mitad restante de los individuos presentaron concentraciones en sangre de 9,7 o más. Si en cambio la misma muestra tuviera un dato más, sea 20,4, quedando el conjunto de valores ordenado de la siguiente manera: 7,6 8,3 9,3 9,4 9,4 9,7 10,4 11,5 11,9 15,2 16,2 20,4 Siendo ahora n = 12, es decir un número par, entonces debemos calcular n/2= 6. Esto nos indica que el centro del conjunto de datos está entre los valores ordenados en sexto y séptimo lugar. Luego: Me =

9,7 + 10,4 = 10,05 2

La Me calculada en este caso para la concentración sanguínea del indicador biológico en cuestión es de 10,05. 46

‐ Cálculo de la mediana muestral para datos discretos agrupados (sin intervalos) En el caso de datos discretos agrupados, sin intervalos, es necesario identificar el valor que divide a la muestra en dos partes iguales a partir de la información contenida en la tabla de distribución de frecuencias correspondiente. Para ello se debe calcular n/2 y ubicar en la tabla la frecuencia absoluta acumulada (en su respectiva columna Ni) aquella que incluya el valor calculado, como se muestra en el siguiente ejemplo: Ejemplo 15. Los siguientes datos se refieren al número de controles durante el embarazo en mujeres de una determinada población rural:

Nro de controles 0 1 2 3 4 5 TOTAL

Frecuencia absoluta (ni) 5 11 35 2 2 1 56

Frecuencia absoluta acumulada (Ni) 5 16 51 53 55 56 ‐

A los fines de conocer cuál es la mediana en este caso, calculamos en primer lugar n/2 = 56/2 =28 Dado el n/2 calculado, el valor de Ni que incluye a 28 es 51. Luego, el valor de la variable que corresponde a dicha frecuencia absoluta acumulada es 2. Entonces, el valor de la Me de la variable en estudio es 2. Esto indica que el 50% de las mujeres realiza 2 controles o menos durante el embarazo y que, por ende, el 50% restante realiza 2 controles o más. ‐ Cálculo de la mediana muestral para datos continuos o discretos agrupados en intervalos Para datos continuos o discretos agrupados en intervalos se toma como Me el centro (marca de clase) del intervalo central. La fórmula respectiva para su cálculo es: Me = Linf +

(n / 2) − N i −1 ⋅ ai ni

siendo: n / 2 = número total de datos dividido por 2 Linf = el límite inferior del intervalo cuya frecuencia acumulada absoluta ( N i ) incluye el valor de n / 2 . 47

N i −1 = primera frecuencia absoluta acumulada ( N i ) que no supera a n / 2 ni = frecuencia absoluta del intervalo que contiene al valor n / 2 (en columna N i ) ai = amplitud de dicho intervalo ( ai = límite superior – límite inferior)

Ejemplo 16. En un estudio sobre ingesta alimentaria se registraron los siguientes datos para la variable edad al momento de la entrevista:

Frecuencia absoluta (ni) 28 32 35 5 100

Edad (años) 15‐29 30‐44 45‐59 60‐74 TOTAL

Frecuencia absoluta acumulada (Ni) 28 60 78 100 ‐

Considerando la fórmula correspondiente para el cálculo de la Me tenemos: Frecuencia absoluta (ni) 28

Edad (años) 15‐29 Linf Æ30‐44

ni Æ32

Frecuencia absoluta acumulada (Ni) N i −1 Æ 28 60 Æ Ni que incluye a 50

45‐59 60‐74 TOTAL

Luego,

35 5 100

78 100 ‐

n / 2 = 100/2 = 50

N i −1 = 28

ai = 44 – 30 = 14

Linf = 30

ni = 32

Me = 30 +

(100 / 2) − 28 ⋅ 14 = 39,6 ≅ 40 32

La edad mediana de los sujetos al momento de la entrevista sobre ingesta alimentaria fue de aproximadamente 40 años, lo cual indica que el 50% de los entrevistados tuvo esa edad o menos, y el 50% esa edad o más.

48

LA MODA La moda de un conjunto de observaciones es el valor o modalidad de la observación que ocurre con mayor frecuencia en el conjunto.9 Es decir que esta medida de posición muestra hacia qué valor tienden los datos a agruparse.9 Con respecto a la moda cabe destacar que: ‐ corresponde al valor o modalidad de la variable más frecuente, lo cual se observa a partir de su frecuencia en el conjunto de observaciones, pero no es la frecuencia en sí misma. ‐ pueden existir más de un valor modal. En tal caso decimos que la variable presenta una distribución bimodal (con dos modas) ó multimodal. ‐ es la única medida de tendencia central aplicable a variables de tipo categóricas. Denotaremos Mo a la moda muestral.

‐ Cálculo de la moda muestral para datos en series simples Se debe observar, en el conjunto de datos, cuál es el valor que se registra mayor número de veces. Ejemplo 17. Los siguientes datos se refieren al número de raciones alimentarias entregadas por día en un comedor comunitario en el mes de Junio:

50 52 50 53

55 55 50 54

55 55 51 55

60 55 55 55

61 55 61 60

61 60 61 63

61 60 62 63

En este caso se puede observar que el valor que más se repite es 55. Decimos que la Mo es 55, lo cual indica que la cantidad de raciones que más frecuentemente se entregan en el comedor es de 55.

49

‐ Cálculo de la moda muestral para datos discretos agrupados (sin intervalos) ó categóricos Es el valor o categoría de la variable que registra la frecuencia absoluta más elevada. Ejemplo 18. Las siguientes tablas presentan las distribuciones de frecuencias para las variables motivo de consulta y número de interconsultas recibidas por semana, de acuerdo a la información recabada en el Servicio de Nutrición de un hospital regional ubicado en la localidad de Villa María:

Motivo de consulta Frecuencia absoluta (ni) Enfermedades gastrointestinales 60 Sobrepeso‐Obesidad 126 Enfermedad cardiovascular 91 Anemia 52 Otros 34 TOTAL 363

Nro de interconsultas Frecuencia absoluta (ni) 0 5 1 12 2 21 3 6 4 4 TOTAL 48

Vemos en este ejemplo que la categoría de la variable Motivo de consulta que más se repite es Sobrepeso‐Obesidad. Entonces, la moda para esa variable es Sobrepeso‐Obesidad. Para la variable Número de interconsultas por semana la Mo = 2, dado que registra la frecuencia más alta en el conjunto. Podemos decir entonces que Sobrepeso‐Obesidad es el motivo de consulta más frecuente en el Servicio de Nutrición de dicho hospital, y que la cantidad de interconsultas que se realiza con mayor frecuencia es de 2 por semana.

50

‐ Cálculo de la moda muestral para datos continuos o discretos agrupados en intervalos En el caso de datos cuantitativos agrupados en intervalos, el intervalo con frecuencia absoluta o relativa más alta recibirá el nombre de intervalo o clase modal. La moda estará representada por su marca de clase (mi) o punto medio. Ejemplo 19. Los siguientes datos corresponden a la talla (cm) en adultos masculinos de una comunidad aborigen ecuatoriana: Talla (cm) 140‐149 150‐159 160‐169 170‐179 TOTAL

Marca de clase (mi) 144,5 154,5 164,5 174,5 ‐

Frecuencia absoluta (ni) 8 15 11 9 43

Aquí, el intervalo o clase modal es 150‐159 cm, por lo que la Mo será su marca de clase, es decir, 154,5 cm. Se concluye que la talla más frecuente en la población aborigen estudiada es 154,5 cm. INTRODUCCIÓN A LA NOCIÓN DE VARIABILIDAD Y SESGO La variabilidad es una propiedad inherente a toda variable que se refiere justamente a su posibilidad de variación, esto es, de tomar valores o modalidades distintas (ej, entre individuos, en el mismo individuo de una ocasión a otra, o entre observadores). A modo de ejemplo podemos mencionar la frecuencia cardíaca o la tensión arterial, los cuales cambian tanto de un individuo a otro como en el mismo individuo según la actividad que realice, e incluso es factible que varíen en el registro sucesivo de dos observadores diferentes.4 Las medidas de tendencia central o posición descriptas hasta aquí nos indican donde se sitúa un grupo de valores. En cambio, las denominadas medidas de variabilidad o dispersión nos indican si esos valores están próximos entre sí o si por el contrario están muy dispersos7 en relación a ese valor central. Es necesario destacar que ambas mediciones son complementarias, y deben informarse de manera conjunta para una descripción completa del conjunto de datos. Obsérvese el caso en que dos conjuntos de mediciones presenten la misma medida de tendencia central (ej. la misma media) pero con distribuciones de frecuencias muy distintas (Figura 1). La diferencia radica en la variabilidad o 51

dispersión de las medidas a cada lado de la media.1 En función de esta propiedad, diremos que una población es más heterogénea cuando presenta una mayor variabilidad en torno a su centro (existe mayor dispersión de los datos), y es más homogénea cuando los datos se muestran de modo más concentrado (menos dispersos). Figura 1. Distribución de dos poblaciones con igual media y distinta variabilidad de los datos.

Considerando la forma que adopta la distribución de frecuencias de los valores de una variable, decimos que una distribución es simétrica cuando las frecuencias a ambos lados de las medidas de posición se distribuyen de igual manera. En una distribución simétrica media, mediana y moda tienen el mismo valor. En las distribuciones asimétricas en cambio hay valores extremos concentrados en una dirección de la distribución.10 En estos casos hablamos de distribuciones sesgadas. Este desvío o sesgo puede observarse hacia la derecha o hacia la izquierda, según las frecuencias más pequeñas se ubiquen a la derecha o a la izquierda de la distribución, como lo muestra la siguiente representación gráfica: Figura 2. Formas de una distribución: A. Asimétrica con sesgo negativo (sesgada a la izquierda); B. Simétrica; C. Asimétrica con sesgo positivo (sesgada a la derecha). A. Asimétrica. Sesgo negativo

B. Simétrica

C. Asimétrica. Sesgo positivo

52

Si la distribución de la población tiene un sesgo positivo o negativo, como se observa en la figura anterior, entonces la media es distinta de la mediana y la moda en esa población. ALGUNAS CONSIDERACIONES FINALES PARA LA ELECCIÓN DE LA MEDIDA DE POSICIÓN ADECUADA

De acuerdo a la forma en que se distribuyen los datos y el tipo de variable en cuestión, se postulan las siguientes consideraciones para la selección de la medida de posición que mejor resuma la información contenida en el conjunto de datos: ‐ La media es la medida de elección cuando la distribución de los datos es homogénea (esto se deduce de la forma simétrica que adopta la distribución). La media presenta el inconveniente de que es muy sensible a observaciones atípicas (valores anormales, muy altos o muy bajos), lo cual puede distorsionar notablemente el valor promedio. Por esto no se recomienda su uso ante la existencia de valores extremos (atípicos) en el conjunto de datos. ‐ La mediana es recomendable cuando la distribución sea muy asimétrica (hay pocos valores muy altos o pocos valores muy bajos), lo que sugiere heterogeneidad de los datos. Presenta la ventaja de que no se ve alterada por la presencia de valores atípicos o extremos.9 ‐ La moda es la única medida de elección para variables categóricas. Provee también información útil y complementaria en el caso de variables cuantitativas, salvo que nos encontremos frente a distribuciones bimodales. ‐ Cuando la distribución es bimodal, ninguna medida de posición provee información útil, todas pierden representatividad. Se puede interpretar que en esa población se han considerado en realidad dos distribuciones unimodales,10 producto, por ejemplo, de un error de muestreo. OTRAS MEDIDAS DE POSICIÓN: CUANTILES, CUARTILES, PERCENTILES Se ha mencionado que la mediana (poblacional o muestral) divide el conjunto de datos en dos partes de igual tamaño. Para obtener medidas de localización más finas, se podrían dividir los datos en más de dos partes.3 Esto es el caso de medidas de posición como los cuantiles, cuartiles y percentiles. En especial nos referiremos al cálculo de estas medidas en datos agrupados.

53

CUANTIL Dada una distribución de frecuencia relativa acumulada, se define un cuantil como el valor bajo el cual se encuentra una determinada proporción de los valores de la distribución.9 En otras palabras, el cuantil p es aquel valor observado de la variable, en un conjunto de datos, tal que el número de valores menores o iguales a él constituyen la proporción p del número total de observaciones.11 Tomemos como ejemplo el cuantil 0,7. En virtud de lo anterior podemos afirmar que el cuantil 0,7 es un valor tal de la variable que deja por debajo de él una proporción de 0,7 del número total de observaciones. Esto significa que dicho valor de la variable deja por debajo de él al 70% de los datos y por encima al 30%. Siguiendo el mismo criterio, si nos interesara conocer el cuantil 0,95 estaríamos buscando el valor de la variable que deja por debajo de él al 95% de los datos, y por encima al 5%, mientras que si nos interesamos en el cuantil 0,4 observaríamos cuál es el valor que deja por debajo el 40% de los datos y por encima el 60%. ‐ Cálculo de cuantiles para datos discretos agrupados (sin intervalos) Para el cálculo de un cuantil p determinado, dado: p = cuantil que quiero investigar n = total de datos Se calcula en primer lugar:

p⋅n

Luego, debemos buscar en la tabla de frecuencias el valor de Ni (frecuencia absoluta acumulada) que incluya el valor anterior calculado ( p ⋅ n ). El valor de la variable que corresponda a dicha Ni será el valor del cuantil buscado. Ejemplo 20. Dados los siguientes datos acerca de la cantidad de frutas diariamente consumidas en sujetos adultos, se desea estimar el cuantil 0,25. Nro de frutas consumidas por día 0 1 2 3 4 5 Total

Frecuencia absoluta (ni) 5 11 35 2 2 1 56

Frecuencia absoluta acumulada (Ni) 5 16 51 53 55 56 ‐ 54

Calculamos p ⋅ n = 0,25 ⋅ 56 = 14 El valor de Ni que incluye a 14 es 16, y el valor de la variable que corresponde a dicha frecuencia acumulada es 1. Por ende el cuantil 0,25 = 1. Concluimos que el 25% de los adultos consumen 1 fruta diaria o menos, y el 75% restante 1 fruta o más por día. ‐ Cálculo de cuantiles para datos continuos o discretos agrupados en intervalos En el caso de datos agrupados en intervalos el cálculo de cuantiles se realiza a través de la siguiente fórmula: Cuantil p = Linf +

( p.n) − N i −1 ⋅ ai ni

siendo:

p = cuantil que se desea investigar n = número total de datos Linf = límite inferior del intervalo cuya frecuencia acumulada absoluta ( N i ) incluye el valor de p ⋅ n . N i −1 = primera frecuencia absoluta acumulada ( N i ) que no supera a p ⋅ n. ni = frecuencia absoluta del intervalo que contiene al valor p ⋅ n (en columna N i ) ai = amplitud de dicho intervalo ( ai = límite superior – límite inferior)

Ejemplo 21. Supongamos que se desea calcular el cuantil 0,50 para el siguiente conjunto de datos, correspondiente a la variable peso tomada en una muestra de 40 mujeres:

Peso (kg) 45‐49 50‐54 55‐59 60‐64 65‐69 70‐74 TOTAL

Frecuencia absoluta (ni) 7 9 10 8 5 1 40

Frecuencia absoluta acumulada (Ni) 7 16 26 34 39 40 ‐

55

Considerando la fórmula correspondiente tenemos: Frecuencia absoluta (ni) 7 9

Peso (kg) 45‐49 50‐54 Linf Æ55‐59

ni Æ10

Frecuencia absoluta acumulada (Ni) 7 N i −1 Æ 16 26Æ Ni que incluye a 20

60‐64 65‐69 70‐74 TOTAL

8 5 1 40

p ⋅ n = 0,50 ⋅ 40 = 20

N i −1 = 16

Linf = 55

ni = 10

Luego,

Cuantil0,50 = Linf +

Entonces

Cuantil0.50 = 55 +

34 39 40 ‐

ai = 59 – 55 = 4

(0,50.n) − N i −1 ⋅ ai ni

20 − 16 ⋅ 4 = 56,6 10

Se concluye que el 50% de las mujeres registraron un peso inferior o igual a 56,6 kg, mientras que la mitad restante presentó un peso igual o superior a 56,6 kg. PERCENTIL Con respecto a los percentiles es común referirse a ellos como sinónimo de cuantiles. Su diferencia radica en que en el primero se especifica un porcentaje y en el segundo una proporción.11 En términos generales, los percentiles dividen un conjunto de datos, ordenados de menor a mayor, en 100 partes iguales. Se define entonces el percentil k como el valor de un conjunto de datos que deja por debajo de sí el k % de las observaciones. Así, por ejemplo, el percentil 99 separa al 1% de las observaciones (por encima) del 99% restante (por debajo); el percentil 3 corresponde al valor que deja por debajo al 3% de los datos y al 97% por encima de él; el percentil 10 deja por debajo al 10% y por encima el 90% de las observaciones, y así según sea el percentil especificado.

56

‐ Cálculo de percentiles para datos discretos agrupados (sin intervalos) Para el cálculo de percentiles, se aplican el mismo procedimiento descripto para el cálculo de cuantiles, solo que al referirnos ahora a porcentajes, p corresponde al valor del percentil a investigar y p ⋅ n se divide por 100. Calcularemos entonces p ⋅ n /100, y luego se seguirá la misma forma de cálculo que se explicó para cuantiles. ‐ Cálculo de percentiles para datos continuos o discretos agrupados en intervalos Lo mismo sucede en el caso de datos agrupados en intervalos, debiendo aplicarse ahora la fórmula de la siguiente manera: p⋅n ) − N i −1 100 + ⋅ ai ni (

Percentil p = Linf

siendo: p =percentil que se desea investigar n = número total de datos Linf = el límite inferior del intervalo cuya frecuencia acumulada absoluta ( N i ) incluye p⋅n el valor de 100 p⋅n N i −1 = primera frecuencia absoluta acumulada ( N i ) que no supera a 100 p⋅n ni = frecuencia absoluta del intervalo que contiene al valor (en columna N i ) 100 ai = amplitud de dicho intervalo ( ai = límite superior – límite inferior)

Siguiendo con el Ejemplo 21 acerca del peso de mujeres, supongamos que se desea calcular el percentil 30. Siendo en este caso: p = 30 y n=40, el valor de p⋅n = 12. 100

Tomando dicho valor de referencia para aplicar la fórmula, tenemos: Linf = 50 ni = 9 N i −1 = 7 ai = 54 – 50 = 4 Entonces,

30 ⋅ n ) − N i −1 100 Percentil30 = Linf + ⋅ ai ni (

57

Percentil30 = 50 +

12 − 7 ⋅ 4 = 50,5 40

Se concluye que el 30% de las mujeres registraron un peso inferior o igual a 50,5 kg, mientras que el 70% restante presentó un peso igual o superior a dicho valor. CUARTILES Los cuartiles son valores de la variable que dividen el conjunto de datos (ordenados de menor a mayor) en cuatro partes iguales. Denotaremos los cuartiles con la letra Qi, donde el subíndice i representa el orden del cuartil (1, 2 ó 3). Así, como se muestra en la siguiente figura, las observaciones por encima del tercer cuartil (Q3) corresponden al cuarto superior del conjunto de datos, el segundo cuartil (Q2) es idéntico a la mediana y el primer cuartil (Q1) separa el cuarto inferior de los tres cuartos superiores.3 Figura 3. Representación gráfica de un conjunto de datos y su división en cuartiles (Qi)

Q1

¼

Q2

¼

Q3

¼

¼

Vemos que: Q1= es el valor que deja por debajo de él al 25% de los datos y por encima al 75%. Q2= es el valor que deja por debajo de él al 50% de los datos y por encima al 50% restante (es decir, equivale al valor de la mediana). Q3= es el valor que deja por debajo de él al 75% de los datos y por encima al 25%.

‐ Cálculo de cuartiles para datos discretos agrupados (sin intervalos) Para calcular los diferentes cuartiles (Qi) debemos calcular: n para el primer cuartil (Q1); luego buscar el valor de Ni que incluye a n/4. El 4

valor de la variable que corresponda al Ni encontrado será el valor de Q1.

58

2⋅n 2⋅n para el segundo cuartil (Q2); luego buscar el valor de Ni que incluye a . 4 4

El valor de la variable que corresponda al Ni encontrado será el valor de Q2. 3⋅ n 3⋅ n para el tercer cuartil (Q3); luego buscar el valor de Ni que incluye a . El 4 4

valor de la variable que corresponda al Ni encontrado será el valor de Q3. Ejemplo 22. Veamos el siguiente ejemplo, correspondiente a la variable número de veces que consultó al odontólogo al año, levantada en una encuesta de salud del adulto realizada en una determinada comunidad: Nro. de consultas odontológicas 0 1 2 3 4 5 Total

Frecuencia absoluta (ni) 28 20 30 52 40 30 200

Frecuencia absoluta acumulada (Ni) 28 48 78 130 170 200 ‐

n = 50; luego el valor de Ni que incluye a 50 es 78. Entonces, Q1= 2 4 2⋅n = 100; luego el valor de Ni que incluye a 100 es 130. Entonces, Q2= 3 4 3⋅ n = 150; luego el valor de Ni que incluye a 150 es 170. Entonces, Q3= 4 4

Se concluye que: ‐ un 25% o menos de los sujetos encuestados realizaron 2 consultas anuales al odontólogo o menos, y un 75% 2 o más consultas. ‐ el 50% o menos de los sujetos encuestados realizaron 3 o menos consultas anuales al odontólogo, y el 50% restante 3 o más consultas. ‐ un 75% o menos de los sujetos encuestados realizaron hasta 4 consultas anuales al odontólogo, y un 25% realizaron 4 o más consultas. ‐ Cálculo de cuartiles para datos continuos o discretos agrupados en intervalos Se sigue el mismo procedimiento que en el cálculo de cuantiles, con la siguiente variación en la fórmula:

59

Cuartil Q = Linf

Q⋅n ) − N i −1 4 ⋅ ai + ni (

siendo: Q= cuartil que se desea investigar (1, 2 ó 3, según sea el caso) n = número total de datos Linf = el límite inferior del intervalo cuya frecuencia acumulada absoluta ( N i ) incluye el valor de

Q⋅n 4

N i −1 = primera frecuencia absoluta acumulada ( N i ) que no supera a ni = frecuencia absoluta del intervalo que contiene al valor

Q⋅n 4

Q⋅n (en columna N i ) 4

ai = amplitud de dicho intervalo ( ai = límite superior – límite inferior)

60

MEDIDAS DE VARIABILIDAD O DISPERSIÓN Para describir los datos de un conjunto de mediciones de manera adecuada es preciso, además de indicar el centro de su distribución, definir medidas de la variabilidad o dispersión de los datos. Nos referiremos a continuación a las más comúnmente empleadas en estadística: la varianza y la desviación estándar, luego al rango, rango intercuartílico y el coeficiente de variación. VARIANZA Y DESVIACIÓN ESTÁNDAR En términos generales la varianza y la desviación estándar (también llamada desvío estándar) tienen que ver con la dispersión (o desviación) de los datos respecto de la media, lo cual se obtiene restando X de cada una de las observaciones de la muestra. La varianza y desviación estándar muestral se denotan por S2 y S, respectivamente, mientras que la varianza y desviación estándar de una población se denotan como σ 2 y σ . ‐ Cálculo de la varianza y desviación estándar muestral para datos en series simples La varianza muestral (S2) tiene la siguiente expresión: S

Donde:

2

∑ (x =

i

−X )2

n −1

xi = distintos valores observados para la variable X = media muestral n = total de observaciones

La desviación estándar muestral, representada por S, es igual a la raíz cuadrada de la varianza: S = S2

entonces

S=

∑ (x

i

−X )2

n −1

61

Ejemplo 23. Dada la variable cantidad de seminarios de capacitación dictados al año por equipos de salud dependientes del Ministerio de Salud de una determinada provincia, se obtuvieron los siguientes datos:

2, 4, 6, 4, 7, 4, 7, 8, 10, 9

Se desea conocer la varianza y desviación estándar de esta muestra. Se observa que el tamaño de la muestra (n) es 10 y se calcula el valor de la media muestral: X = 6,1

n= 10

Luego,

∑(x −X) = (2‐6,1) + (4‐6,1) + (6‐6,1) + (4‐6,1) + (7‐6,1) + (4‐6,1) + (7‐6,1) + (8‐6,1) + (10‐6,1) +(9‐6,1) 2

i

2

2

2

2

2

2

2

2

2

2

= 58,9

Entonces:

y el valor de S es

S2 =

∑ (x

i

−X )2

n −1

=

58,9 = 6,54 10 − 1

S = S2

= 6,54 = 2,56 ≅ 3

La varianza nos indica cuánto distan, en promedio, los valores de la variable de su media, expresado esto al cuadrado. Para una interpretación más sencilla se utiliza la desviación estándar. En este caso decimos que la varianza muestral es 6,54 seminarios al cuadrado dictados al año por los equipos de salud. Basándonos en el valor de S calculado, en cambio, podemos decir que el promedio ( X ) de la cantidad de seminarios dictados es de 6 al año y que la mayoría de los equipos de salud dictaron entre 3 y 9 seminarios. Esto se deduce de calcular X ± 1 desvío estándar (o sea 6 ± 3 en este ejemplo).

62

‐ Cálculo de la varianza y desviación estándar muestral para datos discretos agrupados (sin intervalos) Para datos discretos agrupados sin intervalos, se puede calcular la varianza muestral mediante la aplicación de la siguiente fórmula: S

Siendo

2

∑ n (x = i

i

−X )2

n −1

ni = la frecuencia absoluta de cada observación xi = los distintos valores observados para la variable

X = la media muestral n = el total de observaciones

La desviación estándar muestral como se mencionó anteriormente, también para esta situación, es la raíz cuadrada de S 2 : S=

∑ n (x i

i

−X )2

n −1

Siguiendo el ejemplo anterior (23), suponiendo que los datos se nos presentan ahora de modo agrupado:

Cantidad de seminarios 2 4 6 7 8 9 10 TOTAL

Sabemos que:

X = 6,1

y

Frecuencia absoluta (ni) 1 3 1 2 1 1 1 10

n= 10

63

La siguiente tabla de cálculo los facilitará la aplicación de la fórmula:

Cant. 2 4 6 7 8 9 10 TOTAL

Luego,

S

2

∑ n (x =

S2 =

Entonces

i

i

(x

| xi − X |

Frecuencia absoluta (ni) 1 3 1 2 1 1 1 10

4,1 2,1 0,1 0,9 1,9 2,9 3,9

i

−X

)

(

2

)

2

ni ⋅ x i − X

16,81 4,41 0,01 0,81 3,61 8,41 15,21

(



16,81 13,23 0,01 1,62 3,61 8,41 15,21

)

2

ni ⋅ x i − X = 58,9

−X )2

n −1

58,9 = 6,54 10 − 1

S = 6,54 S = 2,56 ≅ 3

Se concluye que la mayoría de los equipos de salud dictaron entre 3,1 y 9,1 seminarios, con un promedio de 6,1 seminarios anuales. ‐ Cálculo de la varianza y desviación estándar muestral para datos continuos o discretos agrupados en intervalos Para calcular S 2 y S en el caso de tener datos agrupados en intervalos la única diferencia con respecto a las fórmulas anteriores presentadas es que en las mismas se reemplaza xi por la marca de clase (punto medio del intervalo), denotada por mi .

Así, Siendo

S

2

∑ n (m = i

i

−X )2

n −1

y

S=

∑ n (m i

i

−X )2

n −1

ni = la frecuencia absoluta de cada observación mi = la marca de clase X = la media muestral n = el total de observaciones

64

Supongamos que los datos trabajados en el ejemplo 23 se presenten de modo agrupado en intervalos, con X = 6,1 : Marca de clase ( mi ) 3 6 9

Cant. 2‐4 5‐7 8‐10 TOTAL

Luego, S

y

2

Frecuencia absoluta

∑ n (m = i

i

(ni)

| mi − X |

4 3 3 10

3,1 0,1 2,9

−X )2

n −1

S=

∑ n (m i

i

−X )2

n −1

=

(m

−X 9,61 0,01 8,41

i

)

(

2

ni ⋅ mi − X 38,44 0,03 25,23



(

)

2

)

2

ni ⋅ mi − X =63,7

63,7 =7 10 − 1

=

63,7 = 2,64 10 − 1

Se concluye que la mayoría de los equipos de salud dictaron entre 3,5 y 8,7 seminarios al año ( X ± S = 6,1 ± 2,64) .

RANGO O RECORRIDO El rango o recorrido (R) de las observaciones en un conjunto de datos es la diferencia entre el valor más grande ( xmax ) y el más pequeño ( x min ) del conjunto. Su cálculo se puede expresar de la siguiente manera: R = x max − x min

Por su simplicidad, el rango proporciona una rápida indicación de la variabilidad entre las observaciones de un conjunto de datos,9 pero debe usarse con precaución en el caso de conjuntos de datos muy grandes o que contengan algunas observaciones extremas. Ejemplo 24. Se tomó una muestra correspondiente a la cantidad de botellas producidas por día en una planta de una marca comercial de bebidas saborizadas durante un periodo determinado:

65

301

303

305

310

315

316

317

320

Así, el valor del rango para esta muestra es: R= 320 – 301 = 19 Es decir que la diferencia entre la mayor y menor cantidad de bebidas saborizadas producidas diariamente en la planta es de 19 botellas. RANGO O RECORRIDO INTERCUARTÍLICO El rango o recorrido intercuartílico (RI) refleja la variabilidad de las observaciones comprendidas entre los cuartiles primero (Q1) y tercero (Q3) en el conjunto de datos.9 Es decir que permite conocer entre cuáles valores de una serie de datos se halla el 50% central, considerando que Q1 deja por debajo el 25% de las observaciones y Q3 deja por encina el 25%.8 Esta medida presenta la ventaja de que no es afectada por la presencia de observaciones relativamente grandes.9 Su cálculo sería: RI = Q3 – Q1

Recuerde que para la aplicación de esta fórmula debe retomarse lo explicado para cálculo de cuartiles según se trate de datos agrupados con o sin intervalos. Retomando el Ejemplo 22, sobre número de consultas al odontólogo al año, donde el Q3 calculado fue 4 y el Q1 fue 2, tenemos: RI = 4 – 2 = 2

Es decir que el 50% central de los encuestados registró entre 4 y 2 consultas anuales, lo que representa 2 unidades de variabilidad en torno al centro de la distribución para la variable en cuestión. En otras palabras, el intervalo abarcado por el 50% de las observaciones centrales es de 2 unidades de la variable estudiada.

66

COEFICIENTE DE VARIACIÓN Se denomina coeficiente de variación (CV) al cociente entre la desviación estándar (S) y la media muestral ( X ), multiplicado por 100: CV =

S X

⋅ 100

El CV es una medida relativa de variabilidad. Permite comparar la variabilidad u homogeneidad de distintos grupos de datos, aun cuando estos presenten diferentes unidades de medición o se refieran a distintas variables. Ejemplo 25. Se desea conocer el CV para las siguientes variables antropométricas registradas a partir de una determinada muestra: a) Talla (en m), la cual presentó una X = 1,47 m y un S = 0,13 m b) Peso (en kg), el cual obtuvo una X = 67 kg y un S = 3 kg Luego, 0,13 ⋅100 = 8,84% 1,47 3 b) Peso: CV = ⋅100 = 4,47% 67

a) Talla: CV =

Los resultados obtenidos indican que, en este caso, el peso es más homogéneo que la estatura. O lo que es lo mismo, que el peso presenta menor variabilidad que la estatura.

67

BIBLIOGRAFÍA - MÓDULO 2

1. Wackerly DD, Mendenhall W, Scheaffer R. Estadística matemática con aplicaciones. 6ta ed. México, D.F.: International Thompson Ed.; 2002. 2. Peña D. Fundamentos de Estadística. Madrid: Alianza Editorial; 2001. 3. Devore JL. Probabilidad y Estadística para ingeniería y ciencias. 6ta ed. México, D.F: International Thompson Ed.; 2005. 4. Sabulsky J. Investigación científica en salud‐enfermedad. 2da. Ed. Córdoba: Ed. Kosmos S.R.L.; 1998. 5. Beaglehole R, Bonita R, Kjellstrom T. Epidemiología básica. Washington, D.C.: OPS; 1994. 6. Moschetti E, Ferrero S, Palacios G, Ruiz M. Introducción a la Estadística para las Ciencias de la Vida. Editorial Fundación UNRC; 2000. 7. Ríus Díaz F, Barón Lopez FJ, Sánchez Font E, Parras Guijosa L. Bioestadística: Métodos y Aplicaciones. Facultad de Medicina, Universidad de Málaga. Disponible en http://www.bioestadistica.uma.es/libro/ 8. Bordón LG. Estadística aplicada a Ciencias de la Salud. Una herramienta para la Investigación. 5ta ed. Córdoba: LG Bordón Ed. 1999. 9. Canavos GC. Probabilidad y Estadística. Aplicaciones y métodos. México, D.F.: McGraw‐Hill; 1988. 10. Blanch N, Joekes S. Curso de Estadística aplicada a la Investigación. Departamento de Educación a Distancia, Facultad de Ciencias Económicas, UNC. 8va. Ed. Córdoba: UNC; 2005. 11. Di Rienzo JA, Casanoves F, Gonzalez LA et al. Estadística para las Ciencias Agropecuarias. 6ta ed. Córdoba: Ed. Brujas.2005.

68

ESTADÍSTICA Y BIOESTADÍSTICA

MÓDULO 3 PROBABILIDAD

69

70

INTRODUCCIÓN En general el término probabilidad es asociado, en la vida cotidiana, a una medida de nuestra confianza o posibilidad de ocurrencia de un evento futuro.1‐2 En estadística podemos decir que la probabilidad nos brinda las herramientas para el estudio de fenómenos aleatorios, es decir, aquellos cuyos resultados no se pueden predecir con certeza. En este módulo intentaremos precisar e interpretar su concepto, entender cómo se mide e ilustrar el uso de la probabilidad en la inferencia estadística. ALGUNAS NOCIONES BÁSICAS EN PROBABILIDAD Antes de definir formalmente la probabilidad es necesario introducir algunas nociones básicas relacionadas, como lo son el concepto de experimento aleatorio, evento aleatorio y espacio muestral. En primer lugar diremos que un experimento es el proceso mediante el cual se lleva a cabo una observación.1 Entonces, Un experimento aleatorio es un proceso cuyo resultado no se puede predecir.3 Se pueden mencionar como ejemplos el lanzamiento de un dado o una moneda, el cálculo de la cantidad de bacterias/cc en una porción de alimento procesado, entre otros.1 Cuando se efectúa un experimento se puede obtener uno o varios resultados posibles. El conjunto de todos los resultados posibles de un experimento aleatorio se denomina espacio muestral. Lo denotaremos con Ω (omega). Así, para el experimento aleatorio “lanzar una moneda”, los resultados posibles serán sacar cara (C) o cruz (X). El espacio muestral en este ejemplo será: Ω1 = {C, X} Si el experimento consistiera en “lanzar dos monedas”, el espacio muestral asociado sería ahora: Ω2 = {(C,C), (X,X), (C,X), (X,C)} 71

Obsérvese que, si lo analizamos desde la teoría de los conjuntos, cada conjunto Ω puede descomponerse en determinada cantidad de elementos que lo componen: 2 elementos para Ω1 y 4 para Ω2. Cada uno de los elementos del conjunto Ω se denomina punto muestral. La cantidad de elementos o puntos muestrales que conforman un Ω puede calcularse como r n, siendo n las repeticiones de un determinado experimento y r el número de resultados posibles. En el caso anterior, para Ω1 el número de puntos muestrales será 21 = 2, y para Ω2 será 22 = 4. Sobre un experimento aleatorio se pueden definir a su vez diferentes eventos aleatorios. Dado un espacio muestral Ω, se llama evento a cualquier subconjunto de Ω. Se utilizará para denotar un evento una letra mayúscula (A, B, C, etc). Así, podríamos decir que un evento es un conjunto (incluido en Ω) formado por algunos de los resultados posibles de un experimento aleatorio. Por ejemplo para el experimento de lanzar dos monedas, antes mencionado, algunos eventos relacionados serían: A: Observación de dos caras. B: Observación de una cara y una cruz. Se denominan eventos mutuamente excluyentes a aquellos que no pueden darse simultáneamente. En otras palabras, decimos que dos eventos A y B de un espacio muestral Ω son mutuamente excluyentes si no contienen elementos en común, o sea si la intersección de A y B es un conjunto vacío.4 En símbolos: A B = Por ejemplo, dado los eventos A y B mencionados, para el lanzamiento de dos dados: A= {CC} y B= {(CX), (XC)}

72

Puede observarse que A y B no tienen elementos en común, y por ende, son eventos mutuamente excluyentes.

DEFINICIONES DE PROBABILIDAD La definición formal de probabilidad se enuncia, en el campo de la Estadística, desde tres enfoques: • Definición clásica de probabilidad • Definición frecuencial de probabilidad • Definición axiomática de probabilidad

DEFINICIÓN CLÁSICA DE PROBABILIDAD: La probabilidad de que ocurra un evento A, denotada como P(A), es igual a la cantidad de resultados favorables (m) a dicho evento, sobre el total de resultados posibles (n) del experimento en cuestión. En símbolos: P(A) = m / n Esta definición se aplica a los casos en que el espacio muestral es finito (posee un número definido de elementos) y en que todos los resultados del experimento son igualmente posibles (es decir, son equiprobables). Ejemplo 1. Supongamos que observamos el sexo de nacimiento en una pareja de mellizos. Se define el evento A: “Ambos mellizos tienen el mismo sexo”. Denotaremos como F al sexo femenino y M al masculino. El espacio muestral Ω para este experimento estaría conformado por los siguientes 4 resultados posibles: Ω = {(F,M), (M,F), (F,F), (M,M)} Por otra parte, el evento A de interés posee dos puntos muestrales: A = {(F,F), (M,M)} Luego, P(A) = resultados favorables al evento A / resultados posibles en Ω = 2 / 4 = 0,5

73

Podemos decir que la probabilidad de que ambos mellizos tengan el mismo sexo es de 0,5. DEFINICIÓN FRECUENCIAL DE PROBABILIDAD: En muchas situaciones prácticas, los posibles resultados de un experimento no son igualmente probables. En ese caso, no es correcto estimar la probabilidad mediante la definición clásica. En su lugar, se emplea la interpretación de la probabilidad como una frecuencia relativa. Esta definición descansa en la idea de que si un experimento se efectúa y se repite muchas veces, bajo las mismas condiciones, la probabilidad de un evento en particular puede asimilarse a la frecuencia relativa.2,5 De hecho, la experiencia indica que la frecuencia relativa tiende a estabilizarse para grandes valores de n. El concepto frecuencial de probabilidad puede ser enunciado entonces como sigue: Si A es un evento y nA es el número de veces que A ocurre en N repeticiones independientes del experimento, la probabilidad del evento A, se define como nA/N para un N lo suficientemente grande.4 En símbolos: P(A) = nA/N Ejemplo 2. Considérese la observación de las cualidades organolépticas de un alimento en una fábrica un experimento aleatorio. Se define el siguiente evento: A = “Observar un alimento con cualidades organolépticas adecuadas”. Si se observan 1000 alimentos (se repite 1000 veces el experimento, o sea N=1000), bajo condiciones uniformes, y se encuentran 900 alimentos con adecuadas cualidades organolépticas (nA = 900), se dice que la probabilidad de observar un alimento con cualidades organolépticas adecuadas está dada por: P(A) = 900/1000 = 0,90

DEFINICIÓN AXIOMÁTICA DE PROBABILIDAD: La definición axiomática de probabilidad sólo establece las condiciones (axiomas) que debe cumplir una probabilidad. Así, para cada evento A en un determinado espacio muestral Ω, asignamos un número denominado probabilidad de A, al cual denotaremos como P(A), de tal manera que se cumplen los siguientes axiomas: 1 Axioma 1: P(A) ≥ 0 74

Axioma 2: P(Ω) = 1 Axioma 3: Si A1, A2, A3, ... forman una sucesión de eventos mutuamente excluyentes, entonces: P(A1 U A2 U A3 U ...) = ∑ P(Ai) El símbolo U implica la unión o suma de eventos. De estos tres axiomas se deduce algunas características importantes de la probabilidad, como las que siguen: • La probabilidad es un número entre cero y uno, • La probabilidad de Ω (total de resultados posibles) es siempre uno. • Si no hay ningún resultado en común entre dos eventos A1 y A2, la probabilidad de que ocurra A1 o A2 es igual a la probabilidad de que ocurra A1 más la probabilidad de que ocurra A2.6 A continuación se demuestran algunas derivaciones de la aplicación de los axiomas enunciados.

PROBABILIDAD DEL SUCESO SUMA, COMPLEMENTO Y PRODUCTO En probabilidad es posible enunciar algunas leyes que permiten determinar, por ejemplo, las probabilidades de las uniones o intersecciones de eventos. Se presenta a continuación el cálculo del suceso suma, complemento y producto, basado en dichas leyes o reglas de probabilidades. PROBABILIDAD DEL SUCESO SUMA Sea Ω un espacio muestral que contiene a dos eventos cualquiera A y B, entonces la probabilidad de la suma de estos dos eventos es: P(A U B) = P(A) + P(B) – P(A B) Esta fórmula se aplica a eventos no mutuamente excluyentes (es decir, que presentan elementos en común). En el caso de calcular la probabilidad de la suma para dos eventos mutuamente excluyentes, donde A B = (o sea toma valor cero), la fórmula a aplicar se reduce a: P(A U B) = P(A) + P(B)

75

Considérese que A U B significa que, al efectuar un experimento, aparece el evento A o el evento B o ambos (A B), donde el término "o" indica la operación matemática de la suma.2 Ejemplo 3. En un ejercicio de promoción de una nueva bebida se ofrece a un sujeto dos vasos con diferente contenido (bebida 1 y 2, denotadas como B1 y B2). Si debe elegir una bebida al azar en dos oportunidades, ¿cuál es la probabilidad de que elija la primera vez o la segunda o ambas la bebida 2? A este ejemplo corresponde el siguiente espacio muestral Ω: Ω= { (B1,B1); (B1,B2); (B2,B1); (B2,B2) } Lo que se pide en el enunciado es la probabilidad de la unión de los eventos A y B, los cuales se definen como: A: Elegir la bebida 2 (B2) la primera vez B: Elegir la bebida 2 (B2) la segunda vez Estos eventos no son mutuamente excluyentes, luego la probabilidad de la unión será igual a la suma de las probabilidades de A y B menos la probabilidad de la intersección. Entonces: P(A U B) = P(A) + P(B) – P(A B) P(A U B) = 2/4 + 2/4 – 1/4 P(A U B) = 0,75 La probabilidad de que el sujeto elija la primera vez o la segunda o ambas la bebida 2 es de 0,75.

PROBABILIDAD DEL SUCESO COMPLEMENTO Otro resultado útil esta dado por la relación entre la probabilidad de un evento y su complemento (es decir aquel evento que ocurre siempre que no lo hace A).6 Si A es un evento complementario de A, entonces: P(A) = 1 – P( A )

76

Adviértase que el espacio muestral Ω = A U A . El resultado se infiere de considerar que A y A son dos eventos mutuamente excluyentes, y que P(Ω) = 1, como lo enuncia el axioma correspondiente. Ejemplo 4. Se desea calcular la probabilidad de contraer una determinada enfermedad en una determinada región geográfica, sabiendo que la probabilidad de no contraerla es de 0,95. Así, siendo el evento A= {contraer la enfermedad}, entonces su complemento es A = {no contraer la enfermedad}, con probabilidad conocida P( A ) = 0,95.

Luego, P(A) = 1 – P( A ) P(A) = 1 – 0,95 P(A) = 0,05 Podemos afirmar que la probabilidad de contraer la enfermedad en esa región es de 0,05.

PROBABILIDAD DEL SUCESO PRODUCTO Antes de presentar la probabilidad del suceso producto, es necesario conocer el concepto de probabilidad condicional y eventos independientes. PROBABILIDAD CONDICIONAL: La probabilidad condicional de un evento A, suponiendo que ocurrió el evento B, es igual a: P( A B) =

P( A ∩ B) P( B)

siempre y cuando P(B) > 0. El símbolo P ( A B ) se lee: probabilidad de A dado B.1 Ejemplo 5. Supongamos que se lanza un dado una vez. Se definen los siguientes eventos A y B, y se desea determinar la probabilidad de A dado que ocurrió el evento B. A: Observación de un 1. B: Observación de un número impar.

77

El espacio muestral correspondiente a este experimento sería: Ω = {1, 2, 3, 4, 5, 6} A∩ B implica que se observe un 1 y un número impar.

Si observamos el espacio muestral comprobamos que la probabilidad de que ocurra simultáneamente el evento A y el evento B es 0,17 dado que: P( A ∩ B) = 1/6 = 0,17 La probabilidad de que ocurra el evento B, o sea de observar un número impar es: P ( B ) = 3/6 = 0,50 Luego: P( A B) =

P ( A ∩ B ) 0,17 = = 0,34 P( B) 0,50

Concluimos que la probabilidad de que salga un 1, dado que ya se obtuvo un número impar es 0,34. EVENTOS INDEPENDIENTES: Se dice que dos eventos A y B son independientes si cumplen cualquiera de las siguientes condiciones: P( A B) = P( A) P( B A) = P( B) P( A ∩ B) = P( A) ⋅ P( B)

Si no se cumplen, se dice que los eventos son dependientes.1 Ejemplo 6. Considere los siguientes eventos relacionados con el lanzamiento de un dado: A: Observación de un número impar. B: Observación de un número par. Como se mencionó anteriormente, el espacio muestral Ω para este ejemplo estaría conformado por los siguientes resultados posibles: Ω = {1, 2, 3, 4, 5, 6} 78

Para decidir si A y B son independientes debemos analizar si satisfacen las condiciones anteriores. Vemos que: P(A) = 3/6 = 0,50 P(B) = 3/6 = 0,50 Como A ∩ B = ; P( A B) = 0, entonces resulta evidente que P( A B) ≠ P( A) . Tampoco se cumple la igualdad: P( A ∩ B) = P( A) ⋅ P( B) , dado que A ∩ B = 0 y el producto de las probabilidades del evento A y B = 0,50 . 0,50 = 0,25. Decimos entonces que los eventos A y B son eventos dependientes. PROBABILIDAD DEL SUCESO PRODUCTO: A partir de la propiedad multiplicativa de la probabilidad se enuncia que la probabilidad de la intersección de dos eventos A y B, si son eventos independientes, es: P ( A ∩ B ) = P( A) ⋅ P ( B )

B significa que, al efectuar un experimento, aparece el Considérese que A evento A y el evento B, donde el término "y" indica la intersección.1 Ejemplo 7. Supóngase que el evento A= ocurrencia de la enfermedad A, y el evento B= ocurrencia de la enfermedad B. Si ambos son eventos independientes y se conoce que: P(A) = 0,2 P(B) = 0,3 Se desea calcular la probabilidad de ocurrencia de ambas enfermedades conjuntamente. Esto es, la probabilidad de la intersección: P(A B). Entonces, P ( A ∩ B ) = P( A) ⋅ P ( B ) P ( A ∩ B ) = 0,2 ⋅ 0,3 = 0,06

La probabilidad de la intersección, o sea de la ocurrencia simultánea de la enfermedad A y B, es de aproximadamente 0,1.

79

TEOREMA DE BAYES Si A1,A2, ...,An son n eventos mutuamente excluyentes, de los cuales uno debe ocurrir, es decir que ∑ (Ai) = 1, entonces

P ( Ai B ) =

P ( Ai ) ⋅ P ( B Ai ) P ( Ai ) ⋅ P ( B Ai ) + P ( A j ) ⋅ P ( B A j )

Se observa que el teorema de Bayes permite calcular la probabilidad condicional de An dada la ocurrencia de un evento B, teniendo la probabilidad condicional inversa. En otras palabras, este teorema vincula la probabilidad de A dado B con la probabilidad de B dado A. Veamos la aplicación de la fórmula con el siguiente ejemplo. Ejemplo 8. Existe evidencia científica que sugiere que el consumo frecuente de café está asociado al desarrollo de cierta patología intestinal. Supóngase que en un grupo de pacientes bajo estudio se conoce que la proporción de consumidores de café es de 0,45. ¿Cuál es la probabilidad de que un paciente con la patología intestinal, seleccionado al azar, sea consumidor frecuente de café? Se sabe además que la probabilidad de presentar la enfermedad (llámese P del evento B), dado que se consume café es 0,90 mientras que la probabilidad de presentar la enfermedad puesto que no se consume café es de 0,05. Si se elige un paciente al azar, el espacio muestral para este caso sería la unión de los sucesos Ai= {que el paciente consuma café} y Aj= {que el paciente no consuma café}. Se deduce del enunciado las probabilidades para estas dos alternativas: P (Ai ) = 0,45

P (Aj ) = 0,55 Sabíamos que: P ( B Ai )

= 0,90

P( B A j )

= 0,05

Se desea determinar la probabilidad de seleccionar un paciente que consuma café, puesto que presenta la enfermedad intestinal, o sea P ( Ai B) . Del teorema de Bayes se tiene: 80

P( Ai B) =

P( Ai ) ⋅ P( B Ai ) P( Ai ) ⋅ P( B Ai ) + P( A j ) ⋅ P( B A j )

Luego, P( Ai B) =

0,45 ⋅ 0,90 0,45 ⋅ 0,90 + 0,55 ⋅ 0,05

P( Ai B) = 0,94

La probabilidad de que un paciente con la patología intestinal de interés, seleccionado aleatoriamente, sea consumidor frecuente de café es de 0,94.

CONCEPTO DE VARIABLE ALEATORIA En todo proceso de observación o experimento podemos definir una variable aleatoria asignando a cada resultado un número.6 Una variable aleatoria es una función que asocia a cada elemento de un espacio muestral Ω un número real.4 Diremos que una variable aleatoria es discreta si el número de valores que puede tomar es contable (ya sea finito o infinito), y si estos corresponden a números enteros positivos.5 Estas variables corresponden a experimentos en lo que se cuenta el número de veces que ha ocurrido un suceso.6 Por ejemplo: número de latas vencidas, número de personas con cierta patología, número de lotes dañados, cantidad de células infectadas, etc. Diremos que una variable aleatoria es continua si puede tomar cualquier valor en un intervalo. Por ejemplo, el peso de una persona, el tiempo de duración de un suceso, etc.6 Ejemplo 9. Supongamos que en un control bromatológico se observa la contaminación de un determinado producto alimentario, observando tres unidades del producto en un orden determinado. Así, cada unidad puede estar contaminada (C) o no contaminada (N).

81

El espacio muestral de este experimento será: Ω = { (CCC); (CCN); (CNC); (NCC); (CNN); (NNC); (NCN); (NNN)} Si definimos la variable aleatoria X como el número de unidades contaminadas, podemos asignar a cada resultado posible un valor numérico: CCC = 3 CCN = 2 CNC = 2 NCC = 2 CNN = 1 NNC = 1 NCN = 1 NNN = 0 Es decir que la variable aleatoria número de unidades contaminadas puede tomar valores 0, 1, 2 ó 3, quedando conformado su correspondiente espacio muestral como sigue: Ω = { 3, 2, 2, 2, 1, 1, 1, 0} Asumiendo igual probabilidad para cada punto muestral, tenemos que: P(X=0) = 1/8 = 0,125 P(X=1) = 3/8 = 0,375 P(X=2) = 3/8 = 0,375 P(X=3) = 1/8 = 0,125 Diremos que se ha construido un modelo de distribución de probabilidad cuando se especifican los posibles valores de la variable con sus respectivas probabilidades,6 como lo muestra el siguiente gráfico:

82

P 0,4 0,3 0,2 0,1 0 0

1

2

3 X

Figura 1. Distribución de probabilidad de la variable aleatoria X. VARIABLES ALEATORIAS DISCRETAS : FUNCIONES DE PROBABILIDAD Y DE DISTRIBUCIÓN

En general, una variable aleatoria discreta X representa los resultados de un espacio muestral en forma tal que por P (X= x) se entenderá la probabilidad de que la variable X tome un valor específico x. De esta forma, al considerar los valores de una variable aleatoria es posible desarrollar una función matemática que asigne una probabilidad a cada posible valor x de la variable aleatoria X. Esta función recibe el nombre de función de probabilidad de la variable aleatoria X.5 Se denota como p(x). El término más general, distribución de probabilidad, se refiere a la colección de valores de la variable aleatoria y a la distribución de probabilidades entre estos5, representada por ejemplo a través de una fórmula, tabla o gráfica, como se muestra en la Figura 1. Cualquier distribución de probabilidades discreta debe satisfacer las siguientes propiedades:1 • 0 ≤ p(x) ≤ 1 para todos los valores x de X • ∑x p(x) = 1 Esto indica que la p(x) en el caso discreto adopta siempre valores entre 0 y 1, y que la sumatoria de las probabilidades para todos los valores posibles de x es igual a 1. Se observa que es posible también la existencia de una función de distribución acumulada de X, denotada como F(x). Decimos que la función de distribución acumulada en un valor x es la probabilidad de que la variable aleatoria X tome un valor menor o igual al valor específico x. 83

Siguiendo con el ejemplo anterior (Ejemplo 9), se representa en la siguiente tabla los posibles valores de la variable aleatoria X= número de unidades contaminadas, la distribución de probabilidad de la variable en la segunda columna y la función de distribución acumulada F(x) en la tercera: x 0 1 2 3

p(x) 0,125 0,375 0,375 0,125

F(x) 0,125 0,500 0,875 1

Vemos que esta función F(x) acumula probabilidades de una manera semejante a la columna de las frecuencias acumuladas en una tabla de frecuencias. Así, siendo que la variable X toma los valores posibles x0 ≤ x1 ≤ x2 ≤ x3, la función de distribución acumulada viene definida por: F(x0) = P (x ≤ x0) = p(x0) F(x1) = P (x ≤ x1) = p(x0) + p(x1) F(x2) = P (x ≤ x2) = p(x0) + p(x1) + p(x2) F(x3) = P (x ≤ x3) = p(x0) + p(x1) + p(x2) + p(x3)

VARIABLES ALEATORIAS CONTINUAS : FUNCIÓN DE DENSIDAD DE PROBABILIDAD

Se ha mencionado en el apartado anterior que en el caso discreto se asignan probabilidades a todos los valores puntuales de la variable aleatoria. Para el caso continuo, esto no es posible: la probabilidad de que una variable aleatoria continua tome un valor específico es cero. Por lo tanto, en variables continuas se debe visualizar las probabilidades de intervalos en lugar que de puntos en particular.5 La distribución de probabilidad de una variable aleatoria continua X está caracterizada por una f(x) que recibe el nombre de función de densidad de probabilidad. Esta función f(x) no es la misma función de probabilidad que para el caso discreto, dado lo planteado anteriormente (imposibilidad de representar la probabilidad de X = x como en el caso discreto). Más bien, ésta proporciona un medio para determinar la probabilidad de un intervalo (a ≤ X ≤ b). 5 Supongamos ahora que representamos las medidas obtenidas para una variable continua (longitud, tiempo, peso, etc) en un histograma; es razonable admitir y se ha 84

comprobado que q tomand do más y más m observvaciones (d disminuyen ndo indefin nidamentee el an ncho de cada intervalo) el histo ograma ten nderá a unaa curva suaave que de escribirá ell 6 comportamien nto de la vaariable estu udiada.

Figu ura 2. Histo ograma y función f de densidad La fu unción f(x)), cuya gráfica es la curva c límitte mencion nada, repreesenta la función f dee denssidad de prrobabilidad d para una variable aleatoria co ontinua X, d de modo que q el áreaa 5 total bajo la cu urva es siempre igual a uno. Así, A la probabilidad dee cualquier intervalo o 6 vend drá dada por el área que q f(x) en ncierra en ese e intervaalo. Al iggual que en n el caso de d una varriable aleattoria discreeta, la función de diistribución n acum mulada de una variable aleatorria continu ua X es la probabilida p ad de que X tome un n valor menor o igual a algún valor x específicco. En el caso c contin nuo, verem mos que laa funcción de disstribución acumulada a a F(x) es el área bajo o la curva de densid dad que see encu uentra a la izquierda de ese valor (en la re ecta X de la gráfica, ccomo se ilu ustra en laa siguiiente Figurra 3).

Fiigura 3. Distribución dee probabilid dad acumula ada para un na variable aleatoria co ontinua, ilustrrada como un u área bajo o la curva de d densidad d.

85

ESPERANZA MATEMÁTICA Y VARIANZA DE UNA VARIABLE ALEATORIA La distribución de una variable aleatoria puede ser descripta mediante medidas numéricas características (de tendencia central y de dispersión), de manera análoga a lo ya descripto en el Módulo 2. Entre las medidas de tendencia central, la más utilizada es la media, (μ), llamada ahora esperanza matemática, E(x), de la variable aleatoria. Esta a su vez es frecuentemente asociada a una medida de dispersión, la varianza. La esperanza o valor esperado de una variable aleatoria es la sumatoria de cada posible valor de la variable por su probabilidad. La varianza, en términos generales, representa las desviaciones entre los valores de la variable aleatoria con respecto a su esperanza (al cuadrado), multiplicado por su probabilidad. En el caso de una variable aleatoria discreta, la esperanza está dada por: E(x) = ∑ xi . p(xi) donde x1, x2, ..., xn son los posibles valores de la variable, y sus probabilidades están representadas por el término p(xi). Como ya fue mencionado, a esta medida de tendencia central se le asocia la varianza, definida para variables discretas como: Var(X) = ∑ [xi – E(x)]2 . p(xi) Para calcular la esperanza y varianza de una variable aleatoria continua se debe recurrir a un operador matemático conocido como integral y la función de densidad f(x). Dado que la aplicación de la integral requiere conocimientos más elevados que los que se pretende para el desarrollo de esta asignatura, no expondremos el cálculo de estas dos medidas para variables aleatorias continuas. Sin embargo, es preciso destacar que conceptualmente tienen el mismo significado que las calculadas para variables aleatorias discretas.

86

DISTRIBUCIONES DE PROBABILIDAD En el campo de la estadística se han descripto algunas distribuciones específicas de probabilidad que han demostrado, empíricamente, ser modelos útiles para diversos problemas prácticos. En tales distribuciones, sus funciones de probabilidad o de densidad se deducen matemáticamente.5 Así, una distribución teórica presenta características distintivas; sus probabilidades están dadas por una ley matemática conocida (una ecuación o función),7 lo cual permitirá adoptarla como modelo para la resolución de un problema práctico. Esto es de gran utilidad en investigación dado que, por lo general, los investigadores no conocen la función matemática que describe a la variable aleatoria que estudian, por lo que suelen proceder a recolectar datos y a partir de ellos buscar la distribución teórica que mejor describe la o las variables en estudio, para así poder asignar probabilidad a los eventos de interés a partir de la misma. A continuación se presentarán las distribuciones de probabilidad frecuentemente utilizadas en el campo de la salud: • para variables discretas: Binomial y Poisson • para variables continuas: Normal, t de Studen, Chi‐cuadrado

más

Para una mejor comprensión de los contenidos a desarrollar es necesario tener presente que cada una de estas distribuciones teóricas de probabilidad está caracterizada, de manera general, por una o más cantidades que reciben el nombre de parámetro de la distribución, el cual puede tomar cualquier valor de un conjunto dado.5

DISTRIBUCIONES DE PROBABILIDAD PARA VARIABLES DISCRETAS DISTRIBUCIÓN BINOMIAL: En salud, como en otras áreas, algunos experimentos consisten en la observación de una serie de experimentos idénticos e independientes, cada uno de los cuales puede generar uno de dos resultados1: la ocurrencia (llámese “éxito”) o no ocurrencia (llámese “fracaso”) de un evento. Por ejemplo, cada una de las n personas entrevistadas presenta o no hábitos alimentarios saludables, realiza o no actividad física regular, tiene o no cobertura de salud, contrajo o no contrajo cierta enfermedad. En estos casos, la variable aleatoria X representa el número de éxitos en 87

los n ensayos, y el interés está en determinar la probabilidad de obtener exactamente X = x éxitos durante los n ensayos.5 Esta clase de experimentos recibe el nombre de binomiales y sus características se pueden resumir de la siguiente manera: 1. El experimento consta de un número determinado, n, de ensayos idénticos e independientes. 2. Cada ensayo tiene dos resultados posibles: éxito ó fracaso. 3. La probabilidad de tener éxito en un ensayo es igual a un valor p y la probabilidad de un fracaso es igual a q = 1 – p. Estas probabilidades permanecen constantes de un ensayo a otro. 4. La variable aleatoria bajo estudio es igual al número de éxitos observados en n ensayos.1 En consecuencia, para determinar si un experimento es binomial es necesario examinar si reúne las mencionadas características. De ser así, el investigador podrá seleccionar la distribución binomial para explicar el comportamiento de la variable discreta bajo estudio. Así, siendo n el número de ensayos u observaciones, p la probabilidad de éxito (y en consecuencia 1 – p la probabilidad de fracasos, o sea q), una variable X con distribución binomial se caracteriza por presentar esperanza (E) y varianza (V) igual a: E[X] = np V[X] = npq La distribución binomial se define por los parámetros n y p, y presenta la siguiente función de probabilidad:

P( x) =

n! n− x ⋅ p x (1 − p ) ( n − x )! x!

Llamamos P(x) a la probabilidad de x éxitos, y x al número de éxitos en la muestra (para x = 0, 1, 2, ..., n). La aplicación de esta ecuación permitirá al investigador calcular la probabilidad de obtener exactamente x éxitos al realizar sus n pruebas aleatorias binomiales. Veamos el siguiente ejemplo. Ejemplo 10. Supóngase que se seleccionan aleatoriamente 10 sujetos adultos y se registra el evento “fuma” o “no fuma”, después de un año de implementación de un determinado programa anti‐tabaco en una región, asegurándose que las respuestas 88

son independientes. Si se sabe que la probabilidad de fumar es igual a 0,25 entonces, ¿cuál será la probabilidad de que 7 de los 10 adultos sean fumadores? Del problema planteado podemos extraer los siguientes datos: x=7 n = 10 p = 0,25 Así, reemplazando los mismos en la ecuación anterior obtenemos:

P( x) =

P (7 ) =

n! n− x ⋅ p x (1 − p ) (n − x)! x!

10! 10 − 7 ⋅ 0,25 7 (1 − 0,25 ) (10 − 7 )!7!

P (7 ) =

3628800 ⋅ 0,000061 ⋅ 0,422 30240

P(7) = 0,0031 Se concluye que la probabilidad de que 7 de los 10 adultos sean fumadores es de 0,0031.

DISTRIBUCIÓN POISSON: La distribución Poisson a menudo proporciona un buen modelo de la distribución de probabilidades cuando se observa el número de eventos discretos (de conteo) que se presentan en un intervalo (de tiempo, espacio, volumen o cualquier otra dimensión continua). Así, el número de accidentes automovilísticos en una semana, el número de consultas diarias, el número de nacidos vivos por año, el número de ventas de un producto alimentario en un intervalo de tiempo, el recuento de glóbulos blancos por determinado volumen sanguíneo, el número de internaciones en un mes, son ejemplos de variables aleatorias con una distribución aproximada a la de Poisson. Se dice que una variable aleatoria X tiene una distribución de probabilidad de Poisson si y solo sí

P ( x) =

λx x!

⋅ e−λ

x = 0, 1, 2, ...; λ > 0 89

siendo P(x) la probabilidad de X = x éxitos, λ la media de la distribución (es decir, el número promedio de ocurrencia del evento), x el número de éxitos por unidad (de tiempo, espacio, etc.), y e= 2,71828 el valor de la constante matemática e. Se ha demostrado que si se calcula la esperanza E[X] y la varianza V[X] de una variable aleatoria X con distribución aproximada a la Poisson se obtiene: E[X] =λ

V[X] = λ

Es decir que el valor esperado de la variable y su varianza coinciden. El parámetro que caracteriza a esta distribución es λ, es decir el número promedio de ocurrencia del evento aleatorio por unidad. Cabe destacar que la distribución Poisson ofrece una aproximación excelente a la función de probabilidad binomial cuando el número de elementos observados (n) es muy grande y la probabilidad de observar la característica estudiada en cada elemento es muy pequeña.6 Ejemplo 11. Supóngase que el número de niños que llegan a un centro de vacunación registra una frecuencia promedio de 3 niños por hora. En una hora determinada, calcule la probabilidad de que lleguen exactamente dos niños. El enunciado planteado nos permite establecer que λ = 3 niños por hora, y que x = 2 niños por hora. Sabemos que e es una constante matemática igual a 2,72. Luego,

P( x) =

P(2) =

λx x!

⋅ e−λ

3 2 −3 ⋅ e = 0,2240 2!

La probabilidad de que lleguen exactamente dos niños por hora es de 0,22.

90

DISTRIBUCIONES DE PROBABILIDAD PARA VARIABLES CONTINUAS DISTRIBUCIÓN NORMAL: La distribución normal, también llamada distribución Gaussiana, es de particular interés en el área de las ciencias de la salud ya que gran parte de los fenómenos biológicos y la mayoría de las variables aleatorias continuas en este campo (ej. peso, altura, temperatura, etc.) presentan distribuciones de frecuencias que se pueden aproximar a la distribución teórica normal. Este modelo de distribución normal, con parámetros μ y σ2, presenta la siguiente función de densidad:

f ( x) =

1  1 2 ( ) x µ ⋅ e − −  σ 2π  2σ 2 

La representación gráfica de esta función de densidad (Figura 4) es una curva simétrica que tiene forma de campana, por lo que recibe el nombre de campana de Gauss.

Figura 4. Distribución normal. Representación gráfica de su función de densidad. Algunas características propias de la distribución Normal son las siguientes:2,6,8 • Presenta una curva teórica unimodal, lo cual implica que existe un valor de mayor frecuencia (moda), bien definido. A partir de él, la curva decae hacia ambos lados con una simetría perfecta. Esta simetría hace que a valores situados a igual distancia del valor modal, por izquierda y por derecha de la distribución, les corresponda la misma probabilidad. • Al ser su forma simétrica, media, mediana y moda coinciden.

91

El parám metro med dia (µ) indiica el centro y la varrianza (σ2) la dispersiión o variabiliidad de lo os datos alrededor de d μ. La distancia deel centro a los puntos de inflexió ón de la currva es preccisamente σ2. • Como toda curva de distrib bución de densidad de probab bilidad, el área total bajo la curva normal ess igual a 1. • Se ha co omprobado o que, en toda t distrib bución norrmal, en el intervalo: o μ ± 1 σ se encuentra e e 68,2% de el e las obserrvaciones o μ ± 2 σ se encuentra e e 95,4% de el e las obserrvaciones o μ ± 3 σ se encuentra e e 99,7% de el e las obserrvaciones



Esta última prropiedad, de gran aplicación en e la inferrencia estaadística, puede ilustrarse gráficamente de d la siguiente manerra:

Por ejemplo, e supongamo os que en una u población se conoce que la variable edad e tiene una distribució ón normal con c μ=25 años a y σ 5 años. Podeemos afirm mar entonces que apro oximadameente el 68% % de los ind dividuos de e esa poblaación tieneen entre 20 0 y 30 añoss (μ ± 1 σ, o sea 25 ± 5), el 95% entre 15 y 35 años (μ μ ± 2 σ, o ssea 25 ± 2* *5= 25 ± 10), y el 99,7% % entre 10 y 40 años (μ ± 3 σ, o sea s 25 ± 3**5= 25 ± 15 5). DISTTRIBUCIÓN NORMAL ESTÁNDAR: Paraa calcular probabilida p ades en el caso de distribuciones normalees se debe ería aplicarr la eccuación an ntes preseentada, corrrespondie ente a su función dee densidad d. Dada laa complejidad matemática m a de la mism ma, si se qu uiere cono ocer la prob babilidad de d que unaa variaable norm malmente distribuida d a tome ciertos valo ores, se p puede simplificar su u cálcu ulo mediante una transforma t ación de la l variablee aleatoriaa original x en unaa

92

variable aleatoria normal estándar z. Para ello se debe aplicar un procedimiento llamado estandarización, el cual implica la aplicación de la siguiente fórmula: Z=

donde

X −µ

σ

Z= es la nueva variable estandarizada (obtenida de la transformación) X = es la variable aleatoria original μ= es la esperanza (media) de la distribución de la variable X σ= es el desvío estándar de la distribución de la variable X

La nueva variable Z, obtenida bajo la transformación, presenta una distribución particular que se conoce con el nombre de distribución normal estandarizada, la cual se caracteriza por presentar μ= 0 y σ= 1 (Figura 5). Presenta la gran ventaja de que su función de distribución se encuentra ya tabulada, es decir que se puede recurrir a tablas (ya existentes) que facilitan el cálculo de probabilidades a partir de ellas. Uso de la tabla de distribución de probabilidades normales:

Para entrar a la denominada Tabla de Cuantiles de una Distribución Normal Estándar y buscar las correspondientes probabilidades, debemos en primer lugar transformar la variable original X en una variable estandarizada Z. Es importante considerar que esta tabla está construida considerando probabilidades acumuladas desde ‐∞ hasta un valor particular de la variable Z (a la izquierda del valor deseado).2 En términos generales, para cada columna de la tabla con valores de la variable z corresponde una columna con las probabilidades acumuladas buscadas para cada z, o sea P(Z≤z), que representa el área bajo la curva normal entre ‐∞ y el valor z correspondiente.

Figura 5. Distribución Normal Estandarizada, con μ= 0 y σ= 1 93

Veamos a continuación distintos ejemplos de su aplicación. En general, se pueden presentar tres situaciones: a) Que se desee conocer la probabilidad de que un valor aleatorio de X sea menor que un número x1. En símbolos, esto se denota P(X ≤ x1), ó P(Z < z1) si lo expresamos en término de la variable ya estandarizada (variable Z).

b) Que se desee encontrar la probabilidad de que un valor aleatorio de X sea mayor que un número x1. En símbolos: P(X > x1), ó P(Z >z1).

c) Que se desee calcular la probabilidad de que un valor aleatorio de X caiga en un intervalo (x1, x2). En símbolos: P(x1 < X < x2), ó P(z1 < Z < z2).

94

Ejemplo 12. La variable X= tiempo de cocción de un determinado alimento se distribuye normalmente con media μ= 8 minutos y varianza σ2= 4 minutos. Esto se denota X ~ N(8, 4). Dado que σ2= 4 minutos, entonces se deduce que σ= 2. Se desea conocer: a) la probabilidad de que el tiempo de cocción sea menor a 8,6 min. b) la probabilidad de que el tiempo de cocción sea mayor a 9,5 min. c) la probabilidad de que el tiempo de cocción sea entre 6 y 10 min. Veamos los pasos a seguir para la resolución de cada una de las situaciones planteadas: a) Buscamos la P(X ≤ 8,6). En primer lugar, se debe proceder a la estandarización de la variable X:

Z=

Z=

X −µ

σ

8,6 − 8 = 0,3 2

Habiendo calculado el valor de Z para la X deseada, para conocer la P(X ≤ 8,6), o lo que es igual la P(Z ≤ 0,3), se debe recurrir a la Tabla de Cuantiles de una Distribución Normal Estándar y buscar la probabilidad deseada en el cuerpo de la tabla para z1= 0,3. Luego, la probabilidad buscada: P(Z ≤ 0,3) = 0,62 Se concluye que la probabilidad de que el tiempo de cocción sea menor a 8,6 minutos es de 0,62. 95

b) Buscamos en este caso la P(X > 9,5). Z=

9,5 − 8 = 0,75 2

La P(Z > 0,75) representa un área a la derecha de la curva normal estándar. Dado que, como se mencionó anteriormente, la Tabla presenta probabilidades acumuladas desde ‐∞ hasta el valor buscado de la variable Z (o sea arrastra el área bajo la curva que se encuentra a su izquierda), y sabiendo que el área total bajo la curva es igual a 1, se procede a realizar el siguiente cálculo: P(Z > 0,75) = 1 – 0,77337 = 0,22663 Nótese que 0,77337 es la probabilidad acumulada que aparece en Tabla para z1=0,75. Así, la probabilidad de que el tiempo de cocción sea mayor a 9,5 minutos es de 0,23. c) Finalmente buscamos la P(6 < X < 10). Debemos estandarizar ambos valores de X: Z1 =

6−8 = −1 2

Z2 =

10 − 8 =1 2

Según la Tabla, la probabilidad acumulada para z1 = ‐1 es 0,15866 y para z2 = 1 es 0,84134. Considerando nuevamente que las probabilidades provistas por la Tabla Normal Estándar son acumuladas desde ‐∞ hasta los valores de interés, debemos restar a la probabilidad de z2 el valor de probabilidad correspondiente a z1. Así, P(‐1 < Z < 1) = 0,84134 – 0,15866 = 0,68268 Decimos que la probabilidad de que el tiempo de cocción tome valores entre 6 y 10 es de 0,68.

96

DISTRIBUCIÓN CHI-CUADRADO: La distribución Chi‐cuadrado ( χ 2 ), también llamada χ 2 de Pearson, es una herramienta de análisis muy utilizada en la ciencia actual.6 Se la relaciona con la distribución de la varianza muestral, como se verá en módulos más avanzados de la materia. Una manera de definir variables aleatorias chi‐cuadrado es a partir de variables aleatorias normales estándar.4 Supongamos que generamos n variables aleatorias independientes normales con media cero y varianza igual a 1, y definimos la siguiente operación:6

χ 2 = z12 + z 22 + ... + z n2 Es decir, elevamos los n valores generados al cuadrado y los sumamos. Si aplicamos este procedimiento muchas veces, obtendremos la distribución de una variable que solo depende del número de sumandos. Esta distribución se denomina χ 2 con n grados de libertad, la cual presenta forma asimétrica, con esperanza E[ χ 2 ]= n y varianza Var[ χ 2 ]= 2n. Para el cálculo de probabilidades en una distribución Chi‐cuadrado se puede consultar la Tabla de Cuantiles de la Distribución Chi‐Cuadrado. Se ingresa a la misma por el margen izquierdo a través de los v grados de libertad. Los valores x de la variable aleatoria X figuran en el cuerpo de la tabla, y en el margen superior se lee la P( χ ≤ x). Es decir que, al igual que en el caso de la distribución normal estandarizada, esta tabla acumula valores de probabilidad hacia la izquierda del valor buscado. 2

2 Ejemplo 13. Dada una variable X con distribución χ y 13 grados de libertad. ¿Cuál es la probabilidad de que x ≤ 22,4?

De acuerdo a este enunciado se extrae la siguiente información: v= 13

x ≤22,4

La P( χ ≤ x) buscada es P( χ ≤22,4) 2

2

Ingresamos a la Tabla correspondiente por sus grados de libertad v=13, en margen izquierdo superior. Buscamos en el cuerpo de la Tabla el valor 22,4 siguiendo la línea correspondiente a v=13. Leemos la P( χ ≤ x) buscada en el encabezado de la columna 2

para ese valor x=22,4. Vemos que la P( χ ≤22,4)= 0,95. 2

97

Para el ejemplo planteado, decimos entonces que la probabilidad de que X asuma valores menores o iguales a 22,4 es de 0,95.

DISTRIBUCIÓN T DE STUDENT: Dada una variable X con media μ y varianza poblacional desconocida, se puede estimar el valor de una variable aleatoria T a partir de los datos de una muestra como sigue:

    X −µ  T=  s     n  donde

X = media muestral

μ = media poblacional S = desvío estándar muestral n = tamaño muestral Esta variable T tiene una distribución conocida como distribución T de Student con n‐1 grados de libertad. La misma se caracteriza por un único parámetro conocido como grados de libertad (correspondiente al número de observaciones de la muestra menos 1),4 y por presentar forma simétrica con mayor dispersión que la distribución normal estándar. Cuando el n es mayor o igual a 100 la distribución T de Student se aproxima a la normal.6 De todo lo expuesto se deduce que es un modelo particularmente útil cuando queremos calcular probabilidades respecto de una variable aleatoria continua, cuando el tamaño muestra es relativamente pequeño (n <100) y se desconoce la varianza poblacional. Para el cálculo de probabilidades también en este caso contamos con información ya tabulada en la denominada “Tabla T” ó “Tabla de Cuantiles de la Distribución T”, la cual también acumula valores de probabilidad hacia la izquierda del punto seleccionado. Se ingresa a la misma con los grados de libertad (n‐1). Los valores en el cuerpo de la tabla son los valores de la variable t. En el margen superior e inferior figuran las probabilidades correspondientes para valores t positivos (en tal caso, se observan las probabilidades arriba) o negativos (se buscan las P abajo), respectivamente.

98

Ejemplo 14. Dada una variable aleatoria con distribución t de Student con 11 grados de libertad, se desea calcular la P(t ≤ ‐ 0,697). Ingresando a la Tabla T con 11 grados de libertad (por margen izquierdo), buscamos en el cuerpo de la tabla el valor t correspondiente desplazándonos hacia la derecha hasta encontrar el valor buscado= ‐ 0,697. Como en este caso nos interesa un valor t negativo, encontrado el valor 0,697 debemos observar su probabilidad correspondiente en el margen inferior de la tabla. Luego, P(t ≤ ‐ 0,697) = 0,25 con 11 grados de libertad.

99

BIBLIOGRAFÍA - MÓDULO 3

1. Wackerly DD, Mendenhall W, Scheaffer R. Estadística matemática con aplicaciones. 6ta ed. México, D.F.: International Thompson Ed.; 2002. 2. Blanch N, Joekes S. Curso de Estadística aplicada a la Investigación. Departamento de Educación a Distancia, Facultad de Ciencias Económicas, UNC. 8va. Ed. Córdoba: UNC; 2005. 3. Moschetti E, Ferrero S, Palacios G, Ruiz M. Introducción a la Estadística para las Ciencias de la Vida. Editorial Fundación UNRC; 2000. 4. Di Rienzo JA, Casanoves F, Gonzalez LA et al. Estadística para las Ciencias Agropecuarias. 6ta ed. Córdoba: Ed. Brujas.2005. 5. Canavos GC. Probabilidad y Estadística. Aplicaciones y métodos. México, D.F.: McGraw‐Hill; 1988. 6. Peña D. Fundamentos de Estadística. Madrid: Alianza Editorial; 2001. 7. Bordón LG. Estadística aplicada a Ciencias de la Salud. Una herramienta para la Investigación. 5ta ed. Córdoba: LG Bordón Ed. 1999. 8. Ríus Díaz F, Barón Lopez FJ, Sánchez Font E, Parras Guijosa L. Bioestadística: Métodos y Aplicaciones. Facultad de Medicina, Universidad de Málaga. Disponible en http://www.bioestadistica.uma.es/libro/

100

ESTADÍSTICA Y BIOESTADÍSTICA

MÓDULO 4 INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

101

102

INFERENCIA ESTADÍSTICA Y MUESTREO Para el estudio de una o más características de una población dada (de tamaño N) muchas veces es inviable obtener información de todos los elementos que la componen, por cuestiones económicas o de tiempo. La selección de un subconjunto representativo de elementos, es decir de una muestra representativa (de tamaño n), mediante un procedimiento de muestreo apropiado garantiza resultados similares a los que se obtendrían del estudio exhaustivo de todos los elementos de la población, pero obtenidos con mayor rapidez y menor costo. Es así que la inferencia estadística implica extraer conclusiones sobre características de la población (por ejemplo, sobre medias, proporciones o varianzas de variables de interés) con base en el estudio de solamente una parte de la población, o sea, basándonos en una muestra1, como lo ejemplifica la Figura 1.

Población

Muestra

N elementos

n elementos

Figura 1. Representación gráfica del proceso de inferencia estadística.

TIPOS DE MUESTREO El procedimiento mediante el cual algunos elementos de una población se seleccionan de la población total, a fin de realizar observaciones o medidas sobre este subgrupo para extraer conclusiones, en general, a nivel poblacional, se denomina muestreo. Los tipos de muestreo se clasifican en: 1. Probabilísticos: se basan en la obtención de una muestra aleatoria (al azar), es decir, en la que todos los elementos de la población tienen la misma probabilidad de ser seleccionados. Una muestra probabilística 103

garantiza la representatividad de la población, permitiendo efectuar inferencias confiables. 2. No Probabilísticos: mediante técnicas no aleatorias se obtienen muestras no necesariamente representativas de una población. En este caso, no todos los integrantes de la población tuvieron la misma chance de ser elegidos. Dentro de esta clasificación, los principales métodos de muestreo son: • Muestreos probabilísticos: a) aleatorio simple; b) aleatorio estratificado; c) por conglomerados; d) sistemático. • Muestreos no probabilísticos: a) por conveniencia; b) por cuotas.

MUESTREOS PROBABILÍSTICOS MUESTREO ALEATORIO SIMPLE Decimos que una muestra es aleatoria simple cuando cada elemento de la población tiene la misma probabilidad de ser elegido, y las observaciones se realizan con reemplazamiento, de manera que la población es idéntica en todas las extracciones.2 En términos prácticos, sobre una población finita determinada (de tamaño N conocido) se realizan extracciones al azar de n elementos, con reemplazo, para conformar la muestra. Cuando la población no es demasiado grande, podemos escribir cada uno de los N números que la representan en una ficha, mezclarlas y seleccionar n de ellas. Existen también programas de cómputos que generan números aleatorios y pueden ser utilizados para obtener muestras aleatorias.3 Otro procedimiento útil para realizar el sorteo es usar una tabla de números aleatorios, las cuales ya han sido exhaustivamente testeadas y cuya aleatoriedad está garantizada.1 Este método requiere que todos los elementos de la población sean identificados y enumerados antes de muestrear.4 MUESTREO ESTRATIFICADO Cuando se tiene información a priori respecto de alguna característica importante en la población a los fines del estudio conviene tenerla en cuenta, seleccionando la muestra de modo estratificado. Se denomina muestreo 104

estratificado a aquel en que los elementos de la población se dividen en clases o estratos2 (ej. sexos, niveles socioeconómicos, razas, grupos de edades, etc.). La muestra se toma escogiendo aleatoriamente un número de elementos dentro de cada estrato de modo de garantizar la presencia adecuada de cada estrato en la muestra, tal como se presenta en la población. Existen dos criterios básicos para dividir el tamaño total de la muestra entre los estratos:2 1. Proporcionalmente al tamaño relativo del estrato en la población. Por ejemplo, si en la población hay 55% mujeres y 45% varones, mantendremos esta proporción en la muestra. 2. Proporcionalmente a la variabilidad del estrato: si conocemos la varianza (variabilidad) de la característica a estudiar en cada estrato, los estratos más variables deberán estar más representados. MUESTREO POR CONGLOMERADOS Existen situaciones donde ni el muestreo aleatorio simple ni el estratificado son aplicables, ya que no disponemos de una lista con el número de elementos de la población ni en los posibles estratos. En estos casos típicamente los elementos de la población se encuentran agrupados de manera natural en conglomerados (grupos internamente heterogéneos), cuyo número sí se conoce. Por ejemplo, cuando se tiene información de la población distribuida en barrios, o de una población de niños agrupados por escuelas. Si podemos suponer que cada uno de estos conglomerados es representativo de la población total respecto a la variable de estudio, podemos seleccionar algunos de estos conglomerados al azar y, dentro de ellos, analizar todos los elementos o solo una muestra aleatoria simple.2 MUESTREO SISTEMÁTICO Esta metodología de muestreo requiere que la población esté ordenada en listas o numerada correlativamente. Consiste en seleccionar un número al azar y tomar para la muestra un sujeto cada esa numeración. Para comprender el procedimiento de muestreo sistemático supongamos que se desea obtener una muestra de tamaño n de una lista de N afiliados a una obra social, ordenada y numerada correlativamente. En primer lugar se dividirá N/n, obteniéndose un número k. Así, se tomará como muestra los elementos de la lista que se identifiquen al ir saltando de k elementos en k, comenzando 105

por un elemento seleccionado al azar. 5 En este ejemplo, si la población es de tamaño 50 y la muestra de 10, entonces N/n = 5, debiéndose seleccionarse de la lista de afiliados 10 sujetos de 5 en 5, comenzando por un sujeto cuyo número se obtuvo al azar (ejemplo, por sorteo o por tabla de números aleatorios). Es importante destacar que cuando el criterio de ordenación de los elementos en la lista es tal que los elementos más parecidos tienden a estar más cercanos, el muestreo sistemático suele ser más preciso que el aleatorio simple, ya que recorre la población de un modo más uniforme.5

MUESTREOS NO PROBABILÍSTICOS MUESTREO POR CONVENIENCIA Como su nombre lo indica, el muestreo por conveniencia selecciona elementos de una población de acuerdo a la conveniencia del investigador.3 Por ejemplo, seleccionar personas que se ofrezcan como voluntarias para el estudio, o que presenten una determinada característica (por ejemplo, una enfermedad). MUESTREO POR CUOTAS Consiste en seleccionar la muestra considerando algunas características que se desea presenten los elementos a estudiar. La muestra se conforma determinando la cantidad (cuota) de elementos con la característica de interés que será incluida en la muestra. Se utiliza sobre todo en las encuestas de opinión pública, donde los encuestadores proceden a entrevistar personas hasta cubrir la cuota fijada, por ejemplo por edades, sin preocuparse por su representatividad a nivel poblacional.4

TEORÍA DEL MUESTREO. ESTADÍSTICOS Y PARÁMETROS La teoría del muestreo estudia la relación entre una población y las muestras tomadas de ellas. Por ejemplo, para la estimación de magnitudes desconocidas de una población tales como media y varianza, llamadas parámetros de la población, se utilizan las características numéricas de la muestra, llamadas estadísticos o estimadores.6 106

Así, un estadístico o estimador es una medida usada para describir una característica de la muestra, mientras que un parámetro es una medida empleada para describir una característica a nivel de la población. En otras palabras, estos conceptos pueden ser definidos como sigue: Un parámetro (poblacional) es una medida que se calcula teniendo en cuenta todos los elementos que componen una cierta población. Un estadístico o estimador (muestral) es una medida que se calcula teniendo en cuenta solamente los elementos que integran una muestra determinada.3 Puede decirse que cuando se estiman valores poblacionales a través de una muestra se está haciendo inferencia.6 La siguiente tabla resume los estadísticos más utilizados para estimar los parámetros media, varianza y desvío estándar, y la notación comúnmente empleada: Tabla 1. Notación para representar parámetros y estadísticos de uso frecuente. Medida resumen Media Varianza Desvío estándar

Parámetros μ σ2 σ

Estadísticos o Estimadores Ẋ S2 S

PROPIEDADES DE LOS ESTIMADORES Existen ciertas propiedades que deben cumplir los buenos estimadores: • Insesgabilidad: implica que no es tendencioso o sesgado, o sea, que el valor medio que se obtiene de la estimación para diferentes muestras es igual al parámetro poblacional que deseamos estimar.1, 5 • Eficiencia: esta propiedad dice que un buen estimador es aquel de mínima dispersión (varianza) con respecto al parámetro estimado. • Consistencia: cuando el tamaño de la muestra crece arbitrariamente, el valor del estimado se aproxima al parámetro desconocido.5

107

DISTRIBUCIÓN DE LA MEDIA EN EL MUESTREO. TEOREMA CENTRAL DEL LÍMITE Al corresponder un estimador a un valor muestral es esperable que su valor cambie si se obtienen varias muestras de una misma población. Consideremos una población de la que se toman muestras con reemplazamiento de tamaño n, calculando en cada muestra su media. Es de suponer que si tomamos varias muestras obtendremos varios valores, en general distintos, de medias muestrales. Si el número de muestras es muy grande (teóricamente infinito), los valores de las medias tendrán una distribución que llamaremos distribución muestral de la media en el muestreo.2 Así como, dependiendo de la muestra considerada, los valores de las medias muestrales varían, también varía la diferencia de cada una de estas medias con la verdadera media poblacional. Esta variabilidad es conocida como variabilidad muestral y las diferencias con la media poblacional representan los posibles errores muestrales.1 Los mismos se denominan también errores estándar (EE) y pueden ser calculado a partir de la siguiente expresión, siendo S el desvío estándar muestral y n el tamaño muestral: EE =

S n

Es importante mencionar que la distribución de muestreo de un estadístico depende de la población base y el tamaño de la muestra.2 En relación a esto, cabe hacer algunas consideraciones: • Es sabido que si una población sobre la cual deseamos seleccionar una muestra aleatoria simple tiene una distribución normal con media μ y varianza σ2, la distribución muestral de las medias también será normal, para cualquier tamaño de muestra, con media μ y varianza σ2/n. • Por otra parte, cuando el tamaño de la muestra aumenta, independientemente de la distribución de la cual está siendo extraída, la distribución muestral de las medias se aproxima cada vez mas a una distribución normal, con media igual a la media de la distribución y varianza decreciente. • El denominado Teorema Central del Límite nos garantiza que la distribución muestral de la media puede ser bien representada por la distribución normal, para muestras grandes.1

108

PROCEDIMIENTOS DE ESTIMACIÓN DE PARÁMETROS: PUNTUAL Y POR INTERVALOS Estimación es el nombre técnico para el proceso que consiste en utilizar los datos de una muestra para aproximar parámetros poblacionales desconocidos, o, como el propio nombre lo indica, estimar los mismos. Dentro de las diversas características (parámetros) de una población que pueden ser estimadas, las más utilizadas son la media (μ) y la varianza (σ2).1 Existen dos procedimientos de estimación de parámetros: a) La estimación puntual b) La estimación por intervalos

ESTIMACIÓN PUNTUAL En la estimación puntual, se utiliza un único valor para la estimación del parámetro. Como ejemplo de buenos estimadores puntuales, tenemos la media muestral, que es un estimador de la media poblacional, y la varianza muestral, estimador de la varianza poblacional.1 Es importante destacar que si se analizan diferentes muestras de una misma población, se pueden obtener estimadores puntuales distintos para un mismo parámetro poblacional.

ESTIMACIÓN POR INTERVALOS Consiste en estimar un intervalo [a, b] dentro del cual se espera, con una cierta probabilidad o grado de confianza especificado, que se encuentre el verdadero valor del parámetro θ. Esto se puede simbolizar: P(a ≤ θ ≤ b) = 1 – α Siendo

a = límite inferior del intervalo b = límite superior del intervalo θ = parámetro 1‐α = grado de confianza de la estimación P(a ≤ θ ≤ b)= probabilidad de que θ se encuentre entre a y b.

109

El denominado grado de confianza (1‐α) es en general arbitrario, lo establece el investigador, pero en general se utilizan valores de 0,90 (del 90%), 0,95 (95%) ó 0,99 (99%). Es necesario notar que para un grado de confianza del 90%, α=0,10; para 95%, α=0,05, y para una confianza del 99%, α= 0,01. Cabe destacar también que el límite inferior “a” corresponde al cuantil α/2, y el límite superior “b” al cuantil (1‐α/2) de la distribución de la variable en estudio, con parámetro desconocido θ, como se verá a continuación.

ESTIMACIÓN POR INTERVALOS DEL PARÁMETRO MEDIA POBLACIONAL Para la estimación por intervalos de la media poblacional pueden darse dos situaciones: • Que conozcamos la varianza poblacional y por lo tanto, se pueda construir el intervalo de confianza a partir de una variable Z. Siendo LI el límite inferior y LS el límite superior, el intervalo [LI; LS] será LI ≤ µ ≤ LS =

X + zα / 2

σ n

≤ µ ≤ X + z (1−α / 2 )

σ n

Donde X = media muestral zα / 2 = cuantil α/2 de la distribución de la variable Z

σ = desvío estándar poblacional n = tamaño muestral

µ = media poblacional (parámetro desconocido) z(1−α / 2) = cuantil (1‐ α/2) de la distribución de la variable Z normal estándar α = 0,10, 0,05 ó 0,01 según trabajemos con una confianza del 90, 95 ó 99%, respectivamente.

• Que desconozcamos la varianza poblacional y debamos por ello acudir a una distribución t, con n‐1 grados de libertad. La ecuación correspondiente al cálculo del intervalo [LI; LS] en esta situación es, para LI ≤ µ ≤ LS :

X + tα / 2

S S ≤ µ ≤ X + t (1−α / 2 ) n n

En base a esto, el procedimiento general para el cálculo de intervalos es el siguiente: 110

1. Se establece el nivel de confianza con el que se desea trabajar (90%, 95% ó 99%). 2. Se obtienen los cuantiles α/2, y (1‐α/2), según el nivel de confianza establecido: Nivel de confianza (1‐α) 90% (0,90) 95% (0,95) 99% (0,99)

α 0,10 0,05 0,01

α/2 0,05 0,025 0,005

1‐α/2 0,95 0,975 0,995

3. Se busca el valor correspondiente a ambos cuantiles en la tabla de distribución normal estándar Z si se conoce la varianza poblacional, ó en la tabla de distribución T (para una t con n‐1 grados de libertad), si no se la conoce. 4. Siendo LI= límite inferior y LS= límite superior se define el intervalo de confianza [LI; LS] = LI ≤ µ ≤ LS a partir de la aplicación de la fórmula pertinente:

X + zα / 2

X + tα / 2

σ n

≤ µ ≤ X + z (1−α / 2 )

σ

S S ≤ µ ≤ X + t (1−α / 2 ) n n

n

Si se conoce la varianza poblacional

Si se desconoce la varianza poblacional

Veamos algunos ejemplos: Ejemplo 1. Cálculo de intervalo de confianza para la media poblacional, con varianza poblacional conocida. En una encuesta sobre hábitos de estudio en universitarias se tomó una muestra de 90 mujeres que cursaban estudios de nivel superior y se les preguntó acerca la cantidad de horas dedicadas al estudio por semana. Se obtuvo una media de 9 horas/semana, conociéndose por encuestas anteriores que la varianza poblacional es de 16 hs/semana 2. Se desea calcular el intervalo de confianza para la media poblacional de horas semanales de estudio, con un 99% de confianza. Vemos que el ejercicio nos proporciona los siguientes datos: 111

n= 90

σ2= 16 hs/semana2

X = 9 hs/semana

σ= 4 hs/semana

Estableciendo un nivel de confianza de 0,99, se obtienen los cuantiles α/2= 0,005 y 1‐α/2= 0,995 de la tabla de distribución Z, dado que se conoce la varianza poblacional de estudios anteriores. Así, Z α / 2 = ‐2,57 Z 1−α / 2 = 2,57

Realizando los reemplazos pertinentes en la fórmula para el cálculo del intervalo:

X + zα / 2

σ n

9 − 2,57

≤ µ ≤ X + z (1−α / 2 )

σ n

4 4 ≤ µ ≤ 9 + 2,57 90 90

9 − 1,08 ≤ µ ≤ 9 + 1,08

7,92 ≤ µ ≤ 10,08

El intervalo de confianza queda definido como [7,92; 10,08] con un α de 0,01. Se puede afirmar entonces que, con un 99% de confianza, las mujeres universitarias estudian entre 8 y 10 horas por semana, aproximadamente. Ejemplo 2. Cálculo de intervalo de confianza para la media poblacional, con varianza poblacional desconocida. La ingesta diaria de vitamina C, para una muestra de 9 individuos de una determinada comunidad, tuvo una distribución normal con media 55 mg/día y desviación estándar 4 mg/día. Se desea estimar el porcentaje medio poblacional con un 95% de confianza. Para la resolución de este ejercicio contamos con la siguiente información: n= 9 Ẋ= 55 mg/día S= 4 mg/día Siendo el nivel de confianza establecido 0,95 y la varianza poblacional desconocida, se obtendrán los cuantiles correspondientes (α/2= 0,025; 1‐α/2=

112

0,975) para una t con n‐1 grados de libertad (o sea, 8 en este caso) de la tabla de distribución t, encontrándose que: tα / 2 = ‐2,30

t1−α / 2 = 2,30

Luego, aplicando la fórmula pertinente:

X + tα / 2

S S ≤ µ ≤ X + t (1−α / 2) n n

55 − 2,30

4 4 ≤ µ ≤ 55 + 2,30 9 9

55 − 3,059 ≤ µ ≤ 55 + 3,059 51,9 ≤ µ ≤ 58,05

El intervalo de confianza [LI; LS] se define entonces como [51,9; 58,05], con α= 0,05. Decimos entonces que el verdadero valor medio de ingesta de vitamina C se encuentra entre 51,9 y 58,05 mg/día, con un 95% de confianza.

ESTIMACIÓN POR INTERVALOS DEL PARÁMETRO VARIANZA POBLACIONAL Si se deseara, por ejemplo, conocer la variabilidad del peso registrado en instrumentos de medición como una balanza, el parámetro de interés sería la varianza poblacional, a diferencia de las situaciones anteriores donde nos interesábamos por la media poblacional de una variable. Como ya fue mencionado, un estimador puntual de la varianza poblacional es la varianza muestral S2, a partir del cual se puede calcular el siguiente intervalo de confianza LI ≤ σ 2 ≤ LS para la varianza de una variable con distribución normal: S 2 (n − 1)

χ (2n −1);(1−α / 2 )

≤σ 2 ≤

S 2 (n − 1)

χ (2n −1);(α / 2 )

113

Donde

S2= varianza muestral n= tamaño muestral σ2= varianza poblacional (parámetro desconocido)

χ (2n−1);(1−α / 2 ) = valor de una variable chi‐cuadrado con n‐1 grados de libertad, correspondiente al cuantil 1‐α/2.

χ (2n−1);(α / 2 ) = valor de una variable chi‐cuadrado con n‐1 grados de libertad, correspondiente al cuantil α/2. α = 0,10, 0,05 ó 0,01 según trabajemos con una confianza del 90, 95 ó 99%, respectivamente.

El procedimiento general para el cálculo del intervalo es el mismo que el explicado para el parámetro media poblacional, solo que en este caso se recurrirá a tablas de distribución chi‐cuadrado (para una variable χ2 con n‐1 grados de libertad) para la obtención de los cuantiles. Ejemplo 2. Cálculo de intervalo de confianza para la varianza poblacional. En una fábrica de alimentos se pretende conocer la variabilidad del peso registrado en la máquina empacadora de caramelos. Para ello se evalúan el peso de 22 paquetes de caramelos, encontrándose una varianza de 49 gramos2. Se desea calcular el intervalo de confianza para la varianza poblacional con un 95% de confianza. Tenemos entonces la siguiente información: n= 22 S2= 49 g2 S= 7 Trabajando con un nivel de confianza de 0,95, se obtienen los cuantiles α/2= 0,025 y 1‐α/2= 0,975, de la tabla de chi‐cuadrado, con 21 grados de libertad (n‐ 1), siendo:

χ (222−1);(0,975 )

χ (222−1);(0, 025 ) = 35,48 Así,

S 2 (n − 1)

χ (2n −1);(1−α / 2 )

≤σ ≤ 2

= 10,28

S 2 (n − 1)

χ (2n −1);(α / 2 )

49(22 − 1) 49(22 − 1) ≤σ 2 ≤ 35,48 10,28 29 ≤ σ 2 ≤ 100

114

Entonces, el intervalo buscado sería [29; 100] con un α=0,05. Esto significa que, con un 95% de confianza, la varianza poblacional del peso de los caramelos registrado por la máquina empacadora, se encuentra entre 29 y 100 gramos2.

115

BIBLIOGRAFÍA - MÓDULO 4

1. Andrade DF, Ogliari PJ. Estatística para as ciências agrárias e biológicas, com noçoes de experimentaçao. Florianópolis: Ed. Da UFSC, 2007. 2. Peña D. Fundamentos de Estadística. Madrid: Alianza Editorial; 2001. 3. Blanch N, Joekes S. Curso de Estadística aplicada a la Investigación. Departamento de Educación a Distancia, Facultad de Ciencias Económicas, UNC. 8va. Ed. Córdoba: UNC; 2005. 4. Bordón LG. Estadística aplicada a Ciencias de la Salud. Una herramienta para la Investigación. 5ta ed. Córdoba: LG Bordón Ed. 1999. 5. Ríus Díaz F, Barón Lopez FJ, Sánchez Font E, Parras Guijosa L. Bioestadística: Métodos y Aplicaciones. Facultad de Medicina, Universidad de Málaga. Disponible en http://www.bioestadistica.uma.es/libro/ 6. Moschetti E, Ferrero S, Palacios G, Ruiz M. Introducción a la Estadística para las Ciencias de la Vida. Editorial Fundación UNRC; 2000.

116

ESTADÍSTICA Y BIOESTADÍSTICA

MÓDULO 5 LA ESTADÍSTICA INFERENCIAL

117

118

PRUEBA DE HIPÓTESIS

Si bien muchas veces una investigación persigue fines descriptivos, otras veces pretende verificar la veracidad de una afirmación sobre alguna característica poblacional. Esas afirmaciones, referidas a un parámetro poblacional, son consideradas hipótesis estadísticas, las cuales necesitan ser verificadas a partir del contraste o comparación de las predicciones del investigador con los datos de una muestra. El procedimiento mediante el cual se investiga la verdad o falsedad de una hipótesis estadística se denomina, en la Inferencia Estadística, Prueba de Hipótesis (también llamado Contraste o Test de Hipótesis). En términos generales, toda Prueba de Hipótesis implica, en cualquier investigación, la existencia de dos supuestos o hipótesis implícitas, denominadas hipótesis nula e hipótesis alternativa, que de alguna manera reflejarán esa idea a priori que tiene el investigador y que pretende contrastar con la “realidad”. De la misma manera aparecen, implícitamente, diferentes tipos de errores que se pueden cometer durante el procedimiento.1 Todo esto será abordado con mayor detalle a continuación.

HIPÓTESIS NULA Y ALTERNATIVA

El primer paso a seguir en una prueba de hipótesis es precisamente, el planteamiento de hipótesis estadísticas. Esto implica el establecimiento o formulación de la hipótesis nula y la hipótesis alternativa. La hipótesis nula, simbolizada como H0, es un supuesto acerca de uno o más parámetros de la población, cuya veracidad o falsedad se establecerá estadísticamente usando los datos muestrales como evidencia. Se denomina nula en el sentido que supone que no existe diferencia real entre el verdadero valor del parámetro de la población de la que hemos obtenido la muestra y el valor hipotetizado.1 La hipótesis nula puede interpretarse como aquella que normalmente sería aceptada mientras los datos no indiquen otra cosa, y suele formularse como una hipótesis que traduce las ideas de “no hay efecto”, “no hay relación”, “los resultados en los grupos son similares”.2 En términos estadísticos, la misma se plantea de la siguiente forma (por ejemplo, para el parámetro media μ en una o dos poblaciones, respectivamente): H0: μ=μ0 ó H0: μ1=μ2

119

Es importante destacar que la hipótesis H0 nunca se considera probada, aunque puede ser rechazada por los datos.3 En otras palabras, el investigador se propone verificar si debe rechazar o no su hipótesis nula, a la luz de los datos de la muestra. Si la hipótesis nula es falsa (se rechaza H0), deberá existir otra hipótesis que sea verdadera.1 Esta hipótesis recibe el nombre de hipótesis alternativa y se simboliza como H1. La misma representa el supuesto (hipótesis) que será admitido cuando H0 sea rechazada. Normalmente se formula como la negación o caso contrario de H0 (aunque esto no es necesariamente así). En una prueba de hipótesis, la hipótesis alternativa para el parámetro media puede plantearse de una de las siguientes formas (a, b ó c): ‐ Para contrastes de hipótesis respecto de una población: a) H1: μ>μ0

b) H1: μ<μ0

c) H1: μ≠μ0

‐ Para contrastes de hipótesis respecto de dos poblaciones: a) H1: μ1>μ2

b) H1: μ1<μ2

c) H1: μ1≠μ2

Cuando la hipótesis alternativa es de la forma como la indicada en a) o b) se dice que la prueba es unilateral o de una cola, y cuando adopta la forma indicada en c) la prueba es bilateral o de dos colas.4 Ejemplo 1. Supongamos que se realiza un estudio sobre la talla media de los habitantes de una determinada comunidad A (μ1), la cual se sospecha que difiere de la talla media de otra comunidad B (μ2). Partiendo de esta suposición a priori, la hipótesis nula enunciaría que “La talla media de la comunidad A no difiere de la comunidad B”, lo cual en términos estadísticos se formula como sigue: H0: μ1=μ2 En consecuencia, la hipótesis alternativa puede formularse como: H1: μ1≠μ2 indicando que la talla media en los habitantes de la comunidad A es distinta de la talla media de la comunidad B. Así, mediante una prueba de hipótesis

120

bilateral se intentará probar si, en base a los datos que se recaben de una muestra en cada comunidad, estamos en condiciones de rechazar la H0. Si supusiéramos que la comunidad A presenta una talla media inferior a la de la comunidad B, la hipótesis alternativa a formular sería H1: μ1<μ2, siendo en tal caso la prueba unilateral.

ERROR TIPO I Y TIPO II

Al realizar una prueba de hipótesis hay dos tipos de errores posibles: • Rechazar la hipótesis nula, cuando esta es cierta. A esto se le denomina error de tipo I. La probabilidad de cometer este error se denota con α. • No rechazar la hipótesis nula, cuando esta es falsa. Lo denominamos error tipo II, y a la probabilidad de que ocurra se la denomina β.

POTENCIA DE UN TEST

Un concepto ligado a lo anterior es el de Potencia de un test estadístico. Esta se define como la función que establece la probabilidad de rechazar la hipótesis nula cuando es falsa, es decir, la probabilidad de no cometer un error tipo II. De acuerdo a la definición anterior, la potencia de un test se calcula tomando 1 ‐ β, o sea, uno menos la probabilidad de cometer un error de Tipo II.1

NIVEL DE SIGNIFICACIÓN

Se denomina nivel de significación de una prueba o test de hipótesis a la probabilidad de cometer un error de tipo I. Esta probabilidad la fija de antemano el investigador, y se representa con α. Típicamente se elige un valor pequeño, 0,10 (10%), 0,05 (5%) ó 0,01 (1%). Todo experimento, en su definición y antes de elegir las muestras, debe llevar descrito cuál es el criterio con el que rechazaremos una hipótesis. Esto se traduce en prefijar el nivel de significación del test,2 como veremos a continuación.

121

REGLAS DE DECISIÓN ESTADÍSTICA

Para decidir si cierta hipótesis nula (H0) debe ser rechazada o no a la vista de los datos suministrados por una muestra de la población, es necesario establecer un criterio que especifique a partir de qué valor del estadístico muestral se tomará la decisión de rechazar H0. En términos generales, se deberá: a) establecer un valor crítico (teórico) que determinará una región de rechazo y una región de no rechazo de la hipótesis nula1; b) definir un estadístico relacionado con la hipótesis que deseamos contrastar, denominado estadístico de contraste.5 La región de rechazo de H0 se establece fijando el nivel de significación con el cual se desea trabajar y en función de la hipótesis alternativa formulada (uni o bilateral). Así, la hipótesis alternativa determina la localización de la región de rechazo de H0 (ver Figura 1), y el nivel de significación α determina el tamaño de dicha región.1

x1 = α/2

x* = α

x2= 1‐(α/2)

x* = 1‐α

Nota: x* es el valor teórico o punto crítico.

Figura 1. Regiones de rechazo y no rechazo de Ho en pruebas de hipótesis unilateral y bilateral.

Obsérvese que en la prueba bilateral, las zonas de rechazo son dos y corresponden a α/2 cada una, mientras que en las pruebas unilaterales, el área de rechazo es una (derecha o izquierda, según el caso) y corresponde a α.

122

En estadística es común denominar al valor del estadístico del contraste calculado sobre la muestra como valor observado (lo simbolizaremos como Xobs) y a los extremos de la región crítica, como valores teóricos o críticos (los simbolizaremos como Xteo ó x*).5 Como regla de decisión general se establecerá que si el estadístico de contraste cae en la región de rechazo (o sea si toma un valor observado fuera de los valores críticos establecidos) se rechaza la hipótesis nula H0.1 Según se trate de pruebas con hipótesis alternativa uni o bilateral, esto se aplica específicamente de la siguiente manera: Siendo Xobs= valor observado (valor del estadístico de contraste) y Xteo= valor teórico o crítico (para un α predeterminado), podemos establecer las siguientes reglas de decisión: • En pruebas unilateral izquierda: Si Xobs ≤ Xteo se rechaza H0 Si Xobs > Xteo no se rechaza H0 • En pruebas unilateral derecha: Si Xobs ≥ Xteo se rechaza H0 Si Xobs < Xteo no se rechaza H0 • En pruebas bilaterales: Si Xobs ≤ Xteo_1 ó Xobs ≥ Xteo_2 se rechaza H0 Si Xteo_1 < Xobs < Xteo_2 no se rechaza H0 En virtud de todo lo expuesto, el procedimiento general para la realización de una prueba de hipótesis se puede resumir en los siguientes pasos: 1. Formulación de las hipótesis estadísticas H0 y H1. La hipótesis H1 puede adoptar forma bilateral o unilateral, derecha o izquierda, según el interés del investigador. 2. Selección del estadístico de contraste, en función del parámetro involucrado. 3. Establecimiento del nivel de significación (α) para la prueba, para delimitar las regiones de rechazo y no rechazo de H0. El valor crítico que defina los límites de ambas regiones se obtiene de la tabla de distribución correspondiente, para el 123

valor α definido y en función de la hipótesis alternativa (dependiendo de si es bilateral o unilateral, derecha o izquierda). 4. Cálculo del estadístico con los datos de la muestra. 5. Verificación de si el valor del estadístico pertenece o no a la región de rechazo de H0, comparando su valor con el o los valores críticos establecidos. En términos generales, la regla de decisión estadística será, finalmente, rechazar la hipótesis nula si el valor del estadístico se ubica dentro de la zona de rechazo, caso contrario, no rechazamos H0. 6

PRUEBA DE HIPÓTESIS EN UNA POBLACIÓN REFERIDA AL PARÁMETRO MEDIA

En una prueba de hipótesis para la media de una variable aleatoria con distribución normal (en una sola población), la hipótesis nula está dada por: H0: μ = μ0 donde μ0 es un valor conocido. Así, postulamos que el verdadero valor de la media poblacional (μ) es igual a un valor de interés del investigador (μ0). En función de esta H0, el investigador podrá seleccionar una de las siguientes hipótesis alternativas H1: a) H1: μ>μ0 (Prueba unilateral derecha) b) H1: μ<μ0 (Prueba unilateral izquierda) c) H1: μ≠μ0 (Prueba bilateral) La H1 postulada en el apartado “a” supone que la media poblacional es mayor a un valor μ0, mientras que las H1 correspondientes a los apartados “b” y “c” suponen que μ es menor que μ0 ó diferente a ese valor conocido, respectivamente. El estadístico de contraste apropiado para este test de hipótesis sobre el parámetro media estará basado en la media muestral, y su distribución dependerá de que la varianza poblacional sea o no conocida.6 Así, para la realización de la prueba de hipótesis se deberán distinguir dos situaciones:

124

• Prueba de hipótesis para la media poblacional con varianza poblacional conocida • Prueba de hipótesis para la media poblacional con varianza poblacional desconocida PRUEBA DE HIPÓTESIS PARA LA MEDIA POBLACIONAL CON VARIANZA POBLACIONAL CONOCIDA

El procedimiento a seguir para la realización de la prueba en este caso, es el siguiente: 1. Establecimiento de las hipótesis H0 y H1: H0: μ = μ0 H1: μ≠μ0 ó H1: μ>μ0 ó H1: μ<μ0 2. Selección del estadístico de contraste. En este caso, siendo la varianza poblacional conocida (y por ende su desvío estándar), este será: X − µ0 Z= σ n

donde n es el tamaño muestral, σ el desvío estándar poblacional, X la media muestral y μ0 un valor de media conocido en base al cual se enuncia H0. 3. Establecimiento del nivel de significación (α) para la prueba. En general se trabaja con un α=0,10, 0,05 ó 0,01. En función de esto y de la H1 planteada, se buscará el/los valores críticos que definan los límites de las regiones de rechazo y no rechazo de H0. Para ello se recurre a la Tabla de Distribución de Cuantiles Normal Estándar. Los puntos críticos o teóricos (Zteo) a buscar en tabla, de acuerdo al tipo de hipótesis alternativa establecida, corresponderán a los cuantiles: Para una hipótesis bilateral: α/2 y 1‐(α/2) Para una hipótesis unilateral derecha: 1‐α Para una hipótesis unilateral izquierda: α 4. Cálculo del estadístico Z mencionado, aplicando la ecuación presentada. 5. Comparación del valor del estadístico Z con el o los valores críticos (Zteo) establecidos. Observación de si el estadístico Z calculado cae en zona de rechazo

125

de H0 o no, y aplicación en consecuencia, de la regla de decisión correspondiente: Para H1: μ≠μ0 , si Z ≤ Zteo_1 ó Z ≥ Zteo_2 se rechaza H0. Para H1: μ>μ0 , si Z ≥ Zteo se rechaza H0. Para H1: μ<μ0 , si Z ≤ Zteo se rechaza H0. Casos contrarios, no se rechaza H0. Ejemplo 2. Una máquina envasadora de granos está programada para producir bolsas con peso medio de 20 kg y desvío poblacional 0,20 kg, lo cual es controlado periódicamente. Para ello, se tomó una muestra de 8 bolsas, cuyos pesos (kg) fueron: 20,3 19,8 20,3 19,7 19,8 19,7 19,8 19,8 Se sospecha que la máquina no funciona adecuadamente, dado que estaría produciendo un peso medio inferior a 20 kg. Para verificar si esto es así, se trabajará con un 95% de confianza. Resolución: A partir de este supuesto las hipótesis nulas y alternativas serán: H0: μ = 20 H1: μ<20 En función de los datos de la muestra obtenemos una media muestral X = 19,9kg. Por otra parte, del enunciado propuesto se conoce que µ 0 = 20 kg, el desvío estándar poblacional σ es 0,20 y el tamaño de la muestra n = 8. Siendo la varianza poblacional conocida, el estadístico de contraste será Z. Aplicado estos valores a la fórmula de dicho estadístico tenemos: Z=

X − µ0

σ

n Z=

19,9 − 20 = −1,41 0,20 8

Luego, para un α = 0,05 y una hipótesis alternativa unilateral izquierda, obtenemos de la tabla de distribución normal el valor teórico Zteo= ‐1,65, el cual definirá las regiones de rechazo o no de H0 de la siguiente manera: 126

Dado que Z > Zteo no se rechaza H0, con un nivel de significancia del 5%. En consecuencia, con una confianza del 95%, concluimos que diciendo que la máquina envasadora de granos está funcionando adecuadamente, dado que efectivamente produce bolsas de peso medio de 20 kg.

PRUEBA DE HIPÓTESIS PARA LA MEDIA POBLACIONAL CON VARIANZA POBLACIONAL DESCONOCIDA

Los pasos a seguir son los siguientes: 1. Establecimiento de las hipótesis H0 y H1: H0: μ = μ0 H1: μ≠μ0 ó H1: μ>μ0 ó H1: μ<μ0 2. Selección del estadístico de contraste. Dado que la varianza poblacional es desconocida, se estimará a partir de los datos de la muestra y el estadístico de elección será: t=

X − µ0 S n

el cual, bajo H0, presenta un distribución t de Student con n‐1 grados de libertad, siendo n es el tamaño muestral, S el desvío estándar muestral, X la media muestral y μ0 un valor de media conocido en base al cual se enuncia H0.

127

3. Establecimiento del nivel de significación (α) para la prueba (α=0,10, 0,05 ó 0,01). En función de esto y de la H1 planteada, se buscará el/los valores críticos que definan los límites de las regiones de rechazo y no rechazo de H0. Para ello se recurre en este caso a la Tabla de Cuantiles de la Distribución t de Student. Los puntos críticos o teóricos (tteo) a buscar en tabla, de acuerdo al tipo de hipótesis alternativa establecida, corresponderán a los cuantiles: Para una hipótesis bilateral: α/2 y 1‐(α/2) Para una hipótesis unilateral derecha: 1‐α Para una hipótesis unilateral izquierda: α 4. Cálculo del estadístico t mencionado, aplicando la ecuación presentada. 5. Comparación del valor del estadístico t con el o los valores teóricos (tteo) establecidos. Observación de si el estadístico t calculado cae en zona de rechazo de H0 o no, y aplicación en consecuencia, de la regla de decisión correspondiente: Para H1: μ≠μ0 , si t ≤ t teo_1 ó t ≥ tteo_2 se rechaza H0. Para H1: μ>μ0 , si t ≥ t teo se rechaza H0. Para H1: μ<μ0 , si t ≤ t teo se rechaza H0. Casos contrarios, no se rechaza H0. Ejemplo 3. Un investigador supone que las Calorías medias requeridas para cierta actividad aeróbica son 800 Cal/hora. Para evaluar la veracidad de esta afirmación se seleccionó una muestra de 9 sujetos, en quienes se evaluó mediante calorimetría indirecta el gasto calórico tras realizar dicho esfuerzo físico. Se registraron los siguientes valores (Cal/hora): 767,8 692,5

764,1 736,1

716,8 746,1

750,2 731,4

756,0

Se desea extraer una conclusión al respecto, con un nivel de confianza del 95%. Resolución: En primer lugar, enunciamos las hipótesis estadísticas: H0: μ = 800 Cal/hora H1: μ ≠ 800 Cal/hora

128

Dado que se desconoce la varianza poblacional, el estadístico a seleccionar presenta una distribución t de Student con n‐1 grados de libertad. Se estimarán a partir de los datos de la muestra, la varianza y media muestral: S = 24,07 Cal/hora; X = 740,11 Cal/hora. Estableciendo un nivel de significación α = 0,05 (dado que se pretende trabajar con un nivel de confianza del 95%) y en función la H1 planteada (bilateral), se buscarán los valores críticos (que definan los límites de las regiones de rechazo y no rechazo de H0) en la Tabla de Cuantiles de la Distribución t de Student, correspondientes a los cuantiles α/2 y 1‐(α/2), entrando con n ‐ 1 = 8 grados de libertad: t teo_1 = ‐2,306 t teo_2 = 2,306 Calculamos el estadístico t con los datos disponibles: t=

X − µ 0 740,11 − 800 − 59,89 = = = −7,468 S 24,07 8,02 n

9

Comparamos el valor del estadístico t obtenido con el o los valores teóricos (tteo) establecidos.

Dado que el estadístico t calculado cae en zona de rechazo de H0, o lo que es lo mismo, dado que t ≤ t teo_1 , se decide rechazar H0. Se concluye que, con un 95% de confianza, la suposición del investigador es incorrecta: las Calorías medias requeridas para la actividad estudiada ≠ 800 Cal/hora. 129

PRUEBA DE HIPÓTESIS EN UNA POBLACIÓN REFERIDA AL PARÁMETRO VARIANZA

Existen situaciones donde el parámetro de interés es la varianza poblacional (por ejemplo, estudios sobre la variabilidad en instrumentos de medición).4 Siendo entonces de interés del investigador determinar si la varianza poblacional σ2 de una variable aleatoria con distribución Normal es distinta de un valor prefijado σ02 (conocido), las hipótesis a plantear son las siguientes: H0: σ2= σ02 H1: σ2≠ σ02 ó H1: σ2> σ02 ó H1: σ2 < σ02 En este caso, H1 supone que la varianza poblacional (σ2) es distinta, mayor o menor que un valor determinado (σ02). El procedimiento a seguir es el mismo que ya fue presentado para el parámetro media, solo que el estadístico de contraste a usar en la prueba de hipótesis se 2 basa en la varianza muestral S2 y se distribuye como χ con n‐1 grados de libertad, como se verá a continuación. Los pasos de esta prueba de hipótesis serían entonces: 1. Establecimiento de las hipótesis H0 y H1, como se enunció anteriormente. 2. Selección del estadístico de contraste: χ2 =

(n − 1) ⋅ S 2 σ 02

el cual bajo H0 presenta un distribución chi‐cuadrado ( χ 2 ) con n‐1 grados de libertad, siendo n es el tamaño muestral, S2 la varianza muestral y σ0 un valor de varianza conocido en base al cual se enuncia H0. 3. Establecimiento del nivel de significación (α) para la prueba. En función de esto y de la H1 planteada, se definirán los límites de las regiones de rechazo y no rechazo de H0. Para ello se buscarán los valores críticos o teóricos en la Tabla de la Distribución χ 2 . Los puntos críticos o teóricos ( χ 2 teo) a buscar en tabla, de acuerdo al tipo de hipótesis alternativa establecida, corresponderán a los cuantiles:

130

Para una hipótesis bilateral: α/2 y 1‐(α/2) Para una hipótesis unilateral derecha: 1‐α Para una hipótesis unilateral izquierda: α 4. Cálculo del correspondiente.

χ2

estadístico

mencionado,

aplicando

la

fórmula

5. Comparación del valor del estadístico χ 2 con el o los valores teóricos ( χ 2 teo) establecidos. Observación de si el estadístico χ 2 calculado cae en zona de rechazo de H0 o no, y aplicación en consecuencia, de la regla de decisión apropiada: Para H1: σ2≠ σ02, si χ 2 ≤ χ 2 teo_1 ó χ 2 ≥ χ 2 teo_2 se rechaza H0. Para H1: σ2> σ02 , si χ 2 ≥ χ 2

teo

se rechaza H0.

Para H1: σ2< σ02, si χ 2 ≤ χ 2 teo se rechaza H0. Casos contrarios, no se rechaza H0. Ejemplo 4. Un laboratorio desea adquirir una nueva balanza digital lanzada al mercado, pero sospecha que la misma produce un aumento de la varianza del peso. La desviación estándar que se obtiene con una balanza tradicional es de 6,25 gramos. Se tomaron 10 balanzas digitales al azar y se obtuvo una varianza muestral de 6,5 gramos2. Se desea comprobar si la sospecha del laboratorio es cierta, trabajando con un nivel de confianza del 90%. Resolución: Las hipótesis a contrastar son: H0: σ2= 6,25 gramos2

H1: σ2 > 6,25 gramos2

Dado que el parámetro de interés es la varianza poblacional, el estadístico de contraste es: χ2 =

(n − 1) ⋅ S 2 = (10 − 1) ⋅ 6,5 = 9,36 σ 02

6,25

Para un nivel de significación α=0,10 y siendo la H1 planteada unilateral derecha, se definirán los límites de las regiones de rechazo y no rechazo de H0 en función del valor teórico buscados en la Tabla de la Distribución Chi‐ cuadrado, correspondiente al cuantil 1‐ α (1‐0,10= 0,90), ingresando con n‐1 (o sea 10‐1= 9) grados de libertad.

131

χ 2 teo = 14,68

Comparando el valor del estadístico χ 2 con el valor teórico ( χ 2 teo) establecido, se observa que χ 2 cae en zona de no rechazo de H0 ( χ 2 < χ 2 teo ). Se concluye que, con un 90% de confianza, la nueva balanza digital no produce un aumento de la varianza del peso medido.

PRUEBA DE HIPÓTESIS EN DOS POBLACIONES REFERIDA AL PARÁMETRO MEDIA

El procedimiento general hasta aquí presentado para pruebas de hipótesis en una población (y por ende, a partir de una muestra) es también aplicable a situaciones en las que se desea realizar una comparación entre dos medias poblacionales. Dicho en otras palabras, se desea decidir si las medias de dos poblaciones son semejantes o no. En este caso, será necesario trabajar con los datos de dos muestras provenientes de dos poblaciones con medias poblacionales μ1 y μ2. Como primer paso se deberá considerar si las muestras son independientes o están apareadas (es decir, si son dependientes). Es necesario entonces diferenciar ambos conceptos: • Muestras independientes: en estas, los datos de ambas muestras no están relacionados a ningún factor que pueda confundir (mezclar) el efecto de los factores bajo estudio. Es decir, hay independencia entre las observaciones dentro de las muestras.6 Por ejemplo, comparar el rendimiento de dos variedades distintas de trigo, tomando una muestra de plantaciones de trigo de la variedad A y otra muestra de la variedad B. Se considera que ambas muestras son independientes pues se puede suponer que los resultados de una no interfieren en los resultados de la otra. • Muestras dependientes o apareadas: los datos de dos muestras constituyen datos apareados cuando están relacionados de dos en dos, según algún criterio que introduzca una influencia marcada entre los diversos pares de valores.6 Estas muestras dependientes se pueden generar, en general, por dos situaciones: a) la misma unidad de observación es medida en dos ocasiones diferentes; b) las mediciones se obtienen a partir de unidades observacionales relacionadas.4 Un ejemplo del primer caso sería medir el peso de cada sujeto bajo estudio (unidad 132

de observación) antes y después de un tratamiento dietoterápico, y a la segunda situación correspondería un estudio en pares de gemelos. Veremos entonces el procedimiento para la realización de pruebas de hipótesis para dos medias poblacionales (ó Prueba de Diferencia entre Medias), según se trate de muestras independientes o apareadas. Como en el caso de test para una media, aquí también el conocimiento o no de la varianza poblacional definirá el tipo de estadístico a emplear.

MUESTRAS INDEPENDIENTES: •

PRUEBA DE DIFERENCIA DE MEDIAS CON VARIANZAS POBLACIONALES CONOCIDAS

Dado dos variables aleatorias independientes con distribuciones normales 1 y 2, con medias poblacionales μ1 y μ2, respectivamente, y varianzas poblacionales σ21 y σ22 conocidas, los pasos a seguir son los siguientes: 1. Establecimiento de las hipótesis H0 y H1: H0: μ1 = μ2 ó H0: μ1 ‐ μ2 = 0 La hipótesis alternativa según se trate de una prueba bilateral, unilateral derecha o izquierda será: H1: μ1≠μ2 ó H1: μ1 ‐ μ2 ≠ 0 H1: μ1>μ2 ó H1: μ1 ‐ μ2 > 0 H1: μ1<μ2 ó H1: μ1 ‐ μ2 < 0 Cabe aclarar que en casos como este (comparación de dos poblaciones), las hipótesis nula y alternativa pueden plantearse también en función de una diferencia de medias: H0) μ1 ‐ μ2 = 0 H1) μ1 ‐ μ2 ≠ 0; μ1 ‐ μ2 > 0; ó μ1 ‐ μ2 < 0

2. Selección del estadístico de contraste. Siendo las varianzas poblacionales conocidas, el estadístico a emplear es: 133

Z=

X1 − X 2

σ 12 n1

+

σ 22 n2

donde n1 y n2 son los tamaños muestrales de la muestra 1 y 2 respectivamente, σ21 y σ22 sus varianzas poblacionales, X 1 la media de la muestra 1 y X 2 la media de la muestra 2. 3. Establecimiento del nivel de significación (α) para la prueba: α=0,10, 0,05 ó 0,01. Para buscar los valores teóricos que delimiten la zona de rechazo y no rechazo de H0, en este caso también se recurre a la Tabla de Distribución de Cuantiles Normal Estándar. Los puntos críticos o teóricos (Zteo) a buscar, de acuerdo al tipo de hipótesis alternativa establecida, corresponderán a los cuantiles: Para una hipótesis bilateral: α/2 y 1‐(α/2) Para una hipótesis unilateral derecha: 1‐α Para una hipótesis unilateral izquierda: α 4. Cálculo del estadístico Z mencionado, aplicando la formula anterior. 5. Comparación del valor del estadístico Z con el o los valores críticos (Zteo) establecidos. Observación de si el estadístico Z calculado cae en zona de rechazo de H0 o no, y aplicación en consecuencia, de la regla de decisión correspondiente: Para H1: μ≠μ0 , si Z ≤ Zteo_1 ó Z ≥ Zteo_2 se rechaza H0. Para H1: μ>μ0 , si Z ≥ Zteo se rechaza H0. Para H1: μ<μ0 , si Z ≤ Zteo se rechaza H0. Casos contrarios, no se rechaza H0. Ejemplo 5. En un laboratorio se está probando el efecto de un suplemento nutricional hipercalórico en ratas de dos especies. Se conformaron dos muestras independientes, de 10 ratas cada una, y se registró el aumento de peso de las mismas tras la administración de dicho suplemento durante una semana. Los datos fueron los siguientes:

Muestra 1 Muestra 2

43,3 54,9

46,7 52,2

Aumento de peso (g/semana) 55,6 42,8 46,8 47,9 56,3 42,8 50,0 47,7 52,0 50,8

43,7 59,2

45,7 45,6

34,6 71,2 134

Se conocía con anterioridad las varianzas poblacionales σ21= 39,4 g2 y σ22= 63,8 g2. Se desea saber si existe diferencia o no entre las medias de aumento de peso en ambas especies, con un nivel de confianza del 90%. Resolución: Las hipótesis H0 y H1 a contrastar son las siguientes: H0: μ1 = μ2 H1: μ1≠μ2 Siendo las varianzas poblacionales conocidas, seleccionamos el siguiente estadístico de contraste: Z=

X1 − X 2

σ 12 n1

+

σ 22 n2

donde n1 y n2 son los tamaños muestrales de la muestra 1 y 2 respectivamente, σ21 y σ22 sus varianzas poblacionales, X 1 la media de la muestra 1 y X 2 la media de la muestra 2. Para poder aplicar esta fórmula es necesario efectuar el cálculo de las medias muestrales en función de los datos provistos: X 1 = 46,34 g X 2 = 52,64 g

Estableciendo como nivel de significación para la prueba un α=0,10 y siendo la H1 planteada bilateral, se buscarán los valores teóricos en la Tabla de Distribución de Cuantiles Normal Estándar, los cuales delimitarán la zona de rechazo y no rechazo de H0, correspondiendo a los cuantiles α/2 (o sea 0,10/2= 0,05) y 1‐(α/2) (o sea 1‐0,05= 0,95): Zteo_1 = ‐1,645 Zteo_2 = 1,645

135

Se realiza a continuación el cálculo del estadístico Z mencionado: Z=

X1 − X 2

σ

2 1

n1

+

σ

2 2

n2

=

46,34 − 52,64 39,4 63,8 + 10 10

= −1,96

Luego, comparamos el valor del estadístico Z con los valores críticos (Zteo) establecidos.

Como se observa en la figura anterior, dado que el estadístico Z calculado cae en zona de rechazo de H0 (Z < Zteo_1 ), decidimos rechazar H0. Esto indica que, con una confianza del 90%, las medias de aumento de peso en ambas especies de ratas es diferente.



PRUEBA DE DIFERENCIA DE MEDIAS CON VARIANZAS POBLACIONALES DESCONOCIDAS

Si se trabaja con dos muestras independientes, provenientes de dos poblaciones con distribución normal, con medias μ1 y μ2, y varianzas σ21 y σ22 desconocidas, será necesario verificar si estas varianzas son semejantes o no antes de iniciar la prueba de hipótesis sobre las medias. Esto se efectúa mediante otro test de hipótesis de Diferencia entre Varianzas. Luego se sigue la misma secuencia que venimos presentando.

136

Prueba de Diferencia entre Varianzas: 1. Se establece una hipótesis H0 que planteará la igualdad entre varianzas. La H1 planteará, en cambio, la diferencia entre varianzas: H0: σ21 = σ22 H1: σ21 ≠ σ22

2. El estadístico de contraste será: F=

S12 S 22

siendo S21 y S22 las varianzas de la muestra 1 y 2, respectivamente. Este estadístico se distribuye como una F con n1‐1 y n2‐1 grados de libertad. 3. Estableciendo el nivel de significación como α=0,10, 0,05 ó 0,01, y siendo la H1 planteada bilateral, se buscarán los valores críticos (F teo) correspondientes a los cuantiles α/2 y 1‐(α/2) en la Tabla de Cuantiles de la Distribución F. 4. Cálculo del estadístico F presentado. 5. Comparación del valor del estadístico F con los valores teóricos (F teo) establecidos. Observación de si el estadístico F calculado cae en zona de rechazo de H0 o no, y aplicación en consecuencia, de la regla de decisión correspondiente: Si F ≤ F teo_1 ó F ≥ F teo_2 se rechaza H0, asumiendo en consecuencia que las varianzas son diferentes. En el caso contrario, no se rechaza H0, y se concluye entonces que las varianzas poblacionales son iguales. Prueba de Diferencia entre Medias con Varianzas iguales: En caso de que el test de diferencia de varianzas indique que las varianzas poblacionales pueden suponerse iguales, se aplica la siguiente prueba de hipótesis para diferencia de medias. El procedimiento para la realización de esta prueba continua siendo el mismo que el que venimos trabajando, solo que varía el estadístico de contraste a ser 137

utilizado. En este caso el estadístico, bajo hipótesis nula, sigue una distribución t de Student con n1+n2 – 2 grados de libertad, donde n1 es el número de observaciones de la muestra de la población 1, n2 el número de observaciones de la muestra de la población 2, y S21 y S22 son sus respectivas varianzas muestrales: t=

(X

1

− X2)

(n1 − 1)S12 + (n2 − 1)S 22 n1 + n 2 − 2

1 1  +   n1 n 2 

Ejemplo 6. Un fabricante desea comparar el contenido de calcio (en mg %) de dos variedades de yogur sometidos a procesos de elaboración distintos. Para ello se tomaron dos muestras de 9 yogures cada una, a partir de las cuales se obtuvo la siguiente información: • Yogur Tipo A: X A = 139 mg; S2A = 11,6 mg2 • Yogur Tipo B: X B = 128 mg; S2B = 7,9 mg2 ¿Se puede afirmar, con un 95% de confianza, que el contenido medio de calcio de ambos yogures es diferente? Resolución: En primer lugar será necesario verificar si las varianzas poblacionales, desconocidas, son semejantes o no, mediante la prueba de Diferencia entre Varianzas: Dado H0: σ2A = σ2B H1: σ2A ≠ σ2B el estadístico de contraste será: F=

S A2 11,6 = = 1,47 S B2 7,9

siendo S2A y S2B las varianzas de la muestra A y B, respectivamente. Siendo n1= 9 y n2= 9, este estadístico se distribuye como una F con 9‐1 y 9‐1 grados de libertad. 138

Con un α=0,05, los valores críticos (F teo) correspondientes a los cuantiles α/2 (o sea 0,05/2= 0,025) y 1‐(α/2) (o sea 1‐0,025= 0,975) en la Tabla de Cuantiles de la Distribución F son: F teo_1= 0,2256 F teo_2= 4,4333 En virtud del valor calculado para el estadístico F= 1,47, vemos que: Fteo_1 < F < Fteo_2 = 0,2256 < 1,47 < 4,4333. En consecuencia, dado que F observado cae en la zona de aceptación de H0, asumiremos que las varianzas son semejantes. Probado esto, las hipótesis respecto a la media a contrastar serían: H0: μA = μB H1: μA≠μB El estadístico de contraste, dado que las varianzas son iguales (en virtud del resultado del test F antes realizado) es el siguiente: t=

(X

A

− XB)

(n A − 1)S A2 + (n B − 1)S B2 n A + nB − 2

1 1    +  n A nB 

el cual sigue una distribución t de Student con nA+nB – 2 grados de libertad, o sea 9+9‐2= 16 grados de libertad. Efectuando los reemplazos pertinentes en la fórmula, tenemos: t=

(139 − 128) (9 − 1)11,6 + (9 − 1)7,9  1 + 1  9+9−2

9 

= 7,47

9 

Estableciendo un α=0,05, los puntos críticos o teóricos extraídos de la Tabla de distribución T, correspondientes a los cuantiles α/2 y 1‐(α/2) e ingresando con nA+nB – 2 = 16 grados de libertad, son: Tteo_1 = ‐2,12 Tteo_2= 2,12 139

Gráficamente tenemos:

Comparando el valor del estadístico t calculado y los valores teóricos, vemos que se ubica en la región de rechazo de H0 (dado que t > Tteo_2). Se concluye entonces que es posible afirmar, con un 95% de confianza, que el contenido medio de calcio de ambos yogures es diferente. Prueba de Diferencia entre Medias con Varianzas diferentes: Si el análisis previo (Test F de diferencia de varianzas) indicó que las varianzas poblacionales pueden suponerse distintas, el estadístico para la prueba de diferencias entre dos medias está dado por: t=

(X

1

− X2)

S 12 S 22 + n1 n2

el cual tiene una distribución t de Student con v grados de libertad, los cuales se calculan de acuerdo a la siguiente ecuación:

v=

(S

 S12 S 22    n + n  2   1

2 1

/ n1

) (n 2

1

(

2

− 1) + S 22 / n 2

) (n 2

2

− 1)

−2

Siendo S21 y S22 las varianzas de la muestra 1 y 2, respectivamente, y n1 y n2 sus correspondientes tamaños muestrales.

140

Estos son los grados de libertad con los cuales se deberá ingresar a la Tabla de Cuantiles de la Distribución t de Student para la búsqueda de los puntos o valores teóricos, siguiendo la misma metodología hasta aquí presentada. Ejemplo 7. Los resultados de ciertas determinaciones bioquímicas realizadas en dos laboratorios, en base a dos muestras de tamaño 10, son los siguientes: Laboratorio 1:

X 1= 24

S 1= 1

S21= 1

n1=10

Laboratorio 2:

X 2= 20

S 2= 5

S22= 25

n2=10

Se desea determinar si las medias de las determinaciones bioquímicas en ambos laboratorios son iguales, con un α=0,05. Resolución: Se realiza primeramente, la prueba de Diferencia entre Varianzas: Siendo H0: σ2A = σ2B H1: σ2A ≠ σ2B El estadístico de contraste será: F=

S12 1 = = 0,04 2 S 2 25

donde S21 y S22 son las varianzas de la muestra del laboratorio 1 y 2, respectivamente. Este estadístico se distribuye como una F con n1‐1 y n2‐1 grados de libertad (o sea 9 y 9 grados de libertad). Con un α=0,05, los valores críticos (F teo) correspondientes a los cuantiles α/2 y 1‐(α/2) en la Tabla de Cuantiles de la Distribución F son: F teo_1= 0,248 F teo_2= 4,026 Dado que el estadístico calculado F = 0,04 cae en la zona de rechazo de H0 (F < F teo_1 ), asumiremos que las varianzas son diferentes.

141

Las hipótesis respecto a la media a contrastar serían: H0: μ1 = μ2

H1: μ1≠μ2

El estadístico de contraste, dado que hemos comprobado mediante el test previo que las varianzas son distintas, es el siguiente: t=

(X

1

− X2)

S 12 S 22 + n1 n2

=

(24 − 20 ) 1 25 + 10 10

= 2,48

el cual tiene una distribución t de Student con v grados de libertad, los cuales se calcularán de acuerdo a la siguiente ecuación:

v=

(S

 S12 S 22    n + n  2   1

2 1

/ n1

) (n 2

1

(

2

− 1) + S 22 / n 2

) (n 2

2

− 1)

−2

2

v=

(1 / 10)2

 1 25   +   10 10  − 2 = 7,73 (10 − 1) + (25 / 10)2 (10 − 1)

Con estos 7 grados de libertad ingresaremos a la Tabla de Cuantiles de la Distribución t de Student para la búsqueda de los puntos o valores teóricos (con un α=0,05), correspondientes a los cuantiles α/2 y 1‐(α/2) son: Tteo_1 = ‐2,36 Tteo_2= 2,36 Gráficamente tenemos:

142

Comparando el valor del estadístico t calculado y los valores teóricos, vemos que se ubica en la región de rechazo de H0 (dado que t > Tteo_2). Así, se concluye que las medias de las determinaciones bioquímicas en ambos laboratorios no son iguales, con un nivel de confianza del 95%.

MUESTRAS DEPENDIENTES

Habiendo introducido previamente el concepto de muestras dependientes, vamos a presentar este tema a través de un ejemplo. Se verá que el procedimiento general de esta prueba de hipótesis es el mismo que el hasta aquí presentado, solo que la variable de interés es la diferencia entre los valores de cada par observado. Es decir, dado los datos de la muestra A y los de la muestra B, las diferencias Di = Ai ‐ Bi (siendo i= 1, 2, ..., n) generan un conjunto de n observaciones, correspondientes a la diferencia entre el valor A y B de cada par. Esta nueva muestra es la utilizada para la prueba de hipótesis, como veremos a continuación. Ejemplo 8. En una clínica dedicada al tratamiento del sobrepeso y obesidad se desea evaluar si una determinada dieta hipocalórica vegetariana afecta o no los niveles de hemoglobina (Hg) en sangre de sus pacientes. Para ello, a una muestra de 8 pacientes que estaban bajo tratamiento estándar, se les administró esta nueva dieta. Fueron medidos los niveles de Hg antes y después de esta intervención dietoterápica. Los resultados obtenidos fueron los que se muestran en la siguiente tabla:

143

Paciente

Hg antes (A)

Hg después (B)

1 2 3 4 5 6 7 8

13,6 13,6 14,7 12,1 12,3 13,2 11,0 12,4

11,4 12,5 14,6 13,0 11,7 10,3 9,8 10,4

Diferencia (D = A – B) 2,2 1,1 0,1 ‐0,9 0,6 2,9 1,2 2,0

Resolución: 1. Establecimiento de las hipótesis H0 y H1: Dado que suponemos que el contenido de Hg disminuiría tras la realización de una dieta vegetariana, las hipótesis serían: H0) μA = μB

H1) μA > μB

Estas mismas hipótesis, planteadas en términos de la diferencia entre las dos medias μD = μA ‐ μB, puede ser formulada como: H0) μD = 0

H1) μD > 0

De este modo, pasamos a trabajar ahora con una población de diferencias (D para cada par de valores), la cual presenta media μD y varianza σ2D desconocidas. 2. Selección del estadístico de contraste. Admitiendo que las diferencias siguen una distribución aproximadamente normal, podemos realizar un test de hipótesis del parámetro media con varianza poblacional desconocida, cuyo estadístico de contraste es: t=

D SD n

144

el cual sigue una distribución t de Student con n‐1 grados de libertad, siendo D la media muestral de las diferencias entre los valores A y B, y SD el desvío estándar de esas diferencias, para n pares de valores. 3. Establecimiento del nivel de significación (α) para la prueba. Si se establece un nivel de confianza del 95% (α=0,05), para la hipótesis alternativa planteada, de tipo unilateral derecha, el valor teórico o crítico corresponde al cuantil 1‐α (o sea 0,95), buscado en Tabla de Distribución t de Student con n‐1 grados de libertad (o sea 7 en este caso). Así: tteo = 1,895 4. Cálculo del estadístico de contraste t presentado. Habiendo calculado D y SD a partir de los datos de la nueva muestra de “diferencias” D, aplicando la ecuación t =

D tenemos: SD n

t=

1,15 = 2,655 1,23 8

5. Comparación del valor del estadístico t con el valor teórico (t observar si cae o no dentro de la zona de rechazo de H0.

teo),

para

Como se observa, el estadístico t calculado cae en zona de rechazo de H0, dado que 2,655 ≥ 1,895 (o sea t ≥ t teo). A partir de esto, concluimos que μA > μB, indicando que los niveles de Hg disminuirán tras la administración de la dieta hipocalórica vegetariana, con un 95% de confianza.

145

GENERALIZACIÓN A MÁS DE DOS POBLACIONES: INTRODUCCIÓN AL ANÁLISIS DE LA VARIANZA

Hasta ahora hemos aplicado pruebas de hipótesis para el parámetro media en uno o dos grupos. Sin embargo, existen situaciones en las que se desea establecer comparaciones entre más de dos medias. En esos casos, es decir, cuando el número de muestras o grupos a contrastar es mayor que dos se emplea el análisis de la varianza ó ANOVA. Son ejemplos típicos de aplicación del ANOVA aquellos estudios donde se desea comparar los resultados de la aplicación de 3 o más tratamientos, dosis, metodologías, por ejemplo: • diferentes tratamientos dietoterápicos, • administración de distintos fármacos o dosis farmacológicas, • diferentes métodos de enseñanza • distintas alternativas terapéuticas para una enfermedad, etc. En cuanto al aspecto metodológico y en términos sencillos podemos decir que este test descompone la variabilidad total de los datos en dos: la variabilidad entre los grupos y la variabilidad dentro de los grupos. Así, si las diferencias entre los grupos (por ejemplo, bajo distintos tratamientos) resultan relativamente mayores que las fluctuaciones dentro de los grupos, se puede establecer que el factor de agrupamiento (ej. el tratamiento) se relaciona con las diferencias entre los grupos. En general, la hipótesis nula traducirá la idea de que en los diferentes grupos se obtienen resultados similares (sus medias son iguales), y la hipótesis alternativa lo negará.5 Si suponemos que la hipótesis nula de la igualdad de medias en los diferentes grupos es cierta, podríamos decir que todas las observaciones pueden considerarse que provienen de un único grupo cuya media y variabilidad es la misma que la de cualquiera de los grupos por separado.5 Caso contrario, diremos que el tratamiento aplicado a las unidades experimentales ha modificado a la población de la cual se extrajo la muestra, de tal manera que ahora, ya no se tiene una sino varias poblaciones.1 Resumiendo, vemos que este análisis nos permite comprobar si existen efectos de tratamiento, esto es, si un grupo de medias puede considerarse muestreado aleatoriamente de la misma población o si los tratamientos que han afectado a cada grupo separadamente han dado como resultado un cambio de estas medias. Si esto es así, habrá una componente añadida debida a los efectos de tratamiento y podrá ser detectada por un test F en el ANOVA.1

146

Se pretende aquí simplemente presentar los fundamentos y aplicaciones de esta metodología estadística a modo introductorio, pero el desarrollo de este análisis puede ser profundizado con la bibliografía complementaria que será sugerida por el docente.

147

BIBLIOGRAFÍA - MÓDULO 5

1. Blanch N, Joekes S. Curso de Estadística aplicada a la Investigación. Departamento de Educación a Distancia, Facultad de Ciencias Económicas, UNC. 8va. Ed. Córdoba: UNC; 2005. 2. Barón López FJ, Téllez Montiel F. Apuntes de Bioestadística: Tercer ciclo en Ciencias de la Salud y Medicina. Universidad de Málaga: 2004. Disponible en http://www.bioestadistica.uma.es/baron/ 3. Peña D. Fundamentos de Estadística. Madrid: Alianza Editorial; 2001. 4. Moschetti E, Ferrero S, Palacios G, Ruiz M. Introducción a la Estadística para las Ciencias de la Vida. Editorial Fundación UNRC; 2000. 5. Ríus Díaz F, Barón Lopez FJ, Sánchez Font E, Parras Guijosa L. Bioestadística: Métodos y Aplicaciones. Facultad de Medicina, Universidad de Málaga. Disponible en http://www.bioestadistica.uma.es/libro/ 6. Andrade DF, Ogliari PJ. Estatística para as ciências agrárias e biológicas, com noçoes de experimentaçao. Florianópolis: Ed. Da UFSC, 2007.

148

ESTADÍSTICA Y BIOESTADÍSTICA

MÓDULO 6 ANÁLISIS DE RELACIONES

149

150

ANÁLISIS DE VARIABLES CATEGÓRICAS

Hemos visto con anterioridad distintas metodologías de análisis de datos de tipo cuantitativos, es decir, de naturaleza numérica. Sin embargo, existen muchas situaciones en las que el interés del investigador puede estar centrado en analizar la relación que existe entre dos o más variables categóricas. Por ejemplo, si se desea estudiar si existe asociación entre el nivel de instrucción materno y la desnutrición, o conocer si la obesidad infantil depende de la presencia de diabetes gestacional. En casos como estos, la metodología aplicable al análisis de datos categóricos utiliza a la distribución Chi‐cuadrado como criterio de test. En general este tipo de prueba estadística consisten en tomar una muestra y observar si hay diferencia significativa entre las frecuencias observadas y las frecuencias esperadas para un modelo teórico que suponga homogeneidad en todas las categorías.1‐2 Se contrasta de este modo la hipótesis de que las variables son independientes, frente a la hipótesis alternativa de que una variable se distribuye de modo diferente para diversos niveles de la otra.3

TABLAS DE CONTINGENCIA

En algunos estudios, es muy frecuente que los datos representen frecuencias (conteos) de la ocurrencia de determinada característica (por ejemplo, presencia de cierta enfermedad) que se puede clasificar en categorías de una variable cualitativa. Estas categorías pueden ser representadas en una tabla, denominada tabla de contingencia.4 Estas tablas, se caracterizan por tabular el entrecruzamiento de las frecuencias de variables en sus respectivos niveles o categorías (Tabla 1 y 2). Cuando la tabla es bidimensional y las variables representadas tienen solo dos categorías, es una tabla de contingencia denominada Tabla de 2x2 (Tabla 2). Tabla 1. Ejemplo de tabla de contingencia. Nivel de instrucción materno Analfabeta o primario incompleto Primario completo Secundario completo Estudios terciarios o Universitarios Total

Niño con desnutrición 32 22 13 8 75

Niño sin desnutrición 14 24 41 55 134

Total 46 46 54 63 209 151

Tabla 2. Ejemplo de tabla de contingencia tipo Tabla de 2x2. Obesidad Infantil Si No 25 12 13 34 38 46

Diabetes gestacional Si No Total

Total 37 47 84

PRUEBA CHI-CUADRADO

El procedimiento general para esta prueba, partiendo de una tabla de contingencia, es el siguiente: 1. Formulación de las hipótesis estadísticas H0 y H1. En este tipo de prueba la hipótesis nula H0 afirma que no existe asociación entre las variables estudiadas, y la hipótesis alternativa H1 lo contrario. 2. Selección y cálculo del estadístico de contraste. En este caso es el siguiente estadístico χ2:

χ =∑ 2

( fo

− fe ) fe

2

donde fo = frecuencia observada de elementos en cada celda de la tabla de contingencia fe = frecuencia esperada de elementos en cada celda de la tabla de contingencia, la cual se calcula multiplicando las frecuencias marginales (el total de la fila por el total de la columna) sobre el n (total general). 3. Establecimiento del nivel de significación (α) para delimitar las regiones de rechazo y no rechazo de H0. La prueba Chi‐cuadrado es siempre de tipo unilateral derecha, por ende, el valor crítico que define los límites de ambas regiones corresponde al cuantil 1‐α, el cual se obtiene de la tabla de distribución Chi‐cuadrado. Se deberá ingresar a la misma con (l ‐ 1) x (c ‐ 1) grados de libertad, siendo l es el número de líneas y c el número de columnas de la tabla de contingencia.

152

Figura 1. Región de rechazo y no rechazo de H0 para una prueba Chi‐cuadrado.

4. Verificación de si el valor del estadístico pertenece o no a la región de rechazo de H0, comparando su valor con el valor crítico establecido. En esta prueba la regla de decisión estadística será rechazar la hipótesis nula si el valor del estadístico de contraste es mayor que el valor teórico obtenido de la tabla Chi‐ cuadrado a un nivel de significancia α. Caso contrario, no rechazamos H0. Veamos este procedimiento con un ejemplo. Ejemplo 1. Una institución de salud desea conocer si existe asociación entre el peso al nacer y el tipo de parto. Para ello se tomó una muestra de 200 recién nacidos. Los datos recabados fueron los siguientes:

Tipo de Parto Natural Cesárea Total

Peso al Nacer Normal Bajo Peso 42 58 65 35 107 93

Total 100 100 200

Estableciendo un nivel de significación de 0,05 ¿se puede suponer que existe tal asociación? O lo que es lo mismo, ¿es posible afirmar que el peso al nacer y el tipo de parto son variables independientes? Resolución: 1. Formulación de las hipótesis estadísticas H0 y H1: H0: No existe asociación entre el peso al nacer y el tipo de parto (son independientes). H1: Existe asociación o dependencia entre el peso al nacer y el tipo de parto. 153

2. Selección y cálculo del estadístico de contraste χ2:

χ =∑ 2

( fo

− fe ) fe

2

Puede ser útil construir la siguiente tabla de cálculo para presentar las frecuencias observadas (fo) y esperadas (fe): Peso al Nacer Normal Bajo Peso fo (fe) fo (fe) 42 (53,5) 58 (46,5) 65 (53,5) 35 (46,5) 107 93

Tipo de Parto Natural Cesárea Total

Total 100 100 200

Como vemos, por ejemplo, para calcular la frecuencia esperada de la primera casilla (parto natural x peso al nacer normal), multiplicamos el total de la línea (correspondiente a parto natural) por el total de la columna (para peso normal), dividido el tamaño muestral: fe = (100 x 107)/200 Lo mismo realizamos para el resto de las casillas de la tabla. Habiendo calculado las frecuencias esperadas, procedemos a aplicar la fórmula:

χ =∑ 2

χ2 =

( f o − f e )2 fe

(42 − 53,5)2 + (58 − 46,5)2 + (65 − 53,5)2 + (35 − 46,5)2 53,5

46,5

53,5

46,5

= 10,63

3. Estableciendo como nivel de significación un α= 0,05, se delimitan las regiones de rechazo y no rechazo de H0 de acuerdo al valor crítico buscado en la tabla de distribución Chi‐cuadrado, correspondiente al cuantil 1‐α= 0,95 y (l ‐ 1) x (c ‐ 1) grados de libertad. En este caso, los grados de libertad son (2‐1) x (2‐1)= 1, dado que la tabla presenta dos columnas y dos filas. 2 El valor teórico encontrado es, en este caso, un χ teórico = 3,84

154

4. Finalmente verificamos si el valor del estadístico pertenece o no a la región de rechazo de H0. Dado que el valor del estadístico de contraste 10,63 es mayor que el valor teórico obtenido 3,84, rechazamos H0. Concluimos que existe asociación entre el peso al nacer y el tipo de parto, con un 95% de confianza.

ANÁLISIS DE RELACIONES ENTRE VARIABLES CUANTITATIVAS

Además de la estimación de parámetros y pruebas de hipótesis, existen otras metodologías estadísticas a las cuales se recurre cuando se desea estudiar la relación entre más de una variable medida sobre una misma unidad de observación. Ya hemos visto que, en el caso de datos categóricos, se puede aplicar la prueba Chi‐cuadrado. En tanto, si se desea conocer los cambios de una variable cuantitativa en función de las variaciones en otra variable, también cuantitativa, se puede efectuar un análisis de regresión ó examinar la correlación entre ambas variables. En términos generales, la principal diferencia entre ambas metodologías radica en que la primera permite estimar el valor de una variable conociendo el valor de la otra, mientras que el análisis de correlación, mide el grado de relación entre las dos variables (su magnitud y direccionalidad). A continuación se presentan los fundamentos y aplicaciones de las principales metodologías de análisis de relaciones entre variables cuantitativas.

ANÁLISIS DE REGRESIÓN

Las técnicas de regresión permiten hacer predicciones sobre los valores de cierta variable Y (dependiente), a partir de los valores de otra variable X (independiente), entre las que intuimos que existe una relación.1 Por ejemplo, si sobre un grupo de pacientes observamos los valores que toman las variables glucemia postprandial (mg/dl) y gramos de glucosa consumidos. Podemos intuir que los valores de glucosa en sangre aumentarán en función del aumento de los gramos de glucosa ingeridos. El análisis de regresión nos permitirá realizar predicciones acerca del valor de glucemia en función de las variaciones en los valores de glucosa consumida.

155

ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

La regresión lineal consiste en aproximar los valores de una variable a partir de los de otra, usando una relación funcional de tipo lineal.1 Es decir, buscamos cantidades a y b tales que se pueda escribir la siguiente ecuación de regresión, correspondiente a una recta que describe la dependencia del valor promedio de una variable sobre otra:5 Yˆi = a + bxi

donde Yˆi = valor de la variable Y

a = indica el valor de Y para X = 0, esto es, el punto donde la recta corta el eje de las y, llamado ordenada al origen. b = indica cuánto cambia Y por cada aumento unitario en X. Es la pendiente de la recta. xi = valor de la variable X. Las cantidades a y b son los llamados coeficientes de regresión muestrales. Estos pueden calcularse a partir de determinadas ecuaciones matemáticas y ser sometidos a pruebas de significación. Así, vemos que conociendo los valores de a y b, para un determinado valor de X, puede estimarse el valor de Y. Si bien esto no será detallado en el presente material de estudio, puede consultarse la bibliografía complementaria sugerida por el docente a tal fin. ANÁLISIS DE REGRESIÓN LINEAL MULTIPLE

Este modelo de regresión puede estudiarse como una extensión del modelo lineal simple en el que considerábamos una sola variable independiente.5 La técnica de regresión múltiple se aplica al caso en que la variable respuesta (dependiente) es de tipo numérica y depende de dos o mas variables independientes (predictoras o explicativas). Aquí se considera que la variable de respuesta depende de varias variables, algunas conocidas por el investigador y otras no. El modelo de regresión múltiple trata de estimar el efecto de las más importantes, englobando las demás en el término que denominaremos error aleatorio.5 Como ejemplo podría suponerse que la variable de respuesta frecuencia cardíaca depende de las variables predictoras intensidad del esfuerzo físico y edad. 156

ANÁLISIS DE CORRELACIÓN LINEAL

El análisis de correlación mide el grado de asociación que existe entre dos variables numéricas (llámese X e Y) y la dirección de la relación lineal establecida, a partir del cálculo del siguiente un coeficiente muestral r, denominado coeficiente de correlación lineal o de Pearson:5

∑ (x r=

∑ (x

i

n −1

− X)

2

i

n −1

donde

− X )( y i − Y )

∑ (y ⋅

−Y )

2

i

n −1

xi = valores muestrales de la variable X yi = valores muestrales de la variable Y X = media de los valores xi Y = media de los valores yi n = tamaño muestral

El valor r obtenido para este coeficiente varían siempre entre ‐1 y 1. Si el coeficiente tiene signo positivo, indica que las variables X e Y varían en el mismo sentido, es decir, si el valor de una aumenta, el de la otra también (o viceversa). Se dice en este caso, que existe una correlación lineal positiva, más fuerte cuanto más se acerque el valor a 1. En cambio, si el valor adopta signo negativo indica correlación negativa o inversa, esto es: a medida que el valor de X aumenta, el de Y disminuye (o viceversa). En caso que r = 0 indica que no existe relación entre las variables estudiadas, o que la relación no es de tipo lineal. DIAGRAMAS DE DISPERSIÓN

La representación gráfica de la relación de dos variables cuantitativas puede realizarse mediante los denominados diagramas de dispersión. Estos grafican los n pares de datos de dos variables X e Y. Los posibles valores de cada variable están representados en dos ejes, y cada punto representa un par de datos que entrecruza los valores de X e Y para cada unidad de observación. Los dibujos que resultan de tal gráfico nos dan un indicio de si existe alguna tendencia que indique relación.6 Se presentan a continuación un ejemplo de las diferentes situaciones posibles (Figura 1). 157

Figura 1. Diagramas de Dispersión para la relación entre dos variables X e Y: A) Relación lineal positiva; B) Relación lineal negativa; C) Ausencia de relación; D) Relación No Lineal.

158

BIBLIOGRAFÍA – MÓDULO 6

1. Ríus Díaz F, Barón Lopez FJ, Sánchez Font E, Parras Guijosa L. Bioestadística: Métodos y Aplicaciones. Facultad de Medicina, Universidad de Málaga. Disponible en http://www.bioestadistica.uma.es/libro/ 2. Peña D. Fundamentos de Estadística. Madrid: Alianza Editorial; 2001. 3. Barón López FJ, Téllez Montiel F. Apuntes de Bioestadística: Tercer ciclo en Ciencias de la Salud y Medicina. Universidad de Málaga: 2004. Disponible en http://www.bioestadistica.uma.es/baron/ 4. Andrade DF, Ogliari PJ. Estatística para as ciências agrárias e biológicas, com noçoes de experimentaçao. Florianópolis: Ed. Da UFSC, 2007. 5. Blanch N, Joekes S. Curso de Estadística aplicada a la Investigación. Departamento de Educación a Distancia, Facultad de Ciencias Económicas, UNC. 8va. Ed. Córdoba: UNC; 2005. 6. Bordón LG. Estadística aplicada a Ciencias de la Salud. Una herramienta para la Investigación. 5ta ed. Córdoba: LG Bordón Ed. 1999.

159

160

ESTADÍSTICA Y BIOESTADÍSTICA

MÓDULO 7 ESTADÍSTICAS SANITARIAS Y NUTRICIONALES

161

162

DEMOGRAFÍA. CONCEPTOS BÁSICOS La demografía es la ciencia que tiene por objeto el estudio de las poblaciones humanas tratando, desde el punto de vista principalmente cuantitativo, su dimensión, su estructura, su evolución y sus características generales. En la actualidad se considera que abarca también el estudio de los cambios de la población en sus contextos biológico y social. El concepto de demografía se encuentra íntimamente ligado al de estadística, ciencia que le provee las herramientas metodológico‐analíticas para la recolección, análisis e interpretación de los datos poblacionales. La denominada demografía cuantitativa incluye dos enfoques para la caracterización de las poblaciones, cada uno de los cuales se refiere a: 1) La estructura de la población: estado de las poblaciones en un momento fijo. Ej.: número de habitantes y su distribución por edad y sexo, en un momento dado. 2) La dinámica poblacional: estudio de las variaciones acontecidas en una sociedad a lo largo de un período de tiempo. La estructura poblacional es descripta mediante el censo de población, fuente primaria que provee información acerca de características demográficas básicas (como sexo y edad), económicas y sociales de los habitantes de una población, en un momento determinado. A partir de los datos censales es posible clasificar a la población según sus características de sexo, edad, nivel socioeconómico, estado civil, entre otras; y analizar luego su distribución en torno a éstas. De esta manera se puede describir, por ejemplo: a) la distribución de los habitantes por géneros; b) la distribución por edad, para cada sexo; c) la distribución geográfica de la población; d) la distribución de los habitantes según nivel socio‐económico. Los hechos demográficos, a diferencia de los censos, permiten estudiar la dinámica o movilidad de la población, en cuanto a los acontecimientos producidos en un período determinado. Se consideran hechos demográficos el crecimiento natural de las poblaciones (natalidad y mortalidad), los movimientos migratorios (inmigraciones y emigraciones), entre otros.

163

LA ESTRUCTURA DE LA POBLACIÓN: PIRÁMIDES POBLACIONALES A partir de la información recabada en los censos poblacionales es posible también construir las denominadas pirámides poblacionales. Una pirámide de población es una representación gráfica de la distribución por sexo y edad de los habitantes de una determinada población. Su análisis permite percibir fácilmente algunos fenómenos demográficos como el envejecimiento de la población, el equilibrio o desequilibrio en la distribución por sexos, e incluso conocer el efecto demográfico de catástrofes y guerras. En una pirámide los segmentos de la población están divididos como “cohortes” o generaciones, generalmente de 5 años, que se representan en forma de barras horizontales que parten de un eje común, ubicándose hacia la izquierda los hombres y hacia la derecha las mujeres, por convención. Gráficamente se trata de un doble histograma de frecuencias invertido. En su representación, como se puede observar en la Figura 1 encontramos: - Un eje vertical, en el cual se colocan las edades de la población, agrupadas en intervalos de 5 años (quinquenios). - Dos semiejes horizontales, uno derecho y otro izquierdo, lo cuales indican el porcentaje de mujeres y hombres, respectivamente, sobre el total de la población de ambos sexos. A veces pueden representarse valores absolutos (número de habitantes, en millones). - Barras horizontales. Cada barra de la derecha representa el porcentaje (o número de habitantes) de población femenina de cada grupo de edad en el total de población de ambos sexos. Las barras de la izquierda representan igualmente al sexo masculino. Hombres Mujeres

% Figura 1. Estructura de la población Argentina en el año 2001.

164

A

B.

Figura 2. Pirámides de población en Bolivia. Sección Coroico (A) y Comunidad Yavicucho (B). Año 2002. De acuerdo a la distribución de las barras a la derecha y la izquierda de una pirámide es posible clasificarla como: a) rítmica y b) arrítmica. En las pirámides rítmicas (Figura 2A) hay un equilibrio entre sexos y una disminución uniforme de los números de habitantes correspondientes a cada grupo de edad. En las pirámides arrítmicas (Figura 2B) los desequilibrios en las barras son marcados, ya sea entre sexos y/o grupos de edad. En toda pirámide es posible además distinguir dos partes básicas a considerar para su análisis e interpretación. Estas son: - La cúspide: parte superior de la pirámide de población, conformada por las barras correspondientes a los grupos de edad más avanzada. En general contiene las barras de menor longitud. 165

-

La base: parte inferior de la pirámide de población, conformada por las barras correspondientes a los grupos de edad más joven. En general contiene las barras de mayor longitud.

Así, una completa lectura de una pirámide poblacional nos brinda información acerca de: ‐ La distribución comparativa entre los sexos y/o diferentes grupos de edad en una pirámide. Así, una pirámide con base ancha y una disminución rápida del tamaño de los grupos de edades a medida que nos aproximamos a la cúspide representa una población joven. Si se observara por ejemplo, para las edades comprendidas entre 20 a 35 años, mayor longitud de la barra izquierda, se podría afirmar un mayor predominio de varones en ese grupo de edad. ‐ Cambios en la estructura poblacional a lo largo del tiempo, en relación a hechos demográficos básicos (natalidad, mortalidad, migraciones, etc.). Si por ejemplo, la base de la pirámide de un país se ha vuelto más estrecha a lo largo de los años, podría reflejarse un descenso en la natalidad en esa población. Por el contrario, el progresivo aumento de la población en los grupos de edades cercanos a la cúspide reflejaría el incremento en la esperanza de vida de la población o un descenso de la mortalidad en adultos mayores, relacionado posiblemente al fenómeno de envejecimiento poblacional. El efecto demográfico, por ejemplo, de guerras o marcados procesos migratorios también puede observarse al analizar cambios en la estructura de la población mediante las pirámides. Algunos ejemplos: En la pirámide de la Figura 3 se puede observar, en las cohortes entre los 35 y los 50 años, el efecto del ¨baby‐boom¨ que se produjo en Estados Unidos tras la segunda guerra mundial.

166

Fig gura 3. Estru uctura pobla acional de Estados E Uniidos, año 20 000.

Figura 4. Estructura poblacional de Qatar, año 2000. El mayor preedominio en la cantidaad de varones de 30 a 50 años observado en la dría reflejarr la influencia del pro oceso inmiggratorio en la població ón de Figurra n° 4 pod Qataar. Países co omo este, con c alto nivvel de rentaa, atraen mucha m poblaación emigrrante, princcipalmente masculina y en edaad adulta, por lo que muestran una cu uriosa deformación en n la conform mación de su us pirámide es poblacion nales. Exxisten algun nos modelos de pirámiide que cab be señalar: 1. Expansiva: de base ancha con disminución rápida h hacia la cúspide 5 Represen nta a una po oblación jovven con nattalidad alta,, lo cual es típico t (Figura 5). de los paaíses subdesarrollados.

167

Figura 5: Esstructura po oblacional de d Hondurass, año 1998 8. Ejeemplo de pirrámide de tipo t expansiiva. 2. Regresiva: R d base más estrechaa que las barras de b centtrales y cúspide relativam mente anch ha (Figura 6). Indica un descen nso de la n natalidad en los últimos años a y un previsible p en nvejecimien nto poblacio onal. Es pro opia de los países p desarrollados.

F Figura 6. Esstructura po oblacional de d Alemania a, año 2000 0. Ejeemplo de piirámide de tipo t regresiiva.

168

3. Estacionariaa: base y centro c de similar tam maño, y cú úspide reducida (Figura 7). 7 Refleja una u reducciión o estan ncamiento de d la natalid dad. Es típica de los paísees en vías dee desarrollo o.

Fig gura 7. Pirám mide de pob blación mun ndial estima ada para 20 050. Ejemplo dee pirámide de d població ón de tipo esstacionaria..

Veeamos a co ontinuación unos ejem mplos de có ómo integraar los conceeptos hastaa aquí preseentados para una completa interp pretación de e pirámidess poblacionaales.

Figura 8.. Pirámide de d la poblacción española (1996).

169

La estructura de la población española en el año 1996, representada en la Figura 8, muestra una distribución similar en ambos sexos y en los distintos grupos de edades, lo cual es claramente observable a partir de la forma simétrica de su pirámide. La misma, es una pirámide de tipo regresiva dado que presenta una base notablemente más estrecha que las barras correspondientes a las edades centrales, con una disminución poco acentuada hacia la cúspide. Si observamos comparativamente los escalones de edades más tempranas y más tardías (base y cúspide de la pirámide), representativos de los fenómenos de natalidad y mortalidad respectivamente, vemos que la natalidad fue similar en ambos sexos (barras en los escalones inferiores de igual longitud), mientras que, la mortalidad en adultos mayores fue superior en la población masculina (barras en la cúspide de menor longitud en varones que en mujeres). O lo que es lo mismo: las mujeres presentaron una mayor esperanza de vida. En la Figura 9 se observa la estructura demográfica de extranjeros de nacionalidad marroquí residentes en España, en el año 2006. Esta pirámide es marcadamente asimétrica, en especial en los grupos de edades centrales. Su forma no responde a ninguna de las tipologías clásicas (regresiva, expansiva, estacionaria). Es destacable la mayor concentración en el grupo de varones entre 20 y 45 años (barras de mayor longitud en varones que en mujeres en los escalones correspondientes a ese intervalo de edad), lo cual podría ser reflejo del proceso de inmigración masculina, económicamente activa, en busca de oportunidades laborales en este país. La natalidad y mortalidad (en adultos mayores) muestran un patrón similar en ambos sexos. La mortalidad es elevada en mayores de 70 años, tanto en hombres como en mujeres.

Figura 9. España, 2006. Pirámide de población, habitantes con nacionalidad marroquí.

170

LA DINÁMICA POBLACIONAL: CONCEPTO DE TASA El estudio de la dinámica poblacional considera la movilidad o crecimiento natural de las poblaciones, lo cual está íntimamente relacionado con los nacimientos y muertes acontecidas en estas. La natalidad y mortalidad son comúnmente expresadas como tasas. Una tasa es una medida de la frecuencia con la que ocurren determinados eventos (muertes, nacimientos, enfermedad) en una población, en un período dado. Se puede decir que es una proporción que mide un “riesgo” (probabilidad de que ocurra ese evento) e incluye una medida de tiempo en el denominador. Pueden ser referidas al total de la población objeto de estudio, o a subgrupos de la misma. Las primeras se conocen como tasas brutas o tasas crudas, y las segundas como tasas específicas. Los componentes de una tasa son los siguientes: a) numerador: número de eventos (nacimientos, muertes, etc.), en una población dada, por unidad de tiempo (ejemplo: durante el año ¨x¨). En términos generales, cuando el evento medido es la muerte nos referimos a tasas de mortalidad, mientras que hablamos de tasas de natalidad si el evento es el nacimiento. b) denominador: población expuesta al riesgo de ocurrencia de ese evento en el período de tiempo en estudio. En las tasas de mortalidad general y natalidad (bruta) se refiere a la población total (número de habitantes) bajo estudio en el período dado. En las tasas de mortalidad materna e infantil (menores de 1 año) la población expuesta se expresa en función del total de nacidos vivos registrados en el período en cuestión. c) factor de amplificación: multiplicador (en base 10) que convierte la tasa en un número entero. Las siguientes son algunas de las tasas más comúnmente utilizadas: - Tasa de Mortalidad General (TM): Es el número de defunciones, por todas las causas de muerte, que ocurre en un período de tiempo determinado, dividido por la población expuesta al riesgo de muerte durante ese período. Generalmente se hace referencia a la población correspondiente a la mitad del período. x TM = .1000 N donde x = Número de defunciones acaecidas en la población de una zona geográfica dada. N= Población total de la zona geográfica dada en mitad del mismo año.

171

‐ Tasas de Mortalidad específicas según edad (TME): Se refieren a la fuerza de la mortalidad en las distintas categorías o estratos de edad en los que dividimos la mortalidad general. Expresa el riesgo de morir en cada uno de los grupos de edad elegidos para el cálculo. La especificación de la edad y el sexo elimina las diferencias que podrían deberse a las variaciones en la población con respecto a estas características, permitiendo comparaciones entre zonas geográficas o períodos. x TME = i .1000 Ni donde i indica al i‐ésimo grupo de edad xi= Número de defunciones acaecidas en el i‐ésimo grupo de edad de la población de un área geográfica dada durante un año dado. Ni= Población en el i‐ésimo grupo de edad del área geográfica dada durante el mismo año. ‐ Tasa de Mortalidad Materna (TMM): Se denomina muerte materna a la defunción de una mujer mientras está embarazada o dentro de los 42 días siguientes a la terminación del embarazo, independientemente de la duración y el sitio del embarazo, debido a cualquier causa relacionada con o agravada por el embarazo mismo o su atención pero no por causas accidentales o incidentales. Esta tasa refleja el riesgo de morir de las mujeres durante la gestación y el parto. Se utiliza como denominador el número de nacidos vivos, como una aproximación al número de mujeres expuestas a morir por causas relacionadas con el embarazo, el parto y el puerperio. x TMM = m .10000 N´ donde xm= Número de defunciones por causas maternas acaecidas en la población femenina de un área geográfica dada durante un año dado. N´= Número de nacidos vivos registrados en la población del área geográfica dada durante el mismo año. ‐ Tasa de Mortalidad Infantil: Esta tasa relaciona las defunciones anuales de niños menores de 1 año con el número de nacidos vivos registrados en el mismo lugar y período de tiempo. Se expresan por 1000 nacidos vivos, y su numerador varía de acuerdo al grupo específico de edades al que hace referencia: la tasa de mortalidad infantil comprende la mortalidad de menores de un año, la mortalidad neonatal se refiere a la ocurrida en el transcurso de los primeros 27 días de vida y la postneonatal a la comprendida desde el fin del período neonatal hasta la edad de un año. En el estudio de la mortalidad infantil se debe tener en cuenta un conjunto de 172

factores que influyen y determinan el nivel de la misma: biológicos, demográficos, socio‐económicos, culturales, ambientales, de atención de la salud y geográficos. La influencia de estos factores difiere según la edad de los menores de un año. a) Tasa de Mortalidad Neonatal (TMN): se refiere a las defunciones anuales de niños menores de 28 días de vida. Puede dividirse a su vez en dos componentes: precoz (0 a 6 días) y tardío (7 a 28 días). En la mortalidad neonatal prevalece la influencia de factores vinculados con las condiciones congénitas como con la atención de la salud (salud de la madre, control del embarazo, atención del parto y del niño durante los primeros días de vida). r TMN = i .1000 N´ donde i indica al i‐ésimo grupo de edad, en este caso, menores de 28 días de edad. ri= Número de defunciones de niños menores de un 28 días de edad acaecidas en la población de un área geográfica dada durante un año dado. N´= Número de nacidos vivos registrados en la población del área geográfica dada durante el mismo año. b) Tasa de Mortalidad Post‐neonatal (TMPn): registra las defunciones anuales de niños entre 28 días y 1 año de vida. Se relaciona con causas de muerte debidas a problemas provenientes del medio ambiente (infecciones, diarreas, deshidratación trastornos respiratorios agudos, etc.). w TMPn = i .1000 N´ donde i indica al i‐ésimo grupo de edad, en este caso, entre 28 y 365 días de edad. wi= Número de defunciones de niños menores de 28 días a menos de un año de edad acaecidas en la población de un área geográfica dada durante un año dado. N´= Número de nacidos vivos registrados en la población del área geográfica dada durante el mismo año. c) Tasa de Mortalidad Infantil (TMI): relaciona las defunciones de menores de un año acaecidas durante un año y el número de nacidos vivos registrados en el transcurso del mismo año. t TMI = i .1000 N´ donde i indica al i‐ésimo grupo de edad, en este caso, menores de 1 año de edad.

173

ti= Número de defunciones de menores de un año de edad acaecidas en la población de un área geográfica dada durante un año dado. N´= Número de nacidos vivos registrados en la población del área geográfica dada durante el mismo año. ‐ Tasa de Natalidad (TN): Es la relación entre los nacidos vivos de una población y el total de habitantes de esa población, estimada a mitad del año de estudio. Se expresa por 1000 habitantes. N´ .1000 TN = N donde N´= Número de nacidos vivos registrados en la población del área geográfica dada durante un año dado. N= Población total de la zona geográfica dada en mitad del mismo año. A modo de ejemplo, se presentan las tasas mencionadas para la población Argentina, año 2008, según datos publicados por el Instituto Nacional de Estadísticas y Censos (INDEC). Indicadores de Salud de la población Argentina. Año 2008.

Indicadores de Salud

Total del país. Año 2008.

Tasa de mortalidad general por 1000 habitantes.

7,6

Tasa de mortalidad específica en grupo de 35‐45 años por 1000 habitantes.

1,9

Tasa de mortalidad materna por 10 000 nacidos vivos.

4,0

Tasa de mortalidad infantil neonatal por 1000 nacidos vivos.

8,3

Tasa de mortalidad infantil post‐neonatal por 1000 nacidos vivos.

4,2

Tasa de mortalidad infantil total por 1000 nacidos vivos.

12,5

Tasa bruta de natalidad por 1000 habitantes.

20,6

Fuente: INDEC, Dirección de Estadísticas Sectoriales en base a información suministrada por el Ministerio de Salud de la Nación, Dirección de Estadísticas e Información de Salud (DEIS). Como se observa en la tabla, en Argentina se registraron, durante el año 2008, 7.6 defunciones (por todas las causas de muerte) por cada 1000 habitantes. Específicamente para el grupo de edad de 35 a 45 años la mortalidad fue de

174

aproximadamente 1.9 defunciones por cada 1000 habitantes. El número medio anual de nacimientos ocurridos durante el 2008 fue de 20.6 por cada 1000 habitantes. En ese período, la cantidad de mujeres fallecidas por causas vinculadas al embarazo, parto y puerperio fue 4.0 por cada 10 000 nacidos vivos. El número de defunciones de menores de un año acaecidas en Argentina durante el 2008 fue, aproximadamente, 12.5 por cada 1000 nacidos vivos registrados en el transcurso del mismo año. En dicha población, la cantidad de niños fallecidos en los primeros 27 días de vida, es decir, por causas de muerte vinculadas con condiciones congénitas o con la atención de la salud de la madre o el recién nacido (atención del embarazo, parto y puerperio), fue de 8.3 por cada 1000 nacimientos. En tanto, en el grupo post‐neonatal (niños entre los 28 y los 365 días de vida) se registraron 4.2 defunciones por cada 1000 nacidos vivos, lo cual suele asociarse a problemas socio‐ ambientales.

175

BIBLIOGRAFÍA – MÓDULO 7

El presente módulo pertenece al material bibliográfico: • Aballay LR, Pou SA, Tumas N, Díaz P, Díaz MP. “Estadística aplicada a las Ciencias de la Salud”, 2009, de la Cátedra de Estadística y Bioestadística de la Escuela de Nutrición, FCM, UNC. 1. Maldonado Cruz P (2005). Demografía, conceptos y técnicas fundamentales. Madrid (España): Plaza y Valdez. 159p. 2. Instituto Nacional de Estadísticas y Censos – INDEC (2009a). [Consultado el 18 Marzo 2009]. Disponible en: http://www.indec.gov.ar 3. Instituto Nacional de Estadísticas y Censos – INDEC (2009b). [Consultado el 18 Marzo 2009]. Disponible en: http://www.indec.mecon.ar 4. Dirección de Estadísticas e Información de Salud ‐ DEIS. Ministerio de Salud, Presidencia de la Nación (2009a). [Consultado el 17 Marzo 2009]. Disponible en: http://www.deis.gov.ar/definiciones.htm# 5. Dirección de Estadísticas e Información de Salud ‐ DEIS. Ministerio de Salud, Presidencia de la Nación (2009b). [Consultado el 17 Marzo 2009]. Disponible en: http://www.deis.gov.ar/indicadores.htm# 6. Instituto Carlos III (2003). Sistema de aprendizaje multimedia en Epidemiología. Universidad de Educación a Distancia de España.

176

UNIVERSIDAD CATÓLICA DE CÓRDOBA FACULTAD DE MEDICINA LICENCIATURA EN NUTRICIÓN

ESTADÍSTICA Y BIOESTADÍSTICA

GUÍA DE TRABAJOS PRÁCTICOS 2013

177

178

ESTADÍSTICA Y BIOESTADÍSTICA TRABAJO PRÁCTICO N° 1

1) Dado los casos que se presentan a continuación, determine a qué tipo de estudio corresponden. Caso 1. Se realizó una Encuesta Nacional sobre Factores de Riesgo Cardiovascular con el objetivo de describir la prevalencia de los principales factores de riesgo para esta enfermedad en las diferentes provincias que participaron de la encuesta. Caso 2. Se desea evaluar la mayor efectividad de un nuevo suplemento de hierro que se pretende lanzar al mercado (vs otro utilizado tradicionalmente) para el tratamiento de la anemia. Para ello se tomó una muestra de personas con anemia, y se las asignó a dos grupos: uno recibió el nuevo suplemento ferroso y otro recibió un suplemento tradicionalmente indicado. Luego de 3 meses de seguir el protocolo de tratamiento previsto se evaluó en los participantes el estado de la enfermedad para establecer conclusiones acerca de la mayor efectividad o no del nuevo suplemento.

Caso 3. El Servicio de Nutrición de un determinado hospital desea efectuar un estudio sobre la ocurrencia de desnutrición intrahospitalaria. Para ello se seleccionará una muestra de 100 pacientes internados en un periodo determinado, y se revisarán sus historias clínicas, observando su estado nutricional al momento del ingreso y el egreso en salas de internación, y valorando su asociación con otras variables de interés (días de internación, tipo de alimentación, etc). El estudio pretende recabar información útil para tomar acciones preventivas tendientes a disminuir el riesgo de ocurrencia de desnutrición intrahospitalaria. Caso 4. A los fines de estudiar el efecto de un aditivo alimentario conservante recientemente aprobado por la FDA (Food and Drug Administration) una industria alimentaria dividió la producción en lotes de igual tamaño y mantenidos en iguales condiciones de temperatura, humedad, etc. Ciertos lotes fueron asignados al azar para el empleo del conservante convencional, y otra cantidad de lotes para la aplicación del nuevo aditivo. Al cabo de un período 179

determinado se evaluó las características de conservación del producto en los diferentes lotes. Tras la aplicación de adecuados métodos de la estadística inferencial se tomó la decisión acerca del conservante que es más conveniente utilizar.

2) Identifique para cada una de las siguientes situaciones problemáticas: población, muestra, unidad de observación o experimentación, y variables involucradas. a) Un organismo oficial desea calcular la proporción de hogares de una determinada ciudad cuyo nivel medio de ingresos se encuentra por debajo del precio de la canasta alimentaria informada por INDEC para el periodo Enero‐Marzo 2012. b) La Secretaría de Graduados de una universidad desea conocer si el promedio de calificaciones de los egresados de la Licenciatura de Nutrición en el año 2011 supera al promedio histórico de la carrera. c) Un bromatólogo desea calcular el rango de temperaturas registrado en las cámaras frigoríficas de una determinada cadena de supermercados de Córdoba durante los meses estivales del pasado año. d) Un empresario desea calcular la proporción de piezas de quesos defectuosas de todas las fabricadas en su industria, durante la producción 2011‐2012. e) Un nutricionista desea investigar el efecto de la ingesta de café, el consumo de alcohol, el hábito de fumar y la actividad física sobre el patrón de ocurrencia del cáncer de colon en la Provincia de La Pampa durante el año en curso. f) Para un estudio de mercado 2013 se desea determinar si la mayoría de las mujeres adolescentes de la ciudad de Río Cuarto prefieren las gaseosas tipo light, y si esta preferencia tiene relación con su nivel socioeconómico.

180

g) Un gastroenterólogo desea estudiar la relación entre enfermedad celíaca en adultos y antecedentes familiares de la enfermedad en una población que registró alta incidencia durante el año 2010.

181

182

ESTADÍSTICA Y BIOESTADÍSTICA TRABAJO PRÁCTICO N° 2

1) Un estudio sobre síndrome metabólico describe el siguiente conjunto de variables referentes a un grupo poblacional determinado: • • • • • • • • • • • • • • • • • • •

Sexo (hombre o mujer) Edad (años) Localidad de residencia Peso (kg) Talla (cm) Diámetro de cintura (cm) Sobrepeso (sin sobrepeso, pre‐obesidad, obesidad) Hábito de fumar (fumador o no fumador) Cantidad de cigarrillos fumados por día Cantidad de veces semanales que realiza actividad física moderada Frecuencia semanal de consumo (veces/semana) de bebidas alcohólicas Colesterol en sangre (mg/dl) Triglicéridos en sangre (mg/dl) Presión arterial (mmHg) Hipertensión arterial (no, leve, moderada, severa) Glucosa en ayunas (mg/dl) Antecedentes familiares de obesidad (si o no) Antecedentes familiares de dislipemia (si o no) Antecedentes de familiares de diabetes (si o no)

a) Indique a qué tipo de variable corresponde cada una y cuál es la escala de medición utilizada. b) Proponga un tipo de gráfico que considere adecuado para representar la distribución de cada una de estas variables. 2) En el punto 3 del trabajo práctico N°1 se le solicitó que identificara las variables involucradas en cada una de las situaciones problemáticas propuestas. Indique ahora a qué clasificación corresponden de acuerdo a su modalidad.

183

3) En un estudio sobre calidad alimentaria se seleccionó una muestra de 60 lotes de producción y se determinó el número de productos de cada lote que difieren de las normas de calidad establecidas, dando como resultado lo siguiente: Nro de productos que incumplen las normas de calidad 0 1 2 3 4 5 6 7 8 TOTAL

Frecuencia absoluta (ni) 7 12 13 14 6 3 3 1 1 60

a) Defina para este estudio su población, muestra y unidad de observación. b) ¿Cuál es la variable de interés? ¿De qué tipo es? c) Determine las frecuencias relativas y las frecuencias acumuladas (absolutas y relativas) para los valores observados de la variable estudiada. d) ¿Qué proporción de lotes en la muestra tienen a lo sumo cinco productos que incumplen las normas de calidad? ¿Qué proporción tiene menos de cinco? ¿Qué proporción tiene al menos cinco productos que incumplen las normas? e) Ilustre gráficamente la distribución de la variable. Interprete.

184

4) En un estudio sobre imagen corporal se obtuvieron los siguientes datos respecto de las edades (en años) de mujeres encuestadas que refirieron estar disconformes con su peso: 28, 22, 35, 42, 44, 53, 58, 41, 40, 32, 31, 38, 37, 61, 25, 35 a) Calcule la media, mediana y desviación estándar de esta muestra, a partir de los datos en serie simple (como han sido presentados). Interprete. b) Agrupando en intervalos de 10 años (comenzando por 20‐29) construya una tabla de distribución de frecuencias (absolutas, relativas, acumuladas). Extraiga alguna consideración importante de lo observado en ella. c) Realice ahora el cálculo de media, mediana y desviación estándar para los datos agrupados, basándose en la tabla construida. Interprete. d) Construya un gráfico adecuado para representar la distribución de frecuencias e interprete.

5) Considere los siguientes datos acerca de la variable causa de anemia: Causa de anemia

• • • • • • •

TOTAL

Frecuencia absoluta

(ni) Pérdida de sangre Dieta deficiente Causa genética Ciertos medicamentos Embarazo Enfermedades como cáncer, colitis ulcerativa o artritis reumatoidea Otras causas

21 10 6 4 9 6 3 60

a) Complete la tabla de distribución de frecuencias de la variable de manera conveniente. Describa las características principales que observa. b) Resuma de forma gráfica los datos. c) ¿Es posible calcular para esta variable alguna medida resumen de tipo numérica?

185

6) A continuación se muestran las frecuencias absolutas (ni) para la variable tiempo de aparición de un síntoma agudo en sujetos con una determinada patología: Tiempo (min)

ni 0‐3 4‐7 8‐11 12‐15 16‐19 20‐23 24‐27 TOTAL

2 14 11 8 4 0 1 40

a) Complete la tabla con la distribución de las frecuencias relativas y sus correspondientes frecuencias acumuladas (absolutas y relativas). b) Calcule la media, mediana, moda, desvío estándar. Interprete. c) Determine los tres cuartiles. ¿Qué puede decir de ellos? d) Calcule el rango intercuartílico. Interprete el resultado obtenido. e) ¿Cuál de las medidas resumen calculadas considera que son más apropiadas para describir la distribución de frecuencia en esta muestra? Justifique su respuesta. 7) A continuación se indican los valores de la media y desviación estándar para la variable concentración de un determinado compuesto biológico en dos muestras de agua de pozo: Muestra 1:

X = 22.8

S= 31.7

Muestra 2:

X = 19.2

S= 17.0

a) Calcule el coeficiente de correlación y extraiga conclusiones respecto de la variabilidad de los datos en las muestras.

186

ESTADÍSTICA Y BIOESTADÍSTICA TRABAJO PRÁCTICO N° 3

1) Defina un espacio muestral para los siguientes experimentos aleatorios, y proponga para cada uno de ellos un posible evento: a) Se estudiaron familias con 4 integrantes, registrándose si eran económicamente activos o no. b) Se evalúa el contenido de potes de yogur, presentados en pack (de a dos potes), para ver si están aptos o no para su consumo.

2) Si se encuesta a los alumnos de la carrera de Nutrición de a tres y se indaga si realizan o no habitualmente su desayuno. a) Represente el espacio muestral para este experimento. b) Calcule la probabilidad de ocurrencia de cada punto muestral. c) Represente los conjuntos correspondientes a los eventos: A= “al menos dos alumnos no desayunan habitualmente” B= “dos alumnos desayunan” C= “al menos un alumno desayuna” d) Represente el evento D: A unión B, y E: A intersección C. e) Calcule la probabilidad de D y de E. f) Defina la variable aleatoria X= número de alumnos que desayunan habitualmente. Construir la distribución de probabilidad de dicha variable. g) Graficar la función de distribución acumulada de X.

3) En una muestra de agua contaminada fueron encontrados bacilos A, B ó C. Se sabe que la probabilidad de encontrar bacilos tipo A, B ó C es 0,30, 0,20 y 0,80 respectivamente. Considerando además que: * la probabilidad de encontrar bacilos tipo B y C es de 0,08 * si existen bacilos tipo A no existen bacilos tipo B * la presencia de bacilos A es independiente de la presencia de bacilos C, Calcular: a) La probabilidad de encontrar bacilos tipo B o C. b) La probabilidad de encontrar bacilos tipo A o B. 187

c) La probabilidad de encontrar bacilos tipo A y C. d) La probabilidad de encontrar bacilos tipo C dado que se encontraron bacilos tipo B. e) la probabilidad de no encontrar bacilos tipo A.

4) Se conoce que en cierta ciudad la prevalencia de obesidad en niños en edad escolar es de 30%. Si una nutricionista atiende mensualmente 12 niños de esa ciudad: ¿cuál es la probabilidad de que se presenten a su consultorio 6 niños escolares con obesidad en un mes? 5) Supongamos que el número de personas que mueren por una determinada intoxicación aguda es en promedio de 3 personas al cabo de un año. Calcule la probabilidad de que en un año determinado mueran exactamente 5 personas.

6) La variable edad de aparición de cierta enfermedad crónica se distribuye normalmente con media igual a 68 años y σ2 de 25 años2. Calcule la probabilidad de que aparezca la enfermedad: a) En edades menores a 78 años. b) Entre los 60 y los 70 años. c) En edades superiores a 75 años.

7) Se desea conocer la probabilidad de encontrar valores de chi‐cuadrado ≤ 26,2 con 12 grados de libertad.

6) Se tiene una muestra de tamaño 12 que proviene de una población normalmente distribuida pero con varianza poblacional desconocida y se desea conocer la probabilidad de encontrar valores de t entre ‐1.796 y 4.437.

188

ESTADÍSTICA Y BIOESTADÍSTICA TRABAJO PRÁCTICO N° 4

1) En base a la primera página de la guía telefónica 2011, extraiga una muestra aleatoria simple (utilizando la tabla de números aleatorios) y una muestra aleatoria sistemática de 20 sujetos cada una. 2) Indique un procedimiento para tomar una muestra de adultos entre 25 y 55 años de la población de Córdoba para conocer su gasto familiar en alimentación. 3) La distribución del peso de paquetes de maní es normal, con desvío poblacional conocido igual a 0,20 kg. Una muestra de 15 paquetes retirados de un lote para control de calidad presentó los siguientes pesos, en kg: 20,05 19,70

20,10 20,30

20,25 19,93

19,78 20,25

19,69 20,18

19,90 20,01

20,20 20,09

19,89

Construya los intervalos de confianza de 95% y 99% para el peso medio de los paquetes de maní. Interprete los resultados.

4) El peso medio, para una muestra de 20 niños de determinada edad, tuvo una distribución normal con media 26 kg y desviación estándar 2 kg. Se desea estimar el peso medio en esta población infantil con un 95% de confianza.

189

190

ESTADÍSTICA Y BIOESTADÍSTICA TRABAJO PRÁCTICO N° 5

1) Todos los sujetos que asisten a cierta institución educativa deben someterse a un examen médico de control anualmente, lo cual incluye exámenes bioquímicos. Se toma una muestra de 5 individuos, registrándose los siguientes valores de colesterol (en mg/dl): 187, 212, 195, 208, 192. Contrastar que estos cinco datos provienen de una población con media μ=190. Trabajar con un 95% de confianza.

2) La variabilidad de volumen registrado por cierta máquina envasadora cuando las condiciones de funcionamiento son adecuadas es de 3 cc. Se dispone de una muestra de n=15, con los siguientes valores: 27, 17, 18, 30, 17, 22, 16, 23, 26, 20, 22, 16, 23, 21, 17 Se desea saber si la máquina funciona correctamente, con α=0,05.

3) Un agrónomo desea estudiar la producción media de dos variedades de cierto cereal, en tonelada/hectárea (t/ha). Para ello se tomaron 2 muestras, una para cada variedad, de tamaño 30 cada una. Los resultados fueron los siguientes:

6,4 7,0 9,0 10,2 16,1 20,1

Variedad A (t/ha) 6,8 6,9 6,9 8,3 8,6 8,7 9,1 9,3 9,9 11,4 13,7 14,8 16,3 17,2 18,4 20,3 21,4 22,8

6,9 8,7 10,1 15,2 20,0 22,8

8,2 10,1 14,1 20,2 25,7 40,1

Variedad B (t/ha) 9,7 9,8 10,0 10,3 11,2 13,2 14,2 14,4 14,8 20,3 20,6 29,9 30,9 35,5 38,2 40,2 40,5 41,8

10,0 13,4 15,9 23,8 40,0 42,3

El agrónomo supone que la variedad B debe presentar una producción media mayor que la variedad A. Indican los datos evidencia suficiente para afirmar esto? Trabajar con α=0,05.

191

4) Se desea comparar la cantidad de proteínas plasmáticas en pacientes con cierta enfermedad, antes y después de una intervención médica. Se utilizó una muestra de 17 pacientes, a partir de la cual se obtuvieron los siguientes resultados: Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Antes 6,9 7,8 6,6 5,9 7,8 6,4 8,8 7,3 8,0 8,6 7,7 7,9 8,7 5,8 9,2 9,3 8,9

Después 6,9 8,6 8,7 7,3 7,8 8,2 9,3 7,3 7,6 7,8 7,6 7,8 8,1 6,8 8,3 10,2 9,1

Pruebe la hipótesis de que no hay diferencias en las cantidades plasmáticas medias, antes y después del tratamiento, con un 99% de confianza.

192

ESTADÍSTICA Y BIOESTADÍSTICA TRABAJO PRÁCTICO N° 6

1) A una muestra de 800 personas de ambos sexos se les dio a probar 2 bebidas y se les pidió que indicaran su preferencia, con los resultados de la siguiente tabla. ¿Hay asociación con el sexo? Hombres Mujeres Total

Bebida A 392 381 773

Bebida B 8 19 27

Total 400 400 800

2) Se desea estudiar si existe asociación entre la aparición de diarreas y el tipo de lactancia en menores de 6 meses. Para ello se tomó una muestra de 120 historias clínicas en un Centro de Nutrición Infantil y se recabó la siguiente información:

Lactancia Materna Exclusiva Artificial Mixta Total

Aparición de diarreas Si No 10 34 23 67

30 12 11 53

Total 40 46 34 120

Concluya al respecto, con un 95% de confianza. 3) Enuncie algún ejemplo de dos variables cuantitativas entre las cuales se sospeche que exista una relación lineal (positiva o negativa). Esquematice su ejemplo con el correspondiente diagrama de dispersión.

193

194

ESTADÍSTICA Y BIOESTADÍSTICA TRABAJO PRÁCTICO N° 7

1) El organismo oficial pertinente reporta para Argentina los siguientes datos, referidos al año 2003: Población Total: 37.869.723 Total nacidos vivos: 681.655 Total defunciones: 302.957 Total muertes en niños <1 año: 11.247 Total muertes maternas: 2.999 Calcule e interprete: a) Tasa mortalidad infantil. b) Tasa mortalidad materna. c) Tasa bruta de mortalidad. 2) La información difundida en el Informe de Estadísticas Vitales Anuales de un determinado país fue la siguiente: Población Total: 40.134.425 Total nacidos vivos: 745.336 Total defunciones: 304.525 Total muertes en neonatos: 5.956 Total muertes postneonatales: 3.070 Total muertes maternas: 410

En base a los datos obtenidos calcular: a) Tasa Bruta de Mortalidad b) Tasa de Mortalidad Infantil c) Tasa de Mortalidad Neonatal d) Tasa de Mortalidad Postneonatal e) Tasa de Mortalidad Materna f) Tasa Bruta de Natalidad

195

Related Documents


More Documents from "Fenando"

June 2020 6
Practica_1.docx
May 2020 10
Itreachdatasheet-es
May 2020 10