Análisis De Datos - Carlos J. Vilalta.pdf

  • Uploaded by: Franco Abanto
  • 0
  • 0
  • November 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Análisis De Datos - Carlos J. Vilalta.pdf as PDF for free.

More details

  • Words: 81,591
  • Pages: 350
E-Books & Papers for Statisticians

E-Books & Papers for Statisticians

Primera edición, 2016 Biblioteca del CIDE – Registro catalogado Vilalta, Carlos J. Análisis de datos / Carlos J. Vilalta. – México, D.F. : Centro de Investigación y Docencia Económicas, 2016. Primera edición Colección: Docencia 292 p. ; 23 cm. Incluye referencias bibliográficas ISBN 978 607 9367 91 6 1. Social Sciences – Statistical Methods 2. Social Sciences – Research – Methodology HA32 V55 2016 Dirección editorial: Natalia Cervantes Larios Portada: Ilustración de Fabricio Vanden Broeck www.LibreriaCide.com D. R. © 2016, CIDE, Centro de Investigación y Docencia Económicas, A.C. Carretera México-Toluca 3655, Lomas de Santa Fe, 01210, México, D.F. www.cide.edu [email protected] La transformación a libro electrónico del presente título fue realizada por Sextil Online, S.A. de C.V./ Ink it ® 2016. +52 (55) 52 54 38 52 [email protected] www.ink-it.ink Se prohíbe la reproducción total o parcial de esta obra —incluido el diseño tipográfico y de portada—, sea cual fuere el medio, electrónico o mecánico, sin el consentimiento por escrito del editor.

E-Books & Papers for Statisticians

Índice

Prólogo Capítulo I. Los elementos básicos del pensamiento científico I.1. Los grados de conocimiento I.2. Los errores de pensamiento I.3. El método científico I.4. Las teorías científicas I.5. La proposición científica de teorías I.6. Evidencia científica y sus estándares

Capítulo II. El proceso de investigación II.1. Tipos fundamentales de investigación II.2. Las contribuciones científicas y los productos de investigación II.3. Las etapas del proceso II.3.1 La pregunta de investigación II.3.2. La revisión de estudios previos II.3.3. Las hipótesis de investigación II.3.4. El diseño de la investigación II.3.5. La prueba de hipótesis II.4. El contenido de un reporte de investigación

Capítulo III. Estadística descriptiva III.1. Medidas de tendencia central III.1.1. Media aritmética

E-Books & Papers for Statisticians

III.1.2. Media acotada, geométrica y armónica III.1.3. Mediana III.1.4. Moda III.2. Medidas de dispersión III.2.1. Rango III.2.2. Varianza y desviación estándar III.2.3. Sesgo y curtosis III.2.4. Coeficiente de variación III.3. Niveles de medición y estadística descriptiva

Capítulo IV. Estimaciones puntuales: qué y para qué IV.1. Momentos de las distribuciones IV.2. Distribuciones para realizar estimaciones puntuales IV.2.1. Distribución binomial IV.2.2. Distribución de Poisson IV.2.3. Distribución normal IV.2.4. Distribución exponencial IV.2.5. Distribución lognormal IV.3. El cálculo de estimadores puntuales: la media aritmética IV.4. Intervalos de confianza para la media aritmética y porcentajes IV.4.1. Intervalos de confianza normales para la media aritmética IV.4.2. Intervalos de confianza no normales para la media aritmética: el caso de las distribuciones de Poisson y exponencial IV.4.3. Intervalos de predicción normales de la media aritmética

Capítulo V. Encuestas, cuestionarios y muestras V.1. Encuestas y cuestionarios V.2. Errores en las encuestas e implicaciones estadísticas V.3. La muestra y su diseño V.3.1. El marco muestral y el error estándar V.3.2. Intervalos de confianza y tamaño de la muestra V.4. Cálculo del tamaño de muestra en una población con distribución normal V.4.1. Cálculo del tamaño de la muestra para una variable continua V.4.2. Cálculo del tamaño de la muestra para una variable dicotómica V.5. Cálculo del tamaño de muestra para la realización de experimentos en poblaciones con distribuciones normales V.5.1. Cálculo del tamaño de la muestra para experimentos con una variable continua V.5.2. Cálculo del tamaño de la muestra para experimentos con una variable ordinal V.5.3. Cálculo del tamaño de la muestra para experimentos con una variable dicotómica V.6. Cálculo del tamaño de muestra para experimentos bajo distribuciones libres de parámetros e incluyendo el poder de la prueba V.7. Métodos de muestreo o selección de las observaciones V.7.1. Muestreo aleatorio simple V.7.2. Muestreo aleatorio sistemático V.7.3. Muestreo aleatorio estratificado V.7.4. Muestreo por conglomerados

E-Books & Papers for Statisticians

Capítulo VI. Prueba estadística de hipótesis VI.1. ¿Qué es y en qué consiste la prueba estadística de hipótesis? VI.2. Resultado falso positivo: el error alfa y la significancia estadística VI.3. Resultado falso negativo: el error beta y el poder estadístico VI.4. El valor crítico y la región de rechazo

Capítulo VII. Pruebas de simetría, normalidad y valores extremos VII.1. Pruebas de simetría y normalidad VII.1.1. La prueba de D’Agostino y Pearson VII.1.2. Prueba de bondad de ajuste chi cuadrado VII.1.3. Estadístico de Jarque y Bera VII.1.4. Prueba Z de Kolmogorov y Smirnov VII.1.5. Prueba W de Shapiro-Wilk VII.2. Pruebas de valores extremos VII.2.1. Prueba G de Grubbss VII.2.2. Prueba Q de Dixon

Capítulo VIII. Pruebas de diferencias VIII.1. Pruebas no paramétricas o libres de distribución VIII.1.1. Prueba chi cuadrado de Pearson VIII.1.2. Prueba exacta de Fisher VIII.1.3. La corrección por continuidad de Yates VIII.1.4. Prueba U de Mann-Whitney VIII.1.5. Prueba H de Kruskal-Wallis VIII.2. Pruebas paramétricas VIII.2.1. Prueba Z para proporciones VIII.2.2. Prueba Z para medias aritméticas VIII.2.3. Prueba t de Student para medias aritméticas VIII.2.4. Prueba F o análisis de varianza

Capítulo IX. Pruebas de asociación IX.1. Coeficientes no paramétricos IX.1.1. Coeficiente phi IX.1.2. Coeficiente V de Cramér IX.1.3. Coeficiente rho de Spearman IX.1.4. Coeficiente de concordancia W de Kendall IX.2. Coeficientes paramétricos IX.2.1. Coeficiente de correlación lineal r de Pearson IX.3. Prueba de diferencia de dos coeficientes de correlación

Bibliografía Anexos

E-Books & Papers for Statisticians

Prólogo

E

ste es un libro dirigido a docentes y estudiantes universitarios de alguna de las ciencias sociales. Su título es fiel a su contenido. Es un libro básico de análisis de datos por dos simples motivos: enseña cómo realizar los análisis más elementales y sus explicaciones son sencillas y directas. Los ejemplos giran alrededor de mi área de investigación, la seguridad pública, pero las explicaciones y las aplicaciones son fácilmente traducibles a otras áreas. Los temas aquí desarrollados son los mismos con los que inicio mis cursos de estadística paramétrica, no paramétrica y espacial. El análisis de datos requiere pensar de forma científica. Por tal motivo se incluyen capítulos iniciales sobre los elementos básicos de este tipo de pensamiento y también se explica de manera breve el proceso de investigación. Además, el libro tiene una cualidad importante: combina la enseñanza de técnicas de análisis paramétricas y libres de distribución, lo que representa algo novedoso entre las obras que se producen y consumen en Latinoamérica. La mayor parte de las obras sobre análisis de datos con los que contamos en la región son traducciones especializadas en uno u otro tipo de técnicas. Esto provoca, en muchas ocasiones, la falta de enseñanza de técnicas de análisis libres de distribución, o bien, la necesidad de adquirir

E-Books & Papers for Statisticians

varios libros. La presente obra resuelve las dos limitaciones anteriores. Otra cualidad es que posee un capítulo muy detallado de muestreo y cálculo de tamaños de muestra para diferentes tipos de variables en la realización de experimentos. Lo cual también es atípico en el mercado de libros de análisis de datos. En la práctica profesional del análisis de datos, el muestreo se mantiene como un tema para iniciados. Aquí se busca comenzar a romper ese monopolio de conocimiento. Este capítulo no podrá formar a un muestrista, pero sí ayudará a un analista a comprender cuáles son y de dónde provienen estos conceptos. La última cualidad de esta obra es que todas las técnicas presentadas se desarrollan paso a paso, a mano, lo que facilita la comprensión de la técnica; asimismo se señalan sus limitaciones y las formas en que pueden fallar. En mi experiencia como docente e investigador, el fallo más recurrente que he observado es en la aplicación de la técnica equivocada al problema por resolver. Los paquetes de cómputo no fallan, los que fallan son los analistas. Este libro enseña qué tipo de técnica aplicar, cuándo y cuáles son sus alcances. Por último, quiero agradecer al Centro de Investigación y Docencia Económicas (CIDE) por abrir una convocatoria para la elaboración de libros de texto, la cual dio como fruto este trabajo. Estoy en deuda con Porfirio Díaz, Leonel Fernández, Fernanda Gómez y Ana Bárcenas por su ayuda en la preparación de los resúmenes y ejercicios aquí incluidos. De igual forma estoy en deuda con dos dictaminadores excelentes, quienes me ayudaron enormemente a mejorar la primera versión de este libro. Mi mayor agradecimiento va para mi amigo y antiguo compañero de preparatoria, hoy también investigador, el doctor José Ramón Álvarez, por ayudarme a resolver muchas de las solicitudes de los dictaminadores.

E-Books & Papers for Statisticians

Capítulo I. Los elementos básicos del pensamiento científico

Objetivos de aprendizaje • • • • • • •

Entender qué es el pensamiento científico y sus ventajas. Comparar los grados de conocimiento haciendo especial énfasis en el conocimiento científico. Reparar sobre los errores de pensamiento. Comprender qué es el método científico y sus etapas. Identificar qué es una teoría científica. Distinguir entre una teoría deductiva y una teoría inductiva. Comprender en qué consiste la evidencia científica y cuáles son sus estándares.

La ciencia es la “poesía de la realidad” (Dawkins, 2007). Además de fascinante, el pensamiento científico tiene, al menos, dos grandes ventajas prácticas. La primera es que reduce la probabilidad del error. Es frecuente equivocarse al pensar y observar, y precisamente una manera de reducir tales

errores, es pensando científicamente. La segunda gran ventaja práctica es que nos permite avanzar el estado del conocimiento, es decir, entender cómo sabemos lo que sabemos y por qué suceden las cosas de la manera en que suceden. Vivimos entre una sociedad científica y otra no científica. Con frecuencia se mezclan evidencias científicas con anécdotas, dogmas, suposiciones, prejuicios, etc., lo que resulta en un relativismo improductivo.1 Así, el primer paso para llegar a la comprensión correcta de la realidad es distinguir el pensamiento científico de lo que no lo es. Algunos ejemplos de un pensamiento científico los tenemos cuando realizamos las siguientes preguntas: • • • • • • •

¿Cómo ponemos en palabras nuestras observaciones? ¿Cuál es la explicación más simple y directa del fenómeno observado?2 ¿En cuántas explicaciones posibles podemos pensar al respecto? ¿La evidencia presentada se constituye por hechos u opiniones? ¿Qué supuestos fundamentan la teoría y las hipótesis del estudio? ¿El método que lleva a la respuesta es el adecuado? ¿A quién benefician los resultados de una investigación?

A la inversa, algunos ejemplos de acciones pseudocientíficas o anticientíficas son las siguientes: • • • • • •

Explicaciones irrefutables Uso de hipótesis ad hoc o espontáneas para cada situación imaginable Presentación de evidencia anecdótica, testimonios aislados, etcétera3 Énfasis en confirmar creencias versus falsear hipótesis Mal uso de la carga de la prueba4 Uso de lenguaje impenetrable5

Como acaba de mencionarse, es más que curioso observar que estos dos tipos de pensamiento se entremezclan en muchas conversaciones. Pareciera que estamos preprogramados para encontrar explicaciones convenientes, aun cuando no son las correctas. Por fortuna, el pensamiento científico es fácilmente distinguible de lo opuesto y se puede sobresalir en el uso del

mismo con suficiente entrenamiento. Inclusive, una vez bien aprendida, la forma científica de pensar se convierte en una forma permanente de pensar. El primer paso es saber y mantener en la mente los elementos fundamentales del pensamiento científico y cómo se interrelacionan estos elementos. En esta parte del libro se presentan en primer lugar los grados de conocimiento y los errores de pensamiento. Una vez aclarados estos grados y errores, se explican los elementos del método científico: qué son las teorías científicas, cómo se proponen y refutan, y qué es la evidencia científica y cuáles son sus estándares mínimos.

I.1. LOS GRADOS DE CONOCIMIENTO El pensamiento científico tiene un fundamento epistemológico.6 De manera constante, cuestiona lo que sabemos, lo que podemos saber y cómo lo podemos llegar a saber. Por ejemplo, los términos de evidencia relevante, confiabilidad, validez etc., son co​munes en discusiones académicas y reflejan preocupaciones epistemológicas importantes. No hay una comunidad científica que no posea preocupaciones epistemológicas ni realice discusiones al respecto. En la práctica científica es común, por ejemplo, en seminarios de investigación, presenciar cuestionamientos directos y variados que comparten preocupaciones elementales o fundamentales como las siguientes: ¿es el método válido?, ¿qué constituye evidencia?, ¿en este caso o en todos los casos, debemos y podemos experimentar?, ¿qué tan confiables son mis/tus/nuestras observaciones? Naturalmente, tanto la profundidad como la insistencia de estas preocupaciones dependen de los estándares científicos de la comunidad en particular. Debido a estas dudas elementales, los epistemólogos aclaran que existen diferentes grados de conocimiento. Estos grados de conocimiento son básicamente tres:7 cotidiano, empírico-técnico y científico. El conocimiento cotidiano es el que se adquiere de forma espontánea e involuntaria. Proviene de la experiencia elemental misma, es decir, de la observación presencial de hechos o bien por descripciones de terceros. No contiene un análisis. Por ejemplo, las inferencias (es decir, las deducciones generadas a partir de información previamente disponible) que se realizan sobre las costumbres de una comunidad, cuando no se analizan ni cuestionan, sino que se consideran como naturalmente dadas, son un ejemplo del grado

de conocimiento cotidiano de tales costumbres. Este tipo de conocimiento puede tener un componente empírico, aunque no necesariamente adquirido a través de un proceso metódico o sistemático. El conocimiento empírico o técnico también se fundamenta en la experiencia, pero incluye un ejercicio de análisis y síntesis que lo convierte en un conocimiento sistemático y práctico. Aquí se desconocen los mecanismos causales y no se cuestionan los orígenes del fenómeno objeto del conocimiento. Un ejemplo sencillo es el conocimiento que muchos tenemos de las computadoras para uso personal: aunque muchos desconocemos cómo funcionan, trabajamos con ellas, pero no sabemos cómo funcionan ni cuáles son sus partes electrónicas elementales; sin embargo, nos sirven hasta cierto límite, precisamente el límite del grado de conocimiento empírico o técnico que se tenga sobre su funcionamiento. Por último, el conocimiento científico supera al empírico o técnico en que además de poseer un mayor grado y estándar de sistematización, es explicativo, crítico y contributivo. Los tres últimos atributos lo distinguen claramente de todos los demás grados de conocimiento. El conocimiento científico explica la realidad con una profundidad organizada. El grado de licenciatura es un título dado a alguien que posee un conocimiento científico sobre alguna disciplina. El grado de maestría se otorga a quien posee un dominio sobre ese conocimiento científico, y el de doctorado, a aquellos que reali​zan una contribución al conocimiento. Es decir, el conocimiento científico efectivamente es una cuestión de grado, siendo éste el de mayor valor.

I.2. LOS ERRORES DE PENSAMIENTO Algunos de los errores básicos de pensamiento u observación que mencionamos al principio de esta sección son la observación equivocada, la observación selectiva y la sobregeneralización (Babbie, 2010; Schutt, 2008).8 La observación equivocada consiste en la equivocación inconsciente que cometemos a razón de que nuestros sentidos son falibles. La existencia de distractores, no ver bien, no poner suficiente atención, olvidar, etc. son factores no intencionales que nos llevan a observar equivocadamente y, en consecuencia, a cometer errores. Asimismo, la observación selectiva es un error irreflexivo y frecuente, cuyo

origen se encuentra en el entrenamiento o la costumbre de ver ciertas cosas y descartar otras que, incluso, pueden inclusive ser aún más importantes para explicar un fenómeno; un ejemplo de observación selectiva es el pensamiento prejuicioso, el cual efectivamente puede ser subconsciente y derivado de una costumbre social. Finalmente, la sobregeneralización es un error de pensamiento que consiste en el hábito inapropiado —o costumbre anticientífica— de generalizar o inferir sobre cierto fenómeno a partir de un número insuficiente de observaciones. La sobregeneralización es un error que se origina en la necesidad natural de encontrar patrones de comportamiento y llegar a conclusiones que eliminen la incertidumbre.

I.3. EL MÉTODO CIENTÍFICO El método científico es un procedimiento dirigido a la comprensión profunda de un problema de investigación. Éste se fundamenta en un acervo de conocimientos previos y en la interacción social (Phillips, 1973). Es decir, es una labor gradual y comunitaria que separa la opinión de los hechos. Este método tiene dos premisas: la primera es que la verdad puede ser conocida por medio de la observación y la segunda es que las conclusiones son siempre tentativas. Por ello, en muchas ocasiones es posible encontrar artículos científicos que presentan discusiones de los hallazgos realizados más que conclusiones sobre un problema de investigación. Académicamente se distingue entre discutir y concluir, y la mayor parte de las aportaciones son del primer tipo. En esencia, el método científico se divide en cuatro pasos ordenados: observación, pregunta, hipótesis y prueba. Dichos pasos se dividen, a su vez, en otros más deta​llados dentro de lo que llamaríamos el proceso ortodoxo o práctica tradicional de la inves​tigación científica, los cuales se verán más adelante en este capítulo. A continuación, se explican cada uno de estos pasos esenciales.9 El primer paso, el de la observación, puede darse de dos maneras: planeada o espontánea. En muchas ocasiones se observa solamente aquello que se ha sido entrenado para observar,10 mientras que en otras ocasiones —las menos — se observan cosas que nadie había percibido o definido antes. Muchas teorías en las ciencias sociales inician con observaciones planeadas de problemas sociales, por ejemplo, la violencia, y derivan de análisis precisos

de todas o algunas de sus variedades —violencia intrafamiliar, de género, escolar, vandalismo, etcétera—. Es importante considerar que el método científico solamente puede abocarse al estudio de lo observable,11 es decir, de aquello que tiene una manifestación material aceptada como existente dentro de la comunidad científica particular. La observación del objeto o fenómeno siempre es seguida de una pregunta sobre los elementos e implicaciones de tal fenómeno. Es importante notar aquí que la pregunta incluye un ejercicio de análisis y de síntesis.12 La pregunta de investigación no es un paso fácil dentro del proceso de investigación, pero es sumamente importante en la planeación del mismo, ya que es la definición de los intereses de la investigación. Una hipótesis científica es una proposición lógica y específica derivada de una teoría (Leary, 2001). Es decir, las hipótesis científicas son normalmente deducciones. En este sentido, es importante advertir que hay algunas excepciones a la regla deductiva previamente mencionada: pueden existir hipótesis inductivas que surgen de una colección sistemática de observaciones que está desconectada de una teoría previa. Sin embargo, lo anterior es muy difícil y sólo sucede en áreas de investigación exploratorias. Las reglas que sigue la sistematización de las observaciones implican tener una teoría sobre el fenómeno bajo estudio, sea la teoría más o menos desarrollada. Es decir, lo común es contar con deducciones que pueden ser más o menos desarrolladas, y el trabajo de investigación consiste en ir sumando evidencias a través de una prueba ordenada y sucesiva de hipótesis. Las hipótesis pueden verse también como una anticipación de la respuesta. Por las razones anteriores, las hipótesis de investigación científicas pueden ser probadas empíricamente sólo en dos sentidos: como verdaderas o falsas. Las hipótesis científicas deben ser potencial y probabilísticamente falseables. La lógica del requisito anterior es muy sencilla: en términos científicos, sólo se puede conocer como probablemente verdadero o falso algo que se puede rebatir empíricamente (Leary, 2001). A su vez, el objetivo de rebatir una proposición es llegar a la conclusión de que tal proposición es, en efecto, verdadera o falsa a la luz de la evidencia presente. Por eso el método científico habla de las probabilidades de lo verdadero versus lo que es sin duda alguna verdadero. Es decir: no hay hipótesis más o menos verdaderas ni más o menos falsas; lo que hay son hipótesis probables de ser verdaderas. La probabilidad dependerá de la calidad de la evidencia. Así, el conocimiento

científico no es más o menos cierto ni más o menos falso. Específicamente en las ciencias sociales, lo que tenemos son fenómenos bien conocidos, poco conocidos, o totalmente desconocidos. Hay una graduación en la profundidad del conocimiento que tenemos de los problemas sociales y sus soluciones en muchas ocasiones hipotéticas, pero la virtud del método científico en este aspecto es que procede descartando las hipótesis falsas sobre la base de acumulación de evidencias y, precisamente, por la progresiva repetición de pruebas de hipótesis. Puede decirse incluso que la utilidad práctica de las hipótesis de investigación es doble y consiste en que dirigen el proceso de investigación y fijan los límites del mismo. La prueba de hipótesis es el último paso esencial del método científico. Su resultado es el conocimiento científico, el cual produce circularmente nuevas preguntas e ideas. Los resultados son siempre limitados y pueden ser debatibles, tanto teórica como metodológicamente. Es por ello que el método científico permite que los resultados y el proceso de investigación o metodología particulares de cada estudio realizado sean perfectibles por definición. Además de premisas y pasos esenciales, el método científico también tiene varios principios o normas de conducta o acción aceptados por los practicantes. El primero es el principio de replicación o verificación pública de los resultados (Stanovich, 1996; King, 1995). Este principio establece que los resultados de toda investigación deben ser los mismos todas las veces que se repita el estudio, siempre y cuando el proceso de investigación o metodología sea exactamente el mismo y se utilicen los mismos elementos de evidencia. Si los resultados son diferentes, pese al seguimiento estricto de la metodología y evidencia, entonces se puede concluir que los resultados presentados no son confiables. Es en virtud de que muchos investigadores con una preferencia por los métodos estadísticos se apegan a este principio de replicación, que las bases de datos que utilizan se hacen públicas y se comparten al público interesado, a fin de que repita la investigación y confirme que los resultados son confiables. Incluso hay un interés por difundir la evidencia para que se realicen más avances a través de nuevas pruebas de hipótesis. Otro principio es el de la parsimonia, el cual consiste en la idea de que la explicación más simple de un fenómeno es la más probable de ser cierta. Éste deriva de la navaja de Occam,13 cuyo planteamiento es que la explicación

más simple a un fenómeno es usualmente la correcta. Dicho de otra manera, las explicaciones no necesitan ser agregadas innecesariamente, es decir, no deben ser redundantes. Su implicación en el desarrollo de hipótesis y teorías, es que se prefieren las teorías simples sobre las excesivamente complejas y condicionales, y también que se prefiere proceder de manera científica con el menor número de axiomas o supuestos versus lo contrario. Esto incluye descartar conceptos, variables, relaciones y comparaciones forzadas e innecesarias dentro del proceso de investigación.

I.4. LAS TEORÍAS CIENTÍFICAS El método científico produce teorías del mismo tipo. Se busca desarrollar teorías científicas porque se desean explicaciones verdaderas. En este sentido, resulta importante iniciar con la advertencia de que el término “teoría científica” a menudo es mal entendido. En esta sección se presentan tanto su definición correcta como sus elementos constituyentes. Una teoría científica es una explicación fundamentada en evidencia empírica que puede ser falseada sobre la base de nuevas y mejores pruebas de hipótesis y evidencias. A la inversa y por eliminación de alternativas, una especulación, una ideología, una descripción o una relación de hechos no pueden pasar como teorías científicas. Es decir, una teoría científica implica una explicación verdadera (en la medida en que esto sea posible), lo cual rebasa a la descripción y a la correlación; sin embargo, es importante notar que estos elementos son pasos previos necesarios para la explicación. En síntesis, el punto central de lo que distingue una teoría científica de todo lo demás, es que nos habla de causación sobre la base de observaciones de hechos materiales. Y es precisamente esta capacidad de explicar las relaciones causales lo que permite la predicción no especulativa, es decir, una predicción probabilística pero científicamente verdadera e invariable. Las teorías científicas se proponen y se refutan. Esta es la ocupación principal de los investigadores.14 La mayor parte de ellos considera que la manera de refutar teorías es por medio de su falseamiento. En este sentido, Karl Popper insistía en que el inductivismo15 era un mito (Gillies, 2000). Concretamente, Popper argumentaba que nadie puede observar sin contar de manera previa con una teoría, por lo que la investigación científica no inicia con simples observaciones, sino con conjeturas teóricas que buscan refutarse.

El principio del falseamiento consiste en que las teorías, formuladas como hipótesis, pueden ser probadas como falsas, con base en la evidencia. Por ende, la evidencia a considerar en todo estudio científico no debe ser únicamente aquella que apunta en favor de una hipótesis (la verificación); la evidencia científica que la falsea es relevante y también debe ser considerada, pues, de hecho, ésta es más importante que la que verifica, ya que tiene la capacidad de invalidarla. Desde esta perspectiva, las teorías científicas pueden ser probadas en sus predicciones. Sin duda la predicción es la prueba final y más efectiva a la que puede someterse una teoría. Si la predicción teórica difiere de la evidencia, es decir sí no se ajusta a la realidad,16 entonces esta teoría debe ser descartada por falsa (o por no estar fundamentada). La progresión teórica siempre viene acompañada de una progresión empírica. Esto tiene el efecto de agregar nuevas evidencias, limitar nuevas propuestas de teorías, e inclusive reducir el número de teorías disponibles.17 Este enfoque en el falseamiento de hipótesis posee dos ventajas; mantiene los estándares de las explicaciones verdaderas y, además, demarca o distingue, en términos de Popper, una teoría científica de una que no lo es. Lo que no puede ser sometido a prueba científica, ahora o posteriormente, no constituye materia de discusión entre científicos. Aquí cabe aclarar que no es necesario esperar al futuro para realizar una prueba de una teoría científica; una nueva teoría puede refutarse con evidencia pasada. De lo anterior es fácil deducir que la proposición y refutación de teorías científicas es un proceso lento y meticuloso, que exige la compilación de evidencia empírica y la prueba exhaustiva de toda afirmación. Las teorías científicas son puestas a prueba de forma constante. Es parte inherente del método científico. Nótese que es perfectamente válido que una teoría explique sólo un aspecto o grupo de causas predefinidas de un fenómeno. Por ejemplo, el comportamiento delictivo por un tiempo fue explicado, de manera parcial, en relación a la constitución física o capacidad intelectual de los individuos. Una vez refutados los datos y el método de investigación seguidos por los teóricos de la llamada antropología criminal, surgieron otras explicaciones, válidas en este caso, que destituyeron esta teoría considerada falsa en la actualidad. Pero la refutación tomó tiempo y, desafortunadamente, algunas creencias de ese tipo siguen en proceso de ser eliminadas. De esta manera, las teorías científicas sólo compiten entre ellas cuando

contienen explicaciones parciales o evidencias contrarias. En el primer caso, la competencia consiste en la estimación, normalmente colegiada, sobre cuál teoría ofrece una mayor capacidad explicativa (cfr. Thomas S. Kuhn, 2012). En ocasiones, esta competencia se resume en argumentos probabilísticos. En el segundo caso, la competencia es una refutación directa, parcial o completa, pero inacabada o en proceso y de la que penden más evidencias. Al igual que en una discusión racional puede haber argumentos lógicos válidos en dos o más posiciones, de nuevo, parcial o completamente contrarias, asimismo pueden coexistir dos o más teorías científicas en genuina competencia. Otro ejemplo lo tenemos en la competencia ya clásica entre la teoría del estrés (strain theory) y la teoría del control social (control theory) para predecir el comportamiento delictivo individual. El inventario de investigación de cada una de estas teorías contiene evidencias científicamente aceptables, pero está en debate cuál ofrece una mejor predicción. Dicho debate se hace aún mayor cuando se considera que cada teoría conlleva diferentes implicaciones de política pública. Esto nos lleva a argumentar que las teorías científicas pueden integrarse: algo que a menudo se hace en la investigación social. Hay muchos científicos que piensan que aquellas teorías que agrupan causas diferentes, y que por ende realizan predicciones también diferentes, pueden integrarse para lograr una mejor explicación. La integración es una alternativa razonable para reducir el número de teorías y lograr una mejor ciencia (Vold, Bernard y Snipes, 1998). Esto también nos lleva a preguntarnos ¿y qué es una buena teoría científica? ¿Qué elementos la componen? ¿Cómo podemos distinguir una buena teoría de una mala u otra no tan buena? De acuerdo con Shively (2016), son tres los elementos de una teoría efectiva: •



Simplicidad: una teoría científica debe ofrecer la explicación más sencilla posible. Debe utilizar pocas variables independientes en combinaciones sencillas y directas.18 Precisión en la predicción: la predicción debe tener el menor error posible. Una teoría científica, simple o compleja, que ofrece predicciones pobres, o que tiene la misma precisión que una adivinación, no es una buena teoría.



Importancia: debe atender un problema real19 y debe ser aplicable en términos amplios y generales; debe ser lo contrario a una teoría trivial.20

En síntesis, las teorías son generalizaciones diseñadas para explicar lo que es común entre muchos casos particulares, pero al mismo tiempo, son lo suficientemente detalladas para explicar sus diferencias. Las teorías científicas inician con preguntas, aspiran a ser amplias en su capacidad explicativa, son generales en su aplicabilidad y están sujetas a constante refutación.

I.5. LA PROPOSICIÓN CIENTÍFICA DE TEORÍAS Las teorías científicas pueden ser inductivas o deductivas. Una teoría inductiva es aquella que inicia con la observación y el registro sistemático de hechos y prosigue con la búsqueda de patrones regulares que llevan al descubrimiento de principios o elementos fundamentales de comportamiento. Por ejemplo, la investigación de campo, como la que se realiza en antropología o etnografía, hace uso de este tipo de teorías. Las teorías deductivas son aquellas que inician con hipótesis, por lo general fundamentadas en teorías previas, y que son probadas con base en información recopilada para esos efectos. Es decir, se construyen con enunciados del tipo si → entonces. Este es el caso de las teorías científicas que se proponen y refutan estadísticamente y a las que se dirige este libro. Una forma común de presentar una teoría deductiva probable estadísticamente es través de una ecuación lineal como la siguiente (Blalock, 1969), en la que las cantidades a, b1, b2 y e son constantes a determinar en función de los datos:

Es decir, muchas teorías científicas deductivas se conforman por proposiciones de covariación o del tipo X → Y (donde el símbolo → representa la implicación lógica, en el sentido “Si X, entonces Y ”). En esta instancia, la relación lineal puede formularse como un axioma de la teoría o como una aproximación razonable. A su vez, las teorías deductivas se

conforman por axiomas y teoremas. Un axioma es una proposición que se asume como cierta. Un teorema es una proposición, no necesariamente evidente, que se deduce o prueba a partir de uno o más axiomas, siguiendo una serie de razonamientos lógicos. Los teoremas pueden ser puestos a prueba lógica y empírica, en este último caso ya sea por observación o por experimentación. La mayor parte de las veces no se tiene otro remedio que iniciar la investigación con axiomas y proceder con la prueba empírica de teoremas o hipótesis. Los teoremas son hipótesis probadas empíricamente (Samuelson, 1947).21 Ejemplos de teoremas bien conocidos en probabilidad son el teorema del límite central y el teorema de Bayes.22 Naturalmente, si los teoremas son hallados falsos, la teoría es falseada y los axiomas abandonados (Blalock, 1969). Lo mismo sucede en argumentación: si una premisa es hallada falsa, el argumento es invalidado (“reducción al absurdo”). Desde esta perspectiva, la prueba empírica de teorías consiste en la prueba de sus teoremas.

I.6. EVIDENCIA CIENTÍFICA Y SUS ESTÁNDARES La evidencia científica se utiliza para proponer o refutar una teoría científica. Es la única manera de debatir científicamente. Porque persigue este propósito, tal evidencia siempre es de tipo material u observacional sobre hechos reales, y cumple con estándares, por ejemplo, de tipo procedimental. Vista así, la imaginación o la especulación no constituyen evidencia científica. La imaginación puede producir excelentes ideas para la investigación, pero no demuestra nada y no tiene el peso de la evidencia científica. El propósito de acumular evidencia científica es describir y explicar la verdad de lo que buscamos saber. En este punto, es necesario distinguir entre descripción científica y explicación científica (Lum, 2005). La primera precede a la segunda. La descripción científica se utiliza para distinguir y enumerar algo bajo estudio. Normalmente se formula en términos de variables y valores. Por ejemplo, se puede describir de manera correcta el color de la computadora. La variable es color y los valores posibles de la misma pueden ser dos: claro u oscuro; 0 y 1 por ejemplo. Una explicación científica se refiere a la relación causal entre dos o más variables. La relación entre descripción y explicación científicas con investigación científica,

consiste en que las dos primeras requieren grados diferentes de evidencias científicas y que la investigación social es descriptiva antes que explicativa. El punto a recordar aquí es que la explicación no es una suma simple de descripciones, sino un esclarecimiento y demostración de las razones de las relaciones. La evidencia científica es un recurso necesario e inagotable. La evidencia es ne​ce​sa​ria porque es la materia prima de la investigación científica. También es inagotable por​que hay una necesidad y producción constante de la misma. Y como cualquier recurso, la evidencia científica se utiliza de manera apropiada, inapropiada o bien no se utiliza. Además de todo lo anterior, muchos sostienen la posición de que la evidencia científica debe utilizarse para ayudar a resolver problemas sociales que implican dilemas morales (Ancheta, 2006). Es decir, no es en lo absoluto ajena al mundo social: está directamente relacionada con él puesto que la evidencia es su reflejo. Es importante considerar que la evidencia científica puede informar, pero no puede terminar todos los debates sociales. Hay que mantener presente que ésta no dice lo que es bueno y malo, justo e injusto, etc. Estas últimas son, invariablemente, interpretaciones que se hacen de las observaciones, por lo que siempre debe hacerse una distinción entre lo que dice la evidencia científica y los usos ideológicos que se hacen de la misma. Una evidencia es todo aquello que aumenta la probabilidad de que un argumento científico sea cierto. Existen muchos tipos de evidencias. Sin embargo, respecto a las formas elementales para reunirla son distinguibles al menos dos: la observación y la experimentación. Ambas varían en sus procedimientos y sistematización. Por otro lado, las formas más comunes para recopilar información social, que también constituyen evidencia científica son las encuestas y las entrevistas. Del mismo modo, la revisión de estudios previos constituye evidencia científica. Ahora bien, en cuanto a los estándares con los que debe cumplir toda evidencia debemos señalar que cada comunidad científica se encarga de vigilarlos y, como puede anticiparse, la exigencia y vigilancia de los estándares de los mismos varían mucho entre comunidades. Por ejemplo, hay comunidades que poseen revistas científicas más exigentes en términos de evidencias presentadas.23 Si bien, podemos resumir los estándares básicos en los siguientes:

• • •

Es tangible Es relevante Es ética

La evidencia científica debe ser tangible en tanto que proviene del mundo como lo conocemos. Puede ser tanto un objeto como el reporte de un hecho. Una opinión puede constituir evidencia científica si se considera una observación y si el objetivo de la investigación es el estudio de la opinión. Pero todo aquello que es intangible, es decir imperceptible, no constituye evidencia científica. La razón radica en que lo intangible no permite la prueba científica de teorías. Naturalmente, la evidencia tangible puede ser relevante o irrelevante. La primera es admisible en la propuesta o refutación de la teoría, mientras que la segunda no lo es. La evidencia relevante es aquella que hace posible la manifestación de la variable dependiente o efecto que se pretende predecir según la teoría. Es decir, si por ejemplo un hecho no guarda relación con el efecto predicho, la evidencia es irrelevante, al menos para efectos de esa propuesta o refutación. La evidencia científica también debe poseer estándares éticos en términos de su recopilación y guardado. Los principios básicos de no dañar física o moralmente a los sujetos que contribuyen con la evidencia, la participación voluntaria de los mismos, el respeto a su anonimidad en caso de ser ofrecida o bien solicitada por los sujetos participantes en el estudio, y la explicación detallada de los propósitos de la investigación en curso, así como el uso que se le dará a la información resultante, son aspectos que todas las comunidades científicas promueven o deben promover entre sus integrantes. El último comentario al respecto, relacionado de forma parcial con el aspecto ético de la evidencia científica, es que en la práctica de la investigación es posible ver que tal evidencia se utiliza, no se utiliza o bien se mal utiliza. Por ejemplo, la ocultación de evidencia relevante o la presentación exclusiva de evidencia en favor de una hipótesis en detrimento de aquella que la contradice, son ejemplos desafortunados.

EN RESUMEN

El pensamiento científico nos permite aumentar nuestro conocimiento sobre diferentes fenómenos de forma objetiva y metodológica. Además, se ocupa de estudiar el conocimiento y el método científicos. El método científico posee una serie de pasos para producir conocimiento científico que apoyará, complementará o refutará teorías científicas previas. Por último, es importante reunir evidencia tangible, relevante y ética que fundamente nuestras propuestas teóricas.

PREGUNTAS DE REPASO 1. Defina los tres grados de conocimiento: cotidiano, empírico-técnico y científico. 2. Si dos investigaciones sobre un mismo tema o fenómeno usan el método científico, pero llegan a conclusiones opuestas, ¿significa esto que el método científico no sirve? 3. ¿Es posible producir teorías sin seguir los pasos esenciales del método científico (observación, pregunta, hipótesis y prueba)? 4. Diga si es cierta o falsa la siguiente afirmación: “Toda teoría científica debe, en alguna medida, predecir algún evento o fenómeno, de lo contrario no es una teoría científica”. 5. ¿Es posible debatir científicamente con evidencia tangible y relevante, pero no éticamente? 6. ¿Cuáles son los principales errores de pensamiento y en qué consisten cada uno de ellos? 7. ¿Cuáles son los principios con los que debe cumplir la evidencia y en qué consisten cada uno de ellos? 8. Según Shively, ¿cuáles son los elementos de una buena teoría científica? ¿Cuál es su opinión al respecto? 9. ¿Cuál es la finalidad de que los resultados de una investigación científica sean publicados? 10. ¿Cuál sería la consecuencia de sólo tomar aquella evidencia que es favorable a la hipótesis de la investigación?

RESPUESTAS E IDEAS

1.

El conocimiento cotidiano es el que se adquiere de forma espontánea e

involuntaria y proviene de la experiencia; en tanto que el conocimiento empírico o técnico también se fundamenta en la experiencia, pero incluye un ejercicio de análisis y síntesis que lo convierte en un conocimiento sistemático y práctico. Finalmente, el conocimiento científico es sistemático, explicativo, crítico y contributivo. Los tres últimos atributos distinguen al científico claramente de todos los demás grados de conocimiento.

2.

No se debe confundir el método científico con los resultados de una investigación. El método científico es un procedimiento dividido en pasos esenciales para comprender un problema o fenómeno. El principio de replicación establece que los resultados de toda investigación deben ser iguales todas las veces que se repita el estudio, siempre y cuando el proceso de investigación o metodología sea exactamente el mismo y se utilicen los mismos elementos de evidencia. Si los resultados son diferentes, a pesar del uso de la misma metodología y evidencia, entonces se puede concluir que los resultados presentados no son confiables.

3.

Sí, es posible generar teorías sin seguir los pasos esenciales del método científico, pues se pueden generar teorías sólo a partir de la observación. Sin embargo, no logran llamarse teorías científicas ya que carecen de rigor metodológico y son altamente susceptibles a ser falseadas.

4.

En efecto, una teoría científica nos permite establecer una predicción probabilística debido a que contiene una explicación causal basada en evidencia empírica. Sin embargo, no debe olvidarse que se puede refutar una teoría debido al surgimiento de nuevas y mejores pruebas de hipótesis y evidencias en torno al problema o fenómeno de estudio.

5.

No es posible debatir científicamente sin evidencia. Un debate sin evidencia científica (evidencia real) puede producir excelentes ideas para la investigación, pero no demuestra nada y tampoco tiene el peso de la evidencia científica.

6. Los principales errores de pensamiento son la observación equivocada, la observación selectiva y la sobregeneralización. La observación equivocada proviene de un error inconsciente a partir de lo que percibimos mediante nuestros sentidos. La observación selectiva se origina a partir de la costumbre o una acción mecánica que no nos permite reflexionar acerca de lo que percibimos e incluso descartamos aquello que no nos parece relevante de forma automática. La sobregeneralización tiene su origen en la necesidad de establecer patrones de comportamiento y obtener conclusiones que den lugar a la certidumbre.

7. La evidencia científica debe ser tangible, relevante y ética. La tangibilidad radica en que la evidencia proviene de un contexto perceptible, ya sea un hecho o una opinión. La relevancia de la evidencia implica que pueda ser utilizada para proponer o refutar una teoría. Por último, la evidencia con estándares éticos se refleja en la recopilación, guardado y divulgación. Estos estándares van desde conservar la anonimidad de participantes y explicar propósitos de investigación, hasta no darle un uso a la evidencia con fines particulares que sirvan a cierto interés.

8.

Shively considera que una buena teoría científica debe ofrecer una explicación sencilla, tener cierto nivel de precisión en lo que predice, relacionarse con un problema relevante y ser sujeta a aplicación.

9. La publicación responde al principio de replicación o verificación pública de los resultados. Lo anterior significa que en todas las ocasiones los resultados de esa investigación deberán ser los mismos pues de ser distintos, los resultados se clasificarían como no confiables.

10. Por un lado, se iría en contra del principio de falseamieto. Este principio indica que las teorías pueden probarse falsas mediante la evidencia presentada, por lo que la evidencia que debe considerarse en toda investigación es aquella que soporta, pero también aquella que va en contra de la hipótesis. De hecho, la evidencia que puede falsear una hipótesis posee

una mayor relevancia. Por otro lado, el elemento ético de la evidencia también se perdería, pues la evidencia que contradice la hipótesis no debe ocultarse, al contrario, debe presentarse por igual.

SITIOS DE INTERÉS • The Harvard Undergraduate Research Journal (http://thurj.org/ss/) • Stanford Journal of International Law

(SJIL)

(http://journals.law.stanford.edu/sjil) • Electronic Data Center (http://einstein.library.emory.edu/links.html) • Inter-university Consortium for Political and Social Research (http://www.icpsr.umich.edu/) 1

Un competidor principal del pensamiento científico es el pensamiento dogmático, el cual implica la suspensión de las facultades críticas. 2

En este caso entendemos por fenómeno un hecho social relevante de estudio.

3

Nótese que hay testimonios que, con el tiempo, pueden convertirse en hipótesis de investigación. 4

El que afirma tiene la carga de la prueba; el crítico o escéptico no tiene que demostrar la falsedad de las afirmaciones en debate. 5

Por ejemplo, el uso de términos que confunden conceptos en oposición a su simplificación y clarificación. 6

La epistemología es el estudio del conocimiento o de cómo llegamos a saber. La etimología de la palabra proviene del griego Episteme que significa “saber” o “conocimiento” y de Logos que significa “estudio” o “ciencia”. 7

Hay varias clasificaciones según el autor que se trate.

8

Aunque estos autores mencionan también otros errores de tipo consciente.

9

Este procedimiento se revisa con mayor detalle en el capítulo II.

10

No implica la comisión de un error de observación selectiva.

11

O eventualmente observable a través de proxies o mediciones cercanas al concepto del fenómeno bajo estudio. 12

Según el Diccionario de la Real Academia de la Lengua Española (2016), “análisis” es “la distinción y separación de las partes de un todo hasta llegar a conocer sus principios o elementos”, y síntesis es “la composición de un todo por la reunión de sus partes”. 13

Este principio fue desarrollado por Guillermo de Occam (1285-1349), filósofo y religioso franciscano de finales de la Edad Media. 14

La educación es otra ocupación.

15

De Hume.

16

No a la inversa.

17

Por ejemplo, en la última revisión realizada al respecto, se encontraron doce teorías científicas vigentes en el área de la criminología, con enfoques, ámbitos y técnicas de análisis claramente diferenciadas. 18

O variables causales. Véase en el apartado II.3.4. Conceptos, variables y mediciones las definiciones de los diversos tipos de variables. 19

Claro que la definición de problemas sociales en ocasiones es un ejercicio poco objetivo.

20

Shively (2009) menciona que por “amplia” y “general” debe entenderse una teoría que abarca no sólo muchas variedades del fenómeno bajo estudio sino que toca o cuestiona una amplia variedad de teorías previas. 21

Paul Samuelson decía en 1947 que el objetivo de los economistas —y nosotros podríamos agregar de los cien​tíficos sociales en general— era buscar “teoremas operacionalmente significativos” (citado por Caldwell, 2003).

22

Hay muchos otros teoremas, por ejemplo, en economía y en ciencia política.

23

Un requisito para la publicación de estudios originales debería ser que las bases de datos se compartieran para efectos de repetición y verificación de los resultados.

Ciencia. Conjunto de conocimientos obtenidos mediante la observación y el razonamiento, sistemá​ticamen​te estructurados y de los que se deducen principios y leyes generales con capacidad predictiva y comprobables experimental​mente (RAE). Conocimiento. Entendimiento, inteligencia, razón natural (RAE). Empírico. Perteneciente o relativo a la experiencia (RAE). Método. Procedimiento que se sigue en las ciencias para hallar la verdad y enseñarla (RAE). Teoría. Serie de las leyes que sirven para relacionar determinado orden de fenómenos o bien hipótesis cuyas consecuencias se aplican a toda una ciencia o a parte muy importante de ella (RAE). Realidad. Verdad, lo que ocurre verdaderamente (RAE).

Capítulo II. El proceso de investigación

Objetivos de aprendizaje • • • • • • • • • •

Conocer el proceso de investigación, sus clasificaciones y las diferencias entre éstas. Identificar ejemplos de contribuciones científicas y productos de investigación. Comprender las etapas del proceso de investigación. Aprender a formular una pregunta de investigación. Comprender la importancia de revisar textos en el proceso de investigación. Identificar los tipos de hipótesis y requisitos con fines prácticos. Entender qué es el diseño de una investigación y sus procesos con fines prácticos. Identificar la presencia del error en las mediciones. Distinguir entre los tipos de variables. Conocer el contenido de un reporte de investigación con fines prácticos.

El proceso de investigación es el conjunto de pasos ordenados que lleva a la

respuesta de una pregunta de investigación. También se le conoce como metodología del estudio. Cada investigación o estudio tiene su propia metodología porque ha seguido un proceso diferente. En la práctica del método científico es conveniente mantener las cosas simples, es decir, pensar de manera sintética en términos de relaciones entre teorías, relaciones entre variables y diferencias entre grupos; diseñar modelos teóricos compactos, aceptar críticas propositivas y saber rechazar hipótesis; no complicar los aspectos anteriores más de lo que ya son ni insistir en demostrar algo que no existe.

II.1. TIPOS FUNDAMENTALES DE INVESTIGACIÓN La investigación científica puede clasificarse en los siguientes tipos fundamentales: básica, aplicada, conceptual, empírica, cuantitativa, cualitativa, descriptiva, comparativa o correlacional y explicativa. Naturalmente esta tipología no es exhaustiva ni mutuamente excluyente. La investigación básica es aquella que se concentra en la adquisición de conocimientos que no se hallan orientados por fuerza a la solución de problemas prácticos o de necesidades inmediatas. La investigación aplicada sí está orientada a la solución de problemas vigentes y socialmente relevantes, esto definido en términos de urgencia o alta necesidad. Ambos tipos de investigación proponen y prueban teorías científicas; la distinción entre ambas no está en el alcance o profundidad, sino en sus objetivos. Es fácil deducir que la mayor parte de la investigación social es de tipo aplicada. Otra distinción importante entre tipos de investigación puede encontrarse en su origen especulativo o empírico; intelectual o material. La investigación conceptual, a veces también llamada especulativa, es la que se fundamenta en la abstracción mental. Este es el tipo de investigación que, de manera principal, realizan los filósofos y sobre la que ofrecen avances y conclusiones socialmente relevantes. Normalmente crea nuevos conceptos o busca mejorar las definiciones de conceptos controvertidos. Las discusiones pueden ser por entero especulativas y carentes de evidencia material, pero no irrelevantes para la sociedad. Por otro lado, la investigación empírica se fundamenta en la observación de los hechos y no puede ofrecer conclusiones sin presentar evidencia de los mismos. Es el tipo de investigación al que este libro se dedica. Es importante mencionar que ambos tipos de investigación pueden

complementarse. Por ejemplo, las investigaciones empíricas y conceptuales en materia de derechos, ética y calidad de servicios sociales son un ejemplo de cómo grupos interdisciplinarios de investigadores con entrenamientos e intereses diferentes pueden hacer contribuciones útiles y amplias. Una distinción común es aquella que se realiza entre investigación cualitativa y cuantitativa, que se fundamenta en el tipo de técnicas de recopilación y análisis de datos empleados. La investigación cualitativa se enfoca siempre en los aspectos de calidad o condición de los fenómenos y prescinde de su enumeración o cuantificación. Por ejemplo, una investigación que pretenda conocer las experiencias y los motivos que tendría una persona para cometer un delito, requeriría realizar una entrevista a profundidad — probablemente no estructurada y sin hipótesis de investigación— a fin de capturar toda la variedad posible de eventos y experiencias personales importantes, los cuales pueden ser identificados como causas, y carecer, por ser irrelevante en cierto momento, de una cuantificación. En este sentido, la investigación cualitativa es ideal en la exploración de fenómenos poco conocidos y cuando se requiere la identificación de variables desconocidas a priori. Por otro lado, la investigación cuantitativa se enfoca en la medición de fenómenos y, de manera forzosa, hace uso de hipótesis de investigación. De estos dos tipos de investigación —ambos relevantes para en​tender los diversos fenómenos sociales—, este trabajo se concentrará en la investigación cuantitativa. Una percepción equivocada respecto a la investigación cualitativa y cuantitativa es que la primera no es empírica, mientras que la segunda sí lo es. Esto es totalmente incorrecto. Ambas son empíricas ya que se fundamentan en la observación o la experiencia, en oposición a la investigación intelectual o especulativa.1 Ambos tipos de investigación no son excluyentes. Otra distinción fundamental la podemos realizar en términos de los alcances propuestos: hay investigación descriptiva, comparativa o correlacional y explicativa. La investigación descriptiva es aquella que, precisamente, sólo se propone describir o retratar un fenómeno. La descripción es lo primero que siempre se hace. Responde a preguntas de investigación o del tipo “qué”, “dónde”, “cuándo”, “cuánto”, etcétera o prueba hipótesis meramente descriptivas. No contiene correlativos ni explicaciones. A su vez, la investigación comparativa o correlativa es aquella que busca describir un

fenómeno en asociación o comparación de otro. Es un paso previo a la investigación explicativa en cuanto a que no contiene una relación causal probada. Responde preguntas del tipo “en concomitancia con”, “a la vez que”, “a diferencia de”, etc. Finalmente, la investigación explicativa es aquella que posee los elementos anteriores y agrega la relación causal. Es el tipo ideal de investigación, ya que descubre las razones de los fenómenos y permite la predicción de los eventos. Sólo puede realizarse investigación explicativa o causal a través de experimentos, es decir, cuando se controlan las condiciones alrededor de los fenómenos. Es importante saber que al igual que una explicación implica una causalidad, una ex​plicación o argumento causal debe contener una distinción entre causas necesarias y causas suficientes (Babbie, 2009). Una causa necesaria es una circunstancia o condición que debe estar forzosamente presente para que exista el efecto; no hay efectos sin causas. Por otro lado, una causa suficiente es aquella circunstancia que de estar presente asegura que exista el efecto esperado.2 La combinación de los elementos de necesidad y suficiencia nos lleva a tener cuatro escenarios posibles (véase el cuadro II.1); cabe aclarar que una explicación que contempla sólo causas innecesarias e insuficientes es equivalente a una explicación irrelevante, al menos científicamente hablando. CUADRO II.1

Fuente: Elaboración propia.

Además de la distinción anterior entre suficiencia y necesidad, las relaciones

causales tienen otros tres requisitos (Babbie, 2009): a) La causa precede temporalmente al efecto. b) La causa y el efecto se relacionan empíricamente. c) La causa y el efecto se relacionan de manera independiente a otra causa también identificable. Cabe agregar que las causas pueden ser probabilísticas, que un efecto puede tener una diversidad de causas independientes entre ellas, y que las excepciones —o casos aislados— no refutan la existencia de una relación causal dentro de un patrón general. Posiblemente la tipología presentada sea debatible e incompleta, pero también es debatible que muchas otras tipologías realizadas son extensiones de los tipos fundamentales presentadas anteriormente (Kothari, 2004) o, bien, que las diferencias detectadas son semánticas o debidas a las estrategias metodológicas perseguidas, más que a sus características fundamentales.

II.2. LAS CONTRIBUCIONES CIENTÍFICAS Y LOS PRODUCTOS DE INVESTIGACIÓN

Un propósito obvio de la investigación es realizar contribuciones y avanzar en los grados de conocimiento. Es difícil medir la calidad, el impacto o los méritos de una contribución científica, por lo que en la práctica esto se deja a la comunidad científica a través de las referencias —citas— y los reconocimientos públicos. Sin embargo y en términos muy generales, puede considerarse que se está realizando una contribución científica cuando: • • • • •

Se prueba una hipótesis en debate con nueva evidencia. Se prueba una hipótesis en debate con el uso de un método diferente. Se demuestra que no hay un debate teórico donde se dice que lo hay, o viceversa. Se incorporan nuevos conceptos a las teorías y se derivan hipótesis. En general, se prosigue una investigación no concluida.

Las diferentes contribuciones se presentan en productos de investigación de

calidades y dificultades variables. Por orden de dificultad, un enlistado de los productos de investigación de menor a mayor dificultad sería el siguiente: 1. Reseñas de libros, también llamados book reviews. 2. Críticas o respuestas a artículos arbitrados, también llamados replies. 3. Artículos y capítulos de libros no arbitrados. Pueden ser ensayos, informes técnicos o documentos de trabajo, estos últimos también son llamados working papers. 4. Artículos y capítulos de libros arbitrados. 5. Tesis doctorales. 6. Libros. Es frecuente observar en la práctica profesional de la investigación académica que de una tesis doctoral se desprendan uno o varios artículos de investigación arbitrados. También hay casos en los que las tesis doctorales son publicadas como libros de investigación original. Existe una amplia variedad de tipos de libros. Estos pueden ser arbitrados o no, y pueden consistir en manuales, compilaciones de texto o de referencia y en libros de investigación propiamente hablando. Los libros son valiosos de acuerdo con sus objetivos, pero en términos estrictos, un libro de investigación es el que en realidad realiza una contribución científica, pues contiene nuevas evidencias dirigidas a describir, correlacionar o explicar un fenómeno.

II.3. LAS ETAPAS DEL PROCESO El proceso de investigación deriva del método científico. Este proceso es una subdivisión de las acciones contenidas en tal método. Ya que cada investigación o estudio tiene objetivos particulares, cada uno tiene también un proceso particular denominado “metodología del estudio”. En esta sección se presentan las etapas o partes esenciales que contiene todo proceso de investigación o metodología científica. Las etapas o partes esenciales son cinco: formulación de la pregunta de investi​gación, revisión de estudios previos, definición de hipótesis, elaboración del diseño de investigación y la prueba de hipótesis (véase el diagrama II.1). La lógica del proceso, dicha de otra manera, es la siguiente:

pregunta-teoría-hipótesis-prueba y así repetidamente. DIAGRAMA II.1

Fuente: Elaboración propia.

El proceso es lógico, pero no es enteramente lineal. Por ejemplo, la revisión de estudios previos puede llevar a definir nuevas preguntas de investigación. Sin embargo, no deben realizarse pruebas sin definir antes las hipótesis y un diseño, etcétera. Cabe también mencionar también que el proceso tiene un fuerte componente social. Las comunidades científicas definen de manera grupal las preguntas de investigación socialmente relevantes, las cuales a menudo cambian en el tiempo.3 Aunado a lo anterior, es muy común ver áreas de conocimiento que temporalmente gozan de una preferencia en el financiamiento público, lo que a su vez impulsa ciertas preguntas de investigación, enfoques metodológicos e inclusive programas docentes.

II.3.1. LA PREGUNTA DE INVESTIGACIÓN Toda investigación inicia con una pregunta científica. Una pregunta científica es aquella que busca realizar una contribución del mismo tipo. La pregunta de investigación es equivalente a la formulación del problema de investigación.4 La formulación de la pregunta, que consiste en verbalizar las intenciones del estudio, tiene un ejercicio paralelo que es la identificación de la misma. La identificación no es un proceso sencillo y toma tiempo. Hay dos maneras para identificar una pregunta científica: una académica y otra social. La primera es particular a una comunidad académica; la segunda es más amplia y se refiere a la sociedad o a una parte sustancial de ella. La identificación académica de una pregunta de investigación sucede cuando hay un debate en la comunidad académica respectiva. Los debates académicos normalmente se centran en las formas en las que aparece un fenómeno; cómo se define, cómo se mide, cómo se está resolviendo, etc. Los debates académicos se encuentran en estudios previos, mientras que los debates vigentes pueden encontrarse tanto en artículos científicos5 como en tesis doctorales recientemente defendidas. Por otro lado, la identificación social de una pregunta de investigación se realiza detectando un descontento público a través de, por ejemplo, debates sociales, foros políticos, etcétera. Es debido a lo anterior que las preguntas de investigación se acompañan siempre de una justificación. La justificación se refiere a la presentación formal de las buenas razones para dar una respuesta científica —versus una especulativa o bien de no darla— a la pregunta. Tiene la misma forma que un argumento. Es decir, la justificación de una pregunta de investigación es un razonamiento válido o inválido, relevante o irrelevante, según sus premisas y conclusiones. A su vez, las premisas y las conclusiones del argumento pueden ser ciertas o falsas, lo que hace al argumento válido o inválido, lo mismo que a la justificación de la pregunta eventualmente.6 ¿Cuáles serían buenas razones para investigar algo? No hay una respuesta única a esta pregunta, pero una respuesta general consiste en enlistar los beneficios tangibles de hacerlo y los costos de no hacerlo, por ejemplo, los costos de seguir en la incertidumbre de conocimiento.7 Un beneficio evidente y comúnmente considerado en la práctica de la investigación social cuantitativa es el ahorro económico8 que genera la posesión de una respuesta satisfactoria a un problema social, o la reducción en la incidencia del mismo.

Algo que puede suceder en el proceso de formular la pregunta de investigación es la necesidad de elegir entre varias preguntas —por ejemplo, por la necesidad de priorizar a causa de limitaciones de tiempo u otros recursos—. Una manera de elegir entre varias preguntas de aparente igualdad en su importancia puede ser magnificando y minimizando las causas y los efectos que se reportan, por ejemplo, en los estudios previos revisados. Se pueden duplicar, dividir y exagerar los efectos predichos en los resultados de tales estudios. Se pueden también invertir las relaciones en los modelos estadísticos, cambiar la secuencia de eventos, acelerar las tasas y los tiempos de cambio, etc. Asimismo, cuando se decide entre varias preguntas de investigación que tienen un origen extranjero, pueden extrapolarse los resultados reportados en estudios previos al tiempo presente y al contexto del lugar donde se planea realizar el estudio y reflexionar si aquellos son aplicables y necesarios. A semejanza de los tipos fundamentales de investigación, hay también tipos diferentes de preguntas de investigación:9 a) La que expresa el comportamiento de una variable (es decir, cómo cambia en el tiempo, el espacio o en relación a otras variables). b) La que expresa una diferencia entre dos o más grupos.10 c) La que expresa una relación entre dos o más variables. d) La que explica una diferencia o una relación. Las preguntas de investigación científica también tienen requisitos: a) Viabilidad, es decir, que se pueda responder. b) Utilidad, es decir, que tenga relevancia social. c) Precisión, es decir, que no sea ambigua en cuanto al comportamiento, la diferencia, la relación y las variables que la caracterizan. d) Valor teórico, es decir, que su respuesta haga avanzar el conocimiento de manera sustantiva.

II.3.2. LA REVISIÓN DE ESTUDIOS PREVIOS El conocimiento científico es un esfuerzo plural y una suma de resultados.

Las revisiones de estudios previos son colecciones de conocimiento especializado. Por lo anterior son una referencia necesaria y una etapa forzosa en el proceso de investigación. Se realizan revisiones de estudios previos porque ayudan de manera central en ubicar debates académicos y definir nuevas preguntas de investigación, hipótesis, variables, etc. Es decir, conectan lo que se sabe con lo que se pretende estudiar. Es por ello que se mencionaba anteriormente que el proceso de investigación no es un proceso lineal; la revisión de estudios previos puede modificar e inclusive anular la definición de una pregunta de investigación. Una revisión de estudios previos debe idealmente contener: a) Las preguntas de investigación que existen al respecto de un tema. b) Los conceptos y variables que han sido utilizados para responder esas preguntas. c) Los hallazgos principales, y d) Las teorías que relacionan todo lo anterior. En ocasiones se agrega un análisis cualitativo a la revisión, es decir, un juicio informado sobre la calidad de los estudios previos revisados.11 La calidad se establece revisando el rigor de la metodología, la calidad de la evidencia o información analizada, la originalidad y fortalezas de los diseños de investigación y la capacidad explicativa de los modelos teóricos utilizados. En este sentido, es conveniente considerar que al igual que un conjunto de palabras no necesariamente conforma una frase, un conjunto de estudios tampoco hace una sección útil de estudios previos. Es decir, una lista extensiva de autores, preguntas, hipótesis, o bien cualquier símil de inventario de estudios previos, no ayuda por sí mismo a definir o a elegir una pregunta ni una hipótesis de investigación. Debe haber un motivo y un ordenamiento en la selección y presentación de los estudios revisados. Las teorías científicas y su cronología pueden conectar y darle sentido lógico a esta revisión de estudios. Por esta misma razón, una revisión no puede prescindir de explicar con suficiente claridad las teorías y las variables contenidas en tales estudios que han sido utilizadas para dar respuesta a la pregunta de investigación que se pretende responder.

II.3.3. LAS HIPÓTESIS DE INVESTIGACIÓN Una investigación puede contener una o varias hipótesis. Las hipótesis de investigación guían el estudio y establecen sus límites. El objetivo central de todo estudio o investigación es probar las hipótesis que se han formulado. Dicho de otra manera, la meta de una investigación es la prueba de las hipótesis. Una hipótesis de investigación es un enunciado tentativo similar a una pregunta de investigación: a) Expresa el comportamiento de una variable. b) Expresa una diferencia entre dos o más grupos, lugares o tiempos. c) Expresa una relación entre dos o más variables. d) Explica una diferencia o una relación. En este sentido hay, fundamentalmente, cuatro tipos de hipótesis de investigación: descriptivas, comparativas, correlacionales y explicativas. Un ejemplo de una hipótesis descriptiva sería el siguiente: “La tasa de desempleo en la Ciudad de México ha oscilado cada mes entre el 10% y el 20%”. Un ejemplo de una hipótesis comparativa sería: “Hay una mayor incidencia delictiva total en las áreas pobres que en las áreas ricas de la ciudad”. Una hipótesis correlacional podría ser: “A mayor desempleo mayor incidencia de robos”. Y finalmente, un ejemplo de hipótesis explicativa es: “La situación de estar desempleado aumenta la proclividad individual a cometer un robo”. Como puede intuirse a partir de los tipos de hipótesis, éstas también tienen requisitos para su formulación: a) Contienen variables. b) Salvo que sean descriptivas, contienen una comparación o una relación tentativa que tiene una dirección o efecto —por ejemplo, mayor que y menor que, aumenta y disminuye, etcétera. c) La comparación, relación o explicación puede probarse de manera empírica. Las hipótesis explicativas requieren acompañarse de un mecanismo causal.

Los mecanismos causales son conceptos portátiles que explican cómo y por qué una causa hipotética, en un contexto dado, contribuye a un efecto particular (Falleti y Linch, 2009).12 También, semejante a una pregunta de investigación, las hipótesis pueden ser sometidas a un juicio de calidad. Esto implica que una pregunta de investigación puede descomponerse en varias hipótesis, las cuales pueden compararse para deducir algunas como más o menos relevantes o más o menos novedosas. En todo caso, las hipótesis de investigación que merecen su prueba son aquellas que realizan alguna aportación significativa al estado de conocimiento, es decir, una contribución teórica en relación con la pregunta de investigación que la precede. Un juicio tradicional y fácilmente previsible sobre la calidad de las hipótesis de investigación, realizado al interior de las comunidades científicas, es si la hipótesis estimula la creación de nuevos de​bates o bien revitaliza discusiones tradicionales que se encuentran posiblemente inacabadas o cuya evidencia es insuficiente.13 Por ejemplo, un debate tanto académico como público persistente y muy complejo en el área de seguridad pública es la hipótesis de que un aumento en las penas tiene el efecto de desincentivar la comisión de delitos en el ámbito individual y, en consecuencia, la incidencia delictiva agregada. La evidencia al respecto no es conclusiva, existen pocos estudios y mediciones confiables, y el debate persiste por la relevancia social que contiene.

II.3.4. EL DISEÑO DE LA INVESTIGACIÓN El diseño de la investigación es el plan que se seguirá para realizar la prueba de hipótesis. El diseño debe describir la información que se recopilará y analizará, de quién, cómo y cuándo se realizará tal recopilación y análisis. Por lo anterior, los diseños atienden tres grandes procesos: 1) conceptos, variables y mediciones, 2) validez interna y externa; 3) unidades de análisis y técnicas de análisis.

II.3.4.1. TIPOS DE DISEÑOS Antes de explicar las partes de un diseño de investigación, es necesario presentar los diferentes tipos de diseños. Hay cuatro tipos básicos (De Vaus, 2001): diseños experimentales, transversales, longitudinales y estudios de

caso.14 Los diseños experimentales son aquellos en los que el investigador controla el medio donde operan las variables independientes —las variables causales que comprende el experimento o tratamiento—, de manera que sus efectos pueden ser, en la medida de lo posible, distinguidos y medidos. El análisis contempla la com​paración de un grupo experimental y un grupo de control — o de no intervención—. De esta forma, el análisis de los efectos de la intervención o del experimento puede llevarse a cabo utilizando el grupo de control como referencia. La detección de una diferencia estadísticamente significativa entre el grupo experimental y el grupo de control constituye evidencia probabilística de un efecto derivado de la intervención o el experimento. Estos diseños son ideales en investigación explicativa porque el control del medio y de las intervenciones, junto con las comparaciones frente al grupo de control, pueden, a veces, permitir la identificación precisa de mecanismos causales en operación. Los diseños transversales son aquellos en los que se recopila y analiza información que ha sido derivada de una o varias muestras representativas de una población, ya sea en uno o varios momentos, pero en todo caso sobre la base de muestras independientes de sujetos. En este caso no hay una intervención o tratamiento, sino que el análisis se centra en la variación aleatoria o no de la información proveniente de las muestras representativas. Los mecanismos causales en este diseño se argumentan sobre la base de una regularidad empírica en el fenómeno bajo estudio, a diferencia de los experimentos donde la causación se fundamenta sobre la base de un control del medio, una intervención y un seguimiento. En este sentido, estos diseños permiten la investigación explicativa si la comunidad científica respectiva considera que la regu​laridad en las observaciones, por ejemplo la constancia de una correlación estadís​ticamente significativa entre dos variables a través del tiempo, constituye evidencia de una relación causal.15 Las formas típicas para recopilar información en diseños transversales son las encuestas, por ejemplo, de opinión sobre preferencias electo​rales o de inseguridad pública, o los registros oficiales, v.g. los registros administrativos que contienen información geográfica temporalmente agregada sobre variables de interés público.16 Los diseños longitudinales son aquellos en que la misma muestra de sujetos es encuestada más de una vez. Es decir, se realizan mediciones repetidas de

los mismos sujetos17 bajo estudio, de manera que se puede llevar a cabo un análisis preciso de los cambios en la variable de interés a través del tiempo. Los diseños longitudinales son semejantes a los experimentos en el sentido de que tienen mediciones repetidas de los mismos sujetos en al menos dos momentos diferentes, pero no contemplan el uso de grupos de control (De Vaus, 2001). Los diseños longitudinales naturalmente permiten la investigación explicativa y, en consecuencia, la correlacional y la descriptiva. Finalmente, los estudios de caso son aquellos donde más que comparar muestras representativas de una o varias poblaciones, se analizan casos individuales, grupos reducidos de sujetos —u otras unidades de análisis, por ejemplo, comunidades, organizaciones, etc.— a profundidad. Lo anterior significa que se puede proceder a partir de hipótesis muy generales a otras más específicas. Inclusive, los estudios de caso, por su amplitud y profundidad potenciales, son diseños sumamente útiles para explorar temáticas e idear nuevas hipótesis de investigación. Dicho de otra manera, los estudios de caso son adecuados para explorar un fenómeno que ha sido poco o nada estudiado. Por supuesto, los resultados de una investigación que descansa en evidencia proveniente de un estudio de caso no son generalizables.18

II.3.4.2. CONCEPTOS, VARIABLES Y MEDICIONES Los estudios empíricos se articulan por medio de conceptos, variables y mediciones. Los conceptos son imágenes que expresan una idea o reflejan una observación. Por ejemplo, la pobreza, la felicidad y el crimen son conceptos. Las variables son la contraparte empírica de los conceptos. Y las mediciones son las definiciones operacionales de las variables. Los conceptos pueden ser representados por distintas variables y las variables pueden a su vez contener varias mediciones (véase el diagrama II.2). La conceptualización es el proceso por el que la imagen mental es puesta en palabras, da significado y pone en términos verbales una idea u observación. La conceptualización es una labor sumamente importante dentro del proceso de investigación puesto que ayuda a enfocar y precisar cuál es, con exactitud, el fenómeno estudiado. En este sentido, es importante iniciar una investigación con conceptos precisos. Es decir, que la distancia intelectual entre el concepto y la variable sea la menor posible. Esto no siempre ocurre y

por ello existen discusiones conceptuales muy importantes, algunos de largo plazo, por ejemplo, los debates que existen al respecto de cómo medir la pobreza, la violencia, etcétera. Como se acaba de mencionar, un concepto puede representarse a través de varias variables, y una variable puede contener a su vez varias mediciones. Por ejemplo, el concepto crimen puede ser representado a través de variables como tipo de delitos, la incidencia de denuncias o detenciones, etc. A su vez, el crimen puede ser medido como la frecuencia de ciertos delitos, la tasa de denuncias o detenciones, total de la población en riesgo, etc. Pueden utilizarse multitud de variables y mediciones en razón de que hay conceptos que requieren la consideración de una multitud de aspectos, que si bien pueden ser diferentes, de igual manera están relacionados y representan tal concepto. Es importante señalar que en un diseño de investigación empírico hay tres tipos de variables: dependientes, independientes e intervinientes. La variable dependiente es el objeto del estudio, también conocida como el “efecto” en la investigación explicativa. La variable independiente, o variable predictiva, es aquella considerada como la causa del efecto. Se le llama independiente porque requiere ser una causa aislada de otras posibles; es decir, las causas de un efecto no deben ser dependientes entre ellas, sino provocar efectos independientes. La lógica es evitar la redundancia de las causas en la investigación explicativa. Finalmente, la variable interviniente es aquella que prueba ser una condición para la existencia de una relación causal entre la variable independiente y la dependiente. Por ejemplo, una hipótesis meritoria de investigación puede ser aquella que predice que los programas públicos de tratamiento de adicciones dirigidos a reclusos que purgan sentencias en cárceles, revierte la condición de dependencia física y psicológica a las sustancias psicotrópicas y, en consecuencia, reduce la proclividad de volver a delinquir y ser encerrado nuevamente. En este caso, la participación en los programas de tratamiento de adicciones es la variable independiente —la causa—, la reversión en la dependencia es la variable interviniente —la condición de la relación— y la proclividad de volver a delinquir es la variable dependiente —el efecto—. En el diagrama II.2 se muestran algunas posibles relaciones entre la variable independiente (X) con la variable dependiente (Y), en la presencia o no de una variable interviniente (Z).

DIAGRAMA II.2

Fuente: De Vaus (2001).

Por otro lado, como se señaló antes, las mediciones son las definiciones operacionales de las variables que permiten obtener indicadores numéricos de las variables.19 Por ejemplo, el concepto de marginación del Consejo Nacional de Población (Conapo) utiliza una variedad de variables como analfabetismo, viviendas particulares sin agua, entre otras, para poder representarlo (véase el cuadro II.2). Nótese al respecto que lo que se denominan como dimensiones socioeconómicas podrían ser conceptos y variables por sí mismas. Este es un ejemplo claro de la complejidad inherente en los procesos de conceptualización y operacionalización. En este caso, la distinción entre conceptos y variables se realiza con base en la definición del fenómeno bajo análisis. En este ejemplo, la variable dependiente u objeto de la medición es la marginación, ya que ese es el concepto a tratar. La educación, la vivienda, los ingresos, etc. no son en este caso la variable dependiente; son variables independientes o causas de la marginación. A su vez, hay variables que utilizan mediciones diferentes. Por ejemplo, la variable educación, dentro del concepto marginación, utiliza dos mediciones

diferentes: analfabetismo y población sin primaria completa. Esto nos lleva a considerar la posibilidad de una variedad de mediciones sobre una misma variable, y a la necesidad de llegar a definiciones operacionales de las variables de manera previa a la recopilación de la información. CUADRO II.2

Precisamente, la operacionalización es un proceso central dentro del diseño de la investigación y consiste en decidir cómo se medirá la variable, es decir,

en atribuir una definición operacional o tratable de ésta. Siguiendo con el ejemplo del concepto marginación y la variable educación, vemos que la medición analfabetismo ha sido definida como el porcentaje de 15 años o más analfabeta. Esta es una de las dos definiciones operacionales de la variable educación para representar el concepto marginación. Aunque es fácil debatir si esa es una definición operacional o medición adecuada de la educación. Tal vez puede debatirse también si el umbral deben ser los quince años y no otra edad. Otro ejemplo, igual de debatible, es la medición de viviendas particulares con algún nivel de hacinamiento, en el que puede discutirse cuál es el umbral para categorizar una vivienda en condiciones de hacinamiento de una contraria. Esto nos lleva a su vez a explicar los dos requisitos necesarios de toda medición: la validez y la confiabilidad. La validez consiste en que la medición efectivamente mide lo que desea medir; la confiabilidad, en que la medición esté bien realizada. Una medida confiable es aquella que realizada dos veces, lleva al mismo resultado. En consecuencia, al haber dos requisitos, pueden derivarse cuatro circunstancias diferentes respecto a las mediciones (véase el diagrama III.2). DIAGRAMA II.3

Dichos requisitos llevan a la presencia de debates también frecuentes. Es común observar discusiones sobre la validez de las mediciones, por poner un ejemplo, el ya clásico debate de si la tasa de denuncias es una medición válida de la incidencia delictiva. Su validez es discutible puesto que está en duda si las denuncias reflejan adecuadamente la incidencia delictiva, sobre todo si se considera el grave sub-reporte —o cifra negra— de denuncias que se efectúan.

Las mediciones que adolecen de algún tipo de error no son confiables. En este sentido, el error de una medición es la diferencia entre el valor verdadero y el valor ob​tenido. Existen dos tipos de error que llevan a mediciones desconfiables: el error aleatorio y el error sistemático. El aleatorio es aquel que no sigue un patrón, es decir, cuando los valores de la variable atribuidos a las observaciones son en algunos casos altas y en otros casos bajas, y además estos errores —sobreestimaciones o subestimaciones— no están relacionados o no dependen de la ejecución de otras mediciones (De Vaus, 2001). El error sistemático es aquel que sucede en un patrón observable, por ejemplo, cuando todas las observaciones han sido subestimadas en sus valores y puede hipotéticamente deberse, o estar correlacionado, con la realización de otras mediciones. CUADRO II.3

Fuente: Elaboración propia.

Las diferentes fuentes del error en las mediciones son identificables y pueden ser de cinco tipos (Leary, 2001): 1. Estados transitivos: por ejemplo, en una encuesta de opinión, la fatiga o el estado de ánimo de los sujetos participantes pueden afectar las reacciones o respuestas a las preguntas realizadas. 2. Estados estables: por ejemplo, la desconfianza de los sujetos a expresar su opinión también puede afectar sus respuestas.

3. Factores situacionales: los errores derivados de estos factores suceden cuando la forma o el medio en el que se recopila la información no es el adecuado, por ejemplo, la forma en que el encuestador habla o interactúa con el encuestado, o bien cuando la temperatura del medio donde se levanta la encuesta es incómoda, hay ruido, etcétera. 4. Factores propios de la medición o del instrumento de medición: se presenta cuando, por ejemplo, la pregunta realizada es ambigua para el encuestado o el cuestionario es muy largo y el encuestado pierde el interés, entre otros. 5. Errores literales: esta categoría se refiere a los errores cometidos en la captura de la información por parte del mismo encuestador o al momento de vaciar la información en la base de datos.

II.3.4.3. UNIDADES DE ANÁLISIS Las unidades de análisis son lo que va a ser estudiado. Pueden ser países, comunidades, organizaciones, hogares, votantes, estudiantes, etc. Pueden ser también espacios geográficos o temporales, por ejemplo, entidades federativas, municipios, ciudades o periodos presidenciales. Las unidades de análisis son diferentes a las unidades de observación. Las unidades de observación son aquellas de las que se extrae la información. Por ejemplo, una encuesta puede considerar como unidad de análisis al hogar, pero la unidad de información —el informante sobre el hogar— puede ser el individuo mayor de los 18 años. Esto nos lleva a considerar la necesidad de utilizar unidades de análisis consistentes con los procesos sociales en estudio (Tita y Greenbaum, 2009) y a distinguir claramente entre los informantes y las unidades propias de análisis sobre las que informan. También es importante no incurrir en el llamado “error ecológico”, es decir, el error de inferir comportamientos individuales a partir de información agregada o grupal.

II.3.4.4. TÉCNICAS DE ANÁLISIS Las técnicas de análisis son la parte del diseño de investigación que presenta cómo se va a analizar la información a efectos de probar las hipótesis. Por ejemplo, si se quiere realizar una investigación que hace uso de un diseño transversal con base en información proveniente de una encuesta

representativa de una población y, al mismo tiempo, se pretende probar una hipótesis de comparación entre dos grupos o muestras de interés dentro de esta población, esta parte del diseño explica qué estadísticos se pretenden obtener de las muestras y cuáles van a ser las técnicas estadísticas que se aplicarán a efectos de probar tal hipótesis. Los estadísticos —como el promedio o media aritmética— son mediciones que representan las características de las muestras. Asimismo, si se desea probar, por ejemplo, una hipótesis correlacional entre dos variables, se tiene que explicar cuáles y por qué van a ser las técnicas correlacionales y niveles de significancia estadística que se aplicarán a efectos de probar tal hipótesis. Es necesario fundamentar estadísticamente la elección de las técnicas de análisis, es decir, explicar las razones probabilísticas y de elección de una técnica sobre otra. Siempre debe haber razones técnicas fundamentadas. No se pueden aplicar ciertas técnicas por costumbre o preferencias estadísticas. Se debe elegir la técnica adecuada en relación con la naturaleza de la información —v.g. niveles de medición— y naturaleza del fenómeno. Es común encontrar en la práctica científica debates respecto a qué técnicas estadísticas deben utilizarse en ciertos casos. Una discusión típica tiene que ver con la diferencia sustancial que existe entre técnicas estadísticas paramétricas y no paramétricas que se describen en este libro. Las implicaciones son importantes puesto que técnicas de análisis diferentes pueden llevar a resultados de pruebas de hipótesis contrarios, y por ende, a resultados o hallazgos de investigación también contrarios.

II.3.4.5. VALIDEZ INTERNA Y EXTERNA Si se plantea realizar una investigación explicativa es necesario también que el diseño —y la sección final de resultados— contemple una discusión sobre la validez interna y externa de la investigación. La validez interna se refiere a que la relación entre las causas y los efectos reportados son empírica y lógicamente probables. Es decir, la validez interna no sólo se consigue a través de la provisión de mediciones válidas, confiables, y correlaciones estadísticamente significativas entre variables analizadas, sino que se requiere la justificación lógica de la relación causal. Implica que se comprenden los mecanismos causales y que se ha considerado, de manera adecuada, la presencia de variables intervinientes en

el modelo causal. La validez externa de una investigación se refiere a que los resultados sean generalizables a otras situaciones, por ejemplo, con muestras de personas diferentes o en lugares y tiempos diferentes. Los estudios de caso, aunque pueden ser explicativos, no tienen validez externa. Es debatible, sin embargo, si algunas generalizaciones conceptuales serían posibles a partir de la información proveniente de un caso; con todo, constituirían hipótesis para siguientes estudios.

II.3.5. LA PRUEBA DE HIPÓTESIS La prueba de hipótesis es la última etapa del proceso de investigación y se divide en dos pasos: la realización de la prueba per se y el reporte y difusión de los resultados del estudio. Una prueba rigurosa se asegura de manera previa a la realización de la misma, es decir, cuando se han cubierto los requisitos de una pregunta de investigación, se han revisado los estudios precedentes más relevantes y de mejor calidad, se han formulado las hipótesis de manera precisa, y el diseño de investigación es coherente con los pasos anteriores. Una prueba rigurosa de hipótesis además incluye la intención consciente de refutarla o falsearla (Poletiek, 2001 citando a Popper, 1963). Naturalmente, las hipótesis se prueban dentro de un nivel de probabilidad y dicha probabilidad conduce a una certeza científica. No hay que olvidar que el método científico no proclama la verdad última sino una certeza científica. El proceso de investigación no puede terminar sin una difusión de los resultados de las pruebas de hipótesis. Los resultados son la síntesis del conocimiento. Las maneras comunes de difundir los resultados en la práctica científica son los reportes orales en seminarios y congresos de investigación o bien por medio de reportes escritos. La siguiente sección presenta el formato típico de un reporte de investigación oral o escrito.

II.4. EL CONTENIDO DE UN REPORTE DE INVESTIGACIÓN Un reporte de investigación busca comunicar las respuestas a las preguntas de investigación. Normalmente se hace mediante el reporte de los resultados de las pruebas de hipótesis, el cual puede realizarse oralmente o por escrito; lo común es hacerlo por ambas vías.

Debe quedar claro que el reporte debe ser ordenado, conciso y lo más completo posible. Pensemos que un reporte de este tipo es el contrario de una novela de misterio o un documento dogmático. Las secciones tradicionales de un reporte son ocho: 1) título y resumen, 2) introducción, 3) estudios previos, 4) hipótesis de investigación, 5) diseño de investigación o metodología, 6) resultados, 7) discusión de los resultados y 8) referencias (véase el diagrama II.4). Este formato puede utilizarse tanto para una presentación verbal como para una escrita. El título y el resumen20 concentran las ideas principales que desean expresarse. El título de la investigación puede ser la pregunta misma del estudio sin signos de interrogación. El resumen debe contener la síntesis de la pregunta de investigación, el diseño y el resultado. Normalmente no rebasa las trescientas palabras y debe ser efectivo en la comunicación de los puntos anteriores, pues es lo primero que se lee después del título. La evaluación que se realiza del resumen culmina muchas veces en la decisión individual de leer o no el reporte de investigación. DIAGRAMA II.4

Fuente: Elaboración propia.

La introducción contiene la mención de la pregunta de investigación, la justificación y la síntesis de los resultados del estudio. Pese a ser lo primero que se presenta en el cuerpo del reporte, es lo último que se prepara o escribe, que es consecuencia de todo lo demás. La sección de estudios previos debe lograr tres objetivos. Primero, mostrar que se conocen las teorías, los resultados principales, los diseños utilizados y los autores que han aportado dentro de la literatura especializada a responder la pregunta de investigación. Segundo, dar una perspectiva completa, tal vez histórica o cronológica, del problema de investigación. Tercero, servir de base para la toma de decisiones sobre la formulación correcta de las hipótesis y el diseño adecuado del estudio. Las hipótesis de investigación se presentan seguidas de la sección de estudios previos. Deben ser explicadas y redactadas de manera breve y directa, además es conveniente para el lector presentar las hipótesis en el mismo orden en que serán probadas y discutidas en la sección de resultados y discusión. El diseño de la investigación puede reportarse en dos partes generales.21 La primera, sobre las fuentes de información, contiene la descripción articulada de los conceptos, las variables y las mediciones, junto con las unidades de análisis. La segunda, sobre el análisis de los datos, contiene la descripción y justificación de las técnicas que se utilizarán para probar cada hipótesis. La sección de resultados debe contener la prueba de las hipótesis, junto con los cuadros y gráficos que sean necesarios, si bien sólo debe contener información indispensable. En ocasiones se divide en dos partes: estadística descriptiva y estadística inferencial. Es frecuente encontrar reportes de investigación con secciones de resultados excesivamente largas y con información irrelevante, sobre todo en la parte de estadística descriptiva. El criterio para decidir qué incluir y qué no debe partir de las hipótesis: todo resultado del análisis de datos que no esté relacionado con ellos no necesita ser incluido. La mejor discusión de los resultados posible es aquella que inicia de forma directa con la mención del rechazo o no de la hipótesis de investigación. Le sigue una ex​plicación de la evidencia utilizada, es decir, cómo se conectan los resultados presentados con los estudios previos revisados, y debe incluir, además, una discusión de las limitaciones teóricas y metodológicas. En

ocasiones se agregan sugerencias sobre nuevos diseños e hipótesis para posibles estudios posteriores.22 Una sección de referencias es diferente a una sección de bibliografía. Las referencias apuntan estrictamente a los estudios revisados y citados en el estudio. Una sección bibliográfica, por otro lado, puede contener estudios no revisados, pero de alguna manera relacionados con la pregunta de investigación. La mayor parte de las revistas solicitan a los autores una sección de referencias.

EN RESUMEN El proceso de investigación está formado por una serie de pasos con la finalidad de responder una pregunta de investigación. Dado que existen distintos procedimientos a seguir, es necesario establecer qué tipo de investigación se realizará y elegir el procedimiento adecuado. El proceso de investigación posee cinco etapas esenciales que tienen como fin contribuir al conocimiento. Esta contribución suele reportarse de forma oral o escrita; generalmente, el reporte escrito es distribuido para lograr un mayor alcance y es complementado con una presentación oral para atraer la atención de los interesados en el tema.

PREGUNTAS DE REPASO 1. ¿Toda investigación implica el uso del método científico? ¿En qué caso(s) no? 2. Desde su punto de vista, ¿cuál es la implicación de que en el proceso de investigación no se realice una revisión de estudios previos? 3. Se mencionó que existen cuatro tipos de hipótesis: descriptivas, comparativas, correlacionales y explicativas. ¿A qué tipo de hipótesis corresponde la siguiente afirmación?: “La oposición fue menor en las zonas donde el porcentaje de personas con automóvil particular era más alto, tenían mayores salarios y formaban parte de un contexto local perredista; [en contraste,] la oposición fue mayor en las zonas con mayor marginación” (Vilalta, 2007a: 394). 4. ¿Cuáles son los requisitos de una pregunta de investigación? 5. ¿En qué consisten la validez y la confiabilidad de la medición? 6. ¿Cuál considera que es la forma más efectiva de presentar un reporte de

investigación? 7. ¿Es posible realizar investigación conceptual con evidencia material? ¿Sí, no? ¿Por qué? 8. ¿Si usted probara una hipótesis que se encuentra en debate con la evidencia que han provisto investigadores en el rubro, sería o no una contribución científica? ¿Por qué? 9. ¿Cuál considera que es el momento indicado para consultar estudios previos sobre el tema que deseamos investigar? 10. En su opinión, ¿qué diferencia sustancial encuentra entre un diseño experimental y uno transversal?

RESPUESTAS E IDEAS

1. El proceso de investigación, especialmente en la academia, implica el uso del método científico para responder a una pregunta o poder probar alguna hipótesis de trabajo.

2.

No revisar la literatura escrita previamente puede llevar a varios problemas: hacer un trabajo con el riesgo de que sea considerado plagio; omitir algunas variables relevantes para explicar el problema o fenómeno o usar una metodología inadecuada para el estudio, entre otros.

3. Hipótesis comparativa. 4. Los requisitos básicos de una pregunta de investigación son que ésta sea viable, útil, precisa y no ambigua, y además, que tenga un valor teórico y aporte al conocimiento.

5.

La validez puede definirse como aquello que nos indica que lo que medimos sea efectivamente lo que deseamos medir. La confiabilidad radica en que la medición esté bien realizada y que al realizarse más de una vez siempre se obtenga el mismo resultado.

6.

Los reportes de investigación pueden realizarse de forma oral y escrita. Ambas vías tienen ventajas y desventajas, no obstante, se sugiere que se reporten los resultados de ambas maneras. Mediante la vía oral se tiene la oportunidad de interactuar con la audiencia y resolver dudas; no obstante, a través del reporte escrito es posible llegar a más personas y dar a conocer los resultados en otros países.

7. No es posible realizar investigación conceptual con evidencia material. La investigación conceptual trabaja con figuras mentales, abstracciones y, como su nombre lo indica, con conceptos; por lo tanto, no involucra ningún tipo de evidencia concreta: tangible. Sin embargo, puede aportar conocimiento relevante para la sociedad.

8.

Dado que la evidencia científica no es inédita ni nueva, no es posible hablar de una contribución real al conocimiento sino sólo de una aprobación de la hipótesis que ya ha sido dada. Caso contrario sería si se falseara una hipótesis, puesto que en ese sentido sí se haría una contribución al probar una hipótesis que iría en contra de la anterior y la superó.

9.

La revisión puede darse antes o después de plantear la pregunta de investigación. Si no se tiene una idea clara de cuál puede ser una pregunta interesante o útil, lo recomendable es que previamente se revisen estudios que contengan información sobre el tema que nos interesa. Por el contrario, si ya definimos cuál será nuestra pregunta de investigación lo ideal sería consultar otros estudios para elegir el método científico, allegarnos de variables que contribuyan a tener una hipótesis más acertada, etc. Independientemente del momento en que se realice, es indispensable su inclusión en el proceso, pues de no hacerlo corremos el riesgo de tener distintos errores en nuestra investigación que podría tener como consecuencia su fracaso.

10. La diferencia consiste en que en un diseño experimental el investigador

selecciona a dos grupos; uno de éstos es expuesto a ciertas condiciones controladas por el investigador con el fin de probar que existe una diferencia estadísticamente significativa entre ambos grupos. En contraste, el diseño transversal es aquel en el que se recopila la información proveniente de al menos una muestra representativa de cierta población, en este caso el investigador no interviene sino hasta el análisis de la información obtenida, por ejemplo, de una encuesta o registros oficiales, entre otros.

SITIOS DE INTERÉS • JSTOR (http://www.jstor.org/) • Oxford Journals (http://www.oxfordjournals.org/) • Artículos de investigación, INEGI (http://www.inegi.org.mx/inegi/contenidos/Investigacion/Publicaciones/default.aspx • Annual Reviews (http://www.annualreviews.org/action/showJournals) • Oxford Handbooks Online. Scholarly Research Reviews (http://www.oxfordhandbooks.com/) • OECD iLibrary (http://www.oecd-ilibrary.org/. 1

Por ejemplo, la que realizan los filósofos.

2

Nótese que también existen efectos inesperados, forzosos, colaterales, efectos insuficientes o suficientes que, a su vez, causan otro evento. 3

Muchas tesis de grado, por ejemplo, son predefinidas por los profesores que fungirán como directores o lectores de las mismas. 4

En algunos libros de texto puede verse que el proceso inicia con el problema de investigación; esto es lo mismo que realizar la pregunta. 5

Es importante ser selectivo en la elección de revistas científicas y preferir debates presentes en publicaciones con altos estándares editoriales que garanticen la calidad científica y la originalidad de las ideas. 6

Nótese que las premisas de un argumento pueden ser cuestionables si son estadísticamente

probables, es decir, si no están probadas por completo. Aun en ese caso el argumento es válido, aunque debatible. 7

Normalmente se mencionan primero los beneficios y luego los costos. Es conveniente justificar informando al lector con cifras de fuentes oficiales o públicamente reconocidas y presentando la información de manera clara por medio de cuadros y gráficos. 8

La valuación económica de los beneficios es muy común en la justificación de proyectos de investigación con fondos públicos. 9

Idealmente, una buena pregunta de investigación es aquella a la que al quitarle los signos interrogativos se convierte un argumento simple, es decir, en una premisa y una conclusión. 10

Puede incluir una comparación de lugares o tiempos.

11

En ocasiones no es necesario evaluar la calidad de lo previamente estudiado. Se puede proceder con el registro de lo conocido y con la relación de las necesidades de investigación. 12

Por “portátil” los autores entienden que el concepto es lo bastante general como para ser llevado o aplicado en diferentes contextos. 13

Esto es típico en arbitrajes de artículos científicos y en la defensa de tesis doctorales. Es frecuente observar que tanto los editores y árbitros de revistas científicas de alto nivel, así como directores y lectores de tesis doctorales, desean pruebas de hipótesis que no sean teóricamente superficiales o superfluas, o bien reproducciones parciales de estudios clásicos. 14

Existen otras tipologías. Una común en cursos de diseños de investigación es aquella que distingue entre diseños experimentales, cuasi-experimentales y no experimentales (Marczyk, DeMatteo y Festinger, 2005). Es importante aclarar en este punto que en la investigación de tipo cualitativa también existen otros diseños y tipologías, por ejemplo, el diseño narrativo, la fenomenología, la etnografía y el estudio de caso; este último coincidente con la investigación de tipo cuantitativa (véase Creswell y Clark, 2007). 15

Son dos perspectivas de causación diferentes. Los diseños experimentales hablan de una causación por observación directa del efecto y los diseños transversales de una por observación indirecta pero regular del efecto; esta última constituye la perspectiva de Hume al respecto del problema de inducción. Véase Sklar (1999). 16

Por ejemplo, series de tiempo de información oficial como la incidencia delictiva, el

desempleo, etcétera. 17

Lo que en estadística se denomina “muestras dependientes”.

18

Pueden hacer uso de estadística descriptiva, pero carecen de validez externa.

19

En la investigación cualitativa se utilizan indicadores no numéricos, por ejemplo, opiniones o sugerencias de mejora. 20

En ocasiones denominado sumario o abstract en inglés.

21

Aun dentro de una misma disciplina hay una gran variedad de maneras de presentar el diseño o metodología del estudio. Puede considerarse la forma en que lo hacen los artículos científicos revisados en la sección anterior y seguirlos como modelo. 22

Para ahondar en la discusión de los resultados, véase el capítulo VI.

Causa. Aquello que se considera como fundamento u origen de algo (RAE). Especular. Hacer conjeturas sobre algo sin conocimiento suficiente (RAE). Concepto. Representación mental asociada a un significante lingüístico (RAE). Investigar. Realizar actividades intelectuales y experimentales de modo sistemático con el propósito de aumentar los conocimientos sobre una determinada materia (RAE). Medir. Comparar una cantidad con su respectiva unidad, con el fin de averiguar cuántas veces la segunda está contenida en la primera (RAE). Proceso. Conjunto de las fases sucesivas de un fenómeno natural o de una operación artificial (RAE).

Técnica. Conjunto de procedimientos y recursos de que se sirve una ciencia o un arte (RAE). Variable. Magnitud que puede tener un valor cualquiera de los comprendidos en un conjunto (RAE).

Capítulo III. Estadística descriptiva

Objetivos de aprendizaje • • • • • • •

Distinguir entre las medidas de tendencia central y las de dispersión. Conocer la utilidad de cada una de las medidas de tendencia central y sus aplicaciones. Conocer la utilidad de cada una de las medidas de dispersión y sus aplicaciones. Identificar las variables nominales o dicotómicas, ordinales y continuas. Identificar y distinguir entre las medidas aplicables a cada tipo de variable. Aprender a calcular cada una de las medidas de tendencia central y de dispersión. Comprender el significado de los resultados obtenidos a partir de cada una de las medidas de tendencia central y de dispersión.

La estadística es una rama de la matemática empírica que estudia las formas de recopilación e interpretación de información cuantitativa. Ésta se divide en dos grandes temas y etapas: estadística descriptiva y estadística inferencial.

La primera tiene por objetivo realizar descripciones informativas a partir de conjuntos de datos, por ejemplo, de datos provenientes de muestras. La segunda pretende realizar inferencias o derivaciones de comportamientos observados en muestras a poblaciones con base en la información que proveen los estadísticos descriptivos previamente hechas. Es decir, la estadística inferencial implica la prueba estadística de hipótesis cuyas conclusiones nos permiten realizar ejercicios empíricos de generalización o teorización. La estadística descriptiva es siempre la primera etapa en el análisis de datos. La estadística descriptiva se divide a su vez en dos temas o aspectos que se distinguen por el tipo de información que ofrecen: medidas de tendencia central y medidas de dispersión.

III.1. MEDIDAS DE TENDENCIA CENTRAL Un uso importante de la estadística descriptiva es que nos permite obtener y comunicar información cuantitativa útil de forma simple y coherente. En este sentido, las medidas de tendencia central ofrecen información sobre el dato más frecuente, central o más probable en una distribución de datos. Su propósito es resumir en un valor numérico una imagen representativa de la distribución. Las medidas de tendencia central son por definición cualquier promedio. En este contexto, no debe pensarse que la media aritmética es el único promedio que se puede calcular. Un promedio es cualquier estadístico1 que describe la localización de datos en una distribución (por ejemplo, la mediana). Las medidas de tendencia central más comunes son las siguientes: media aritmética, mediana y moda. La media aritmética tiene también algunas variaciones importantes que se presentan a continuación.

III.1.1. MEDIA ARITMÉTICA La media aritmética es uno de los estadísticos descriptivos más sencillos y más antiguos con que contamos. Según Plackett, las primeras referencias históricas de las que tenemos noticia proceden del registro matemático del movimiento de los planetas en Babilonia durante el milenio III a.C. Sin embargo, parece ser que el término “media” corresponde originalmente al

astrónomo y matemático griego Hiparco (circa 190 – 120 a.C.). La media aritmética se obtiene de la suma de todos los valores observados (x) dividida entre el número de observaciones (N). Su fórmula es la siguiente:

Para una muestra (n), la media aritmética (M) se calcula de la siguiente manera:

Una aplicación de la media aritmética podemos realizarla a partir del siguiente ejemplo. El cuadro III.1 muestra la tasa anual de delitos por cada 100 000 habitantes en México entre 1997 y 2007 (n = 11). La media aritmética de la tasa delictiva de estos 11 años fue 1 441.8 delitos. En este caso, este promedio se obtuvo de la siguiente manera:

CUADRO III.1

De esta forma, la media es un punto de localización en una distribución que representa el valor más cercano u óptimo a todos los valores en tal distribución o conjunto de datos. Nótese que la media aritmética no es el valor medio ni el más frecuente en una distribución continua de datos, sino que es el valor aritméticamente más cercano a todos los valores observados.

III.1.2. MEDIA ACOTADA, GEOMÉTRICA Y ARMÓNICA La media aritmética puede perder cierta capacidad de información debido a que es afectada con facilidad por valores extremos (altos o bajos) en la variable. En este caso, la media aritmética resulta ser una medida de tendencia central poco representativa del fenómeno bajo estudio. Adviértase que el número de observaciones con valores extremos pueden ser pocos en la

muestra y aun así afectar a la media aritmética si su diferencia con el resto de las observaciones es muy notable. Una medida de tendencia central que nos permite resolver, de manera parcial, este problema es la llamada media acotada (Ma).2 La media acotada se obtiene, primero, sustrayendo normalmente el 5% de las observaciones con los valores más altos y más bajos de la distribución y, segundo, calculando la media aritmética de las observaciones restantes. Este procedimiento ayuda a que, en muchos casos, los valores más extremos sean descartados en el cálculo de la media aritmética y se tenga una mejor representatividad de una medida común o de tendencia central de las observaciones realizadas. La utilización de la media acotada debe justificarse con el uso de las medidas de dispersión que veremos en la siguiente sección. Otra solución a la pérdida de capacidad de información cuando se analizan variables con algunos valores extremos es la media geométrica (Mg). La media geométrica es la raíz n-ésima del producto de los n valores observados.3 Es decir, en el caso de una muestra con tres observaciones, se calcularía de la siguiente manera:

En la ecuación anterior, el símbolo denota el producto de todos los términos xi desde x1 hasta xn (ambos inclusive). La media armónica (Mh) es el recíproco de la media aritmética de los recíprocos de los n valores observados. Dado que la magnitud del recíproco de un número cercano a cero es relativamente grande, la media armónica tiene utilidad cuando se desea ponderar la presencia de valores bajos de la variable (en magnitud) en la distribución de datos, por ejemplo, al evaluar eficiencias o la ubicación de cuellos de botella. Si todos los datos son positivos, se puede verificar que su valor siempre es menor o igual al de la media geométrica que, a su vez, siempre es menor o igual a la media aritmética. La media armónica se calcula de la siguiente manera:

Otra forma de calcular la media armónica es dividiendo el cuadrado de la media geométrica (Mg) entre la media aritmética (M). Es decir:

Un ejemplo de la utilidad de preferir emplear la media armónica sobre la media aritmética sucede cuando queremos entender y hacer más eficiente un proceso. Supongamos que un juez resuelve 10 casos o asuntos al día, mientras que otro sólo resuelve un caso en el mismo tiempo, utilizando ambos los mismos recursos. La media aritmética de los dos jueces es de 5.5 casos resueltos al día; sin embargo, ésta no sería un buen indicador de la eficiencia del proceso porque el número de jueces disponibles es importante en la evaluación del proceso. Si calculamos la media armónica, obtendríamos el siguiente resultado:

Supongamos, que el parámetro crucial para evaluar el desempeño de los jueces no es el número de casos por día, sino el número de días que les toma resolver cada caso. Se observará que el primer juez tarda 0.1 días por caso, mientras que el segundo juez atiende un caso por día. Si cada juez resuelve un caso, dedicarán un tiempo total de 1.1 días a resolver dos casos, o un promedio de 0.55 días por caso para el equipo formado por los dos jueces. Una persona que no sepa a priori cuál juez la atenderá bien podría decir que ese es el tiempo esperado que le tomará la resolución de su caso, el cual corresponde justamente a la media armónica de 1/0.55=1.8 casos por día. Esto muestra que la eficiencia del proceso, al considerar el número de casos que resuelve cada uno de los jueces en la muestra, es mucho más baja que lo que la media aritmética indica. En concreto, ante la presencia de un juez ineficiente, necesitaríamos 10 jueces eficientes para, efectivamente, obtener

la media de 5.5 casos resueltos; esto si asumimos que dicho rendimiento (5.5 casos) es la meta deseada. Lo anterior podemos verlo claramente al igualar la media armónica hasta llegar al valor de la meta (media aritmética):

Otra forma de ver este resultado de la media armónica, es que un asunto tarda en resolverse 0.1 días con el juez eficiente y tarda un día en resolverse con el juez ineficiente, o bien 0.55 días en promedio por juez. Eso quiere decir que, con estos dos jueces, se resuelve un promedio de 1.8 asuntos por juez y por día. Es decir, el problema de la ineficiencia en el proceso no se resolvería aumentando el presupuesto e incrementando el número de jueces de forma independiente a su rendimiento individual. El rendimiento individual sí puede afectar de manera significativa el rendimiento medio aritmético del grupo y esto sólo se observa cuando calcu​lamos la media armónica. Como se mencionó anteriormente, cuando todos los datos son positivos, la media aritmética siempre tiene el valor más alto de estas medias y la media armónica tiene el menor valor. La regla es que:

La igualdad se presenta cuando todos los datos tienen el mismo valor. El valor de la media acotada siempre dependerá de la proporción de observaciones que se sustraigan de la muestra para su cálculo. Los resultados de calcular la media aritmética, acotada, geométrica y armónica a la información contenida en el cuadro III.2 ilustran lo anterior. CUADRO III.2

III.1.3. MEDIANA La mediana es la medida de tendencia central que divide a la distribución en dos partes iguales. Su primer uso y definición registrados datan de 1748, cuando Euler (y otros) propusieron un método para dividir las observaciones de un conjunto de datos en dos partes iguales y así encontrar el valor que estaba exactamente en medio de la distribución, ya que se trata de un segmento de información valiosa y diferente a la media aritmética. Es decir, el valor mediano indica el lugar en la distribución a partir de la cual el 50% de las observaciones se encuentran por debajo y por encima de la misma. La mediana es el valor intermedio de todos los valores observados en la distribución si el número de datos es impar, o el promedio de los dos valores centrales si el número de datos es par. La mediana se denota por las siguientes dos nomenclaturas para la muestra y la población, respectivamente: En el ejemplo de la tasa delictiva anual observada entre los años de 1997 y 2007 (véase el cuadro III.1), la tasa mediana sería 1 437.5, que corresponde a la cifra observada en 1998. Lo que esta tasa mediana indica es que una mitad (50%) de los años en la muestra tuvo tasas superiores a esa cifra y la otra mitad tuvo tasas menores. La mediana se obtuvo al ordenar los valores de menor a mayor y luego se tomó el valor que se encuentra justo en medio de la distribución si el número de observaciones es impar (o del promedio de los dos valores centrales, si el

número de observaciones es par). Esto se realizó de la siguiente manera: (1) 1 370.9; 1 394.9; 1 403.0; 1 408.8; 1 423.1; 1 437.5; 1 445.1; 1 445.2; 1  458.2; 1 502.6; 1 570.0 (2) La localización de la mediana se encuentra en:

(3) Por lo tanto, la mediana corresponde al valor ubicado en el sexto lugar de la serie ordenada de datos, es decir, Md = 1 437.5

III.1.4. MODA La moda Mo se refiere al valor más típico o más frecuente en una distribución de datos. Es una medida de tendencia central que suma más información descriptiva a las dos medidas anteriores en un análisis de datos. La moda refleja el pico en una distribución de datos. Es por ello el valor más probable en cualquier distribución de probabilidades. Naturalmente puede haber distribuciones de datos unimodales, multimodales (por ejemplo, bimodal o trimodal) o una distribución sin una moda o valor más frecuente. En el caso de distribuciones continuas (aquellas con un rango continuo de valores, como la estatura de una persona), al igual que con las distribuciones discretas, la moda también puede definirse como el valor, o valores, en que la función de densidad de probabilidades es máxima. La función de densidad de probabilidades será tratada en el próximo capítulo. La moda no tiene una fórmula o una nomenclatura matemática específica para distinguirla de la referida a una muestra o a una población. En el caso del ejercicio anterior, no se puede reportar una moda ya que no hay un valor o tasa más frecuente; todas las tasas tienen un valor único y por ende diferente. Cuando una distribución no posee una moda, el valor más probable de ocurrir en una secuenciación infinita de muestras de variables continuas es el que se obtiene de la media aritmética.

III.2. MEDIDAS DE DISPERSIÓN La dispersión es el grado en que las observaciones difieren entre ellas. Las medidas de dispersión más utilizadas son el rango, la varianza, la desviación estándar (o desviación típica), el sesgo, la curtosis y el coeficiente de variación. Salvo el sesgo, estas medidas de dispersión sólo pueden calcularse para variables continuas. Para variables nominales y ordinales, la variación solamente puede estudiarse de manera comparativa con base en porcentajes de respuesta o a través de relaciones proporcionales (ratio).

III.2.1. RANGO El rango es la diferencia aritmética entre el valor más alto y el más bajo de una variable continua. Se obtiene de la siguiente manera:

Para el caso de la información contenida en el cuadro III.1, el rango sería:

Si bien es un estadístico muy fácil de calcular, tiene la seria limitación de que no ofrece información sobre el resto de los datos que no caen en esta definición de valor extremo. Es decir, el resto de las observaciones no son consideradas en el cálculo de la variabilidad del conjunto. Evidentemente, a semejanza de la media aritmética, el rango es sensible a la magnitud de los valores extremos. Basta un valor extremo en una observación para aumentar de manera notable el rango de la variable, lo que lo hace una medida de dispersión poco informativa.

III.2.2. VARIANZA Y DESVIACIÓN ESTÁNDAR El estudio sistemático de la variabilidad es una idea cuyo origen se remonta a la astronomía del siglo XVI que fue atraída por el análisis de lo social a principios del siglo XIX. Específicamente, el término “varianza” fue acuñado por Ronald Fisher a principios del siglo XX, sobre éste desarrollaría, en 1925, la técnica de análisis de varianza (anova) o prueba F. En términos

matemáticos, la varianza es la media aritmética del cuadrado de las desviaciones de cada observación a la media aritmética del conjunto de datos. Se obtiene de la siguiente manera:

La varianza de una muestra se obtendría de la siguiente manera:4

La desviación estándar de la población (σ) y de la muestra (s) es la raíz cuadrada de la varianza respectiva, es decir:

Otra forma de calcular la desviación estándar de la muestra sería la siguiente:

En estadística, el uso del término varianza (variance) es posterior al de desviación estándar (standard deviation). El primer cálculo de desviación estándar, llamado en ese entonces “error medio”, fue realizado por Gauss en 1816. El término de desviación estándar lo utilizó Pearson por primera vez en 1893 y la notación que utilizamos actualmente (σ, s) también la presentó él un año después. Si bien, como decíamos arriba, aunque el estudio sistemático de la variabilidad (en particular la variabilidad de los errores de observación) proviene originalmente de la astronomía, el concepto de la desviación estándar lo utilizó Pearson para la estimación de parámetros dentro de intervalos de confianza y para la prueba estadística de hipótesis de fenómenos sociales. El cuadro III.3 contiene un ejemplo de cómo calcular la varianza y la desviación estándar con la información proveniente de la tasa de averiguaciones previas por año en México entre 1997-2007. En este caso se trata a las 11 observaciones anuales como una población (N); dependiendo

del enfoque analítico, este conjunto de datos podría tratarse como una muestra (n). CUADRO III.3

La ventaja de utilizar la desviación estándar sobre la varianza es al menos doble. La primera ventaja es de tipo descriptiva y la segunda, de tipo inferencial. La ventaja descriptiva es que la desviación estándar es una

medida de dispersión de los datos que devuelve la medición a su unidad original (por ejemplo, la tasa de averiguaciones previas vs. la tasa de averiguaciones previas cuadráticas). La ventaja en estadística inferencial es que la desviación estándar se relaciona con la ley de los grandes números5 a través de la desigualdad de Tchebyshev (1867), a veces llamada también teorema de Bienaymé-Tchebyshev, de la siguiente manera: en cualquier distribución de probabilidades de una variable aleatoria X, rara vez una observación caerá a varias desviaciones estándar de la media aritmética, y en concreto, a no más de 1/k2, donde k es el número de desviaciones estándar a tal media. Es decir:

Visto a la inversa, el teorema postula que, porcentualmente, al menos 1–(1/k2) de las observaciones estarán a k desviaciones estándar de la media (véase el cuadro III.4). Por ejemplo, al menos el 75% de las observaciones estarán en el intervalo μ +/– 2σ, independientemente de la forma de su distribución. En una curva normal estándar de probabilidades, el 95% de las observaciones se encuentran en dicho intervalo (μ +/–2σ). Nótese que k no puede ser menor a 1, pues implicaría probabilidades mayores a 1. CUADRO III.4

III.2.3. SESGO Y CURTOSIS El sesgo es una medida de la asimetría de una distribución de datos. La curtosis es una medida del grado de concentración de los datos alrededor de la media aritmética. Ambas medidas son indispensables en el análisis de la dispersión de los datos. Empezando con el sesgo, es importante aclarar que hay fenómenos en el mundo social cuyas distribuciones de datos no tienen una forma esencialmente simétrica, por ejemplo, semejante a una curva normal. Es decir, hay variables cuya asimetría no se debe a una variación aleatoria en la selección de las observaciones, sino a un comportamiento efectivamente sesgado. Un ejemplo claro y simple son las mediciones que realizamos sobre muchos fe​nómenos (no todos) relacionados con la criminalidad. La gráfica III.1.

muestra las tasas mensuales de robos de vehículos por cada 100 000 habitantes en la Ciudad de México, entre enero de 2003 y septiembre de 2009. Observamos que la mayor parte de los meses tenemos tasas por debajo de la media aritmética y, a la inversa, hay menos meses con tasas altas de este delito. Esto lo podemos verificar tanto visual como numéricamente comparando el valor de la media aritmética (M) y la mediana (Md). En este caso, podemos saber que estamos frente a una distribución sesgada sin ver la gráfica, ya que la media es mayor a la mediana; el valor medio aritmético está por encima del 50% de las observaciones, por lo que el sesgo es a la derecha. GRÁFICA III.1

Fuente: Elaboración propia.

Este tipo de delito es un ejemplo simple y regular de un fenómeno social asimétrico o sesgado, en el cual, en efecto, las dos mitades de la distribución de los datos (tasas) observadas desde la mediana (Md = 25.8) tienen formas diferentes en ambos lados. Es importante saber si las distribuciones de datos tienen un sesgo, pues esto tiene implicaciones en la prueba estadística de hipótesis. Las distribuciones sesgadas o asimétricas requieren un manejo particular de la información y de aplicación de técnicas estadísticas ad hoc. Muchas técnicas requieren el supuesto de la normalidad de los datos, el cual no siempre es aplicable. Por ejemplo, el análisis de regresión requiere que los residuales (la diferencia entre los valores observados y los valores predichos) de la línea de ajuste de los datos se distribuyan de forma normal.6 En ocasiones esto no sucede, y en consecuencia la línea de ajuste o de predicción puede sobreestimar o subestimar los valores futuros o posibles de la variable en cuestión. Por ende, es necesario cuantificar la magnitud del sesgo sobre las distribuciones muestrales sobre las que se desea inferir alguna característica de la población. Como ya vimos, el sesgo se puede concluir, de manera preliminar, a partir de la inspección visual de una distribución o al comparar la media y la mediana. Si los valores de estas medidas de tendencia central son diferentes, estamos frente a una distribución sesgada. En síntesis, una variable sesgada es aquella en que la media aritmética no se encuentra en el punto medio de la distribución. La fórmula para calcular el sesgo de una muestra es la siguiente:

En esta expresión, M2 representa la varianza, o segundo momento de la distribución (que es el término entre paréntesis en el denominador de la última fracción) y M3 representa el tercer momento de la distribución (dado por el numerador en la última fracción). Por supuesto, M es la media aritmética y N es el número de datos en la distribución con elementos xi. Esta medida también es llamada coeficiente de asimetría. Una manera más simple de calcular el sesgo —aunque es más sensible al tamaño de la muestra y no es adecuada en la presencia de distribuciones multimodales— pertenece a

Pearson (1895), quien propuso calcularlo de la siguiente manera:

Donde M es la media aritmética y M0 la moda. También podría calcularse de la siguiente manera, presentada la fórmula ahora con otra notación, tal y como lo hacen algunos paquetes de cómputo (como Excel):

De esta manera, el sesgo de una distribución perfectamente simétrica (por ejemplo, normal o uniforme) es igual a cero porque la media aritmética y la moda son idénticos. En distribuciones asimétricas el sesgo puede ser positivo o negativo. Un sesgo positivo se presenta cuando la mayor parte de las observaciones se encuentran del lado izquierdo de la distribución o, lo que es lo mismo, tienen un valor menor a la media aritmética. Esto también es denominado “sesgo a la derecha”, donde el sesgo se refiere al lado de la distribución con el menor número de observaciones. Por otro lado, un sesgo negativo se presenta cuando la mayor parte de las observaciones se encuentran del lado derecho de la distribución o por encima de la media aritmética. En el caso de la gráfica III.1 el sesgo es igual a 0.933, un valor positivo, es decir, la mayor parte de las observaciones (tasas) se encuentran por debajo de la media del conjunto. El sesgo se calcula de manera diferente según el tipo de distribución teórica que estemos analizando. Calculado como lo acabamos de ver, el sesgo en una distribución normal es igual a cero, en una distribución exponencial el sesgo sería igual a 2, y en una distribución t de Student y uniforme nuevamente el sesgo sería igual a cero.7 En cambio, el sesgo de una distribución dicotómica (es decir, aquella distribución en la que sólo hay dos resultados mutuamente excluyentes, uno con probabilidad p y otro con probabilidad 1 – p) se tendría que obtener de la siguiente manera:8

Como en ocasiones anteriores, n representa el tamaño de la muestra. Finalmente, el sesgo de una distribución lognormal se calcularía de la siguiente manera:

Otra medida que nos da información sobre la forma de la distribución es la curtosis. Ésta se enfoca en cuantificar el grado en que las observaciones se concentran alrededor de la media aritmética (M). Es decir, hay que considerar la posibilidad de encontrar distribuciones simétricas: sin sesgo, pero no normales. En este sentido, hay tres tipos de distribuciones: platocúrticas, mesocúrticas, y leptocúrticas.9 Las distribuciones normales son de tipo mesocúrtica. La media, la varianza, el sesgo y la curtosis son casos específicos de un concepto más general, llamado “momento de una distribución estadística”. El n-ésimo momento se evalúa integrando (o sumando, en el caso discreto) el producto de la función de distribución de probabilidad por un polinomio de n-ésimo grado, típicamente (x-M)n, donde M es la media de la distribución. La curtosis se define como el cuarto momento de una distribución a partir de su media aritmética. Por medio del método de los momentos, ésta puede calcularse de la siguiente manera:

Otra fórmula para obtener la curtosis que es bastante común en algunos estudios y paquetería es la siguiente (Bliss, 1967; Cramér, 1994):10

O bien la siguiente:11

El valor puede ser positivo o negativo. Si la curtosis es positiva, esto indica que las observaciones están más concentradas alrededor de M de lo que se observaría en una distribución normal, es decir, estaríamos frente a una distribución leptocúrtica. Si la curtosis es negativa, indicaría que las observaciones tienden a alejarse de M, señal de una distribución platocúrtica. Finalmente, si la curtosis es igual a cero, la distribución se considera mesocúrtica, esto es, que se distribuye de forma semejante a una distribución normal.

III.2.4. COEFICIENTE DE VARIACIÓN El coeficiente de variación (CV), presentado como una medida de dispersión por Pearson en 1897, es una medida de la desviación estándar como porcentaje de la media aritmética. Cuanto mayor sea el CV, mayor será la dispersión. Tiene la ventaja sobre la desviación estándar de describir la dispersión en una forma cuya interpretación no depende de la unidad de medición original. Es decir, podemos comparar la dispersión de dos variables diferentes o bien de la misma variable con muestras recolectadas en tiempos diferentes. Esto sucede porque tanto la desviación estándar como la media aritmética de una variable X se expresan en términos de la misma unidad de medición, por lo que cuando se obtiene la proporción de ambas —es decir, dividimos una entre otra— el factor “unidades diferentes” que impide la comparación de dos variables diferentes se cancela y permite entonces realizar la comparación. Para una muestra, el CV se obtiene de la siguiente manera:12

Para el caso de una variable expresada en porcentajes, por ejemplo una variable dicotómica (es decir en la presencia de una distribución binomial),

podemos calcular el CV de la siguiente manera:

III.3. NIVELES DE MEDICIÓN Y ESTADÍSTICA DESCRIPTIVA En este capítulo vemos que los tres niveles de medición, en estadística también llamados “tipos de variables”, utilizados en las ciencias sociales son: nominal, ordinal y continua. Las variables nominales son el nivel de medición más elemental en tanto que sólo clasifican los posibles valores o resultados de una medición; el valor numérico y el orden de la medición no son importantes. En la estadística inferencial las variables nominales se dividen a su vez en dos: dicotómicas y no-dicotómicas. Las variables nominales dicotómicas son aquellas que sólo pueden tomar dos valores que corresponden a circunstancias opuestas; por ejemplo, no (0), sí (1). Las variables nominales no dicotómicas son aquellas que pueden tomar más de dos valores o representar más de dos posibilidades de respuesta, por ejemplo, en una encuesta, la nacionalidad, el tipo de delito, etc. La razón de esta distinción es que existen técnicas de estadística inferencial (por ejemplo, prueba Z para proporciones) y supuestos de probabilidad (v.g. distribución binomial) que son aplicables a unas y no a otras. Las variables nominales en ocasiones son llamadas “variables cualitativas”. Las variables ordinales son el segundo nivel de medición en cuanto al grado de información que proveen. Las variables ordinales son aquellas en que los valores posibles son ordenados de forma correspondiente a una progresión u orden categórico. Un ejemplo clásico son los rankings que se realizan en las competencias deportivas. Otro ejemplo lo encontramos en las encuestas de victimización cuando se pregunta a las personas qué tan inseguras se sienten y en las cuales sólo existen cuatro opciones de respuesta: muy seguro (1), algo seguro (2), poco seguro (3), o nada seguro (4). Una limitación de las variables ordinales es que las distancias entre los posibles valores de la variable pueden ser desiguales o no equivalentes en sus proporciones. Por ejemplo ¿la distancia entre sentirse algo seguro (2) y poco seguro (3) es la

misma que existe entre sentirse muy seguro (1) y algo seguro (2)? El debate aquí se encuentra en si las diferencias entre las categorías anteriores representan posiciones diferentes y además lo hacen en distancias o proporciones iguales. Las variables continuas son aquellas en las que las distancias entre todos los valores posibles de la variable son equivalentes y además existe un cero real (una ausencia de valor) dentro de la escala de todos los valores que puede asumir tal variable. Es decir, una variable continua, además de clasificar y ordenar, permite comparar de forma proporcionada las distancias entre cada medición. Una variable continua sería el ingreso de las personas en pesos y centavos o la tasa de delitos en una ciudad cierto año. En ocasiones, a estas variables también se les conoce como “variables de razón” o “proporciones”. La relación que existe entre los diferentes niveles de medición y la estadística descriptiva es que no pueden calcularse todas las medidas de tendencia central y de dispersión en todos los tipos de variables (véase el cuadro III.5). Algunos de estos estadísticos sólo pueden obtenerse si las variables ofrecen suficiente información. A mayor grado de información corresponde un mayor número de medidas de tendencia central y de dispersión aplicables. CUADRO III.5

La media aritmética, por ejemplo, no puede calcularse para variables nominales puesto que el sexo o la nacionalidad de las personas no tiene un valor numérico propio; una clasificación nominal es un atributo individual y no existe una referencia a la cantidad de la variable que se tiene. De igual modo, tampoco podría obtenerse la mediana, ya que los posibles resultados de una variable nominal no pueden ordenarse de forma lógica. ¿Qué sentido lógico tendría ordenar el sexo o la nacionalidad de las personas en una progresión de menor a mayor? La mediana sí podría calcularse para una variable ordinal, pero la media aritmética o cualquier otro tipo de media es discutible. Un requisito para calcular cualquier media es que la distancia entre los valores posibles sea la misma. En consecuencia, sin una buena justificación para la media aritmética, sería igual de debatible la aplicación de la varianza y desviación estándar.

EN RESUMEN La estadística descriptiva busca representar y definir la información obtenida a partir de conjuntos de datos. Esta rama de las matemáticas utiliza

medidas de tendencia central como la media, la mediana y la moda, y medidas de dispersión como la desviación estándar, la varianza, el rango, el sesgo y la curtosis. No obstante, la aplicación de estas medidas está sujeta al tipo de variables con las que se trabaja. Estas variables son nominales o dicotómicas, ordinales y continuas.

EJERCICIOS DE REPASO

1. Para los siguientes conjuntos de datos, calcule las siguientes medidas de tendencia central (si aplica): media aritmética, media geométrica, media armónica, mediana y moda. Posteriormente, para los mismos datos calcule las siguientes medidas de dispersión: rango, varianza, desviación estándar, el coeficiente de asimetría de Pearson, el coeficiente de asimetría calculado por los paquetes estadísticos comerciales, curtosis y coeficiente de variación. Entidad

Ejercicio 1

Ejercicio 2

Ejercicio 3

Ejercicio 4

Delitos del fuero común

Violación simple

Fraude

Abuso de confianza

Aguascalientes

2 248

21

20

18

Baja California

12 172

301

61

46

Baja California Sur

1 427

33

31

24

Campeche

1 553

28

40

10

Coahuila

1 694

12

28

11

Colima

2 286

55

71

35

Chiapas

5 053

213

105

31

Chihuahua

7 169

277

104

71

22 135

243

221

45

Durango

1 733

90

30

9

Guanajuato

5 617

85

151

125

Guerrero

3 995

161

72

44

Hidalgo

3 106

74

105

40

Jalisco

11 021

382

288

19

Estado de México

9 244

296

85

22

Michoacán

4 733

186

78

38

Morelos

1 149

57

35

5

Nayarit

2 662

48

93

38

Ciudad de México

Nuevo León

5 644

74

49

5

Oaxaca

2 976

85

128

8

Puebla

1 784

40

68

7

Querétaro

3 817

32

37

32

Quintana Roo

2 425

88

22

12

San Luis Potosí

7 524

345

129

33

Sinaloa

3 623

23

100

33

Sonora

11 828

61

114

53

Tabasco

3 917

114

131

113

Tamaulipas

2 710

61

31

13

Tlaxcala

1 035

20

51

7

Veracruz

5 461

136

219

38

Yucatán

3 630

47

59

13

Zacatecas

1 716

20

71

27

Fuente: Censo Nacional de Gobierno, Seguridad Pública y Sistema Penitenciario Estatales 2013, INEGI.

Ejercicio 5 Entidad

Ejercicio 6

Tasa de incidencia Total de denuncias y delictiva querellas

Ejercicio 7 Entidad Aguascalientes

Víctimas de presuntos delitos

Aguascalientes

32 368

18 082

Baja California

39 297

108 682

Baja California Sur

31 049

20 889

Campeche

29 097

1 266

Coahuila

17 870

48 320

Coahuila

47 352

Colima

25 169

43 721

Colima

13 018

Chiapas

12 827

20 814

Chiapas

28 375

Chihuahua

35 952

61 032

Chihuahua

60 673

Distrito Federal

49 198

179 146

Ciudad de México

179 146

Durango

27 631

27 314

Durango

27 314

Guanajuato

34 391

80 164

Guanajuato

88 162

Guerrero

33 762

28 736

Guerrero

36 309

Hidalgo

21 874

26 633

Hidalgo

29 368

Jalisco

49 083

89 854

Michoacán

50 492

Estado de México

56 752

269 116

Estado de México

269 116

Baja California Baja California Sur Campeche

13 885 113 836 20 684 294

México

México

Michoacán

24 362

35 464

Morelos

63 742

Morelos

35 750

46 664

Nayarit

7 175

Nayarit

26 006

7 918

Nuevo León

37 076

Oaxaca

Nuevo León

63 649

60 850

Oaxaca

45 165

18 009

44 370

Puebla

106 461

Puebla

27 318

91 651

Querétaro

Querétaro

27 197

33 208

Quintana Roo

Quintana Roo

40 279

1 927

San Luis Potosí

28 012

San Luis Potosí

35 124

27 293

Sinaloa

35 353

Sinaloa

33 231

53 633

Sonora

50 661

Sonora

34 126

33 361

Tabasco

58 209

Tabasco

24 368

49 084

Tamaulipas

55 270

Tamaulipas

25 255

44 309

Tlaxcala

7 306

Tlaxcala

18 530

7 473

Veracruz

100 184

Veracruz

23 411

92 205

Yucatán

46 726

Yucatán

22 945

46 169

Zacatecas

16 443

Zacatecas

20 506

17 024

47 168 988





Fuente: Encuesta Nacional de Victimización y Percepción sobre Seguridad Pública (Envipe) 2013, INEGI. Tabulados básicos. Censo Nacional de Procuración de Justicia Estatal 2013, INEGI.

Ejercicio 8 Año

Índice de percepción de frecuencia delictiva

Año

Índice de percepción de frecuencia delictiva

2005

3.09

2009

3.25

2006

2.81

2010

3.45

2007

3.14

2011

3.32

2008

3.09

2012

2.6

Fuente: Encuesta Nacional de Victimización y Eficacia Institucional 2013.

Ejercicio 9 Delegación Total de homicidios dolosos (enero 2010-febrero 2013)

Delegación Total de homicidios dolosos (enero 2010-febrero 2013)

Álvaro Obregón

Iztapalapa

168

563

Obregón Azcapotzalco

93

Magdalena Contreras

Benito Juárez

93

Miguel Hidalgo

Coyoacán

87

Milpa Alta

Cuajimalpa

34

Tláhuac

100

Cuauhtémoc

216

Tlalpan

163

Gustavo A. Madero

414

Venustiano Carranza

228

87

Xochimilco

82

Iztacalco

39 121 27

Fuente: Tasa de homicidio por delegación (2010), Secretaría de Seguridad Pública del Distrito Federal (SSPDF), Procuraduría General de Justicia del Distrito Federal (PGJDF), INEGI.

Ejercicio 10 Entidad

Hombres sentenciados por lesiones

Entidad

Hombres sentenciados por lesiones

Aguascalientes

11

Morelos

60

Baja California

485

Nayarit

189

Baja California Sur

30

Nuevo León

173

Campeche

104

Oaxaca

657

Coahuila

116

Puebla

274

Colima

67

Querétaro

416

Chiapas

285

Quintana Roo

046

Chihuahua

307

San Luis Potosí

694

Ciudad de México

569

Sinaloa

226

Durango

172

Sonora

380

Estado de México

374

Tabasco

217

Guanajuato

754

Tamaulipas

202

Guerrero

662

Tlaxcala

191

Hidalgo

415

Veracruz

605

Jalisco

490

Yucatán

205

Zacatecas

492

Michoacán

1 265

Fuente: Censo Nacional de Gobierno, Seguridad Pública y Sistema Penitenciario Estatales 2013, INEGI.

RESPUESTAS A LOS EJERCICIOS Ejercicio 1 Media

2

3

4

5

Aritmética

4 908.9

115.8

88.3

32.0

30 306.6

Geométrica

3 664.8

76.3

70.6

23.0

28 830.3

Armónica

2 872.8

50.6

56.6

16.3

27 373.5

3 626.5

74

71.5

29

28 364

Moda

N/A

85

31-105

38

N/A

Rango

21 100

370

268

120

43 925

19 453 957.7

11 372.371

3 922.039

783.193

95 595 372.9

4 410.664

106.641

62.626

27.986

9 777.2

N/A

0.290

N/A

-0.213

N/A

2.307

1.197

1.544

1.986

0.761

Curtosis

6.647

0.252

2.614

4.581

0.738

Coeficiente de variación

0.898

0.920

0.709

0.874

0.323

Mediana

Varianza Desviación estándar Sesgo

Pearson Paquete estadístico

Ejercicio 6 Aritmética

7

8

9

10

53 636.625

5 5179

3.094

157.188

347.906

34 183.659

31 803.975

3.083

113.238

237.809

14 033.582

5 738.038873

3.071

83.187

117.018

44 015

46 726

3.115

96.5

279.500

Moda

N/A

N/A

3.09

93

N/A

Rango

267 850

268 822

0.850

536

1 254

2 870 330 013.661

3 040 377 990.985

0.076

20 911.896

73 629.636

53 575.461

55 139.623

0.275

144.609

271.348

N/A

N/A

0.014

0.444

N/A

2.593

2.397 –0.757

1.933

1.338

Curtosis

8.336

7.228

0.218

3.661

2.690

Coeficiente de variación

0.999

0.999

0.089

0.920

0.780

Media Geométrica Armónica Mediana

Varianza Desviación estándar Sesgo

Pearson Paquete estadístico

PREGUNTAS E IDEAS 1. Considerando que los ejercicios tienen 10 datos y que la regla sugiere que

para calcular la media acotada se debe sustraer el 5% de los datos superiores e inferiores y esto no es posible para esto datos, ¿cómo podría calcular la media acotada? 2. ¿La siguiente afirmación es cierta o falsa?: “La media aritmética siempre es mayor que la mediana”. 3. Una vez terminados los ejercicios anteriores, explique por qué la media aritmética es mayor a la media acotada, geométrica y armónica.

SITIOS DE INTERÉS •

Joint Center for Political and (http://www.jointcenter.org/DB/index.htm) • Gallup (http://www.gallup.com/)

Economic

Studies

1

Los estadísticos son valores numéricos calculados a partir de ciertos datos en una muestra representativa de la población bajo estudio, que permiten inferir algunas características de dicha población. 2

En inglés, trimmed mean.

3

Naturalmente, no siempre es posible obtener la media geométrica si la variable presenta ceros o valores negativos y n es un número par. 4

La inserción de n – 1 en el denominador de la fórmula, especialmente útil para el caso de muestras pequeñas, corresponde a Gosset (o Student) a pregunta expresa de Pearson en 1927. 5

La ley de los grandes números establece que, conforme crece el número de veces que se repite un evento aleatorio, el valor promedio que se obtiene de los resultados obtenidos se aproxima a una constante, la cual es el valor esperado del evento aleatorio (por ejemplo, la probabilidad de ocurrencia de cierto resultado). 6

Muchas variables pueden ser transformadas o normalizadas para aplicar el análisis de regresión u otras técnicas de estadística paramétrica. Sin embargo, es importante notar que sólo tiene sentido normalizar aquello que varía simétricamente alrededor de su media aritmética; para lo cual es necesario, entonces, asumir que las varianzas son uniformes. 7

Las distribuciones normal y exponencial se tratarán, respectivamente, en las secciones IV.2.3 y IV.2.4, mientras que la distribución t de Student se emplea en la prueba del mismo nombre de la

sección VIII.2.3. 8

Más adelante veremos cómo se puede aproximar una distribución binomial a una normal.

9

Los términos “platicúrtica”, “mesocúrtica” y “leptocúrtica” provienen de etimologías griegas que significan, respectivamente, “curva plana”, “curva media” y “curva angosta” y corresponden a distribuciones con menos, igual y más curtosis que una distribución normal de la misma media y desviación estándar. 10

Como en SPSS y Excel.

11

En Excel.

12

El coeficiente de variación no está definido cuando la media es cero.

Describir. Representar o detallar el aspecto de alguien o algo por medio del lenguaje (RAE). Media. Una medida de localización o de tendencia central para una variable continua. Promedio. Término que se utiliza normalmente para describir la media aritmética de una muestra de observaciones, pero que puede ser utilizado también para cualquier otra medida de tendencia central (ej. la mediana). Mediana. El valor que en una distribución de valores ordenados por su magnitud los divide en dos partes de igual tamaño. Varianza. En un conjunto de datos, es el promedio de las diferencias de los valores de las observaciones a su media aritmética. Desviación estándar. También llamada desviación típica, es la medición más común de dispersión en un conjunto de observaciones y es igual a la raíz cuadrada de la varianza.

Capítulo IV. Estimaciones puntuales: qué y para qué

Objetivos de aprendizaje • • • • • • •

Definir y comprender los conceptos de estimación puntual, momentos de una distribución y distribución de probabilidades. Distinguir entre variables discretas y continuas. Conocer las distintas distribuciones de probabilidad y sus aplicaciones: binomial, de Poisson, normal, exponencial y lognormal. Identificar los cuatro primeros momentos de una distribución y aprender a calcularlos en cada distribución: media, varianza, sesgo y curtosis. Aprender a calcular los intervalos de confianza para la media aritmética en las distribuciones: de Poisson, exponencial y normal. Aprender a calcular los intervalos de predicción de la media en una distribución normal. Distinguir ente un intervalo de confianza y un intervalo de predicción.

Las estimaciones puntuales son mediciones provenientes de una muestra que

representan los valores posibles de los parámetros de una población o universo. Dicho de otra manera, en una distribución de datos de una variable X, una estimación puntual nos dice la localización de una característica de la población, por ejemplo, la media aritmética de la variable X. Para poder realizar un estimador puntual, es necesario saber o suponer el tipo de distribución de datos que mejor representa a esta variable.

IV.1. MOMENTOS DE LAS DISTRIBUCIONES Existen varios métodos para obtener estimadores puntuales. Por ejemplo, tenemos el método de momentos o las funciones de máxima verosimilitud. En esta sección ahondaremos en el primero. Los momentos de una distribución son las mediciones que nos describen la forma en que se distribuye la variable aleatoria que estamos analizando.1 Es decir, los momentos de una distribución nos permiten responder preguntas del siguiente tipo: ¿la distribución de una variable X es simétrica o asimétrica?, ¿de qué manera está sesgada y qué tanto?, y ¿qué parámetros debo utilizar y cómo puedo calcularlos para obtener la probabilidad de la ocurrencia de un evento dentro de una distribución de probabilidades en particular? Una distribución de probabilidades es la cuantificación de todos los valores que puede tomar una variable aleatoria X. Aquí nos referimos, de forma más precisa, a lo que se conoce como “función de densidad de probabilidades”. Si bien en las ciencias sociales hay diferentes niveles de medición, para el cálculo de probabilidades sólo existen dos tipos de variables: discretas y continuas. Definida de manera simple, una variable discreta es la que es finita en términos de sus posibles valores, por ejemplo, la resultante de un conteo de eventos (v.g. números enteros solamente). Una variable continua es aquella que, dentro de un intervalo, es infinita en términos de sus valores posibles, por ejemplo, la resultante de un proceso de medición (v.g. entre 0 y 10 hay una cantidad infinita de números reales). Para efectos prácticos, cuando una variable discreta puede tomar un rango muy amplio de valores, ésta puede analizarse de manera continua (por ejemplo, número de detenciones diarias). A veces, ni es necesario que el rango sea muy amplio para que pueda manejarse como variable continua: con cuatro o cinco valores podría ser suficiente. En términos de niveles de medición para las ciencias

sociales, las variables nominales y las ordinales se consideran variables discretas, y las variables de intervalos y de razón o continuas, se consideran como tales. Existe una amplia variedad de distribuciones de probabilidades para variables discretas y continuas, las cuales son elegidas según el tipo de variable y el fenómeno social que estemos estudiando. En la investigación social hay cinco distribuciones fundamentales, ya sea por la frecuencia con que aparecen o bien por la necesidad que tenemos de realizar ciertos supuestos en la prueba estadística de hipótesis. Estas distribuciones son: binomial, de Poisson, normal —también llamada Gaussiana, en honor al matemático alemán Karl Friedrich Gauss (1777-1855)—, exponencial y lognormal. Las dos primeras representan comportamientos probabilísticos de variables discretas y las tres últimas representan comportamientos probabilísticos de variables continuas. Otras distribuciones, no tan frecuentes como las anteriores, son: uniforme, de Bernoulli, geométrica, hipergeométrica, de Pareto, logística, Weibull y multinomial (esta última, una generalización de la distribución binomial). También es bueno mencionar las distribuciones Beta y Gamma, así como la distribución complementaria LogLog. Todas estas distribuciones pueden ser aproximadas a la distribución normal de probabilidades. Algunas mediciones de tendencia central y de dispersión vistas en el capítulo III son utilizadas para la obtención de los diferentes momentos de una distribución. Toda distribución de datos puede ser descrita por su tendencia central y su dispersión. Los cuatro primeros momentos de una distribución son, en estricto orden, los siguientes: media, varianza, sesgo y curtosis. Como ya vimos en el capítulo anterior, cada medición, o en este caso, cada momento de una distribución, ofrece información importante y diferente sobre la distribución de la variable. Los dos momentos más importantes en una distribución son los dos primeros, la media (μ) y la varianza (σ 2). Esto sucede porque ambos retratan el origen y la dispersión, respectivamente, de todos los valores posibles que puede tomar la variable, los cuales constituyen el “espacio muestral”. En una distribución, la media es el centroide del área de la curva de probabilidades y la varianza la dispersión de los datos, tomando en este último caso como referencia a tal origen o centroide de los valores posibles.

En síntesis, el uso de momentos sirve para describir la forma de cualquier tipo de distribución y consecuentemente para realizar cálculos de probabilidades. Pero no siempre los cuatro momentos de una distribución son necesarios para describir de forma elemental una distribución de probabilidades. Nótese, además, que también existen métodos diferentes para calcular los momentos de cada tipo de distribución teórica. Por ejemplo, la distribución normal estándar de probabilidades puede ser descrita por los dos primeros momentos, la media y la varianza. Ambos momentos son utilizados como los parámetros (o valores teóricos esperados) para el cálculo de probabilidades de la ocurrencia de eventos y el cálculo de estimadores puntuales. Y para realizar tal cálculo, bajo el supuesto de una curva normal de probabilidades, solamente requerimos asignar un origen (μ) y una dispersión (σ 2) a los valores de la distribución. Las cinco distribuciones de datos que presentamos en este capítulo pueden ser descritas por estos dos primeros momentos, calculados de manera diferente para cada caso. Los momentos de cada distribución y las formas de calcularlos se presentan en el siguiente cuadro. CUADRO IV.1

IV.2. DISTRIBUCIONES PARA REALIZAR ESTIMACIONES PUNTUALES Este apartado contiene la explicación de las cinco distribuciones más comunes en las ciencias sociales: binomial, de Poisson, normal, exponencial y lognormal. Las dos primeras se utilizan cuando el fenómeno en cuestión ha sido medido de manera discreta y las tres siguientes cuando ha sido medido con el uso de variables continuas.

IV.2.1. DISTRIBUCIÓN BINOMIAL En el campo de la probabilidad fue Pascal, en 1654, quien de manera inicial usó la distribución binomial y su difusión, por traducción, en Inglaterra comenzó en 1662 gracias a Arbuthnott. La comprobación del teorema binomial fue hecha por Newton en 1665. Posteriormente, Jacob Bernoulli, quien no estaba interesado como Arbuthnott en las implicaciones teológicas de las probabilidades, propuso una fórmula para calcular las probabilidades de eventos binomiales, publicada en 1713 de manera póstuma. Estos eventos de probabilidades fueron denominados eventos de tipo Bernoulli. La distribución binomial deriva de los llamados procesos de Bernoulli o de la serie de eventos sucesivos que pueden ocurrir con una variable binomial. Un evento de tipo Bernoulli es aquel en el que sólo puede haber dos posibles resultados, por ejemplo, al tirar una moneda o al levantar una encuesta con una pregunta que sólo toma dos posibles respuestas: sí/no, etc. Es decir, se trata siempre de una variable discreta. De esta forma, la distribución binomial se utiliza para realizar estimaciones puntuales de variables discretas en un nivel de medición dicotómica. En la investigación social que utiliza encuestas de opinión y donde se restringe la medición de la variable a sólo dos posibilidades, la distribución binomial toma una gran relevancia. Aunado a lo anterior, la distribución binomial es la base matemática de las pruebas de significancia estadística. Esta probabilidad (p) se asume como una probabilidad constante. Cuando un evento probable se fundamenta en una dicotomía del tipo sí/no, o a favor/en contra, la probabilidad (p) de obtener una u otra respuesta en la variable (x) se da por la suma en el número de veces en que se presenta (n). Así, la función de la distribución de densidad de probabilidades binomial se obtiene de la siguiente manera:

Los parámetros de una distribución binomial de probabilidades se consideran, por aproximación, a los de una distribución normal estándar de probabilidades con np = μ = 0 y √npq = σ = 1. Esto se realiza de la siguiente manera:

Los requisitos para la aplicación de la distribución binomial son los siguientes: x es una variable dicotómica con categorías mutuamente excluyentes y las observaciones en la muestra son independientes entre ellas, además han sido elegidas de manera aleatoria (las observaciones son equiprobables). Que dos observaciones sean es​tadísticamente independientes quiere decir que la ocurrencia de una no afecta la probabilidad de que ocurra la otra. Por ejemplo, la probabilidad de que mañana llueva en la ciudad de Veracruz es (para todo propósito práctico) independiente de la probabilidad de que el siguiente premio mayor de la lotería termine en “34”. En cambio, la probabilidad de que mañana llueva en Veracruz no es independiente de la probabilidad de que llueva en la no muy lejana ciudad de Jalapa. De hecho, si se sabe que en Veracruz va a llover, las probabilidades de lluvia en Jalapa se incre​mentan. Otro ejemplo sería el siguiente: supongamos que, sobre la base de un análisis histórico de sentencias, vemos que la probabilidad de obtener un amparo en cierta materia es del 20%, p = 0.2. Si en un momento dado se presentaran 10 amparos, n = 10, manteniendo una perspectiva frecuentista de probabilidades (es decir, sobre la base del conteo de eventos pasados) y sin hacer ningún otro tipo de supuesto factual, ¿cuál sería la probabilidad de que se otorgara un amparo, x = 1? Esto se estimaría de la siguiente manera:

O una probabilidad del 26.84%. Nótese que si tuviéramos un problema de tipo bi​nomial en el que la probabilidad histórica de un evento fuera pequeña

(por ejemplo, p < .05), podríamos utilizar la distribución de Poisson para calcular la probabilidad de obtener un resultado determinado.

IV.2.2. DISTRIBUCIÓN DE POISSON En 1835 Poisson acuñó el término metafórico “ley de los grandes números”, que es la generalización de un descubrimiento de Bernoulli, y fue de los primeros en considerar que la teoría o “ley de los errores de observación” no seguía una distribución normal o gaussiana en todos los casos, particularmente en aquellos eventos poco frecuentes, denominados por él “eventos raros”. En este sentido, su intención era conocer cómo calcular la probabilidad de que tales eventos raros, para los que la distribución binomial no ofrecía la mejor estimación, fueran efectivamente observados. De manera concreta, por ejemplo, su distribución utilizó para estimar la probabilidad de observar algunas decisiones de tipo judicial.2 Sin embargo, pese a su amplia utilidad —en especial en la predicción de los llamados eventos raros— esta distribución no fue muy conocida sino hasta sesenta años después, en 1898, cuando Bortkiewicz —con un trabajo sobre lo que él llamó (y tituló) “la ley de los pequeños números”— expuso su utilidad para la solución de problemas de tipo militar.3 La distribución de Poisson es una extensión de la distribución binomial llevada al caso en que, con muestras grandes, las probabilidades de observar un evento de interés son bajas. En este sentido, una ventaja notable que ofrece su uso sobre la distinción binomial, es que aquélla solamente requiere conocer o predefenir la media aritmética de la variable X, cuya probabilidad precisamente se desea estimar, mientras que la distribución binomial requiere conocer o predefinir las probabilidades (p) de tal evento y su inverso (1 – p). Pese a esta ventaja, su uso no es tan extensivo en las ciencias sociales como el caso de la distribución binomial. Entre las muchas aplicaciones que tiene la distribución de Poisson (por ejemplo, el análisis de regresión Poisson), ésta puede utilizarse para realizar estimaciones puntuales. Ahora bien, su correcta aplicación tiene cinco requisitos. El primero es que el tamaño de la muestra debe ser suficientemente grande; para esto puede considerarse como tal a aquella muestra que es de tamaño suficiente para aplicar la distribución binomial. El segundo es que la probabilidad de observar un evento en un intervalo de

tiempo (o en un espacio), es proporcional al tamaño de dicho intervalo de tiempo. El tercero es que la probabilidad de que dos eventos ocurran en tal intervalo debe ser insignificante (o “negligible” en palabras de Poisson). Cuarto, que la probabilidad de la ocurrencia del evento sea la misma entre los intervalos. Y quinto, que la ocurrencia de tales eventos en un intervalo sea independiente de los ocurridos en intervalos anteriores; es decir, su ocurrencia no está determinada por un suceso en un momento o intervalo anterior. La violación de estos dos últimos supuestos lleva, de manera directa, a una inflación de la varianza, a producir distribuciones engañosas y, en consecuencia, a realizar fallos en las pruebas de significancia. La lógica de la distribución se enfoca entonces en estimar la probabilidad de que un número de observaciones, u ocurrencias de un evento, medidas de forma discreta sucedan en un intervalo de observaciones probables. Como se indica, esta distribución es aplicable en la estimación puntual de valores sobre observaciones o mediciones poco frecuentes —los llamados eventos raros—, o bien cuando se realizan estimaciones con una dimensión de ocurrencias ligadas a un tiempo determinado, que puede ser un intervalo de tiempo o un lugar o espacio en específico. Nuevamente, se asume que la probabilidad de la ocurrencia es constante entre las muestras aleatorias y que las observaciones son independientes entre ellas. El intervalo de ocurrencias de las observaciones está dado por un solo parámetro denominado lambda (λ). Lambda es tanto el promedio teórico o esperado de observa​ciones x como su desviación estándar σx, la cual se determina de la siguiente manera:

La función de densidad de probabilidades es la siguiente:

La distribución de Poisson posee un sesgo a la derecha, el cual disminuirá conforme aumente la media de la distribución. El sesgo se calcula de la siguiente manera:

A su vez, la curtosis se calcula de esta forma:

Sobre la base de la anterior distribución de probabilidades, una estimación puntual se encontrará entre su frecuencia media esperada λ y la raíz cuadrada correspondiente. Por su parte e corresponde a la constante de Euler (e = 2.71828…), observada en situaciones en las cuales la cantidad de una variable se incrementa de forma proporcional a su valor en un momento t, el cual incluye los momentos t-1, t-2, etc. El ejemplo clásico se encuentra en la demografía y es el crecimiento de la población en un país o, o en finanzas, el caso de una deuda bancaria. La constante de Euler se puede obtener de la serie infinita:

Un caso práctico en el uso de la distribución de probabilidades de Poisson podemos encontrarlo en el siguiente ejemplo, donde altos valores de una variable son poco probables. Supongamos que la policía en un sector de la Ciudad de México ha realizado 37 detenciones por posesión de cocaína.4 Si asumimos que λ = 37, ¿cuál es, exactamente, la probabilidad p de que se vuelvan a realizar otras 37 detenciones exactamente? La respuesta la obtendríamos de la siguiente manera:

O una probabilidad de 6.54%. Nótese que en la sección anterior se mencionó que la inferencia estadística que se realizara con una distribución binomial cuando la probabilidad de un evento fuera pequeño (p < 0.05), también podría calcularse con la distribución Poisson. Esto lo calcularíamos de la siguiente manera:

Así, para el problema de calcular la probabilidad de obtener uno de 10 amparos en cierta materia, cuando la probabilidad histórica fuera sólo del 5%, esto se realizaría de la siguiente manera:

O una probabilidad del 30.37%. Con el uso de la distribución binomial de probabilidades, habríamos obtenido que la probabilidad de dicho evento sería del 31.51%.

IV.2.3. DISTRIBUCIÓN NORMAL La distribución normal es la distribución de probabilidades más popular para el cálculo de estimaciones puntuales. Originalmente, esta distribución fue conocida como “la ley del error en las observaciones”. Aunque la proposición de esta distribución se atribuye sobre todo a Laplace y a Gauss —la curva normal también se llama “Gaussiana”—, en realidad fueron muchos científicos los que contribuyeron en su idealización y formulación. Por ejemplo, en 1610 Galileo tuvo la primera idea de una “regularidad” en los errores de observación, y aseguraba que los errores de medición presentes en las primeras tablas astronómicas se distribuían de forma simétrica alrededor del valor correcto. Cien años después, en 1713, se publicó de manera póstuma el trabajo de Jacob Bernoulli (muerto en 1705), en el que se propone la ley de los grandes números5 y la distribución binomial, ideas sin las cuales no se podría haber propuesto una distribución de probabilidades normal. Más aún, fue De Moivre en 1718 —y no Laplace ni Gauss— el primero en escribir sobre el descubrimiento de una distribución “común” de probabilidades. De hecho, en 1733 presentó una aproximación a la distribución binomial de lo que ahora conocemos como distribución normal; la aproximación fue, en este caso, el resultado de las probabilidades derivadas de la suma de n resultados provenientes de n número de distribuciones binomiales. De Moivre extendió el método de Bernoulli y logró que las

probabilidades de un evento se acercaran a su frecuencia observada. De Moivre llamó a este método “aproximación de una suma de términos binomiales (1733). A razón de esta aproximación es que pudo proponer el famoso teorema central del límite6 y permitir, así, el cálculo de intervalos de confianza sobre estimados puntuales, además de presentar formalmente la función de densidad de probabilidades para la futura llamada distribución normal.7 Posteriormente, en 1774, Laplace avanzó de manera significativa la formalización matemática de la distribución normal —y en general de las distribuciones de probabilidad— al crear el método de las funciones generatrices de momentos; impulsar la formalización matemática del método de los mínimos cuadrados8 y extender la formalización de la estadística bayesiana, entre muchas más contribuciones. Gauss, por su parte, extendió el trabajo de Laplace y tomó la ley del error en las observaciones para analizar problemas de medición en astronomía y desarrollar una teoría de estimaciones puntuales sobre muestras dentro de una curva normal. Su trabajo difundió exitosamente el uso de la distribución normal, al grado de llamarla, hasta la fecha, curva o campana de Gauss. Finalmente, fue Quetelet quien, en 1829, utilizó la ley del error de las observaciones en el estudio de los fenómenos sociales a raíz de sus conversaciones con Laplace y Fourier, mientras que Galton desarrolló el método de la covariación para obtener coeficientes de correlación y el análisis de regresión, asimismo, trabajó sobre la idea de una variabilidad común alrededor de la media aritmética, lo que él llamaba “la regresión a la mediocridad”. A causa del debate anterior, Pearson decidió, en 1893, impulsar el uso del término “curva normal” para dejar atrás la discusión sobre el autor original y poner fuera de cuestionamiento a dos matemáticos igualmente formidables como lo fueron Laplace y Gauss.9 En síntesis, la idea de una distribución normal se originó por la regularidad observada en los errores de medición en astronomía. Se le denominó “normal” porque se observó la presencia de una mayor frecuencia de errores alrededor de la media aritmética y se consideró que esto era algo común, una regularidad empírica, y por ende razonablemente aceptable y aplicable a cualquier ejercicio de observación. Es por esto que la distribución normal es tan popular dentro del razonamiento científico y en la realización de pruebas estadísticas de hipótesis. Tanto las analogías lógicas, como la elegancia y la

fuerza empírica que muestra tener la distribución normal, la han hecho muy popular. Esta es la distribución más utilizada, y su uso se ha difundido de manera masiva en el ejercicio de la estadística paramétrica, una rama de la estadística inferencial. En las ciencias sociales, por analogía, también se considera razonablemente aceptable que la magnitud de los errores de observación suceda alrededor de la media aritmética. Esta idea se extiende —a veces en ausencia de debate— a los errores derivados de las encuestas de opinión, lo cual nos fuerza a suponer que, en las labores de observación social, la menor parte de las veces se cometen errores extremos, es decir, errores grandes o pequeños. Dicha creencia se fundamenta en la ley de los grandes números y en el teorema del límite central. Matemáticamente, una función de densidad de probabilidades normal se obtiene por la siguiente ecuación:

En esta función, sobre la lógica de una teoría frecuentista de probabilidades, la media de la población (μ) determinará la localización más probable —es decir, la más frecuente o el pico— de la distribución de los valores esperados en la variable bajo estudio. La desviación estándar (σ) determinará la dispersión o amplitud de tales valores esperados. El principio de normalidad asume que ambos parámetros son conocidos. La media y la desviación estándar de una distribución normal, en este caso llamada “distribución normal estándar”, toma los valores de 0 y 1, respectivamente. La notación matemática para representar una normal estándar es N (0, 1) y una curva cercana a la normal estándar es X~N (μ, σ 2). En aplicaciones como el cálculo de una estimación puntual o el de su intervalo de confianza, los parámetros de la distribución (la media aritmética y la desviación estándar), son definidos por el investigador. Naturalmente, cualquier distribución puede ser normalizada, es decir, transformada a una distribución normal estándar al cambiar los valores de la variable X en puntuaciones Z.10 Esto se realiza de la siguiente manera:

Si los datos provinieran de una muestra, la transformación de la variable X en puntuaciones Z se realizaría de la siguiente manera:

Es importante considerar que en la investigación social hay fenómenos en que la expectativa de una distribución normal en las mediciones no puede satisfacerse. El supuesto de X~N(μ, σ 2) para realizar inferencias puede ser inapropiado por dos razones: porque se desconoce la forma de la distribución teórica de un fenómeno bajo estudio o, bien, porque se sabe o se desea suponer que tal fenómeno no tiene una forma pro​piamente normal. Un ejemplo en la investigación social donde existe una distribución normal de valores o mediciones puede encontrarse en la tasa mensual de delitos (en términos de averiguaciones previas) en la delegación Azcapotzalco de la Ciudad de México (véase la gráfica IV.1).11 Más adelante, mostraremos cómo llegamos a esta conclusión de normalidad en este fenómeno viendo la baja probabilidad de que su distribución sea significativamente diferente de una distribución normal simétrica. Esto se rea​lizará por medio de una prueba de hipótesis específica para dichos propósitos, llamada “prueba de normalidad”, que utiliza la prueba Z de Kolmogorov-Smirnov (ZKS ). Baste por el momento la mención de que esta distribución efectivamente muestra ser muy semejante a una distribución normal simétrica (ZKS = 0.378, p = 0.999). GRÁFICA IV.1

Fuente: Elaboración propia.

Esta variable sigue un comportamiento normal porque cumple el requisito de que la mayor parte de las mediciones mensuales corresponde a tasas que se ubican alrededor de la media aritmética. Una distribución normal simétrica es una distri​bución donde la media aritmética, la mediana y la moda tienen valores idénticos. En la práctica estadística se considera como una distribución normal a una distribución de datos cuya media, mediana y moda son suficientemente similares; nuevamente X~N(μ, σ 2). La similitud ocurre porque al trabajar con muestras, las variaciones entre lo ideal y lo suficiente, entre lo esperado y lo observado, pueden ser consecuencia del simple azar. Por esto es que este requisito de la suficiencia de similitud se sujeta a una prueba de hipótesis. Con esta lógica, se considera como una dis​tribución normal a aquella distribución de datos cuya distribución acumulativa de

observaciones o frecuencias no muestra tener diferencia probabilística (o estadísticamente significativa) a una distribución acumulativa de observaciones normal simétrica. CUADRO IV.2

El cumplimiento de estos supuestos permite que un estadístico univariado sobre el cual pueden realizarse inferencias sea precisamente la media aritmética de la muestra. Es decir, al poseer la media, la mediana y la moda valores similares, podemos esperar que la media muestral sirva como un estimador puntual de la localización de los valores posibles que pueden observarse en otras muestras aleatorias de la misma variable. Esto, naturalmente dentro de un intervalo de confianza, como veremos en la siguiente sección de este capítulo. Las técnicas para la prueba de hipótesis estadística que utilizan distribuciones de probabilidades normales o muy semejantes —en el sentido de que sus valores se normalizan conforme aumenta el tamaño de la muestra — que contiene este libro son la prueba Z, la prueba t de Student, el análisis de varianza o prueba F, y los coeficientes de correlación r de Pearson y rho de Spearman.

IV.2.4. DISTRIBUCIÓN EXPONENCIAL La distribución exponencial es la versión análoga para variables continuas de la distribución de Poisson y es un caso particular de las llamadas distribuciones gamma. La primera nota sobre la relación entre la distribución de Poisson y la distribución exponencial data de 1868 con Boltzmann, pero fue hasta 1895 que Pearson la incluyó en un listado de distribuciones de

probabilidad. Su desarrollo tomó más tiempo que las anteriores distribuciones; puede localizarse ya empezado el siglo XX en los trabajos de Suhkatme (1937), Malmquist (1950) y Weibull (1951). Las distribuciones exponenciales, al igual que la de Poisson, tienen una forma sesgada o asimétrica; es decir, presentan una desviación significativa a la media. En el capítulo III vimos que el sesgo puede medirse de varias formas. De manera elemental, el sesgo siempre obedece a la misma razón: la diferencia no aleatoria que existe entre la media, la mediana y la moda. Una función de densidad de probabilidades exponencial se obtiene por la siguiente ecuación:

La función estándar de la distribución exponencial, es decir donde la media y la varianza son iguales a uno, se formularía de la siguiente manera:

La función de la distribución acumulativa de probabilidades es la siguiente:

En estas formulaciones, μ (media aritmética de la población) representa el parámetro de localización; en algunos casos se muestra M=λ= 1/μ. Los momentos de esta distribución son:

Con estos momentos puede definirse la forma de la distribución. De esta manera, una distribución exponencial nos permite realizar inferencias probabilísticas de una variable X cuya distribución muestra un sesgo. Una distribución se identifica como exponencial al presentarse el comportamiento de la variable X~Exp(1/λ). Finalmente, una función exponencial con M=λ=1 se denomina distribución exponencial estándar. GRÁFICA IV.2

Fuente: Elaboración propia.

Una prueba empírica de una distribución sesgada o exponencial la tenemos en otra distribución de la misma tasa de la incidencia delictiva mensual por cada 100 000 habitantes, pero ahora observada en la delegación Cuajimalpa de la Ciudad de México (véase la gráfica IV.2). En este caso, visualmente se observa una distribución con un sesgo positivo (sesgada a la derecha), lo cual nos deja entrever que la media es mayor a la mediana. La prueba de normalidad realizada sugiere, en efecto, rechazar la hipótesis de una normalidad en esta distribución (ZKS = 1.592, p = 0.013). Los estadísticos descriptivos de la variable se muestran en el cuadro IV.3. CUADRO IV.3

Con la información anterior, esto es, asumiendo una muestra representativa del fenómeno en cuestión y tras confirmar que la variable se distribuye de forma exponencial,12 podríamos dar respuesta a la siguiente pregunta de tipo probabilístico: ¿cuál es la probabilidad (p) de observar en Cuajimalpa un mes con una tasa de averiguaciones previas inferior a la media aritmética (M = 134.05)? Esto se realizaría de la siguiente manera:

O una probabilidad del 63.21%. Ahora a la inversa, podríamos preguntar de forma directa la probabilidad de ob​servar un mes con una tasa superior a la media aritmética. Esto lo podríamos deducir 1 – la probabilidad previamente calculada, o bien contestar directamente de la siguiente manera:

O una probabilidad del 36.79%. Como se puede ver, el mundo social es más complicado de lo que se puede suponer y las mediciones e inferencias que realicemos deben ser apropiadas, en primer lugar, a una definición precisa del fenómeno bajo análisis y los datos observados. Este es un claro ejemplo de que no se debe suponer que todos los fenómenos sociales ocurren con una frecuencia o forma similar. La implicación estadística de lo anterior, es que no es procedente realizar una estimación puntual, o una inferencia sobre el comportamiento o la tendencia

de una variable, sobre la base de la media aritmética de una muestra proveniente de una distribución sesgada, ya que habría una alta probabilidad de cometer un error en la estimación. En estas situaciones, se tiene que dejar de lado el supuesto de parámetros teóricos o esperados (por ejemplo, la distribución normal) y realizar estimaciones puntuales sobre la base de parámetros derivados de las mismas distribuciones muestrales. Esto se llama “estadística no paramétrica”. Naturalmente, esta distribución puede ser transformada en una distribución normal estándar al transformar de nuevo los valores de la variable a valores Z de la manera ya antes indicada. Sin embargo, es importante considerar que si el fenómeno social sobre el que se pretenden realizar inferencias no tiene un comportamiento normal esperado, es decir, que no tenemos alguna base intuitivamente lógica o teórica, o incluso mínimamente empírica, para suponer tal comportamiento, lo lógico es analizar los datos de la distribución sin realizar alguna transformación o normalización. Ahora bien, si es necesaria la aplicación de una técnica estadística paramétrica —es decir, que requiere forzosamente la predefinición de parámetros sobre el supuesto de un comportamiento normal en la distribución de las observaciones (por ejemplo, regresión lineal)— es requisito indispensable la transformación de las variables. Si existe una justificación teórica o un requisito técnico, se pueden hacer ajustes a los datos (por ejemplo, normalización). Lo que no se recomienda es violar de manera arbitraria los supuestos requeridos para la aplicación de cada técnica. En ese caso, los resultados de las pruebas serán matemáticamente incorrectos y es probable que las conclusiones de investigación estén equivocadas. Las técnicas de estadística inferencial que presentamos en este libro y que utilizan distribuciones (propias para cada técnica) del tipo exponencial son: chi cuadrado de Pearson, chi cuadrado de Kruskal-Wallis y la prueba F o análisis de varianza.

IV.2.5. DISTRIBUCIÓN LOGNORMAL Esta distribución fue propuesta originalmente por McAllister en 1879, entonces colega de Galton en Cambridge, con la publicación de un famoso documento titulado “La ley de la media geométrica”. Por un tiempo fue conocida en la literatura especializada como distribución Galton-McAllister,

pero ahora se le conoce como distribución lognormal. La distribución lognormal se identifica por su sesgo positivo (o sesgada a la derecha). A semejanza de la distribución exponencial, las medidas de tendencia central (media aritmética, mediana y moda) no coinciden en su localización. En ocasiones, el uso de la distribución lognormal es preferible al uso de la distribución normal. Por ejemplo, en aquellos casos en que el coeficiente de variación (CV) de Pearson (1896) —que es la desviación estándar vista como un porcentaje de la media aritmética— es muy grande; también hay ocasiones en que algunos valores observados de una variable X son dos o más veces la media aritmética de la muestra (por ejemplo, la curva de ingreso), lo que puede implicar cosas tan absurdas como la existencia de valores negativos en algunas variables (Moshman, 1953). Otra razón por la que la distribución lognormal es preferible a una distribución normal se presenta cuando la distribución de la variable aleatoria X es efecto de un producto versus de una suma o de un efecto aditivo, como es el caso de la distribución normal.13 Es decir, cuando estamos frente a la ley del efecto proporcional. Un ejemplo clásico (Telser, 1959) es la capacidad productiva de una empresa, la cual depende de su tamaño. GRÁFICA IV.3

Fuente: Elaboración propia.

El uso de este tipo de distribuciones es común en ciertas áreas de investigación. Esto sucede porque en algunos casos, por ejemplo, cuando se desea probar modelos teóricos de cierta forma estadística (v.g. distribución del ingreso por medio del análisis de regresión), es requisito que la distribución de la variable o variables bajo estudio tengan un comportamiento similar a una curva normal para efectos del cumplimiento de ciertos supuestos probabilísticos (v.g. teorema del límite central). Es decir, puede haber una realidad empírica y una necesidad técnica de utilizar este tipo de distribuciones de probabilidad. Una distribución es de tipo lognormal si el logaritmo de la variable X se distribuye de forma semejante a una distribución normal.14 Así, tenemos que si X~N(μ, σ 2) entonces exp(X)~LN(μ, σ 2). De esta manera una distribución lognormal —en notación matemática: X~LN(μ, σ2)— no proviene solamente de la observación y medición de un fenómeno social, sino de la transformación de una variable X en logaritmos (logX). Esta transformación no garantiza, pero puede permitir obtener una distribución suficientemente

semejante a la curva normal, que a su vez permita proceder estadísticamente con ciertas técnicas de estadística inferencial. Es decir, la distribución del logaritmo de la variable X puede llegar a ser semejante a una distribución normal de probabilidades. La función de densidad de probabilidades lognormal se obtiene por la siguiente ecuación:

De esta manera, la distribución lognormal estandarizada tiende a la simetría de una distribución normal estándar N (0,1) conforme su desviación estándar (σ) se aproxima a cero. La distribución puede ser estimada calculando sus parámetros de la siguiente manera:

IV.3. EL CÁLCULO DE ESTIMADORES PUNTUALES: LA MEDIA ARITMÉTICA

Un estimador puntual es la representación numérica de una característica de una población que se realiza a partir de una muestra. Es un estadístico muestral para estimar un valor de interés en una población o universo. El ejemplo clásico de un estimador puntual es la media aritmética (M) proveniente de una muestra. Por otro lado, el procedimiento para obtener un estimador puntual también se conoce como “estimación de parámetros”. En este sentido, un parámetro es la representación numérica de una característica

de una población, por ejemplo, la media aritmética (μ) de la misma. La diferencia entre un estimador puntual o estadístico y un parámetro, es que el primero deriva de una muestra y el segundo de una población o universo. Ya que la información base para el cálculo de un estimador puntual es una muestra representativa de una población, el cálculo mismo del estimador se realiza sobre la base de una distribución de probabilidades. En esta lógica, el procedimiento para obtener un estimador puntual consiste en elegir la distribución de probabilidades apropiada al fenómeno bajo estudio y ajustar los datos observados en la muestra a tal distribución de probabilidades. A lo que se le denomina “método de los momentos para estimaciones puntuales”, popularizado por Pearson en 1902. Bajo este método, los momentos o estadísticos de una distribución provenientes de una muestra se infieren para una distribución teórica (por ejemplo, normal) con parámetros desconocidos, pero fijos. De esta forma se realiza la inferencia y la estimación de los parámetros de la población. Otros dos métodos populares para la obtención de estimadores puntuales o estimación de parámetros son el método de mínimos cuadrados ordinarios y el método de máxima verosimilitud.15 Cada método es aplicable según el tipo de problema y técnica de estadística inferencial que estemos tratando de resolver y aplicar.

IV.4. INTERVALOS DE CONFIANZA PARA LA MEDIA ARITMÉTICA Y PORCENTAJES

El desarrollo conceptual y matemático del intervalo de confianza (IC) corresponde a varios autores. El concepto de “confianza” en la realización de mediciones fue originalmente presentado por Laplace en 1812. A su vez, el término (no la idea) del “error probable” fue introducido textualmente por Bessel en 1815. Posteriormente Bowley16 trabajó al respecto en 1906 y en 1924 sobre la confianza en las estimaciones provenientes de muestras con información económica, si bien, no fue hasta 1934 que Neyman formalizó matemáticamente los intervalos de confianza para una media aritmética bajo el supuesto de una distribución normal de probabilidades. Recordemos dos conceptos que introdujimos en capítulos anteriores: parámetro y estadístico. Un parámetro es una medición que describe una característica de la población o universo, por ejemplo, la media del universo

(μ) o la varianza (σ 2), etc. Un estadístico, por otro lado, es una medición análoga al parámetro, pero en este caso proviene de una muestra representativa de la población, por ejemplo, la media aritmética de la muestra (M), su varianza (s2), etcétera. Un intervalo de confianza (IC) es un intervalo o rango de valores posibles dentro del cual un parámetro puede llegar a encontrarse, por ejemplo, la media aritmética del universo (μ). A partir de una muestra representativa, no puede conocerse el valor exacto de μ, ya que no contamos con mediciones de todas las observaciones o sujetos dentro de una población bajo estudio. Sin embargo, sí podemos aproximarnos a conocer su valor a través de la media de la muestra (M); en otras palabras, M es un estimador puntual de la media de la población (μ). Es importante aclarar que un IC solamente garantiza la obtención de M dentro de un rango de valores posibles en una repetición de muchos muestreos aleatorios que siguen el mismo procedimiento.17 Es decir, un IC contiene los valores posibles de M que podrían obtenerse de 100, 1 000, u otro número de muestras de la misma población.18 No obstante, es incorrecto concluir que m se encuentra dentro de tal IC. En sentido estricto, se trata de un IC para n medias muestrales provenientes de poblaciones que se comportan, por ejemplo, normalmente.19 Lo que hacemos es suponer que estos valores son cercanos a μ o a la media exacta del universo y, por lo tanto, asumir que μ se encuentra dentro de ese IC. Una vez que se comprenda que es poco probable obtener exactamente el mismo estimador puntual M en dos o más muestras provenientes de la misma población, por razones de simple azar, esto nos introduce al concepto del margen de error en intervalos de confianza. El margen de error (ME) es una medición de la variabilidad que podemos esperar alrededor del estimador puntual. A su vez, el margen de error está conformado por dos conceptos: el nivel de confianza y el error estándar. El nivel de confianza (NC) es una medición de la probabilidad de que un intervalo de confianza contenga el valor del parámetro que se busca estimar; puede entenderse también como el grado de certidumbre de una estimación. El error estándar (ES), en cambio, es una medición de la desviación estándar o error de la distribución muestral. Es una apro​xi​mación a un error posible proveniente de la relación entre la variabilidad de la variable X y del tamaño de la muestra (n). De tal manera

que el margen de error es:

En consecuencia, un IC para una media aritmética de una población o universo se construye de la siguiente manera:

IV.4.1. INTERVALOS DE CONFIANZA NORMALES PARA LA MEDIA ARITMÉTICA

Al considerar que las muestras son representativas de la población (N) y que existe una probabilidad de error o variación aleatoria de los resultados distribuida normalmente X~N(μ, σ 2), se puede suponer que la media de la población (μ) podrá estar dentro de ese intervalo (IC) o rango de valores posibles con el nivel de confianza preestablecido. Es muy común que los intervalos de confianza hagan uso de la curva normal de probabilidades. En una curva normal estándar, el NC se conoce como valores Z. Se pueden construir diferentes IC con distintos niveles de confianza, o valores Z. Por ejemplo, un IC de μ con un nivel de confianza del 95% (Z = 1.96) sería la siguiente:

Es decir, el intervalo de confianza se obtendría de la siguiente manera:

Veamos un ejemplo de la aplicación de un IC para una media artimética en un estudio sobre delitos electorales. Digamos que se quiere estimar la cantidad de dinero (como media aritmética) que pediría una persona para vender su voto. Esta pregunta se realizó a una muestra de población beneficiaria de programas sociales.20 Los resultados de la encuesta mostraron que, para esa pregunta, M = 88.2 pesos, y s = 29.3 pesos. Al ser M un

estimador puntual de μ, podemos estimar con cierto nivel de confianza entre qué valores, o en qué intervalo, se encuentra tal media aritmética de la población. Para un nivel de confianza del 95%, esto se calcularía de la siguiente manera:

Es decir:

Podríamos inferir entonces que a partir de la información de una muestra representativa de población beneficiaria de programas sociales y con un 95% de nivel de confianza, la gente piensa que el voto se vendería entre 85.0 pesos y 91.4 pesos. En este caso, nuestra probabilidad de error, o de que no caiga en tal IC, es de 5%, o de 1 a 20. Es decir, podemos tener un 5% de ocasiones en que M, y por extensión μ, sea inferior a 85.0 pesos o superior a los 91.4 pesos. Si deseáramos un mayor nivel de confianza, esto implicaría incrementar el IC; el error estándar sigue siendo el mismo lógicamente. Por ejemplo, si deseáramos tener un IC de μ con un nivel de confianza del 99%, esto implicaría que el área de probabilidades debería ser más amplio. En el caso de una curva normal, se tendría que aumentar el intervalo a 2.58 errores estándar a partir de la media aritmética. En consecuencia (de manera resumida):

Es decir:

Este resultado nos indica que con un 99% de probabilidad, el universo de los beneficiarios de programas sociales opinaría que la gente vendería su voto entre 84.1 y 92.3 pesos. La probabilidad de error de que la media aritmética

del costo del voto en la opinión de la población sea inferior o superior a tales valores no es mayor al 1%. También se puede estimar un IC para variables discretas, en particular como variables nominales dicotómicas (o en porcentajes). Esto se puede realizar por la aproximación normal a una distribución binomial, lo cual implica que la variable dicotómica (o binomial) divide la curva de probabilidades en términos de p y (1 – p) como los dos valores posibles que puede tomar tal variable X. Para lograr la estimación anterior, recordemos que en distribuciones binomiales:21

Efectivamente, la proporción de personas con cierta característica (p) en un universo de personas sería el que se obtuviera multiplicado por el tamaño de la muestra (np). A su vez, el error estándar (Π) iría disminuyendo conforme aumentara el tamaño de la muestra (n). En esta lógica, el error estándar (ES) de un porcentaje en una distribución binomial de probabilidades se calcula de la siguiente manera:

En este caso, un IC con un NC del 95% para un porcentaje poblacional (Π) se podría calcular de la siguiente manera:

Veamos un ejemplo similar de delitos electorales. En la encuesta previamente mencionada, también se preguntó a los encuestados si habían sido presionados para votar por alguno de los partidos políticos en competencia. De los 1 371 encuestados que dieron una respuesta a esa pregunta, 30 (p =

.022) reportaron haber sido presionados y 1 341 (1 – p = .978) reportaron no haberlo sido. Si quisiéramos saber con un nivel de confianza del 95% en qué intervalo se encuentra el porcentaje (Π) de la población que fue presionada para que votara a favor de uno u otro partido, lo calcularíamos de la siguiente manera:

Es decir:

En este caso, el margen de error es igual a 0.8%. En consecuencia, podemos estimar con una probabilidad del 95% que entre 1.4% y 3.0% de la población beneficiaria de algún programa social fue presionada para votar a favor de algún partido político. Si conociéramos el tamaño de la población beneficiaria (N), también podríamos estimar, a través de la media aritmética, el número de personas que estuvieron en dicha circunstancia. Por ejemplo, suponiendo que N = 100 000, tendríamos que:

Es decir, esperaríamos que la media aritmética (o frecuencia esperada) de personas coaccionadas fuera de 2 200, con una fluctuación por margen de error entre 1 400 y 3 000 personas (+/– 1 600 personas). Lo anterior se concluiría, de igual modo, con un nivel de confianza de 95%.

IV.4.2. INTERVALOS DE CONFIANZA NO NORMALES PARA LA MEDIA ARITMÉTICA: EL CASO DE LAS DISTRIBUCIONES DE POISSON Y EXPONENCIAL Todos los principios que vimos en la sección anterior suponen que la

información se obtuvo a partir de una muestra representativa del universo y que la variable X se comporta de manera normal. Éste, sin embargo, no siempre es el caso como ya vimos en los ejemplos de distribuciones sesgadas.22 En este caso, el margen de error visto previamente no representa una adecuada medición de la aleatoriedad muestral. Hay varios procedimientos o alternativas para resolver lo anterior. La primera alternativa es asumir un comportamiento normal en los resultados posibles de los estimadores puntuales, haciendo válido el teorema del límite central. Este teorema establece que una distribución muestral, por ejemplo, de la distribución de las medias muestrales (M), o de los estadísticos de cualquier prueba de hipótesis,23 sigue un comportamiento similar a la distribución normal para un número suficientemente alto de estadísticos, aun cuando la distribución de la población no siga un comportamiento normal; es decir, independientemente de la forma de la distribución original. En este sentido, lo que hacemos es reemplazar los parámetros desconocidos por los estadísticos conocidos de la distribución muestral (Kalimuthu y Thomas, 2009). Por ejemplo, si tuviéramos una variable X distribuida de manera semejante a una distribución de Poisson, por aproximación a una distribución normal estándar a través del teorema del límite central (o la tendencia a la normalización de las probabilidades de obtener λ en n muestras), podríamos estimar el IC para λ de la población (N) de la siguiente manera (Deshpande, Gore y Shanubhogue, 1995):

Recordemos que la media de una distribución de Poisson es λ. Nótese también que el cálculo del margen de error en el intervalo superior e inferior se realiza de manera diferente; es decir, en contraste con la distribución normal estándar, en este caso el margen de error no es simétrico dentro de la distribución.24 Para ilustrar lo anterior, calculemos el IC con el ejemplo del número de detenciones por posesión de cocaína que presentamos en la sección de la distribución de Poisson. En ese ejemplo, estimamos que la probabilidad de

que se realizaran 37 detenciones mensuales era igual a 6.54%. Lo primero sería estimar el intervalo superior e inferior de λ= 37. En este caso, con un NC de 95% tendríamos que:

Es decir:25

De esta manera, tendríamos que:

Por lo tanto, con un nivel de confianza de 95%, la probabilidad que tenemos de que se realicen 37 detenciones mensuales se encuentra en el siguiente intervalo:

Con este procedimiento de IC también podemos probar la hipótesis de que dos medias aritméticas en distribuciones de Poisson son similares (Ho) o no (Ha), es decir, si provienen de la misma población.26 Para el caso de una distribución exponencial, utilizaríamos la siguiente fórmula para calcular el intervalo de confianza de una media aritmética (Ross, 2009):

Es decir, en este caso se pueden elaborar los IC sobre una distribución de probabilidades de tipo chi cuadrado (χ 2).

Veamos una aplicación con el ejemplo que presentamos con la muestra de datos de la tasa mensual de averiguaciones previas en la delegación Cuajimalpa, la cual efectivamente tiene un comportamiento similar al de una distribución exponencial. En ese ejemplo, teníamos que M = 134.05 y que la suma de todas las tasas para n = 72 era igual a 10 456. Si consideramos un nivel de confianza de 95% con 144 grados de libertad27 (2n), tenemos que:

Es decir, con un nivel de confianza del 95%, la media aritmética del universo de tasas debe encontrarse en el siguiente intervalo:

IV.4.3. INTERVALOS DE PREDICCIÓN NORMALES DE LA MEDIA ARITMÉTICA Además de poder realizar estimaciones puntuales e intervalos de confianza (estimaciones de intervalos) sobre las características de una población, en muchas ocasiones estamos interesados en realizar una predicción sobre el valor posible que puede tomar una observación de la variable aleatoria X en un momento futuro o siguiente al de nuestras observaciones. Un intervalo de confianza (IC) nos permite hacer inferencias de una media aritmética sobre lo observado con base en los parámetros considerados. En cambio, un intervalo de predicción (IP) nos permite conocer el rango de valores posibles que puede tomar una observación que realicemos en un momento siguiente. El IP asume un mayor grado de incertidumbre. Por lo tanto, para el mismo nivel de confianza, un IP siempre es más amplio que un IC. En ambos tipos de intervalos, de confianza (IC) y de predicción (IP), tenemos un error estándar, pero formulado en cada caso de manera diferente porque son errores esencialmente diferentes. En términos simples, un error de estimación (IC) es la diferencia posible entre una variable aleatoria X y un parámetro desconocido, mientras que un error de predicción (IP) es la diferencia posible entre dos variables aleatorias X (Devore, 2015).28 Es decir:

Bajo el supuesto de una curva normal de probabilidades, un intervalo de predicción (IP) para una observación subsiguiente se obtendría de la siguiente manera (Devore, 2015):29

Veamos una aplicación sobre el mismo ejemplo de tasas de averiguaciones previas en la delegación Azcapotzalco, el cual presentamos en la sección sobre la distribución normal. Aunque la variable en cuestión, tasa de averiguaciones previas, está autocorrelacionada temporalmente porque un valor futuro de la misma no es por completo independiente del valor inmediato anterior, supongamos tan sólo por razones ilus​trativas sobre cómo obtener un IP, que el valor futuro de las tasas en cuestión no depende de los valores anteriores y que es independientes. En aquel caso, teníamos que M = 731.58 y que s = 67.75 y n = 72. Con un nivel de confianza del 95%, tendríamos entonces que:

Es decir, con un error máximo del 5%, esperamos que la siguiente tasa caiga en el rango de valores (IP) de 598 y 865 averiguaciones previas por cada cien mil habitantes; esto es un error de +/– 133.71 en la tasa media. El estimador puntual o estimador de la predicción seguiría siendo 732 averiguaciones previas por cada cien mil habitantes, el cual representa el valor más probable porque se refiere a la media aritmética de la muestra (M) o de lo observado.

Se insiste en este ejemplo que estamos asumiendo que las tasas mensuales son independientes en el tiempo.30

EN RESUMEN Las estimaciones puntuales indican cuál es la localización aproximada de una característica de la población a la que se está estudiando a partir de una muestra. Un método para obtener las estimaciones puntuales es el de momentos en una distribución, los cuales indican la manera en que se distribuye la variable en análisis. Las distribuciones de probabilidades tienen por objeto cuantificar todos los posibles valores para una variable aleatoria. Existen cinco distribuciones fundamentales: binomial, de Poisson, normal, exponencial y lognormal. Los cuatro primeros momentos son: media, varianza, sesgo y curtosis. Por último, un intervalo de confianza (IC) es un rango de posibles valores dentro del cual un parámetro puede llegar a situarse. Es importante puntualizar que el IC puede tener un margen de error que mide la variabilidad esperada alrededor del estimador puntual. A diferencia del IC, un intervalo de predicción permite calcular el rango de valores posibles que puede tomar una observación en un momento siguiente.

EJERCICIOS DE PRÁCTICA

1. Calcule las siguientes probabilidades usando la fórmula de distribución binomial. a) La probabilidad de ser víctima de un delito entre las 12:01 y 18:00 es de 27.1%., p=0.271. Si 15 personas salieran a dar la vuelta en ese horario n=15, ¿cuál sería la probabilidad de que una persona fuera víctima de un delito, x=1? Fuente: Encuesta Nacional de Victimización y Percepción sobre Seguridad Pública, 2013, INEGI.

b) La probabilidad de que una reclusa esté cumpliendo una sentencia por “Transporte de drogas” es de 44.7%, p=0.447. ¿Cuál sería la probabilidad de que al realizar 10 entrevistas, seis reclusas o más, x ≥ 6 hayan sido condenadas por este delito? Fuente: Primera Encuesta realizada a Población Interna en Centros Federales de Readaptación Social, 2012.

c) La probabilidad de que un recluso haya comenzado a laborar desde los 12 años o antes es de 32%, p=0.32. ¿Cuál sería la probabilidad de que al realizar 12 entrevistas, encontrara menos de cinco reclusos que comenzaron a trabajar a esa edad? Fuente: Primera Encuesta realizada a Población Interna en Centros Federales de Readaptación Social, 2012.

d) La probabilidad de que una reclusa haya tenido un hijo entre los 15 y los 19 años es de 65%, p=0.65. ¿Cuál sería la probabilidad de que entrevistara a entre ocho y 12 reclusas que tengan al menos un hijo si realiza 20 entrevistas? Fuente: Primera Encuesta realizada a Población Interna en Centros Federales de Readaptación Social, 2012.

2. Calcule las siguientes probabilidades usando la fórmula de distribución de Poisson. a) Durante el 2013, se detuvo a 11 individuos por narcomenudeo en Zacatecas, x=11. Si λ= 11, ¿cuál sería la probabilidad de que se volviera a detener exactamente a 11 personas? Fuente: Censo Nacional de Procuración de Justicia Estatal, 2013, INEGI.

b) Durante el 2013, se detuvo a 22 individuos por trata de personas en Tlaxcala. Si λ= 22, ¿cuál sería la probabilidad de que se volviera a detener a 22 personas exactamente? Fuente: Censo Nacional de Procuración de Justicia Estatal, 2013, INEGI.

c) Durante el 2012, se reportaron 80 camiones robados en San Luis Potosí. Si λ= 80, ¿cuál era la probabilidad de que se robaran 75 camiones en 2013? Y ¿cuál la probabilidad de que se robaran más de 78 camiones en 2013? Por último, ¿cuál era la probabilidad de que se robaran menos de 65 camiones en 2013? Fuente: Censo Nacional de Procuración de Justicia Estatal, 2013, INEGI.

d) La probabilidad de que un interno de un Centro Federal de Readaptación Social haya probado alguna vez la heroína es de 4%, p=.04. Si entrevistara

a 25 internos, n=25, ¿cuál sería la probabilidad de que entrevistara a un recluso que haya utilizado al menos una vez esta sustancia? Fuente: Primera Encuesta realizada a Población Interna en Centros Federales de Readaptación Social, 2012.

e) Usando la función de distribución exponencial y la información sobre la tasa de la incidencia delictiva mensual por cada 100 000 personas en Cuajimalpa, mencionada en este capítulo, calcule, ¿cuál es la probabilidad (p) de observar en esta delegación un mes con una tasa de averiguaciones menor a 130 (x<130) dado que la media aritmética es de 134.05 (M = 134.05)?

3.

A continuación, se presentan unas tablas con información simplificada. Calcule los cuatro principales momentos de los siguientes datos tomando en cuenta el tipo de distribución: media, varianza, desviación estándar, sesgo y curtosis. Para cada distribución calcule un intervalo de confianza para la media con un 95% de confianza y reporte los intervalos superior e inferior (Z = 1.96; en el caso de la función exponencial, use chi cuadrado). Binomial

n

10

p

0.02

λ

Poisson

Normal

Exponencial

400

100

7

10

Sumatoria

5 000

Media Varianza Desviación estándar Sesgo Curtosis IC superior IC inferior

Binomial n

18

p

0.045

λ Z Media

Poisson

13

Normal

Exponencial

400

120 12 4 500

Varianza Desviación estándar Sesgo Curtosis IC superior IC inferior

RESPUESTAS A LOS EJERCICIOS

1. a) El planteamiento del problema es:

La probabilidad de que una persona sea víctima de un delito es de: P = 0.0486 Probabilidad de 4.867% b) La probabilidad de que al menos seis reclusas entrevistadas de 10 hayan sido condenadas por el delito de “Transporte de drogas” es de: P = 0.2552 Probabilidad de 25.52 % c) La probabilidad de encontrar menos de cinco reclusos que comenzaron a trabajar desde los 12 años es de: P = 0.6692 Probabilidad de 66.92 % d) La probabilidad de que entrevistara a entre ocho y 12 reclusas que tengan un hijo es de: P = 0.3793 Probabilidad= 37.94%

2. a) El planteamiento del problema es:

La probabilidad de detener exactamente a 11 personas en Zacatecas por el delito de narcomenudeo es de: P = 0.1193

Probabilidad= 11.93 % b) La probabilidad de detener exactamente a 22 personas por el delito de trata de personas en Tlaxcala es de: P = 0.0847 Probabilidad= 8.47 % c) La probabilidad de que se robaran 75 camiones en 2013 era de: P = 0.0392 Probabilidad= 3.92 % La probabilidad de que se robaran más de 78 camiones en 2013 era de: P = 0.5594 Probabilidad= 55.94 % La probabilidad de que se robaran menos de 65 camiones en 2013 era de: P = 0.0379 Probabilidad= 3.8 % d) El planteamiento del problema es:

La probabilidad de entrevistar a un recluso que haya probado la heroína es de: P = 0.3679 Probabilidad de 36.79% Poisson = 36.79 % vs Binomial = 37.54 % e) El planteamiento del problema es:

La probabilidad de que en Cuajimalpa haya un mes con una tasa de averiguaciones menor a 130 es de: P = 0.62082 Probabilidad: 62.08%

3. Binomial n

10

p

0.02

Poisson

Normal 400

Exponencial 100

λ

13

10

Sumatoria

5 000

Media

0.2

7

0

0.1

Varianza

0.196

7

1

0.01

Desviación estándar

0.443

2.646

1

0.1

Sesgo

nd

0.378

0

2

Curtosis

nd

3.143

0

6

IC superior

0.107

14.450

61.452

IC inferior

–0.0668

3.390

41.483

Binomial

Poisson

n

18

p

0.045

λ

Normal

Exponencial

400

120

13

12

Sumatoria

4 500

Media

0.81

13

0

0.083

Varianza

0.773

13

1

0.007

Desviación estándar

0.879

3.605

1

0.083

Sesgo

nd

0.277

0

2

Curtosis

nd

3.076

0

6

IC superior

0.140

22.244

45.229

IC inferior

–0.050

7.597

31.600

SITIOS DE INTERÉS •

National Center for Education Statistics (http://nces.ed.gov/pubsearch/onlinedata.asp) • Encuesta Nacional de Victimización y Percepción sobre Seguridad Pública (Envipe) 2013, INEGI (http://www.inegi.org.mx/est/contenidos/Proyectos/Encuestas/Hogares/regulares/envipe 1

Históricamente, el uso del término “momentos de la distribución” proviene de la física; compárese con momentos angulares o momentos de inercia. 2

Véase su libro Recherches sur la probabilité des jugements en matière criminelle et matière civile (1837). 3

Concretamente la utilizó para calcular el número de defunciones de militares por patadas de

caballos y para predecir el número de suicidios infantiles. 4

Como sucedió en el sector Cuajimalpa en 2007. Fuente: SSPDF.

5

Conocida con ese nombre por Poisson en 1835.

6

Al hacerlo, demostró su aplicabilidad tanto a variables continuas como discretas.

7

Esto lo hizo desarrollando el trabajo previo de Bernoulli y por su interés en anticipar resultados en juegos de azar. 8

Aparentemente creado por Gauss en 1794 pero publicado por él hasta 1809. Previamente, éste había sido presentado por Legendre en 1805. Este hecho llevó a ambos teóricos a tener una fuerte discusión sobre la autoría del método, la cual devino en una confrontación casi de los niveles de Newton vs. Leibniz sobre la autoría del cálculo diferencial. Véase Plackett (1972) y Stigler (1981). 9

Existe también un debate sobre quién fue el creador del término “curva normal de probabilidades”. Hay quien se lo adjudica a Peirce en 1873, a Galton en 1889 y a Poincaré en 1893; lo más probable es que el uso provenga de mucho antes (Stigler, 2003). 10

Hay otras opciones de normalización o reducción del sesgo como las transformaciones de las variables en logaritmos, raíces o exponentes. 11

La tasa se refiere al número total de averiguaciones previas iniciadas por cada 100 000 habitantes. 12

Se mostrará cómo realizar esta prueba en el capítulo VII, en el cual se introducirá el estadístico Z de Kolmogorov-Smirnov entre otros. 13

Bajo la misma lógica, el uso de la distribución lognormal también ayuda a resolver problemas de heteroscedasticidad (cambios en la varianza a lo largo del tiempo) en análisis de regresión (Kirkwood, 1979). 14

15

Puede utilizar logaritmos naturales o de cualquier base, por ejemplo base 10.

Para el método de mínimos cuadrados, véase Hansen, Pereyra y Scherer (2012). Para el método de máxima verosimilitud, véase Millar (2011).

16

Quien por cierto en 1901 escribió un libro titulado Elements of Statistics, considerado el primer libro de texto en la materia. 17

Una perspectiva frecuentista de las probabilidades.

18

El cálculo de intervalos de confianza es indispensable, ya que los estimadores puntuales que realizamos al respecto sobre la base de información proveniente de muestras aleatorias son variables por simple azar. 19

Pero no siempre normalmente; en este capítulo veremos cómo calcular un IC en ausencia de un supuesto de normalidad. 20

Encuesta Nacional de Protección de Programas Sociales (Enapp) de 2006. Este valor se obtuvo sobre los beneficiarios de programas sociales. En la encuesta sólo 332 personas dieron respuesta a esta pregunta. Véanse los resultados del estudio en Vilalta (2007). 21

Nótese que en términos de estadística descriptiva no se reportan medias o varianzas de variables nominales. Estos estimadores se realizan para calcular errores estándar bajo una curva normal de probabilidades cuando la variable en cuestión es un porcentaje (nominal dicotómica). 22

Previo al cálculo de los IC, procedería una prueba de normalidad.

23

Por ejemplo, los resultados de las pruebas chi cuadrado, o t de Student, o r de Pearson, etc. En este sentido, los estadísticos resultantes de cualquier prueba de significancia son una variable aleatoria distribuida normalmente. 24

Es igual de probable, pero no se distribuye de manera simétrica puesto que la distribución es sesgada a la derecha. 25

Redondeamos los valores para tener un número entero de detenciones.

26

El capítulo VI explica a detalle los conceptos de prueba de hipótesis, hipótesis nula (Ho) e hipótesis alternativa (Ha). 27

El número de grados de libertad de un estadístico es el número de parámetros que pueden variar en la determinación de ese estadístico y que, evidentemente, no han sido fijados en la

determinación de algún otro estadístico. Por ejemplo, la evaluación de la media de n datos asume que se cuenta con n grados de libertad. La evaluación de la desviación estándar de esos mismos datos requiere previamente conocer la media, lo que reduce en uno el número de grados de libertad disponibles. Así que la desviación estándar de n datos involucra solamente n-1 grados de libertad. 28

Un valor futuro no es un parámetro sino una variable aleatoria (Devore, 2001).

29

Si el tamaño de la muestra es pequeño, se pueden utilizar valores t versus valores Z.

30

No hay variables sociales, analizadas como series de tiempo, cuyos valores u observaciones sean independientes; aunque nuestros errores de observación o mediciones al respecto sí pueden ser eventos plenamente aleatorios e independientes.

Distribución de probabilidades. Para una variable discreta, la fórmula matemática que da la probabilidad de cada valor posible de la variable (ej. distribución binomial). Para una variable continua, una curva descrita por una fórmula matemática que especifica, por medio de áreas debajo de tal curva, la probabilidad de que los valores de una variable caigan dentro de un intervalo particular (ej. distribución normal) (Everitt y Skrondal, 2010). Probabilidad. La expresión numérica del azar de que un evento suceda. Estimador. Un estadístico que se utiliza para proveer un estimado del valor de un parámetro (ej. la media aritmética de la muestra). Estimación. El proceso de proveer un valor numérico a un parámetro poblacional sobre la base de información muestral (Everitt y Skrondal, 2010). Parámetro. Una característica numérica de una población o un modelo (Everitt y Skrondal, 2010). Estadístico. Una característica estadística de una muestra. Intervalo de confianza. Un rango de valores, calculado sobre una muestra de observaciones, que se supone, con base en una

probabilidad, contiene el valor del parámetro de la población.

Capítulo V. Encuestas, cuestionarios y muestras

Objetivos de aprendizaje • • • • • • •

Comprender los conceptos básicos del diseño muestral: diseño muestral, tamaño de la muestra, método de muestreo y muestra. Distinguir entre los distintos medios que existen para obtener información en la investigación social. Identificar los cuatro errores básicos en las encuestas y cuáles son sus implicaciones. Identificar las fórmulas y consideraciones estadísticas para el cálculo del tamaño de una muestra. Aprender a calcular el tamaño de una muestra de acuerdo con la variable que deseamos trabajar. Utilizar el estadístico de poder de la prueba para calcular el tamaño de muestra en un experimento con dos poblaciones a comparar. Distinguir entre los métodos de selección muestral: aleatorio simple, sistemático, estratificado y por conglomerados.

Las encuestas son ampliamente utilizadas en la investigación social. Hacen uso de cuestionarios que se aplican a individuos en muestras representativas de la población que pretende analizarse. Una muestra (n) es una enumeración parcial de los individuos que forman una población (N). El muestreo es el método de selección de tales observaciones. Las muestras pueden ser probabilísticas y no probabilísticas. Las primeras son aquellas en que las observaciones fueron elegidas aleatoriamente y cuya probabilidad de elección es conocida; las segundas son todas aquellas que han sido obtenidas de manera diferente a la definición anterior. Las pruebas de hipótesis estadísticas sólo pueden realizarse sobre información derivada de muestras probabilísticas. En este capítulo se muestran los diferentes métodos para obtener muestras probabilísticas y sus características.

V.1. ENCUESTAS Y CUESTIONARIOS La investigación social de corte empírico obtiene información por muchos medios diferentes. De éstos, tres son de particular interés por su amplio uso en la investigación y por sus implicaciones en el análisis estadístico: las encuestas, las entrevistas y los experimentos. Las encuestas y las entrevistas son iguales en cuanto a que obtienen información sin buscar controlar el medio o las condiciones en que los encuestados o entrevistados son consultados. Sin embargo, metodológicamente poseen una diferencia central: las encuestas hacen uso de un cuestionario mientras que las entrevistas no necesariamente. Si bien las entrevistas también pueden ser estructuradas, es decir basarse en preguntas predeterminadas, una diferencia importante es que las encuestas utilizan cuestionarios que son respondidos de manera individual por el encuestado, sin la intervención (en teoría) del encuestador, mientras que en una entrevista estructurada el entrevistado puede, durante la conversación, realizar preguntas y aclaraciones sobre el curso de la misma y, desde luego el entrevistador puede incorporar instrucciones o explicar las preguntas por medio de analogías, ejemplos, etc., con el consecuente riesgo de intervenir en la respuesta.1 Los experimentos son procedimientos dirigidos a obtener información controlando el medio en el que se encuentran las personas. En este sentido,

los experimentos son ideales para la realización de investigación causal. Nótese que los experimentos pueden hacer uso de encuestas como herramienta para la recopilación de información. Al final, la elección entre encuesta, entrevista o experimento depende del modo preferido de observación del investigador y, en gran medida, del medio más utilizado en su área de estudios. Las encuestas son utilizadas en las ciencias sociales (por ejemplo, criminología, ciencia política, economía, demografía, etc.) porque son un medio práctico y útil para obtener descripciones de patrones generales de comportamiento. Las encuestas hacen uso de cuestionarios. Un cuestionario es un conjunto de preguntas estandarizadas, es decir, planteadas en común a todos los encuestados.2 En este sentido, el cuestionario o los cuestionarios3 que forman parte de una encuesta pueden contener una variedad de preguntas relacionadas a conceptos predefinidos y distintos.4 A partir de ello se realizan mediciones de los diferentes aspectos de un fenómeno de interés, por ejemplo la victimización, la opinión pública sobre la policía local, las condiciones de vida en las cárceles, etcétera. El diseño de un cuestionario es un trabajo intelectual muy laborioso porque la probabilidad de cometer errores en su elaboración y aplicación es alta. Algunos de los problemas identificados en los cuestionarios son la ambigüedad gramatical, complejidad excesiva, la conceptualización vaga, los términos poco conocidos, etc. (Tourangeau, Rips y Rasinski, 2000). Por ello, entre otras cosas, los cuestionarios siempre incluyen instrucciones y las preguntas y respuestas siguen un orden lógico. Los cuestionarios pueden ser aplicados de manera personal (por ejemplo, encuestas a vivienda), por teléfono, mediante una plataforma de Internet e incluso por correo postal. En este sentido, es necesario tener absoluta claridad en si un cuestionario nos puede dar información apropiada y suficiente para nuestra investigación —en relación con los conceptos en investigación y las hipótesis a prueba— y cómo será aplicado. Resuelto lo anterior, una gran ventaja de los cuestionarios es que contienen mediciones que permiten la prueba estadística de hipótesis. Dichas mediciones son las que permiten el análisis estadístico y comparativo de los resultados de las encuestas. Otra ventaja que debe mencionarse es que las encuestas ofrecen, en muchos casos, anonimato, lo que permite una mayor libertad para reportar hechos u opinar sobre temas personal o socialmente conflictivos.

V.2. ERRORES EN LAS ENCUESTAS E IMPLICACIONES ESTADÍSTICAS Groves (1989) identifica cuatro tipos de errores en las encuestas: de cobertura, de muestreo, de no respuesta y de medición. El error de cobertura se presenta cuando el diseño muestral no incluye individuos de la población que debían ser considerados en la muestra supuestamente representativa. El error muestral ocurre cuando un subconjunto de la población es utilizado para representar las características de la población entera.5 El error de no respuesta se presenta cuando no se obtiene la información que se buscaba entre los individuos en la muestra. El error de medición sucede cuando el valor observado en la variable difiere de su valor real (véase el diagrama V.1). Debe aclararse que estos errores no son independientes entre ellos y que cada tipo de error debe ser previsto en el proceso de muestreo y conlleva implicaciones diferentes. Para efectos de una mejor presentación de los métodos de muestreo y el cálculo del tamaño de muestra, en esta sección nos concentramos sólo en el error de medición. DIAGRAMA V.1

Fuente: Elaboración propia.

Primero especifiquemos que las mediciones son la liga entre la teoría y el análisis estadístico. Aquí aparecen tres conceptos interrelacionados: constructos, indicadores y mediciones (Alwin, 2007). Los constructos (o interpretaciones) son las variables teóricas sobre las que se busca información. Los indicadores son los referentes empíricos de tales

constructos teóricos. Las mediciones son las preguntas utilizadas para obtener información sobre los indicadores. Veamos un ejemplo de esta triple relación. La clase social es un constructo teórico o categoría sociológica muy utilizada para explicar el comportamiento de grupo. Los indicadores de clase social son, normalmente, el ingreso, la educación, la ocupación, etc. Nótese en este sentido que hay indicadores imperfectos y que un constructo puede ser representado a través de múltiples indicadores. La medición sería el nivel de ingreso en términos de salarios mínimos o ingreso medio mensual familiar, etc. Otra medición para “indicar” la clase social de una persona podría ser el número de años de educación formal, aunque esto sería debatible; la educación tal vez no es un buen indicador de clase social. Aclarado lo anterior, además de la discusión natural al respecto de esta triple relación constructo-indicador-medición, el trabajo de medición tiene sus propias dificultades. Los errores de medición suceden porque hay factores de distorsión en las observaciones. Hay tres factores de distorsión conducentes al error en la medición: factores transitivos (por ejemplo, estado de ánimo, fatiga, etc.), factores estables (por ejemplo, personalidad) y factores situacionales (por ejemplo, ruido, iluminación, entre otros). Los errores de medición pueden clasificarse en aleatorios y sistemáticos. Los aleatorios son aquellos que afectan las mediciones de forma imprevisible e incontrolable; la opinión y la memoria pueden variar de manera frecuente e imprevista. Por ejemplo, el estado de ánimo, al ser variable, puede elevar o reducir la magnitud en el valor verdadero de una respuesta en una encuesta. Por ende, el error aleatorio se distribuye como lo expresa su nombre. En consecuencia, este error aumenta la varianza de la medición, pero no afecta la media de la muestra.6 El error sistemático sucede cuando los factores de distorsión afectan de manera invariable algunas o todas las mediciones contenidas en la encuesta. Por ejemplo, entre los factores situacionales, el ruido durante el llenado de un cuestionario con ciertas preguntas que requieren una lectura detenida y reflexiva puede afectar de tal manera que las respuestas sean equivocadas en algunos aspectos en el mismo sentido.7 Estos errores son sistemáticamente positivos o negativos; aumentan o disminuyen los valores de la variable. El efecto estadístico del error sistemático es que afecta la media aritmética de la muestra, razón por la cual a las mediciones con este error se les denomina “mediciones sesgadas”.

Naturalmente, en la presencia de ambos errores, la media de la muestra (M) no reflejará de forma precisa la media del universo (μ). En términos de estadística descriptiva, el error de medición (e) se definiría, en diferentes contextos:

Sobre los efectos estadísticos es importante mencionar que si bien el error aleatorio no afecta la media aritmética, al afectar los estimados de la varianza puede afectar las pruebas de hipótesis de diferencias entre grupos (Alwin, 2007).8 Los errores en las pruebas de hipótesis pueden ir en ambas direcciones, por lo que se clasifican en errores del tipo I y II.9 Se comete un error del tipo I cuando la hipótesis de partida, o hipótesis nula, es rechazada a pesar de ser verdadera. En cambio, se comete un error del tipo II si se acepta una hipótesis nula que resulta ser falsa. Estos conceptos se tratarán con más detalle en el capítulo VI. Al ser la varianza de la muestra un elemento para el cómputo del error estándar de las pruebas de significancia, su inflación tiene como consecuencia una mayor probabilidad de incurrir en un error del tipo II, es decir, no rechazar la hipótesis nula cuando es falsa. En términos de investigación social, esto implica una tendencia a concluir similitudes versus diferencias entre grupos. Lo mismo sucede en el análisis de correlación lineal r de Pearson.10 En este caso, tal inflación de la varianza incide en el cómputo de coeficientes de correlación de menor magnitud a la realmente existente; en consecuencia, no significativos. Los efectos de los errores sistemáticos son más graves. Además de inflar la varianza, el error sistemático también afecta el valor de la media aritmética, es decir, la localización de la distribución. Así, los errores en las pruebas de hipótesis pueden ir en las dos direcciones. En resumen, se distingue entre los errores tipo I, que ocurren cuando se rechaza la hipótesis nula a pesar de ser verdadera, y los errores tipo II, que ocurren cuando no se rechaza una hipótesis nula que resulta ser falsa. Hay algunas maneras para reducir los errores de medición, ya sean aleatorios o sistemáticos. Entre ellas están las siguientes: pruebas piloto de los cuestionarios y de las circunstancias alrededor de su aplicación (por

ejemplo, momento del día), el entrenamiento de los encuestadores y capturistas, y utilizar indicadores múltiples para los constructos teóricos bajo estudio. Esto es particularmente útil para controlar la posibilidad del error sistemático (Alwin, 2007).11

V.3. LA MUESTRA Y SU DISEÑO Toda muestra necesita ser diseñada. El diseño se divide en tres partes: marco muestral, tamaño de la muestra y método de muestreo. El marco muestral es la definición de la población bajo estudio y de las unidades que son elegibles para formar parte de la muestra. El tamaño de la muestra es el número de unidades que serán encuestadas. El método de muestreo es el procedimiento que se seguirá para la elección de las observaciones. De esta forma, el diseño muestral se utiliza para planificar todos los pasos necesarios para lograr una muestra representativa de la población bajo estudio. Al parecer, el concepto —y expresión como tal— de “muestra representativa” se utilizó por primera vez en 1895 en una conferencia de la Asociación Internacional de Estadística. Sin embargo, no se tiene certeza de si el concepto corresponde originalmente a Wilbur o a Kiaer.12 El concepto obtuvo reconocimiento científico en 1903 de la misma asociación (Kruskal y Mosteller, 1980; Kalton, 2006). Aunque el uso de muestras para la recopilación de información no era algo nuevo, en ese entonces se debatía su validez científica por la creencia de que “no se puede reemplazar por cálculo la observación de los hechos”.13 Sin embargo, desde su aceptación en la comunidad científica a inicios del siglo XX, los métodos de muestreo se han sofisticado de manera importante. Uno de los avances más notables corresponde a Neyman, quien en 1934 ofreció una teoría de la inferencia estadística a partir del concepto de intervalos de confianza, el cual se extendió a la prueba estadística de hipótesis. Además de este concepto, Neyman también demostró la superioridad del muestreo probabilístico o estadístico sobre el no probabilístico, desarrolló el método del muestro por cuotas y derivó una fórmula para el muestreo estratificado (Kruskal y Mosteller, 1980). A finales de la década de 1940, y gracias al trabajo de otros estadísticos como Kish, Cochran, Mahalanobis y Yates (entre los más conocidos), el muestreo estadístico se consolidó y preparó el terreno para el fuerte impulso que se le

daría a la investigación cuantitativa en las ciencias sociales en la década de los cincuenta. En esta sección veremos los principales métodos de muestreo y las formas para calcular el tamaño de la muestra en función de nuestros intereses y supuestos de investigación.

V.3.1. EL MARCO MUESTRAL Y EL ERROR ESTÁNDAR El marco muestral es la parte del estudio donde se define a la población y a las unidades elegibles para formar parte de la muestra.14 El diseño muestral debe contener definiciones precisas de la población, la muestra y las unidades muestrales. La población es el conjunto de las observaciones del que se planea extraer una muestra. Estadísticamente, una población es el listado completo de las unidades que serán extraídas para ser analizadas. La población se define en relación con el objeto de estudio. Por ejemplo, puede tratarse de la población total de un país, sus ciudades, instituciones políticas, empresas, electores, adultos, etc. Por otro lado, la muestra es la parte de la población que la representará en su conjunto. Las características de la población se inferirán a partir de las características de su muestra. La unidad muestral es la observación singular o, en términos comunes, es el encuestado. Nótese, sin embargo, que la población puede estar dividida en estratos de interés científico. Un estrato es un subgrupo de la población del cual se desea extraer una muestra. En este caso, la muestra total debe estratificarse de forma que se logre una adecuada representatividad de la variabilidad total presente en la población (véase el diagrama V.2.). DIAGRAMA V.2

Fuente: Elaboración propia.

Por ejemplo, si una hipótesis del estudio sugiere que la clase social de los padres es determinante de la clase social de los hijos, entonces se requiere estratificar a la población elegible con el fin de obtener muestras representativas de cada clase social. Esto se realiza para lograr precisión estadística. En caso contrario, sin una estratificación, alguna clase social podría no representarse adecuadamente dentro de la muestra general, lo cual aumenta el riesgo de inflar el error de la muestra o error muestral. El error muestral es un concepto central en el muestreo que se discute en relación con el marco de la muestra, pues este error es función de la variabilidad en la población, del tamaño de la muestra y de cómo son seleccionadas las observaciones (Kline, 2004). Por ejemplo, en referencia a la estratificación, en una ausencia de la misma cuando debía haberla, el error muestral se origina a razón de que parte de la población ha sido omitida en la muestra (Dodge, 2008). Al error muestral también se le denomina como error estándar. Este es un tipo de error de medición en el sentido de que también deriva en una diferencia entre el parámetro y el estadístico; la diferencia entre el valor real y el observado. Si bien el error muestral es inevitable (Dodge, 2008), se intenta controlar a través de métodos adecuados de muestreo. Este tipo de error también es tolerado en la investigación empírica por las ventajas que ofrece el uso de muestras. Una muestra representativa puede brindar información muy similar y de manera más económica y rápida que un censo o enumeración completa de la población. En este sentido, la estratificación como método de muestreo

ayuda a reducir el error muestral. Otra ventaja es que la magnitud del error muestral o estándar puede incluirse en el cálculo del tamaño de la muestra.15 Estadísticamente, el error estándar es la desviación estándar de la distribución de un estadístico. Recordemos que un estadístico es una característica numérica en una muestra. En este sentido, si la varianza de la población (σ 2) es conocida, el error estándar de la media de una muestra (M) se determina de la siguiente manera:

Es decir, el error estándar es función de la variación y el tamaño de la muestra. A mayor variación, mayor error estándar, y a menor tamaño de muestra, mayor error estándar también. El segundo factor en la fórmula es el llamado factor de corrección por tamaño de la población. Si la muestra es pequeña en relación con toda la población,16 el efecto del factor de corrección es nimio y puede prescindirse del mismo; cuanto más se acerca el tamaño de muestra a la población, mayor es el efecto de la corrección. Pocas veces se conocen o se pueden anticipar los parámetros de la población en estudio. En estos casos, se sustituye la desviación estándar de la población por la desviación estándar de la muestra. Es decir:

En síntesis, el error muestral o estándar es función de la variabilidad de la población, del tamaño de la muestra y del método de selección de las observaciones. Y finalmente, junto con el nivel de confianza, ambos determinan el margen de error de un resultado estadístico. El diseño muestral debe considerar todos estos conceptos y relaciones.

V.3.2. INTERVALOS DE CONFIANZA Y TAMAÑO DE LA MUESTRA El cálculo del tamaño de la muestra hace uso del concepto de intervalos de confianza normales de Neyman (1934). En una distribución normal estándar,

el intervalo de confianza (IC) de la media poblacional (μ) en una variable continua se define de la siguiente manera:

Recordemos dos conceptos que se comentaron previamente: el error estándar y el nivel de confianza. El error estándar (ES) es la aproximación al error proveniente de la relación entre la variabilidad —de la variable bajo estudio — y del tamaño de la muestra (n). El nivel de confianza (NC) es una medición predefinida de la probabilidad (p) de que el IC contenga el valor del parámetro que se busca estimar a partir de la información proveniente de la muestra. Ambos conforman el margen de error (ME) de un estadístico. De tal forma que el margen de error es:

Y por ende, el IC de μ se construye de la siguiente manera:

De tal forma que el error tipo I o error alfa (α), es decir, rechazar la hipótesis nula (Ho) cuando es verdadera, se define de la siguiente manera:

En consecuencia, el error alfa es función del margen de error de los estimadores puntuales necesarios para la realización de la prueba de hipótesis nula. Es por ello que se incluye en el cálculo del tamaño de la muestra. Para este caso, la prueba de hipótesis nula se define de la siguiente manera:

Que en estadística inferencial es lo mismo que decir que dos medias muestrales provienen de la misma población. Esto es:

O bien que no se rechaza Ho porque:

En donde no contar con evidencia muestral para rechazar Ho no implica que ésta sea verdadera ni que la hipótesis alternativa sea falsa. La prueba de hipótesis sólo permite, dentro de un margen de error —el cual es función del nivel de confianza y del error estándar, y a su vez éste es función del tamaño de la muestra— concluir que no se cuenta con suficiente evidencia muestral para rechazar Ho.

V.4. CÁLCULO DEL TAMAÑO DE MUESTRA EN UNA POBLACIÓN CON DISTRIBUCIÓN NORMAL

Esta parte del capítulo se divide en cinco secciones. Primero se repasa el concepto de intervalo de confianza, requisito elemental para la determinación del tamaño de muestra. Posteriormente se muestran diferentes fórmulas y consideraciones estadísticas para el cálculo del tamaño de muestra con tres tipos de variables: continuas, ordinales y dicotómicas.

V.4.1. CÁLCULO DEL TAMAÑO DE LA MUESTRA PARA UNA VARIABLE CONTINUA

Aclarado lo anterior, la fórmula del IC normal de Neyman asume varias cosas. Primero, que la variable se distribuye normalmente. Segundo, que la varianza de la muestra (s2) representa fielmente la varianza de la población (σ 2 ). Y, tercero, que se conoce el tamaño de la población (N). Si lo anterior es correcto, el margen de error (ME) de un estimado en una variable continua podría obtenerse de la siguiente manera (Lohr, 1999):

En la ecuación anterior, Zα es el valor de la variable normalizada en la distribución normal que corresponde a una significancia estadística de valor α. La significancia estadística α es, a su vez, la probabilidad de cometer un error tipo I y representa una medida de la confianza que tenemos en la

ejecución de la prueba. Del margen de error se deduce que el tamaño de una muestra necesario para realizar pruebas de hipótesis se obtendría de la siguiente forma:

Hay ocasiones en que la población (N) es desconocida, pero de todas maneras es bastante grande. En estos casos, el tamaño de la muestra para realizar una prueba de hipótesis nula puede obtenerse de la siguiente manera:17

Las diferencias que ofrecen ambas fórmulas son notables cuando N es pequeña o los niveles de confianza son altos (por ejemplo, 99%). Veamos un ejemplo y comparemos los resultados en escenarios diferentes; con y sin N conocida. Supongamos que queremos aplicar una encuesta de opinión de la población adulta en una colonia sobre el desempeño de su policía. La población adulta residente en tal colonia es de 10 000 habitantes. La medición a utilizar es la calificación ciudadana en una escala de 0 a 10, donde 0 representa un nulo desempeño y 10 un sobresaliente desempeño. La pregunta representa, por ende, una calificación al trabajo de la policía y se delimita, de manera estricta, a calificar tal trabajo al año previo a la realización de la encuesta. Se desea obtener un estimado de tal calificación ciudadana con un nivel de confianza del 95% (Z = 1.96) y un margen de error de +/– 0.5 puntos en tal escala del 0 al 10. Se asume que la opinión es sumamente variable, y se asigna un valor a la desviación estándar de cuatro puntos en la misma escala. Con base en todos los criterios anteriores, en un esquema de muestreo simple, el tamaño mínimo de la muestra necesario para obtener un estimado —por ejemplo, la media aritmética— de la calificación ciudadana hacia el desempeño de la policía debería de ser de 240 o 246 personas según cada caso. Ambos tamaños de muestra se obtuvieron de la siguiente manera:

Ahora veamos la diferencia cuando la población residente en la colonia es de 1 000 habitantes. En este caso, el tamaño de la muestra necesaria para obtener el estimado se reduciría a:

V.4.2. CÁLCULO DEL TAMAÑO DE LA MUESTRA PARA UNA VARIABLE DICOTÓMICA

Los IC normales también pueden calcularse cuando la variable es dicotómica. Recordemos que en este caso, el IC de la proporción poblacional (Π) se podría calcular de la siguiente manera:

De lo anterior se deduce que la fórmula para el cálculo del tamaño de muestra para mediciones dicotómicas sería la siguiente:

Si N fuera conocida, entonces se realizaría el siguiente ajuste al tamaño de la muestra con la corrección de Cochran (1977):

Veamos otro ejemplo. Supongamos que, de manera análoga a la pregunta de investigación anterior, deseamos conocer el porcentaje de aprobación que tiene la población adulta de cierta colonia sobre su policía. La población residente adulta en tal colonia es también de 10 000 habitantes. La medición a utilizar es la calificación ciudadana en términos dicotómicos como aprobada (p) y no aprobada (1 – p). De igual modo, la pregunta se delimita a calificar tal trabajo estrictamente al año previo a la realización de la encuesta. Se desea un estimado del porcentaje de aprobación —o desaprobación— con un nivel de confianza del 95% (Zα = 1.96) y un margen de error de +/– 3 puntos porcentuales. Se asume una posición neutral al respecto de la variación en la población y por ende se le otorga el máximo valor a la variabilidad de aprobación, es decir, 50%.18 En un esquema de muestreo simple, el tamaño de la muestra necesario para obtener un estimado de la proporción de la población que aprueba la gestión de la policía sería de 1 067 personas. Esto se deriva de que:

Siendo que N = 10 000, entonces el tamaño de muestra ajustado nc , para tomar en cuenta que se conoce el tamaño de la población, estaría dado por:

Es importante recordar que las encuestas tienen un porcentaje de no respuesta: no todos los cuestionarios son respondidos. En este caso, es necesario realizar otra corrección al tamaño de la muestra sobre la cifra de la muestra corregida por población. En este caso, si estimamos que la tasa de respuesta de la encuesta del ejemplo anterior rondaría entre 70% y 80%, el ajuste por no respuesta sería:

V.5. CÁLCULO DEL TAMAÑO DE MUESTRA PARA LA REALIZACIÓN DE EXPERIMENTOS EN POBLACIONES CON DISTRIBUCIONES NORMALES

Cada vez es más frecuente encontrar diseños experimentales en las ciencias sociales, incluidos los estudios en seguridad pública y criminología.19 Los experimentos implican la comparación entre al menos dos grupos: el de intervención y el de control. En esta sección se presenta de manera introductoria la forma de calcular el tamaño mínimo de las muestras en cada grupo en un diseño experimental de dos grupos o muestras. Se trata de fórmulas para muestras mínimas, ya que uno de los supuestos necesarios para el cálculo consiste en la idea de diferencia mínima detectable entre los dos grupos para rechazar Ho y argumentar la presencia de un efecto en la intervención. En este caso, el margen de error pasa a ser considerado como efecto de la intervención o el tamaño de la diferencia. Se presentan las fórmulas para los tres tipos de variables o niveles de medición previamente mencionados: variables continuas, ordinales y dicotómicas. Debe considerarse que los experimentos normalmente incluyen el poder de la prueba en el cálculo. Por lo anterior, a continuación se hace una breve presentación de otros conceptos estadísticos (por ejemplo, error del tipo II) no comentados a detalle en las secciones anteriores.

V.5.1. CÁLCULO DEL TAMAÑO DE LA MUESTRA PARA EXPERIMENTOS CON UNA VARIABLE CONTINUA

La fórmula para considerar el poder estadístico de la prueba en el cálculo del tamaño de dos muestras para un diseño experimental es la siguiente (Lehr, 1992):20

El denominador presenta la diferencia cuadrada hipotética (Δ). Este estimado

es la diferencia cuadrática en desviaciones estándar que se esperaría encontrar para rechazar Ho (Van Belle, 2008). Es el tamaño de la diferencia en la comparación de las dos medias poblacionales, el cual es un criterio subjetivo y necesario para el cálculo de las dos muestras para experimentación. Esto, matemáticamente, se representa de la misma manera (Van Belle, 2008):21

Desde luego, que el efecto real del tratamiento (medido a posteriori) puede ser mayor o menor del estimado. Por ejemplo, si la diferencia esperada en el tratamiento para considerarlo como eficaz es del 20%, entonces delta es igual a 0.20. Otra fórmula donde se muestra cómo se integran ambos tipos de errores (I y II) es la siguiente (Van Belle, 2008 y 2011):22

Donde Zα es el valor del estadístico normal del nivel de confianza para contabilizar el error tipo I, y Zα es el valor del estadístico normal del poder de la prueba para contabilizar el error tipo II. El valor de la constante igual a 2 fue propuesto por Snedecor y Cochran (1980) en sustitución del valor de 1.96, y la ecuación general, posteriormente publicada por Lehr (1992), hace uso de esta constante. Si sobre la base de experimentos anteriores se conocieran las varianzas de las dos poblaciones bajo estudio, una forma alternativa utilizada en pruebas clínicas para calcular el tamaño de las muestras a comparar sería la siguiente (Riffenburg, 2012):

Donde d es la diferencia cuadrada hipotética (Δ). Veamos a continuación un ejemplo numérico para el cálculo del tamaño de la muestra con una variable continua. Deseamos comparar la media aritmética de una variable X entre dos grupos, uno donde se realizó una intervención y se espera tener un efecto, y otro donde no se intervino y sirve

como el control de la prueba. Una prueba óptima de significancia se presenta cuando los tamaños de las muestras de dos poblaciones hipotéticas son iguales (Cohen, 1988) y las varianzas poblacionales son conocidas. Sin embargo, ya que no sabemos lo anterior, asumiremos que la varianza es la misma entre ambas muestras puesto que nuestra hipótesis nula se formula de manera que el tratamiento no tuvo efecto. O sea, se asumirá que:

Probaremos la hipótesis nula con un nivel de confianza de 95%; o significancia del 5%, p = .05. Por lo tanto:

Deseamos también que el poder de las pruebas23 de diferencias que realicemos con la información derivada de ambas muestras sea de 80%. Dicho de otra manera que, acorde con las muestras n1 y n2 utilizadas en el estudio, la probabilidad de que se encuentre una diferencia estadísticamente significativa cuando en efecto existe, sea de 80% o con una probabilidad máxima de error de 20%. Por lo tanto:

Finalmente, se asume que en el escenario de Ho, la magnitud de la diferencia aleatoria (Δ) no debe rebasar el 20%. Entonces, con base en tales criterios y utilizando la fórmula de Van Belle (2008) necesitaríamos el siguiente tamaño mínimo de muestra en cada grupo a comparar:

Tal y como formulamos la prueba de hipótesis, se requiere seleccionar de manera aleatoria un mínimo de 392 individuos para cada muestra.24 Nótese que con la fórmula general de Lehr (1992) obtendríamos un número similar:

En el ejemplo anterior el nivel de confianza deseado fue de 95%. Esto equivale, dentro de una distribución normal, a que el área de hipótesis alternativa en cada lado de la distribución sea de 2.5%. Por ende, la puntuación Zα correspondiente resulta ser 1.96 desviaciones estándar. Análogamente, cuando el poder de la prueba se fija en 80%, esto implica que, si la Ha es la verdadera, cada lado de la distribución de probabilidades contendrá el 10% de los valores posibles del estadístico. En consecuencia, la puntuación Zβ equivale en este caso a 0.84 desviaciones estándar. Naturalmente otros valores para el error tipo II pueden utilizarse en el cálculo del tamaño de muestra. Véase el cuadro V.1. CUADRO V.1

El cuadro anterior muestra los numeradores necesarios para el cálculo de una muestra. Esto sucede cuando se conocen los parámetros (media y varianza) de la población de control y por ende el diseño experimental no requiere obtener una muestra aleatoria de tal grupo. En ese caso no se requería más que calcular el tamaño de la muestra para realizar la intervención y posteriormente comparar los resultados obtenidos con los parámetros conocidos del control.

En síntesis, hemos visto que ambos criterios, el nivel de confianza y el poder de la prueba, se suman en los diseños experimentales para estimar el número necesario de observaciones y realizar una prueba de significancia. Recuérdese que el poder de la prueba es un concepto sumamente útil y utilizado con frecuencia en los diseños experimentales. El poder de la prueba es la probabilidad de detectar una diferencia o una correlación cuando, en efecto, existe. En la práctica de la investigación científica normalmente se utiliza un poder de 80% o máximo de error en la detección de la diferencia o correlación de 20%.

V.5.2. CÁLCULO DEL TAMAÑO DE LA MUESTRA PARA EXPERIMENTOS CON UNA VARIABLE ORDINAL

Cuando la variable sobre la cual se experimenta se ha medido de forma ordinal, necesitamos asignar las proporciones —o frecuencias esperadas en cada rango o categoría de la variable— para asignar de manera correcta un número de observaciones a cada una de estas categorías y así representar adecuadamente la distribución de la variable en la población. La proporción esperada (P) de observaciones por rango de la variable en dos grupos, A y B, donde A es el grupo de control y B el grupo de intervención, se obtiene de la siguiente manera (Campbell, Julious y Altman, 1995):

Donde t representa el número de rangos en la variable. Pasando a la definición de las probabilidades acumulativas (C) de la variable ordinal en cada grupo, éstas serían:

Y sería la misma notación para el grupo B. De esta manera, la relación de

probabilidades o razón de momios (OR)25 entre los rangos de la variable y entre los grupos A y B se obtiene de la siguiente manera (Campbell, Julious y Altman, 1995):

Y así sucesivamente para cada rango (t) en la variable. Notemos que esta relación significa la probabilidad de que una observación esté en tal categoría o rango de la variable en el grupo A en comparación con la probabilidad de otra observación en el grupo B. La definición de esta relación de probabilidades o razón de momios se necesita para calcular el tamaño de muestra necesario. La forma más común de asignar estas relaciones de probabilidades es considerar los resultados de encuestas anteriores para la misma variable. Sobre esta lógica, la fórmula para el cálculo del tamaño de una muestra con una variable ordinal es la siguiente (Campbell, Julious y Altman,1995):

Donde p es la media aritmética de las proporciones del grupo A y el grupo B. Para explicar lo anterior veamos una aplicación práctica. Supongamos que deseamos estimar los niveles de inseguridad en las colonias de residencia de los habitantes de la ciudad, considerando que tales niveles dependen de la experiencia de haber sido víctima de un delito anteriormente. Para probar tal hipótesis, necesitamos levantar una encuesta de opinión y calcular un tamaño de muestra necesario para llevar a cabo este ejercicio. Con base en información proveniente de una encuesta realizada con anterioridad, sabemos que los niveles de inseguridad se distribuyen como indica el cuadro V.2. CUADRO V.2

Podemos tomar tal frecuencia reportada en el estudio previo como el referente del grupo A o grupo de personas que no han sido víctimas del delito. Si quisiéramos probar la tesis de que la proporción de aquellos que no han sido víctimas de un delito con respecto a aquellos que están en el grupo contrario, es decir en el grupo B, es de 2 a 1, entonces tendríamos un cuadro de frecuencias como el cuadro V.3. CUADRO V.3

La frecuencia acumulativa del grupo B se obtuvo de la siguiente manera:

Por ejemplo, la frecuencia acumulativa del primer rango en el grupo B se obtiene de la siguiente forma:

De este modo, la proporción esperada en el primer rango o categoría de la variable en el grupo B sería igual a 0.26. Y así para cada rango sucesivo. La media de las proporciones p se obtuvo de la siguiente manera:

Una vez que ya se tiene la frecuencia acumulativa esperada en ambos grupos sobre la base de la relación de probabilidades previamente asignada (en este caso 2 a 1, OR = 0.5), se procede a calcular el tamaño de muestra. En este caso, deseamos contar con un nivel de confianza de 95% y un poder de la prueba de 90%. El margen de error en este caso está dado por el inverso de la suma de las medias cúbicas de las proporciones esperadas. Con base en estos criterios, el tamaño de muestra necesario en cada grupo se obtendría del siguiente modo:

Es decir, necesitaríamos encuestar a 144 personas en el grupo de las víctimas y el mismo número en el grupo de aquellos que no han sido víctimas, para probar que los niveles de inseguridad dependen de tal experiencia, con un nivel de confianza de 95% y asumiendo una relación de probabilidades de 2 a 1. De acuerdo con el poder de la prueba, podemos esperar una probabilidad máxima de concluir que no hay una diferencia significativa entre ambos grupos cuando sí la hay del 10%. Dicho de otra manera, la probabilidad de detectar un efecto es del 90%.

V.5.3. CÁLCULO DEL TAMAÑO DE LA MUESTRA PARA EXPERIMENTOS CON UNA VARIABLE DICOTÓMICA

En el caso de una variable dicotómica, la fórmula que incluye el poder de la prueba en el cálculo del tamaño de la muestra es, para Pa ≠ Pb, la siguiente (Campbell, Julious y Altman,1995):

donde Pa y Pb son las proporciones esperadas o hipotéticas en cada grupo que se va a comparar. Los demás términos en la fórmula son los mismos de la sección anterior. Veamos un ejemplo con este tipo de variable. Supongamos que deseamos saber si hay una diferencia estadísticamente significativa al respecto de una opinión reprobatoria hacia el gobierno local entre aquellos que han sido víctimas de actos de corrupción (n1) y aquellos que no lo han sido (n2). En la realización de la prueba de hipótesis, creemos que la mala opinión no es generalizada y que depende de la experiencia del encuestado respecto a este problema. La pregunta entonces es ¿en cuántas viviendas se deberá realizar tal pregunta para probar la hipótesis anterior? A partir de una encuesta reciente, sabemos que el 44% de las familias en la Ciudad de México contestan afirmativamente a la siguiente pregunta: ¿En su familia ha habido víctimas de un acto de corrupción durante el año anterior?26 Es decir, el problema es evidente y es probable que la opinión sí dependa de tal factor. Para probar nuestra hipótesis, supondremos que 95% (Pa) de los encuestados con víctimas de corrupción tendrán una mala opinión del gobierno local y que 85% (Pb) de los encuestados sin víctimas de corrupción también tendrán una mala opinión al respecto; simplemente porque la opinión negativa al respecto es generalizada. Como en los casos anteriores, deseamos un nivel de confianza de 95% y un poder de la prueba de 90%. De esta forma, el tamaño de muestra necesario para realizar un estimado de tal proporción es:

De tal manera, para probar la hipótesis de que la opinión reprobatoria depende de la experiencia previa de haber sido víctima de corrupción durante el año anterior, necesitaríamos encuestar a 184 personas en cada grupo —es decir, tanto de aquellos que han sido víctimas, como de aquellos que no lo han sido—. Bajo los criterios definidos, la probabilidad de aceptar Ho cuando efectivamente es falsa es del 10%; o dicho con otras palabras, la probabilidad de concluir que no hay una diferencia significativa en la opinión reprobatoria hacia el gobierno local (entre ambos grupos) cuando sí la hay es del 10% como máximo.

V.6. CÁLCULO DEL TAMAÑO DE MUESTRA PARA EXPERIMENTOS BAJO DISTRIBUCIONES LIBRES DE PARÁMETROS E INCLUYENDO EL PODER DE LA PRUEBA

La estadística Florence David27 decía que desearía “tirar la curva normal por la ventana, tirar las poblaciones hipotéticas”.28 Hay ocasiones en que el uso de parámetros normales es inadecuado. Como regla general, si todos los valores de una variable son iguales a cero o positivos, y la desviación estándar (s) es notablemente mayor a la media aritmética (M), es poco probable que tal muestra de observaciones provenga de una distribución normal (Sprent, 2016). La razón es que la probabilidad de que el valor de una observación sobre una variable que se comporta normalmente caiga a más de una desviación estándar de la media de la muestra no es muy alta (Sprent, 2016).29 En consecuencia, los valores obtenidos a partir de las unidades muestrales u observaciones pueden no corresponder adecuadamente con los valores reales de la población. En estos casos es preferible estimar un tamaño de muestra consecuente con los parámetros de la población en específico, por ejemplo, para una distribución de Poisson, etcétera. Una fórmula para el cálculo de una muestra utilizada también en pruebas clínicas es la siguiente (Chow et al., 2008):

Donde p1 y p2 son proporciones de dos poblaciones a comparar y el tamaño de muestra resultante es dividido entre dos, que son las muestras necesarias para realizar la comparación entre el control y la intervención. El valor de 0.5 en el denominador es una constante. Esta fórmula requiere realizar ciertos supuestos o contar con información preliminar sobre el experimento a realizar, por ejemplo, a partir de información en publicaciones anteriores o por la realización de un estudio piloto. Un ejemplo sería el siguiente. Supongamos que se desea comparar los niveles de miedo al crimen entre dos grupos de personas, aquellas que no han sido sometidas a un programa de información sobre modernización y reforma policial y aquellas que sí lo han sido. Se hipotetiza que aquellos que atendieron al programa de información reportarán tener menores niveles de miedo al crimen que aquellos que no asistieron y por ende poseen menores niveles de información sobre lo que se está realizando. Sin embargo, este es el primer experimento realizado de este tipo y se desconoce la forma de la distribución de respuestas o reacciones posibles y por ende los parámetros de ambas poblaciones de las cuales se extraerán las muestras representativas, la de control y la de intervención. Inclusive se sospecha que tales respuestas o reacciones no siguen un comportamiento normal. Por lo tanto, se realiza una prueba piloto y se obtiene que de la población general o no intervenida el 58% (p1) tiene una opinión favorable de la política de modernización y reforma, mientras entre los informados la tiene un 73% (p2). ¿Conviene implementar una política masiva de información? ¿A cuántas personas deberíamos encuestar en cada grupo para responder a la pregunta anterior? Esto se calcularía de la siguiente manera:

Esta muestra se dividiría en partes iguales y se necesitarían 114 personas de cada grupo para llevar a cabo el experimento. Este cálculo implicó un nivel de confianza de 95% y un poder de prueba de 80%.

Si se tratara de una distribución no paramétrica pero conocida, por ejemplo, una distribución de Poisson (para un conteo de eventos raros o poco frecuentes), se podría utilizar como base la ecuación general de Lehr (1992) y el cálculo del tamaño de muestra con un nivel de confianza del 95% y un poder de prueba del 80%, lo cual se realizaría de la siguiente manera (Van Belle, 2008):30

Donde λ1 y λ2 son las medias aritméticas esperadas en el conteo de frecuencias dentro de la distribución de probabilidades de Poisson, y donde la diferencia entre ambas sería el intervalo definido para rechazar Ho. Veamos un ejemplo. Si asumiéramos que la media del conteo de una variable cual sea (por ejemplo, conteo de detenciones por un delito) en un conjunto de colonias que sirven como control de un experimento policiaco es igual a 37 y en otro conjunto de colonias donde se han realizado intervenciones experimentales es de 31, el tamaño necesario en cada muestra para probar la hipótesis de una diferencia en el conteo de frecuencias de detenciones entre ambas poblaciones de colonias sería:

Es decir, los datos provenientes de 15 colonias elegidas de manera aleatoria para cada grupo. Lo anterior también con un nivel de confianza de 95% y un poder en la prueba de 80% (Van Belle, 2008).

V.7. MÉTODOS DE MUESTREO O SELECCIÓN DE LAS OBSERVACIONES A continuación, se presentan cuatro métodos de selección de las observaciones o unidades muestrales: muestreo aleatorio simple, sistemático, estratificado en dos formulaciones diferentes y muestreo por conglomerados.

V.7.1. MUESTREO ALEATORIO SIMPLE Este método considera todas las observaciones de una población (N) como

idénticas para propósitos del estudio. Entiéndase por población un conjunto total de personas, instituciones, objetos, etc. Al ser idénticas, se permite a las observaciones la misma probabilidad de formar parte de la muestra. Bajo este esquema, la probabilidad (p) que tiene una observación de ser elegida dentro de la muestra se determina de la siguiente manera:

Las observaciones son elegidas en dos pasos: primero se les asigna aleatoriamente un número de identificación y luego se realiza la elección de las observaciones.31 Este método no utiliza el reemplazo de observaciones durante la elección. Es decir, una vez elegida la observación, ésta no forma parte en la probabilidad de elección de la observación siguiente.

V.7.2. MUESTREO ALEATORIO SISTEMÁTICO A este método se le conoce también como de arranque aleatorio y consiste en ir eligiendo el k-ésimo elemento de la población enlistada de la siguiente manera:

Es importante señalar que una vez obtenido k, se vuelve necesario elegir al azar una observación (m) entre 1 y N como el punto de partida para la selección de las demás observaciones. De esta manera se evita que, si k no es un número entero y deba redondearse para la ejecución de la elección sistemática, las observaciones al final de la lista poblacional también puedan ser elegidas para ser parte de la muestra. Si la lista poblacional no tiene ningún orden (por ejemplo, tomada de un listín telefónico en desorden alfabético) o bien el listado se realizó de manera aleatoria a propósito, la aplicación del muestreo sistemático es equivalente al muestreo aleatorio simple.

V.7.3. MUESTREO ALEATORIO ESTRATIFICADO El muestreo estratificado es necesario cuando al interior de una población (N)

se presentan observaciones que hipotética o teóricamente varían en su comportamiento por pertenecer a un subgrupo o estrato de la misma población; por ejemplo, la variación en el uso de la violencia por el género del delincuente, por su grupo de edad, etc. Nótese que no se considera un estrato como una población diferente sobre la cual haya que obtener muestras representativas de las mismas. El estrato es un grupo de interés en una misma población. La estratificación implica la inclusión de uno o varios criterios en el diseño muestral. Esto incrementa la eficiencia del diseño en el sentido de que incrementa la representatividad y la validez de la información proveniente de la muestra a través de la encuesta (Kish, 2004). La estratificación de la muestra ofrece una mayor precisión que el muestreo aleatorio simple (Lohr, 1999). Por precisión se entiende un estimador de valor estable a través de repeticiones (Groves, 2004). Hay varios métodos para estratificar una muestra. Entre los más utilizados están la estratificación proporcional y la asignación de Neyman (1937). El primer método consiste en distribuir la muestra (n) de acuerdo con el tamaño de cada estrato. El segundo consiste en distribuir la muestra (n) de acuerdo con la dispersión o varianza estimada de la variable dependiente del estudio en cada estrato. La estratificación proporcional se realiza de la siguiente manera:

Donde nh es la muestra para cada estrato, n el tamaño total de la muestra, Nh el número de observaciones en cada grupo o estrato bajo estudio y N el número total de observaciones. Veamos un ejemplo. Supongamos que se desea encuestar a una población de reclusos por el delito de robo para conocer su edad media. En este caso la variable dependiente del estudio es el delito de robo y la unidad muestral son los reclusos. El estudio no sigue un diseño experimental. Se desea tener una muestra que permita hacer estimados de la edad media con un nivel de confianza del 95% y un margen de error de +/- 1 año de edad. Se pretende realizar diferentes pruebas de hipótesis sobre las medias en dos estratos identificados dentro de esta población: reclusos por robo con violencia y sin

violencia. Es decir, hay dos estratos o subgrupos dentro de la población objetivo (véase el diagrama V.3). Se sabe que en el primer estrato hay 1 000 reclusos y en el segundo 2 000 reclusos; esto da una población (N) total de 3 000 reclusos. Y a partir de un censo de reclusos de años anteriores se sabe que la desviación estándar de la edad en esta población es de 8.3 años. DIAGRAMA V.3

Fuente: Elaboración propia.

Por lo tanto, tendríamos que el tamaño de muestra necesario para realizar el estudio sería de:

La estratificación proporcional sería la siguiente:32

De esta manera, se tendría que en el primer estrato se necesitaría aplicar un mínimo de 88 encuestas, ya que:

Correspondientemente, en el segundo estrato se necesitaría aplicar la siguiente cantidad de encuestas:

En consecuencia, tendríamos que:

Así pues, este sería el número mínimo de muestra en cada estrato que permitiría obtener un estimado de la media aritmética de la edad de la población en reclusión por este tipo de delito. Esto con base en los criterios o consideraciones estadísticas previamente definidas: que los parámetros de la población de la que provienen los dos estratos son los de una misma población o población penitenciaria general con una distribución normal (lo cual siempre es debatible, en especial cuando se trata de la variable edad) y que las varianzas por ende serían las mismas. Pasando a la asignación de Neyman, a este método de estratificación se le considera como óptimo ya que incluye en su cómputo la variación de cada estrato. Naturalmente, al igual que en el cálculo del tamaño de la muestra, es necesario tener un estimado previo o teórico de tal variación antes de aplicar la encuesta. La fórmula de asignación es la siguiente:

Veamos un ejemplo con los mismos criterios probabilísticos anteriores, pero ahora donde la desviación estándar de la edad en el primer estrato es significativamente diferente al de la población general, o por ejemplo de 2.5 años de edad y del segundo es igual al general de 5 años de edad.33 En estos casos:

De la misma manera:

Una vez conocidos los tamaños de muestra en cada estrato, se puede elegir

las observaciones de manera aleatoria simple o sistemática. Nótese que la asignación de Neyman daría los mismos resultados que una estratificación proporcional si las varianzas entre los estratos fueran iguales. Por último, nótese también que los dos tipos de estratificación presentados asumen que el costo de aplicar la encuesta es uniforme a través de los estratos.

V.7.4. MUESTREO POR CONGLOMERADOS Un conglomerado no debe confundirse con un estrato.34Ambos se asemejan en que son subgrupos de la población a estudiar. Pero la selección de las unidades muestrales es diferente en ambos métodos (Lohr, 1999) y esto puede llevar a resultados estadísticos sustancialmente diferentes en ambos casos. El muestreo por conglomerados consiste en elegir todas las unidades muestrales en un solo conglomerado o lugar. Por ejemplo, en vez de realizar un muestreo aleatorio simple de los reclusos por el delito de robo en las 21 cárceles de la Ciudad de México, el muestreo por conglomerados consistiría en encuestar a todos los reclusos por el mismo delito, pero en un menor número de cárceles. De esta forma, se reducen los costos del levantamiento de la encuesta. A cambio también se pierde precisión. Al encuestar a todas las unidades muestrales dentro del conglomerado, se corre el riesgo de repetir información y perder variabilidad (Lohr, 1999). Si bien el muestreo por estratificación ofrece una mayor precisión que el muestreo aleatorio simple, a su vez el muestreo aleatorio simple ofrece más precisión que el muestreo por conglomerados. En consecuencia, cada método de muestreo conlleva costos diferentes: mayor precisión conlleva mayor costo. Hay ocasiones en que el muestreo por conglomerados es la única solución viable en una investigación. Por ejemplo, cuando el muestreo implica levantar datos en áreas geográficas extensas y los costos de traslado son altos.

EN RESUMEN Las encuestas son un medio para obtener información en la investigación social tanto cuantitativa como cualitativa. El instrumento utilizado en las encuestas es el cuestionario, consistente en un conjunto de preguntas

planteadas a todos los encuestados. Sin embargo, las encuestas pueden presentar errores de muestreo y medición; cada uno tiene implicaciones distintas. El diseño muestral está dividido en marco muestral, tamaño de muestra y método de muestreo. El primer paso es definir la población y las unidades elegibles para poder determinar los otros componentes. El cálculo del tamaño de muestra nos permite saber cuál es el número mínimo de individuos que necesitamos encuestar y está sujeto, entre otras razones, al tipo de variable que se quiera medir. Finalmente, es necesario identificar el método de muestreo para elegir a los individuos de la muestra, el cual estará sujeto a la variación observable al interior de la población con la finalidad de que sean representados los diferentes grupos en caso de ser necesario.

EJERCICIOS DE PRÁCTICA

1.

A continuación se presentan tres preguntas. Analice las preguntas y sus opciones e indique cuáles son las modificaciones necesarias para poder incluirlas en un cuestionario.

a) La primera pregunta busca medir la percepción de los ciudadanos en cuanto a qué tan seguros se sienten en su colonia desde que hubo cambios en el consejo vecinal. ¿Qué tan seguro se siente al salir de su casa en la noche? 1) Bastante inseguro 2) Inseguro 3) Indiferente 4) Muy seguro 5) Bastante seguro b) La segunda pregunta busca medir el ingreso mensual promedio de los ciudadanos. Por favor indique cuál es la opción que se asemeja más a su ingreso mensual: 1) 0-2 499 2) 2 600-4 000 3) 4 000-6 200 4) 6 201-20 000 5) Más de 25 000 c) La tercera pregunta busca identificar la región de la localidad en la que las personas residen. ¿En qué zona de la ciudad vive usted? 1) Norte 2) Sur 3) Noroeste 4) Este 5) Sudeste

2. Suponga que quiere aplicar una encuesta de opinión a personas a partir de los 20 años en el estado de Quintana Roo para conocer su opinión acerca de los programas de seguridad en la entidad. a) Con un nivel de confianza de 95% (Z = 1.96) y un margen de error de +/– 0.5 puntos en tal escala del 1 al 6. Se asume que la opinión es muy variable y se asigna un valor a la desviación estándar de 4 puntos en la misma escala. Calcule el tamaño de la muestra sin conocer la población residente. b) En ese mismo sentido, se optó por realizar esa encuesta, pero solamente en el municipio de Isla Mujeres. La población residente es 9 933 habitantes. Todos los demás valores se mantienen constantes en relación con el ejemplo anterior. Calcule el tamaño de muestra incluyendo el tamaño de población. Fuente: Censo de Población y Vivienda 2010, INEGI.

3. a) Suponga que desea aplicar una encuesta con la finalidad de saber cuál es la edad de los internos de los Centros Federales de Readaptación Social. La población sentenciada es de 8 089. Se toman como supuestos un nivel de confianza de 95% (Z = 1.96) y un margen de error de +/– 1 año de edad. Se asume una desviación estándar de 8.5 años. Calcule el tamaño de muestra incluyendo el tamaño de población. b) Ahora, con todos los demás datos constantes, modifique el nivel de confianza por 99%. Calcule el tamaño de muestra incluyendo el tamaño de población. Fuente: Primera Encuesta realizada a Población Interna en Centros Federales de Readaptación Social, 2012.

c) Suponga que en un periódico desean saber cuál es la opinión de la población respecto de las acciones preventivas en escuelas primarias y secundarias en materia de seguridad pública en la Ciudad de México. La medición a utilizar es la calificación ciudadana en una escala de 0 a 10, donde 0 representa total desaprobación y 10 total aprobación. Se busca

obtener un estimado de tal calificación de los ciudadanos con un nivel de confianza de 95% (Z = 1.96) y un margen de error de +/– .5 puntos en tal escala. Asuma que la opinión de la población es sumamente variable y se asigna un valor a la desviación estándar de 5 puntos.

4. Calcule el tamaño de muestra según los siguientes supuestos: a) No conoce la población de la Ciudad de México. b) La población de la Ciudad de México es de 8 851 080 habitantes. c) Suponga que se desea hacer la encuesta sólo en las delegaciones Coyoacán (población = 620 416) y Benito Juárez (población = 385 439). En el caso de la delegación Coyoacán considere una desviación estándar de 6 puntos y para la delegación Benito Juárez, 4 puntos. Ciudad de México

Coyoacán

Benito Juárez

Caso 1

Caso 2

Caso 3

Caso 4

Nivel de confianza

95%

95%

95%

95%

Nivel de precisión

0.5

0.5

0.5

0.5

5

5

6

4

N/A

8 851 080

620 416

385 439

Variabilidad = s Población (N)

Fuente: Censo de Población y Vivienda 2010, INEGI.

5. Suponga que los miembros del Poder Legislativo de Guanajuato desean saber, mediante encuestas de opinión, si la población aprueba o no un proyecto legislativo relacionado con la gestación subrogada. Con un nivel de confianza de 95% (Zα = 1.96) y un margen de error de +/– .3, dado que no conocemos la varianza, asumiremos la máxima (p = 0.5). Calcule los tamaños de muestra necesarios para las encuestas según los siguientes supuestos: a) Desconoce la población. b) La población de Guanajuato es 5 486 372 habitantes.

c) Suponga que por previos proyectos se estima una tasa de respuesta del 80% d) Reajuste la tasa de respuesta entre 75% y 85%. e) Reajuste y calcule un error de +/– 0.4. f) Reajuste y calcule con una varianza de 25% (p = .25) dado a la influencia religiosa. g) Modifique el nivel de confianza en 99%. Caso 1

Caso 2

Caso 3

Caso 4

Caso 5

Caso 6

Caso 7

Nivel de confianza

95%

95%

95%

95%

95%

95%

99%

Nivel de precisión

3%

3%

3%

3%

4%

4%

4%

p

50%

50%

50%

50%

50%

20%

20%

q

50%

50%

50%

50%

50%

80%

80%

Población (N)

nd

5 486 372

5 486 372

5 486 372

5 486 372

5 486 372

5 486 372

Tasa de respuesta

nd

nd

80%

75%

75%

75%

75%

nd

nd

nd

85%

85%

85%

85%

Variabilidad

Fuente: Censo de Población y Vivienda 2010, INEGI.

6. Suponga que busca saber la opinión de los internos respecto del personal de los Centros Federales de Readaptación Social. El 18 % de los internos reportan no ser reincidentes y es probable que su opinión dependa de esta situación. Para probar esta hipótesis, se reporta que el 90% de los internos “primerizos” tendrán una mala opinión y que 80% de los reincidentes también tendrán una mala opinión. Se fija un nivel de confianza de 95% y un poder de prueba de 80%. Calcule el tamaño de muestra necesario. Nivel de confianza

95% (Zα =1.96)

Poder de la prueba

80% (Zβ = 0.84)

Reincidentes

18%

No reincidentes

82%

Pa (No reincidentes)

90%

Pb (Reincidentes)

80%

Fuente: Primera Encuesta realizada a Población Interna en Centros Federales de Readaptación Social, 2012.

7. Suponga que desea saber cuál es la opinión de los internos de los Centros Federales de Readaptación Social sobre las actividades deportivas dentro de éstos. El 84% de los internos participan en las actividades deportivas que ofrecen los centros mientras que el 16% no lo hace. Existe la posibilidad de que su opinión esté relacionada con su actividad o inactividad deportivas. Para probar esta hipótesis, se reporta que 90% de los que realizan estas actividades poseen una opinión favorable respecto de éstas y que 75% de los “inactivos” también tienen una opinión positiva. Se fija un nivel de confianza de 95% y un poder de prueba de 90%. Calcule el tamaño de muestra necesario. Nivel de confianza

95% (Zα = 1.96)

Poder de la prueba

90% (Zβ = 1.28)

Realizan actividades deportivas

84%

No realizan actividades deportivas

16%

Pa (Realizan)

90%

Pb (No realizan)

75%

Fuente: Primera Encuesta realizada a Población Interna en Centros Federales de Readaptación Social, 2012.

8.

Se desea comparar la media aritmética de la percepción sobre el desempeño de los Ministerios Públicos en los municipios de Monclova y Coatzacoalcos. Calcule el tamaño de muestra que se requiere para aplicar encuestas en los hogares de cada municipio con los siguientes supuestos:

• Nivel de confianza de 95% (Zα = 1.96). • Un poder de prueba de 95% (Zβ = 1.64). • La diferencia entre las varianzas no supera el 25%.

9. Se desea comparar la media aritmética de la población económicamente activa en los municipios de Cuautla y Huimanguillo. Calcule el tamaño de muestra que se requiere para aplicar encuestas de vivienda en cada municipio con los siguientes supuestos:

• Nivel de confianza de 99% (Zα = 2.58). • Un poder de prueba de 80% (Zβ = 0.84). • La diferencia entre las varianzas no supera el 30%.

10.

Se desea comparar la media aritmética del número de hijos de la población sentenciada en los Centros de Readaptación Social de Morelos y del Altiplano. Calcule el tamaño de muestra que se requiere para aplicar encuestas al interior de cada centro con los siguientes supuestos:

• Nivel de confianza de 95% (Zα = 1.96). • Un poder de prueba de 90% (Zβ = 1.28). • La diferencia entre las varianzas no supera el 35%.

RESPUESTAS A LOS EJERCICIOS

1. a) Los criterios para cada rango no son iguales, en vez de “muy seguro”, sería mejor opción elegir “seguro” para que vaya acorde con el “inseguro”. b) No existe una continuidad entre los rangos, por ejemplo, del 1 al 2 existen $1 001 que no se toman en cuenta; del 2 al 3 se empatan $4 000; y del 4 al 5 no se contabilizan $5 000. c) Las zonas no son congruentes pues falta una zona “oriente” y existen algunas subdivisiones incompletas.

2. a) n = 245.86 = 246 b) nc = 239.92 = 240

3. a) nc = 268.35 = 268

b) nc = 453.94 = 454

4. Ciudad de México

Coyoacán

Benito Juárez

Caso 1

Caso 2

Caso 3

Caso 4

Nivel de confianza

95%

95%

95%

95%

Nivel de precisión

0.5

0.5

0.5

0.5

5

5

6

4

N/A

8 851 080

620 416

385 439

384

384

553

246

Variabilidad =s Población (N) Fórmula

n

5. Caso 1

Caso 2

Caso 3

Caso 4

Caso 5

Caso 6

Caso 7

Nivel de confianza

95%

95%

95%

95%

95%

95%

99%

Nivel de precisión

3%

3%

3%

3%

4%

4%

4%

p

50%

50%

50%

50%

50%

25%

20%

q

Variabilidad 50%

50%

50%

50%

50%

75%

80%

Población (N)

nd

5 486 372

5 486 372

5 486 372

5 48 372

5 486 372

5 486 372

Tasa de respuesta

nd

nd

80%

75%

75%

75%

75%

nd

nd

nd

85%

85%

85%

85%

1 067

1 067

1 334

1 339

753

565

979

Fórmula

n

6. Nivel de confianza

95% (Zα = 1.96)

Poder de la prueba

80% (Zβ = 0.84)

Reincidentes

18%

No reincidentes

82%

Pa (No reincidentes)

90%

Pb (Reincidentes)

80%

Fórmula

n

196

7. Nivel de confianza

95% (Zα = 1.96)

Poder de la prueba

90% (Zβ = 1.28)

Realizan actividades deportivas

84%

No realizan actividades deportivas

16%

Pa (Realizan)

90%

Pb (No realizan)

75%

Fórmula

n

8.

9. 10.

129

SITIOS DE INTERÉS • United States Department of Labor. Bureau of Labor Statistics (http://stats.bls.gov) • Robert Niles (http://nilesonline.com/stats/) • Annenberg Learner. Teacher resources and professional development across the curriculum (http://www.learner.org/exhibits/statistics/activity0/frontpoll.phtml) • Censos y Conteos de Población y Vivienda, INEGI (http://www.inegi.org.mx/est/contenidos/Proyectos/ccpv/default.aspx) • Instituto Nacional de Estadísticas y Censos. República de Argentina (http://www.indec.mecon.ar/)

1

En otras palabras, el encuestador no participa en la formulación de las respuestas mientras que el entrevistador sí puede hacerlo. 2

Nótese que tanto la investigación empírica cuantitativa como cualitativa puede hacer uso de cuestionarios, si bien, en el segundo caso normalmente se hace uso de preguntas con respuestas abiertas, las cuales se interpretan y analizan mediante análisis de discurso o contenido, entre otros. 3

Una encuesta puede contener varios cuestionarios, en ocasiones llamadas “módulos”, relacionadas con los conceptos que se tratan de medir en cada uno. 4

Las entrevistas ofrecen una variedad mayor e inesperada de información en forma de preguntas y respuestas por parte del entrevistado; en ocasiones, la falta de estructura puede brindar aún más flexibilidad en las preguntas y profundidad en las respuestas. 5

El margen de error que se reporta en los resultados de una encuesta es la definición matemática del error muestral. 6

El error aleatorio no afecta a la media aritmética pero aumenta la variabilidad alrededor de la misma. Por esta razón al error aleatorio también se le denomina “ruido por fluctuaciones aleatorias del valor medio”. 7

Por ejemplo durante un examen.

8

Por ejemplo la prueba Z, t de Student o el análisis de varianza.

9

Se han definido más tipos de errores en el método de Neyman-Pearson para la prueba estadística de hipótesis. En 1947, David, colega de Neyman y Pearson, humorísticamente presentó el error del tipo III, el cual consiste en elegir una técnica estadística para demostrar la significancia de una diferencia (Dodge, 2003). Un error semejante fue presentado en 1948 por Mosteller, éste consistía en haber rechazado correctamente la hipótesis nula pero por el motivo equivocado. Kaiser en 1966 presentó otra variación al error del tipo III concluir, de manera acertada, que las medias de dos grupos son significativamente diferentes pero equivocadamente en cuanto a la dirección de la diferencia. 10

Véase la sección IX.2.1.

11

El error sistemático puede afectar de manera diferente las mediciones contenidas en la encuesta; de esta forma se puede triangular la información. 12

La autoría de los artículos científicos donde presentaron el concepto, en 1896, es de ambos.

13

Cita literal de Von Mayr en 1895 según Kruskal y Mosteller (1980).

14

Un marco muestral implica tener un listado de las unidades muestrales, por ejemplo, un directorio telefónico o el padrón de electores. 15

Naturalmente no hay garantía de que el error estándar esté bien estimado.

16

Por ejemplo en la presencia de poblaciones infinitas.

17

Nuevamente asumiendo que el estimado (s) que utilizamos de la varianza de la población (σ ) previo a la conducción de la encuesta es correcto. 18

Estamos asumiendo que la opinión está perfectamente dividida en p = 50% y 1 – p = 50%. Estos valores nos dan la máxima variabilidad posible. 19

20

Véase el Journal of Experimental Criminology.

Otras formulaciones pueden encontrarse en Liu (2005). Esta fórmula considera un error del tipo II máximo del 20% o potencia de la prueba del 80%.

21

Siempre y cuando la varianza sea la misma en las dos poblaciones que se halla reflejada en las dos muestras, la de intervención y la de control. 22

Esta fórmula no es diferente a la general de Lehr (1992).

23

El poder o potencia de una prueba estadística es la probabilidad de rechazar una hipótesis nula, dado que la hipótesis alternativa es la verdadera. Así, si β es la probabilidad de cometer un error tipo II, la potencia de una prueba estará dada por 1 – β. En este ejemplo, 1 – β = 0.8 = 80%. 24

El cálculo es para ambas poblaciones y se requeriría que las muestras fueran del mismo tamaño porque el estimador de la varianza fue asumido como idéntico en el cálculo. 25

En inglés, odds ratio.

26

Gabinete de Comunicación Estratégica, 2009.

27

A quien por cierto le debemos el cálculo de las conocidas tablas de coeficientes de correlación de 1938, las cuales elaboró cuando era asistente de Pearson en el University College of London. 28

Cita en su obituario por Utts (2003).

29

Si X~N(0,1), la probabilidad de que una observación se ubique por encima o debajo de una desviación estándar a la media es igual a 31.7%. 30

En la primera edición del libro en 2002 el autor utiliza una notación diferente; no utiliza lambdas. Posteriormente sí lo hace. 31

Por ejemplo a partir de listas de números aleatorios.

32

Nótese que una estratificación de la muestra no es equivalente a la reasignación de tamaños de muestra proveniente de dos poblaciones diferentes; la estratificación se realiza al interior de cada población, en este caso N = reclusos por el delito de robo. Invariablemente se incluye el poder de la prueba o error beta en el cálculo del tamaño de la muestra. 33

Se siguen asumiendo distribuciones normales.

34

Aunque se hace en algunos casos.

Aleatorio. Algo dirigido por el azar y no completamente determinado por otros factores. También se le conoce como algo o aquello no-determinístico (Everitt y Skrondal, 2010). Encuesta. Herramienta cuantitativa que provee información sobre un conjunto de unidades (ej. personas), normalmente en una muestra, para efectos de conocer tal información de la población original. Población. Cualquier conjunto, finito o infinito, de unidades de estudio. Estratificación. La división de una población en grupos llamados estratos, para efectos de extraer una muestra que asegure la representatividad de subgrupos en una población. Poder de prueba. La capacidad probabilística en una prueba estadística de rechazar la hipótesis nula cuando es falsa. Significancia estadística. El nivel de probabilidad acordado o predefinido con el que se rechaza la hipótesis nula.

Capítulo VI. Prueba estadística de hipótesis

Objetivos de aprendizaje • • • • • • • • •

Entender el concepto de una prueba estadística de hipótesis y cuál es su función. Definir y distinguir entre la hipótesis nula y la hipótesis alternativa. Comprender la diferencia entre la hipótesis unidireccional y bidireccional, así como las implicaciones de cada una. Identificar cuándo se presentan el error tipo I y el error tipo II y diferenciar cada uno. Conocer las causas comunes para cometer algún error tipo I y tipo II. Comprender la importancia de la elección del nivel de significancia en las pruebas y las implicaciones de éstas. Conocer los usos principales de la estadística inferencial. Distinguir entre los conceptos “significancia estadística” y “poder estadístico”. Aprender un método de decisión considerando el valor crítico de la



prueba. Definir y comprender en qué consiste la región de rechazo.

Una observación por sí misma no dice mucho. Su interpretación es indispensable y debe ir dirigida a responder una pregunta de investigación concreta. En este contexto, la prueba estadística de hipótesis es una manera simple y directa de interpretar información respondiendo preguntas de investigación. Como ya vimos, la utilidad principal de las hipótesis de investigación estriba en que simplifican el trabajo de investigación y lo guían desde el inicio. Es decir, la investigación científica responde preguntas probando hipótesis. En la investigación cuantitativa, tanto el análisis como la interpretación de los datos se realizan a partir de la prueba de hipótesis.

VI.1. ¿QUÉ ES Y EN QUÉ CONSISTE LA PRUEBA ESTADÍSTICA DE HIPÓTESIS? El método utilizado para probar una hipótesis de investigación sobre la base de uno o más estimados muestrales recibe el nombre de prueba estadística de hipótesis. A este método también se le conoce como prueba de significancia (Fisher, 1925, 1926). Este método busca, en esencia, probar si las mediciones provenientes de una muestra están en armonía con la hipótesis del investigador (Fisher, 1925). Cualquier diferencia observada entre el verdadero valor de un parámetro poblacional y un estadístico muestral empleado para estimarlo se sujeta a una probabilidad. Un parámetro poblacional es el valor real de una observación real y un estadístico muestral es la estimación de tal valor a partir de una muestra de la población. En este sentido, la premisa probabilística consiste en que tales observaciones muestrales adolecen del error aleatorio, por lo que es necesario saber con qué grado de certidumbre vamos a concluir algo a partir de esta información. El error aleatorio es la diferencia entre ambos valores que se produce a raíz de analizar algo a partir de una muestra versus analizarlo a partir de su población entera. Visto así, el método pretende resolver una incógnita de capacidades para inferir un resultado, es decir (Stigler, 1986): saber con qué grado de certidumbre la diferencia observada entre un estadístico y un parámetro puede deberse a una fluctuación aleatoria.

El método inicia con la definición de la hipótesis nula (Ho). La hipótesis nula es aquella que se busca falsear o rechazar en la prueba. Normalmente, la hipótesis nula indica la ausencia de una relación, una diferencia, o un efecto donde el investigador supone que lo hay. Así, Ho es la negación de tal diferencia, relación o efecto hipotético. Es una posición conservadora, en tanto que debe buscarse evidencia de que sí hay tal diferencia o relación. Siendo que el que afirma tiene la carga de la prueba, en ausencia de evidencia, la hipótesis nula es la que prevalece. Este método de enfocarse en rechazar una hipótesis de no efecto se llama, precisamente, “método de la prueba de hipótesis nula” (PHN). Históricamente, hay dos modelos de PHN: el modelo de Fisher (1925) y el modelo de NeymanPearson (1933). El modelo de Fisher consiste en la definición de una sola hipótesis, la hipótesis nula (Ho) sobre una no diferencia, relación o efecto y la estimación probabilística de un resultado muestral en relación con tal hipótesis. El modelo Fisheriano no contempla la existencia de una hipótesis alternativa (Kline, 2004). En términos de probabilidades, los dos niveles de significancia (α) más comúnmente utilizados —siendo la significancia la probabilidad de rechazar Ho y equivocarse— los definió Fisher por convención en 1925, y son el 5% y 1% (α < .05; α < .01).1 De esta forma, un resultado con una probabilidad de ocurrir menor al 5% o 1% se considera como estadísticamente significativo. El modelo de Neyman-Pearson es en esencia una extensión del modelo de Fisher, aunque con cambios importantes (Kline, 2004). También es el modelo dominante en la prueba estadística de hipótesis. Estos autores propusieron los siguientes cambios: la definición de una hipótesis alternativa a la nula, una distinción entre pruebas de una o dos colas, y la definición y consideración estadística de los errores tipo I y tipo II en los resultados de las pruebas (conceptos que se presentarán en los próximos párrafos). Este modelo se empezó a popularizar en los años cuarenta y se ha convertido en el modelo tradicional desde la década de los sesenta (Kline, 2004). El modelo Neyman-Pearson consiste en rechazar o no rechazar Ho a partir de los datos provenientes de una muestra. Como se dijo, la hipótesis nula normalmente refleja la posición de una ausencia de evidencia al respecto de una diferencia, relación o efecto entre dos eventos. De hecho, el término nulo

significa que no tiene consecuencias y que si se detecta alguna diferencia, es por razón del azar y dentro del error muestral. En el modelo de Neyman-Pearson, cuando probamos si una media muestral M proviene de una población con media μ se formularía de la siguiente manera:

donde M es la media aritmética de la muestra y μ es la media poblacional. En el caso de una hipótesis sobre diferencia de proporciones, la formulación seguiría la misma lógica:

donde p es la proporción de la muestra y π es la proporción de la población En el caso de una prueba correlacional, donde la hipótesis nula es que no hay una correlación entre dos variables, se formularía de la siguiente manera:

donde r es un coeficiente de correlación entre dos variables obtenido a partir de información muestral. Es decir, en este caso si el coeficiente de correlación es igual a cero, esto indicaría que no existe una relación entre ambas variables. Si el coeficiente fuera diferente de cero podríamos entonces rechazar la hipótesis nula de que no hay una correlación a favor de la hipótesis alternativa de que sí hay una correlación entre ambas variables. Naturalmente, lo anterior se somete a una prueba de significancia estadística. Puede ser que el coeficiente sea diferente de cero por simple azar; a razón del error aleatorio. Además de la distinción anterior entre hipótesis nula e hipótesis alternativa, hay otros dos tipos de hipótesis: las hipótesis unidireccionales y bidireccionales, también denominadas “hipótesis de una o dos colas”, respectivamente. Esta definición deriva del tipo de pregunta de investigación

que se haya formulado y tiene implicaciones en la forma en que vemos las probabilidades de cada una. Una prueba de hipótesis unidireccional es aquella que, como dice su nombre, contiene una conclusión en una sola dirección en relación a la diferencia o asociación estadística hipotetizada. Por ejemplo, cuando se especula que el ingreso medio de un lugar A es mayor que el ingreso medio en un lugar B; solamente mayor y no nada más diferente. En este caso la formulación sería la siguiente:

Con una prueba unidireccional, el resultado de la prueba será estadísticamente significativa sí y solo si sucede en la dirección predicha. Una prueba bidireccional es aquella que permite concluir en cualquier dirección, superior o inferior, pero no igual. Siguiendo el ejemplo anterior, la hipótesis de investigación sería que el ingreso medio de un lugar A es diferente al ingreso medio en un lugar B, y la hipótesis nula sería su negación. En este caso:

Con una prueba bidireccional, el resultado de la prueba será estadísticamente significativa en el caso de que suceda una diferencia, ya sea que A tenga un ingreso mayor o menor a B; basta que sean probabilísticamente diferentes. De esta forma, podemos ver que una hipótesis unidireccional es más precisa que una bidireccional. En consecuencia, las probabilidades son diferentes en cada formulación. La probabilidad de rechazar una hipótesis nula en un escenario unidireccional es menor que la probabilidad de rechazar una hipótesis bidireccional.2 Gracias a lo anterior vemos entonces que los errores que pueden cometerse en la prueba de hipótesis son de dos tipos (véase el cuadro VI.1): • Error tipo I (α): rechazar Ho cuando es verdadera • Error tipo II (β): no rechazar Ho cuando es falsa

CUADRO VI.1

Dicho de otra manera:

Al error tipo I se le conoce como error alfa (α) o falso positivo, y al error tipo II se le conoce como error beta (β) o falso negativo. De forma que, del complemento del error, tenemos que: • •

1 - α: es correcto no rechazar Ho 1 - β: es correcto rechazar Ho

Para finalizar, es importante saber que el número de causas por las que podemos cometer algún error tipo I o II es muy amplio, pero entre las más comunes podemos enumerar las siguientes (Good y Hardin, 2006): • • • •

Tomar muestras de una población diferente. Tomar muestras no aleatorias ni representativas. Utilizar variables equivocadas frente al concepto bajo estudio. Utilizar técnicas estadísticas no apropiadas al problema.

Por lo que es indispensable diseñar exhaustivamente la investigación previa a realizar y, de ser posible, hacer pruebas piloto. Es indispensable definir las hipótesis, el tamaño de la muestra, el nivel de confianza, el poder estadístico y las técnicas de prueba de hipótesis que serán utilizadas.

VI.2. RESULTADO FALSO POSITIVO: EL ERROR ALFA Y LA SIGNIFICANCIA ESTADÍSTICA

Partamos de la idea de que la estadística inferencial tiene tres usos principales (Cramér, 1994): • • •

Estimar si una muestra es representativa de una población. Estimar si una muestra difiere de otra. Estimar la probabilidad de que dos eventos estén relacionados por azar.

Normalmente, en las ciencias sociales, la probabilidad (p) que se asigna a cualquiera de los tres usos y conclusiones previamente mencionadas es del 5% (p < .05). Es decir, cualquier resultado obtenido a partir de una prueba estadística que tiene una probabilidad de suceder menor al 5% del total de los posibles sucesos se considera como un resultado estadísticamente significativo. Por ejemplo, si de una población con el mismo número de hombres y mujeres eligiéramos al azar seis personas y las seis fueran del mismo sexo, ¿sería esta muestra representativa de la población de la cual se extrajo? Al plantear de otra manera la pregunta, se tiene: ¿sería éste un resultado estadísticamente significativo? Veamos:

Ya que 0.016 < 0.05, podemos concluir que esta muestra aleatoria de personas no es representativa de la población. Esto lo podemos concluir porque lo que acabamos de calcular es la probabilidad de seleccionar aleatoriamente a seis personas del mismo sexo en términos porcentuales y ésta es del 1.60%. Dado que es un resultado muy poco probable, se le considera un resultado estadísticamente significativo. En este caso la prueba de hipótesis fue formulada de la siguiente manera:

Ya que la probabilidad de obtener tal resultado es menor al límite mínimo previsto de significancia estadística (p < .05), rechazamos Ho y concluimos que esta muestra de per​sonas no es estadísticamente representativa del universo. Sin embargo, si hubiéramos decidido probar esta hipótesis con un nivel de significancia de 1%, es decir, p < .01, entonces:

Esto sucede porque 0.016 > 0.01. En este caso, concluiríamos que esta muestra sí es representativa de la población. La diferencia entre p y π puede deberse al azar, es decir, puede haber sucedido de forma coincidental. De esta manera, podemos observar que la probabilidad de cometer un error del tipo I o alfa depende del nivel de significancia que asignemos previo a la realización de la prueba. Nótese que un resultado estadísticamente significativo, sea α del .05 o .01, no demuestra ni que la hipótesis nula sea verdadera ni que el valor resultante de la prueba se encuentre dentro del intervalo de confianza calculado. Un intervalo de confianza es un subconjunto probable de los valores posibles en la prueba. Es decir, nunca sabremos con total certeza si el parámetro estimado a partir de la muestra cae dentro del intervalo confianza derivado de la misma muestra (Neyman, 1961). Por ejemplo, en términos de inferencia, es un error concluir que la probabilidad de que el parámetro caiga dentro del intervalo de confianza establecido a partir de la muestra sea de 95% si α < .05; o bien de 99% si α < .01. Lo que sí se puede concluir, es que si extraemos un número suficiente de muestras y calculamos un número suficiente de intervalos de confianza tal y como si fueran muestras aleatorias, podríamos esperar que el verdadero parámetro poblacional se encuentre dentro de estos intervalos el 99% de las veces que realicemos la misma prueba (para α <0.01). De manera similar, lo que el nivel de significancia nos indica es la probabilidad de obtener un resultado al azar a partir de una muestra; esto, naturalmente, en el caso de una muestra aleatoria y representativa donde todos los elementos

tienen la misma probabilidad de ocurrencia. En este caso, si la probabilidad de tal ocurrencia es baja, por ejemplo menor del 5%, lo consideramos como estadísticamente significativo. Y si la probabilidad es alta, por ejemplo, mayor del 5%, lo consideramos como estadísticamente insignificante. Desde luego, un resultado no estadísticamente significativo no implica que sea insignificante para efectos de una investigación. Por ejemplo, un resultado que no es estadísticamente significativo, es decir, que puede suceder o ser observado más de 5% de las ocasiones, puede representar un significado importante y práctico. La significancia estadística tampoco es indicativa de la magnitud de la diferencia o la fuerza de la relación hipotetizada. Sólo nos habla de la probabilidad de obtener ese resultado. Nótese también que no es ético modificar el nivel de significancia una vez ya definido, ni utilizar diferentes niveles de significancia a través del estudio con el fin de rechazar o no la hipótesis nula en unos casos sí y en otros no. La significancia debe ser definida al inicio del estudio y mantenida a través de todas las pruebas. En resumen: la significancia estadística se entiende como la probabilidad de rechazar equivocadamente la hipótesis nula. Este es el llamado error alfa o error del tipo I. Aquí el error estriba en concluir a partir de una muestra que sí hay una diferencia, una relación, un efecto cuando en realidad no lo hay. Este tipo de error también se denomina “falso positivo” y lleva a concluir algo que no es. Sobre lo anterior, e idealmente, para la prueba de hipótesis nula se busca obtener resultados altamente significativos. La lógica es buscar la menor probabilidad de cometer un error tipo I; reducir el número de falsos positivos al mínimo. La solución consiste en elevar el nivel de significancia estadística de la prueba. En consecuencia, como vimos en el ejemplo anterior, si fijamos el nivel de significancia o error alfa de una prueba de hipótesis en 1% (α = .01), esto significa que si:

Si el investigador fija como probabilidad máxima de equivocarse en rechazar Ho en 1%, entonces cualquier resultado con una probabilidad de ocurrir menor de p < .01 le indicaría que puede rechazar la hipótesis nula en favor de

la hipótesis alternativa; aquí estaría considerando una probabilidad máxima de equivocarse en rechazar Ho de una de cada cien veces que se repitiera la misma prueba en las mismas condiciones. La significancia estadística puede verse entonces como el nivel de confianza de la prueba medido en relación al 100% de certeza. Por ejemplo, si el nivel de confianza de una prueba es de 95%, la significancia estadística o probabilidad de rechazar Ho y equivocarnos no rebasará el 5% de las veces que repitamos la prueba en las mismas condiciones. De forma análoga, si fijamos el nivel de confianza de una prueba en un 99%, la significancia estadística o probabilidad de rechazar Ho y equivocarnos no rebasará el 1%. El investigador define con qué nivel de significancia desea probar una hipótesis (véase el cuadro VI.2). Naturalmente, a mayor nivel de confianza deseado, menor es la probabilidad de cometer un error alfa y rechazar Ho cuando era verdadera, pero también se eleva la probabilidad de cometer un error tipo II o beta. CUADRO VI.2

Antes de pasar a explicar el error beta en la siguiente sección, nótese que se pueden cometer tantos errores en las pruebas de hipótesis, o pruebas de significancia como las llamaba Fisher (1925), como pruebas se realicen. Por ejemplo, la tasa de error alfa de las pruebas realizadas sobre una sola muestra aleatoria puede cuantificarse de la siguiente manera (Kline, 2004):

donde t es el número de pruebas realizadas. Nótese de nuevo que 1 – α es el nivel de confianza, es decir, la probabilidad de no cometer un error tipo I; su exponente es el número de repeticiones de la prueba. Por supuesto no puede saberse cuántos errores alfa se han cometido en la realidad, pero sí se puede saber la probabilidad de cometer al menos un error de este tipo en una serie de pruebas. Veamos un ejemplo. Supongamos que se realizan 15 pruebas con un nivel de significancia estadística de .05, es decir α < .05. La tasa de errores alfa en esa serie de pruebas sería la siguiente: Sabemos entonces que la probabilidad de cometer al menos un error tipo I en esta serie de 15 pruebas es de 54%. Dicho de otra manera, en 15 pruebas hay una probabilidad de 54% de rechazar equivocadamente, en al menos una ocasión, una hipótesis nula en favor de una hipótesis alternativa. Sólo hay tres maneras de reducir el error alfa o el número de falsos positivos: aumentar el tamaño de la muestra, reducir el número de pruebas o reducir el nivel de alfa; en este último caso, por ejemplo, se tendría que pasar de un α < 0.05 a un α < 0.01. El problema que conlleva este incremento en la significancia de las pruebas para reducir el error tipo I es que aumentamos inversamente la probabilidad de cometer un error tipo II. Es decir, al reducir de forma mecánica la probabilidad de cometer un falso positivo, también aumentamos la probabilidad de cometer un falso negativo. Por lo tanto, la mejor solución estadística es incrementar el tamaño de la muestra, aunque hacer esto no siempre es viable.

VI.3. RESULTADO FALSO NEGATIVO: EL ERROR BETA Y EL PODER ESTADÍSTICO

El error tipo II o error beta consiste en no rechazar Ho cuando debimos hacerlo porque Ho es falsa. Dicho de otra manera, un error beta se comete al concluir que no hay una diferencia, relación o efecto cuando en realidad sí lo hay. Esto es un falso negativo.

El poder estadístico de una prueba es un estimado de la probabilidad de no incurrir en un error beta. Si el error alfa nos permite estimar la probabilidad de obtener un resultado sobre una diferencia, relación o efecto, el error beta nos permite considerar la magnitud de la diferencia, la relación o el efecto. De esta forma, el poder estadístico de una prueba se define como:

Cuando se minimiza estadísticamente la probabilidad de cometer un error beta, se aumenta el poder estadístico de la prueba de hipótesis (Dodge, 2008). En otras palabras, el poder estadístico es una medida de la capacidad de la misma prueba.3 A esto también se le denomina “significancia clínica” (Campbell, Julious y Altman,1995). Por ejemplo, si fijáramos la probabilidad de cometer un error beta en 20%, el poder de la prueba sería de 80%. Esto implicaría que, si realizáramos la misma prueba una y otra vez, en un 20% de las ocasiones, como máximo, estaríamos cometiendo un error tipo II o beta. A diferencia de la significancia estadística, el poder estadístico no puede ser controlado de forma directa (Keppel y Zedeck, 1998). El error alfa se intenta controlar a través de la definición de un nivel de significancia estadística previo a la realización de la prueba. Sin embargo, el error beta sólo puede controlarse de forma indirecta. La forma más común de hacerlo es incrementando el tamaño de la muestra. De esta forma el error beta es incluido en el cálculo del tamaño de la muestra, particularmente en la investigación clínica.4 Para explicar esto, primero veamos por pasos cómo se comete un error beta. Para probar una hipótesis de una diferencia de medias aritméticas entre dos grupos, por ejemplo, los grupos 1 y 2, hemos seguido el siguiente procedimiento lógico basado en la prueba Z, detallada en el capítulo VIII: 1. Elegir y encuestar una muestra representativa de una población. 2. Obtener estimadores puntuales (estadísticos) de dos estratos en una población, en este caso M1 y M2. 3. Realizar, por ejemplo, una prueba Z y obtener un estadístico de la prueba. 4. Con base en ese estadístico Z, rechazar o no rechazar la siguiente hipótesis estadística:

5. Que es lo mismo que decir que las medias provienen de la misma población o bien que (Kline, 2004):

6. Lo anterior evidencia que hemos decidido, por convención, que el error alfa (α) o tipo I del estudio sea:

7. Donde los niveles convencionales del error alfa han sido:

8. Con base en el valor estadístico resultante de la prueba, hemos obtenido una probabilidad (p). Y hemos decidido no rechazar Ho si:

9. Que es lo mismo que decir que no rechazaríamos Ho porque: 10. Sin embargo, hasta el momento no sabemos si efectivamente la probabilidad (p) de Z es igual a cero, es decir, no sabemos si: 11. Lo único que podemos concluir de acuerdo al procedimiento establecido es que: La limitación central en este procedimiento es que sólo se enfoca en cuantificar la probabilidad de cometer un solo error, el error tipo I o alfa. Este es el procedimiento para la prueba de hipótesis o pruebas de significancia según la formulación original de Fisher (1925). Pero existe un escenario opuesto: la probabilidad de cometer un error tipo II en el mismo procedimiento. Como se mencionó anteriormente, la forma preferible de reducir ambos

errores (tipo I y II), es aumentando el tamaño de la muestra. Por ejemplo, si de una población con el mismo número de hombres y de mujeres, ahora eligiéramos en vez de seis personas, 10, la probabilidad de extraer por azar a 10 personas del mismo sexo sería:

Ya que 0.001 < 0.01 entonces podemos concluir que esta muestra aleatoria no es representativa de la población, puesto que éste es un resultado muy poco probable (del 0.1%) cuando sabemos que tal población tiene el mismo número de hombres que de mujeres. Porque es un resultado muy poco probable, es que se le considera un resultado estadísticamente significativo; el resultado nos sugería rechazar Ho a favor de Ha. La solución en este caso consistió en aumentar el tamaño de la muestra, lo cual redujo la probabilidad de cometer tanto un error tipo I como un error tipo II. La idea de incluir ambos tipos de error en el cálculo del tamaño de la muestra procede de Neyman y Pearson (1933), quienes propusieron obtener muestras de dos poblaciones, formular una hipótesis de efecto o diferencia esperada y definir las regiones de aceptación tanto de la hipótesis nula como de la alternativa. Este procedimiento se detalla en el capítulo V. Se adelanta que, previo a realizar tales pruebas de poder, debe incluirse el poder estadístico de la prueba en el cálculo del tamaño de la muestra. No es metodológicamente correcto realizar pruebas de poder estadístico después del muestreo (levantada la encuesta), ya que inflan artificialmente el poder de la prueba (Zumbo y Hubley, 1998). En síntesis, la prueba de significancia estadística fisheriana considera solamente el error alfa y deja de lado un escenario posible que tiene una probabilidad de ocurrencia independiente al anterior. El análisis del error beta, o poder estadístico, es notablemente importante porque ofrece un estimado de la probabilidad de rechazar Ho cuando es falsa (Grissom y Kim, 2005). Una prueba tiene poder estadístico si permite rechazar Ho cuando debe hacerlo (Murphy y Myors, 2004). El error beta puede ser considerado en el cálculo del tamaño mínimo necesario de la muestra para prevenir lo anterior. El poder estadístico requiere asumir la posible existencia de dos poblaciones diferentes bajo análisis. En este caso se necesitará calcular el tamaño de dos muestras representativas de cada población en estudio

(Murphy y Myors, 2004), lo que se llama “diseño de dos muestras”.

VI.4. EL VALOR CRÍTICO Y LA REGIÓN DE RECHAZO Para decidir si rechazar o no la hipótesis nula, se requiere establecer un valor de probabilidad crítico fijo o nivel de significancia estadística para el valor resultante de la prueba. El valor crítico de una prueba es arbitrario en el sentido de que es elegido por el analista. En la práctica, cualquier resultado con una probabilidad de ocurrencia inferior al valor crítico establecido para la prueba (por ejemplo, 5% o p < .05), nos lleva a considerarlo estadísticamente significativo y por lo tanto a rechazar Ho por su baja probabilidad de ocurrencia; como ya se dijo, un resultado que tiene una probabilidad menor de ocurrir del 5% se considera estadísticamente significativo. Por lo tanto, el valor crítico de la prueba depende del nivel de significancia predefinido y de si tal prueba es unidireccional o bidireccional. Si la prueba es unidireccional, sólo hay un área posible o región de rechazo posible dentro de la curva de probabilidades. Si la prueba es bidireccional, existen dos valores críticos porque hay dos áreas (o colas) dentro de la curva de probabilidades. Nótese que esto no significa que la región de rechazo de Ho para una prueba bidireccional sea la mitad que la región de rechazo de una prueba unidireccional. La región de rechazo es la misma en ambos casos. La diferencia consiste en que en una prueba bidireccional, la región está dividida en dos partes o dos extremos de la curva o distribución de probabilidades. Es decir, en una prueba unidireccional, la región de rechazo está de un solo lado de la distribución o en un extremo, ya sea por encima o por debajo del promedio (a la derecha o a la izquierda), mientras que en una prueba bidireccional, la región de rechazo se divide en dos partes de áreas iguales para cada extremo (derecho o izquierdo) de la curva o distribución de valores posibles. Tengamos en cuenta que una curva o distribución de probabilidades contiene todos los valores posibles del estadístico resultante de la prueba; por ejemplo, de valores Z dentro de una curva normal de probabilidades. El valor crítico de la prueba nos define la frontera entre la región de rechazo y de no rechazo de la hipótesis nula o Ho. La región de rechazo de Ho es un subconjunto de valores posibles que, por su baja probabilidad de ocurrencia, nos indican si contamos con suficiente evidencia probabilística para rechazar

Ho en favor de Ha, de concluir que sí hay una diferencia, relación o efecto probable de acuerdo a los valores observados en la muestra. Visto de otra manera, la probabilidad de ocurrencia de cualquier valor dentro de tal región de rechazo es menor que alfa (α). Como veremos en siguientes capítulos, algunas técnicas estadísticas utilizan distribuciones de probabilidades sin parámetros de normalidad y los valores críticos dependen de la definición del problema probabilístico a resolver. Si bien, en todos los casos el tamaño de la región de rechazo está determinado por el nivel de significancia o probabilidad predefinida de cometer un error alfa (α). Como se mencionó con anterioridad, en la práctica de la investigación, la región de rechazo comprende el 5% o el 1% del área de valores posibles en la distribución del resultado de la prueba estadística.

EN RESUMEN La prueba estadística de hipótesis o prueba de significancia tiene por objeto interpretar la información para responder una pregunta de investigación y demostrar, así, si las mediciones concuerdan con la hipótesis de la investigación. Por un lado, la hipótesis nula es aquella que sostiene que no existe relación, diferencia o efecto donde se suponía que lo había. Por otro lado, la hipótesis alternativa es aquella que indica la presencia de una relación, diferencia o efecto. Existen dos tipos de errores que pueden ocurrir en la prueba de hipótesis: error tipo I (alfa) y error tipo II (beta). Por último, es necesario establecer un valor de probabilidad crítico para decidir rechazar o no la hipótesis nula.

EJERCICIOS Y PREGUNTAS DE REPASO 1. ¿Cuál sería la hipótesis alternativa de la siguiente hipótesis nula Ho: μ ≥ 250? 2. Considerando que en un juicio penal la hipótesis nula (Ho) es que el acusado es inocente y la hipótesis alternativa (Ha), que es culpable, explique que los riesgos de cometer el error tipo I y el error tipo II en este ejemplo. 3. ¿Qué símbolo se utiliza para representar el nivel de significancia o

posibilidad de cometer el error tipo I? ¿Y qué símbolo se utiliza para el error tipo II? 4. ¿En qué consiste el error alfa? ¿Cuáles son los riesgos que presenta? 5. ¿Cómo se puede reducir la probabilidad de cometer el error tipo I? 6. ¿Cómo se puede reducir la probabilidad de cometer el error tipo II? 7. Considerando que el nivel de confianza de la prueba se mide en relación con el 100% de certeza, ¿cuál sería la significancia estadística o probabilidad de rechazar Ho y equivocarse con un nivel de confianza de 95%? ¿Y con un 99%? 8. Partiendo de que se elige un nivel de confianza de 95% y se obtiene p= 0.0054, ¿debe o no rechazar la hipótesis nula? 9. ¿Es distinta la región de rechazo de una prueba bidireccional a la de una unidireccional? Sí, no ¿por qué? 10. ¿En qué tipo de hipótesis (unidireccional o bidireccional) existe mayor precisión? ¿Por qué?

RESPUESTAS E IDEAS

1. Ha : μ < 250 2.

El error tipo I se comete al rechazar Ho cuando es verdadera y el error tipo II se comente al no rechazar Ho cuando es falsa.

3. Para el error tipo I se usa α (alfa) y para el error tipo II, β (beta). 4.

El error alfa consiste en rechazar la hipótesis nula cuando ésta es verdadera. El riesgo que presenta es concluir a partir de una muestra que sí hay una diferencia, una relación o un efecto cuando en realidad no existen tales. Lo ideal es obtener resultados altamente significativos para no incurrir en este error.

5. Sólo hay tres maneras de reducir el error alfa: aumentar el tamaño de la muestra (n), reducir el número de pruebas o reducir el nivel de alfa, por ejemplo, pasar de un α < 0.05 a un α < 0.01.

6. Aumentando el tamaño de muestra (n). 7.

En el primer caso, con un nivel de confianza del 95% la significancia estadística de rechazar Ho y equivocarse no sería mayor a 5%, es decir, α = 0.05. En el segundo caso, con un nivel de confianza de 99%, la probabilidad de rechazar la hipótesis nula y equivocarse no rebasará el 1%, o sea, α = 0.01.

8. Sí debe rechazarse Ho, puesto que 0.0054 < 0.05. Incluso con un nivel de confianza de 99% debería rechazarse. Este es un resultado altamente significativo.

9. Sí son diferentes las regiones de rechazo en las pruebas bidireccionales y las unidireccionales. Si la prueba es unidireccional, sólo existe una región de rechazo posible dentro de la curva de probabilidades. Mientras que en las pruebas bidireccionales existen dos áreas de rechazo dentro de la curva de probabilidades. La región de rechazo es la misma para las dos pruebas, sólo que en la prueba bidireccional la región de rechazo se divide en dos partes o extremos de la distribución de probabilidades.

10. En la hipótesis unidireccional existe un mayor nivel de precisión puesto que tiene una conclusión en una sola dirección, por ejemplo, en cuanto a que A es mayor que B y no sólo diferente, lo cual implicaría ser menor o mayor. De hecho, la probabilidad de rechazar una hipótesis nula unidireccional es menor que la probabilidad de rechazar una hipótesis nula bidireccional.

SITIOS DE INTERÉS • Consejo Nacional de Recursos de Información Científica y Tecnológica (http://www.conricyt.mx/)

1

Aunque él no advocó por una significancia estadística fija y estándar a través de estudios en materias o áreas de conocimiento diferentes.

2

Esto se muestra en detalle en la presentación de las pruebas Z y t de Student.

3

Aunque es necesario hacerlo, en la práctica profesional en ocasiones el poder estadístico no se incluye en el cálculo del tamaño de muestra. Extrañamente se calcula el poder de la prueba una vez realizado el muestreo y levantada la encuesta. 4

Y muy rara vez en la investigación social.

Error tipo I. El error que resulta de rechazar la hipótesis nula cuando era verdadera. Error tipo II. El error que resulta de aceptar la hipótesis nula cuando era falsa. Error tipo III. En el argot estadístico, el error que deriva de aceptar los resultados de una prueba débil o mal hecha frente a la posibilidad de otra bien hecha o más robusta. Región de rechazo. También llamada “región crítica”, es la zona de la distribución de probabilidades que sugiere si se debe rechazar o no la hipótesis nula.

Capítulo VII. Pruebas de simetría, normalidad y valores extremos

Objetivos de aprendizaje • • •

• •

Comprender la importancia de los supuestos probabilísticos. Conocer las implicaciones estadísticas de la violación tanto del supuesto de normalidad como del de simetría. Comprender y aplicar las fórmulas para pruebas de simetría y normalidad: D’Agostino y Pearson, chi cuadrado, estadístico JB, prueba Z de Kolmogorov-Smirnov y prueba W de Shapiro Wilk. Comprender y aplicar las fórmulas para las pruebas de valores extremos: G de Grubbs y Q de Dixon. Distinguir, mediante las pruebas adecuadas, ente una muestra normalanormal y una simétrica-asimétrica, así como si la muestra posee algún valor extremo.

En este capítulo se presentan algunas pruebas de bondad de ajuste comunes en el análisis de datos que se abocan a probar hipótesis de simetría,

normalidad y detectar valores extremos en distribuciones de datos provenientes de muestras. Realizar estas pruebas es central en el análisis de datos, ya que la violación de supuestos probabilísticos puede acarrear errores de inferencia estadística. Todas las técnicas para la prueba de hipótesis descansan en alguno o varios supuestos. El supuesto más frecuente es la normalidad, la cual implica la suposición de que la mayor parte de los valores observados se encuentran alrededor de la media aritmética (μ), y por lo tanto la media de la muestra (M) es un buen estimador puntual sobre el cual realizar inferencias, comparaciones, y pruebas de diferencias entre grupos o muestras.1 Como se mencionó en el capítulo II, los estadísticos son mediciones que representan características de las muestras, como la media aritmética (M). También los valores resultantes de las pruebas de diferencias, los valores Z o t, son ejemplos de estadísticos.2 En este contexto, los supuestos para la estimación puntual y la inferencia estadística pueden no cumplirse en la presencia de distribuciones asimétricas o simétricas, pero no normales. La prueba Z para diferencias entre medias asume normalidad, pero la prueba t de Student, para tamaños de muestra menores de 120 observaciones, no requiere normalidad. En cambio, sí requiere cumplir el supuesto de simetría. Lo anterior conlleva implicaciones prácticas y potencialmente graves en los procedimientos estadísticos y en la prueba de hipótesis. Por ejemplo, si una distribución de datos es simétrica pero no normal, la varianza como estimador puntual puede ser ineficiente; es decir, puede no reflejar adecuadamente las características (y parámetro de escala) de la muestra. Por otro lado, si la distribución es asimétrica (y por ende no normal), tanto la media aritmética (M) como la varianza como parámetros estarán sesgados y no podrán realizarse pruebas de hipótesis bajo el supuesto de normalidad sobre tales parámetros. Lo anterior puede suceder con muestras de cualquier tamaño (Wilcox, 2005). En consecuencia, la cadena inferencial de errores es sucesiva y llega a afectar los intervalos de confianza de los estimadores. Por ejemplo, los intervalos de confianza de la media aritmética (M) serán, además de muy amplios, no confiables.3 Por lo tanto, los resultados de las pruebas de hipótesis tampoco serán confiables (Maronna, Martin y Yohai, 2006). Estos

problemas se presentan en toda técnica dentro de la estadística paramétrica, incluido naturalmente el análisis de regresión. Bartlett (1935), Pitman (1937), Geary (1947), Box (1953) y otros matemáticos más recientes han hecho demostraciones sobre los fallos en pruebas comunes como son la t de Student y el análisis de varianza.4 Como nota histórica, la comprensión y discusión conceptual del incumplimiento de la normalidad, conocida en sus orígenes como “ley de los errores”, tiene más de 150 años (Barnett, 2005). Pearce advertía en 1852 sobre los problemas que implicaba la presencia de valores extremos en las muestras. Las primeras pruebas estadísticas de simetría y normalidad tienen más de setenta años. Fisher (1930), Pearson (1930) y Kolmogorov (1933) fueron los primeros en tratar matemáticamente el diagnóstico de la no normalidad en la inferencia estadística.5 Relacionado con lo anterior, en el trabajo de análisis de datos es también indispensable diagnosticar la presencia de los valores extremos en una distribución muestral. Un valor extremo, también conocido en inglés como outlier, es una observación que posee un valor tan alto o tan bajo y diferente al resto que puede no ser representativo de la población o universo del que fue extraído (Sheskin, 2004). La presencia de valores extremos en una muestra tiene un impacto en las mediciones de tendencia central y de variación. Por lo mismo, también se han diseñado pruebas estadísticas para el diagnóstico de tales valores extremos. En este capítulo se presentan las siguientes pruebas de bondad de ajuste sobre simetría y normalidad: la prueba de D’Agostino y Pearson (1973), el estadístico JB de Jarque y Bera (1980), la prueba Z de Kolmogorov-Smirnov (1933), la prueba W de Shapiro y Wilk (1965), y la prueba chi cuadrado de Pearson (1900). Para la prueba de hipótesis de valores extremos se presentan dos pruebas: la prueba G de Grubbs (1950) y la prueba Q de Dixon (1950).

VII.1. PRUEBAS DE SIMETRÍA Y NORMALIDAD Las pruebas de normalidad tienen por objeto probar la hipótesis de que los valores de una variable aleatoria continua en una muestra representativa provienen de una población que sigue un comportamiento normal. Es decir, sí se puede concluir que la muestra y una población presentan la misma distribución más allá del error estándar. En este sentido, estas pruebas

también son conocidas como pruebas de bondad de ajuste.

VII.1.1. LA PRUEBA DE D’AGOSTINO Y PEARSON Esta prueba se fundamenta en dos pruebas inferenciales preliminares sobre el sesgo y la curtosis de la distribución muestral en cuestión. El sesgo es una medición de la asimetría de una distribución. La asimetría siempre se define en relación con la media aritmética. El sesgo puede ser positivo o negativo, dependiendo de en qué lado de la distribución se encuentra la mayor parte de las observaciones. Un sesgo positivo implica que la mayor parte de las observaciones se ubican en el lado izquierdo de la distribución (es, decir, sesgada a la derecha), y un sesgo negativo implica lo contrario (es decir sesgada a la izquierda). Por ejemplo, una distribución exponencial es una distribución sesgada positivamente o sesgada a la derecha, porque en ese lado es donde se encuentra el menor número de observaciones. Nótese también que no todas las distribuciones simétricas son normales; por ejemplo, la distribución t de Student es simétrica pero no tiene parámetros de normalidad hasta cierto tamaño de muestra (n < 120). Ya hemos comentado que el sesgo de una distribución puede determinarse de forma inicial de dos maneras: con una inspección visual de la distribución o comparando los valores de la media aritmética y la mediana; si los valores son diferentes, la distribución está sesgada. Otra forma más elaborada consiste en el cálculo del coeficiente de asimetría. Una distribución simétrica o insesgada es aquella en que este coeficiente es igual a cero. El sesgo puede ser utilizado para probar la bondad de ajuste de una distribución muestral en relación con una distribución simétrica o insesgada, por ejemplo, la distribución normal teórica (Sheskin 2004). Al medir el sesgo (el cual es el tercer momento de una distribución) por medio del método de los momentos de Pearson, podemos utilizar un procedimiento para determinar si una distribución muestral es significativamente diferente de una distribución simétrica. Primero recordemos que el k momento de cualquier variable aleatoria en una distribución de probabilidades es:

En este sentido, recordemos también que el sesgo es el tercer momento (m3) a partir de la media aritmética (M), por lo que el tercer momento de una distribución se calcularía de la siguiente manera:

No olvidemos que la fórmula para calcular el sesgo de una muestra es la siguiente:

Recordado lo anterior, la prueba inicia calculando el siguiente estadístico (Thode, 2002):

El término √ b1 es utilizado por D’Agostino (1970) para representar un estimado muestral del sesgo de la población o universo. En términos descriptivos o de interpretación, si √ b1 >0, podemos saber que la distribución está sesgada a la derecha y viceversa, bajo la hipótesis de simetría √ b1 = 0. Una vez realizado este cálculo, el resultado se somete a una prueba de significancia Z de dos colas. Esto se realiza siguiendo este procedimiento de siete pasos (Zar, 1999):

Veamos un ejemplo práctico. El sesgo de la distribución mensual (n = 72) de averiguaciones previas en la delegación Alvaro Obregón entre enero de 2003 y diciembre de 2008 es igual a –0.021. En este sentido, podemos saber que la distribución está sesgada a la izquierda, es decir, la mayor parte de los meses muestra un número de averiguaciones previas superior a la media aritmética; dicho con otras palabras, la media aritmética es menor a la mediana (M = 910.7 y Md = 911.5). Sin embargo, sobre esta información, no podemos inferir si esta distribución difiere significativamente, o por razones de aleatoriedad, de una distribución simétrica. Para ello, realizamos la siguiente prueba:

Ya que -0.081 se encuentra entre los valores de -1.96 y 1.96, es decir, el área de hipótesis nula con un nivel de confianza de 95% (p = .05), no es posible rechazar tal hipótesis nula de una simetría en la distribución mensual de averiguaciones previas analizada. En otras palabras, la distribución no difiere significativamente de una distribución simétrica. No obstante, recordemos que hay distribuciones no normales simétricas (por ejemplo, la distribución t). Para poder probar la hipótesis de una normalidad es necesario inferir también una similitud a la misma en términos de su curtosis; es decir, debe ser una distribución simétrica y mesocúrtica. Aquí es cuando entra en el procedimiento la prueba de curtosis. No olvidemos que la fórmula para calcular la curtosis es la siguiente:

Recordado lo anterior, la prueba de curtosis inicia calculando el siguiente

estadístico (Pearson, 1935; Thode, 2002):

Una vez que se tiene la curtosis, la prueba de una distribución mesocúrtica se realiza siguiendo este procedimiento de seis pasos (Zar, 1999):

Con base en el ejemplo anterior, probemos a continuación la hipótesis nula de una distribución de averiguaciones previas similar a una mesocúrtica. En este caso, la curtosis es igual a –0.278. Al ser de valor negativo, esto significa que las observaciones tienden a alejarse de la media aritmética; en otras palabras, es un indicativo de una distribución platocúrtica. Si la curtosis es igual a cero, la distribución se consideraría mesocúrtica, esto es, que las observaciones se

concentrarían alrededor de la media aritmética de forma semejante a una distribución normal teórica. Basados en lo anterior, el procedimiento es el siguiente:

Ya que -0.392 está entre los valores de –1.96 y 1.96, es decir, el área de hipótesis nula con un nivel de confianza de 95% (p = .05), no podemos rechazar tal hipótesis nula de una distribución mesocúrtica. En efecto, la evidencia sugiere que la mayor parte de los datos u observaciones se concentra alrededor de la media aritmética y de forma similar a lo que se esperaría de una distribución normal estándar. Una vez que tenemos los estadísticos de diagnóstico de sesgo y curtosis, o de simetría y distribución mesocúrtica, podemos aplicar el estadístico de prueba de normalidad de D’Agostino-Pearson (1973), el cual se realiza de la siguiente manera:6

En este caso, obtendríamos que:

Ya que 0.160 es menor que el valor crítico establecido para χ 2.05,2 χ 2 5.99 no podemos rechazar la hipótesis nula de una normalidad en la distribución bajo análisis. La distribución muestral no es significativamente diferente de una distribución normal teórica.

VII.1.2. PRUEBA DE BONDAD DE AJUSTE CHI CUADRADO La prueba de bondad de ajuste chi cuadrado demuestra la hipótesis nula de una similitud probabilística entre una frecuencia observada (o) y una frecuencia esperada (e). El ajuste se refiere precisamente a esta similitud probabilística. De esta forma, la prueba de bondad de ajuste puede realizarse para cualquier tipo de distribución (normal, uniforme, etc.). La prueba corresponde a Pearson (1900), quien desarrolló al mismo tiempo el coeficiente phi (φ) de correlación para dos variables nominales. La fórmula de la prueba es:

La prueba no puede tomar valores negativos. El estadístico de la prueba se somete a una distribución propia de probabilidades del mismo nombre. Esta distribución está sesgada a la derecha. Los parámetros son:

Los grados de libertad (g.l.) en esta prueba se obtienen de la siguiente manera:

donde k es el número de categorías utilizadas en la clasificación de las observaciones. De esta forma, la distribución de probabilidades chi cuadrado es una suma de distribuciones normales cuadráticas con n grados de libertad:

Por ejemplo, con un nivel de confianza de 95% y con un grado de libertad, el valor crítico de la prueba sería el siguiente:

Conforme aumentan los grados de libertad, la distribución comienza a perder el sesgo y a normalizarse. La significancia estadística (p) corresponde al área de probabilidades por encima del valor chi cuadrado resultante de la prueba. Veamos un ejemplo para una prueba de bondad de ajuste a una distribución uniforme. El cuadro VII.1 muestra el número total por mes del año de averiguaciones previas por el delito de robo a casa habitación en la Ciudad de México entre enero de 2003 y diciembre de 2008. Esta cifra representa la frecuencia observada (o). La frecuencia esperada (e) es igual a la media aritmética, en este caso, al ser una prueba de distribución uniforme, esperaríamos que el número de delitos fuera igual cada mes del año. Esto es, M = 3107.1. CUADRO VII.1

Procederíamos con el cálculo del estadístico de la siguiente manera:

Los grados de libertad son:

Con 11 grados de libertad y para un nivel de confianza de 95%, el valor

crítico chi cuadrado de la prueba es:

Es decir, el valor crítico de la prueba es 19.680.7 Visto que 53.380 > 19.680, el resultado de la prueba sugiere rechazar la hipótesis nula (Ho) de una uniformidad en la distribución. Es decir, la distribución de averiguaciones previas por el delito de robo a casa habitación en el tiempo observado no parece que se haya distribuido de manera uniforme (o similar) durante los meses observados. A continuación, veamos un ejemplo para una prueba de normalidad. Se utiliza el mismo conjunto de datos que se vio en la prueba Z de KolmogorovSmirnov. Estos datos son el número de averiguaciones previas entre 1997 y 2007 en México (n = 11). Nótese que el tamaño de la muestra es reducido, pero se procede con este ejemplo por motivos de simplicidad aritmética y para ilustrar la aplicación. Para ordenar las frecuencias acumulativas dentro de la distribución normal teórica, se divide en este caso la distribución en quintiles, de manera que cada intervalo muestre un 20% de las frecuencias esperadas dentro de la distribución teórica.8 El valor z de cada frecuencia acumulativa se obtiene de la suma porcentual del área bajo la curva normal sobre los parámetros presentes de M = 1,441.8 y s = 55.3. Por ejemplo, las observaciones que caen entre 20% y 40% de la distribución de valores posibles en una distribución normal, tendrán una puntuación z mayor de –0.842 y menor de –0.253. Estas puntuaciones z pueden obtenerse del cuadro de probabilidades propio de la distribución normal. El intervalo para la asignación de las frecuencias observadas se obtiene de la siguiente manera:

CUADRO VII.2

Por ejemplo:

En la muestra, el número de observaciones (años) o frecuencias observadas con valores menores o iguales a 1 395.2 son dos. De esta forma se van construyendo los quintiles en la distribución normal, sobre la base de los parámetros observados en la muestra, y asignando las frecuencias observadas en cada quintil. Las frecuencias esperadas se obtienen de la siguiente manera:

Finalmente se procede con el cálculo del estadístico:

Ya que el número de categorías utilizadas en la clasificación de las observaciones es k = 5, los grados de libertad para obtener los valores críticos de esta prueba serían:

Con cuatro grados de libertad y para un nivel de confianza de 95%, el valor crítico chi cuadrado de la prueba es:9

Como 1.273 < 9.490, el resultado de la prueba sugiere no rechazar la hipótesis nula de una normalidad en la distribución. Se obtiene la misma conclusión estadística utilizando la prueba ZKS.

VII.1.3. ESTADÍSTICO DE JARQUE Y BERA Este estadístico es semejante al de D’Agostino-Pearson en el sentido de que en su cálculo utiliza diagnósticos del sesgo y curtosis de la distribución; es decir, también utiliza el método de momentos. Fue desarrollado en 1980 por Jarque y Bera para probar las hipótesis de violaciones de normalidad, homocedasticidad y de autocorrelación en los residuales en el análisis de regresión. Este estadístico permite cuantificar el tipo del problema, su magnitud y probar su significancia10 y se sujeta, también, a una prueba de significancia bajo una distribución de probabilidades chi cuadrado (χ 2). El estadístico se obtiene de la siguiente manera:

Recordemos que en una distribución normal estándar el sesgo y la curtosis son iguales a 0. De forma que el estadístico JB para una distribución normal es igual a cero. La hipótesis nula (Ho) es porque la distribución no es significativamente diferente de una distribución normal. La prueba de significancia de chi cuadrado nos permite, sobre la base de la información disponible proveniente de la misma muestra, rechazar o no rechazar Ho. La prueba se realiza con dos grados de libertad.

Veamos una aplicación al mismo ejemplo que se presentó en la prueba anterior. Teníamos que el sesgo en la distribución mensual de averiguaciones previas en la delegación Alvaro Obregón de la Ciudad de México entre enero de 2003 y diciembre de 2008 (n = 72) era igual a –0.021 y la curtosis igual a –0.278. Sobre la base de esta información tendríamos que:

Ya que 0.237 es menor que el valor crítico establecido para χ 2.05,2 = 5.99, al igual que con el estadístico de D’Agostino-Pearson (1973), el resultado de la prueba sugiere no rechazar la hipótesis nula de una normalidad en la distribución bajo análisis. Un caso contrario lo tenemos para la distribución mensual de averiguaciones previas en la delegación Cuajimalpa de la Ciudad de México en el mismo periodo (n = 72), en la cual el sesgo era igual a 1.162 y la curtosis igual a –0.867. En este caso tenemos que:

Como puede observarse, el valor resultante de la prueba es notablemente superior al valor crítico establecido para χ 2.05,2 = 5.99, por lo que para el caso de esta delegación, el estadístico resultante de la prueba sugiere rechazar la hipótesis nula de una normalidad a favor de la hipótesis alternativa. Es decir, la distribución muestral de averiguaciones previas en la delegación Cuajimalpa parece ser significativamente diferente de una distribución normal teórica.

VII.1.4. PRUEBA Z DE KOLMOGOROV Y SMIRNOV Esta prueba fue desarrollada en 1933 y se aboca a determinar si los datos de una muestra provienen de una distribución de datos predeterminada (por ejemplo, normal, uniforme, exponencial, etc.). A razón de su similitud con la prueba de bondad de ajuste entre dos distribuciones desarrollada en 1939 por Smirnov, a la prueba en cuestión se le denomina Kolmogorov-Smirnov.11 La lógica de la prueba radica en estimar si la diferencia máxima (Dmax) entre

una frecuencia observada y una frecuencia esperada en una distribución de datos es estadísticamente significativa. Para el caso de una prueba de normalidad, la prueba requiere obtener tanto la distribución de frecuencias acumulativa como la puntuación z de cada observación en la muestra. En primer lugar, se requiere calcular la puntuación de cada valor observado, y esto se realiza de la siguiente manera:12

En segundo lugar, se estima la significancia estadística o probabilidad de obtener por azar tal puntuación z, dados ciertos parámetros M y s de la distribución. Para la prueba de normalidad con parámetros de normalidad teórica, M = 0 y s = 1.13 Por ejemplo, la probabilidad (p) de obtener al azar una puntuación z en una variable aleatoria normalmente distribuida igual a 1.96 (z = 1.96), o superior, es de 2.5% (p = .025) o una en 40. La probabilidad de obtener al azar una puntuación z en una variable aleatoria normalmente distribuida igual o superior a 2.58 es de 0.5% (p = .005) o una en 200.14 Esto es lo mismo que decir que la probabilidad de obtener una observación a 2.58 desviaciones estándar o más de la media aritmética en una distribución en teoría normalmente distribuida es de una en 200. El tercer paso del procedimiento consiste en obtener la frecuencia esperada acumulativa (fec o 1/n); para esto es conveniente ordenar los valores de la variable en orden ascendente. Una vez que contamos con la significancia de la puntuación z para cada valor observado (p) y la frecuencia esperada acumulativa (fec), procedemos a calcular las diferencias superior o inferior. Para la prueba de hipótesis elegiríamos la mayor distancia o máxima diferencia (Dmax) entre los valores. El estadístico de la prueba es precisamente la diferencia máxima. El valor de ZKS se obtendría de la siguiente manera:

En términos de una distribución chi cuadrado, también podemos saber que:

El cálculo de la significancia del estadístico ZKS es complicado y laborioso, por lo que en la etapa de la prueba de hipótesis lo común es comparar la diferencia máxima obtenida con los valores críticos respectivos a cada problema en el nivel de confianza deseado. Los valores críticos, cuando n > 40, se obtienen de la siguiente manera:15

Si Dmax es menor al valor crítico de la prueba, entonces no rechazamos la hipótesis nula (Ho) de una normalidad en la distribución de los datos. Veamos un ejemplo. El cuadro VII.3 muestra el número de averiguaciones previas entre 1997 y 2007 en México (n = 11). Se han ordenado los valores de la variable en orden ascendente y obtenido M = 1441.8 y s = 55.3. Con estos parámetros se calculan las puntuaciones z para cada valor observado y se obtiene también la significancia estadística (p) de cada uno. CUADRO VII.3

Posteriormente se obtiene la frecuencia esperada y se calculan las diferencias. Nótese que tales diferencias pueden ser positivas o negativas. La prueba requiere la diferencia máxima en términos absolutos. En este ejercicio, la diferencia máxima se presenta en la observación para el año 2002. De esta forma:

Por lo tanto:

El valor crítico de la prueba con un nivel de confianza de 95% sería el siguiente:16

Ya que 0.202 < 0.410, no rechazamos la hipótesis nula (Ho) de una normalidad en la distribución muestral. Podemos concluir que la distribución de los valores observados de esta variable en la muestra no se comporta de manera significativamente diferente a una distribución normal.

VII.1.5. PRUEBA W DE SHAPIRO-WILK Los matemáticos Shapiro y Wilk propusieron en 1965 otra prueba de bondad de ajuste denominada prueba W. Esta prueba fue originalmente creada para probar la normalidad de una distribución, aunque pocos años después fue extendida a la prueba de hipótesis sobre distribuciones exponenciales (Shapiro y Wilk, 1972). La lógica de la prueba consiste en dividir la combinación lineal cuadrática de las observaciones ordenadas en la distribución entre un ajuste simple de la varianza de la muestra. Esta relación se obtiene de los parámetros muestrales M y s, por lo que se trata de una prueba diseñada específicamente para probar la hipótesis estadística de una normalidad en una distribución de datos (Shapiro y Wilk, 1965). La fórmula para el cálculo del estadístico Wsw es la siguiente:

En esta fórmula an representa los coeficientes derivados de la media, varianza y covarianza para tamaños de muestra diferentes dentro de un supuesto de normalidad (Shapiro y Wilk, 1965), los cuales son necesarios para el cálculo de la combinación lineal de las observaciones ordenadas; xi representa tales valores de la muestra.

A continuación, probamos la hipótesis nula (Ho) de normalidad. Utilizamos la misma información que la aplicada en el ejemplo del cálculo de la prueba Z de Kolmogorov-Smirnov, es decir, el número de averiguaciones previas entre 1997 y 2007 en México (n = 11). El primer paso consiste en calcular la diferencia entre las observaciones ordenadas de menor a mayor (véase el cuadro VII.4). En este paso se calcula la diferencia entre el valor observado máximo y mínimo consecutivos. Es decir:

CUADRO VII.4

Nótese que el tamaño de muestra es impar (n = 11). En este caso, el valor de

la mediana (1 437.5) no se incorpora en el cálculo del estadístico. Las constantes se obtienen del cuadro ofrecido por los mismos autores.17 Los coeficientes son diferentes para cada prueba de hipótesis según el tamaño de muestra. Éstos derivan de simulaciones Monte Carlo para cada tamaño de muestra. Una vez que se tiene la combinación lineal, se procede a calcular el estadístico de la prueba de la siguiente manera:

El valor crítico (v.c.) de la prueba también está dado por los estimados ofrecidos por los autores.18 En este caso, el valor crítico para n = 11 con un nivel de confianza de 95% es de 0.850. Nótese que para el caso de esta prueba y en términos de la prueba de hipótesis, un valor bajo en el estadístico W implica una significancia estadística, es decir, la no normalidad de la distribución (Shapiro y Wilk, 1965). En este sentido, si:

En el caso de esta distribución, y de manera equivalente a lo que se concluyó a partir de la prueba Z de Kolmogorov-Smirnov, no podemos rechazar la hipótesis nula de una no normalidad siendo que:

VII.2. PRUEBAS DE VALORES EXTREMOS Los valores extremos dentro de una muestra también se conocen como outliers. Su diagnóstico es necesario puesto que su presencia puede tener un impacto en las mediciones de tendencia central como la media aritmética, de variación, y posteriormente en las pruebas inferenciales que descansan en supuestos de estadística paramétrica. Es importante comentar que la media geométrica es la menos sensible a la presencia de valores extremos.19 En esta sección se presentan dos pruebas para el diagnóstico de valores

extremos: la prueba G de Grubbs (1950) y la prueba Q de Dixon (1950).

VII.2.1. PRUEBA G DE GRUBBS Esta prueba fue publicada por Grubbs en 1950 y en la práctica se le conoce como prueba de Grubbs, prueba de valores extremos estudentizados o prueba gaussiana. Se utiliza de manera frecuente por su simplicidad, aunque por lo mismo tiene algunas limitaciones. Entre éstas, la más importante es que sólo permite determinar la probabilidad de que una observación en la distribución muestral provenga o no de una distribución normal. La prueba no puede extenderse a otro tipo de distribuciones y es sensible a la presencia de varios valores extremos. El estadístico G se obtiene de la siguiente manera:

Para probar la significancia del estadístico se utiliza la distribución t de Student.20 Y se compara el estadístico G resultante con el valor crítico correspondiente a la prueba de hipótesis en cuestión, que en este caso proviene de una que se realiza de la siguiente manera:

CUADRO VII.5

Pasemos a un ejemplo. En este caso haremos la prueba de un valor extremo para corroborar si existe algún mes del año que muestre una frecuencia de averiguaciones previas por el delito de robo a casa habitación extremo, o no esperado, dentro de una distribución normal de probabilidades. El cuadro muestra el valor de cada mes y el estadístico G correspondiente. El estadístico máximo corresponde al mes de febrero, el cual se obtuvo de la siguiente manera:21

Para probar la significancia de tal estadístico G tenemos que obtener el valor

crítico de t correspondiente, en este caso a un nivel de confianza de 95% (Z = 1.96):

Ya que la prueba de significancia es de dos colas, a cualquier valor que caiga en el intervalo de –2.481 y 2.481 se le puede considerar normal. En este caso, por lo tanto –2.281 cae en este intervalo no podemos rechazar la hipótesis nula de que al menos uno de los valores observados en la muestra representa un valor extremo. En otras palabras, no se encuentra evidencia estadística de que algún mes del año muestre un comportamiento estadístico significativamente diferente del que observaríamos proveniente de una distribución normal de probabilidades. Nótese que si relajáramos el nivel de confianza de la prueba a un 90% (Z = 1.65), es decir, la probabilidad de equivocarnos 1 de cada 10 veces al realizar la inferencia, en este caso rechazaríamos la hipótesis nula (Ho). Bajo este criterio, podríamos ver que:

Como -2.281 está fuera del intervalo de -1.923 y 1.923, en este caso podríamos rechazar la hipótesis nula Ho de ausencia de un valor extremo y concluir que el mes de febrero efectivamente refleja un valor extremo o comportamiento anormal. Es importante recalcar que es indispensable realizar el cálculo del valor crítico de t para cada prueba y no utilizar los valores críticos dados en el cuadro de probabilidades correspondiente. Por ejemplo, para una distribución estándar t de Student, cuyo valor crítico de prueba sean 10 grados de libertad (n - 2) y con un nivel de confianza de 95%, sería igual a 2.228. Para una distribución normal estándar, con un nivel de confianza de 95%, el valor crítico de la prueba sería igual a 1.960. La distribución muestral a prueba no es en este caso igual a una distribución estándar, puesto que los parámetros de la prueba son calculados a partir de la misma muestra donde se halla tal valor extremo hipotético. En este caso los parámetros son M y s, versus μ y

σ. El estadístico G es dependiente de los parámetros de la muestra y esto debe considerarse al realizar la prueba de hipótesis.

VII.2.2. PRUEBA Q DE DIXON La prueba Q de Dixon (1950) también asume la normalidad de la distribución de la población o universo de la que es extraída la muestra. Se pone a prueba la hipótesis de la presencia de al menos un valor extremo en la muestra. El estadístico Q se obtiene de la siguiente manera (Dixon y Massey, 1957):

donde el numerador se refiere a la máxima diferencia encontrada entre los valores ordenados de la muestra y el denominador es el rango ajustado según tamaño de muestra.22 La significancia de la prueba se somete al cuadro de valores críticos ofrecido por el mismo autor. Hagamos una aplicación de la prueba al mismo conjunto de datos utilizado en la sección anterior. En primer lugar, se ordenan los meses de mayor a menor en relación al número de averiguaciones previas por el delito de robo a casa habitación entre enero de 2003 y diciembre de 2008 (n = 12). Posteriormente se calculan las diferencias y el rango ajustado de acuerdo a la fórmula correspondiente a cada tamaño de muestra. CUADRO VII.6

En consecuencia, encontramos que:

El valor crítico de la prueba para n = 12 y con un nivel de confianza de 95% (o significancia estadística del 0.05) equivale a 0.426.23 En este caso rechazamos la hipótesis nula de una ausencia de un valor extremo ya que:

Esto es, a diferencia del ejercicio realizado con la prueba G de Grubbs en un

nivel de significancia de 0.05, sí podemos concluir que el mes de febrero parece mostrar una frecuencia extrema o atípica de averiguaciones previas por este delito.

EN RESUMEN El análisis básico de datos requiere la aplicación de pruebas de simetría, normalidad y valores extremos para no incurrir en la violación de algún supuesto probabilístico y, por lo tanto, cometer errores de inferencia estadística. Entre los supuestos probabilísticos están la normalidad de la distribución, la simetría e incluso la ausencia de algún valor extremo o outlier. La normalidad repercute, por ejemplo, en la selección de pruebas; aunque en la varianza puede que no refleje las características de la muestra porque la media y la varianza están sesgadas. Por último, un valor extremo, es decir, un valor muy por debajo o por encima del resto de la muestra, puede que no sea representativo de la población.

EJERCICIOS DE PRÁCTICA

1.

El sesgo de la distribución por entidad (n=32) de los internos hombres sentenciados por homicidio es igual a 0.913 y se desea saber si los valores de la variable de número de homicidios cometidos provienen de una población que se comporta de forma normal. Además, el valor de la curtosis de la muestra es –0.367 y se desea saber, también, si la distribución de la variable es mesocúrtica. Utilice la prueba de D’Agostino y Pearson, con un nivel de confianza de 95% (p = .05), para determinar a) si la muestra es o no simétrica, b) si es o no mesocúrtica y c) si es o no normal.

Fuente: Censo Nacional de Gobierno, Seguridad Pública y Sistema Penitenciario Estatales 2013, INEGI.

2. El sesgo de la distribución por entidad (n=32) de los internos hombres sentenciados es igual a 1.197 y se desea saber si los valores de la variable de número de delitos del fuero común provienen de una población que se comporta de forma normal. El valor de la curtosis de la muestra es .252; se desea saber también si la distribución de la variable es mesocúrtica. Utilice la prueba de D’Agostino y Pearson, con un nivel de confianza de 95% (p =

.05), para determinar a) si la muestra es o no simétrica, b) si es o no mesocúrtica y c) si es o no normal. Fuente: Censo Nacional de Gobierno, Seguridad Pública y Sistema Penitenciario Estatales 2013, INEGI.

3. A continuación se muestra el valor monetario que obtuvieron 10 reclusos del Estado de México por sus delitos. Usando la prueba de bondad de ajuste chi cuadrado con un nivel de confianza de 95% y nueve grados de libertad (X=16.912), determine si los datos se distribuyen normalmente. Recluso

Valor obtenido 1

$50

2

$10 000

3

$130 000

4

$17 000

5

$350

6

$1 000

7

$1 000

8

$100

9

$20 000

10

$100

4. A continuación se muestra el número de internos masculinos sentenciados por el delito de violación simple por entidad. Usando la prueba de bondad de ajuste chi cuadrado con un nivel de confianza de 95% y 31 grados de libertad (X2 = 44,9853), determine si los datos se distribuyen normalmente. Entidad

Hombres sentenciados por violación simple

Entidad

Hombres sentenciados por violación simple

Aguascalientes

21

Morelos

57

Baja California

301

Nayarit

48

Baja California Sur

33

Nuevo León

74

Campeche

28

Oaxaca

85

Coahuila

12

Puebla

40

Colima

55

Querétaro

32

Chiapas

213

Quintana Roo

88

Chihuahua

277

San Luis Potosí

345

Ciudad de México

243

Sinaloa

23

Durango

90

Sonora

61

Guanajuato

85

Tabasco

114

Guerrero

161

Tamaulipas

61

Hidalgo

74

Tlaxcala

20

Jalisco

382

Veracruz

136

Estado de México

296

Yucatán

47

Michoacán

186

Zacatecas

20

Fuente: Censo Nacional de Gobierno, Seguridad Pública y Sistema Penitenciario Estatales 2013, INEGI.

5. ¿En qué caso no sería posible aplicar la prueba Jarque y Bera? 6. Use los datos del problema 3 sobre el valor monetario que obtuvieron 10 reclusos por los delitos que cometieron y calcule con un nivel de confianza de 95%: a) Usando la prueba G de Grubbs determine si hay algún valor extremo, ¿a qué conclusión llega? b) Ahora usando la prueba Q de Dixon, ¿a qué conclusión llega?

7.

Utilice la prueba G de Grubbs para determinar si existe algún valor extremo a un nivel de confianza de 95% (Z=1.96):

Entidad

Abuso de confianza

Entidad

Abuso de confianza

Aguascalientes

18

Morelos

5

Baja California

46

Nayarit

38

Baja California Sur

24

Nuevo León

5

Campeche

10

Oaxaca

8

Coahuila

11

Puebla

Colima

35

Querétaro

32

Chiapas

31

Quintana Roo

12

Chihuahua

71

San Luis Potosí

33

Ciudad de México

45

Sinaloa

33

9

Sonora

53

Tabasco

113

Durango Guanajuato

125

7

Guerrero

44

Tamaulipas

13

Hidalgo

40

Tlaxcala

7

Jalisco

19

Veracruz

38

Estado de México

22

Yucatán

13

Michoacán

38

Zacatecas

27

Fuente: Censo Nacional de Gobierno, Seguridad Pública y Sistema Penitenciario Estatales 2013, INEGI.

8. Usando la prueba Q de Dixon determine si hay algún valor extremo a un nivel de confianza de 95% (Z=1.96): Delegación

Homicidios dolosos

Entidad

Homicidios dolosos

Iztapalapa

182

Morelos

41

Gustavo A. Madero

132

Nayarit

20

Venustiano Carranza

68

Nuevo León

19

Cuauhtémoc

69

Oaxaca

34

Álvaro Obregón

50

Puebla

25

Tlalpan

49

Querétaro

Miguel Hidalgo

30

Quintana Roo

Tláhuac

30

San Luis Potosí

9 14 6

Fuente: Tasa de homicidio por delegación (2010-2013), INEGI, SSPDF, PGJDF.

RESPUESTAS A LOS EJERCICIOS

1. a) Con la prueba de D’Agostino y Pearson se obtiene zsesgo = 2.233, ya que este valor se encuentra fuera de los valores de -1.96 y 1.96, es decir, el área de hipótesis nula con un nivel de confianza de 95% (p = .05), debemos rechazar la hipóte​sis nula de una simetría en la distribución muestral de homicidios por entidad. Por lo que la distribución sí difiere significativamente de una distribución simétrica. b) La zcurtosis = -0.325. Este valor se encuentra entre los valores de -1.96 y 1.96, por lo tanto, no podemos rechazar la hipótesis nula de una distribución mesocúrtica. c) El estadístico de prueba de normalidad de D’Agostino-Pearson nos da como resultado X2 = 5.0916. Al compararlo con el valor crítico de X20.05,2 = 5.99, no podemos rechazar la hipótesis nula de una normalidad en la distribución bajo análisis. La distribución muestral no es significativamente diferente de una distribución normal teórica.

2. a) Con la prueba de D’Agostino y Pearson se obtiene zsesgo = 4.390, ya que este valor se encuentra fuera de los valores de -1.96 y 1.96, es decir, fuera del área de hipótesis nula con un nivel de confianza de 95% (p = .05), debemos rechazar la hipótesis nula de una simetría en la distribución muestral de delitos del fuero común por entidad. Por lo tanto, la distribución sí difiere significativamente de una distribución simétrica. b) La zcurtosis = 3.5081. Este valor se encuentra fuera de los valores de -1.96 y 1.96, por lo que debemos rechazar la hipótesis nula de una distribución mesocúrtica, pues la distribución sí difiere significativamente de una distribución mesocúrtica. c) El estadístico de prueba de normalidad de D’Agostino-Pearson nos da como resultado X 2 = 31.57589, por lo tanto, al compararlo con el valor crítico de X20.05,2= 5.99, debemos rechazar la hipótesis nula de una normalidad en la distribución bajo análisis. La distribución muestral sí es significativamente diferente de una distribución normal teórica.

3. El valor crítico de la prueba es 16.912 y la sumatoria de las diferencias es 805430.345. Dado que 805430.345 > 16.912, el resultado de la prueba sugiere rechazar la hipótesis nula (Ho) de una distribución normal de los datos. Es decir, la distribución del valor monetario obtenido por la muestra de 10 reclusos no parece haberse distribuido de manera normal.

4. El valor crítico de la prueba es 44.9853 y la sumatoria de las diferencias es 3042. Dado que 3042 > 44.9853, el resultado de la prueba sugiere rechazar la hipótesis nula (Ho) de una distribución normal de los datos. Es decir, la distribución del número de internos sentenciados por el delito de violación simple por entidad no parece distribuirse de manera normal.

5. Para poder realizar la prueba Jarque y Bera es necesario contar con los valores correspondientes al sesgo y a la curtosis de la muestra. Dado que

en los ejercicios 1 y 2 sí teníamos esos datos, nos fue posible calcular el valor del estadístico JB. En ausencia de cualquiera de estas dos medidas de dispersión es imposible calcular este estadístico.

6. a) Prueba G de Grubbs y Q de Dixon El valor crítico de estadístico t es 2.6864, mientras que el estadístico G refleja que el valor $130 000 es el valor extremo (G=2.7946). Ya que la prueba de significancia es de dos colas, a cualquier valor que caiga en el intervalo de -2.6864 y 2.6864 se le puede considerar normal. En este caso, 2.7946 cae fuera de este intervalo, por lo que rechazamos la hipótesis nula, en otras palabras, se encuentra evidencia estadística de que el valor $130 000 muestra un comportamiento estadístico significativamente diferente del que observaríamos proveniente de una distribución normal de probabilidades. b) Sobre la prueba Q de Dixon, Q = 0.8468 y el valor crítico (.05 y g.l. = 10) = 0.512. Debido a que el estadístico Q calculado es mayor al valor de Q en tablas, se rechaza la hipótesis nula de ausencia de algún valor extremo, ya que se encuentra evidencia estadística de la existencia de al menos un valor extremo.

7. El valor crítico de estadístico t

es 2.098, mientras que el estadístico G refleja que el valor 125 es el valor extremo (G=3.322). Ya que la prueba de significancia es de dos colas, a cualquier valor que caiga en el intervalo de –2.098 y 2.098 se le puede considerar normal. En este caso, 3.322 cae fuera de este intervalo, por lo tanto, rechazamos la hipótesis nula, en otras palabras, se encuentra evidencia estadística de que el valor 125 muestra un comportamiento estadístico significativamente diferente del que observaríamos proveniente de una distribución normal de probabilidades.

8. Sobre la prueba Q de Dixon, Q = 0.02281 y el valor crítico para n=16 a un nivel de confianza de 95% es igual a 0.525. Debido a que el estadístico Q calculado es menor al valor de Q en tablas, no se rechaza la hipótesis nula

de ausencia de algún valor extremo. Es decir, no hay evidencia estadística de al menos un valor extremo.

SITIOS DE INTERÉS • Geocrimen (http://www.geocrimen.cide.edu/) • Instituto Nacional de Estadísticas y Censos. República de Argentina (http://www.indec.mecon.ar/) • Instituto Nacional de Estadística de Chile (http://www.ine.cl/) • Bureau of Crime Statistics and Research (http://www.bocsar.nsw.gov.au/bocsar/bocsar_index.html) • Gov. Uk. Statistics: Release Calendar (http://www.statistics.gov.uk/hub/index.html) • National Center for Education Sciences (http://nces.ed.gov/pubsearch/onlinedata.asp) 1

Tanto en muestras independientes como dependientes.

2

Los estadísticos resultantes de una prueba de diferencia, por ejemplo de dos medias, son también una variable aleatoria. 3

Precisamente a razón de contar con errores estándar muy amplios.

4

Los problemas los han encontrado de manera principal pero no exclusivamente cuando a) las muestras son pequeñas (n < 25, según Bartlett, 1935), o cuando b) las dos medias a comparar provienen de muestras distribuidas de forma diferente (Tan, 1982). 5

Fisher consideraba el problema de tal gravedad que desarrolló pruebas de simetría utilizando estadísticos descriptivos básicos como el sesgo y la curtosis. 6

Este estadístico es muy similar a otro estadístico de prueba de normalidad utilizado en ocasiones por Shenton y Bowman (1977), también de base chi cuadrado (χ2), pero el que se presenta en esta sección es más visible en la literatura científica y de operación más sencilla. 7

Véase el cuadro A.1. de valores críticos de la prueba chi cuadrado en el anexo.

8

La distribución puede dividirse en más partes como deciles, etcétera.

9

Véase el cuadro A.1. de valores críticos de la prueba chi cuadrado en el anexo.

10

Para probar que no se deban al azar derivado del procedimiento de muestreo.

11

Aunque algunas referencias las denominan de manera independiente. Por ejemplo: Sheskin (2004) y Conover (1999). 12

Este es el procedimiento de la prueba con la corrección de Lilliefors, la cual consiste en utilizar como parámetros μ y σ, los estimados de la muestra M y s. 13

Es decir sin la corrección de Lilliefors.

14

Esto puede realizarse con una calculadora de valores z o bien por medio de una tabla normal de probabilidades. 15

Para una prueba de dos colas o bidireccional. Para muestras pequeñas o menores de 40 observaciones se cuenta con valores críticos específicos en las tablas correspondientes. 16

Nótese que en las tablas se encuentran valores críticos específicos para muestras pequeñas. En este caso el valor crítico para n = 11 con un nivel de confianza de 95% es de 0.391. Sin embargo, aquí se muestra el procedimiento para una muestra de tamaño superior como normalmente es el caso. 17

Véase el cuadro A.2. de valores constantes para la prueba W de Shapiro-Wilk en el anexo.

18

Véase el cuadro A.3. de valores constantes para la prueba W de Shapiro-Wilk en el anexo.

19

A diferencia de la media aritmética, la media geométrica es la menos afectada por el sesgo.

20

También se utiliza la prueba normal de probabilidades o valores Z. La ventaja de utilizar la distribución t de Student es que permite la realización de la prueba con muestras pequeñas. 21

Claro está que febrero solamente tiene 28 días frente a los demás meses de 30 y 31 días. Por

simple aritmética se esperaría siempre menores frecuencias de averiguaciones previas ese mes. 22

Nótese la ordenación.

23

Véase el cuadro A.4. de valores constantes para la prueba Q de Dixon en el anexo.

Valor extremo. Un valor u observación que se aleja significativamente de la media aritmética de las demás observaciones. Normalidad. Es el término utilizado cuando los valores de una variable siguen un comportamiento denominado como “normal”, es decir, igual a la de una distribución de campana. Valor crítico. El valor contra el cual un estadístico es comparado para efectos de rechazar o no la hipótesis nula (Everitt y Skrondal, 2010). Grados de libertad. Concepto elusivo en la enseñanza de la estadística, y que se refiere al número de unidades independientes de información en una muestra que son necesarios para la estimación del parámetro de la población o para el cálculo del estadístico muestral (Everitt y Skrondal, 2010). Hipótesis nula. La hipótesis de “no diferencia” o “no correlación” o de ausencia de evidencia sobre tal “diferencia” o “correlación”. En investigación, es normalmente la hipótesis que se busca rechazar u ofrecer evidencia en contra. Hipótesis alternativa. La hipótesis contraria a la hipótesis nula. Prueba de hipótesis. El procedimiento por medio del cual se determina si la información muestral es consistente o no con el argumento realizado al respecto de su población original (Everitt y Skrondal, 2010). Prueba de significancia. Procedimiento estadístico que aplicado a

un conjunto de observaciones termina en ofrecer un valor probable al respecto de una prueba de hipótesis (Everitt y Skrondal, 2010).

Capítulo VIII. Pruebas de diferencias

Objetivos de aprendizaje • • • • •

Entender la función de las pruebas de diferencia. Identificar las diferencias básicas entre las pruebas paramétricas y no paramétricas. Elegir la prueba pertinente dependiendo de la distribución de la muestra y el tipo de variable. Comprender la correcta aplicación para cada prueba. Interpretar los resultados obtenidos en cada prueba haciendo especial énfasis en su significancia estadística y fiabilidad.

En una investigación puede existir el interés por probar la hipótesis de si dos o más grupos de individuos son similares o no en ciertos aspectos. En este sentido, las pruebas de diferencia sirven para comparar probabilísticamente muestras de individuos sobre la base de estadísticos descriptivos que resumen sus características, por ejemplo, la media aritmética. El enfoque es probabilístico debido a que los grupos bajo observación pueden ser muestras aleatorias de una población, y en consecuencia puede darse el caso de que la

diferencia observada en sus medias se deba al error muestral. En este caso, es necesario calcular la probabilidad de que la diferencia observada quede dentro del margen de error para no concluir algo que la evidencia no sostiene. Las pruebas de diferencia permiten realizar lo anterior probando hipótesis comparativas. En este sentido, las pruebas de diferencias son la forma estadística del método comparativo. En este capítulo se presentan las pruebas utilizadas de manera más común para la prueba de hipótesis comparativa o de diferencia entre grupos. El capítulo se divide en dos secciones: pruebas no paramétricas y paramétricas. En la primera sección se presentan las pruebas chi cuadrado de Pearson, la prueba exacta de Fisher, la corrección por continuidad de Yates, la prueba U de Mann-Whitney y la prueba H de Kruskal-Wallis. En la segunda sección se presentan la prueba Z para proporciones y medias aritméticas, la prueba t de Student para medias aritméticas y la prueba F o análisis de varianza unidireccional. En todos los casos se incluyen aplicaciones, se contrastan los resultados entre pruebas y se detallan los requisitos probabilísticos de cada una junto con una prueba sencilla de homogeneidad de varianzas para los casos de la prueba t de Student y F o análisis de varianza.

VIII.1. PRUEBAS NO PARAMÉTRICAS O LIBRES DE DISTRIBUCIÓN En el capítulo anterior se detalló el concepto de normalidad y se presentó un conjunto de pruebas para su identificación. Recordemos que la prueba de normalidad —de una distribución muestral— es un requisito para saber si los supuestos probabilísticos de la distribución normal de probabilidades son aplicables para efectos de la prueba estadística de hipótesis (Fisher, 1922). Una variable que no cumple con tal supuesto de normalidad se presenta cuando la mayor parte de los valores observados no se encuentran alrededor de la media aritmética de la población o parámetro μ. Por lo tanto, la media de la muestra (M) no es un buen estimador puntual sobre el cual realizar comparaciones entre muestras y fundamentar las inferencias que se realicen. En consecuencia, en algunos casos es recomendable prescindir del supuesto de normalidad y del uso de ciertos estadísticos descriptivos. Al momento de discutir la información, es más recomendable reducir el número de requisitos probabilísticos a fin de no incurrir en incumplimientos, y emplear otros estadísticos descriptivos como por ejemplo los conteos de frecuencias o los

rangos promedio, etcétera. Aunque la discusión sobre el impacto de la no normalidad en las pruebas estadísticas tiene más de un siglo, el término “no paramétrico”, en relación con la prueba estadística de hipótesis, fue utilizado por primera vez en 1942 por Wolfowitz. Cabe mencionar que los primeros en atacar y resolver matemáticamente el problema del incumplimiento del supuesto de normalidad a través de la proposición de pruebas y probabilidades específicas fueron Hotelling y Pabst en 1936, Friedman en 1937, Wilcoxon en 1945 y Pitman en 1947.1 En la actualidad, el término no paramétrico sirve para agrupar a aquellas pruebas que no requieren propiedades de simetría o dispersión en las variables. Por eso también se les denomina pruebas libres de distribución. Es decir, son aquellas que realizan inferencias no paramétricas en oposición a las “tradicionales” inferencias paramétricas (Sprent y Smeeton, 2016). El concepto de “no paramétrico” ha generado mucha confusión y una subutilización en el uso de este tipo de pruebas. A la inversa, la confusión también ha producido un uso excesivo y a veces inapropiado de las pruebas paramétricas. En este sentido, es necesario aclarar que el término “no paramétrico” no implica que las pruebas de significancia carezcan de parámetros. Todas las pruebas descansan en distribuciones de probabilidades, las cuales sólo pueden ser definidas por medio de uno o varios parámetros. Pero en este caso, el concepto de “prueba no paramétrica” se relaciona solamente con la forma de la distribución de la variable bajo análisis y no con la distribución del estadístico de la prueba. La ventaja y en ocasiones pertinencia de utilizar pruebas no-paramétricas sobre pruebas paramétricas radica en que no es necesario realizar ninguna suposición sobre los parámetros poblacionales de la variable bajo estudio.2 Una desventaja importante de las pruebas no paramétricas es que en ocasiones pierden información a razón del tipo de variable (nominal y ordinal) sobre el cual fueron desarrolladas, y otra más es que el cálculo de intervalos de confianza puede ser algo tedioso. Nótese a partir de esto último que las pruebas no paramétricas son aplicables en aquellos casos en que las variables son de tipo nominal u ordinal; por esta razón no es factible calcular estadísticos como la media aritmética y la desviación estándar (o desviación típica) y realizar inferencias sobre los mismos. Finalmente, la última distinción en relación a las técnicas que están por

presentarse se refiere al número de grupos que se contempla comparar o que están contenidos en las hipótesis. Las pruebas chi cuadrado de Pearson y H de Kruskal-Wallis permiten la comparación de cualquier número de grupos, mientras que la prueba U de Mann-Whitney sólo permite comparar dos grupos. El diagrama VIII.1 muestra una clasificación de las técnicas contenidas en esta sección a razón del tipo de variable y número de grupos a comparar. Únicamente se presentan las pruebas para la comparación de grupos o muestras independientes. Existen otras técnicas para la comparación de muestras dependientes, por ejemplo, la prueba t de Student para muestras dependientes, la prueba de Wilcoxon, la prueba de Friedman y la de McNemar. DIAGRAMA VIII.1

Fuente: Elaboración propia.

A su vez, el cuadro VIII.1. muestra los equivalentes paramétricos y no paramétricos en cada tipo de prueba de diferencias.

CUADRO VIII.1

VIII.1.1. PRUEBA CHI CUADRADO DE PEARSON Esta prueba ya fue introducida para enseñar a probar la hipótesis de uniformidad de una distribución muestral. Aunque aparentemente simple, la prueba tiene fundamentos bastante sofisticados y relacionados con la formulación de la prueba Z para distribuciones normales.3 De hecho, el propósito original de esta prueba era realizar ajustes de distribuciones discretas o discontinuas a la curva normal (continua) de probabilidades (Tankard, 1984; Pearson, 1900). Por lo anterior, esta no es una prueba exacta ya que, precisamente, no ofrece probabilidades exactas sino aproximadas de resultados dentro de una curva normal de probabilidades. En pocas palabras, es una sumatoria aproximada de probabilidades discretas (Upton, 1992). Esto se debe a que una variable nominal produce una distribución (originalmente) discontinua, la cual es aproximada a una distribución continua para efectos de una prueba de hipótesis bajo un supuesto de normalidad (Fisher, 1925).4 Cabe mencionar que esta prueba no se considera paramétrica, ya que no hace ningún supuesto sobre la distribución de la variable bajo análisis; sólo asume que las observaciones provienen de una muestra aleatoria y que son independientes. Aunque la fórmula del estadístico es en esencia la misma que para el caso

de pruebas de hipótesis de uniformidad, para el caso de una hipótesis de diferencia la lógica de operación se modifica parcialmente. Para explicar lo anterior, primero recordemos que la fórmula del estadístico chi cuadrado de Pearson es la siguiente:

Como ya se dijo en su momento, la prueba no puede tomar valores negativos y el estadístico resultante de la prueba se somete a una distribución propia de probabilidades del mismo nombre. La primera diferencia surge en la definición de los grados de libertad (g.l.) que fijan la posición del valor crítico dentro de la distribución de probabilidades. En el caso de una prueba de diferencias de grupos, o comparación de dos muestras, los grados de libertad se obtienen de la siguiente manera:

Donde r es el número de reglones y c el número de columnas en el cuadro de frecuencias. Adviértase que la única ocasión en que los grados de libertad se obtendrían de la misma manera que para una prueba de uniformidad, sería en el caso de aquella hipótesis en la que se desea probar si existe una diferencia en las frecuencias de respuesta al interior de un solo grupo o muestra; es decir, en el uso de un cuadro de frecuencias con una sola columna. Únicamente en este caso:

donde k es el número de categorías utilizadas en la clasificación de las observaciones, siendo el resultado de la sustracción igual a las categorías libres de variar en sus frecuencias frente a los marginales fijos en los reglones y columnas. Bajo esta lógica, la prueba chi cuadrado de Pearson con un grado de libertad es equivalente a una prueba Z de diferencias.5 Vale la pena comentar que Pearson perdió de vista que se requiere, además

de deducir un grado de libertad por el número de categorías en la variable, deducir otro grado de libertad por cada parámetro que se agrega en la prueba. Esto lo corrigió Fisher en 1922, lo cual llevó a una controversia entre ambos investigadores.6 El error en la definición de los grados de libertad puede tener implicaciones serias cuando se analizan cuadros de 2 por 2, ya que sólo hay un grado de libertad en este caso (1 = 2–1*2–1) versus los tres grados de libertad (3 = 4–1) que Pearson hubiera propuesto originalmente (Yates, 1984).7 Veamos un ejemplo práctico de una prueba de hipótesis sobre una diferencia de frecuencias o de dependencia o independencia estadística al interior de un grupo o muestra para luego comparar dos o más grupos o muestras independientes. Supongamos que deseamos probar la hipótesis nula de que no hay una diferencia estadísticamente significativa en la selección de hombres y mujeres en una encuesta de opinión. Es decir, que la diferencia observable en la frecuencia de encuestados de cada sexo puede deberse al azar. Este enfoque implica suponer que no se han encuestado más personas de cierto género, sino que las frecuencias por género son iguales en la muestra, y que en caso de diferir, esta diferencia puede deberse al azar. ¿Cuál sería la probabilidad de lo anterior? Vamos a probar tal hipótesis con base en los resultados de la Primera Encuesta Nacional sobre Exclusión, Intolerancia y Violencia en las escuelas públicas del nivel medio superior de México de 2007. En esta encuesta el tamaño de la muestra es de 13 564 jóvenes estudiantes (véase el cuadro VIII.2). Las frecuencias observadas (oi) de mujeres es de 7 491 y de hombres es de 6 163. No sabemos, a priori, si esta diferencia en las frecuencias puede deberse al azar. Por ende, la pregunta es: ¿cuál sería la probabilidad de obtener tal diferencia de frecuencias entre las dos categorías de la variable considerando este tamaño de muestra? CUADRO VIII.2

Para probar lo anterior, las hipótesis serían formuladas de la siguiente manera:

Es decir, en Ho las frecuencias observada y esperada son iguales. Otra manera de formular tales hipótesis sería en términos de proporciones según el género del encuestado, y esto se realizaría de la siguiente manera:

Nótese que no es factible realizar una prueba de hipótesis unidireccional con esta técnica. Solamente se puede estimar la probabilidad de encontrar alguna diferencia entre las frecuencias observadas y las esperadas en un escenario predeterminado. Esto nos lleva precisamente a definir el escenario de hipótesis nula, el cual propone que no hay una diferencia probable entre tales frecuencias observadas y esperadas. En este ejemplo, el único escenario en que se cumpliría Ho sería en el mostrado en el cuadro VIII.3; es decir, donde la muestra se distribuye al 50% en cada posible categoría de la variable bajo análisis (el género del encuestado). En este escenario hipotético las frecuencias esperadas son exactamente las mismas. CUADRO VIII.3

Con base en lo anterior, ya tenemos la información necesaria para realizar la prueba de significancia. En este caso, el estadístico chi cuadrado de Pearson se obtendría de la siguiente manera:

Ya que se trata de una prueba de hipótesis sobre un solo grupo o muestra, los grados de libertad se obtienen de la siguiente manera:

Nótese que en esta prueba únicamente existen dos categorías (k) en la variable. De acuerdo a nuestras tablas de probabilidades, con un grado de libertad y para un nivel de confianza del 95%, el valor crítico chi cuadrado de la prueba es:

Es decir, el valor crítico de la prueba para rechazar o no rechazar la hipótesis nula es 3.84.8 Ya que 129.16 > 3.84, el resultado de la prueba sugiere rechazar la hipótesis nula (Ho) de que las frecuencias de hombres y mujeres al interior de la muestra son iguales y que la diferencia observada puede deberse al azar. Es decir, el resultado nos sugiere que la distribución de encuestados según género no se distribuye de manera similar; concretamente, hay evidencia de una sobrerrepresentación de mujeres en la muestra. La probabilidad (p) de obtener esta diferencia tomando en cuenta el tamaño de

muestra es infinitesimal y por ende se le considera una diferencia estadísticamente significativa o raramente atribuible al azar. Naturalmente este resultado no demostraría de forma estricta que la muestra está sesgada a favor de cierto género para efectos de una comparación entre los dos grupos o muestras. Siempre y cuando se cubran los tamaños mínimos muestrales que son necesarios en cada categoría de la variable —lo cual sí parece cumplirse en este caso por su amplio tamaño en cada categoría— no podríamos argumentar la existencia de un sesgo estadístico que afectara los resultados de las siguientes pruebas. Podría haber, en efecto, un sesgo en la selección de las observaciones, pero si garantizamos el tamaño de la muestra en cada categoría de la variable, este sesgo no afectaría los resultados de pruebas posteriores realizados sobre la base de la misma. Si bien, es importante advertir que si el requisito del tamaño mínimo de muestra necesario en cada categoría de la variable no se cumpliera, entonces sí podría argumentarse que la muestra está sesgada y que dicho sesgo podría afectar los resultados de pruebas poste​riores. Definido de manera simple, el problema anterior consiste en que al ser efectivamente una muestra sesgada y por ende no representativa de la población en cuanto a su género, los resultados estadísticos provenientes de otras pruebas sobre la base de esta información serían inválidos. Veamos a continuación una aplicación de este estadístico en una prueba de hipótesis de diferencia entre dos grupos o muestras. En este caso en particular, vamos a probar la hipótesis nula de que no hay una diferencia estadísticamente significativa en las frecuencias de vendedores de drogas ilegales según su género. La variable dependiente, en este caso, la venta de drogas ilegales, es de tipo nominal, en específico dicotómica. Utilizaremos la misma encuesta. Al respecto, tenemos que 5.3% de los estudiantes varones en la muestra reportan haber estado alguna vez involucrados en este tipo de delito y el 2.0% de las estudiantes mujeres reportan el mismo evento (véase el cuadro VIII.4). En conjunto, 3.5% de los estudiantes encuestados reportan haber cometido este delito en alguna ocasión. La prueba nos va a permitir saber, nuevamente, lo siguiente: ¿qué tan probable es que esta diferencia porcentual se deba al azar? O preguntado de otra manera: ¿cuál es la probabilidad de observar una diferencia de esta magnitud con este tamaño de muestra?

CUADRO VIII.4

Lo primero que se debe hacer para probar tal hipótesis es construir el cuadro de frecuencias de hipótesis nula o de frecuencias esperadas, en el cual no encontraríamos alguna diferencia entre géneros. Para hacerlo es necesario prorratear las frecuencias de forma que no existan diferencias en las proporciones de cada categoría de la variable dependiente por género del encuestado. Es decir, la hipótesis nula argumentaría que tanto 96.5% de las mujeres como 96.5% de los hombres no venden drogas ilegales, y que tanto 3.5% de las mujeres y de los hombres, correspondientemente, sí lo hacen. Es decir, que la hipótesis nula establece que en la población se encuentran las mismas proporciones de mujeres y hombres en cada categoría de la variable dependiente; en este caso, la venta de drogas. Este prorrateo lo haríamos como se muestra en el cuadro VIII.5. CUADRO VIII.5

Con base en lo anterior, el estadístico chi cuadrado de Pearson se obtendría de la siguiente manera:

Al ser una prueba de hipótesis de diferencias entre dos grupos, en este caso por género del encuestado, tenemos que los grados de libertad son iguales a:

Nótese que el cuadro de frecuencias contiene dos reglones y dos columnas. De esta manera, con un grado de libertad y para un nivel de confianza de 95%, el valor crítico chi cuadrado de la prueba es igual que en el problema anterior:

Ya que 108.48 > 3.84, el resultado de la prueba sugiere rechazar la hipótesis nula (Ho) de que las frecuencias de venta de drogas en ambos géneros son iguales; la diferencia difícilmente se puede deber al error muestral. En concreto, la muestra contiene evidencia de que una mayor proporción de estudiantes de sexo masculino se han involucrado en este delito. Por último, se muestra el procedimiento para probar una hipótesis de diferencias con más de dos grupos. Con este fin, cambiaremos de fuente de información y utilizaremos la Encuesta Nacional de Protección de los

Programas Sociales (Enapp) de 2006. En este caso deseamos probar la hipótesis nula de un reporte similar de acciones de compra de voto —lo cual constituye un delito electoral— previo a las elecciones de ese año en muestras representativas de beneficiarios de programas sociales en seis entidades federativas (Vilalta, 2007). La variable dependiente (VD) es, al igual que en los dos ejemplos anteriores, de tipo nominal dicotómica (Sí/No). No sobra recordarle al lector que esta prueba es aplicable a una VD nominal con cualquier número de categorías. Según la Enapp, el 10% de los beneficiarios de programas sociales encuestados en estos seis estados reportan haber visto alguna acción de compra de voto previa a la realización de las elecciones de ese mismo año (véase el cuadro VIII.6). Visto a detalle, si comparamos las seis muestras representativas estatales, podemos ver diferencias muy notables, las cuales especulamos pueden deberse a una razón diferente al azar.9 Esto es precisamente lo que vamos a probar. Es decir, el argumento contenido en la hipótesis alternativa es que dichas diferencias estatales no se deben al azar; la hipótesis de investigación es que las diferencias pueden atribuirse a motivos políticos que reflejan una mayor y real compra de votos en algunos estados frente al conjunto de todos los estados. CUADRO VIII.6

Nuevamente, para probar la hipótesis nula de una frecuencia similar de ocurrencias (en cada categoría de la variable dependiente) entre grupos, en este caso los seis estados, procedemos a prorratear tales frecuencias en un escenario de no diferencias. En este ejercicio, asignaríamos 10% de las observaciones de cada muestra estatal en la categoría “Si” y 90% en la categoría “No”. Por ejemplo, para Chiapas, 10% de 252 es igual a 25 y 90%, a 227 encuestados después del redondeo. Aún se presenta una frecuencia total de 252 encuestados en ese estado. Con este procedimiento nos aseguramos de que cada estado tenga la frecuencia esperada que le corresponde en cada categoría de la variable dependiente de acuerdo a su tamaño de muestra. Las frecuencias esperadas en cada muestra pueden verse en el cuadro VIII.7. CUADRO VIII.7

Una vez hecho lo anterior, procedemos con el cálculo del estadístico chi cuadrado de Pearson, el cual nos lleva a obtener el siguiente resultado:

La prueba se realiza con 10 grados de libertad ya que:

Nótese que el cuadro contiene dos reglones para las categorías de la variable dependiente y seis columnas que representan a cada muestra independiente. Con cinco grados de libertad y para un nivel de significancia de 0.05, según

las tablas de probabilidades de chi cuadrado, el valor crítico de la prueba es:

Ya que 33.27 > 11.07, el resultado de la prueba sugiere rechazar la hipótesis nula (Ho) de una distribución similar de frecuencias en los reportes de compra de votos entre los estados. De nuevo, interpretemos correctamente los resultados de esta prueba en específico: la prueba tal y como se ha realizado no puede indicar cuál o cuáles estados son significativamente diferentes. En esta etapa, sólo se podría concluir que existe alguna diferencia estadísticamente significativa al menos entre dos estados: aquellos que muestran la mayor y menor frecuencia de observaciones o respuestas en cada categoría. En este caso son Jalisco y Yucatán. Sin embargo, no sabemos si los cuatro restantes son similares entre ellos o a alguno de los dos anteriores. Estadísticamente puede darse el caso de que existan varios estados con frecuencias de reportes diferentes al conjunto y entre ellos. Para poder probar lo anterior y detectar si, en efecto, hay otros estados con frecuencias de reportes significativamente diferentes, ya sean mayores o menores, se requeriría realizar la misma prueba por pares, de forma que pudiéramos distinguir entre aquellos que son similares de aquellos que no lo son. El inconveniente de este procedimiento es que al elevar el número de pruebas de significancia, también elevamos la probabilidad de cometer errores tipo alfa. Para concluir, esta prueba es ampliamente utilizada en la investigación social por la simplicidad en sus procedimientos, por la utilidad analítica que tiene el uso de cuadros de frecuencias y también por el uso extensivo que se hace de las variables nominales, sean dicotómicas o no, en encuestas probabilísticas.10

VIII.1.2. PRUEBA EXACTA DE FISHER Esta prueba fue popularizada por Fisher en 1922 para realizar pruebas de hipótesis cuando se hace uso de mediciones nominales proveniente de muestras pequeñas (por ejemplo, n < 20) y hay al menos una frecuencia esperada menor a las cinco observaciones.11 Una limitación importante que se presenta en el uso de la prueba chi cuadrado de Pearson es que esta es una

aproximación a la distribución normal (una suma de probabilidades discretas llevadas a una distribución continua), la cual puede, precisamente por aproximación, derivar en errores de estimación y en consecuencia en una mayor tasa de errores alfa conforme más pequeñas sean las muestras y más amplias sean las diferencias en las frecuencias dentro de cada categoría. Consciente de lo anterior, Fisher ideó una prueba que, con el uso de una distribución hipergeométrica de probabilidades, permite llegar a probabilidades exactas sobre una lógica de combinaciones de frecuencias observadas. Precisamente porque opera sobre una lógica de combinaciones, la prueba exacta de Fisher también permite la prueba de hipótesis unidireccionales; esto lo hace al calcular y sumar las probabilidades de escenarios extremos en los cuadros de frecuencias. Una limitación de esta prueba es que sólo es aplicable a cuadros de 2 por 2. La fórmula del estadístico exacto de Fisher es la siguiente:

donde la letra r se refiere a los reglones (dos), c a las columnas (también dos), y las demás letras a cada categoría dentro del cuadro de frecuencias. Esto se ilustra claramente en el siguiente cuadro. CUADRO VIII.8

Veamos un ejemplo. Supongamos que en una encuesta hipotética se ha entrevistado a 20 personas para saber su opinión sobre cierto tema. Hemos dividido la muestra en dos grupos, según el grupo de edad del encuestado, y los resultados de la tabla cruzada o tabla de contingencia se muestran en el cuadro VIII.9. La pregunta que nos permite responder esta prueba es la

siguiente: ¿cuál es la probabilidad exacta de obtener un cuadro de frecuencias observadas igual a éste? CUADRO VIII.9

La probabilidad de obtener este arreglo de frecuencias es igual a 9.5%. Esto lo sabemos porque:

Ahora bien ¿es éste un resultado estadísticamente significativo? Ciertamente la probabilidad de obtener tal arreglo es baja, pero no puede ser considerado como estadísticamente significativo, pues en una prueba bidireccional el nivel de significancia de la prueba se divide entre dos, es decir, α/2. En este caso, si el nivel de significancia de la prueba lo fijáramos en a = .05, tendríamos que α/2 = .025. Ya que .095 > .025, es decir que p > α, no se podría argumentar que existe una diferencia de opinión por grupo de edad. Esto para efectos de una prueba bidireccional. La prueba unidireccional podría ser diferente. Ésta consistiría en saber si puede haber alguna distribución más extrema además de la observada, es decir, con mayores diferencias entre categorías. La forma de proceder en este caso es calcular la probabilidad de cada distribución o arreglo posible extrayendo una unidad de la categoría más pequeña hasta llegar a cero, pero, sin modificar los marginales, es decir, sin modificar los totales de cada reglón y columna originalmente registrados u observados. Sabemos que la frecuencia más extrema posible en alguna categoría es cero, ya que no

pueden agregarse frecuencias negativas a la distribución. Por último, una vez que se tienen todos los escenarios extremos, se suman sus probabilidades — las resultantes de todas las distribuciones de frecuencias más extremas— junto con la observada de manera original. Por ejemplo, en este caso sólo cabría una distribución más extrema o diferente a la observada originalmente y sería la siguiente: CUADRO VIII.10

Sabemos que la probabilidad de esta distribución o arreglo de frecuencias es 1% ya que:

Probabilidad que, sumada a la observada de manera original, se vuelve p = .105. Aún es un resultado estadísticamente no significativo. Para Fisher12 el resultado de una prueba bidireccional es el mismo que el de una prueba unidireccional multiplicada su probabilidad (p) por dos (Yates, 1984).13 Esto sería igual que fijar un umbral para concluir una diferencia cuando su probabilidad es de 1/40 en vez de 1/20. Esta respuesta ha causado un debate bajo el argumento de que al ser la distribución hipergeométrica no simétrica, la multiplicación de un lado de la distribución por dos puede ser una solución imprecisa. El argumento de Fisher, no obstante, se fundamenta en el nivel de significancia previamente establecido para la hipótesis al cálculo de la probabilidad.14

VIII.1.3. LA CORRECCIÓN POR CONTINUIDAD DE YATES

Otra prueba alternativa cuando se trabaja con muestras pequeñas o frecuencias esperadas menores a cinco observaciones en una categoría de la variable dependiente es la corrección por continuidad de Yates (1934). Esta corrección se fundamenta matemáticamente en la prueba exacta de Fisher, pero a diferencia de ésta, la corrección de Yates no permite la realización de pruebas unidireccionales. Esta corrección utiliza probabilidades binomiales exactas en un cuadro de frecuencias de 2 por 2. Asume que la distribución binomial de la VD en la población es simétrica. De esta forma, el estadístico chi cuadrado de Pearson es corregido sustrayendo la mitad de una unidad (0.5) en cada categoría. Así, la corrección al estadístico chi cuadrado de Pearson se realiza de la siguiente manera (Yates, 1934):

Aplicando la corrección de Yates al ejercicio presentado anteriormente sobre la venta de drogas según el género del estudiante encuestado, donde el cuadro de frecuencias es de tipo 2 por 2, tendríamos que de los datos del ejercicio mencionado:

Nótese que el valor de la corrección de Yates siempre llevará a un resultado menor que con la prueba chi cuadrado de Pearson. La corrección siempre llevará a una menor probabilidad de rechazar Ho. El número de grados de libertad sigue siendo uno. Siendo que 107.57 > 3.84, el resultado también sugiere rechazar la hipótesis nula (Ho) de que la frecuencia de estudiantes involucrados en la venta de drogas es similar entre géneros.

VIII.1.4. PRUEBA U DE MANN-WHITNEY Esta prueba se desarrolló con el propósito original de estimar si las mediciones ordinales o en rangos de dos muestras independientes provienen de la misma población (Mann y Whitney, 1947). Dicho de otra manera, la

prueba permite comparar probabilísticamente las distribuciones de dos muestras con base en los rangos promedio de cada una (Armitage y Colton, 2005). Al hacer referencia verbal al término de rango promedio, estamos asumiendo de forma expresa que la variable dependiente es de tipo ordinal. La idea original de desarrollar una prueba de este tipo surgió de Wilcoxon en 1945, quien buscaba una prueba de significancia por aproximación equivalente a la prueba t de Student para variables ordinales; inclusive estimó probabilidades aproximadas de resultados provenientes de comparaciones entre muestras experimentales (Wilcoxon, 1945: 82). Sin embargo, el primer estadístico para la prueba de hipótesis de diferencia como tal para una variable ordinal fue desarrollado por Mann y Whitney dos años después. Wilcoxon presentaría una prueba en 1949, la W de Wilcoxon, y extendería la solución al uso de muestras dependientes o mediciones repetidas. La fórmula para calcular el estadístico U es la siguiente (Mann y Whitney, 1947):15

Donde: n1 = tamaño de la muestra 1 n2 = tamaño de la muestra 2 R1 = la suma de los rangos en la muestra 1 R2 = la suma de los rangos en la muestra 2 La prueba de significancia del estadístico U utiliza una distribución normal de probabilidades. Para realizar lo anterior es necesario calcular un valor Z del estadístico U que haya resultado de la prueba. Es por ello que en ocasiones también se le llama prueba Z de Mann-Whitney. Esto se realiza de la siguiente manera (Sheskin, 2004):

Ya que la prueba de significancia no es una prueba exacta, sino que ofrece

una probabilidad aproximada, una corrección por continuidad fue presentada por Siegel y Castellan (1988) y consiste en la siguiente forma:

Finalmente, en caso de existir empates en la variable ordinal,16 otra corrección al estadístico Z se realizaría de la siguiente manera (Sheskin, 2004):

Veamos una aplicación de la prueba sin empates para efectos meramente ilustrativos. Supongamos que se desea probar la hipótesis de que los niveles de oposición a una obra pública no difieren por grupos de distritos electorales, en este caso, según su ubicación geográfica con respecto a la obra en cuestión (Vilalta, 2007). Para esto utilizaremos los resultados del plebiscito sobre la construcción del segundo piso del Periférico en la Ciudad de México.17 Este plebiscito se celebró en el año 2005 y los resultados se muestran en el cuadro VIII.11. La unidad geográfica para la organización del plebiscito fue el distrito electoral local (N = 40). Hay en este caso dos tipos de distritos: aquellos que no tocan la obra pública (n1 = 37) y aquellos que sí lo hacen (n2 = 3). Podemos ver que los rangos proceden de 1 a 40 según su nivel de oposición y también vemos que no hay empates en el ranqueo.

Click para ampliar Para obtener el estadístico U, vamos a utilizar como grupo de referencia a los distritos que tocan la obra (n1). Podríamos utilizar cualquier grupo y llegaríamos a los mismos resultados. Tenemos que:

Nótese que la suma de los rangos en este grupo es R1 = 807. Con base en esta información, tenemos que:

Con la corrección obtendríamos que:

Nótese que en este caso se suma la fracción, puesto que la corrección es dentro de los valores negativos de la prueba. Considerando un nivel de significancia de 0.05, tenemos que el valor crítico de la prueba es 1.96. La prueba es de dos colas por lo que el valor crítico toma un valor positivo y negativo. Ya que –2.46 < –1.96, rechazamos Ho. Es decir, el nivel de oposición sí es significativamente diferente según tipo de distrito, sea vecino o no a la obra pública. En este caso, los votantes residentes en distritos electorales vecinos mostraron un mayor nivel de oposición a la misma. Naturalmente se hubiera obtenido el mismo resultado utilizando el grupo 2 (n2) como referencia para obtener el estadístico U. En este caso, la prueba se hubiera realizado de la siguiente manera:

En este caso, R2 = 13. De esta manera, tenemos que:

Nótese nuevamente que la corrección consistió en sustraer media unidad al numerador de la fórmula, puesto que en este caso se sabe que el valor Z se encuentra en el lado derecho de la distribución de probabilidades.

VIII.1.5. PRUEBA H DE KRUSKAL-WALLIS Esta prueba se desarrolló en 1952 para resolver el problema de comparar dos o más grupos cuando las variables no se distribuyen normalmente o bien cuando la comparación de rangos —versus medias aritméticas— puede conllevar alguna ventaja analítica o computacional. De hecho, entre las ventajas apuntadas por los mismos autores están las tres siguientes: su facilidad de cálculo, la popularidad de las escalas ordinales en encuestas de opinión, y el único requisito probabilístico de que las observaciones sean independientes (Kruskal y Wallis, 1952). Es por lo anterior que varios autores presentan esta prueba como la sustituta para el análisis de varianza o prueba F cuando el supuesto de la normalidad en la variable dependiente no se cumple (Lehman, 1991; Pagano, 1994). Como en los casos anteriores, la prueba se enfoca en probar la hipótesis de que dos o más muestras provienen de la misma población dentro de cierto margen de error. En este sentido, cuando la variable dependiente (ordinal) no contiene empates, la fórmula para obtener el estadístico H es la siguiente (Kruskal-Wallis, 1952):

Donde: C = número de muestras ni = tamaño de la muestra i n = la suma de todas las muestras Ri = la suma de los rangos en la muestra i

Si la variable dependiente contiene empates, el estadístico anterior se divide entre:

Donde: t = número total de rangos empatados n = la suma de todas las muestras La prueba utiliza la distribución de probabilidades chi cuadrado y los grados de libertad son el número de grupos (g) a comparar menos uno. Es decir:

Veamos en esta ocasión otro ejemplo, sin empates por simplicidad ilustrativa. Supongamos, de manera similar al ejemplo presentado en la sección anterior, que se desea probar la hipótesis de que los niveles de oposición a una obra pública no difieren por grupos de distritos electorales. En este caso tenemos cuatro grupos de distritos y, en consecuencia, esta es la prueba ideal para ofrecer una respuesta estadística a la pregunta de investigación. Estos cuatro grupos de distritos son: no toca la obra, poniente, sur y oriente del Periférico.

Click para ampliar Si ordenamos los rangos por grupo de distritos, tenemos la distribución que nos muestra el cuadro VIII.13. No se muestran los números de distritos, sino los rangos de los distritos.

Click para ampliar

Con base en la información contenida en el cuadro anterior, ya podemos calcular el estadístico H de la prueba. El resultado es el siguiente:

En este caso, tenemos tres grados de libertad, ya que el número de grupos que se están comparando es de 4. Es decir:

Con tres grados de libertad, el valor crítico de la prueba en un nivel de confianza de 95%, o α = .05, es el siguiente:

Ya que 8.57 > 7.81, tenemos la posibilidad de rechazar Ho. Es decir, podemos concluir que existen diferencias estadísticamente significativas en los niveles de oposición a la obra según el tipo o grupo de distrito electoral, cuando tales niveles han sido categorizados en una escala ordinal.

VIII.2. PRUEBAS PARAMÉTRICAS A continuación, se presentan las siguientes pruebas de diferencias de grupos o muestras independientes: prueba Z para proporciones y medias aritméticas, prueba t de Student para medias aritméticas y la prueba F, también conocida como análisis de varianza.18 A la lista anterior, agregamos una prueba sobre diferencias de varianzas, la cual permite comparar grupos o muestras en términos de su variación interna o desigualdad. Esta prueba de hipótesis sobre la homogeneidad de varianzas entre los grupos a comparar es un requisito preliminar dentro de las pruebas t de Student y F o análisis de varianza. DIAGRAMA VIII.2

Fuente: Elaboración propia.

VIII.2.1. PRUEBA Z PARA PROPORCIONES Independientemente del tipo de variable que se trate, dicotómica (comparación de dos proporciones) o continua (comparación de dos medias aritméticas), esta prueba permite responder probabilísticamente la pregunta de investigación de si una muestra aleatoria proviene de una población normal. Bajo esta lógica, también se puede probar si las proporciones (p) o medias aritméticas (M) de dos muestras aleatorias e independientes son iguales. Los requisitos para la utilización de la prueba Z son los siguientes: las observaciones deben ser independientes, la población de la cual provienen las muestras se distribuye normalmente, las varianzas de las dos muestras son homogéneas (es decir, no son significativamente diferentes), y las muestras son de tamaño grande. El requisito del tamaño de muestra es necesario para la

aplicación de la distribución normal de probabilidades; tanto el teorema del límite central como la ley de los grandes números requieren muestras grandes, ya que hablan de la probabilidad de un evento en el “largo plazo”. También es requisito conocer o asumir la variabilidad de la población; la prueba no puede aplicarse cuando no se conoce tal variabilidad.19 Para el caso de una variable dicotómica, la hipótesis nula se formularía de la siguiente manera:

Donde pi es el estimador de la proporción o porcentaje observado en la muestra y π es la proporción de la población, la cual también puede ser observada sobre la base de información anterior o, bien, puede ser una proporción esperada o hipotética. Si quisiéramos probar la hipótesis de una igualdad entre las proporciones de dos muestras, la formulación sería entonces la siguiente:

Una forma de ver la diferencia entre ambas formulaciones es que, en el primer caso, se trata de una prueba de diferencia entre una muestra y una población, mientras que en el segundo caso es una prueba de diferencia entre dos muestras provenientes de la misma población. En el primer caso, la fórmula del estadístico Z es la siguiente:

Como se puede intuir, y como ya se vio en la sección de intervalos de confianza, la lógica de la prueba radica en calcular a cuántos errores estándar se encuentra la proporción de la muestra de la proporción del universo o de la población completa. Si la diferencia es mayor a 1.96 errores estándar, esto sugeriría rechazar Ho con un nivel de significancia del 5% o α =.05. Si la

diferencia es mayor a 2.58 errores estándar, esto sugeriría rechazar Ho con un nivel de significancia de 1% o α = .01. Veamos un ejemplo de la aplicación de esta prueba con base en la información que se presentó al ilustrar el concepto de intervalos de confianza. Supongamos en este caso que se desea probar la hipótesis de que 2.2% en una muestra de 1 371 encuestados que son beneficiarios de programas sociales federales en México y que fueron presionados para votar por cierto partido (Enapp, 2006), es una proporción significativamente diferente de un resultado esperado o proporción poblacional de 4.5% en la misma circunstancia de coacción del voto. Es decir:

El estadístico Z se obtendría de la siguiente manera:

Con α = .05 y al tratarse de una prueba bidireccional, tenemos que el valor crítico de la prueba es 1.96 en un lado de la distribución y –1.96 en el otro lado de la distribución de probabilidades. Estos valores nos indican que α/2 = .025; es decir, sólo hay un 2.5% de resultados probables mayores a 1.96 y un 2.5% de valores probables menores de –1.96. Ya que –4.11 < –1.96, rechazamos Ho y concluimos que hay una diferencia estadísticamente significativa en los niveles de coacción del voto entre la muestra y la proporción esperada de la población. La probabilidad de obtener un porcentaje de encuestados coaccionados de 2.2% cuando el porcentaje esperado o teórico de la población es de 4.5% es de uno entre 50 130 veces que se repita la prueba, lo cual lo hace sumamente improbable y, por ende, se considera un resultado estadísticamente significativo. Ahora bien, supongamos que no sólo nos interesa especular sobre una diferencia probable entre ambas proporciones, sino que quisiéramos calcular

la probabilidad de que la proporción muestral es significativamente menor a la proporción poblacional. Es decir, nos interesa llevar a cabo una prueba unidireccional. ¿Cómo podríamos realizar una prueba unidireccional sobre la información anterior? Primero formularíamos las hipótesis de la siguiente manera:

Nótese que nos interesa probar si la proporción muestral (p) es significativamente mayor que la proporción de la población (π ). Es decir, estamos interesados en saber específicamente si el estadístico Z cae en un lado de la distribución de probabilidades que ha sido predefinido en la hipótesis. En este caso, la lógica no consiste en reducir el área de probabilidades de los valores Z resultantes de la prueba, sino en agrupar todas esas probabilidades en un solo lado de la distribución. De nuevo: no buscamos reducir o dividir el área de rechazo de Ho, sino ubicarla en una sola cola o lado de la distribución normal de probabilidades. En este caso, si el nivel de significancia original en la prueba era 5% (α = .05), si moviéramos ese 5% de valores posibles de Z a un solo lado de la distribución, el de valores negativos de Z como lo tenemos formulado en nuestra hipótesis, tendríamos entonces que el valor crítico de la prueba sería –1.65.20 Dicho de otra manera, en una curva normal de probabilidades, el 5% de los valores posibles del estadístico Z pueden ser menores de –1.65 errores estándar. En la utilización de parámetros poblacionales, lo anterior es lo mismo que decir que se rechazará Ho siempre y cuando:

Y no se rechazará Ho si:

Visto de otra manera, se rechazará Ho siempre que:

Lo anterior significa que, para un nivel de significancia del 5% (Z.05 = –1.65 en el extremo inferior de la distribución), siempre se rechazará Ho cuando p sea menor de 3.6% y nunca se rechazará si p es igual o mayor a esa proporción. Ahora bien, dejando atrás la prueba de una diferencia entre una proporción muestral y una proporción poblacional, también podemos realizar una prueba de significancia entre dos proporciones muestrales por ejemplo p1 y p2.21 En este caso, se requiere redefinir las hipótesis de la siguiente manera:

Esto implica también redefinir el error estándar de la siguiente manera:

Veamos a continuación un ejemplo sobre la incidencia de delitos electorales con base en la información de la Enapp-2006. Supongamos que deseamos probar la hipótesis de que hay una diferencia no aleatoria en los reportes porcentuales de beneficiarios de programas sociales coaccionados en su voto en dos estados: Jalisco con 17.8% y Chiapas con 11.5%. Es decir:

o bien,

Esto nos llevaría a que Z es igual a:

Con un nivel de significancia de .05 (α = .05), ya que 2.13 > 1.96, tenemos que la prueba nos muestra un resultado estadísticamente significativo. Es decir, tenemos evidencia estadística para rechazar Ho y concluir que los reportes de beneficiarios de programas sociales coaccionados en ambos estados son significativamente diferentes. O, dicho de otra manera, que probabilísticamente sí hubo una mayor proporción de reportes de beneficiarios de programas sociales coaccionados en su voto en Jalisco que en Chiapas, previo a las elecciones federales de 2006. Si ahora deseáramos proceder con una prueba de tipo unidireccional, seguiríamos el mismo procedimiento que se ilustró con anterioridad al respecto a la prueba con una muestra.

VIII.2.2. PRUEBA Z PARA MEDIAS ARITMÉTICAS Ya habíamos comentado que esta formulación de la prueba Z también es aplicable cuando la variable dependiente es continua.22 Naturalmente, los requisitos de independencia en las observaciones —normalidad en la población, homogeneidad en las varianzas cuando se comparan dos muestras y un tamaño de muestra grande— siguen aplicando. Con variables continuas podemos obtener medias aritméticas y desviaciones estándar. Y si la variable dependiente se distribuye normalmente, podemos aplicar los parámetros de una distribución normal con el objetivo de realizar inferencias a partir de muestras aleatorias. En este caso, el estadístico Z se obtendría de manera equivalente a como lo vimos en la sección anterior. Para el caso de una prueba de diferencias para una muestra y una población, tendríamos que

Donde:

El denominador constituye el error estándar. Recordemos que el error estándar es una medición de la desviación estándar o error de la distribución muestral; es una aproximación a un error posible proveniente de la relación entre la variabilidad de la variable dependiente y el tamaño de la muestra (n).23 Para el caso de una prueba de hipótesis de diferencias entre dos medias muestrales, el estadístico Z se obtendría de la siguiente manera:

Veamos un ejemplo de una prueba bidireccional de diferencia entre las medias aritméticas de dos muestras aleatorias e independientes. Supongamos que deseamos probar la hipótesis de que el promedio o media aritmética en el voto de oposición a la obra del segundo piso en la Ciudad de México difirió según si el distrito electoral tocaba o no la obra (véase el cuadro VIII.14). En este caso, el grupo o muestra número uno es el grupo de distritos que tocan la obra (n1) y el grupo número dos es el conjunto de los distritos que no tocan la obra (n2). Recordemos que previo a la realización de la prueba Z con esta muestra, necesitaríamos probar el supuesto de normalidad, el cual en este caso sí se cumple.24

Click para ampliar Nuestras hipótesis se formularían de la siguiente manera:

Es decir:

La hipótesis nula asume que la diferencia entre las dos medias aritméticas se debe al azar. Procediendo con el cálculo del estadístico Z, tendríamos que:

Como 2.054 > 1.960, rechazamos Ho y concluimos que las medias aritméticas de los niveles de oposición entre los dos grupos o muestras de distritos electorales son significativamente diferentes desde el punto de vista estadístico. Sin embargo, aunque la diferencia en las dos medias aritméticas efectivamente es muy notable y la prueba podría concluir algo que parece obvio, en realidad hemos incurrido en dos incumplimientos graves respecto a los requisitos de la prueba Z: primero que uno de los grupos tiene un tamaño de muestra muy reducido (n1 = 3), y segundo que las varianzas no son homogéneas. Las dos circunstancias anteriores afectan los resultados de la prueba y pueden provocar que el estadístico nos lleve a tomar una decisión de prueba de hipótesis equivocada: rechazar Ho cuando no debíamos hacerlo. La solución al problema anterior lo veremos a continuación con la prueba t de Student.

VIII.2.3. PRUEBA T DE STUDENT PARA MEDIAS ARITMÉTICAS

Esta prueba fue propuesta por Gossett en 1908 (bajo el seudónimo de Student)25 para resolver el problema de realizar inferencias con base en experimentos con muestras pequeñas (Tankard, 1984). De esta forma también puso la base para el posterior análisis de varianza o prueba F de Fisher. La forma en que resolvió el problema anterior fue realizando un ajuste al error estándar de la media, con base en trabajos matemáticos anteriores de Merriman (1884) respecto a la distribución del error estándar y de Pearson (1900) en relación con la desviación estándar de la muestra. Basado en los trabajos anteriores, propuso una nueva distribución de probabilidades denominada en sus inicios distribución Z, que buscaba sustituir a la distribución normal estándar en el caso de muestras pequeñas y la cual cambia su forma —va normalizándose— según aumenta el tamaño de la muestra. En 1908 presentó las tablas de probabilidades para muestras entre 4 y 10 observaciones y en 1917 las tablas de probabilidades con tamaños de muestra entre 2 y 30 observaciones. A razón de esta última publicación es que se toma como base el umbral de n < 30 para distinguir arbitrariamente entre muestras grandes y pequeñas, y que se justifica, también de manera arbitraria, la utilización de la prueba y distribución t de Student en sustitución de la prueba Z elemental y la distribución normal estándar como se presentó en la sección anterior. La prueba y distribución t no recibió tal nombre sino hasta 1925 por conducto de Fisher. Existen dos modalidades de la prueba t de Student: la prueba con varianzas iguales y la prueba con varianzas desiguales. Cada una define el error estándar de manera diferente. Esto también significa que previo a la aplicación de la prueba t en una prueba de hipótesis sobre diferencias de medias aritméticas, es requisito probar la hipótesis nula de homogeneidad de varianzas (prueba cuyas características se describirán más adelante). La fórmula para calcular el estadístico t de Student con varianzas iguales u homogéneas es la siguiente:

Los grados de libertad para elegir el valor crítico en esta prueba se obtienen de la siguiente manera:

La fórmula para el estadístico t de Student con varianzas desiguales o heterogéneas es la siguiente:

En este caso, los grados de libertad para conocer el valor crítico de la prueba se obtienen de la siguiente manera:

Nótese que el número de grados de libertad podría no ser entero y, de cualquier forma, no se redondea. Para probar si las varianzas de los dos grupos o muestras a comparar son o no homogéneas, tenemos la siguiente prueba F de varianzas:

Esta prueba consiste en una relación de las varianzas de las dos muestras y utiliza la distribución F de probabilidades. Si la relación es estadísticamente significativa, esto implicaría utilizar la prueba t de Student para varianzas desiguales. Lo opuesto sucede si no se detecta una diferencia estadísticamente significativa entre las dos varianzas. Esta prueba y sus grados de libertad se explicarán en la siguiente sección sobre análisis de varianza. Basta por el momento con presentar el cociente. Veamos una aplicación. Utilizando los mismos datos del plebiscito sobre el segundo piso del Periférico en la Ciudad de México, vamos a someter a prueba estadística la misma hipótesis nula de que las medias aritméticas entre

los dos grupos de distritos electorales, aquellos que tocan la obra y aquellos que no lo tocan, no difieren significativamente; es decir, que la media del voto de oposición a la obra del segundo piso del Periférico es similar entre ambos tipos de distritos electorales.26 El primer paso consiste en probar la hipótesis nula de que las varianzas son homogéneas. Esto se formularía de la siguiente manera:

Con base en la información del cuadro VIII.14, y aplicando la relación F o prueba de homogeneidad de dos varianzas muestrales, tenemos que:

Nótese que el numerador del cociente siempre contendrá la varianza de la muestra que sea mayor; de tal forma que el cociente o resultado de la prueba nunca será menor de uno. En este caso tenemos que F = 7.055. Con un nivel de significancia de .05 y con 2 y 36 grados de libertad, respectivamente, el valor crítico del estadístico F en este caso es de 3.260.27 Ya que 7.055 > 3.260, rechazamos Ho y concluimos que las varianzas de las dos muestras son desiguales con un nivel de significancia de 5% o un nivel de confianza de 95%. Con base en lo anterior, sabemos que debemos utilizar la prueba t de Student en la versión de varianzas desiguales. En este caso tenemos que:

Podemos ver que el resultado del estadístico t es idéntico al que obtuvimos anteriormente con la prueba Z. Sin embargo, ahora falta probar la hipótesis de acuerdo a los parámetros de la distribución t de probabilidades, los cuales son definidos por los grados de libertad de la prueba en concreto. En la prueba Z no hay grados de libertad porque los parámetros no son variables, por eso los valores críticos son siempre los mismos.

En este caso tenemos que los grados de libertad de la prueba son 2.046 ya que:

Con 2.046 grados de libertad y un nivel de significancia de 0.05, tenemos que el valor crítico de la prueba es de 4.303. Nótese aquí que la prueba es bidireccional, por lo que el área de la hipótesis nula comprende cualquier resultado de la prueba que varíe entre -4.303 y 4.303; cualquier valor fuera de ese intervalo, cae en el área sumada del 5% de los valores posibles en la distribución. Ya que el estadístico de la prueba 2.054 < 4.303, no podemos rechazar la hipótesis nula. Es decir, en este caso la evidencia estadística sugiere concluir que las medias aritméticas de los niveles de oposición a la construcción del segundo piso no son significativamente diferentes entre los dos tipos de distritos: aquellos que no tocan la obra y aquellos que sí tocan la obra. Esta conclusión es contraria a la ofrecida por las pruebas U de MannWhitney (no paramétrica y para variables ordinales) y la prueba Z (paramétrica y para variables continuas). Nótese entonces cómo cada prueba y sus supuestos pueden llevar a conclusiones diferentes. Cabe agregar que, si se hubieran asumido varianzas iguales, el resultado habría sido estadísticamente significativo, ya que:

Los grados de libertad en este caso son 38 pues:

Con 38 grados de libertad, el valor crítico de la prueba es de 2.024.28 Como 4.595 > 2.021, en este caso rechazaríamos de manera errónea Ho. Esto hubiera sido un probable error puesto que ya vimos que las varianzas de las

dos muestras no pueden ser consideradas homogéneas. De nuevo, sirva este ejemplo para ilustrar que la elección de la prueba estadística puede dirigir la conclusión de la investigación. La deducción más importante que podemos hacer de lo anterior es que no se deben aplicar pruebas de significancia cuando no se cumplen sus requisitos probabilísticos. Por ejemplo, si el requisito del tamaño de la muestra, de la normalidad de los datos, de la independencia de las observaciones o de la homogeneidad de las varianzas no se cumplen, sea uno o varios incumplimientos, entonces se debe proceder con el uso de pruebas no paramétricas, para reducir así el número de requisitos de la prueba y el número de fuentes posibles de error. Es decir, es preferible aplicar pruebas estadísticas con pocos requisitos, aunque limitadas que pruebas estadísticas de forma incompleta y por ende dudosa. Olvidar o prescindir conscientemente de lo anterior aumenta la probabilidad de cometer un error tipo I: rechazar Ho cuando no debimos hacerlo.

VIII.2.4. PRUEBA F O ANÁLISIS DE VARIANZA La prueba F o análisis de varianza se utiliza principalmente, aunque sólo, para probar la hipótesis de una diferencia entre dos o más medias aritméticas de grupos o muestras independientes. Esta prueba fue presentada por Fisher en 1921 para la solución de problemas prácticos —investigación aplicada— cuando el problema implicaba realizar más de dos comparaciones simultáneamente o repeticiones de experimentos con datos de diferentes poblaciones —en este caso de productos agrícolas. El uso de esta prueba se popularizó rápidamente a partir de 1925 con la publicación de su libro Statistical Methods for Research Workers dedicado a los que él llamaba los trabajadores de la investigación. De forma semejante a Student con la prueba t, el primer nombre de esta prueba era prueba Z. Fue Snedecor quien bautizó esta prueba como F en 1934 en honor a Fisher; aunque Mahalanobis ya había utilizado la letra F para titular una tabla de probabilidades relacionada con tal análisis de varianza. Para ilustrar el uso de esta prueba, en esta sección se presentan dos aplicaciones, que en ambos casos se contrastan los resultados frente a los obtenidos con pruebas anteriormente presentadas en este capítulo. El objetivo es seguir ilustrando la importancia del cumplimiento de los requisitos

probabilísticos de cada prueba o técnica y las implicaciones en el incumplimiento en relación con la conclusión de investigación. La primera aplicación es una comparación de dos medias aritméticas o entre dos grupos o muestras independientes; la segunda, es una comparación de medias entre cuatro grupos o muestras independientes. Para el contraste de los resultados de las pruebas, utilizaremos los mismos ejemplos e hipótesis que en la prueba U de Mann-Whitney y la prueba H de Kruskal-Wallis. Nótese que al igual que para casi cualquier prueba paramétrica, la prueba F o análisis de varianza tiene los siguientes requisitos: independencia de las observaciones, homogeneidad de las varianzas, normalidad teórica en la distribución de la población o de las poblaciones representadas por sus muestras, y un tamaño de muestra suficiente para aplicar tales parámetros X~N (μ,σ 2) de normalidad. Recordemos que la prueba t de Student tiene una alternativa cuando las varianzas son desiguales. En tanto, la prueba F no tiene tal alternativa, por lo que, si alguno de estos requisitos no se cumple, es recomendable utilizar una prueba no paramétrica para la prueba de hipótesis de diferencia entre dos o más grupos. Pasemos a la primera aplicación. En este caso deseamos probar la hipótesis de que hay una diferencia estadísticamente significativa entre las medias aritméticas de los niveles de oposición al segundo piso del Periférico entre dos grupos de distritos: aquellos que tocan la obra (n1) y aquellos que no lo hacen (n2). Esta hipótesis la probamos antes, pero de manera parcialmente diferente, utilizando rangos de oposición, y por ende a través de la prueba U de Mann-Whitney. En este caso, ya que estamos utilizando medias aritméticas, la hipótesis la formularemos de la siguiente manera:

Las fórmulas para obtener el estadístico F son las siguientes, según el origen de la variación supuestamente aleatoria en el escenario de hipótesis nula:

Donde:

Y la variación intragrupos se obtiene de la siguiente manera:

Donde:

Finalmente, el estadístico o razón F se obtiene de la siguiente manera:

Nótese entonces que hay dos fuentes posibles de variación: entre e intragrupos. Por lo tanto, para esta prueba se requiere definir dos fuentes de grados de libertad ya que hay dos fuentes de variación y, en consecuencia, dos restricciones. Los grados de libertad nos servirán para definir el valor crítico de la prueba para proceder con el rechazo o no rechazo de la hipótesis nula. Para el caso de esta prueba, los grados de libertad son los denominadores de cada tipo de variación. Es decir, la forma de obtener los grados de libertad para cada fuente de variación y correspondiente restricción es la siguiente:

Los elementos de información necesarios para proceder con la prueba son los que se muestran en el cuadro A.6 (véase anexo). Cabe advertir que estamos presentando los porcentajes como números enteros y no decimales. Hacemos esto para poder mostrar con claridad los valores absolutos de las diferencias a la media.29 Así, lo primero que haremos, será realizar una prueba de homogeneidad de varianzas para corroborar que no se esté incumpliendo este requisito de la prueba. Recordemos que la prueba F no tiene una alternativa de varianzas desiguales como lo tiene la prueba t de Student. En este sentido, tenemos evidencia de que las varianzas son homogéneas ya que, con g = 2:

Para un nivel de significancia de .05, con dos y 36 grados de libertad respectivamente, el valor crítico del estadístico F en este caso es de 3.259. Ya que 2.660 < 3.259, no rechazamos Ho y concluimos que las varianzas de las dos muestras son iguales. Podemos entonces proceder con la prueba F al considerar que este requisito ha sido cubierto. En el cuadro VIII.15 se presentan los cómputos de la variación entre grupos de forma ordenada, paso por paso. CUADRO VIII.15

El cuadro VIII.16 presenta el cálculo desagregado de la variación intragrupos.

Click para ampliar De esta forma, tenemos que el estadístico F resultante de la prueba es:

Para un nivel de significancia de α = .05, con un grado de libertad en la variación intergrupos (numerador) y 38 grados de libertad en la variación intragrupos (denominador), tenemos que el valor crítico de la prueba es igual a 4.10. Ya que 19.684 > 4.10, rechazamos Ho. Por lo tanto, el resultado de la prueba sugiere una diferencia estadísticamente significativa en las medias aritméticas de los niveles de oposición a la obra pública según tipo de distrito electoral, en este caso, entre aquellos que sí tocan la obra en cuestión y aquellos que no la tocan. Esta conclusión coincide con la obtenida a través de la prueba U de MannWhitney. La conclusión no coincide con la obtenida a través de la prueba t de Student. La razón de lo anterior se debe a la forma en que se midió la variable dependiente, en este caso el nivel de oposición a la obra, en cada ocasión: como rango en el porcentaje de voto de oposición por distrito electoral (U de Mann-Whitney), como el total de votos de oposición por distrito electoral (t de Student), y como el porcentaje de voto de oposición por distrito electoral (prueba F). Medido el nivel de oposición como el porcentaje de voto en contra de la obra, se cumplieron tanto el requisito de normalidad como de homogeneidad de varianzas. Pero, medido el nivel de oposición como el total de votos en contra, no se cumplió con el criterio de homogeneidad de varianzas; en cambio, sí se cumplió con el criterio de normalidad, tanto para toda la muestra de distritos electorales (n = 40) como cuando se divide tal muestra en dos grupos o tipos de distritos electorales (n1 = 3, n2 = 37).30 Nótese entonces que las conclusiones pueden diferir no solamente por el tipo de prueba utilizada sino por el tipo de variable o nivel de medición.

A continuación, ilustramos el uso de la prueba F para una comparación de medias aritméticas entre cuatro grupos. En este caso se utilizará la misma información que se presentó para la prueba no paramétrica equivalente y que es la H de Kruskal-Wallis, es decir, el nivel de oposición a una obra pública por distrito electoral como porcentaje del voto total. En este caso, la prueba de hipótesis se formula de la siguiente manera:

La hipótesis nula se rechaza cuando al menos una de las medias aritméticas es significativamente diferente de las otras. Como se hizo anteriormente, el primer paso es realizar una prueba de homogeneidad de varianzas, en este caso, contrastando la varianza más alta con la más baja en el conjunto de los cuatro grupos. El cuadro VIII.17 muestra los estadísticos descriptivos sobre los porcentajes del voto de oposición a la obra pública por tipos o grupos de distritos electorales: aquellos que no tocan el Periférico (n1) y los que están sobre el Periférico al poniente (n2), al sur (n3) y al oriente (n4). CUADRO VIII.17

La prueba de homogeneidad de varianzas nos ofrece el siguiente resultado:

Para un nivel de significancia o alfa de .05 (α = .05) y con tres grados de libertad en el numerador y cuatro en el denominador, tenemos que el valor crítico de la prueba es 6.590. Ya que 35.637 > 6.590, el resultado de la prueba nos sugiere rechazar Ho concluyendo que las varianzas entre los dos grupos de distritos no son homogéneas; en consecuencia, los resultados de la prueba pueden estar comprometidos por el incumplimiento de este supuesto. Hecha la advertencia anterior y siguiendo con el ejercicio ilustrativo del uso de esta prueba, el cuadro VIII.18 muestra el cálculo de la variación entre grupos. CUADRO VIII.18

Seguimos con el cálculo de la variación intragrupos. Véase el cuadro VIII.19.

Click para ampliar Con los elementos de información anteriores ya podemos obtener el

estadístico F el cual es igual a:

Para un nivel de significancia de α = .05 y con tres grados de libertad en la variación intergrupos (numerador) y 36 grados de libertad en la variación intragrupos, tenemos que el valor crítico de la prueba es igual a 2.866. Ya que 5.161 > 2.866, rechazamos Ho y concluimos la presencia de evidencia al respecto de una diferencia estadísticamente significativa en las medias aritméticas de los niveles de oposición a la obra pública según tipo de distrito. Este resultado, aunque debatible por el incumplimiento del requisito de homogeneidad en las varianzas, coincide con el obtenido a través de la prueba H de Kruskal-Wallis para el mismo problema o hipótesis a prueba.

EN RESUMEN Las pruebas de diferencia tienen como objetivo comparar de forma probabilística las muestras de individuos partiendo de los estadísticos descriptivos. Estas pruebas se dividen en paramétricas y no paramétricas. Cabe aclarar que las pruebas no para​métricas son aquellas que no necesitan propiedades de simetría o dispersión en las variables, es decir, son pruebas libres de distribución contrario a las pruebas paramétricas. Además, resulta de gran importancia elegir la prueba correcta para evitar cometer errores de inferencia estadística.

EJERCICIOS DE PRÁCTICA

1.

Prueba exacta de Fisher. Estos son los resultados de una muestra aleatoria de 21 entrevistas de la Encuesta Nacional de Adicciones 2008, en ellos se muestra la distribución de la opinión de los hombres y mujeres respecto a la legalización de las drogas. ¿Cuál es la probabilidad exacta de obtener un cuadro de frecuencias observadas igual a éste? ¿Es éste un resultado estadísticamente significativo? Utilice la prueba exacta de Fisher para responder a las preguntas y use una prueba bidireccional con un 95% de confianza para responder la segunda pregunta (α/2 = .025). Hombres

Mujeres

Total

En contra

6

8

14

A favor

4

3

7

10

11

21

Total

2.

Corrección de continuidad de Yates. Usando los datos de la pregunta anterior, realice la prueba por corrección de continuidad de Yates y diga si la opinión de los hombres y mujeres es similar o no con un nivel de confianza de 95%.

3. Prueba U de Mann-Whitney. A continuación, se presentan los ingresos obtenidos por 20 reclusos, hombres y mujeres, en la comisión de sus delitos, tales datos corresponden a una muestra de las encuestas de reclusión del CIDE (Bergman et al., 2002 y 2006). Usando un nivel de significancia de 0.05, la prueba U de Mann-Whitney y la corrección de Siegel y Castellan, diga si los ingresos son estadísticamente diferentes entre hombres y mujeres. Tome como grupo de referencia a las mujeres. Sexo

Ingreso

1

Femenino

$ 20 000

2

Femenino

$ 80 000

3

Femenino

$ 67 000

4

Masculino

$ 15 000

5

Masculino

$ 10 000

6

Masculino

$ 1 000

7

Masculino

$ 5 000

8

Masculino

$ 1 500

9

Masculino

$ 2 000

10

Femenino

$ 1 700

11

Femenino

$ 17 000

12

Masculino

$ 300 000

13

Masculino

$ 4 000

14

Masculino

$ 85 000

15

Masculino

$ 180 000

16

Masculino

$ 6 000

17

Femenino

$ 100 000

18

Femenino

$ 22 000

19

Masculino

$ 6 500

20

Femenino

$ 8 000

4.

Prueba H de Kruskal-Wallis. Retomando los datos del problema anterior e incorporando la variable delegación a la que pertenecía el recluso, diga si existe diferencia estadísticamente significativa en el ingreso obtenido por los delincuentes según la delegación a la que pertenecían. Use la prueba H de Kruskal-Wallis con un nivel de significancia de .05. Sexo

Ingreso

Rango

Delegación

Masculino

$ 300 000

1

Tlalpan

Masculino

$ 180 000

2

Cuauhtémoc

Femenino

$ 100 000

3

Iztacalco

Masculino

$ 85 000

4

Iztacalco

Femenino

$ 80 000

5

Tlalpan

Femenino

$ 67 000

6

Iztapalapa

Femenino

$ 22 000

7

Iztapalapa

Femenino

$ 20 000

8

Iztapalapa

Femenino

$ 17 000

9

Cuauhtémoc

Masculino

$ 15 000

10

Iztacalco

Masculino

$ 10 000

11

Iztapalapa

Femenino

$ 8 000

12

Cuauhtémoc

Masculino

$ 6 500

13

Cuauhtémoc

Masculino

$ 6 000

14

Iztapalapa

Masculino

$ 5 000

15

Iztapalapa

Masculino

$ 4 000

16

Cuauhtémoc

Masculino

$ 2 000

17

Tlalpan

Femenino

$ 1 700

18

Iztapalapa

Masculino

$ 1 500

19

Iztacalco

Masculino

$ 1 000

20

Cuauhtémoc

5.

Prueba Z para proporciones. Los resultados de las encuestas de reclusión del CIDE (Bergman et al., 2002 y 2006) sostienen que 18.1% de los reclusos intentó ir alguna vez a Estados Unidos (p = .181). Suponga que los datos cumplen con los supuestos de normalidad. Con esta información, realice los siguientes cálculos:

a) Suponga que la proporción de la población de reclusos que intenta ir a

Estados Unidos es de 30% (π = .3). Usando la prueba Z para proporciones con un nivel de significancia de 0.5 diga si la proporción muestral de las encuestas de reclusión del CIDE (Bergman et al., 2002 y 2006) es estadísticamente diferente respecto a la proporción poblacional. b) Ahora, incorporando los porcentajes obtenidos en la primera encuesta de población en reclusión 2002 (véase la tabla abajo), pruebe si existe diferencia estadísticamente significativa entre ambas proporciones muestrales. 2002

2008



14%

18.10%

No

86%

81.90%

6.

Prueba Z para medias aritméticas. A continuación, se enlista una muestra con la edad de 40 personas, 20 hombres y 20 mujeres, que mencionaron en la Encuesta de Victimización y Eficacia Institucional del primer semestre de 2011 haber sido víctimas de algún tipo de robo. Use la prueba Z para medias aritméticas con un nivel de significancia de .05 y pruebe si la media aritmética de la edad de ambos grupos es estadísticamente diferente. Edad de hombres

Edad de mujeres

1

28

45

2

18

72

3

30

56

4

36

44

5

81

69

6

38

74

7

35

72

8

66

56

9

55

81

10

76

57

11

49

59

12

52

74

13

30

22

14

58

18

15

49

50

16

35

58

17

85

77

18

68

85

19

22

48

20

40

58

7.

Prueba t de Student para medias aritméticas. Con los 20 casos de la tabla usada en el problema anterior en relación con la edad de las víctimas de robo, realice las siguientes pruebas con un nivel de significancia de 0.05:

a) Una prueba F para determinar si las varianzas de ambas muestras son estadísticamente diferentes. b) Una vez hecho lo anterior, use la prueba t de Student correspondiente para medias aritméticas y determine si ambas medias difieren significativamente. c) Adicional. Los problemas 6 y 7 se refieren a medias aritméticas, sin embargo, se utilizan pruebas diferentes, ¿por qué? ¿Cuándo se debe utilizar la prueba Z y cuando la prueba t en el caso de comparar medias aritméticas?

8. Prueba F o análisis de varianza. Nuevamente se enlista una muestra de las ganancias obtenidas de 20 reclusos (véase la tabla abajo) y las delegaciones a las que pertenecían. Con un nivel de significancia de 0.05 realice lo siguiente: a) Una prueba F para determinar si las varianzas de los cuatro grupos asociados por delegación son estadísticamente diferentes. b) Asumiendo que los cuatro grupos tienen varianzas homogéneas, haga una prueba F (análisis de varianza) y determine si las medias difieren

estadísticamente. c) Adicional. En los problemas 7 y 8 se han realizado pruebas relacionadas con las medias aritméticas, sin embargo, se han utilizado pruebas diferentes, ¿por qué? ¿Cuándo se debe utilizar la prueba t y cuando la prueba F o análisis de varianza en el caso de comparar medias aritméticas? Dinero

Delegación

1

$ 300 000

Tlalpan

2

$ 80 000

Tlalpan

3

$ 2 000

Tlalpan

4

$ 180 000

Cuauhtémoc

5

$ 17 000

Cuauhtémoc

6

$ 8 000

Cuauhtémoc

7

$ 6 500

Cuauhtémoc

8

$ 4 000

Cuauhtémoc

9

$ 1 000

Cuauhtémoc

10

$ 100 000

Iztacalco

11

$ 85 000

Iztacalco

12

$ 15 000

Iztacalco

13

$ 1 500

Iztacalco

14

$ 67 000

Iztapalapa

15

$ 22 000

Iztapalapa

16

$ 20 000

Iztapalapa

17

$ 10 000

Iztapalapa

18

$ 6 000

Iztapalapa

19

$ 5 000

Iztapalapa

20

$ 1 700

Iztapalapa

9.

Adicional. ¿Cuáles son los supuestos que se deben cumplir para usar la prueba Z?

RESPUESTAS A LOS EJERCICIOS

1. La probabilidad de obtener este arreglo de frecuencias es igual a 29.8% y dado que α/2 = .025, p > α no se podría argumentar que existe una diferencia de opinión entre los hombres y las mujeres.

2.

El valor de chi cuadrado calculado con los datos es igual a 0.0239 y el valor del estadístico en tablas con un grado de libertad es 3.841. Debido a que 0.0239 < 3.841, no se puede rechazar la Ho de que la opinión es similar entre ambos sexos, es decir, no se podría argumentar que existe una diferencia de opinión entre los hombres y las mujeres.

3. El estadístico U=64 y el valor Z usando la corrección Siegel y Castellan igual a 1.1959. Debido a que 1.1959 < 1.96 (valor Z con 0.05 de significancia), no podemos rechazar la Ho, es decir, no podemos rechazar que los ingresos entre reclusos hombres y mujeres son iguales. En conclusión, no tenemos evidencia estadísticamente significativa para afirmar que los ingresos de hombres y mujeres son diferentes.

4. El valor del estadístico H es de 1.4544 y la chi cuadrada con α = .05 y tres gl. es de 7.815. Debido a que 1.4544 < 7.815 no podemos rechazar Ho de que los ingresos de los reclusos agrupados por delegación sean iguales. En otras palabras, no tenemos certeza estadística de que el ingreso de los reclusos cambie en función de la delegación a la cual pertenecían.

5. a) El valor Z obtenido es de –9.3988, el cual es menor que Z en tablas –1.96 (–9.3988 se encuentra en el área de rechazo de la distribución Z), por lo que se rechaza la Ho de que la proporción muestral (0.181) es igual a la proporción poblacional (0.3). Es decir, se tiene evidencia de que la proporción muestral es significativamente diferente a la proporción poblacional. b) El valor Z obtenido es de –2.993 el cual es menor que Z en tablas –1.96 (– 2.993 se encuentra en el área de rechazo de la distribución Z), por lo que se rechaza la Ho de que ambas proporciones muestrales son iguales, es decir, ambas proporciones muestrales son diferentes a un nivel de significancia estadística de .05.

6. El valor Z obtenido es de –1.8814, el cual es mayor que Z en tablas –1.96 (–1.8814 se encuentra en el área de no rechazo de la distribución Z), por lo que no se puede rechazar la Ho de que ambas medias aritméticas son iguales, es decir, no se tiene evidencia estadísticamente significativa de que la media aritmética de hombres y mujeres es diferente.

7. a) El valor del estadístico F calculado con los datos es de 2.913 y el valor en las tablas con 9 y nueve grados de libertad es de 3.179. Por consiguiente, no se puede rechazar la Ho de que ambas varianzas son iguales, en otras palabras, con un nivel de confianza de 95% no se tiene certeza estadística de que ambas varianzas sean diferentes. b) Bajo el supuesto de varianzas semejantes, se usa la prueba t para varianzas iguales. El estadístico t para el conjunto de datos es –2.0456, en tanto que el valor en tablas para α/2 = .025 y 18 grados de libertad (n1+n2–2) es – 2.1009. Dado que –2.0456 > –2.1009, por lo mismo –2.0456 se encuentra en el área de no rechazo, podemos afirmar que las medias de ambos grupos no difieren significativamente. c) Recordemos que la prueba Z para medias aritméticas requiere, entre otros elementos, de homogeneidad entre las varianzas y tamaño de la muestra grande. Si lo anterior no se cumple, tenemos la posibilidad de usar la prueba t de Student que fue ajustada para muestras pequeñas y posee dos tipos de prueba según las varianzas sean o no homogéneas.

8. a) El valor del estadístico F calculado con los datos es de 46.8407 y el valor en las tablas con dos (n-1 del grupo con mayor varianza) y seis (n–1 del grupo con menor varianza) grados de libertad es de 5.14. Debido a que 46.8407 > 5.14, se rechaza la >Ho de que ambas varianzas son iguales, es decir, se tiene evidencia estadísticamente significativa de que las varianzas son diferentes (no son homogéneas).

b) El estadístico F calculado con los datos es de 1.6476 y el valor en las tablas con tres (g–1) y 16 (n–g) grados de libertad es de 3.24. Debido a que 1.6476 < 3.24, no podemos rechazar la Ho de que al menos una media aritmética es diferente a las otras estadísticamente. c) Por un lado, la prueba F da oportunidad para comparar dos o más medias aritméticas de grupos o muestras diferentes para saber si son o no diferentes. Por otro lado, la prueba t de Student sólo compara dos medias. Un punto a recordar es que la prueba Z, como casi cualquier prueba paramétrica, requiere independencia de las observaciones, homogeneidad de las varianzas, normalidad en la distribución de la población o poblaciones representadas y un tamaño de muestra suficiente. Si las varianzas fuesen desiguales no podríamos utilizar la prueba Z pero sí la prueba t de Student.

9.

Para poder aplicar la prueba Z se necesita cumplir con los siguientes requisitos:

a) Las observaciones deben ser independientes. b) La población de la cual provienen las muestras se distribuye normalmente. c) Las varianzas de las dos muestras son homogéneas (es decir que no son significativamente diferentes). d) Las muestras son de tamaño grande. e) Además es requisito conocer o asumir la variabilidad de la población puesto que la prueba no puede aplicarse cuando no se conoce tal variabilidad.

SITIOS DE INTERÉS • United Nations Interregional Crime and Justice Research Institute (http://www.unicri.it/)

• Instituto Nacional de Ciencias Penales (http://www.inacipe.gob.mx/) • Instituto Nacional de Estadística de España (http://www.ine.es/) 1

Wilcoxon lo realizó por un problema práctico y muy importante en la investigación: la existencia de observaciones con valores extremos en las muestras, las cuales pueden ser analíticamente esenciales en el estudio y que no pueden ser excluidas o borradas de la muestra, simplemente para cumplir con el principio de normalidad. 2

Por ejemplo sobre cuál es su localización (μ) y dispersión (σ).

3

Se dice que Gossett reconoció públicamente sólo haber entendido una tercera parte de la publicación original del estadístico chi cuadrado (Pearson, 1939). Las primeras seis páginas del documento se abocan a la presentación algebraica de la base teórica de la distribución. No es sino hasta la página siete cuando se introduce la fórmula del estadístico chi cuadrado en relación con el estadístico Z. 4

La distribución chi cuadrado es una distribución continua, aproximada a la normal, para variables discretas. 5

Con un grado de libertad, la raíz cuadrada del estadístico chi cuadrado es igual a Z.

6

Particularmente del lado de Pearson.

7

Yule y Greenwood también habían advertido sobre este problema en 1915.

8

Este valor se obtuvo del cuadro A.1. de valores críticos de la prueba chi cuadrado. Véase en el anexo. 9

La prueba de hipótesis no se podría realizar si no se contara con muestras representativas estatales de la población bajo estudio. 10

11

Las variables nominales son las más utilizadas en las encuestas.

Esta norma de una fe < 5 proviene de una decisión arbitraria de Fisher que se mantiene desde entonces. Sobre la decisión de que una n < 20 constituye una muestra pequeña, esto es una interpretación también posterior sobre un trabajo presentado en 1925 por el mismo autor, quien utiliza una n = 20 para ilustrar una aplicación de la prueba binomial para inferir sobre la base de

información proveniente de una muestra llamada por él pequeña. Nótese que aunque ambos estaban muy interesados en el tratamiento probabilístico de información proveniente de muestras pequeñas, ni Fisher ni Student definieron o propusieron numéricamente alguna vez lo que es una muestra pequeña. Las interpretaciones han sido más bien posteriores. 12

A pregunta expresa de otro matemático de apellido Finney en 1948. Para mayores detalles, véase la transcripción de la respuesta de Fisher citada por Yates (1984: 444). 13

En este último caso que presentamos p = .010 * 2.

14

Esto se relaciona con su enfoque en mantener niveles de significancia flexibles según el problema bajo estudio, aunque corresponde a él la popularización de los niveles de significancia del 1% y 5% por su libro de 1925. 15

Se ha modificado en este caso la nomenclatura de los autores en algunos elementos para uniformarla con los demás estadísticos presentados en el libro. 16

Un empate significa que hay observaciones en la muestra que comparten el mismo rango o valor de ranqueo. 17

El Periférico es una autovía de alta importancia en la Ciudad de México.

18

En inglés “Anova” por Analysis of Variance.

19

En el caso en que no se conociera, se puede utilizar la prueba t de Student.

20

Véase el cuadro A.5. en el anexo.

21

En este caso no es necesario conocer o asumir la variabilidad de la población; se está probando si las dos proporciones provienen de la misma población, independientemente de la variabilidad en la misma, o quizá dependiendo de la variabilidad de las dos muestras. 22

Hay muchas pruebas diferentes que utilizan estadísticos Z. La relación que guardan todos estos estadísticos es que sus pruebas de significancia hacen uso de la distribución normal. La prueba que presentamos aquí también se llama de puntuaciones Z o errores estándar. Es la prueba paramétrica elemental.

23

Téngase claro que esta prueba solamente puede inferir sobre medias aritméticas; no es aplicable con medias armónicas o geométricas. 24

Se aplicó la prueba de normalidad de Kolmogorov-Smirnov y el resultado fue Zks = 1.029, p = 0.240. Ya que 0.240 > .05, no rechazamos la hipótesis nula de una distribución normal en la variable dependiente, en este caso, el voto de oposición a la obra. 25

No ha sido el único que ha utilizado pseudónimos en el área de estadística. Otros dos de sus alumnos en la compañía cervecera Guinness fueron Somerfield, quien publicaba bajo el pseudónimo Mathetes, y Story con el pseudónimo de Sophistes; el primer pseudónimo significa “discípulo” y el segundo hace referencia a un experto. 26

Naturalmente hay muchos motivos por los que podrían diferir; en este caso solamente se prueba si la diferencia puede ser atribuible al azar o no. Una prueba estadística no contiene más evidencia que la anterior. 27

Con un nivel de significancia donde el numerador de la tabla es igual a dos y sólo por aproximación, hacemos el denominador igual a 30 porque no se cuenta con el valor crítico para n2 – 1 = 36. 28

Véase el cuadro A.5. de valores críticos de la prueba t de Student de dos colas en el anexo.

29

Con el uso de los decimales esto no sería posible, pues, al tratarse de milésimas o diez milésimas, los valores serían imperceptibles en el cuadro. Los resultados de la prueba no difieren por la utilización de porcentajes como números enteros o como decimales. 30

Ambos grupos o muestras de distritos cumplen con el criterio de normalidad de acuerdo a resultados de la prueba Z de Kolmogorov-Smirnov para normalidad.

Métodos no paramétricos. También llamados métodos libres de distribución, son el conjunto de técnicas y procedimientos para la estimación e inferencia que se basan en funciones obtenidas a partir de los datos de la muestra, y donde la distribución de probabilidades no depende de una especificación realizada sobre la población de la que se extrajo tal muestra (Everitt y Skrondal, 2010).

Métodos paramétricos. Conjunto de técnicas y procedimientos abocados a la prueba de hipótesis sobre los parámetros de una población que asumen una distribución específica, típicamente la distribución normal estándar (Everitt y Skrondal, 2010).

Capítulo IX. Pruebas de asociación

Objetivos de aprendizaje • • • • • • •

Comprender el significado de asociación y correlación entre variables. Entender la importancia de la asociación en relación con el análisis causal. Conocer y comprender cada una de las pruebas de asociación, ya sean paramétricas o no paramétricas, con fines prácticos. Identificar los supuestos estadísticos que forman la base de las pruebas de correlación. Aprender a interpretar los resultados obtenidos a partir de cada una de las pruebas. Reconocer la relación entre los coeficientes rho de Spearman y r de Pearson. Valorar la posibilidad de probar si dos coeficientes de correlación son estadística y significativamente diferentes.

Otra perspectiva en el análisis inferencial consiste en la prueba de hipótesis de asociación entre variables, también conocidas como hipótesis

correlacionales. Cabe aclarar que el término asociación entre variables se refiere a la teoría y metodología del procedimiento de hipótesis, mientras que el término correlación es más técnico y dirigido a una discusión estadística. En la investigación social es de interés elemental probar si dos o más variables se encuentran estadística y significativamente relacionadas, es decir, si la relación no se debe al azar. Esto es elemental porque el análisis relacional es un prerrequisito del análisis causal. La asociación o correlación, al igual que la diferencia o comparación, es el inicio de la explicación de los fenómenos. Tanto así que no puede hablarse de una causación sin correlación. Nótese, sin embargo, que lo inverso sí es posible casuísticamente. Es posible encontrar correlaciones estadísticamente significativas sin una mediación teórica medianamente visible o mínimamente lógica posible. Esto es lo que se denomina “correlación espuria”. Es decir, una correlación estadística sin conexión lógica. Es por lo anterior que, al igual que se comentó en la presentación de las pruebas de diferencia, es requisito sine qua non fundamentar de manera teórica toda prueba de hipótesis de asociación o correlacional que se realice. Si la correlación es completamente exploratoria porque la investigación es inédita, es decir, porque no hay ningún referente teórico, es necesario presentar el mecanismo causal esperado. Bajo estándares científicos no es aceptable, por insuficiente, presentar solamente los resultados de una prueba de significancia para presentar una conclusión correlacional, y mucho menos causal. Todo argumento correlacional, como todo argumento científico, requiere un fundamento teórico, o al menos, alguna intuición lógica conceptual expresada en los mecanismos causales esperados. Al igual que las pruebas de diferencias, las pruebas de asociación también se distinguen entre paramétricas y no paramétricas. Estas técnicas correlacionales también se soportan en supuestos probabilísticos. Por ello, este capítulo se divide en dos secciones. En la primera se muestran los coeficientes de correlación no paramétricos. Los estadísticos no paramétricos o libres de distribución, en este caso coeficientes no-paramétricos, no realizan supuestos sobre la distribución de las dos variables. Por esta razón dichos coeficientes son considerados como inherentemente robustos (Gibbons y Chakraborti, 2003). Aunque algunos de estos coeficientes derivan del coeficiente de correlación lineal de Pearson (por ejemplo, rho de Spearman), que es un coeficiente paramétrico, se puede anticipar que su cálculo es

sencillo porque estos coeficientes fueron (re)diseñados para realizar pruebas de hipótesis de asociación entre variables ordinales, las cuales son muy frecuentes en encuestas de opinión. En este punto, es necesario precisar que los coeficientes que se presentan sólo pueden calcular y probar la correlación entre dos variables del mismo nivel de medición. Es un error bastante común obtener coeficientes de correlación entre variables de niveles de medición diferentes. El error estriba en que los coeficientes estarán mal calculados porque no habrán capturado correctamente la magnitud de la relación y, en consecuencia, la prueba de significancia sobre el mismo coeficiente puede llevar a un error en la conclusión del procedimiento de prueba de hipótesis nula. Los coeficientes presentados en este capítulo deben aplicarse a variables con los mismos niveles de medición.1 En la segunda sección se presenta el coeficiente r de Pearson, el cual es un coeficiente paramétrico. Este coeficiente sólo puede calcularse cuando las dos variables en la prueba de hipótesis son continuas y se distribuyen normalmente;2 si alguno de estos dos requisitos no se cumple, es necesario transformar las dos variables a un nivel de medición más bajo, es decir discreto, por ejemplo en rangos o variable ordinal, y proceder con la prueba utilizando un coeficiente no paramétrico ad hoc a ese nivel de medición. Todo coeficiente que no cumple con sus requisitos de operación es un coeficiente de validez cuestionable y, por ende, el resultado de la prueba de hipótesis también es estadísticamente cuestionable. El diagrama IX.1 muestra la guía de pruebas o coeficientes de correlación según el nivel de medición o tipo de variables bajo análisis. DIAGRAMA IX.1

Fuente: Elaboración propia.

Los coeficientes que se presentan en la primera sección son los cuatro siguientes: phi (φ), V de Cramér (V o φc),3 rho de Spearman (ρ), y W de Kendall (W).4 La segunda sección presenta el coeficiente r de Pearson.

IX.1. COEFICIENTES NO PARAMÉTRICOS IX.1.1. COEFICIENTE PHI Aunque desarrollado por Yule en 1912, este coeficiente se fundamenta en el coeficiente de contingencia de Pearson de 1904. Tanto el coeficiente de contingencia como el coeficiente phi se basan en el estadístico chi cuadrado de Pearson. Es por lo anterior que ambos son coeficientes de correlación para dos variables nominales. El coeficiente de contingencia (C) de Pearson (1904) se calcula de la siguiente manera:

Donde Q corresponde al estadístico chi cuadrado de Pearson (χ2). Los valores posibles del coeficiente varían entre 0 y 0.707.5 Además de que el coeficiente no puede ofrecer valores negativos —por lo que no se puede saber la direccionalidad de la asociación entre las dos variables—, en la ausencia de estudios similares previos, este límite fraccionario implica una limitación del coeficiente para efectos de interpretación en investigación. En tablas de 2x2, es decir, con dos variables dicotómicas, el coeficiente de correlación phi posee una variación posible entre 0 y 1, lo que permite a su vez una interpretación más fácil de la magnitud de la relación. Este coeficiente se calcula de la siguiente manera (Sheskin, 2004):

Podemos ver que la diferencia entre el coeficiente de contingencia de Pearson y el coeficiente phi está en la inclusión o exclusión del estadístico de la diferencia en el denominador. Nótese también que, en el uso de dos variables dicotómicas, el coeficiente phi será igual al coeficiente r de Pearson para variables continuas. Es por las razones anteriores que la mayor parte de los artículos científicos prefieren reportar el coeficiente phi en oposición al coeficiente de contingencia de Pearson. Otra forma ventajosa de calcular el coeficiente phi, de manera directa y sin necesidad de calcular previamente el estadístico chi cuadrado, es la siguiente (McNemar, 1962):

Donde la localización de a,b,c y d pueden observarse en el cuadro de contingencias presentado en la sección sobre el estadístico exacto de Fisher. Esta forma de calcular el coeficiente permite ya tener un signo positivo o negativo en el coeficiente, por lo que se puede conocer la direccionalidad en la relación hipotetizada.

Otra forma más sencilla de calcular el coeficiente es la siguiente:

Donde e, f, g y h son los marginales del cuadro de contingencias. Para efectos de la prueba de significancia del coeficiente, su distribución no es conocida, pero se asume una distribución de probabilidades del tipo chi cuadrado. Veamos un ejemplo del coeficiente phi. Primero presentaremos la formulación del problema y sus hipótesis estadísticas. Supongamos que deseamos probar la hipótesis de que hay una correlación entre la venta de drogas duras entre jóvenes estudiantes de bachillerato y la circunstancia de que los padres toman alcohol diariamente. En primera instancia, los resultados de la Primera Encuesta Nacional sobre Exclusión, Intolerancia y Violencia en las escuelas públicas del nivel medio superior de México de 2007, nos muestran una mayor proporción de vendedores de drogas duras entre aquellos estudiantes que reportan tener padres que consumen alcohol diariamente (11.8%) versus aquellos que reportan lo contrario (3.3%). Esto es lo mismo que decir que hay una diferencia entre los dos grupos. CUADRO IX.1

Para probar si existe una asociación estadísticamente significativa entre las dos variables o circunstancias, las hipótesis correlacionales se definirían de la siguiente manera:

La hipótesis nula predice que no hay una correlación entre ambas variables al definir que el coeficiente phi tendrá un valor igual a cero. A continuación calculamos el coeficiente y encontramos que la correlación es positiva pero no parece ser alta:

La correlación es positiva puesto que indica que a una mayor frecuencia de reportes de consumo diario de alcohol en el hogar, corresponde una mayor frecuencia de reportes de venta de drogas duras. Se interpreta que la correlación no parece ser alta puesto que el coeficiente es cercano a cero. Recordemos que este coeficiente puede variar entre 0 y 1, donde 0 es ausencia de correlación y 1 es perfecta correlación. Para probar la hipótesis nula es necesario calcular la significancia estadística del coeficiente. En este caso, vamos a derivar el valor del estadístico chi cuadrado, y a partir del mismo observaremos su probabilidad. Siendo que:

Tenemos que:

Es decir:

Con un grado de libertad, el valor crítico de la prueba para rechazar o no rechazar la hipótesis nula de una ausencia de correlación es 3.84.6 Ya que 62.067 > 3.84, el resultado de la prueba sugiere rechazar la hipótesis nula (Ho) y concluir la existencia de una asociación estadísticamente significativa y positiva entre las dos variables, consumo diario de alcohol en el hogar por parte de los padres y venta de drogas duras entre adolescentes. Sin embargo, como ya comentamos, podemos ver que la magnitud de la correlación, si bien es altamente probable, es de una magnitud baja. Lo anterior no lo podríamos haber concluido de no haber realizado una prueba correlacional.

IX.1.2. COEFICIENTE V DE CRAMÉR Este coeficiente se utiliza para probar la hipótesis de una asociación entre dos variables nominales X y Y no dicotómicas, es decir, con tres o más categorías.

Toma la siguiente forma (Cramér, 1946):

Donde q equivale al número mínimo de reglones o columnas en el cuadro de contingencia; es decir, la variable discreta con el menor número de categorías. Su valor varía entre 0 y 1, donde 0 equivale a una nula correlación (o completa independencia entre las dos variables) y 1 equivale a una correlación perfecta. Al derivar del estadístico chi cuadrado, la prueba de significancia es similar a la utilizada para el coeficiente phi. En este caso:

Los grados de libertad para la prueba de significancia se obtienen de la siguiente manera:

Donde r es el número de reglones y c el número de columnas en el cuadro de frecuencias. Veamos un ejemplo. Deseamos probar la hipótesis de una relación entre el tipo de daño físico realizado sobre la víctima de un delito y el tipo de relación entre el agresor y la víctima. La fuente de información es la encuesta a Población en reclusión de 2005. De acuerdo a la información con que se cuenta, tenemos dos variables nominales no dicotómicas (véase el cuadro IX.2). Por un lado, el tipo de daño sobre la víctima se midió en esta encuesta en tres categorías diferentes: murió, lesiones graves y lesiones leves. Por otro lado, la medición al respecto de la relación entre el agresor y la víctima se divide en cuatro categorías diferentes: era desconocido, familiar, amigo y otro. La variable con el menor número de categorías es el tipo de daño físico realizado (q = 3). Antes de proceder con el cálculo del coeficiente de correlación, formulamos las hipótesis, las cuales quedarían definidas de la siguiente manera:

En este caso, tenemos que el valor del coeficiente es:7

La prueba de significancia del coeficiente nos da, circularmente, el siguiente resultado, el cual ya fue presentado:

CUADRO IX.2

Los grados de libertad para la prueba de significancia se obtienen de la siguiente manera:

Con seis grados de libertad y con un nivel de significancia estadística de 0.05, el valor crítico de la prueba para rechazar o no rechazar la hipótesis nula de una ausencia de correlación entre las dos variables es de 12.592. Como 6.452 < 12.592, el resultado de la prueba sugiere no rechazar la hipótesis nula (Ho). Es decir, concluir que no hay una correlación estadísticamente significativa entre ambas variables. Parece ser que no hay evidencia estadística de una asociación entre el tipo de daño realizado sobre la víctima en el delito y el tipo de relación entre la víctima y el agresor. Nótese que, si en vez de haber calculado el coeficiente V de Cramér, hubiéramos calculado el coeficiente phi, habríamos obtenido el siguiente

resultado:

Si bien la conclusión en la prueba de hipótesis hubiera sido la misma, es decir, no rechazar Ho, es importante considerar que el coeficiente es de una magnitud diferente, lo cual podría llevar a conclusiones de investigación erróneas; en este caso, una sobreestimación de la magnitud en la asociación entre las dos variables.8

IX.1.3. COEFICIENTE RHO DE SPEARMAN Este coeficiente fue elaborado entre 1904 y 1907. Spearman fundamentó su investigación sobre correlaciones entre dos variables medidas en rangos con base en el trabajo matemático previo de tres autores principalmente: Bravais en 1846, Galton en 1888 y Pearson en 1896 (Spearman, 1904). Este coeficiente es una extensión del coeficiente r de Pearson para variables ordinales. El coeficiente rho de Spearman permite medir el grado de correlación entre dos variables ordinales y probar la hipótesis nula de que tal coeficiente es diferente de cero y por lo tanto estadísticamente significativo. Naturalmente, él no hablaba ni de pruebas de hipótesis ni de coeficientes estadísticamente significativos, sino que sólo procuraba obtener un coeficiente que resumiera el grado de correspondencia entre dos variables ordinales bajo cierta probabilidad normal, como luego demostró Hoffding para el caso de muestras grandes en 1948. Nótese que se utiliza la nomenclatura ρ cuando se habla del coeficiente de correlación de la población de las dos variables y de r cuando se habla del coeficiente de correlación de las muestras. Con base en la información muestral, la fórmula del coeficiente es la siguiente (Gibbons, 1993):

Donde d es la diferencia entre los dos rankings en cada observación de la

muestra de las variables X y Y respectivamente, y el valor del coeficiente varía entre –1 y 1, donde el primer valor indica una correlación negativa perfecta y el segundo una correlación positiva perfecta. Este coeficiente requiere una corrección cuando hay observaciones con rangos empatados; es decir, todas las observaciones deben tener un rango exclusivo. La implicación de calcular el coeficiente sin realizar una corrección, es que el coeficiente resultante estará sobreestimado. Hay varias formas de realizar la corrección y recalcular el coeficiente. La forma más sencilla y práctica es promediar los rangos empatados y proceder con el cálculo sobre la misma fórmula. Esto lo ilustraremos más adelante. La prueba de significancia del coeficiente se realiza a través de una prueba t de Student con la siguiente forma (Gibbons y Chakraborti, 2003):

Es así que la prueba utiliza una distribución t de probabilidades sobre el coeficiente, y el valor crítico de la prueba se obtiene de la siguiente manera:

Otra forma de realizar la prueba de significancia es a través de la distribución normal por medio de puntuaciones Z. Esto se haría de la siguiente manera:

En la prueba de hipótesis nula Ho, se asume que la media de la población de los coeficientes en la distribución es igual a cero, es decir, µr = 0. Veamos a continuación cómo obtener un coeficiente de correlación de Spearman para el caso de dos variables sin empates. Supongamos que se desea probar la hipótesis nula de que no hay una correlación entre la tasa de presuntos por el delito de robo y la tasa de presuntos por el delito de homicidio en 60 áreas metropolitanas de México. Es decir, que las tasas de ambos tipos de delitos son independientes. Ya que la hipótesis nula predice que no habrá una correlación, se espera que el coeficiente resultante de la prueba sea igual a cero. Es decir, las hipótesis

serían:

El cuadro IX.3 muestra tales rankings en las tasas de las dos variables. El año de medición es 2007 y la fuente original de información son las estadísticas judiciales del Instituto Nacional de Estadística y Geografía (INEGI).9 Las diferencias entre los rankings, que son parte del cómputo, se incluyen en el cuadro.

Click para ampliar Con base en la información contenida en el cuadro, podemos calcular el coeficiente de correlación. Éste se obtiene de la siguiente manera:

A continuación, para probar la hipótesis nula de que el coeficiente no es significativamente diferente de cero utilizamos la prueba t de Student para coeficientes de correlación. Ésta nos da el siguiente resultado:

Para un nivel de significancia de 0.05 y con 58 grados de libertad (60-2), el valor crítico de t es igual a 2.001. Ya que 5.442 > 2.001, se concluye que hay evidencia suficiente para rechazar Ho y argumentar probabilísticamente que hubo una correlación positiva entre las tasas de presuntos por robo y homicidios durante 2007 en esta muestra de 60 áreas metropolitanas. Si en vez de utilizar la distribución t de probabilidades, usáramos la distribución normal estándar, obtendríamos la misma conclusión al respecto de rechazar Ho. En este caso tenemos que:

Como 3.999 > 1.960, también concluiríamos que hay evidencia de una relación estadísticamente significativa entre las dos variables. Pasemos ahora a ver una aplicación del coeficiente en el caso de rangos empatados. Por simplicidad en la ilustración, utilizaremos un ejemplo con una muestra reducida. Supongamos que se desea probar la misma hipótesis, es decir, una relación entre los rangos en las tasas de presuntos por homicidio y robo, pero ahora en el caso de los nueve municipios del área metropolitana de Monterrey. El cuadro IX.4 muestra tales rangos, donde para el caso de la tasa de homicidios hay varios municipios empatados. Podemos ver que hay seis municipios empatados en cuanto a sus tasas de homicidios. Los rangos pueden asignarse de la siguiente manera: los municipios 2, 3 y 4 pueden sumarse y, al dividir entre 3, tendremos un rango empatado de 3 para los tres casos [(2+3+4) / 3 = 3]. Se hace lo mismo para el siguiente conjunto de municipios empatados; en este caso son los municipios 5 a 7: el rango empatado es igual a 6, ya que (5 + 6 + 7) / 3 = 6. La variable tasa de robos no muestra ningún empate, por lo que se deja de esta manera. CUADRO IX.4

Así, tenemos que:

El valor t de Student sobre el coeficiente es igual a:

El coeficiente de correlación es estadísticamente significativo, ya que con un

nivel de significancia de 0.05 y con siete grados de libertad (9–2), el valor crítico de t es igual a 2.364. Como 2.978 > 2.364, podemos concluir la existencia de una correlación estadísticamente significativa y positiva entre las dos variables delictivas en los municipios del área metropolitana de Monterrey durante 2007.

IX.1.4. COEFICIENTE DE CONCORDANCIA W DE KENDALL El estadístico Maurice Kendall redujo la distancia existente entre la estadística matemática y la estadística aplicada al ofrecer, entre otras cosas, diversos coeficientes de correlación para variables discretas, particularmente ordinales, lo cual significó un gran avance en el análisis de encuestas. En 1948 publicó un libro sobre coeficientes no paramétricos, que se ha constituido como un libro clásico en la materia, del cual aún se imprimen ediciones. En esa década, Kendall desarrolló varios coeficientes de correlación, o de concordancia como él también los denominaba. En la sección anterior se presentó una manera de calcular la correlación entre dos variables ordinales. A continuación, y para probar la hipótesis de una correlación entre dos o más variables ordinales, es decir una correlación múltiple (Garson, 1976), podemos utilizar el coeficiente de concordancia W de Kendall (1948), el cual toma la siguiente forma (Howell, 2012):

Donde T se refiere a la sumatoria de los rankings por observación, k es el número de variables que se busca correlacionar, y n es el número de observaciones en las cuales se busca probar la supuesta correspondencia. El coeficiente puede variar entre 0 y 1, donde el primer valor sugiere ausencia de correlación y el segundo valor sugiere una perfecta correlación. La prueba de significancia del coeficiente se realiza por medio de la distribución chi cuadrado en la siguiente formulación (Howell, 2012):

La prueba se realiza con n – 1 grados de libertad. Veamos un ejemplo de una correlación múltiple de variables ordinales.

Supongamos que se desea probar la hipótesis de que los rankings del índice de marginación, la tasa de robos y la tasa de homicidios en las delegaciones de la Ciudad de México están correlacionados. No se pretende una explicación al respecto, sino solamente probar la concordancia entre los tres fenómenos. El cuadro IX.5 muestra los rangos donde 1 indica la mayor incidencia y 16 la menor en cada una de las tres variables. Para facilitar el cálculo del coeficiente, el cuadro incluye la sumatoria de los rangos en las tres variables por delegación. CUADRO IX.5

En este ejercicio, T = 408, k = 3 y n = 16. Con esta información, calculamos el coeficiente de correspondencia el cual ofrece el siguiente valor:

El valor del estadístico chi cuadrado para la prueba de significancia del coeficiente es la siguiente:

Para un nivel de significancia de 0.05 y con 15 grados de libertad (16–1), el valor crítico de la prueba es 24.996. Ya que 10.029 < 24.996, el resultado de la prueba de significancia sobre el coeficiente de concordancia sugiere no rechazar Ho. Es decir, la evidencia indica la ausencia de una correlación estadísticamente significativa entre las tres variables. No podemos concluir estadísticamente que los rangos de las tasas de robos, homicidios y niveles de marginación hubieran tenido alguna relación estadística en las 16 delegaciones de la Ciudad de México en esos años. De este modo, es posible relacionar el coeficiente de concordancia W con el coeficiente rho de Spearman. Esto se haría de la siguiente manera (Howell, 2009):

Este cálculo analógico nos daría el valor promedio o media aritmética de todos los coeficientes rho de Spearman que se calcularan entre las tres variables. Es decir:

Efectivamente, esta es la media aritmética de todos los coeficientes rho de Spearman de todos los pares de variables. En un cálculo aparte de todas las relaciones posibles entre las tres variables, es decir seis correlaciones, de los coeficientes rho de Spearman, tenemos que:10

Por último, cabe agregar que en el caso de empates en los rangos de algunas o de todas las variables que se deseara correlacionar, Sheskin (2004) propone la siguiente fórmula:11

Donde el término t se refiere al número de rangos empatados en cada variable. La prueba de significancia sigue siendo la misma.

IX.2. COEFICIENTES PARAMÉTRICOS IX.2.1. COEFICIENTE DE CORRELACIÓN LINEAL R DE PEARSON Este coeficiente es aplicable para pruebas de hipótesis de asociación entre dos variables continuas X y Y. Es importante saber que éste es un coeficiente de correlación lineal. Por lineal se entiende que la relación entre ambas variables es constante en tanto que no varía dependiendo del valor de X. Nos habla de la fuerza y significancia estadística de relaciones lineales. En consecuencia y al darse el caso de que existan variables relacionadas no linealmente, el coeficiente no podría detectar tal tipo de asociación. Por ende, es necesario revisar la posible existencia de una relación curvilineal entre las variables a través de una inspección visual del diagrama de dispersión. Si acaso se sospecha o se predice teóricamente que la relación entre X y Y no es lineal, las variables pueden ser transformadas a efectos de utilizar otro tipo de coeficiente y proceder con la prueba de hipótesis. Otros requisitos en la aplicación de este coeficiente paramétrico son que las variables se distribuyan de forma normal, tanto en la muestra como en la población teórica, y que no contengan valores extremos, es decir, outliers. Los valores extremos afectan el cálculo del coeficiente puesto que el mismo se fundamenta en la utilización de medias aritméticas y desviaciones estándar. Al ser la media aritmética sumamente sensible a la presencia de valores extremos, el coeficiente también lo es y esto puede llevar a errores inferenciales. El coeficiente r de Pearson se obtiene de la siguiente forma:12

Esta fórmula puede mostrar que la correlación también representa la covarianza o grado de variación compartida entre las dos variables, dividida

entre el producto de las desviaciones estándar o típicas respectivas. La prueba de significancia es idéntica a la vista para el caso del coeficiente rho de Spearman. Es decir, los coeficientes se pueden distribuir de forma idéntica a una distribución t de Student o una distribución normal estándar. Asimismo, los grados de libertad de la prueba se obtienen sustrayendo dos observaciones de la muestra (n – 2). Veamos un ejemplo. Supongamos que deseamos probar la hipótesis probada anteriormente respecto a una correlación entre la tasa de robos y la tasa de homicidios en 60 áreas metropolitanas de México. Sin embargo, en este caso, en vez de tener tales mediciones en rangos, o variables ordinales, ahora contamos con las tasas en términos de variables continuas (véase el cuadro IX.6).

Click para ampliar Con base en la información anterior, podemos proceder a probar la siguiente hipótesis:

Recordemos que las hipótesis se refieren al coeficiente de correlación de la población (ρ). Las hipótesis las probamos sobre la base del coeficiente de correlación muestral (r). En este caso, el coeficiente tiene el siguiente valor:

Este coeficiente es muy similar al obtenido a través del coeficiente rho de Spearman con las tasas ordenadas en rangos. A su vez, la prueba de significancia estadística del coeficiente es la siguiente:

Ya que 5.430 > 2.001 (α = 0.05, g.l. = 58) concluimos la presencia de una correlación estadísticamente significativa entre las tasas de presuntos por robo y homicidios en 2007 en esta muestra de 60 áreas metropolitanas. Finalmente cabe advertir que durante todo este ejercicio asumimos que tanto la tasa de presuntos por el delito de robo como por el delito de homicidio se comportaban de manera normal. Es requisito en todo análisis de correlación lineal verificar que tal supuesto sea correcto previo a la realización de la prueba de hipótesis.13

IX.3. PRUEBA DE DIFERENCIA DE DOS COEFICIENTES DE CORRELACIÓN Acabamos de ver que los coeficientes rho de Spearman y r de Pearson nos han llevado a la misma conclusión de rechazar Ho. Esto se debió a que los dos coeficientes tienen valores similares y comparten la misma prueba de significancia. Este ejercicio de comparación nos lleva a una prueba alternativa de diferencias entre coeficientes de correlación (a) obtenidos con técnicas diferentes o (b) provenientes de muestras diferentes. Es decir, se puede probar estadísticamente si dos coeficientes de correlación son estadística y significativamente diferentes. Dicho de otra manera, se puede probar la hipótesis de que:

Ha: rSpearman ≠ rPearson Las implicaciones de obtener resultados diferentes entre coeficientes pueden ser reveladoras en trabajos de investigación, puesto que esto sugiere que el método está dirigiendo las conclusiones. Puede entonces ser conveniente realizar una prueba de significancia sobre la comparación de los coeficientes. Esto se realiza de manera sencilla. Primero se haría una transformación de los coeficientes de correlación en puntuaciones Z de la siguiente manera (Fisher, 1915, 1921):14

Posteriormente, se calcularía el error estándar de cada valor Z de la siguiente manera (Fisher, 1921):

Y, finalmente, el estadístico de la prueba de diferencia entre los dos coeficientes de correlación, el cual se obtendría de la siguiente manera (Fisher, 1921; Cohen y Cohen, 1983):

En este caso, tendríamos que:

El error estándar de los coeficientes de correlación, el cual sólo dependerá del tamaño de la muestra, en este caso es:

Finalmente, la prueba de significancia normal sobre la diferencia de los coeficientes nos da el siguiente valor:

Como 0.010 < 1.96 (α = 0.05), no rechazamos la hipótesis nula de que ambos coeficientes son iguales, y por ende llevan a los mismos resultados en términos de los resultados de la prueba de hipótesis. Nótese que en este caso se ha realizado la prueba de hipótesis de diferencia

en dos coeficientes provenientes de la misma muestra. En caso de que se deseara probar la hipótesis nula de una no diferencia entre dos coeficientes de correlación provenientes de muestras diferentes, es decir, que se busca asegurar que las variables X y Y de las dos muestras efectivamente se relacionan de manera diferente, esto se realizaría de la siguiente manera (Cohen y Cohen, 1983):

En este caso, el error estándar de la prueba está considerado directamente en el denominador de la fórmula.

EN RESUMEN Las pruebas de correlación entre variables buscan probar si dos o más variables están estadística y significativamente asociadas. La correlación es el paso previo al análisis causal, pues éste no sería válido en ausencia de relación. Al igual que las pruebas de diferencia, las pruebas de asociación se dividen en paramétricas y no paramétricas. Cabe mencionar que los coeficientes sólo son aplicables en variables con el mismo nivel de medición; de no hacerlo así, puede derivar en conclusiones erróneas en relación con la hipótesis nula. Los coeficientes de correlación son: coeficiente de phi, V de Cramér, rho de Spearman, W de Kendall y r de Pearson. Por último, también existe una prueba de diferencia de dos coeficientes de correlación, en este caso rho de Spearman y r de Pearson.

EJERCICIOS DE PRÁCTICA

1. En la tabla se muestra el cruce estadístico entre dos variables dicotómicas: haber sido víctima o no y ser hombre o mujer. Calcule el coeficiente de asociación phi y V de Cramér. Posteriormente calcule la significancia de cada coeficiente. VICTIM1 No víctima

Total Víctima

Género

Hombre

44 863

17 295

62 158

Mujer

16 151

6 198

22 349

61 014

23 493

84 507

Total

2. Coeficiente V de Cramér. La siguiente tabla de contingencia muestra el cruce estadístico entre dos variables dicotómicas: ser víctima o no y habitar uno de los tres estados (Aguascalientes, Baja California y Baja California Sur). Calcule el coeficiente de asociación phi y V de Cramér. Posteriormente calcule la significancia de cada coeficiente. VICTIM1 No víctima Estado

Total Víctima

Aguascalientes

1 141

642

1 783

Baja California

1 497

1 066

2 563

Baja California Sur

1 720

876

2 596

4 358

2 584

6 942

Total

3. Mencione de qué forma deben interpretarse la magnitud y la dirección de la correlación para los diferentes coeficientes.

4. Coeficiente rho de Spearman. La siguiente tabla contiene las tasas por cada cien mil habitantes del delito de homicidio doloso y secuestro por entidad federativa extraídas del Secretariado Ejecutivo del Sistema Nacional de Seguridad Pública (SESNSP). Calcule el coeficiente de asociación rho de Spearman y determine aquellos incisos que apliquen: a) si existe algún tipo de asociación entre ambas variables; b) cuantifique y catalogue el tipo de asociación (positiva o negativa) e interprete la asociación de acuerdo a los datos; y c) determine si la asociación es estadísticamente significativa. *Note que existen rangos empatados. Entidad

Tasa del delito

Tasa del delito

de homicidio doloso

de secuestro

Aguascalientes

1.04

0

Baja California

9.27

0.3

Baja California Sur

2.37

0

2.5

0

4.98

0.12

Chihuahua

17.37

0.66

Coahuila

12.99

0.31

Colima

14.36

0.14

3.78

0.3

12.19

0.52

4.46

0.14

Guerrero

24.95

1.28

Hidalgo

1.72

0.43

Jalisco

6.72

0.18

Estado de México

4.51

0.45

Michoacán

7.75

1.64

Morelos

14.3

3.11

Nayarit

6.21

0.26

Nuevo León

7.74

0.36

Oaxaca

4.89

1.14

Puebla

3.62

0.17

Querétaro

2.53

0.05

Campeche Chiapas

Ciudad de México Durango Guanajuato

Quintana Roo

6.4

0.54

5.79

0.37

Sinaloa

17.86

0.44

Sonora

8.78

0.04

Tabasco

2.4

1.41

Tamaulipas

7.35

2.08

Tlaxcala

2.58

0.08

Veracruz

3.49

0.57

Yucatán

0.78

0.05

Zacatecas

5.19

0.58

San Luis Potosí

Fuente: Incidencia delictiva enero 2000-mayo 2013, SESNSP.

5. Coeficiente de concordancia W de Kendall. La siguiente tabla contiene una submuestra de 10 entrevistados extraída de las encuestas de reclusión del CIDE (Bergman et al., 2002 y 2006) en ella aparece el rango de cada entrevistado (de 1 a 10) donde 1 refleja el valor más alto y 10 el valor más

bajo de las siguientes variables: dinero obtenido, edad, edad en la cual comenzó a trabajar y el número de víctimas totales. Calcule el coeficiente de concordancia W de Kendall y determine aquellos incisos que apliquen: a) si existe algún tipo de asociación entre las variables; b) cuantifique y catalogue el tipo de asociación (positiva o negativa) e interprete la asociación de acuerdo a los datos; y c) determine si la asociación es estadísticamente significativa. Rango por dinero

Rango por edad

Rango por edad que comenzó a trabajar

Rango por número de víctimas

1

1

4

8

1

2

2

8

6

2

3

4

6

3

3

4

3

9

7

4

5

5

5

4

5

6

6

2

2

6

7

7

10

1

7

8

8

1

9

8

9

10

7

10

9

10

9

3

5

10

Fuente: Incidencia delictiva enero 2000-mayo 2013, SESNSP.

6. Mencione las características que deben cumplir dos variables para que se les pueda aplicar una prueba de asociación paramétrica.

RESPUESTAS A LOS EJERCICIOS

1. Valor Nominal por nominal

Phi V de Cramér

N de casos válidos

Sig. aproximada

–.001

.793

.001

.793

84 507

2. Valor Nominal por nominal

Sig. aproximada

Phi

.072

.000

V de Cramér

.072

.000

N de casos válidos

6 942

3. En el coeficiente de phi, no existe correlación cuando ϕ = 0; existe una corre​lación perfecta cuando ϕ =1p y hay una correlación importante cuando ϕ ≥ .6. En el caso del coeficiente rho de Spearman, hay una correlación negativa perfecta cuando r = –1; una correlación positiva perfecta cuando r = 1 y no hay correlación cuan​do r = 0.

Existen algunas pruebas como la V de Cramér o la W de Wilcoxon que no permiten saber la dirección de la prueba pues siempre se obtienen valores positivos de los coeficientes; éstos sólo permiten saber la magnitud de la correlación.

4. Los resultados de la prueba de asociación son: r = 0.45 757 t = 3.16 989 a) Sí existe una correlación entre la variable sobre la tasa del delito de homicidio y la variable sobre la tasa del delito de secuestro. b) La magnitud de la asociación entre ambas variables es baja. Existe una correlación positiva entre la tasa de homicidios y la tasa de secuestros. c) Considerando que el valor crítico de t con 30 grados de libertad y un nivel de confianza de 95% es igual a 2.042, y el valor de t en la prueba es igual a 3.16989, debe rechazarse Ho y concluir que la asociación es estadísticamente significativa.

5. Los resultados de la prueba de asociación son:

W = 0.30909 x2 = 11.12727 a) Sí existe una correlación entre los rangos por edad, dinero, edad a la que comenzó a trabajar y número de víctimas. b) La magnitud de la asociación entre ambas variables es baja. No es posible saber la dirección de la asociación dado que el coeficiente siempre es positivo. c) Considerando que el valor crítico de x2 con 9 grados de libertad y un nivel de confianza de 95% es igual a 16.919, y el valor de x2 en la prueba es igual a 11.12727, no puede rechazarse Ho; se concluye entonces que la asociación no es estadísticamente significativa.

6. Para aplicar una prueba de asociación paramétrica es necesario que las dos variables se distribuyan normalmente y sean simétricas, no deben contener valores extremos.

SITIOS DE INTERÉS • Secretariado Ejecutivo del Sistema Nacional de Seguridad Pública (http://www.secretariadoejecutivosnsp.gob.mx/) • Instituto Brasileño de Geografía y Estadística (http://www.ibge.gov.br/home/) • Usa.gov. Guide to government information and services (http://www.usa.gov/Topics/Reference-Shelf/Data.shtml) • Federal Bureau of Investigation (http://www.fbi.gov/statsservices/crimestats) • Statics Canada (http://www.statcan.gc.ca/start-debut-eng.html) 1

Existen otros métodos que pueden medir la asociación entre una variable continua y otra categórica. 2

Además del requisito común a toda la estadística inferencial de que las observaciones procedan

de variables aleatorias y sean independientes. 3

Varía por autor. En el original de 1946 se utiliza simplemente φ.

4

Kendall elaboró tres tipos de coeficientes de correlación, a, b y c. Aquí se presenta el coeficiente tipo b, ya que fue diseñado para el caso de una correlación entre dos variables ordinales con empates, lo cual permite contrastar sus resultados con el coeficiente rho de Spearman, diseñado para el caso de una correlación entre dos variables ordinales sin empates. 5

Algunos libros de texto aseguran que el coeficiente puede variar entre 0 y 1, pero esto no es posible. 6

Los grados de libertad se obtienen de la misma forma que vimos en la prueba chi cuadrado de Pearson para una prueba de dos muestras. Es decir que g.l. = (r – 1) * (c – 1). En otras palabras, este coeficiente ofrece una medida de una comparación entre dos distribuciones dicotómicas. 7

El procedimiento para el cálculo del estadístico chi cuadrado no se incluye por razones de espacio. Este procedimiento ya fue ilustrado en el capítulo VIII. 8

Véase la prueba de diferencia de coeficientes de correlación al final de este capítulo. En este caso, la prueba no muestra una diferencia estadísticamente significativa entre ambos coeficientes (Z = 0.754). Baste con mostrar que los resultados son de magnitud diferentes. 9

Las tasas como variables continuas se pueden obtener en la página de geocrimen del Centro de Investigación y Docencia Económica (CIDE) (http://geocrimen.cide.edu/). 10

Estos son los coeficientes rho de Spearman de cada par de variables. Al ser tres variables, podemos deducir tres coeficientes diferentes, repetidos dos veces cada uno. No se agregan los cálculos de cada uno por razones de espacio pero pueden replicarse con la información provista en esta sección 11

Se utiliza la misma nomenclatura que Howell (2009). Sheskin (2004: 1107-1110) propone su propia nomenclatura para este coeficiente. 12

Apuntes propios.

13

En este caso se hizo a través de la prueba Z de Kolmogorov-Smirnov.

14

Esto implica que las diferencias entre los coeficientes se distribuyen normalmente. El desarrollo de la técnica lo hizo en dos documentos diferentes publicados con seis años de distancia.

Coeficiente. Expresión numérica de una propiedad o característica de un cuerpo, que generalmente se presenta como una relación entre dos magnitudes (RAE). Correlación. O asociación, es el término utilizado para describir la relación entre dos variables (Everitt y Skrondal, 2010). Ranking. Clasificación de mayor a menor, útil para establecer criterios de valoración (RAE). Coeficiente de concordancia. Un coeficiente que mide el grado de acuerdo entre rankings (Everitt y Skrondal, 2010).

Bibliografía

Alwin, D.F. 2007. The Margins of Error: A Study of Reliability in Survey Measurement. Nueva York: Wiley-Interscience. Ancheta, Angelo N. 2006. Scientific Evidence and Equal Protection of the Law. Piscataway, NJ: Rutgers University Press. Armitage, P. y T. Colton. 2005. Encyclopedia of Biostatistics. Nueva York: Wiley. Babbie, E. 2010. “The Practice of Social Research Wadsworth Cengage Learning”, en International Edition. Bartlett, M.S. 1935. “Contingency Table Interactions”, en J.R. Statist. Social Supplement, 2, pp. 248-252. Bergman, M., R. Sarsfield, G. Fondevila, A.L. Magaloni y A. Miller. 2008. Encuesta de Victimización y Eficacia Institucional (Envei). Base general (Segundo semestre 2007). Banco de Información para la Investigación Aplicada en Ciencias Sociales, Centro de Investigación y Docencia Económicas. Disponible en http://hdl.handle.net/10089/16113 [consultado el 20 de mayo de 2010]. Bergman, M. et al. 2002. Encuesta a la Población en Reclusión en el Distrito Federal, Morelos y Estado de México - 2002 [en línea]. México: Banco de

Información para la Investigación Aplicada en Ciencias Sociales y Centro de Investigación y Docencia Económicas. ______ . 2006. Encuesta a la Población en Reclusión en el Distrito Federal y Estado de México - 2005 [en línea]. México: Banco de Información para la Investigación Aplicada en Ciencias Sociales y Centro de Investigación y Docencia Económicas. Bernoulli, J. 1713. Ars Conjectandi., Together with Letter to a Friend on Sets in Court Tennis. Baltimore: Johns Hopkins University Press. Bessel, F.W. 1818. Über den Ort des Polarsterns. Berlin: Berliner Astronomische Jahrbuch. Blalock, H.M. 1969. Theory Construction. Englewood Cliffs, N.J.: Prentice Hall. Bliss, C.I. 1967. Statistics in Biol. vol. 1. Nueva York: McGraw-Hill Book. Boltzmann, L. 1868. “Studien über das Gleichgewicht der lebendigen Kraft zwischen bewegten materiellen Punkten”, en Wiener Berichte, 58, pp. 517560. Bortkiewicz, L. v. 1898. Das Gesetz der kleinen Zahlen. Leipzig: B.G. Teubner. Bowley, A.L. 1901. Elements of statistics. Londres: P. S. King. ______ . 1924. The Mathematical Groundwork of Economics: An Introductory Treatise. Oxford: Clarendon Press. Box, G.E.P. 1953. “Non-normality and Tests on Variances”, en Biometrika, 40(3/4), pp. 318-335. Caldwell, Bruce J. 2003. Beyond Positivism. Nueva York: Taylor & Francis e-Library. Campbell, M.J., S.A. Julious y D.G. Altman. 1995. “Estimating Sample Sizes for Binary, Ordered Categorical, and Continuous Outcomes in Two Group Comparisons”, en BMJ, 311, pp. 1145-1148. Chebyshev, P.L. 1867. « Des valeurs Moyennes », en Journal de Mathématique Pures et Appliquées, 12, pp. 177-184. Cochran, W.G. 1977. Sampling Techniques. 3ra ed. Nueva York: Wiley. Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences. 2da ed. Hillsdale, NJ: Lawrence Erlbaum. Cohen, J. y P. Cohen. 1983. Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences. Hillsdale, NJ: Erlbaum. Cramér, D. 1994. Introducing Statistics for Social Research: Step-by-step

calculations and computer techniques using spss. Nueva York: Routledge. Cramér, H. 1946. Mathematical Methods of Statistics. Princeton: Princeton University Press. Creswell, J.W. y V.L.P. Clark, 2007. Designing and Conducting Mixed Methods Research. Nueva York: Sage. D’Agostino, R. y E. Pearson. 1973. “Tests for Departures from Normality: Empirical Results for the Distribution of b1 and b2”, en Biometrika 60(60), pp. 613-622. D’Agostino, R.B. 1970. “Transformation to Normality of the Null Distribution of g1”, en Biometrika 57(3), pp. 679-681. ______ . 1970. “Transformation to Normality of the Null Distribution of g1”, en Biometrika 57(3), pp. 679-681. David, F. 1938. Tables of the Correlation Coefficient. Londres: Cambridge University Press. David, H.A., A. William y F. Edwards. 2001. Annotated Readings in the History of Statistics. Nueva York: Springer. Dawkins, R. 2007. The Enemies of Reason. BBC TV Series. De Moivre, A. 1718. The Doctrine of Chances or, A Method of Calculating the Probability of Events in a Play. Londres: W. Pearfon. ______ . 1733. Approximatio and Summam Terminorum Binomii (a+b)n in Seriem Expansi. Nueva York: Columbia University. De Vaus, D.A. y D. de Vaus, D. 2001. Research Design in Social Research. Nueva York: Sage. Deshpande, J.V., A.P. Gore y A. Shanubhogue. 1995. Statistical Analysis of Nonnormal Data. Nueva York: Wiley-Interscience. Devore, J.L. 2015. Probability and Statistics for Engineering and the Sciences. Cengage Learning. Dixon, W.J. 1950. “Analysis of extreme values”, en The Annals of Mathematical Statistics, 21, pp. 488-505. ______ . 1951. “Ratios involving extreme values”. The Annals of Mathematical Statistics, 22(1), pp. 68-78. Dixon, W.J. y F.J.J. Massey. 1957. Introduction to Statistical Analysis. Nueva York: McGraw-Hill. Dodge, Y. 2008. The Concise Encyclopedia of Statistics. Nueva York: Springer-Verlag. ______ . 2009. The Oxford Dictionary of Statistical Terms. Oxford

University Press. Falleti, T.G. y J.F. Lynch. 2009. “Context and Causal Mechanisms in Political Analysis”. Comparative Political Studies. Finney, D.J. 1948. “The Fisher-Yates Test of Significance in 2x2 Contingency Tables”, en Biometrika, 35, pp. 145-156. Fisher, R.A. 1915. “Frequency Distribution of the Values of the Correlation Coefficient in Samples from an Indefinitely Large Population”. Biometrika, 10(4), pp. 507-521. ______ . 1918. “The Correlation between Relatives on the Supposition of Mendelian Inheritance”, en Philosophical Transactions of the Royal Society of Edinburgh, 52, pp. 399-433. ______ . 1921. “On the Probable Error» of a coefficient of correlation deduced from a small sample”. Metron, 1(Pt 4), pp. 1-32. ______ . 1922. “On the Mathematical Foundations of Theoretical Statistics”, en Philosophical Transactions of the Royal Society, 222, pp. 309-368. ______ . 1925. Statistical Methods for Research Workers. Edinburgh: Oliver and Boyd. ______ . 1926. “The Arrangement of Field Experiments”, en The Journal of the Ministry of Agriculture, 33. ______ . 1930. The Genetical Theory of Natural Selection. Oxford: Oxford University Press. Ford, E.D. 2000. Scientific Method for Ecological Research. Cambridge: Cambridge University Press. Friedman, M. 1937. “The Use of Ranks to Avoid the Assumption of Normality Implicit in the Analysis of Variance”, en Journal of the American Statistical Association, 32(200), pp. 675-701. Gabinete de Comunicación Estratégica (GCE), 2009. Encuesta Nacional Gobierno, Sociedad y Política. Ciudad de México: GCE. Garson, G.D. 1976. Political Science Methods. Nueva York: Holbrook Press. Gauss, C. F. 1809. Theoria motus corporum coelestium in sectionibus conicis solem ambientium. Hamburgo: Sumtibus F. Perthes y I.H. Besser. Geary, R.C. 1947. “Testing for normality”, en Biometrika, 34, pp. 209-241. Gibbons, J.D. 1993. Nonparametric statistics: An introduction. Nueva York: Sage. Gibbons, J.D. y S. Chakraborti. 2003. “Nonparametric Statistical Inference. Fourth Edition, Revised and Expanded”. Statistics Textbooks and

Monographs, 168. Nueva York: Marcel Decker, Inc. Gill, J. 2006. Essential Mathematics for Political and Social Research. Nueva York: Cambridge University Press. Gillies, D. 2000. Philosophical theories of probability. Psychology Press. Good, P.I. y J.W. Hardin. 2006. Common Errors in Statistics: (and How to Avoid Them). Nueva Jersey: Wiley-Interscience. Greenwood, M. y G.U. Yule. 1915. “The Statistics of Anti-Typhoid and AntiCholera Inoculations, and the Interpretation of such Statistics in General”, en Proceedings of the Royal Society of Medicine 8, pp. 113-190. Grissom, R.J. y J.J. Kim. 2005. Effect Sizes for Research: A Broad Practical Approach. Mahwah, NJ: Lawrence Erlbaum. Groves, R.M. 1989. Survey Errors and Survey Costs. Nueva York: Wiley. Grubbs, F.E. 1950. “Sample Criteria for Testing Outlying Observations”, en Annals of Mathematical Statistics, 21(1), pp. 27-58. Hald, A. 2003. A History of Probability and Statistics and their Applications Before 1750. Nueva York: Wiley. ______ . 2007. A History of Parametric Statistical Inference from Bernoulli to Fisher, 1713-1935. Nueva York: Springer. Hansen, P.Ch., V. Pereyra y G. Scherer. 2012. Least Squares Data Fitting with Applications. Baltimore, Maryland: Johns Hopkins University Press. Hotelling, H. y M.R. Pabst. 1936. “Rank Correlation and Tests of Significance Involving no Assumption of Normality”, en Ann. Math. Stat., 7, pp. 29-43. Howell, D.C. 2012. Statistical methods for psychology. Cengage Learning. Jarque, C.M. y A.K. Bera. 1980. “Efficient Tests for Normality, Homoscedasticity and Serial Independence of Regression Residuals”, en Economics Letters, 6(3), pp. 255-259. Journal of Experimental Criminology. Springer. Disponible en: http://link.springer.com/journal/11292 Kalton, G. 2006. Survey Sampling. Encyclopedia of Statistical Sciences. 13. Keppel, G. y S. Zedeck. 1998. Data Analysis for Research Designs (Series of Books in Psychology). Nueva York: Worth Publishers. Kiaer, A.N. 1895 [1896]. “Observations et expériences concernant des dénombrements représentatifs”, en Bulletin of the International Statistical Institute, 9 (2), pp. 176-186. King, G. 1995. “Replication, Replication”, en Political Science and Politics,

28 (3), pp. 444-452. Kirkwood, T.B.L. 1979. “Geometric Means and Measures of Dispersion [Letter]”, en Biometrics, 35, pp. 908-909. Kish, L. 2004. Statistical Design for Research. Nueva York: Wiley and Sons. Kline, R.B. 2004. Beyond Significance Testing. Washington, DC: American Psychological Association. Kolmogorov, A. 1933. Grundbegriffe der Wahrscheinlichkeitsrechnung. Berlin: Julius Springer. Krishnamoorthy, K. y T. Mathew. 2009. Statistical Tolerance Regions: Theory, Applications, and Computation. Nueva York: John Wiley and Sons. ______ . 2009. Statistical Tolerance Regions: Theory, Applications, and Computation (vol. 744). John Wiley & Sons. Kruskal, W.H. y F. Mostelle. 1980. “Representative Sampling, IV: The History of the Concept in Statistics, 1895-1939”, en International Statistical Review, 48 (2), pp. 169-195. Kruskal, W.H. y W.A. Wallis. 1952. “Use of Ranks in One-Criterion Variance Analysis”, en Journal of the American Statistical Association, 47, pp. 583-621. Kuhn, T.S. 2012. The structure of scientific revolutions. University of Chicago Press. Laplace, P.S. 1774. Mémoire sur la probabilité des causes par les événements. 6ta ed. París: Courcier. ______ . 1812. Théorie analytique des probabilités. París : Mme. Ve. Courcier, Imprimeur. Leary, Mark. 2001. Introduction to Behavioral Research Methods. 3ra ed. París: Allyn and Bacon. Legendre, A.M. 1805. Nouvelles Méthodes pour la Détermination des Orbites des Comètes. Paris: Courcier. Lehman, R.S. 1991. Statistics and Research in the Behavioral Sciences. Pacific Grove, CA: Brooks/Cole. Lehr, R. 1992. “Sixteen S-squared over D-squared: A Relation for Crude Sample Size Estimates”, en Statistics in Medicine, 11(8), pp. 1099-1102. Lilliefors, H. 1967. “On the Kolmogorov-Smirnov Test for Normality with Mean and Variance Unknown”, en Journal of the American Statistical Association, 62, pp. 399-402.

Liu, G. 2005. “Sample Size in Epidemiologic Studies”. Encyclopedia of Biostatistics. Lohr, S. 1999. Sampling: Design and Analysis. Pacific Grove, CA: Duxbury Press. Lum, C. 2005. Scientific Thinking in Speech and Language Therapy. Psychology Press. Malmquist, S. 1959. “On a Property of Order Statistics from a Rectangular Distribution”, en Skandinavisk Aktuarietidskrift, 33, pp. 214-222. Mann, H.B. y D.R. Whitney. 1947. “On a Test of Whether One of Two Random Variables is Stochastically Larger than the other”. Annals of Mathematical Statistics, 18, 50-60. Marczyk, G., D. DeMatteo y D. Festinger. 2005. Essentials of Research Design and Methodology. Nueva York: John Wiley & Sons Inc. Maronna, R.A., R.D. Martin y V.J. Yohai. 2006. Robust Statistics: Theory and Methods. Nueva York: Wiley. McAlister, D. 1879. “The Law of the Geometric Mean”, en Proceedings of the Royal Society of London, 29, pp. 367-376. McNemar, Q. 1962. Psychological Statistics. 3ra. ed. Oxford, England: Wiley. Merriman, M. 1884. A Textbook on the Method of Least Squares. Nueva York: Wiley. Millar, R.B. 2011. Maximum Likelihood Estimation and Inference: with Examples in R, SAS and ADMB. Nueva York: Wiley. Moshman, J.E. 1953. “Critical Values of the Log-normal Distribution”, en Journal of the American Statistical Association, 48, pp. 600-609. Mosteller, F. 1948. “A k-sample Slippage Test for an Extreme Population”. Annals of Mathematical Statistics, 19, pp. 58-65. Murphy, K.R. y B. Myors. 2004. Statistical Power Analysis: A Simple and General Model for Traditional and Modern Hypothesis Tests. Mahwah, NJ: Lawrence Eribaum Associates. Neyman, J. 1934. “On the Two Different Aspects of the Representative Method: The Method of Stratified Sampling and the Method of Purposive Selection”, en Journal of the Royal Statistical Society, 97, pp. 558-606. ______ . 1937. “Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability”, en Philosophical Transactions of the Royal Society of London. Series A, Containing Papers of a Mathematical or

Physical Science, 236 (767), pp. 333-380. ______ . 1961. “Silver Jubilee of my Dispute with Fisher”, en Journal of the Operations Research Society of Japan, 3, pp. 145-154. Neyman, J. y E. Pearson. 1933. “On the Problem of the Most Efficient Tests of Statistical Hypotheses”, en Philosophical Transactions of the Royal Society of London, 231(A), pp. 289-337. Pagano, R.R. 1994. Understanding Statistics in the Behavioral Sciences. 4ta ed. St. Paul, MN: West. Pascal, B. 1654. Traité du triangle arithmétique. Patel, J.K. y C.B. Read. 1996. Handbook of the Normal Distribution. Boca Raton, FL: CRC Press. Pearson, E.S. 1930. “A Further Development of Tests for Normality”, en Biometrika, 22, pp. 239-249. ______ . 1935. “A Comparison of β2 and Mr. Geary’s wn Criteria”, en Biometrika, 27, pp. 333-347. Pearson, K. 1893. “Contributions to the Mathematical Theory of Evolution”, en Proceedings of the Royal Society of London, 54, pp. 329-333. ______ . 1895. “Contributions to the Mathematical Theory of Evolution. II. Skew Variation in Homogeneous Material”, en Philosophical Transactions of the Royal Society of London, 186, pp. 343-414. ______ . 1896. “Mathematical Contributions to the Theory of Evolution. III. Regression, Heredity and Panmixia”, en Philosophical Transactions of the Royal Society of London, 187, pp. 253-318. ______ . 1900. “On the Criterion that a Given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it can be Reasonably Supposed to Have Arisen from Random Sampling”. Philosophical Magazine, 5 (50), pp. 157-175. ______ . 1902. “On the Mathematical Theory of Errors of Judgement, with Special Reference to the Personal Equation”, en Philosophical Transactions of the Royal Society of London, 198(A), pp. 274-286. Phillips D.L. 1973. “Abandoning Method”. San Francisco: Jossey-Bass Pierce, B. 1852. “Criterion for the Rejection of Doubtful Observations”. Astronomical 2, pp. 161-163. Pitman, E.J.G. 1937. “Significance Tests Which May Be Applied to Samples from any Populations”, en Supplement to The Journal of the Royal

Statistical Society, 4, pp. 119-130. ______ . 1948. Lecture Notes on Non-parametric Inference. Nueva York: University of Columbia. Plackett, R.L. 1958. “Studies in the History of Probability and Statistics”, en Biometrika, 45, pp. 130-135. ______ . 1972. “Studies in the History of Probability and Statistics. XXIX. The Discovery of the Method of Least Squares”, en Biometrika, 59, pp. 239-251. Poisson, S.D. 1837. Recherches sur la probabilité des jugements en matière criminelle et en matière civile: Précédées des règles générales du calcul des probabilités. París: L’Académie Des Sciences. Poletiek, F. 2001. Hypothesis Testing Behavior (Essays in Cognitive Psychology). Abingdon, UK: Taylor & Francis Ltd Popper, K.R. 1963. Conjectures and Refuta Tions. 4ta. ed. Londres: Routledge. Quetetlet, A. 1829. Recherches statistiques sur le royaume des Pays-Bas. Bruselas: M. Hayez. Riffenburgh, R. 2012. Statistics in Medicine, 3ra. ed. Nueva York: Elsevier. Ross, S.M. 2009. Introduction to Probability and Statistics for Engineers and Scientists. Toronto: Academic Press. Samuelson, P. 1947. Foundations of Economic Analysis. Cambridge, MA: Harvard University Press. Schutt. R. 2008 Investigating the Social World: The Process and Practice of Research. Thousand Oaks, CA: Pine Forge Press; 6th edition. Shapiro, S.S. y M.B. Wilk. 1972. “An Analysis of Variance Test for the Exponential Distribution (Complete Samples)”. Technometrics, 14, pp. 355-370. ______ . 1965. “An Analysis of Variance Test for Normality (Complete Samples)”, en Biometrika, 52(3/4), pp. 591-611. Shenton, L.R. y K.O. Bowman. 1977. “A Bivariate Model for the Distribution of √b1 and b2”, en Journal of the American Statistical Association, 72, pp. 206-211. Sheskin, D.J. 2004. Handbook of Parametric and Nonparametric Statistical Procedures 3ra ed. Boca Raton, FL: Chapman & Hall. Shively, W.P. 2016. The Craft of Political Research. Nueva York: Routledge. Siegel, S. y N.J. Castellan. 1988. Nonparametric Statistics for the Behavioral

Sciences. Nueva York: McGraw-Hill. Sklar, L. 1999. The Philosophy of Science: Collected Papers, vols. 1-6. 1ra ed. Abingdon, UK: Routledge. Smirnov, N.V. 1939. “Estimate of Deviation between Empirical Distribution Functions in two Independent Samples”, en Bull Moscow Univ., 2, pp. 3-16. Snedecor, W. 1934. Calculation and Interpretation of the Analysis of Variance. Ames, Iowa: Collegiate Press. Snedecor, W. y W. Cochran. 1980. Statistical methods. 7ma ed. Ames, Iowa: Iowa State University Press. Spearman, C. 1904. The Proof and Measurement of Association Between Two Things. The American Journal of Psychology, 15(1), pp. 72-101. Sprent, P. y N. Smeeton. 2016. Applied Nonparametric Statistical Methods. CRC Press. Stanovich, KE. 1996. How to Think Straight about Psychology. 4ta ed. Nueva York: Harper-Collins. Stigler, S.M. 1981. “Gauss and the Invention of Least Squares”. The Annals of Statistics, 9(3). ______ . 1986. The History of Statistics: the Measurement of Uncertainty before 1900. Cambridge, MA: Harvard University Press. ______ . 2002. Statistics on the Table: The History of Statistical Concepts and Methods. Cambridge, MA: Harvard University Press. ______ . 2003. “Mathematical Statistics and the ISI (1885-1939)”, en Proceedings of the 54th session of the ISI. Student. 1908. “The Probable Error of a Mean”, en Biometrika, 6, pp. 1-25. Sukhatme, P.V. 1937. “Tests of Significance for Samples of the x2 Population with Two Degrees of Freedom”, en Ann. Eugenics, 8 (52-56). Tankard, J.W., Jr. 1984. The Statistical Pioneers. Cambridge, MA: Schenkman Publishing Co. Telser, L.G. 1959. “A Theory of Speculation Relating Profitability and Stability”, en The Review of Economic Statistics, 41(3), pp. 295-301. Thode Jr., H.C. 2002. Testing for Normality. New York: Marcel Dekker. Tita, G.E. y R.T. Greenbaum. 2009. “Crime, Neighborhoods, and Units of Analysis: Putting Space in Its Place. In Putting Crime in Its Place”. Springer New York, pp. 145-170. Tourangeau, R., L.J. Rips y K. Rasinski. 2000. The Psychology of Survey Response. Cambridge, UK: Cambridge University Press.

Upton, G. 1992. “Fisher’s Exact Test”. J.R. Statist. Soc. A, 155, pp. 395-402. Utts, J. 1993. “Obituary: Florence Nightingale David (1909-1993)”, en Biometrics 49 (4). ______ . 2003. “What Educated Citizens Should Know About Statistics and Probability”. The American Statistician, 57(2), pp. 74-79. Van Belle, G. 2008. Statistical Rules of Thumb. 2da ed. Hoboken, NJ: Wiley. ______ . 2011. Statistical rules of thumb (vol. 699). John Wiley & Sons. Vilalta, C. 2007. “Compra y coacción del voto en México: variaciones estatales y diferencias de opinión entre beneficiarios y no beneficiarios de programas sociales”, en México: Programa de las Naciones Unidas para el Desarrollo (pnud). Proyecto de Protección de Programas Sociales Federales. Serie Enapp, núm. 4. ______ . 2007a. “El voto de oposición al segundo piso del periférico: una contribución empírica sobre su geografía y posibles mecanismos causales”, en Gestión y Política Pública, 16(2), pp. 123-162. Vilalta, C. y L. Fernández. 2010. “Serie mensual de averiguaciones previas por varios delitos en el Distrito Federal, enero 2003-diciembre 2009.” Vold G., T. Bernard y J. Snipes. 1998. Theoretical Criminology. 4ta. ed. Nueva York: Oxford University Press Weibull, W. 1951. “A Statistical Distribution Function of Wide Applicability”, en J. Appl. Mech.-Trans. ASME, 18, pp. 293-297. Weisburd, D. y C.L. Britt. 2007. Statistics in Criminal Justice. 3ra ed. Nueva York: Springer. Wilbur, C.L. 1896 [1897]. “Vital statistics for the Twelfth United States Census”, en Quarterly Publications [luego Journal] of the American Statistical Association, 5, pp. 188-200. Wilcoxon, F. 1945. “Individual comparisons by ranking methods”, en Biometrika, 1. ______ . 1949. Some Rapid Approximate Statistical Procedures. Stamford, CT: American Cyanamid Co. Wolfowitz, J. 1942. “Additive Partition Functions and a Class of Statistical Hypotheses”, Ann. Math. Statist., 13, pp. 247-279. Yates, F. 1934. “Contingency Table Involving Small Numbers and the χ 2 Test”, en Supplement to the Journal of the Royal Statistical Society, 1(2), pp. 217-235.

______ . 1984. “Tests of Significance for 2 × 2 Contingency Tables”, en Journal of the Royal Statistical Society, Series A, 147, pp. 426-463. Zar, J.H. 1999. Biostatistical Analysis. Upper Saddle River, NJ: Prentice Hall. Zumbo, B.D. y A.M. Hubley. 1998. “A Note on Misconceptions Concerning Prospective and Retrospective Power”, en Journal of the Royal Statistical Society, Series D (The Statistician), 47(3), pp. 385-388.

Anexos

Click para ampliar

Click para ampliar

Click para ampliar

Click para ampliar

Click para ampliar

Click para ampliar

Related Documents


More Documents from "Louis Saha'"

Articulo Cientifico.docx
November 2019 8
November 2019 16
November 2019 4
November 2019 7