Datos: son el conjunto de información recolectada. Estadística: es la ciencia que se encarga de planear estudios y experimentos, obtener datos y luego organizar, resumir, presentar, analizar e interpretar la información para extraer conclusiones basadas en los datos. Población: es el conjunto completo de todos los elementos que se someten a estudio. El conjunto es completo porque incluye a todos los sujetos que se estudiarán. Censo: es el conjunto de datos de cada uno de los miembros de la población. Muestra: es un subconjunto de miembros seleccionados de una población. Es sumamente importante obtener datos muestrales que sean representativos de la población de la que se obtienen. Al realizar un análisis estadístico con datos que hemos reunido o al examinar uno efectuado por alguien más, no debemos aceptar a ciegas los cálculos matemáticos; es necesario tomar en cuenta los siguientes factores: • Contexto de los datos. • Fuente de los datos. • Método de muestreo. • Conclusiones. • Implicaciones prácticas. La significancia estadística de un estudio difiere de su significancia práctica. Es posible que, con base en los datos muestrales disponibles, se utilicen métodos estadísticos para llegar a la conclusión de que algún tratamiento o hallazgo es eficaz, aunque el sentido común sugiera que no hay una diferencia suficiente debida al tratamiento para justificar que su uso sea práctico. La siguiente definición se refiere a uno de los usos incorrectos de la estadística más comunes y graves: • Muestra de respuesta voluntaria (o muestra autoseleccionada) es aquella donde los sujetos deciden ser incluidos por sí mismos. Correlación y causalidad: Cuando nosotros encontramos una asociación estadística entre dos variables, no podemos concluir que una de las variables es la causa de la otra (o que la afecta directamente), una correlación no implica causalidad. Resultados reportados: Cuando se recaban datos de personas, es mejor tomar las medidas que pedir a los sujetos que reporten resultados. Muestras pequeñas: Las conclusiones no deben basarse en muestras demasiado pequeñas Gráficas y Pictogramas: Las gráficas —como las de barras y las circulares— en ocasiones sirven para exagerar o disfrazar la verdadera naturaleza de los datos. Preguntas que inducen respuestas: Si las preguntas de encuesta no se redactan de forma cuidadosa, los resultados de un estudio pueden ser engañosos. Es posible que las preguntas de encuesta estén “cargadas” o redactadas intencionalmente para obtener la respuesta deseada. Orden de las preguntas: En ocasiones las preguntas de una encuesta se sesgan de manera no intencional debido a factores como el orden de los reactivos que se someten a consideración. Falta de respuesta: Cuando alguien se rehúsa a contestarse una pregunta de encuesta, o cuando la persona no está disponible. Cuando se plantean preguntas de encuesta a los individuos, algunos se niegan firmemente a responder Datos faltantes: En ocasiones los resultados se ven muy afectados por datos faltantes. A veces faltan datos muestrales por el azar, otras veces, por factores especiales. Estudios para el propio beneficio: En ocasiones los estudios reciben el patrocinio de grupos con intereses específicos que buscan promover.
Números precisos: Puesto que esta cantidad es muy precisa, mucha gente considera erróneamente que también es exacta. El objetivo de la estadística: es realizar inferencias o generalizaciones acerca de una población, en esta sección se definen términos que se utilizan para distinguir entre los casos en que contamos con una población completa y los casos en los que sólo contamos con los datos de una muestra. Parámetro es una medición numérica que describe algunas características de una población. Estadístico es una medición numérica que describe algunas características de una muestra Los datos cuantitativos (o numéricos) consisten en números que representan conteos o mediciones. Los datos categóricos (o cualitativos o de atributo) consisten en nombres o etiquetas que no son números y que, por lo tanto, no representan conteos o mediciones. Los datos discretos resultan cuando el número de valores posibles es un número finito o un número que “puede contarse” (es decir, el número de valores posibles es 0, 1, 2, etcétera). Los datos continuos (numéricos) resultan de un número infinito de posibles valores que, que corresponden a alguna escala continua que cubre un rango de valores sin huecos, interrupciones o saltos. El nivel de medición nominal se caracteriza por datos que consisten exclusivamente en nombres, etiquetas o categorías. Los datos no pueden acomodarse en un esquema de orden (como del más bajo al más alto). Los datos están en el nivel de medición ordinal cuando pueden acomodarse en algún orden, aunque las diferencias entre los valores de los datos (obtenidas por medio de una resta) no pueden calcularse o carecen de significado. El nivel de medición de intervalo se parece al nivel ordinal, pero con la propiedad adicional de que la diferencia entre dos valores de datos cualesquiera tiene un significado. Sin embargo, los datos en este nivel no tienen un punto de partida cero naturales inherentes (donde la cantidad que está presente corresponde a nada). El nivel de medición de razón es similar al nivel de intervalo, pero con la propiedad adicional de que sí tiene un punto de partida cero naturales (donde el cero indica que nada de la cantidad está presente). Para valores en este nivel, tanto las diferencias como las razones tienen significado.
De razón De intervalo
Ordinal
Nominal
Hay un punto de partida cero natural y las razones tienen significado Las diferencias tienen significado, pero no hay un punto de partida cero natural, las razones no tienen significado Las categorías están ordenadas, pero no hay diferencias o estas carecen de significado Sólo categorías. Los datos no pueden acomodarse en un esquema de orden
Ejemplo: distancias Ejemplo: temperaturas corporales en grados Fahrenheit o Celsius Ejemplo: Las calificaciones de las universidades en el Ranking Web Ejemplo: el color de los ojos
En un estudio observacional, observamos y medimos características específicas, aunque no intentamos modificar a los sujetos que estamos estudiando. En un experimento aplicamos algún tratamiento y luego procedemos a observar sus efectos sobre los sujetos. (En los experimentos, los sujetos se denominan unidades experimentales) En un estudio transeccional, los datos se observan, miden y reúnen en un solo momento. En un estudio retrospectivo (o de control de caso), los datos se toman del pasado (a través del examen de registros, entrevistas y otros medios). Un un estudio prospectivo (o longitudinal o cohorte), los datos se reúnen en el futuro y se toman de grupos (llamados cohortes) que comparten factores comunes. En los estudios retrospectivos regresamos en el tiempo a reunir datos acerca de características resultantes que nos conciernen, como un grupo de conductores que murieron en accidentes automovilísticos y otro grupo de conductores que no murieron en este tipo de accidentes. En los estudios prospectivos vamos adelante en el tiempo siguiendo grupos con un factor causal potencial y grupos que no lo tienen, como un grupo de conductores que utilizan teléfonos celulares y un grupo de conductores que no usan teléfonos celulares. La confusión ocurre en un experimento cuando el experimentador no es capaz de distinguir entre los efectos de diferentes factores.
Bloques: Cuando se diseña un experimento para probar la efectividad de uno más tratamientos, es importante poner a los sujetos (con frecuencia llamados unidades experimentales) en diferentes grupos (o bloques), de manera que estos grupos sean muy similares. Un bloque es un grupo de sujetos que son similares en formas que podrían afectar el resultado del experimento. Cuando realice un experimento con el objetivo de probar uno o más tratamientos diferentes, forme bloques de sujetos con características similares. Diseño rigurosamente controlado Otra opción para asignar sujetos a los bloques es el uso del diseño rigurosamente controlado, donde los sujetos son cuidadosamente elegidos para que quienes formen cada bloque sean similares en las características que sean importantes para el experimento. En un experimento para probar la efectividad de un fármaco para disminuir la presión sanguínea, si el grupo placebo incluye a una persona del sexo masculino de 30 años de edad, con sobrepeso, fumador, con alto consumo de bebidas alcohólicas y con una dieta alta en sal y grasas, el grupo de tratamiento también debe incluir a una persona con características similares. Diseño experimental completamente aleatorizado Cuando se decide cómo asignar a los sujetos a los diferentes bloques, se puede utilizar una selección aleatoria o intentar controlar cuidadosamente la asignación, para que los sujetos de cada bloque resulten similares. Una opción consiste en usar un diseño experimental completamente aleatorizado, mediante el cual los sujetos se asignan a los diferentes bloques a través de un proceso de selección aleatoria. Un ejemplo de un diseño experimental completamente aleatorizado es el experimento de la poliomielitis: los niños fueron asignados al grupo de tratamiento o al grupo placebo a través de un proceso de selección aleatoria (equivalente a lanzar una moneda al aire). Tamaño de muestra Además de controlar los efectos de las variables, otro elemento clave del diseño experimental es el tamaño de las muestras. Éstas deben ser suficientemente grandes para que el comportamiento errático, que es característico de muestras muy pequeñas, no disfrace los efectos verdaderos de los diferentes tratamientos. En una muestra aleatoria los miembros de una población se seleccionan de manera que cada miembro individual tiene la misma posibilidad de ser elegido. Una muestra aleatoria simple del tamaño de n sujetos, se selecciona de manera que cada posible muestra del mismo tamaño n tenga la misma posibilidad de ser elegida.
Un error de muestreo es la diferencia entre el resultado de una muestra y el verdadero resultado de la población; tal error es consecuencia de las posibles fluctuaciones de las muestras.
Un error no de muestreo ocurre cuando los datos de una muestra se obtienen, registran o analizan de forma incorrecta Características de los datos 1. Centro: valor promedio o representativo que indica la localización de la mitad del conjunto de los datos. 2. Variación: Medida de la cantidad en que los valores de los datos varían entre sí. 3. Distribución: La naturaleza o forma de la distribución de los datos sobre el rango de valores (como en forma de campana, distribución uniforme o sesgada). 4. Valores atípicos: Valores muestrales que están muy alejados de la vasta mayoría de los demás valores de la muestra. 5. Tiempo: Características cambiantes de los datos a través del tiempo. Distribuciones de frecuencias Las distribuciones de frecuencias se construyen por las siguientes razones: 1. Es posible resumir conjuntos grandes de datos. 2. Se logra cierta comprensión respecto de la naturaleza de los datos. 3. Se llega a tener un avance para construir gráficas importantes tales como histogramas Una distribución de frecuencias (o tabla de frecuencias) indica como un conjunto de datos se divide en varias categorías (o clases) al listar todas las categorías junto con el número de valores de los datos que hay de cada una. Los límites de clase inferiores son las cifras más pequeñas que pueden pertenecer a las diferentes clases. (Los límites de clase inferiores de la tabla son 60, 70, 80, 90, 100, 110 y 120).