Universidad Privada Antenor Orrego
Curso de Estadística. Unidad I: Estadística Descriptiva. Definiciones Básicas Prof: Mg Cristóbal Exebio C. 2007- I UPAO@net Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
¿Qué es la estadística?
Estadística es la ciencia de: · Recolectar · Describir Datos · Organizar · Interpretar para transformarlos en información, para la toma mas eficiente de decisiones. Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
¿Quienes usan la estadística? ¿En que áreas se utiliza la estadística? Estadística Oficial INEI
Salud y Medicina Genética Epidemiología, Farmacología, Estomatología
Negocios Economía, Ingenieria Marketing, Informática, Consultoría
Ciencias Naturales Ecología, Agricultura Física, Química
Investigación y Educación
Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
¿Por qué estudiar estadística?
Para obtener una completa formación en una rama de la ciencia en pleno desarrollo y cuya aplicación en todos los ámbitos de la sociedad, dota a su conocedor, de unas amplias posibilidades de integración en el mundo laboral
Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
• Determinar la efectividad de las nuevas drogas • Estudio de la polución en el medio ambiente • Estudio de demanda de productos • Control de la calidad de servicios • Ratios de desempleo
¿Para que nos sirve la estadística?
Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Tipos de Estadística
• Estadística Descriptiva: Método de recolectar, organizar, resumir y presentar los datos en forma informativa. • Ejemplo 1: Los datos del Censo de población y vivienda. • Ejemplo 2: Valor de los artículos y bienes robados en el mes de Julio 2006 en la urbanización San Andrés • Ejemplo 3: Número promedio de pacientes por mes atendidos en el Hospital Belén de Trujillo Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
• Estadística inferencial: Métodos usados para describir y analizar las características de la población, en base al estudio de una muestra. • Población(1) es la colección, o conjunto, de individuos, objetos o eventos cuyas propiedades serán analizadas.Está delimitada en el tiempo y el espacio. • Muestra es un subconjunto representativo y adecuado de la población de interés. (1) Algunos autores utilizan Universo como sinónimo Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Población y Muestra Población
Muestra Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Parámetro y Estadístico
• Parámetro: Valor numérico que resume todos los datos de una población completa. Se utilizan letras griegas para denotarlos; así por ejemplo μ : media poblacional y σ : desviación estandar poblacional. • Ejemplos de parámetros: • La calificación “promedio” de los ingresantes a la Universidad • La “proporción” de estudiantes cuyo lugar de nacimiento es el Departamento de La Libertad. • El “total de trabajadores” del sector público de la ciudad de Trujillo
Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
•Estadístico: Valor numérico que resume los datos de una muestra. •Se denota con letras minúsculas del alfabeto español: x denota la media muestral y s2 la varianza muestral . •Ejemplo: •La edad “promedio” registrada en una encuesta de 150 consumidores de carne de res. •La proporción de ciudadanos a favor de una propuesta municipal obtenida al entrevistar una muestra de 400 ciudadanos
Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
La Estadística Descriptiva, describe la población o la muestra en base a medidas estadísticas que corresponden a las variables de interés para el estudio, dicha descripción queda en el grupo que se describe. En cambio; La Estadística Inferencial, describe la población en base a medidas de la muestra, empleando el método inductivo. Para muchos autores la estadística descriptiva genera información, en cambio la inferencia genera conocimiento.
Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Tipos de Estadística (ejemplos de estadística inferencial)
• Ejemplo 1: Una encuesta desarrollada por POP, en marzo 2006, dice que el rating de radio en Lima está encabezado por RPP con un 65.5% seguido por FM 95.9 con 48% • Ejemplo 2: De acuerdo con una encuesta desarrollada por la Universidad de Lima sobre telefonía residencial en el 2006, el gasto mensual promedio por cliente es de 60.30 nuevos soles, a nivel nacional. • Ejemplo 3: El INDEC informó que la Encuesta Permanente de Hogares (EPH) del mes de mayo de 2005 reporto la tasa mas alta de desempleo que ascendió al 24.3% a nivel nacional
Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Variable • Variable: Característica común de interés sobre cada unidad de estudio o elemento individual de una población o muestra. Por corresponderle diferentes valores se denomina variable. • Ejemplos: Edad, peso, estatura de los estudiantes.
• Dato: Valor de la variable asociada a un elemento de la población o muestra. Este valor puede ser un número, una palabra o un símbolo como resultado de la observación o una medición o una indagación. • Ejemplo 1: La familia González tiene “4” miembros, “2” son de sexo femenino y “2” masculino;sus ingresos mensuales son de “685 nuevos soles”, Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
• Ejemplo 2: El conjunto “cantidad de miembros” recolectados de 54 familias residentes en Trujillo. • Ejemplo 3: El conjunto de las “calificaciones” de los 43 estudiantes de estadística de la Escuela de Sistemas
Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
1-7
Tipos de Variables • Cualitativa o de Atributos Característica a quien corresponde valores no numéricos, por lo tanto las operaciones aritméticas, como sumar y obtener promedios, no son significativas.Sus valores no numéricos,sólo indican el atributo que corresponde a la unidad de estudio. • Ejemplos: Sexo, Nacionalidad, Marcas de auto, Grado de Satisfacción de los clientes de la Universidad, etc..
Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Las variables cualitativas se clasifican en Variable Nominal y Ordinal. La variable cualitativa nominal es aquella cuyas categorías solamente nominan el atributo que corresponde al elemento de la población o muestra. Ejm. Sexo, estado civil, lugar de procedencia, etc. La variable cualitativa ordinal, además de nominar el atributo que corresponde al elemento, los ordena considerando un órden, de más a menos o de menos a más.Ejm.Nivel de instrucción, rendimiento académico,nivel de satisfacción, etc. Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
• Cuantitativa o Numérica Característica a quien corresponde valores numéricos. Con los valores se pueden realizar todas las operaciones aritméticas, el sumar y obtener promedios,son significativas. • Ejemplos: Cantidad de Habitaciones, Número de hijos, Kilómetros recorridos, Tiempo de vuelo, Ingreso familiar, etc..
Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
1-9
• Las variables cuantitativas se pueden clasificar a su vez en discretas y continuas. • Cuantitativas Discretas: solo pueden asumir valores enteros. Normalmente son conteos. • Ejemplo1: Número de cursos aprobadas.(1, 2,3 ......) • Ejemplo2: Número de hijos de las familias (1, 2, 3,4...) • Ejemplo3: Número de libros que poseen los estudiantes: 0, 1, 2, 3, ,,,,,,,,,
Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
1-9
• Cuantitativas Continuas: puede asumir cualquier valor
• • • •
dentro del rango de medición. Normalmente se miden magnitudes como: longitud, superficie, volumen, peso, tiempo, dinero. Ejemplo 1: Peso al nacer: 2,60Kg, 3,4Kg. ........ Ejemplo 2: Talla de los estudiantes: 1.45, 1.70, 1.65,... Ejemplo 3: Tiempo de viaje en ómnibus entre Trujillo y Lima: 8.45 Hrs, 8.30 hrs, 9 hrs,............... Generalmente se expresan en intervalos.Ejemplo: Edad : De 5 a 10 De 10 a 15 De 15 a 20 Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
1-12
Escalas de Medición • Las variables cualitativas se miden en escala nominal u ordinal. • Nominal: los elementos solo pueden ser clasificados en categorías pero no se da un orden o jerarquía • Ejemplo 1: Urbanización de residencia de los alumnos: 1.San Andrés, 2. Miraflores , 3.La Merced, 4.California. • Ejemplo 2: Color de ojos: 1.Pardos, 2.Azules, 3.Castaños • Ejemplo 3: Simpatía por un club de fútbol: 1. Si, 2. No
Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
1-12
• Ordinal: los elementos son clasificados en categorías que tienen un orden o jerarquía, la diferencia entre valores no son significativas. • Ejemplo 1: Grado de satisfacción en el uso de un servicio público: 1.Excelente, 2.Bueno, 3.Regular y 4.Malo. . • Ejemplo 2: Ocupación: 4.Plenamente ocupado, 3.Ocupado, 2.Medianamente ocupado, 1.Desocupado. • Ejemplo 3: Nivel de Instrucción: 1.Primaria, 2.Secundaria, 3. Superior.
Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
• Las variables cuantitativas se miden en escala de intervalo o razón. • Intervalo: los elementos son clasificados en categorías que tienen un orden o jerarquía, la diferencia entre valores se pueden realizar y son significativas.La diferencia entre dos valores consecutivos es de tamaño constante y no existe el 0 absoluto o el cero no es verdadero • Ejemplo: Temperatura en grados Celsius, la existencia de 0 no niega la existencia de temperatura, luego el cero no es verdadero. Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
• Razon: los elementos son clasificados en categorías que tienen un orden o jerarquía, la diferencia entre valores se pueden realizar y son significativas. Existe el 0 absoluto, es decir la ausencia del valor de medida de la variable. • Ejemplo 1: Tiempo de vuelo. • Ejemplo 2: Ingresos familiares, donde el cero indica carencia de ingreso.
Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Medidas Estadísticas Son valores que permiten describir al conjunto de datos. Se clasifican en medidas de: Posición
Dispersión
Centrales
Absoluta
No Centrales
Relativa
Asimetría
Apuntamiento
Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Medidas Centrales Las medidas de posición centrales tienden a ubicarse en el centro y representar al conjunto de datos Promedio o Media Aritmética: Es un valor de la variable que representa al conjunto de datos; se denota por X y es dado por la suma de los valores de la variable dividido por el número de valores que intervienen. Esto es : n Xi ∑ Es una medida que es influenciada por los x = i =1 valores extremos. Si la serie de datos tiene n un valor muy alto, el valor promedio será llevado hacia los valores altos Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Ejemplo Las siguientes series de datos corresponden al número de miembros de cinco familias: a). 5 , 8 , 10, 11, 9
x = 5.89 ≈ 6 miembros
Interpretación: Se espera que cada una de las familias tenga 6 miembros b) 4 , 3, 2, 4, 12
x = 5 miembros
Interpretación : Entonces, se espera que cada una de las familias tenga 5 miembros. Como podemos observar el número de miembros por familia es aumentado por influencia del valor extremo: 12 miembros Al considerar al promedio como una medida que representa al conjunto de datos, podemos observar que a unas familias disminuimos el número de miembros, mientras que a otras les aumentamos Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Mediana : Es el valor de la variable que al ubicarse en el centro de la serie de datos; la divide en dos partes iguales, a cada parte le corresponde el 50% de los datos.La mediana supera al 50% de los datos y a la vez es superada por el otro 50%. Se denota por Me y es dada por : a) Si la serie es impar, la mediana es el valor que se ubica en el centro b) Si la serie es par la mediana es el valor dado por la semi suma de los valores centrales. Para determinar el valor de la mediana la serie tiene que ser ordenada de mayor a menor o viceversa. Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Ejemplos Con relación a las series anteriores : a) 5 , 8, 10 , 11, 9 ordenando la serie obtenemos: 5, 8, 9, 10, 11 Como la serie tiene cinco valores, entonces es impar y así la mediana será el valor 9; valor central de la serie. Así: Me = 9 miembros. Observamos que igual número de familias están a la derecha e izquierda del valor central nueve. Interpretación: El 50% de las familias tiene hasta 9 miembros; el 50% restante tiene más de 9 miembros. Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
b) 4, 3, 2 , 6, 12, 14 Ordenando la serie obtenemos: 2, 3, 4, 6, 12, 14 Como los valores centrales son 4 y 5 , la mediana será: Me = ( 4 + 6 )/ 2 = 5 miembros. Así el 50% de las familias tienen hasta 5 miembros; el otro 50 % tienen más de 5 miembros. Podemos observar que la mediana no es influenciada por los valores extremos.
Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Moda : Es el valor de la variable que más se repite o es el valor más frecuente. Se denota por Mo. Ejemplo: En la serie: 2, 3, 4, 6 , 7, 4. La moda es 4, por ser el valor que más se repite. En la serie: 2, 3, 4, 6, 2, 5, 4, 7 Las modas son los valores: 2 y 4 por ser los que más se repiten En el primer caso se dice que la serie es unimodal y en el segundo, la serie es bimodal. A una serie puede corresponder una o más modas; cuando le corresponde más de dos modas se complica su interpretación. Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Medidas No Centrales Cuartiles: Son tres valores de la variable que dividen a la distribución o serie de datos en cuatro partes iguales, a cada parte corresponde el 25% de los datos. Se denotan por : Q 1 : Pimer Cuartil Q 2 : Segundo
Cuartil = Me
Q 3 : Tercer Cuartil
Hasta el primer cuatil se acumula el 25% de los datos, hasta el segundo se acumula el 50%(igual que la mediana) y hasta el tercero se acumula el 75%; a partir del tercer cuartil se acumula el 25% superior.
Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Graficamente: X mín
25%
25%
25%
25% X máx
25% 50% 75%
Q1
Q2
Q3
Podemos apreciar que el 75% de los datos superan al primer cuartil y que el tercer cuartil es superado por el 25% de los datos. Los cuartiles se emplean cuando se desea conocer el valor de la variable hasta el cual se acumula el 25%, 75% o el valor de la variable a partir del cual se inicia la acumulación del 75% o el 25% de los datos. Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Deciles: Son nueve valores de la variable que dividen a la distribución o serie de datos en 10 partes iguales, a cada parte corresponde el 10% de los datos. Se denotan por D1 , D2......D9 10%
10%
D1
10%
10% 10%
D2
D3
10%
D4
10%
D5
10%
D6
10%
D7
10% 10%
D8
D9
20% 30% 40% 60% 70% 80%
90%
Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Si en una distribución de frecuencias de notas de un grupo de 60 estudiantes, se desea conocer cual es la nota hasta el cual se acumula el 30 % de los estudiantes, basta con calcular el tercer decil. De igual manera, si se desea conocer a partir de cual nota se acumula el 40% de los estudiantes basta con calcular el sexto decil. Ejemplo: Si en una distribución de frecuencias de notas de 60 estudiantes, la nota mínima es 07 y la máxima 19, el primer cuartil es 11 y sexto decil es 16; entonces: El 25% ( 15 )de los estudiantes han obtenido hasta 11 de nota, en cambio el 60% (36)han obtenido hasta 16 de nota. Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Tercios : Son dos valores de la variable que dividen a la distribución en tres partes iguales, a cada parte corresponde aproximadamente el 33.3% de los casos. 33.3%
33.3%
33.3%
Tercio Superior
T1
T2
Si en una distribución de notas de 60 estudiantes el segundo tercio es 14, a partir de está nota se consideran ubicados los estudiantes del tercio superior, es decir un estudiante con catorce o más de nota pertenecerá al tercio superior. Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Medidas de Dispersión a.Medidas Absolutas a.1. Varianza. Es el promedio del cuadrado de los desvios de las observaciones con respecto a la media que los representa. Sea: di = Xi – X el desvios de la observación Xi con respecto al promedio de los datos. n
∑d i =1
di2 = el cuadrado del desvio de Xi 2 i
= Suma de cuadrados de los desvios
Luego, la varianza es dada por: V ( X ) =
n
∑d i =1
n
n
2 i
=
2 X X ( − ) ∑ i i =1
n
Note que es un promedio Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
a.2. Desviación Estandar . a.2.1.Definición operacional: Es dada por la raiz cuadrada de la varianza. Se denota por DE(X) o σ x = V ( x ) a.2.2. Definición conceptual: Es el promedio de aumento o disminución a los valores de la variable cuando se les representa por su promedio.( x ± DE ) Ejemplos: La edad promedio de los estudiantes de estadística es de 21 años con una desviación estanadar de 2 años. Esto se denota por: 21 + 2 años. Interpretación: Esperamos que cada estudiante en promedio tenga 21 años, pero a unos les hemos aumentado y a otros les hemos disminuido 2 años en promedio. Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Cuando la desviación estandar es un valor pequeño, nos indica que la dispersión de los valores de la variable con respecto a su promedio es tambien pequeña. ¿Pero hasta cuanto se considera pequeño? Para responder esta pregunta es necesario conocer el Coeficiente de Variación. Coeficiente de Variación.- Es una medida de variación relativa, sin unidades y que permite incluso comparar dispersiones de variables diferentes. Se denota por CV(x) y es dado por:
DE ( x) CV ( x) = (100) x Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Si CV(x) es menor del 33%, entonces el promedio es representativo del grupo de valores y los datos tienden a ser homogéneos; en caso contrario el promedio no es un buen representante ya que los valores de la variable tienden a ser heterogéneos. Ejemplo: El coeficiente de variación del ejemplo anterior es: CV ( x) =
2 (100 ) = 9.52% 21
Podemos afirmar que el promedio es un buen representante del grupo y que los datos tienden a ser homogéneos, por lo que estarán muy cercanos al promedio y la dispersión sería pequeña. Como se puede apreciar el coeficiente de variación evalua la representatividad del promedio. Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Ejemplo: Utilizando los datos de la siguiente tabla, podemos concluir que los ingresos de las familias en la ciudad de Lima son más dispersos que los ingresos de las familias de Trujillo. Trujillo
Lima
CV( Truji) = (600/ 1200)(100)= 50%
x
1 200
1200
CV( Lima) = ( 800/ 1200)(100)= 67%
DE
600
800
En los dos casos el promedio carece de representatividad, los datos están muy dispersos, tienden a ser heterogéneos ya que en los dos casos el CV es mayor del 33%
Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Medidas de Forma La asimetría es la forma que adopta una curva estadística respecto a su media aritmética. Esta deformación es observable en cualquier representación gráfica. Existen tres tipos de asimetría.
x < M
e
< M
0
Asimetría Negativa
x = M
e
= M
o
Asimetría Nula
M
o
< M
e
< x
Asimetría Positiva
Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Coeficiente de Asimetría : Mide el nivel de inclinación de la gráfica de la distribución, considerando si los datos se distribuyen por igual a ambos lados de la media. Su valor es dado por el primer y segundo coeficiente de Pearson. a. Primer coeficiente : x − M0 As = S
donde : x es el promedio, Mo la moda y S la desviación estandar
b. Segundo coeficiente 3( x − M e ) As = S
donde Me es la mediana
Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Interpretación: Si As < 0 la distribución es asimétrica negativa o con cola hacia la izquierda. Si As = 0 la distribución es simétrica Si As > 0 la distribución es asimétrica positiva o con cola hacia la derecha. Ejemplo: Si As = -1.23 la asimetría es negativa con cola hacia la izquierda, los datos tienden a concentrarse hacia los valores mayores de la variable ya que la moda es mayor que el promedio. Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Medidas de Apuntamiento o Kurtosis La kurtosis es el grado o nivel de elevación que logra una curva estadística comparada con la normal. La kurtosis hace referencia a la deformación vertical de una curva de frecuencias
Las gráficas están ordenadas de mayor a menor apuntamiento, a mayor apuntamiento mayor concentración de los datos alrrededor del promedio (indicado por la línea punteada). Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Coeficiente deApuntamiento.- Mide el nivel de elevación de una curva estadística. Cuanto más elevada la curva los datos estarán más centrados alrrededor de la media.
Q3 − Q1 K= 2( P90 − P10 )
Q1 , Q3 , P10 y P90 Son el primer y tercer cuartil, percentil diez y noventa
Interpretación: Si k = 0.263 la distribución es mesocúrtica(apuntamiento de la curva normal. Si K < 0.263 la distribución es platicúrtica(mas aplastada que la curva normal). Si K > 0.263 la distribución es leptocúrtica(más apuntada que la curva normal.
Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Tarea 1 Los siguientes resultados corresponden a notas obtenidas por los estudiantes de en su tercer ciclo de estudios. Interprete los resultados x = 13 M e = 12 Q 3 = 16 Mín = 08 Máx = 20 T2 = 14 D 3 = 11 M o = 11 As = 0 . 403 K = 0 .148
Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Tarea 2 Los siguientes resultados corresponden a ingresos de grupo de padres de familia de los estudiantes de UPAO- 2006.. Interprete los resultados x = 800 M e = 900 Q1 = 600 Mín = 400 Máx = 3000 T 2 = 1200 D 8 = 2000 M o = 1000 A s = − 1 . 36 K = 0 .183
Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006
Solo se puede evaluar, lo que se puede medir. Albert Eisten
Este y otros temas de interés lo puede encontrar en la pagina del profesor - UPAO@net
Material preparado por el profesor Cristóbal Exebio C. -UPAO-2006