Micky ESTADISTICA TEORIA
-
La estadística no es más que una herramienta y el que mejor la sabe utilizar esta herramienta tiene una ventaja competitiva respecto a otro.
-
Concepto de croxton y cowden: “estadística es la recopilación, presentación, el análisis y la interpretación de los datos numéricos”. Y su objetivo es proveer técnicas y métodos para estudiar poblaciones de datos numéricos sujetos a variabilidad y/o en situaciones de incertidumbre. Este concepto de estadística es general y abarca las dos clasificaciones de estadística:
Recopilación Presentación Análisis interpretación de los datos.
El paso previo a estas 4 etapas es que se nos presente un problema. Entonces: 1) 2)
3) 4)
Recopilamos información: mediante encuestas, formularios etc. Presentación: la información recopilada se presenta en forma gráfica o tabular (distribuciones de frecuencias) Analizamos la información haciendo cálculos Interpretamos los cálculos (muy importante)
La interpretación es muy importante porque la información debe ser presentada a terceros. En adelante y con la finalidad de lograr una mejor compresión de los elementos que se señalan, definiremos algunos conceptos importantes para este curso: -
-
-
Las variables pueden ser:
Estadística descriptiva: es el estudio de la población (censos) y su análisis se realiza a través de parámetros poblacionales. (µ, 𝜎 2 𝜎) el riesgo de cometer errores tiende a cero. Estadística inferencial: es el estudio de una subpoblación de la población total o de una población en miniatura (muestra). Y su análisis se realiza a través de estimadores o estadísticos (es una medida no son personas y son (𝑥, 𝑆 2 𝑆)).
Los 4 pilares de la estadística son. 1) 2) 3) 4)
-
Muestra: es el subconjunto de la población que se considera para el análisis. Elemento unitario o unidad de análisis: son cada uno de los componentes de la población. Variable: es una característica de la población que varía al pasar de un elemento unitario a otro. Dato u observación: valor que toma la variable para cada unidad de análisis y que se obtiene por algún método de captación (registro, censo, encuesta, etc.)
Población: Conjunto de todos los posibles individuos, personas, objetos o mediciones de interés estadístico Población física: es un conjunto de elementos unitarios definidos en una dimensión espaciotiempo. Población estadística: conjunto formado por los valores de la variable observados, medidos o contados en cada elemento unitario de la población física.
Cualitativas: no se expresan mediante un número por ejemplo, sexo, religión, estado civil, nivel de educación. Pueden ser: Naturales, cuando sus categorías están naturalmente pre establecidas, por ejemplo: sexo, nivel de educación Arbitrarias cuando las categorías las establece el investigador, por ejemplo, nivel ocupacional, estado de salud. Si la variable admite solo dos categorías se denomina dicotómica por ejemplo sexo Si admite más de dos categorías se denominan de contestación múltiple por ejemplo estado civil Pueden ser nominales, no tienen un orden pre establecido por ejemplo profesión Ordinales cuando si existe ese orden por ejemplo nivel de educación. Los informes de gestión son siempre cualitativos, el respaldo de ese informe es totalmente cuantitativo. Cuantitativas: se expresan mediante un número Discreta: es el conjunto de los números enteros, surgen del hecho de contar. Continua: surgen del hecho de medir, abarcan el conjunto de números reales.
1 Popotitos
Micky Estadística descriptiva RECOPILACION
4)
Es La captación, obtención, consecución o recolección de los datos.
5)
Frecuencia relativa: nos indica cómo se distribuyen las distintas categorías en términos porcentuales. Notas aclaratorias: por ejemplo en caso de existir una clase abierta (no es un requisito fundamental) Fuente: es el lugar en donde se obtuvo la información.
Registros administrativos: son los libros que se llevan en la empresa por motivos estadísticos ejemplo: IVA vtas, IVA compras. PRESENTACION Es la organización y resumen de los datos recopilados. Una vez clasificada la información, se lo presenta en un cuadro o tabla y gráfica.
“Ejemplos” Distribución de frecuencias: es una tabla que resume y organiza la información. Pueden ser univariable, bivariables o multivariables. En definitiva es un cuadro o tabla estadística que resume la información de una o más variables consideradas y el número de veces que se repite. Toda distribución de frecuencias tiene requisitos formales y son los siguientes. Requisitos formales de la presentación de la información: 1)
2)
3)
Título: debe ser corto, conciso y claro (que, como, donde y cuando) ej. La población + clasificados según la variable. Nota al título: aclaraciones ya que el titulo debe ser en lo posible corto (no es un requisito fundamental) Correcta disposición de filas y columnas X f(x) f(x)/N*100
∑N Frecuencia absoluta: es la cantidad de veces en que se repite la categoría o clase de la variable.
Distribución de frecuencias para variables cualitativas POBLACION: alumnos de la unsta cuc… en el periodo lectivo 2016 N= 10 alumnos VBE: estado civil (cualitativa, nominal, CM) Construcción: 1)
Recopilación de datos alumno
Estado civil
a
s
b
S
c
C
d
S
e
V
f
S
g
C
h
S
i
Separado
j
c
2 Popotitos
Micky 2)
Presentación de la información en Distribución de frecuencias Título: alumnos… clasificados según su estado civil Estado civil Soltero
f(x)
f(x)/N*100
5
50
Casado
3
30
Separado o viudo Total
2
20
N=10
100
Distribución de frecuencias para variables cuantitativas discretas “con intervalos de clase” POBLACION: alumnos de la unsta cuc… en el periodo lectivo 2016 N= 10 alumnos VBE: cantidad de materias aprobadas 1)
Recopilación de datos alumno
Fuente: elaboración propia Distribución de frecuencias para variables cuantitativas discretas “sin intervalos de clase” POBLACION: alumnos de la unsta cuc… en el periodo lectivo 2016 N= 10 alumnos VBE: cantidad de materias aprobadas 1)
Recopilación de datos alumno
2)
a b
Cantidad de materias aprobadas 4 2
c d
4 3
e f
5 6
g h
7 5
i j
5 6
2)
Presentación de la información en distribución de frecuencia a) Ordenar los datos : 2,3,4,4,5,5,5,6,6,7 (datos no agrupados) b) Calcular el rango : R= 7-2= 5 1º VALLA: R=5 por lo tanto es ≤ 10 2º VALLA: entre 2 y 7 todos los números tienen representatividad Título: alumnos… clasificados según la cantidad de materias aprobadas
a
Cantidad de materias aprobadas 5
b
5
c
6
d
3
e
2
f
7
g
4
h
9
i
5
j
6
Presentación de la información en distribución de frecuencia a) Ordenar los datos: 2,3,4,5,5,5,6,6,7,9 ( no tiene 8 hago con intervalo de clase. O sea que no tiene representatividad en 8) b) Calcular el rango R= 9-2= 7 c) Determinar la cantidad de clases CC= 1+3,322log(10)= 4,322..= 4 clases d) Calcular h h= 7/4= 1.75…= 2 de amplitud e) Construcción de la primera clase Tengo 2 opciones 1) Que el punto medio de la primera clase sea igual al h ,es decir x= d por lo tanto [x=2] 2=h=x Li (1) Ls (3) 2)
Que el límite inferior sea igual al h, es decir Li = H por lo tanto [Li= 2] 2=h Li (2) Ls (4)
Puedo elegir cualquiera, en este caso elijo que el punto medio (xi) de la primera clase sea = 2
Cantidad de materias aprobadas (x) 2
f(x)
f(x)/N*100
1
10
3
1
10
4
2
20
clases
xi
f(x)
f(x)/N*100
F(X)
F*(X)
5
3
30
1a3
2
2
20
2
10
6
2
20
4a6
7
6
60
8
8
7
1
10
7a9
8
2
20
10
2
total
10
100
total
10
100
Fuente: elaboración propia
Título: alumnos… clasificados según la cantidad de materias aprobadas
Fuente: elaboración propia
3 Popotitos
Micky Datos varios Frecuencia acumulada (F(X)): representa la cantidad de elementos unitarios correspondientes a determinado valor de la variable o menores al mismo. Frecuencia desacumulada (F*(X)): representa la cantidad de elementos unitarios correspondientes a determinado valor de la variable o mayores al mismo. Intervalos de clase: es un recorrido de la variable que trascurre entre un límite inferior (Li) y un límite superior (Ls)
Requisitos formales de los “intervalos de clase “ Deben ser: 1)
Adyacentes: donde termina uno comienza el otro Ejemplo
2)
Mutuamente excluyentes: un valor debe pertenecer a una y solo una de las clases Ejemplo 10 a -20 20 a -30 30 a -40
3)
Exhaustivos: las distribuciones deben darnos la posibilidad de que todos los valores estén en alguna de las clases.
Se construyen las clases intentando que el menor valor de la variable coincida aproximadamente con el punto medio (xi) de la primera clase, no deben existir clases con frecuencia cero y si existen valores extremos o alejados del conjunto de datos, se deja una clase abierta con una nota aclaratoria al pie de la distribución. La grafica de la distribución va a depender de la variable con la que se esté trabajando:
ANALISIS E INTERPRETACION Para analizar debemos aplicar: 1) 2) 3)
Medidas de tendencia central (MTC): nos indica la posición de los datos Medidas de variabilidad (MV): nos indica la dispersión de los datos Medidas de asimetría (MA): nos indica la forma de la curva de la distribución de frecuencia.
Son números que resumen en una sola cifra toda una característica de un conjunto de datos. Características comunes de las MTC:
Se miden en las mismas unidades que la variable De formula fácil y calculo sencillo Son valores calculados
Entre las MTC están: a) b) c) d) e) f)
Media aritmética = 𝝁𝒙 Mediana = 𝒎𝒆 Modo = 𝑴𝒐 Cuartiles = Qj Deciles = Dj Perceptiles = Pj
4 Popotitos
Micky a) media aritmética: Es la sumatoria de los valores de la variable respecto al tamaño de la población Datos sin agrupar
𝝁𝒙 =
𝚺𝒙 𝑵
Ubicación grafica de la 𝒎𝒆
Datos agrupados
𝝁𝒙 =
𝚺𝒙 ∗ 𝒇(𝒙) 𝑵
Características específicas de 𝜇𝑥
No se pueden calcular en variables cualitativas Todos los valores de la variable entran en su cálculo, por lo tanto Se ve influenciada por valores extremos Si todos los valores de la variable son iguales la 𝜇𝑥 es cualquiera de dichos valores
Propiedades de 𝜇
La sumatoria de los desvíos lineales con respecto a 𝜇 es igual a cero 𝜮(𝒙 − 𝝁) = 𝟎 La sumatoria de los desvíos cuadráticos con respecto a 𝜇 es un mínimo 𝚺(𝒙 − 𝝁)𝟐 = 𝒎𝒊𝒏𝒊𝒎𝒐 Si a todos los valores de la variable se le suma una constante (k) la 𝜇 se traslada al valor de dicha constante(k) 𝝁𝒙+𝒌 = 𝒌 + 𝝁𝒙 Si a todos los valores de la variable se los multiplica por una constante (k) la 𝜇 se traslada al valor de dicha constante (k) 𝝁𝒙∗𝒌 = 𝒌 ∗ 𝝁𝒙 𝜇 total o 𝜇 ponderada 𝝁𝑻= 𝑵𝟏∗𝝁𝟏+𝑵𝟐∗𝝁𝟐+⋯.+ 𝑵𝒏∗𝝁𝒏 𝑵𝟏+𝑵𝟐……+𝑵𝒏
Interpretación de 𝝁: si toda la “población”, tuviera la misma “característica” unidades
b) mediana: es el valor que divide a la población en dos partes iguales, un 50% para un lado y un 50% para el otro.
Propiedades de la 𝒎𝒆
𝑚𝑒𝒙+𝒌 = 𝒌 + 𝒎𝒆 𝑚𝑒𝒙.𝒌 = 𝒌 ∗ 𝒎𝒆
Interpretación de la 𝒎𝒆 : el 50% de la “población” tiene ………………….. Unidades o menos y el otro 50%……………….. Unidades o más.
c) modo: es el valor de la variable que se presenta con mayor frecuencia. -Es la única MTC que puede calcularse en todo tipo de variables - puede no existir 𝑴𝒐 , o existir un solo 𝑴𝒐 (unimodal) o 2 𝑴𝒐 (bimodal) o más de dos (multimodales). Datos sin agrupar Es el valor de la variable que ocurre más veces
Datos agrupados Sin intervalos de clase Es el valor de la variable que se corresponde con mayor frecuencia
Con intervalos de clase 1º ubicamos la clase modal con mayor frecuencia 2º calculamos el 𝑴𝒐 con la formula 𝑴𝒐 = 𝐿𝑖 + ℎ
Se puede ubicar en variables cualitativas ordinales, como en toda medida de posición (Qj, Dj, Pj), se ubican sobre datos ordenados en forma creciente.
⊿1 ⊿1 + ⊿2
Donde ⊿1= 𝑓(𝑥𝑟)- 𝑓(𝑥𝑟 − 1) y ⊿2= 𝑓(𝑥𝑟)- 𝑓(𝑥𝑟 + 1)
Ubicación grafica del 𝑴𝒐
5 Popotitos
Micky Propiedades del 𝑴𝒐
𝑴𝒐𝒙+𝒌 = 𝒌 + 𝑴𝒐 𝑴𝒐𝒙.𝒌 = 𝒌 ∗ 𝑴𝒐
Interpretación del 𝑴𝒐: lo más frecuente es que la “población” tenga………………….unidades. d) cuartiles: son medidas de posición que dividen a la población en 4 partes. La 𝒎𝒆 es igual al Q2
Asumen valores no negativos Si todos los valores de la variable son iguales, todas las MV son igual a cero Se puede presentar en valores absolutos o en valores relativos
MV (absolutas) RANGO: mide el recorrido a lo largo de toda la curva RANGO INTERCUARTIL: mide el recorrido en el 50% central de los valores de la variable VARIANZA: Está relacionada con el tamaño de la diferencia entre cada valor obtenido y la media aritmética de la distribución a que pertenece.
Interpretación del Q1: el 25% de la “población”………………..y el 75% restante……………….. Interpretación del Q3: el 75% de la “población”………………..y el 25% restante………………..
e) decil: divide a la población en 10 f) percentil: divide a la población en 100
Aclaraciones de las MTC en variables cualitativas En las nominales no pueden calcularse promedios En las ordinales 𝝁 no puede calcularse, pero si puede la Me, el Mo y los Qj
DESVIO ESTANDAR: Cuanto mayor sea la dispersión de los datos alrededor de la media, mayor será la desviación estándar. MV (relativas) COEFICIENTE DE VARIABILIDAD RELATIVA: es la relación entre MTC y MV
DATOS SIN AGRUPAR
DATOS AGRUPADOS
𝑅 = 𝑋𝑚𝑎𝑥𝑖𝑚𝑜 − 𝑋𝑚𝑖𝑛𝑖𝑚𝑜
𝑅 = 𝐿𝑠(𝑢𝑡º𝑐) − 𝐿𝑖(1º𝑐)
RI= Q3-Q1
RI= Q3-Q1
𝜎𝑥 2 =
1 ∑(𝑥 − µ)2 𝑁
𝜎𝑥 2 =
∑𝑥 2 −(µ)2 𝑁
𝜎𝑥 = √𝜎𝑥 2
𝜎
𝐶𝑉𝑅𝑋 = *100 𝜇
𝜎𝑥 2 =
1 ∑(𝑥 − µ)2 ∗ 𝑓(𝑥) 𝑁
𝜎𝑥 2 =
∑𝑥 2 ∗ 𝑓(𝑥) −(µ)2 𝑁
𝜎𝑥 = √𝜎𝑥 2
𝜎
𝐶𝑉𝑅𝑋 = *100 𝜇
Si el CVR tiende a: 0 entonces es homogéneo 1 entonces son distintos
Indican que tan dispersos están los datos. Homogeneizar la población es dividirla en estratos, cuanto más homogénea sea la población el resultado de las MV tiende a cero. Las MV miden la no coincidencia de los valores de la variable presentando las siguientes características:
6 Popotitos
Micky
La asimetría es la forma que tiene la curva, es decir cuan a lado están los valores alrededor de una MTC. Se refiere a la forma en la que están dispuestos los datos en una distribución de frecuencias. Las curvas pueden ser simétricas, La asimetría se produce por la existencia de valores extremos Para determinar la forma de la curva se usan MA. Solo se utilizan o aplican en variables cuantitativas continuas.
Distribución asimétrica de izquierda o negativa: muchos que tienen mucho y pocos que tienen poco Ejemplo: muchos aplazos en los exámenes de ingreso
Distribución simétrica: cuando respecto al eje imaginario central se distribuyen de igual manera hacia ambos lados
Distribución asimétrica de derecha o positiva: muchos que tienen poco y pocos que tienen mucho Ejemplo: el ingreso, la pobreza
𝜇 < 𝑚𝑒 < 𝑚𝑜
𝜇 = 𝑀𝑒 = 𝑀𝑜
𝜇 > 𝑚𝑒 > 𝑚𝑜
Para medir la asimetría se usa:
Coeficiente de asimetría de Pearson: mide la asimetría en toda la curva ∆𝑆𝑃𝑥 =
𝜇 − 𝑀𝑜 𝜎𝑥
-1 = extremadamente asimétrica de izquierda 0 = simétrica 1 = extremadamente asimétrica de derecha
Coeficiente de asimetría de Bowley: mide la asimetría en el 50% central de la curva, para evitar los problemas de los valores extremos o alejados ∆𝑆𝐵 =
𝑄1 + 𝑄3 − 2𝑀𝑒 𝑄3 − 𝑄1
-1 = extremadamente asimétrica de izquierda 0 = simétrica 1 = extremadamente asimétrica de derecha
7 Popotitos