Ignacio Cascos Fern´ andez Dpto. Estad´ıstica e I.O. Universidad P´ ublica de Navarra
Estad´ıstica Descriptiva Estad´ıstica — ITT Sonido e Imagen — curso 2004-2005
1.
Definiciones fundamentales
La Estad´ıstica Descriptiva se ocupa de la descripci´on de datos experimentales, m´as espec´ıficamente de la recopilaci´on, organizaci´on y an´alisis de datos sobre alguna caracter´ıstica de ciertos individuos pertenecientes a la poblaci´ on o universo. Definici´on 1 (Poblaci´on, tama˜ no). Llamamos poblaci´ on a un conjunto bien definido sobre el que se observa o puede observarse una cierta caracter´ıstica. Puede ser finita o infinita. El tama˜ no de la poblaci´ on es el n´ umero de individuos que tiene, su cardinal, lo denotamos por N . Si la poblaci´on es muy grande se hace muy costoso y en algunos casos imposible considerar cada individuo y se realiza una selecci´on denominada muestra. Definici´on 2 (Individuo). Llamamos individuo a cada uno de los elementos de la poblaci´on. Definici´on 3 (Muestra, tama˜ no). Una muestra es un conjunto de individuos de la poblaci´on que refleja las caracter´ısticas de ´esta lo mejor posible. Si las caracter´ısticas quedan bien reflejadas, se dice que la muestra es representativa. El tama˜ no de una muestra es el n´ umero de individuos que tiene, lo denotamos por n. Si muestra y poblaci´on coinciden, se dice que se dispone de un censo. Definici´on 4 (Variable, dato). Una variable (X) es un s´ımbolo que representa una caracter´ıstica a estudiar en la poblaci´on. Llamamos dato (x) al valor (num´erico o no) que la variable toma sobre un individuo concreto de la muestra. 1
Tipos de variables Cuantitativa: toma valores en un conjunto prefijado de valores num´ericos, se puede medir. • Discreta: el conjunto es finito o numerable (Ej. n´ umero de hijos de una familia). • Continua: el conjunto es infinito no numerable, contiene alg´ un intervalo (Ej. duraci´on de alguna componente en un sistema). Cualitativa: toma valores que se corresponden con cualidades no cuantificables de los individuos, no se pueden medir (Ej. color). Dicot´ omicas: s´olo pueden tomar dos valores, (SI/NO); (0,1).
2.
Representaciones tabulares, frecuencias
Una vez obtenida una muestra de cualquier poblaci´on y observados los valores que toma la variable en los individuos de la muestra, estos valores se suelen ordenar. Si la variable es cuantitativa la ordenaci´on ser´a de menor a mayor. Dada una variable X, consideramos una muestra de tama˜ no n que toma k valores distintos, x1 , . . . , xk (si la variable es cuantitativa x1 < x2 < . . . < xk ). La frecuencia absoluta de un valor xi es el n´ umero de veces que dicho valor aparece en la muestra. Se representa por ni y cumple k X
ni = n1 + n2 + . . . + nk = n
i=1
La frecuencia relativa de un valor xi es el cociente de la frecuencia absoluta de xi (ni ) entre el tama˜ no de la muestra (n), se representa por fi ni fi = , n
se cumple
k X
fi = 1.
i=1
Si trabajamos con variables cuantitativas, como hemos ordenado los valores de la muestra de menor a mayor, podemos definir las frecuencias acumuladas.
2
La frecuencia absoluta acumulada del valor i-´ esimo es la suma de las frecuencias absolutas hasta dicho valor, se denota por Ni Ni = n 1 + n 2 + . . . + n i La frecuencia relativa acumulada del valor i-´ esimo es la suma de las frecuencias relativas hasta dicho valor, se denota por Fi Fi = f1 + f2 + . . . + fi ,
Fi =
Ni n
Una tabla de frecuencias tiene la siguiente estructura. xi
ni
fi
Ni
Fi
Podr´ıamos hablar tambi´en de la frecuencia de un cierto valor dentro de una poblaci´on (siempre que ´esta fuera finita), bastar´ıa con tomar como muestra un censo. Lo mismo ocurre para todas las medidas que describiremos m´as adelante (de tendencia central, posici´on, dispersi´on y forma), en principio nos referiremos a medidas sobre una muestra, en otro caso (si fueran relativas a la poblaci´on) lo explicitar´ıamos.
3.
Datos agrupados
A veces se hace necesario trabajar con datos agrupados (el por qu´e y c´omo fueron brevemente explicados en clase). Definimos entonces como clase a cada uno de los intervalos en que se agrupan los datos. Las frecuencias har´an ahora referencia al n´ umero de datos que hay en cada intervalo. Denotaremos la i-´esima clase como [Li , Li ]. Si sucede que Li = Li−1 , las clases ser´an de la forma (Li , Li ], de tal modo que la intersecci´on de dos clases distintas sea el vac´ıo. Dada la i-´esima clase, Li ser´a su l´ımite inferior y Li su l´ımite superior. La marca de clase ser´a el punto medio del intervalo, mi = (Li + Li )/2 y la amplitud el tama˜ no del intervalo, ci = Li − Li . Una tabla de frecuencias tendr´a ahora la siguiente estructura. 3
(Li , Li ]
4. 4.1.
ni
fi
Ni
Fi
Medidas de posici´ on Medidas de tendencia central
Los promedios o medidas de tendencia central son valores t´ıpicos o representativos de un conjunto de datos. Pretenden resumir todos los datos en un u ´nico valor. Definimos tres medidas de tendencia central, media, mediana y moda. 4.1.1.
Media, (x)
Se calcula para variables cuantitativas y se trata del centro geom´etrico o de gravedad de nuestros datos, k
x=
n1 x1 + n2 x2 + . . . + nk xk X = xi fi n i=1
Si se trata de una media poblacional, es decir, estamos considerando todos los individuos de la poblaci´on, suele denotarse por µ. Propiedades. Pk 1. i=1 (xi − x)ni = 0 2. la media es el punto para el que la distancia cuadr´atica media a los valores de la muestra es m´ınima, es decir, para cualquier a ∈ R k X
(xi − x)2 ni ≤
i=1
k X
(xi − a)2 ni
i=1
Obs´ervese que en el c´omputo de la media se utilizan todos los valores, por tanto si hay valores an´omalos (extremos) influir´an fuertemente en ella. Si los datos est´an agrupados, para hallar la media tomamos la marca de las clases, k n1 m1 + n2 m2 + . . . + nk mk X x= = mi fi n i=1 4
4.1.2.
Mediana, (Me)
Se calcula para variables cuantitativas, es un n´ umero tal que al menos el 50 % de los datos es menor o igual que la mediana y al menos el 50 % mayor o igual. Si hay m´as de una mediana tomamos el punto medio entre la mediana mayor y la m´as peque˜ na, que ser´an los datos que aparecen en la muestra y sirven como medianas. Para calcularla, recurrimos a la columna de las frecuencias relativas acumuladas y buscamos el primer valor Fi ≥ 0’5, es decir aquel para el que Fi ≥ 0’5 y Fi−1 < 0’5. Si Fi > 0’5, entonces Me = xi , si Fi = 0’5, entonces Me = (xi + xi+1 )/2. Propiedad. La mediana es el punto para el que la distancia eucl´ıdea media a los valores de la muestra es m´ınima, es decir, para cualquier a ∈ R k X
|xi − Me|ni ≤
k X
i=1
|xi − a|ni
i=1
S´olo tiene en cuenta la posici´on de los valores en la muestra y por lo tanto tiene mucho mejor comportamiento que la media cuando hay observaciones an´omalas. 4.1.3.
Moda, (Moda)
Es el valor con mayor frecuencia. Si hay m´as de una, la variable se dice multimodal y puede calcularse para cualquier tipo de variable. Si los datos est´an agrupados hablamos de clase modal y ser´a aquella para la que el cociente frecuencia relativa dividido entre amplitud (fi /ci ) es mayor. 4.1.4.
Media arm´ onica, (xH ) xH = Pk
n
i=1
4.1.5.
ni /xi
Media geom´ etrica, (xG ) xG =
q n
xn1 1 xn2 2 . . . xnk k
5
4.1.6.
Media recortada al 5 %, (xR ) kX 2 −1 1 xR = (Fk1 − 0’05)xk1 + (0’95 − Fk2 −1 )xk2 + fi xi 0’9 i=k +1 1
con k1 y k2 satisfaciendo, Fk1 −1 < 0’05 ≤ Fk1
4.2.
;
Fk2 −1 ≤ 0’95 < Fk2
Cuantiles
Se calculan para variables cuantitativas y al igual que la mediana s´olo tienen en cuenta la posici´on de los valores en la muestra. Casos particulares de cuantiles son los cuartiles, los percentiles y los deciles (estos u ´ltimos dividen la muestra ordenada en 10 partes). 4.2.1.
Cuartiles
Dividen la muestra ordenada en 4 partes. Q1 , primer cuartil, al menos el 25 % de los datos son menores o iguales que ´el y al menos el 75 % de los datos son mayores o iguales que ´el. Q2 , segundo cuartil, es la mediana, Q2 = Me. Q3 , tercer cuartil, al menos el 75 % de los datos son menores o iguales que ´el y al menos el 25 % de los datos son mayores o iguales que ´el. Q4 , cuarto cuartil, es el mayor valor que se alcanza en la muestra. 4.2.2.
Percentiles
Dividen la muestra ordenada en 100 partes. Dado α ∈ N tal que 1 ≤ α ≤ 99, el α-´esimo percentil, Pα es un valor tal que al menos el α % de los datos son menores o iguales que ´el y al menos el (100 − α) % de los datos son mayores o iguales que ´el. A partir de las definiciones de los cuartiles y percentiles, es claro que Q1 = P25 y Q3 = P75 .
6
Para calcular el percentil Pα , buscamos en la columna de las frecuencias relativas acumuladas el primer valor mayor o igual que α/100, es decir, buscamos Fi ≥ α/100 tal que Fi−1 < α/100. Si Fi > α/100, entonces Pα = xi , si Fi = α/100, entonces Pα = (α/100)xi + (1 − α/100)xi+1 .
5.
Medidas de dispersi´ on
S´olo tienen sentido para variables cuantitativas y las definimos para variables no agrupadas.
5.1.
Recorrido o rango
Diferencia entre el mayor y menor valor de una muestra, xk − x1 .
5.2.
Rango semiintecuart´ıcilo y amplitud intercuartil
El rango semiintercuart´ılico es la mitad de la diferencia entre el tercer y primer cuartil, Q = (Q3 − Q1 )/2. La amplitud intercuartil es el doble del valor anterior, 2Q = (Q3 − Q1 ).
5.3.
Desviaci´ on t´ıpica, (s)
Cuantifica el error que cometemos si representamos una muestra u ´nicamente por su media. v u k uX s = t (x − x)2 f i
i
i=1
La desviaci´on t´ıpica poblacional suele denotarse por σ.
5.4.
Varianza muestral, (s2 ) 2
s =
k X
(xi − x)2 fi
i=1
La varianza poblacional suele denotarse por σ 2 .
7
Propiedad. 2
s =
k X
x2i fi − (x)2
i=1
5.5.
Cuasivarianza muestral, (s∗2 ) s
5.6.
∗2
Pk =
− x)2 ni n 2 = s n−1 n−1
i=1 (xi
Desviaci´ on media respecto de la mediana Pk DM =
5.7.
|xi − Me|ni n
i=1
Coeficiente de variaci´ on, (CV ) CV =
s 100 |x|
La medidas de dispersi´on anteriores dependen de las unidades de medida, el coeficiente de variaci´on es, en cambio, una medida de dispersi´on relativa (adimensional). Tambi´en existen las llamadas medidas de forma que nos indican num´ericamente c´omo est´an distribuidos los datos en una muestra.
6. 6.1.
Medidas de forma Asimetr´ıa
El coeficiente de asimetr´ıa de una variable mide el grado de asimetr´ıa de la distribuci´on de sus datos en torno a su media. Es adimensional y se define como sigue: Pk ni (xi − x)3 /n . As = i=1 s3
8
Las colas de una variable est´an constituidas por los valores alejados de la media (valores extremos). Una variable es asim´etrica si su cola a un lado m´as larga que su cola al otro y sim´etrica si ambas colas son igual de largas. si As > 0 la distribuci´on ser´a asim´etrica a la derecha. La cola a la derecha es m´as larga que la cola a la izquierda. si As = 0 la distribuci´on ser´a sim´etrica. Ambas colas son igual de largas si As < 0 la distribuci´on ser´a asim´etrica a la izquierda. La cola a la izquierda es m´as larga que la cola a la derecha.
6.2.
Apuntamiento o curtosis
El coeficiente de apuntamiento o curtosis de una variable sirve para medir el grado de concentraci´on de los valores que toma en torno a su media. Se elige como referencia una variable con distribuci´on normal, de tal modo que para ella el coeficiente de apuntamiento es 0. Pk ni (xi − x)4 /n − 3. Ap = i=1 s4 Seg´ un su apuntamiento, una variable puede ser: Leptoc´ urtica, si Ap > 0, es decir, es m´as apuntada que la normal. Los valores que toma la variable est´an muy concentrados en torno a su media y hay pocos valores extremos. Mesoc´ urtica, si Ap = 0, es decir, es tan apuntada como la normal. Platic´ urtica, si Ap < 0, es decir, es menos apuntada que la normal. Hay muchos valores extremos, las colas de la variable son muy pesadas.
7. 7.1.
Representaciones gr´ aficas Diagrama de barras
En el eje OX representamos los valores de las variables y levantamos un trazo o barra de longitud igual a la frecuencia relativa (o absoluta).
9
7.2.
Pictogramas
Figuras cuya ´area es la frecuencia (o un valor proporcional) del valor que representan.
7.3.
Diagrama de sectores
Se divide un c´ırculo en sectores cada uno de ellos proporcional a la frecuencia relativa de un valor.
7.4.
Histograma
Es la representaci´on m´as frecuente con datos agrupados. Est´a formado por un conjunto de rect´angulos tales que: 1. Sus bases coinciden con el intervalo que representan y cuyos valores aparecen en el eje OX. 2. El ´area de cada rect´angulo debe ser igual a la frecuencia relativa del intervalo. Su altura ser´a por tanto fi /ci y la suma de las ´areas de todos los rect´angulos la unidad.
7.5.
Pol´ıgono de frecuencias (poligonal de frecuencias)
Se obtiene uniendo los puntos medios de los extremos superiores de los rect´angulos que forman el histograma, es decir los puntos (mi , fi /ci ). En los extremos, unimos (m1 , f1 /c1 ) con (L1 , 0) y (mk , fk /ck ) con (Lk , 0).
7.6.
Diagrama de tallos y hojas
Procedimiento semigr´afico para el que se preparan los datos resumi´endolos en dos o tres cifras (expres´andolos en las unidades adecuadas). A continuaci´on se disponen en una tabla de dos columnas del siguiente modo: 1. Si los datos son de dos d´ıgitos, a la izquierda (en el tallo) aparece la cifra de las decenas, a la derecha separadas por una l´ınea aparecen las hojas y se escriben todas seguidas. 2. Si hay tres d´ıgitos el tallo est´a formado por los dos primeros.
10
Ejemplo. Dada la muestra {114, 125, 114, 124, 152, 134}, dibuja su diagrama 10 11 4 4 12 4 5 de tallos y hojas. , las hojas son las unidades 13 4 14 15 2 Observaci´ on. Se trata de un histograma con amplitud de las clases constante y girado 900 .
7.7.
Diagrama de cajas
Paralelo a un eje numerado dibujamos un segmento con extremos en los valores menor y mayor que aparecen en la muestra y que marcamos con dos bigotes. Dibujamos adem´as una caja con extremos en el primer y tercer cuartil y marcamos en ella la mediana. Observaci´ on. En los diagramas de cajas que nos ofrecen ciertos paquetes estad´ısticos aparecen reflejados los valores at´ıpicos y casos extremos fuera del segmento.
8.
Estad´ıstica descriptiva bidimensional
Estudiamos simult´aneamente dos variables del individuo. Definici´on 5. Una variable bidimensional (X, Y ) es un s´ımbolo que representa dos caracter´ısticas de los individuos de la poblaci´on. Dada una variable bidimensional (X, Y ), consideramos una muestra de tama˜ no n en la que X toma k valores distintos, x1 , . . . , xk , si la variable es cuantitativa x1 < x2 < . . . < xk e Y toma l valores distintos, y1 , . . . , yl , si la variable es cuantitativa y1 < y2 < . . . < yl . Obtenemos, por tanto, observaciones del tipo (xi , yj ). La frecuencia absoluta de un valor (xi , yj ) es el n´ umero de veces que dicho valor aparece en la muestra. Se representa por nij , se cumple k X l X
nij = n.
i=1 j=1
11
La frecuencia relativa de un valor (xi , yj ) es el cociente de la frecuencia absoluta de (xi , yj ), nij entre el tama˜ no de la muestra n, se representa por fij k X l X ni se cumple fij = fij = 1. n i=1 j=1
8.1.
Distribuciones marginales
Nos indican el comportamiento aislado de cada una de las variables X e Y que dan lugar a una variable bidimensional. P Frecuencia absoluta marginal de xi , ni· = ni1 +ni2 +· · ·+nil = lj=1 nij . Frecuencia relativa marginal de xi , fi· = ni· /n. P Frecuencia absoluta marginal de yj , n·j = n1j +n2j +· · ·+nkj = ki=1 nij . Frecuencia relativa marginal de yj , f·j = n·j /n. Podemos calcular las medidas de tendencia central o dispersi´on y realizar cualquier tipo de representaci´on gr´afica de las marginales. Una tabla de doble entrada de una variable bidimensional sigue la estructura que se presenta a continuaci´on, en la que tienen cabida las frecuencias marginales (representadas en la u ´ltima fila y u ´ltima columna). Puede ser de frecuencias absolutas o relativas. X\Y x1 x2 .. .
y1 n11 n21 .. .
y2 n12 n22 .. .
... ... ... ...
yl n1l n2l .. .
ni· n1· n2· .. .
xk n·j
nk1 n·1
nk2 n·2
... ...
nkl n·l
nk· n
12
8.2.
Distribuciones condicionadas
Son distribuciones fijada una condici´on. Dicha condici´on puede ser sobre la misma variable o la otra. La frecuencia absoluta de xi dada cierta condici´ on ser´a el n´ umero de observaciones en la muestra que cumplen la condici´on y para las que la variable X toma el valor xi . La frecuencia relativa de xi dada cierta condici´ on ser´a la frecuencia absoluta de xi dada la condici´on dividida entre el n´ umero total de observaciones de la muestra que cumplen la condici´on. Podemos hablar de la distribuci´on de X condicionada a que Y toma el valor yj , X|Y =yj y ser´a la distribuci´on de todas las observaciones con valor yj en Y . Su distribuci´on de frecuencias absolutas (ni |j ) ser´a la columna j´esima de la tabla de doble entrada, las frecuencias relativas vendr´an dadas por fi |j = nij /n·j Podemos hablar de medidas de tendencia central o dispersi´on para distribuciones marginales.
8.3.
Independencia estad´ıstica
El inter´es del estudio conjunto de dos variables como variable aleatoria bidimensional es sacar conclusiones sobre la posible relaci´on de dependencia entre ellas. Dos variables son estad´ısticamente independientes cuando no existe relaci´on alguna entre ellas. Definici´on 6. Dos variables X e Y se dicen independientes si las distribuciones de X condicionadas a cualquier valor de Y son iguales, es decir, ni2 nil ni1 = = ... para todo i = 1, . . . , k n·1 n·2 n·l o equivalentemente fi |1 = fi |2 = . . . = fi |l
para todo i = 1, . . . , k
Se puede demostrar que la relaci´on anterior es equivalente a nij ni· n·j = × para todo i, j. n n n Es decir, las variables X e Y son estad´ısticamente independientes si la frecuencia relativa conjunta de cada par de valores es igual al producto de las frecuencias relativas marginales (fij = fi· f·j para todo i, j). 13
Comentario. El valor esperado de la casilla (i, j) si las variables fuesen independientes se obtiene utilizando la f´ormula nfi· f·j
8.4.
Regresi´ on lineal (m´ etodo de m´ınimos cuadrados), correlaci´ on
En este apartado consideraremos que las variables con las que trabajamos son cuantitativas. 8.4.1.
Nube de puntos o diagrama de dispersi´ on
El procedimiento gr´afico habitual para representar una variable bidimensional es una nube de puntos o diagrama de dispersi´ on en la que cada valor (xi , yj ) que aparece en la muestra se representa por un u ´nico punto de abscisa xi y ordenada yj . En dicha nube de puntos podemos apreciar la relaci´on entre las variables. 8.4.2.
Covarianza, (sXY )
Definimos la covarianza de una variable bidimensional (X, Y ) como: Pk Pl j=1 (xi − x)(yj − y)nij i=1 . sXY = n Propiedad. Pk Pl sXY =
i=1
j=1
n
xi yj nij
− x y.
Si la covarianza es positiva (sXY > 0), existir´a tendencia a que las mayores observaciones de una de las variables se correspondan con las mayores observaciones de la otra. Si la covarianza es negativa (sXY < 0), existir´a tendencia a que las mayores observaciones de una de las variables se correspondan con las menores de la otra. Si la covarianza es cero (sXY = 0), no existe relaci´on lineal entre las variables. Si X e Y son independientes, entonces su covarianza ser´a cero, sXY = 0, el resultado rec´ıproco no es cierto. 14
8.4.3.
Regresi´ on lineal, m´ınimos cuadrados
La regresi´ on consiste en modelizar la relaci´on de dependencia entre las variables y predecir los valores de una de ellas (variable dependiente) en funci´on de los valores de la otra (variable independiente o explicativa). La manera de conseguir este objetivo es ajustar una ecuaci´on dada a la nube de puntos, en nuestro caso como la regresi´on es lineal, la ecuaci´on ser´a la de una recta. Sea X la variable independiente e Y la variable dependiente, planteamos la ecuaci´on de una recta yˆ = a + bx para estimar Y a partir de X. Buscamos los valores a, b para los que la suma del error cuadr´atico es m´as peque˜ na, es decir, dada la funci´on F (a, b) =
k X l X
2 yj − (a + bxi ) nij
i=1 j=1
queremos hallar los valores de a y b para los que F (a, b) es m´as peque˜ na. Dichos valores son b=
sXY , s2X
a=y−
sXY x. s2X
A b le llamamos coeficiente de regresi´ on lineal de Y sobre X. Con a y b obtenemos la recta de regresi´ on de Y sobre X, que expresada en su ecuaci´on punto-pendiente resulta ser yˆ − y =
sXY (x − x), s2X
es decir, la pendiente de la recta de regresi´on de Y sobre X es el coeficiente de regresi´on lineal de Y sobre X y pasa por el punto que tiene por abscisa la media de X y por ordenada la media de Y , (x, y). La recta de regresi´on de X sobre Y se calcula de modo an´alogo a la de Y sobre X.
15
8.4.4.
Correlaci´ on lineal
El coeficiente de correlaci´ on lineal de Pearson se define como r = ρXY =
sXY sX sY
y toma valores entre −1 y 1. Si r = 1 decimos que hay correlaci´on positiva perfecta. Si r = −1 decimos que hay correlaci´on negativa perfecta. Si r < 0 hay correlaci´on lineal negativa, ambas rectas de regresi´on son decrecientes. Si r > 0 hay correlaci´on lineal positiva, ambas rectas de regresi´on son crecientes. Si r = 0 las variables son incorreladas o linealmente independientes. El coeficiente de determinaci´ on lineal o de bondad de ajuste es el cuadrado del coeficiente de correlaci´on, r2 , est´a en el intervalo [0, 1] y cuanto mayor sea, mejor ser´a el ajuste.
16