Cálculo de los percentiles con datos no agrupados
Suele existir mucha confusión entre los estudiantes cuando se les habla de percentiles o de cuantiles. Para aclarar el concepto recordemos (y esto es fundamental) que disponemos de un conjunto de puntuaciones empíricas de tamaño (forzosamente) finito. Así, por ejemplo, cuando realizamos mediciones de la “flexibilidad perceptiva” de un grupo de sujetos tendremos que fijar un número de sujetos máximo: 100, 200,... Este número nunca podrá ser infinito. Cada observación o medición nos dará un número (el sujeto número1 tendrá flexibilidad perceptiva en el test de 15, el segundo de 14, el tercero de 25,...). Los datos los podemos graficar inicialmente mediante un diagrama de puntos para tener una idea aproximada de cómo se distribuyen. Supongamos que los datos que tenemos son: datos = {x1 = 3, x 2 = 5, x3 = 7, x 4 = 1, x5 = 15, x6 = 2, x 7 = 3, x8 = 10, x9 = 9, x10 = 9, x11 = 9 } = {3, 5, 7, 1, 15 , 2, 3, 10, 9, 9, 9 } Observemos aquí que el subíndice que acompaña a cada puntuación indica simplemente el sujeto (el primer sujeto, el segundo, el tercero,..., el onceavo). Veamos su gráfica de puntos:
Para calcular un percentil con estos datos debemos inicialmente pasar el percentil a proporción. Así, si nos piden calcular el percentil 32 lo dividimos por 100 y obtendremos que tenemos que calcular el cuantil 0,32. A este valor le llamaremos p (p = 0,32 en nuestro ejemplo). El valor de p tiene que estar entre 0 y 1 (mientras que el percentil tiene que estar entre 0 y 100). Para calcular este cuantil tenemos que hacer lo siguiente:
1º paso. Ordenamos los elementos de la muestra obteniendo así lo que llamamos “estadísticos de orden”. Los representaremos poniendo el subíndice (que en este caso indica no el número de sujeto sino el orden de la puntuación) entre paréntesis: datos = { x1 = 3, x 2 = 5, x3 = 7, x 4 = 1, x5 = 15, x 6 = 2, x7 = 3, x8 = 10, x9 = 9, x10 = 9, x11 = 9 } = {3, 5, 7, 1, 15 , 2, 3, 10, 9, 9, 9 } datos _ ordenados = { x(1) = 1, x( 2 ) = 2, x( 3) = 3, x( 4 ) = 3, x( 5 ) = 5, x( 6 ) = 7, x( 7 ) = 9, x(8 ) = 9, x( 9 ) = 9, x(10 ) = 10, x(11) = 15 }
Tenemos los mismos datos que antes pero ordenados. Ahora el subíndice indica el orden, no el sujeto. 2º paso.- Si el producto entre el cuantil y el número de datos (n ∏ p) no pertenece a los números naturales (1, 2, 3,....) y sabiendo que cuando encerramos a un número entre corchetes estamos significando su parte entera tendremos que aplicar la siguiente fórmula:
c p = x( [n ⋅ p ]+1) En nuestro ejemplo tenemos n = 11 (el tamaño de la muestra) y p = 0,32. El producto de ambos es n ∏ p = 11 ∏ 0,32 = 3,52. Este número (3,52) no pertenece a los números naturales y por tanto tendremos que calcular la parte entera de 3,52. En este caso es simplemente 3 (le quitamos los decimales). Ahora le sumamos la unidad (tal y como nos indica la fórmula anterior) y tenemos 4. ¿Cuál es el número que ocupa la posición 4, o simbólicamente x(4)? En la tabla de datos ordenados vemos que es igual a 3. Entonces 3 es el cuantil 0,32 de estos datos (y el percentil 32 es 3). Podemos calcular el cuantil para todos los valores desde p = 0.0 hasta p = 1.0. Una representación gráfica de este cálculo puede verse a continuación (en ella he representado mediante una flecha verde el cuantil p = 0.32 que hemos calculado anteriormente y el valor obtenido Cp=0.32 = 3 mediante una flecha roja):
Es muy interesante observar dos cosas en esta gráfica. En primer lugar, hay un buen número de valores de p que tienen el mismo Cp. Así por ejemplo, puede verse en la grafica que para valores de p entre, aproximadamente, 0.20 y 0.35 tienen todos el mismo Cp = 3. Todas las líneas horizontales de la gráfica son puntos de p que tienen el mismo Cp. En segundo lugar ¿a qué se corresponden las líneas rojas en el eje de ordenadas Cp? Veamoslo.
Claramente podemos ver que se corresponde con los datos que tenemos (1,2, 3, 5, 7, 9, 10 y 15). ¿Y donde se representa el hecho de que en los datos originales teníamos el número 9 tres veces o el 3 dos veces? En la longitud de la línea horizontal. Vemos que el 9 tiene una longitud superior, v.g., al 2. 3º paso. Pero si el producto n ∏ p es un número entero entonces tendremos que aplicar esta otra fórmula:
x( n ⋅ p ) + x( n ⋅ p +1) cp = 2 Simplemente calculamos la semisuma (la suma dividida por la mitad) de los estadísticos de orden que ocupan la posición n ∏ p y (n ∏ p) +1. Para poner un ejemplo de este caso he tenido que modificar los datos anteriores. Para ello he eliminando x(11) y tenemos otro conjunto de datos al que he denominado (para diferenciarlo del anterior conjunto de datos) “datosO”. datosO = { x1 = 3, x 2 = 5, x 3 = 7, x 4 = 1, x5 = 2, x 6 = 3, x 7 = 10, x8 = 9, x 9 = 9, x10 = 9 } = {3, 5, 7, 1, 2, 3, 10, 9, 9, 9 } datosO _ ordenados = { x(1) = 1, x( 2 ) = 2, x( 3 ) = 3, x( 4 ) = 3, x( 5 ) = 5, x ( 6 ) = 7, x( 7 ) = 9, x(8 ) = 9, x( 9 ) = 9, x (10 ) = 10 }
Si nos piden calcular el centil 0,60 (Percentil 60) observamos que n=10, p=0,60, n∏p=6 En consecuencia n ∏ p SÍ pertenece a los números naturales y ahora tenemos que aplicar la segunda parte de la fórmula:
x( 6 ) + x( 6 +1) 7 + 9 cp = = =8 2 2 El centil 0,60 es X = 8 (y el percentil 60 es 8). Veamos la gráfica de centiles de estos datos:
Ahora está claro la razón por la que calculamos la semisuma. Para un p = 0.60 tenemos un salto en la función. Cualquier valor entre 7 y 9 sería un valor de Cp para p = 0.60. Ante este problema hemos de optar por un compromiso. Ese compromiso es simplemente la media del valor máximo (9) y el mínimo (7) para p=0.60. Eso es lo que representa la función anterior. Es por ello también que hablamos de percentiles interpolados.
OTRO PLANTEAMIENTO (más sencillo pero menos formal) Desde otro punto de vista es fácil comprender porqué no se ha incluído en el libro de texto de Análisis de Datos I la definición de Percentil para datos no agrupados. La definición de percentil, como medida de posición, es la siguiente: dada una puntuación de la variable X se nos pide determinar el porcentaje de casos (o sujetos) en un conjunto de datos que tienen puntuaciones inferiores o iguales a un valor concreto de X. Pongamos un ejemplo con los datos “datos0”. Recordemos que los datos eran:
datosO = { x1 = 3, x 2 = 5, x 3 = 7, x 4 = 1, x5 = 2, x 6 = 3, x 7 = 10, x8 = 9, x 9 = 9, x10 = 9 } = {3, 5, 7, 1, 2, 3, 10, 9, 9, 9 } datosO _ ordenados = { x(1) = 1, x( 2 ) = 2, x( 3 ) = 3, x( 4 ) = 3, x( 5 ) = 5, x ( 6 ) = 7, x( 7 ) = 9, x(8 ) = 9, x( 9 ) = 9, x (10 ) = 10 }
¿Qué porcentaje de casos quedan por debajo o son iguales con respecto a una puntuación de X igual a 8 . La respuesta a esta pregunta puede realizarse haciendo una simple regla de tres:
Casos
Porcentaje
10 es el total
Ø
100 %
Xi § 8? = 6
Ø
X%
En primer lugar calculamos el número de casos del vector “datosO” que tienen puntuaciones inferiores o iguales a 8. Obtenemos que son 6 puntuaciones (las puntuaciones 1, 2, 3, 3, 5, 7). ¿De 10 puntuaciones totales que tenemos, qué porcentaje representan estas 6 puntuaciones? X = 600 / 10 = 60 % y esto es justamente lo que hemos calculado anteriormente utilizando cuantiles. El percentil 60 es la puntuación 8. Esto se desprende (implícitamente) de la frase (pág. 131 del texto): “ P54 simboliza la puntuación que deja por debajo de sí al 54 por ciento de las observaciones...”
Un saludo. José M. Reales, profesor de Análisis de Datos I