DISTRIBUCIÓN NORMAL /PRUEBA NORMALIDAD/ TRANSF. DATOS P. Reyes / Sept. 2007
DISTRIBUCIÓN NORMAL, PRUEBA DE NORMALIDAD Y TRANSFORMACIÓN DE DATOS
DR. PRIMITIVO REYES AGUILAR Septiembre 2007 Mail.
[email protected] / Cel. 044 55 52 17 49 12
Página 1 de 17
DISTRIBUCIÓN NORMAL /PRUEBA NORMALIDAD/ TRANSF. DATOS P. Reyes / Sept. 2007
CONTENIDO 1. Distribución normal
2. Estandarización de valores
3. Prueba de normalidad
4. Transformación de datos
5. Ajuste de datos con otras distribuciones de probabilidad
Página 2 de 17
DISTRIBUCIÓN NORMAL /PRUEBA NORMALIDAD/ TRANSF. DATOS P. Reyes / Sept. 2007
LA DISTRIBUCIÓN NORMAL, PRUEBA DE NORMALIDAD, TRANSFORMACIÓN Y AJUSTE DE DATOS 1. DISTRIBUCIÓN NORMAL Un proceso opera en condiciones normales, si tiene los materiales dentro de de especificaciones y del mismo lote, un método consistente, un medio ambiente adecuado, el operador capacitado, y el equipo ajustado correctamente, si se toman mediciones en alguna característica del producto, mostrará el siguiente comportamiento:
Fig. 1 Construcción de la distribución normal La distribución normal es una de las distribuciones más usadas e importantes. Se ha desenvuelto como una herramienta indispensable en cualquier rama de la ciencia, la industria y el comercio. Muchos eventos reales y naturales tienen una distribución de frecuencias cuya forma es muy parecida a la distribución normal. La distribución normal es llamada también campana de Gauss por su forma acampanada.
Página 3 de 17
DISTRIBUCIÓN NORMAL /PRUEBA NORMALIDAD/ TRANSF. DATOS P. Reyes / Sept. 2007
Cuando se incluyen todos los datos de un proceso o población, sus parámetros se indican con letras griegas, tales como: promedio o media = (mu), y desviación estándar (indicador de la dispersión de los datos) = (sigma). Para el caso de estadísticos de una muestra se tiene media = X y desv. est.= s.
Propiedades de la distribución normal estándar
La distribución normal estándar tiene media = 0 y desviación estándar =1. La media, Mediana y Moda coinciden, son iguales y se localizan en el pico.
Fig. 2 Propiedades de la distribución normal
El área bajo la curva o probabilidad de menos infinito a más infinito vale 1.
La distribución normal es simétrica, la mitad de curva tiene un área de 0.5.
La escala horizontal de la curva se mide en desviaciones estándar.
La forma y la posición de una distribución normal dependen de los parámetros , , por lo que hay un número infinito de distribuciones normales.
Página 4 de 17
DISTRIBUCIÓN NORMAL /PRUEBA NORMALIDAD/ TRANSF. DATOS P. Reyes / Sept. 2007
Límite inferior de especs.
Límite superior de especificaciones
Fig. 3 Distribuciones normales con varias desv. estándar
LIE Fig. 4 Distribuciones desviaciones estándar
LSE normales
Página 5 de 17
con
varias
medias
y
DISTRIBUCIÓN NORMAL /PRUEBA NORMALIDAD/ TRANSF. DATOS P. Reyes / Sept. 2007
Existe una relación del porcentaje de probabilidad o área bajo la curva normal a la desviación estándar. En la figura observamos por ejemplo que el área bajo la curva para 1
tiene un porcentaje de 68.26%, 2
= 95.46% y
3 99.73% .
-3s -2s -1s
+1s +2s +3s 68.26% 95.46%
99.73% Fig. 5 Área bajo la curva de Distribución normal Lo anterior se puede calcular con la Tabla de distribución normal o con Excel (Fx =distr.norm.estand(Z) proporciona el área desde menos infinito hasta Z). En la tabla normal, se busca el valor de Z y se encuentra el área bajo la curva. La primera tabla sirve para determinar el área o probabilidad que se encuentra fuera de los límites de especificaciones. La segunda tabla proporciona valores de área bajo la curva para Z’s mayores a cero. En cada una se muestran ejemplos de su uso.
Página 6 de 17
DISTRIBUCIÓN NORMAL /PRUEBA NORMALIDAD/ TRANSF. DATOS P. Reyes / Sept. 2007
Página 7 de 17
DISTRIBUCIÓN NORMAL /PRUEBA NORMALIDAD/ TRANSF. DATOS P. Reyes / Sept. 2007
Ejemplo 1 a) Determinar el área bajo la curva de menos infinito a Z = - 1. P(Z<= -1) = 0.1587 b) Determinar el área bajo la curva de menos infinito a Z = - 2. P(Z<= - 2) = 0.0228 c) Determinar el área bajo la curva entre Z >= -2. hasta Z <= -1 P(- 2 <= Z<= -1) = 0.1259
Página 8 de 17
DISTRIBUCIÓN NORMAL /PRUEBA NORMALIDAD/ TRANSF. DATOS P. Reyes / Sept. 2007
Página 9 de 17
DISTRIBUCIÓN NORMAL /PRUEBA NORMALIDAD/ TRANSF. DATOS P. Reyes / Sept. 2007
Ejemplo 2 a) Determinar el área bajo la curva de menos infinito a Z = 1. P(Z <= 1) = 0.8413 b) Determinar el área bajo la curva de menos infinito a Z = 2. P(Z <= 2) = 0.9772 8 c) Determinar el área bajo la curva de menos Z = 1 a Z = 2 P(1 <= Z <= 2) = 0.9772 – 0.8413 = 0.1369
Página 10 de 17
DISTRIBUCIÓN NORMAL /PRUEBA NORMALIDAD/ TRANSF. DATOS P. Reyes / Sept. 2007
EJERCICIO 1: ¿Qué porcentaje del área bajo la curva normal estándar o probabilidad está incluido dentro de los siguientes rangos? a) P(1.2 <= Z <= 2.2) = P(Z <= 2.2) – P(Z <= 1.2) = b) P(-2.1 <= Z <= -0.4) = P(Z <= - 0.4) – P(Z <= -2.1) = c) P( -1.3 <= Z <= 2.7) = P(Z <= 2.7) – P(Z <= -1.3) = d) P( Z >= 2.4) = P(Z <= -2.4) = e) P( Z<=-2.9) + P(Z>= 3.1) = P(Z <= -2.9) + P(Z <= -3.1) = f) P(Z>= 1.9) = P(Z <= -1.9) =
2. Estandarización de valores reales En la práctica, se tienen valores reales de promedio diferentes de cero y con desviación estándar diferentes de uno, para determinar la probabilidad o área bajo la curva, se determina el número de desviaciones estándar Z entre algún valor X y la media de la población o de la muestra X como sigue:
Z
X
sí se consideran los datos completos del proceso.
Z
XX s
sí se consideran sólo los datos de una muestra.
Ejemplo 3 El departamento de personal de una empresa requiere que los solicitantes a un puesto en cierta prueba alcancen una calificación de 500. Si las calificaciones de la prueba se distribuyen normalmente con media 485 y desviación estándar
30 ¿Qué porcentaje de los solicitantes pasará la
prueba? Calculando el valor de Z obtenemos: Z
X 500 485 0.5 = 30
Buscamos el valor correspondiente
Z en las tablas de distribución normal
estándar o por medio de Excel =distr.norm.estand(0.5). Z0.5 = 0.69146 = 69.146%. donde la probabilidad de que la calificación sea menor a 500 es P (X <= 500). Dado que el porcentaje pedido es P ( X 500) la solución es 10.69146 =0.3085, por tanto sólo 30.85% de los participantes pasarán la prueba. Página 11 de 17
DISTRIBUCIÓN NORMAL /PRUEBA NORMALIDAD/ TRANSF. DATOS P. Reyes / Sept. 2007
Otra forma es tomando la Z como negativa con P(Z <= -0.5) = 0.3085. 485
3 0 .8 5 %
Z.0 5
Fig. 6 Área bajo la curva de Distribución normal
Ejemplo 1.4 Suponga que un proceso tiene una distribución normal dada tiene una media de 20 y una desviación estándar de 4. Calcule la probabilidad P (X >=24) = 1 – P(X <= 24) = En la barra de herramientas seleccione el icono de funciones fx>Estadísticas>Distr.Norm.Estand. OK. El sistema muestra la siguiente ventana, en la cual llenamos los siguientes datos:
Fig. 7 Cálculo del área bajo la curva normal sin requerir Z El resultado de la fórmula = 0.8413. , dado que esta es la probabilidad P(X 24), la probabilidad buscada es: P(X > 24) = 1 - 0.8413= 0.1587
Página 12 de 17
DISTRIBUCIÓN NORMAL /PRUEBA NORMALIDAD/ TRANSF. DATOS P. Reyes / Sept. 2007
EJERCICIO 2: Un producto tiene un peso promedio de 75 Kgs. con una desviación estándar de 10Kgs. a) ¿Cuál es la probabilidad de que un producto pese más de 85Kgs.? b) ¿Cuál es la probabilidad de que un producto pese menos de 55Kgs.? c) ¿Cuál es la probabilidad de que el producto pese entre 60 y 80 Kgs.?. d) ¿Cuál es la probabilidad de que el producto pese entre 55 y 70 Kgs.? e) ¿Cuál es la probabilidad de que el producto pese entre 85 y 100Kgs.?
3. PRUEBA DE NORMALIDAD Para probar normalidad de datos, se pueden utilizar los métodos de Anderson Darling o Ryan, y la gráfica de probabilidad normal. a) En el método de Anderson Darling o Ryan Joiner, si el valor de probabilidad P de la prueba es mayor a 0.05, se considera que los datos son normales. Seguir los siguientes pasos: Generar 100 datos aleatorios en Minitab con Media = 264.6 y Desviación estándar S = 32.02 con: 1. Calc > Random data > Normal 2. Generate 100 Store in columns C1 Mean 264.06 Estandar deviation 32.02 OK Nos aseguramos que los datos se distribuyan normalmente con la prueba de Anderson Darling o Ryanjoiner como sigue: 1. Stat > Basic statistics > Normality Test 2. Variable C1
Seleccionar Ryan Joiner test OK
El P value debe ser mayor a 0.05 para que los datos se distribuyan normalmente
Página 13 de 17
DISTRIBUCIÓN NORMAL /PRUEBA NORMALIDAD/ TRANSF. DATOS P. Reyes / Sept. 2007
Fig. 8 Gráfica de probabilidad de un proceso normal b) Otra opción por medio de una gráfica de probabilidad normal, se tiene: 3. Graph > Probability plot > Normal 4. Graph Variable C1 5. Distribution Normal OK Los puntos deben quedar dentro del intervalo de confianza para indicar que es normal la distribución.
Fig. 9 Gráfica de probabilidad normal con Int.de confianza
Página 14 de 17
DISTRIBUCIÓN NORMAL /PRUEBA NORMALIDAD/ TRANSF. DATOS P. Reyes / Sept. 2007
4. TRANSFORMACIÓN DE DATOS Si los datos no son normales, se pueden tratar de transformar con alguna función para normalizarlos utilizando el Método de Box Cox, que encuentra un exponente lamda al que se deben elevar los datos:
Por ejemplo los datos del archivo Tiles.Mtw de Minitab: Probability Plot of Torcedura Normal 99.9
Mean StDev N AD P-Value
99
Percent
95 90
2.923 1.786 100 1.028 0.010
80 70 60 50 40 30 20 10 5 1 0.1
-4
-2
0
2 4 Torcedura
6
8
10
Fig. 10 Gráfica de probabilidad de un proceso no normal
Para tratar de normalizarlos con el Método de Box Cox se tiene: 1. File > Open worksheet Tiles.mtw 2. Stat > Control Charts > Box Cox transformation 3. All observations in a column Torcedura (Warpness) Subgroup size 1 4. Options: Store transformed data in: TorceduraTransf 5. OK
Si no se encuentra un intervalo de confianza (rayas rojas), indica que los datos no son transformables por este método.
Página 15 de 17
DISTRIBUCIÓN NORMAL /PRUEBA NORMALIDAD/ TRANSF. DATOS P. Reyes / Sept. 2007
Box-Cox Plot of Torcedura Lower C L
Upper CL Lambda
20
(using 95.0% confidence)
StDev
15
Estimate
0.345504
Lower CL Upper CL
0.052120 0.642093
Best Value
0.500000
10
5 Limit 0 -2
-1
0
1 2 Lambda
3
4
5
Fig. 11 Determinación del exponente Lambda de Box Cox Aquí indica que para normalizar los datos, se deben elevar a la 0.5 (raíz cuadrada), al probar la normalidad de los datos transformados se tiene: Probability Plot of TorceduraTransf Normal 99.9
Mean StDev N AD P-Value
99
Percent
95 90
1.624 0.5380 100 0.301 0.574
80 70 60 50 40 30 20 10 5 1 0.1
0.0
0.5
1.0
1.5 2.0 TorceduraTransf
2.5
3.0
3.5
Fig. 12 Gráfica de probabilidad del proceso normalizado
5. AJUSTE DE DATOS CON OTRAS DISTRIBUCIONES DE PROB. Si los datos no son transformables, se puede identificar una función a la que se ajusten los datos, para que con esta se determine la capacidad del proceso: 1. File > Open worksheet Tiles.mtw Página 16 de 17
DISTRIBUCIÓN NORMAL /PRUEBA NORMALIDAD/ TRANSF. DATOS P. Reyes / Sept. 2007
2. Stat > Reliability / Survival > Distribution Analysis (right sensoring) > Distribution ID Plot 3. Variables Torcedura 4. Seleccionar Use all distributions 5. OK Los resultados se muestran a continuación, se indica el valor del coeficiente de correlación, se puede seleccionar la distribución que tenga el mayor, o el menor valor de Anderson Darling: Goodness-of-Fit Distribution Weibull Lognormal Exponential Loglogistic 3-Parameter Weibull 3-Parameter Lognormal 2-Parameter Exponential 3-Parameter Loglogistic Smallest Extreme Value Normal Logistic
Anderson-Darling (adj) 0.379 1.566 11.735 1.852 0.400 0.515 7.325 0.944 7.609 1.170 1.330
Correlation Coefficient 0.994 0.978 * 0.974 0.997 0.994 * 0.985 0.909 0.978 0.973
Las gráficas resultantes son: Probability Plot for Torcedura LSXY Estimates-Complete Data C orrelation C oefficient Weibull 0.994 Lognormal 0.978 Exponential * Loglogistic 0.974
Lognormal
99.9
99.9
90
99
50
90
P er cent
P er cent
Weibull
10 1
50 10 1
0.1
0.1
1.0 T or cedur a
0.1 0.1
10.0
Exponential 99.9
90
99 P er cent
50 P er cent
10.0
Loglogistic
99.9
10 1 0.1 0.001
1.0 T or cedur a
90 50 10 1
0.010
0.100 1.000 T or cedur a
10.000
0.1 0.1
1.0 10.0 T or cedur a
100.0
Fig. 13 Gráficas de varias distribuciones de probabilidad
Página 17 de 17