UNIVERSIDAD DE SAN MARTIN DE PORRES
Análisis de Regresión y Correlación BIOESTADISTICA 2006
1. Introducción En ciencias de la salud y en otras áreas con mucha frecuencia conviene saber algo de la fuerza o intensidad de la relación entre variables como: edad y presión arterial, remuneración mensual y rendimiento en el trabajo, talla y peso, ingreso familiar y gastos médicos, edad y frecuencia cardiaca, edad y talla, etc; observar que estos ejemplos involucran variables numéricas medidas en escala de intervalo o de razón.
Cuando tanto X como Y son variables aleatorias, se tiene lo que se conoce como modelo de correlación. Típicamente, bajo el modelo de correlación se selecciona una muestra probabilística de unidades de asociación (que pueden ser personas, lugares, animales, puntos en el tiempo o cualquier otro elemento) luego, de cada una de las unidades se toma una medida de X y una medida de Y.
Una correlación puede ser positiva (cuando, por ejemplo tanto X como Y aumentan), o negativa (cuando por ejemplo, al aumentar una variable la otra disminuye). Por otra parte, si la variación de X y la variación de Y no se corresponden en absoluto, entonces no existe ninguna asociación y por tanto, ninguna correlación, entre las dos variables.
1.
Diagrama de puntos Para iniciar un análisis de correlación (y también el de regresión) se elabora el diagrama de puntos o de dispersión, el cual proporciona un indicio, no sólo de la forma de la relación entre las variables, sino también del grado de correlación. Dicho gráfico permite representar, con un punto en el plano cartesiano, cada par ordenado (X,Y). Así por ejemplo:
Diagrama de dispersión Xi
Yi
X1 X2
Y1 Y2 . . . Yn
Xn
Y
0
X
(a) Lineal directa Y
•
•
X
••Lineal directa (a)
X
X (d) Curvilinea inversa Y
• • •• •• • • •
(c) C Y
X (e) Lineal inversa X con más dispersión Y
• •Negativa Lineal •• • • • •
•
Y
• • • •• • • • •
••
• • Y ••Positiva Lineal • ibles • • •• • •• • • tos • •• •• • e •
Y (b) Lineal inversa
•
Y
X
• • • • • • ••• • •• • • • •• • •• • • • ••
• • • • • • • • •
• •
es s
•
•
Y
• • • • • • •
(b) Lineal inversa
Y
•
X
X
n
(c) Curvilínea directa Y
(a) Lineal directa
•
• •posibles Relaciones • • • Y •vistos • entre •X• y • • en diagramas de • • X dispersión Y
Curvilínea • •• Positiva •• • • • • • • • •• •• • • • •• • • ••
X (d) Ninguna relación
Y
Y
• • • • • • • • • Y
(
X
• • •• •• • • •• • • • • •
Y
X (d) Curvilinea inversa
Curvilínea Negativa
( c
X
•
• •• • • • • • • • • • •
(b) Lineal inversa X YY
• • •• • • •
• •• •••
• •
Y Y
X (c) Curvilínea directa
• • • • • •• • •••
ta
•• • •••
•
XX
X X
sa
(e) Lineal inversa con más dispersión
• •
•
X
a
• •• • • • • • •• • •• ••
Lineal • •Negativa con Mayor • • dispersión
Y
• •
X (e) Lineal inversa con más dispersión
• • •• •• • • • • • • • • •• •••• • • • •• • • • • •• • • •• •• ••
X X (d) Ninguna relación
Y
• •• •• • • • • • • • •• •• • • • ••• • • • X (d) Ninguna relación
Ninguna Relación
Correlación Simple El análisis de correlación es un grupo de técnicas estadísticas que nos permiten medir la intensidad de la relación que puede existir entre dos variables, su grado de relación y su sentido. El objetivo es determinar qué tan intensa es la relación y utilizamos para ello el coeficiente de correlación.
Coeficiente de Correlación Simple
Prueba de hipótesis acerca del parámetro (rho) Saber si X e Y están correlacionados: Ho : ρ = 0 H1 : ρ = 0 Estadístico de prueba es:
tc=
r
n–2 1–r2
Ejemplo 1 En una investigación se eligieron al azar nueve individuos de aproximadamente 30 años, de una misma ciudad, considerados sanos. A cada uno de ellos se le midió el peso y el nivel de colesterol en sangre. Los resultados se muestran a continuación. Paciente
Colesterol
Peso
x
y
X2
y2
xy
1
210
70.2
44100
4928.04
14742
2
122
62.4
14884
3893.76
7612.8
3
309
95.4
95481
9101.16
29478.6
4
198
68.9
39204
4747.21
13642.2
5
260
75.2
67600
5655.04
19552
6
230
76
52900
5776
17480
7
175
64.5
30625
4160.25
11287.5
8
198
64.2
39204
4121.64
12711.6
9
224
80.2
50176
6432.04
17964.8
Total
1926
657
434174
48815.14
144471.5
Ejemplo 1
Prueba de hipótesis parámetro 1. Planteamiento: Ho : ρ = 0 Hi : ρ = 0 2. Nivel de significación 5% 3.Estadístico de prueba:
tc=
r
n–2 1–r2
Para una t n-2 t7 , El valor de p es de aprox 0.01, por lo tanto
Conclusión: Rechazamos la Ho Se puede afirmar que existe alta correlación lineal (positiva) entre las variables, peso y colesterol.
Análisis de Regresión Objetivo Estudio de la relación funcional entre dos variables. Establecer una relación cuantitativa entre dos o más variables relacionadas. Se trata de PREDECIR y/o EXPLICAR el valor de una variable (v. Dependiente), dado el valor de otra(s) variable(s) relacionada(s) (v. Independiente(s)). Las variables X e Y deben ser de naturaleza cuantitativa y de preferencia continua.
Regresión Lineal Simple •Para resolver el problema tenemos que AJUSTAR una línea entre los puntos observados, a fin de usarla para predecir el valor de Y (variable dependiente) a partir de un valor conocido de X (variable independiente). •Para cada valor de X hay una subpoblación de valores Y. •Cada subpoblación de los valores de Y tiene distribución normal.
Línea de Regresión
Como todos los puntos no están exactamente sobre una línea recta, se cometen errores en el ajuste.
Línea de Regresión Suposiciones de regresión y correlación a) Normalidad: los valores de Y estarán distribuidos normalmente a cada valor de X. b) Homoscedasticidad: la variación alrededor de la línea de regresión será constante para todos los valores de X. c) Independencia de error: el error (diferencia residual entre un valor observado y uno estimado de Y) sea independientemente de cada valor de X. d) Linealidad: la relación entre las variables es lineal.
Estimadores Mínimo-Cuadráticos
Ejemplo 2 Se tiene una relación de 33 pacientes de los cuales se registró la presión sistólica. Se desea conducir un estudio para determinar la relación entre la edad de los pacientes y la presión registrada Paciente 1 2 3 4 5 … 33
Edad 22 23 24 27 28 … 81
PS 131 128 116 106 114 … 217
Diagrama de Dispersión Según el diagrama de dispersión, se espera una relación positiva o directa entre ambas variables. Modelo de regresión: y =a+bx
Cálculos Estadísticos Variable dependiente: la presión sistólica Variable independiente: la edad n = 33 Σx = 1542 (sumatoria de las edades) Σy = 4575 (sumatoria de las presiones) Σxy = 223.144 (productos cruzados) Σx2 = 79.176 Σy2 = 656.481
x = 46,73 y = 138,64 Σ(x – Σ(y – Σ(x –
x)2 = Σx2 – (Σx)2 / n = 79.716 – (1542) 2 / 33 = 7662,6 y)2 = Σy2 – (Σy)2 / n = 656.48116 – (4575) 2 / 33 = 22.219,6 x ) (y – y) = Σxy – (Σx)(Σy) /n = 223.144 – (1542)(4575)/33 = 9.366,7
Estimación de la Recta de Regresión (x - x) (y - y) b = - - -- - - - - - - - - - - - - = 9366,7 / 7662,6 = 1.22 mm Hg / año de edad
(x - x) 2
y = a + bx a=y-b x = 138,64 - (1,22)(46,73) = 81,54
Por consiguiente el modelo de Regresión Estimado es:
y = 81,54 + 1,22 x
Que significa: Por cada año de incremento en la edad la presión aumenta en promedio en 1,22 mmHg. Es importante interpretar los resultados obtenidos en función de las unidades en que se encuentran expresadas nuestras variables en estudio (y).