Analisis De Regresion Verano 2006

  • October 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Analisis De Regresion Verano 2006 as PDF for free.

More details

  • Words: 1,440
  • Pages: 26
UNIVERSIDAD DE SAN MARTIN DE PORRES

Análisis de Regresión y Correlación BIOESTADISTICA 2006

1. Introducción En ciencias de la salud y en otras áreas con mucha frecuencia conviene saber algo de la fuerza o intensidad de la relación entre variables como: edad y presión arterial, remuneración mensual y rendimiento en el trabajo, talla y peso, ingreso familiar y gastos médicos, edad y frecuencia cardiaca, edad y talla, etc; observar que estos ejemplos involucran variables numéricas medidas en escala de intervalo o de razón.

Cuando tanto X como Y son variables aleatorias, se tiene lo que se conoce como modelo de correlación. Típicamente, bajo el modelo de correlación se selecciona una muestra probabilística de unidades de asociación (que pueden ser personas, lugares, animales, puntos en el tiempo o cualquier otro elemento) luego, de cada una de las unidades se toma una medida de X y una medida de Y.

Una correlación puede ser positiva (cuando, por ejemplo tanto X como Y aumentan), o negativa (cuando por ejemplo, al aumentar una variable la otra disminuye). Por otra parte, si la variación de X y la variación de Y no se corresponden en absoluto, entonces no existe ninguna asociación y por tanto, ninguna correlación, entre las dos variables.

1.

Diagrama de puntos Para iniciar un análisis de correlación (y también el de regresión) se elabora el diagrama de puntos o de dispersión, el cual proporciona un indicio, no sólo de la forma de la relación entre las variables, sino también del grado de correlación. Dicho gráfico permite representar, con un punto en el plano cartesiano, cada par ordenado (X,Y). Así por ejemplo:

Diagrama de dispersión Xi

Yi

X1 X2

Y1 Y2 . . . Yn

Xn

Y

0

X

(a) Lineal directa Y





X

••Lineal directa (a)

X

X (d) Curvilinea inversa Y

• • •• •• • • •

(c) C Y

X (e) Lineal inversa X con más dispersión Y

• •Negativa Lineal •• • • • •



Y

• • • •• • • • •

••

• • Y ••Positiva Lineal • ibles • • •• • •• • • tos • •• •• • e •

Y (b) Lineal inversa



Y

X

• • • • • • ••• • •• • • • •• • •• • • • ••

• • • • • • • • •

• •

es s





Y

• • • • • • •

(b) Lineal inversa

Y



X

X

n

(c) Curvilínea directa Y

(a) Lineal directa



• •posibles Relaciones • • • Y •vistos • entre •X• y • • en diagramas de • • X dispersión Y

Curvilínea • •• Positiva •• • • • • • • • •• •• • • • •• • • ••

X (d) Ninguna relación

Y

Y

• • • • • • • • • Y

(

X

• • •• •• • • •• • • • • •

Y

X (d) Curvilinea inversa

Curvilínea Negativa

( c

X



• •• • • • • • • • • • •

(b) Lineal inversa X YY

• • •• • • •

• •• •••

• •

Y Y

X (c) Curvilínea directa

• • • • • •• • •••

ta

•• • •••



XX

X X

sa

(e) Lineal inversa con más dispersión

• •



X

a

• •• • • • • • •• • •• ••

Lineal • •Negativa con Mayor • • dispersión

Y

• •

X (e) Lineal inversa con más dispersión

• • •• •• • • • • • • • • •• •••• • • • •• • • • • •• • • •• •• ••

X X (d) Ninguna relación

Y

• •• •• • • • • • • • •• •• • • • ••• • • • X (d) Ninguna relación

Ninguna Relación

Correlación Simple El análisis de correlación es un grupo de técnicas estadísticas que nos permiten medir la intensidad de la relación que puede existir entre dos variables, su grado de relación y su sentido. El objetivo es determinar qué tan intensa es la relación y utilizamos para ello el coeficiente de correlación.

Coeficiente de Correlación Simple

Prueba de hipótesis acerca del parámetro (rho) Saber si X e Y están correlacionados: Ho : ρ = 0 H1 : ρ = 0 Estadístico de prueba es:

tc=

r

n–2 1–r2

Ejemplo 1 En una investigación se eligieron al azar nueve individuos de aproximadamente 30 años, de una misma ciudad, considerados sanos. A cada uno de ellos se le midió el peso y el nivel de colesterol en sangre. Los resultados se muestran a continuación. Paciente

Colesterol

Peso

x

y

X2

y2

xy

1

210

70.2

44100

4928.04

14742

2

122

62.4

14884

3893.76

7612.8

3

309

95.4

95481

9101.16

29478.6

4

198

68.9

39204

4747.21

13642.2

5

260

75.2

67600

5655.04

19552

6

230

76

52900

5776

17480

7

175

64.5

30625

4160.25

11287.5

8

198

64.2

39204

4121.64

12711.6

9

224

80.2

50176

6432.04

17964.8

Total

1926

657

434174

48815.14

144471.5

Ejemplo 1

Prueba de hipótesis parámetro 1. Planteamiento: Ho : ρ = 0 Hi : ρ = 0 2. Nivel de significación 5% 3.Estadístico de prueba:

tc=

r

n–2 1–r2

Para una t n-2  t7 , El valor de p es de aprox 0.01, por lo tanto

Conclusión: Rechazamos la Ho Se puede afirmar que existe alta correlación lineal (positiva) entre las variables, peso y colesterol.

Análisis de Regresión Objetivo Estudio de la relación funcional entre dos variables. Establecer una relación cuantitativa entre dos o más variables relacionadas. Se trata de PREDECIR y/o EXPLICAR el valor de una variable (v. Dependiente), dado el valor de otra(s) variable(s) relacionada(s) (v. Independiente(s)). Las variables X e Y deben ser de naturaleza cuantitativa y de preferencia continua.

Regresión Lineal Simple •Para resolver el problema tenemos que AJUSTAR una línea entre los puntos observados, a fin de usarla para predecir el valor de Y (variable dependiente) a partir de un valor conocido de X (variable independiente). •Para cada valor de X hay una subpoblación de valores Y. •Cada subpoblación de los valores de Y tiene distribución normal.

Línea de Regresión

Como todos los puntos no están exactamente sobre una línea recta, se cometen errores en el ajuste.

Línea de Regresión Suposiciones de regresión y correlación  a) Normalidad: los valores de Y estarán distribuidos normalmente a cada valor de X.  b) Homoscedasticidad: la variación alrededor de la línea de regresión será constante para todos los valores de X.  c) Independencia de error: el error (diferencia residual entre un valor observado y uno estimado de Y) sea independientemente de cada valor de X.  d) Linealidad: la relación entre las variables es lineal.

Estimadores Mínimo-Cuadráticos

Ejemplo 2 Se tiene una relación de 33 pacientes de los cuales se registró la presión sistólica. Se desea conducir un estudio para determinar la relación entre la edad de los pacientes y la presión registrada Paciente 1 2 3 4 5 … 33

Edad 22 23 24 27 28 … 81

PS 131 128 116 106 114 … 217

Diagrama de Dispersión Según el diagrama de dispersión, se espera una relación positiva o directa entre ambas variables. Modelo de regresión: y =a+bx

Cálculos Estadísticos Variable dependiente: la presión sistólica Variable independiente: la edad n = 33 Σx = 1542 (sumatoria de las edades) Σy = 4575 (sumatoria de las presiones) Σxy = 223.144 (productos cruzados) Σx2 = 79.176 Σy2 = 656.481

x = 46,73 y = 138,64 Σ(x – Σ(y – Σ(x –

x)2 = Σx2 – (Σx)2 / n = 79.716 – (1542) 2 / 33 = 7662,6 y)2 = Σy2 – (Σy)2 / n = 656.48116 – (4575) 2 / 33 = 22.219,6 x ) (y – y) = Σxy – (Σx)(Σy) /n = 223.144 – (1542)(4575)/33 = 9.366,7

Estimación de la Recta de Regresión  (x - x) (y - y) b = - - -- - - - - - - - - - - - - = 9366,7 / 7662,6 = 1.22 mm Hg / año de edad



(x - x) 2

y = a + bx a=y-b x = 138,64 - (1,22)(46,73) = 81,54

Por consiguiente el modelo de Regresión Estimado es:

y = 81,54 + 1,22 x

Que significa: Por cada año de incremento en la edad la presión aumenta en promedio en 1,22 mmHg.  Es importante interpretar los resultados obtenidos en función de las unidades en que se encuentran expresadas nuestras variables en estudio (y). 

Related Documents

Regresion
October 2019 28
Grafica Regresion
October 2019 28
Regresion Polinomica.xlsx
December 2019 15