Regresion Lineal Y Correlacion

  • Uploaded by: morris star
  • 0
  • 0
  • June 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Regresion Lineal Y Correlacion as PDF for free.

More details

  • Words: 2,990
  • Pages: 73
REGRESION LINEAL Y CORRELACION

 

PALACION PALACIOS, Daniel SANCHEZ HUAMAN, Henry  OSORIO TELLO , Jonathan  CUBA ATENCIO, Misael  MINAYA ALAYA ,Luis

Diagramas de dispersión y curvas de regresión  



El diagrama de dispersión se obtiene representando cada observación (xi, yi) como un punto en el plano cartesiano XY.

El diagrama de dispersión puede presentar formas diversas:

Ejemplo de las alturas y los pesos Consideremos las observaciones de los pesos y alturas de un conjunto de 10 personas: el individuo 1 tiene 161 cm de altura y 63 kg de peso, el individuo 2 tiene 152 cm de altura y 56 kg de peso, etc., tal como se ve en la tabla siguiente:

Regresión Lineal 

La regresión es un método de análisis de los datos de la realidad económica que sirve para poner en evidencia las relaciones que existen entre diversas variables.

 





 

 

Una línea recta denominado regresión lineal, que se usa en el laboratorio en varias situaciones: Para calcular la velocidad en una experiencia de movimiento rectilíneo . Para calcular la constante elástica de un muelle, colocando pesas en un platillo que cuelga de su extremo libre y midiendo la deformación del muelle . ETC.

Regresión Lineal 

En estadística la regresión lineal o ajuste lineal es un método matemático que modeliza la relación entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:



  

Donde :  β0 es la intersección o término "constante",  Las βi son los parámetros respectivos a cada variable independiente.  P es el número de parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal.



Formulas Empleadas

Regresión Lineal Simple Ahora asum irem os que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efect o). Adem ás, se sabe que esa relación es de t ipo lineal, dent ro del rango de los dat os. Est ablecerem os un m odelo para explicar la caiisa (Y) en t érm inos el efect o (X), del t ipo siguient e:

Donde:

para t = 1,2,..., n

En que B1 y B2 son dos cantidades fijas (parámetros del modelo) y los Ut son cantidades aleatorias que representan las diferencias entre lo que postula el modelo a y lo que realmente se observa, Por esa razón a los e los llamaremos "errores" o "errores aleatorios". Se asume que tienen valor esperado 0 y desviación standard común σ

Ejemplo 1 Continuemos con el anterior ejemplo de las alturas y pesos de un grupo de diez personas. Para determinar la recta de regresión, calculamos la covarianza maestral Sxy, la varianza maestral y las medias y

Diagrama de Dispersión

Ejercicio 2: 

 





Para hacer un modelo de regresión necesitamos lápiz (o bolígrafo), folios y una calculadora elemental. Nada mas. En las pr¶acticas era su¯ciente con introducir los datos relativos a x y a y. Sin embargo, para hacer las cosas sin ordenador hay que trabajar un poquito m¶as. Por ese motivo vamos a hacer ejercicios con pocos datos.

Solución:

X =Media de x Y =Media de y Sxy = Sumatoria de XY =Sxy/n – X*Y 2 2 Sx2= Sumatoria de X =Sx /n-x

Ejercicio 3: El departamento de personal de una empresa informática dedicada a la introducción de datos ha llevado a cabo un programa de formación inicial del personal. La tabla siguiente indica el progreso en pulsaciones por minuto (p.p.m.) obtenido en mecanografía de ocho estudiantes que siguieron el programa y el número de semanas que hace que lo siguen:

Diagrama de dispersión:

El diagrama de dispersión nos muestra que la relación entre las dos variables es lineal con pendiente positiva, de manera que cuantas más semanas pasan, mayor es la ganancia de velocidad. Por tanto, tiene sentido buscar la recta de regresión. A partir de la tabla de cálculos siguiente:

ANALISIS DE REGRESIóN Y DE CORRELACIóN

Regresión y Correlación Análisis de regresión y correlación  Relación entre variables  Ajuste de curvas  El método de los mínimos cuadrados:  Relaciones lineales y no lineales  Error típico de estimación  Coeficiente de Correlación 

Regresión y Correlación 

Recta de regresión y el coeficiente de correlación lineal

DIAGRAMA DE DISPERSIÓN CURVA DE APROXIMACIÓN

RELACIÓN LINEAL

RELACIÓN NO LINEAL

Ajuste de curvas Diagrama de dispersión  Curva de aproximación  Relación lineal  Relación no lineal  Curva de ajuste 

 

Ecuaciones de curvas de aproximación Linea recta  Parábola  Curva cúbica  Curva cuártica  Curva de grado n  Hipérbola  Exponencial  Geométrica 



El método de los mínimos cuadrados:

Y=mX+b

COEFICIENTE DE CORRELACIóN

Medidas de Correlación Cualitativa ( observación directa sobre el diagrama de dispersión)  Cuantitativa ( dispersión de los datos alrededor de las curvas o rectas) 



¿Qué relación hay entre LxA de una hoja con su area? Relación entre LxA y el área de las hojas del árbol A 16

Area de la hoja

14 12 10 8 6 4 2 0 4

6

8

10

12

14

16

18

20

Largo x Ancho de la hoja

22

24

26

Examina la relación Relacion entre LxA y el area de las hojas del arbol A 16

Area de la hoja

14

xi − x

- +

12 10

yi − y

++

y

8 6

- -

4

x

2 0 4

6

8

+ -

10

12

14

16

18

20

Largo x Ancho de la hoja

22

24

26

Coeficiente de correlación n

Si la p e n d ie n t e d e la re ct a e s p osit iva e sp e r a m os q u e :

∑ (x i =1

n

ya que

m=

∑( x

i

i =1

i

− x )( y i − y ) > 0

− x ) ( yi − y )

n

2 ( x − x ) ∑ i

>0

i =1

n

Coe f icie n t e d e corr e la ción

r=

∑ (x i =1

n

∑ (x i =1

i

i

− x )( y i − y )

− x)

2

n

∑ (y i =1

i

− y)

= 2

s xy sx s y

Significado de la correlación n

r=

∑ (x i =1

i

− x )( y i − y )

n

n

i =1

i =1

2 2 ( x − x ) ( y − y ) ∑ i ∑ i

n

=m

∑ (x i =1 n

i

− x)

2

2 ( y − y ) ∑ i i =1

El coeficient e de correlación y la pendient e t ienen el m ism o signo. r es una m edida de la dependencia est adíst ica (num érica) lineal de la variables x, y.

Ejemplos de correlación r> 0 r cerca de 0

r< 0

No hay relación lineal

Propiedades de r r > 0 si y solo si m > 0 -1 = < r <= 1 r cerca de 1 indica dependencia lineal crecient e fuert e r cerca de 0 indica no hay dependencia est adíst ica lineal r cerca de -1 indica dependencia lineal decrecient e fuert e

Propiedades de r  x, y pueden estar correlacionadas, pero no

quiere decir que x causa y o que y causa a x.  x, y pueden ser dependientes, pero su coeficiente de correlación puede ser 0:  Ejemplo: y = x2 r=0 ◦ x = -1, 0, 1 ◦ (la dependencia entre x , y NO es lineal)

Dependientes pero no correlacionadas Y 1

-1

0

1

X

n u m e r a d or d e r = ( -1 ) . 3 3 + ( 0 ) 0 + ( 1 ) . 3 3 = 0

Coeficiente de correlación  Es la raíz cuadrada del coeficiente de

determinación:

r= R = 2

SSR = SST

SST − SSE SST

Referencias 

Mann: Sec. 13. 6, 13.7 ◦ probs: 59-67, 75-77, 80, 81, 



Weiss: Sec. 13.4 ◦ probs: 75, 77, 79, 82, 85 ◦



Datos en hoja de Excel

Correlacion formula

r=1 (ó 0,99
Dependencia funcional directa Exacta

0< r< 1

Dependencia aleatoria directa Muy fuerte r de 0,9 a 0,99 Fuerte r de 0,7 a 0,9 Moderada r de 0,4 a 0,7 Débil r de 0,2 a 0,4 Muy Débil r de 0 a 0,2

r=0

X,Y aleatoriamente Nula independientes Dependencia aleatoria inversa Muy Débil r de -0,2 a 0 entre X, Y Débil r de -0,4 a -0,2 Moderada r de -0,7 a -0,4 Fuerte r de -0,9 a -0,7 Muy Fuerte r de -0,99 a -0,9

-1 < r < 0

r=-1 (ó -1<=r < -0,99)

Dependencia funcional Inversa Exacta

Ejercicio Matemáticas

2

3

4

4

5

6

6

7

7

8

10

10

Física

1

3

2

4

4

4

6

4

6

7

9

10

xi

yi

x i ·y i x i 2

yi2

2 3 4 4 5 6 6 7 7 8 10 10 72

1 3 2 4 4 4 6 4 6 7 9 10 60

2 9 8 16 20 24 36 28 42 56 90 100 431

1 9 4 16 16 16 36 16 36 49 81 100 380

4 9 16 16 25 36 36 49 49 64 100 100 504

ANáLISIS DE DATOS EN SPSS

Datos Iniciales Partimos de la información obtenida de una muestra de 10 elementos de una determinada distribución. Las variables sometidas a observación son: • Notas Obtenidas • Coeficiente de Inteligencia • Horas de Estudio

Notas Horas

C.Int

8

120

4

7

125

3

6

100

3

8

115

4

7

120

4

4

95

2

3

80

2

1

80

1

6

100

3

5

90

3

Objetivos Iniciales: ¿ Entendemos que las notas que saca un estudiante depende de las horas de estudio de dedicación a la asignatura o del Coeficiente de Inteligencia que tenga ? Ó ¿ de Ambas variables ? A partir de aquí nos planteamos, en primer lugar, realizar un análisis de regresión.

r el análisis por el método introducir las dos variables simultáneamente

Matriz de Correlación 

Correlaciones Correlación de Pearson Sig. (unilateral) N

NOTAS CI HORAS NOTAS CI HORAS NOTAS CI HORAS

NOTAS 1,000 ,900 ,959 , ,000 ,000 10 10 10

CI ,900 1,000 ,819 ,000 , ,002 10 10 10

HORAS ,959 ,819 1,000 ,000 ,002 , 10 10 10





Planteamiento de que existe o no asociación lineal entre las variables Ho : el coeficiente de correlación lineal es cero. Si el p-valor asociado es menor que α σ ε ρ ε χ ηαζ α λ α η ι π . Νυ λ α

 b Variables introducidas/eliminadas

Nos indica las variables introducidas y el método utilizado

Modelo 1

Variables introducidas HORAS, CIa

Variables eliminadas ,

Método Introducir

a. Todas las variables solicitadas introducidas b. Variable dependiente: NOTAS

Análisis de la Varianza Raíz cuadrada de la varianza residual

Resumen del modelo

Modelo 1

R ,979a

R cuadrado ,959

R cuadrado corregida ,947

Error típ. de la estimación ,5244

a. Variables predictoras: (Constante), HORAS, CI

K-1

n-k

Coeficiente de determinación corregido. Depende del numero de variables y numero de SCR= Suma de los cuadrados de la regresión elementos.

ANOVAb Modelo 1

Regresión Residual Total

Suma de cuadrados 44,575 1,925 46,500

gl 2 7 9

Media cuadrática 22,287 ,275

F 81,036

Sig. ,000a

SCR /(k − 1) SCE /( n − k )

La Hipótesis nula: La ecuación de regresión muestral no explica un porcentaje significativo de la varianza de la variable

a. Variables predictoras: (Constante), HORAS, CI b. Variable dependiente: NOTAS

n-1

F=

SCE= Suma de los cuadrados de los errores

Cuanto mayor sea F mas se explica que se queda por explicar

Coeficientes

Notas = −3,81 + 1,53horas + 0,047C.I

Coeficientesa

Modelo 1

(Constante) CI HORAS

Coeficientes no estandarizados B Error típ. -3,815 1,261 4,731E-02 ,018 1,540 ,307

Coeficient es estandari zados Beta ,348 ,674

t -3,025 2,594 5,023

Sig. ,019 ,036 ,002

a. Variable dependiente: NOTAS

Coeficientes de regresión estandarizado Coeficientes Valor t

B/error típico

β = β1

Sx Sy

Cuanto mayor sea mas se explica de la variable dependiente

Al igual que en otros contrastes se rechazara la variable si se acepta que el coeficiente es igual a cero.

Ganancias R2 = 96 % 4% 4%

15%

COEF. INTEL 81%

77%

HORAS 92%

¿Que aporta cada una de los regresores a la explicación de la variable dependiente?

Ganancias

Mét odo Int roducir por bloques 1º horas, 2º C.Int .

Resumen del modelo

Modelo 1 2

R ,959a ,979b

R cuadrado ,919 ,959

R cuadrado corregida ,909 ,947

Error típ. de la estimación ,6870 ,5244

a. Variables predictoras: (Constante), HORAS b. Variables predictoras: (Constante), HORAS, CI

ANOVAc Modelo 1

2

Regresión Residual Total Regresión Residual Total

Suma de cuadrados 42,725 3,775 46,500 44,575 1,925 46,500

gl 1 8 9 2 7 9

Media cuadrática 42,725 ,472 22,287 ,275

F 90,536

Sig. ,000a

81,036

,000b

a. Variables predictoras: (Constante), HORAS b. Variables predictoras: (Constante), HORAS, CI c. Variable dependiente: NOTAS

Coeficientesa

Modelo 1 2

(Constante) HORAS (Constante) HORAS CI

Coeficientes no estandarizados B Error típ. -,854 ,702 2,191 ,230 -3,815 1,261 1,540 ,307 4,731E-02 ,018

a. Variable dependiente: NOTAS

Coeficient es estandari zados Beta ,959 ,674 ,348

t -1,216 9,515 -3,025 5,023 2,594

Sig. ,259 ,000 ,019 ,002 ,036

Mét odo Int roducir por bloques 1º C.Int , 2º Horas.

Resumen del modelo

Modelo 1 2

R ,900a ,979b

R cuadrado ,809 ,959

R cuadrado corregida ,786 ,947

Error típ. de la estimación 1,0527 ,5244

a. Variables predictoras: (Constante), CI b. Variables predictoras: (Constante), CI, HORAS

ANOVAc Modelo 1

2

Regresión Residual Total Regresión Residual Total

Suma de cuadrados 37,634 8,866 46,500 44,575 1,925 46,500

gl 1 8 9 2 7 9

Media cuadrática 37,634 1,108 22,287 ,275

F 33,960

Sig. ,000a

81,036

,000b

a. Variables predictoras: (Constante), CI b. Variables predictoras: (Constante), CI, HORAS c. Variable dependiente: NOTAS

Coeficientesa

Modelo 1 2

(Constante) CI (Constante) CI HORAS

Coeficientes no estandarizados B Error típ. -7,045 2,178 ,122 ,021 -3,815 1,261 4,731E-02 ,018 1,540 ,307

a. Variable dependiente: NOTAS

Coeficient es estandari zados Beta ,900 ,348 ,674

t -3,234 5,827 -3,025 2,594 5,023

Sig. ,012 ,000 ,019 ,036 ,002

Método por Pasos • Método que se utiliza para la obtención semiautomatica del

modelo de regresión. A través de la selección de cada una de las variables • Se irán introduciendo las variables a partir de aquella que tenga mayor correlación. • Se establece criterios de entrada y salida • PIN probabilidad de entrada • POUT probabilidad de salida (siempre es mayor que la probabilidad de entrada

• El criterio de aceptación de la variable es que se rechace la hipótesis nula de que el coeficiente sea igual a cero

e

s

u

m

e

R R

c c

c , 9 ,9

, 9 ,9

5 7

Método por Pasos d

u

ria a uM 1 2

c

b ria co

in H le

C

a VE

s .

C do C ,0 9 8

taM 5 41 a V b V

. 4

.

a

a

u e M ,6 ,9 1 19 ,5 ,9 5 29

E u oR a s 8 0 2 4 a V b V

s

/e

d o 9 9

a

ro a re

lim

Indicador de la colinealidad existente entre las variables.

. a

d

rtíp d g

. a . a

in

ria

a

ie o ,P o ,P

e

o

.d a r id d c

lo

ed a

ria

b

le

ria

b

le

d n

a te

s ic f ro s t s n e s riz d ro a o eed e rtíp lone ta. n s ,21 d 56 Ria ,01 9 A 05 n s ,02 15 R A ,d 02 4 0ic3 ,09 8 3n4 e e e ta s

b

lm

a r a 0 4

a

d

a V

e

d tim 7 9 4 7

b

s le s C o e fic ae é a slo t s d o P o rp a C s o O R , A S < = , 0 5 0 CP ob o e rp fic a e ie s s n e x c l u id a I , e s t a n d z 0 a a < = ,0 5 Mdtic oeo EB dps Bro as riata bd leís 1 a,75 ió (C -1 lid0 4n o ,2 a 2 c o o re lin la e -,8 c 9l ,931 Oc ,5 5 0 edT pS t neo aig 2 trolole rc. ,1 ra ia ,29 Hn a I3 47 , 60 ,3 2 9 2 ,2 1 (C -3 0 1,8 -3 65 o ,0 1 H O 1 5 , 3 , 4 5 6 , 0 0 a ria b le s p re,0 7 7 C I , a 7 ria 3 b 1 le E d ,0-0 e2 ,312 p,5 4 8 a

le b idd M

id

n

( e c i b (c d d b St d ta 9 S 0 ta 9 S 2 to 6 d

le

o ió

s s

r n ite a n rite a s a o ig ie n

r t io b o rio ri s b . n te

n

te ra

s

ie d

Tolerancia = ( 1-R2) Si el valor de la tolerancia es próximo a 0, la variable será casi una combinación lineal de las restantes.

n e

Related Documents


More Documents from ""