Mauro Rafaele de la Cruz UNIVERSIDAD NACIONAL DEL CENTRO DEL PERÚ FACULTAD DE INDUSTRIAS ALIMENTARIAS Huancayo – Perú, 2009
1
Análisis de Regresión
2
Análisis de asociación El análisis de asociación entre variables pretende descubrir y medir la asociación o covariación entre variables, a través del análisis de regresión y correlación. Análisis de regresión. Determina la relación funcional (ecuación) entre dos o más variables. Análisis de correlación. Determina el grado de la relación entre las variables. 3
Ejemplos El gasto familiar (Y) depende del ingreso (X1), del tamaño
de la familia (X2), de la conducta alimenticia (X3). El salario (Y) depende de la jornada laboral (X1), del
costo de la jornada laboral (X2), del número de años de experiencia (X3), del grado de instrucción (X4). El rendimiento académico (Y) depende del coeficiente
intelectual (X1), del tiempo de estudio (X2), de la vocación profesional (X3), de la metodología de enseñanza (X4), del número de libros leídos (X5). 4
Ejemplos La fibra de la cáscara de mango (Y) depende de la
humedad (X1), de la grasa (X2). La materia de la cáscara de mango de mango (Y)
depende de la humedad (X). Los carbohidratos de la cáscara de mango (Y) dependen
de los taninos (X1), de las proteínas (X2). La humedad de la harina de trigo (Y) depende de la
humedad relativa (X1), de la temperatura (X2) 5
Objetivos Establecer la relación funcional entre una variable
dependiente Y (respuesta, predicha, explicada, endógena) y un conjunto de variables independientes X1, X2, …, Xk (predictoras, explicativas, exógenas). Realizar pronósticos o predicciones de la variable
dependiente Y una vez conocidos los valores de las variables independientes X1, X2, …, Xk.
6
Tipos de relaciones 1. Una variable influye sobre otra. La edad influye en el desarrollo mental del niño La cantidad de proteína de la harina influye en el volumen del pan 2. Variables influenciadas entre si. Precio y nivel de producción de un artículo Peso y altura de las personas 3. Variables no relacionadas influenciadas por otra variable Los precios del pan y de la leche están relacionados por la influencia del costo de vida a través de los años 7
Tipos de modelos de regresión 1. Por el número de variables independientes (v.i.) que influyen en la variable respuesta (v.r.). MR simple: Una variable independiente. La cantidad de gluten de la harina de trigo y el volumen de pan MR múltiple: Dos o más variables independientes. La edad y la altura de las personas influyen sobre su peso 8
Tipos de modelos de regresión 2. Por el modelo funcional o la forma de la influencia. MR lineal: Las variaciones de la v.i. pueden provocar variaciones proporcionales en la v.r. El peso de un niño al nacer y su peso a los tres meses de edad
MR no lineal. Las variaciones de la v.i. pueden provocar variaciones no proporcionales en la v.r. La precipitación pluvial de una zona y el rendimiento de los cultivos de dicha zona 9
Patrones de relaciones entre dos variables b) Lineal Negativa
a) Lineal Positiva
Y
Y
X
Y
X
f) No lineal
Y
Y
X
X
e) No lineal
d) No Lineal
Y
c) No Lineal
X
X
10
11
Análisis de Regresión Lineal Simple El análisis de regresión lineal simple (ARLS) ajusta una variable dependiente (Y) y una variable independiente (X) y la relación entre ellas es aproximadamente una línea recta. Pasos del ARLS: 1. Diagrama de dispersión 2. Coeficiente de correlación lineal simple 3. Estimación del modelo de regresión y la bondad de ajuste 4. Pronósticos (prediciones) de la variable respuesta 12
Análisis de Regresión Lineal Simple Ingresos Gastos 2800 2300 2500 2000 3500 3200 4000 3600 5000 4200 4500 4000 3500 2900 3700 3400 5500 4900 6000 5100 2500 2100 2000 1800 2800 2300 3200 2900 4700 4200
Línea de tendencia
Ascendente Relación directa
Diagrama de dispersión 13
Análisis de Regresión Lineal Simple
Temp Cons
28,0 28,0 32,5 39,0 45,9 57,8 58,1 62,5
12,4 11,7 12,4 10,8 9,4 9,5 8,0 7,5
Línea de tendencia
Descendente observamos: Relación inversa - tendencia negativa - puntos dispersados alrededor de la línea
Gráfico de dispersión 14
Análisis de Regresión Lineal Simple Esta dísticos descriptivos
Coeficiente de correlación de Pearson
Variables Ingresos (S/.) Gas tos (S/.)
Media 3746,67 3260,00
Des viación típica 1184,342 1058,840
n 15 15
Correlaciones Variables Ingresos (S/.) Gas tos (S/.) Ingresos (S/.) Corre lación de Pearson 1 ,992** Sig. (bilateral) ,000 n 15 15 Gas tos (S/.) Corre lación de Pearson ,992** 1 Sig. (bilateral) ,000 n 15 15 **. La correlación e s s ignificativa al nivel 0,01 (bilateral).
15
Análisis de Regresión Lineal Simple Esta dísticos descriptivos
Coeficiente de correlación de Pearson
Variables Tem peratura Consumo
Media 43,975 10,213
Des viación típica 14,1641 1,9105
n 8 8
Correlaciones Tem peratura Consum o de Variables m edia com bustible Tem peratura Corre lación de Pearson 1 -,948** m edia por hora Sig. (bilateral) ,000 n 8 8 Consum o de Corre lación de Pearson -,948** 1 com bustible Sig. (bilateral) ,000 n 8 8 **. La correlación es significativa al nivel 0,01 (bilate ral).
16
Análisis de Regresión Lineal Simple Coeficiente de correlación lineal de Pearson (R. Hernández S. y otros: Metodología de la Investigación, 4ta ed., Pág. 453)
R de Pearson
Valores (–)
Valores (+) 0
–0,24 a –0,01 –0,49 a –0,25 –0,74 a –0,50 –0,89 a –0,75 –0,99 a –0,90 –1
Correlación Nula
0,01 a 0,24 0,25 a 0,49 0,50 a 0,74 0,75 a 0,89 0,90 a 0,99 1
Muy débil Débil Media Fuerte Muy fuerte Perfecta 17
Análisis de Regresión Lineal Simple Coeficiente de correlación lineal de Pearson (F. Calvo: Estadística Aplicada, Pág. 110)
r de Pearson Valores (–)
Valores (+) 0
–0,19 a –0,01 –0,39 a –0,20 –0,59 a –0,40 –0,79 a –0,60 –0,99 a –0,80 –1
Correlación
Relación
Nula
0,01 a 0,19 0,20 a 0,39 0,40 a 0,59 0,60 a 0,79 0,80 a 0,99 1
Pequeña Baja Regular Alta Muy alta Perfecta
Muy poca intensa Poca intensa Considerable Intensa Muy intensa
18
Análisis de Regresión Lineal Simple Modelo de regresión lineal simple (MRLS): y = β0 + β1x + donde: β0 = Ordenada al origen (valor medio de y cuando x = 0), β1 = Pendiente ( medio de y cuando x varía una unidad), = Término de error (describe los efectos de los factores no incluidos en el modelo). β0 y β1 se llaman constantes o parámetros de regresión. Al no conocer los valores reales de β0 y β1, debe ser estimados con los datos de la muestra. (Nota: La interpretación de β0 a veces no es aplicable). 19
Análisis de Regresión Lineal Simple Resum en de l mode lob
Modelo de regresión lineal simple (Gastos / Ingresos): y = β 0 + β 1x +
Modelo 1
R cuadrado Error típ. de la R R cuadrado corregida estim ación a ,992 ,984 ,983 137,705
a. Variables predictoras: (Constante), Ingres os (S/.) b. Variable dependiente: Gastos (S/.)
ANOVAb Sum a de Modelo cuadrados 1 Regresión 15449486,9 Res idual 246513,104 Total 15696000,0
gl 1 13 14
Media cuadrática 15449486,9 18962,546
a. Variables predictoras: (Constante ), Ingre sos (S/.)
F 814,737
Sig. ,000a
Modelo significativo (β0 y β1 en forma conjunta significativos)
b. Variable dependie nte: Gastos (S/.)
20
Análisis de Regresión Lineal Simple Modelo de regresión lineal simple (Gastos / Ingresos): y = β 0 + β 1x + Coeficiente sa
Modelo 1
(Constante) Ingresos (S/.)
Coeficientes no Coeficientes estandarizados estandarizados B Error típ. Beta -63,233 121,735 ,887 ,031 ,992
t -,519 28,544
Sig. ,612 ,000
a. Variable dependiente: Gastos (S/.)
y = –63,233 + 0,887x Gastos = –63,233 + 0,887 Ingresos (0,612) (0,000)
Sólo β1 significativo (β1 0) 21
Análisis de Regresión Lineal Simple Resum en de l mode loc,d
Modelo de regresión lineal simple (Gastos / Ingresos): y = β 1x +
R cuadrado Error típ. de la R R cuadrado corregida estim ación ,999b ,999 ,998 134,065
Modelo 1
b. Variables predictoras: Ingresos (S/.) c. Variable dependiente: Gastos (S/.) d. Regresión lineal a través del origen
ANOVAc,d Sum a de M odelo cuadrados 1 Regresión 174858371 Res idual 251629,453 Total 175110000b
gl 1 14 15
M edia cuadrática 174858371 17973,532
F 9728,659
Sig. ,000a
a. Variables predictoras: Ingresos (S/.) b. Esta sum a de cuadrados total no se ha corregido para la constante porque la constante es cero para la regres ión a travé s del origen.
β1 significativo
c. Variable dependie nte: Gastos (S/.) d. Regresión lineal a travé s del origen
22
Análisis de Regresión Lineal Simple Modelo de regresión lineal simple (Gastos / Ingresos): y = β 1x + Coeficiente sa,b
Modelo 1 Ingresos (S/.)
Coeficientes no Coeficientes estandarizados estandarizados B Error típ. Beta ,872 ,009 ,999
t 98,634
Sig. ,000
a. Variable dependiente: Gastos (S/.) b. Regresión lineal a través del origen
y = 0,872x Gastos = 0,872 Ingresos (0,000) 23