REGRESION LINEAL SIMPLE
-
Bueno, en cierta manera la regresión lineal simple y la correlación de pearson son análisis muy parecidos y son parte de una misma familia. La gran diferencia entre una y otra es que la correlación de Pearson busca la relación entre dos variables, mientras que la regresión busca ver cómo una variable explica a otra variable. Aparte, al igual que la correlación, la regresión lineal simple utiliza variables de intervalo y no puede utilizarse con otros tipos debido a que es un análisis lineal
-
En nuestras labores cotidianas (ya sea estudiando algo o trabajando en algo), nos hemos percatado que tener un grupo de amigos o amables colegas en el trabajo nos permite relajarnos y a su vez hacer que el estrés descienda. Sin embargo, esta es una simple deducción y como investigadores, es importante que probemos científicamente si es que efectivamente esto se da en la realidad. Si lo haces al ojo, terminas con un ojo morado :).
-
Por ello, un grupo de investigadores deciden hacer una pequeña investigación. Para ella, recogen información de 270 jóvenes sobre estrés (variable A) y soporte social (variable B) y buscan conocer si es que el soporte social puede explicar el estrés. Para ello, miden las dos variables con dos cuestionarios y sacan los promedios de puntajes de cada uno. En ese caso, tanto la variable A, así como la variable B son de intervalo.
-
En este caso, con el SPSS se debe seguir la siguiente ruta: Analizar/regresión/lineales/ Para este caso, como queremos saber si el soporte social puede explicar el estrés, ponemos como variable dependiente, estrés y en variable independiente soporte social. Luego de ello ponemos aceptar. ¡Aquí vamos!
Tabla 1
Esta tabla lo que nos muestra básicamente es cuán relacionadas están estas variables. En este caso, la tabla no pone la dirección (directa o inversa) de la relación entre soporte social y estrés. Lo único que hace es poner cuán relacionadas están las
variables. Esto es muy similar a una correlación de Pearson, los que no recuerdan que es esto pueden ir a este post.
¡Muy bien! En este caso, la R significa la relación entre soporte social y estrés, en este caso nos dice que hay una importante relación (.36) entre las dos variables. Los que no recuerdan qué era una relación entre dos variables, ¡no hay problema! este post puede ser de mucha utilidad.
Por otro lado, la R cuadrado es como su nombre lo dice, la relación (R) elevada al cuadrado. El R cuadrado, es la proporción de varianza explicada de estrés por soporte social. En otras palabras, cuánto los puntajes de soporte social explican los puntajes de estrés. Por el momento, solo hablaremos de estos dos análisis, los que tienen curiosidad de saber qué es la R cuadrado corregida, siempre pueden dejar un comentario en la sección posterior y encantado de ayudar. De todos modos, cuando veamos regresión múltiple la R cuadrado corregida tomará bastante importancia.
Tabla 2
Esta tabla de ANOVA (¿les suena conocida? a los que no, este post puede ayudarlos a identificar rápidamente la misma). Nos menciona si es que nuestro modelo que busca explicar el estrés utilizando el soporte social es significativo o no. Mientras más grande sea la F hay más probabilidad que nuestro modelo sea significativo. ¿Por qué? Porque mientras más grande es la F hay menor probabilidad que la explicación de estrés por soporte social se de por el azar o algún motivo desconocido. En este caso, vemos que el modelo es significativo ya que es menor a .05. Los que no recuerdan qué significa esto, ¡no hay ningún problema! Este post los puede ayudar a recordar a qué se refiere una significación.
Tabla 3
Finalmente, esta tabla nos muestra nuestro modelo de regresión lineal simple pero al detalle. En este caso podemos ver dos lineas, de datos. La primera que se refiere a la constante y la segunda directamente al soporte social. En este caso, no hablaremos mucho de la constante, pero lo que si mencionaremos es que la constante se refiere a los valores que toma la variable que queremos explicar (en este caso estrés) cuando nuestra variable explicativa o predictiva (soporte social) es igual a 0. ¡Muy bien! Dicho esto, sigamos avanzando. Vamos a saltar la línea de la constante y nos iremos directamente a la línea que nos habla del soporte social. Los coeficientes no estandarizados, miden el cambio entre la variable independiente (soporte social) y la variable dependiente (estrés). ¿Qué dice este análisis? Para este caso, cada vez que se incrementa un punto en soporte social, el estrés baja en 1.928 (porque si ven la tabla 3, el número tiene un signo negativo).
Por otro lado, el coeficiente tipificado, nos menciona la misma información con una gran diferencia. El coeficiente tipificado mide el cambio o cuánto explica soporte social al estrés, con valores que van desde -1 a 1 (así como una correlación). Este coeficiente también es llamado coeficiente estandarizado, porque los puntajes se han estandarizado (o convertidos) para solo tener valores entre -1 y 1. ¿Por qué es útil esto? Cuando se tiene varias variables (regresión múltiple) se puede saber cuál de las variables de nuestro modelo explica mejor la variable que queremos explicar. Entiendo que ahora esto puede ser poco claro, pero cuando veamos regresiones múltiples verán que esto se vuelve mucho más claro ¡Se los prometo!
De todos modos, el coeficiente tipificado, tiene una particularidad bien interesante en la regresión lineal simple. Este valor, es idéntico al que obtendríamos si hiciéramos una correlación de Pearson entre Soporte social y estrés. Si no me creen, ¡no hay problema! Si ven a continuación (tabla 4), observarán un análisis de correlación de las dos variables que mencioné y verán que estrés y soporte social tienen una relación de -.36 que es exactamente igual al coeficiente tipificado de la tabla 3 en la línea de soporte social.
¿Qué significa esto? Que hay una relación inversa (ver post de correlaciones), entre los puntajes de soporte social y los puntajes de estrés. En términos de regresión, el soporte social explica el estrés en .360 y ha mayor soporte social menor estrés.
Finalmente, verán que estos valores son significativos porque son menores a 0.05 (en las tablas 3 y 4 aparecen valores de .000, en otras palabras, valores muy pequeños). Ello implica que está relación es significativa (ver post).
Tabla 4
¡Muy bien! Esto sería todo por hoy. El objetivo de este post fue describir de manera sencilla, ¿qué es una regresión simple? Un tema importantísimo de tomar en cuenta, es que si bien hemos utilizado la palabra “explicar” para referirnos a la regresión, no es apropiado hablar de causalidad aquí. Es mejor, y más cauteloso hablar de relación en lugar de causalidad, pero por temas didácticos es que hemos usado la palabra explicar. Para lograr encontrar causalidad es necesario utilizar diferentes diseños de investigación como por ejemplo el experimental.
Para la siguiente aventura de Stats SOS, veremos los principios que se deben seguir para hacer una eficiente y precisa regresión lineal multiple. En el siguiente post verán que haré mención de un buen amigo y seguidor del blog que quería ser parte del blog y como él siempre me ha dado apoyo entonces le concedí el pedido. Dudo que mi novia se ponga celosa de ello, así que no hay problema :). Recuerden que siempre pueden dejar un maravilloso comentario en la parte de comentarios.
RESPUESTAS Gracias por escribir en los comentarios. A ver dos cosas: 1) Si por dirección te refieres si es que es inversa o directa la relación, habrá un signo que te lo pueda decir. Si el signo es negativo, entonces la dirección es inversa, si es positivo es directa. En el ejemplo la dirección es inversa. A mayor soporte social, menor estrés. 2) Si por dirección te refieres a quién afecta a quién. La variable independiente (Soporte social) influye o predice a la variable dependiente (Estrés). En ese caso, la dirección es que la variable que predice (o predictora, soporte social) “explica” al estrés. Esta última idea es la gran diferencia con una correlación de Pearson donde no se asume una dirección sino más bien que están relacionadas. Espero que te haya ayudado, si tienes más observaciones encantado de responder **************************** La verdad que yo no diría “causa”, porque ahí entrarías en un problema complicado. Si tuviera que usar un adjetivo en español quizás “predice” o “explica” podría ser una mejor opción. La casualidad se puede conseguir con análisis mucho más complejos e incluso con otros diseños metodológicos pero una regresión no permite afirmar causalidad. ********************************
P –VALOR ¿Cómo se hace esto? Con el valor “p”. ¿Qué es esto? En términos banales, El valor p, es la probabilidad que la primera hipótesis sea cierta. Sin embargo, en palabras más técnicas, es la probabilidad que uno tiene para poder rechazar la primera hipótesis (que no hay diferencias entre los grupos).
El valor p, va de 0 = 0% a 1, que es igual a 100%. En general, en psicología y en otras ciencias sociales se usa 5% como la probabilidad límite para poder rechazar esta primera hipótesis. Por eso, nuestro profesor de estadística nos dice que debemos ver la significación del SPSS y si esta es menor a 0.05 (que en realidad es 5%), podemos rechazar la primera hipótesis. Luego que rechazamos la hipótesis podemos decir que nuestro resultado es significativo, en otras palabras, que hay más de 95% de probabilidad que nuestra segunda hipótesis (que hay diferencias en el bienestar psicológico en las personas que tienen mascotas en comparación con las que no) se pueda dar en la realidad. Dicho de otro modo, que existe menos de 5% de probabilidad que nuestra primera hipótesis (que no hay diferencias en el bienestar entre el grupo de propietarios de mascotas y el grupo que nunca ha tenido una mascota) se cumpla en la realidad. Sirkin, M. (2006). Statistics for the social sciences. Sage: UK Aquí les presento las nomenclaturas estadísticas que se usan en la prueba de hipótesis: -
Hipótesis nula, Ho: u1 = u2 (no existen diferencias entre los grupos).
-
Hipotesis 1, H1: u1 > u2 (que el promedio del grupo A será mayor al del grupo B)
o también puede ser lo siguiente: Hipótesis 1, H1: u1 ≠ u2. (los promedios del grupo A y el grupo B no son iguales pero no se sabe cuál es mayor).
REGRESION LINEAL MULTIPLE
-
¡Excelente! Primero que todo, la regresión lineal múltiple, es parte de la familia lineal y es una extensión de la regresión lineal simple. Esta busca relacionar varias variables independientes (o predictoras) con una variable dependiente y esta relación es lineal. ¿Vamos bien, no?
La regresión múltiple tiene 4 supuestos importantes que hay que seguir para hacer un análisis preciso y no sesgado:
1) Normalidad 2) Relación lineal 3) Aditividad y Multicolinealidad 4) Homocedasticidad Un tema importante, el punto 1 y el 2, se revisan o se prueban antes de hacer la regresión final, mientras que el 3 y 4, por lo general se prueban después que se hizo la regresión lineal. Normalidad: Esto se refiere a que todos nuestros datos, tanto nuestras variables independientes así como nuestra variable dependiente, tienen que tener puntajes que están distribuidos normalmente. Más específicamente los residuos (error) de estos puntajes deben tener una distribución normal. ¿Por qué es importante esto? La regresión es un análisis lineal y por ello, trabaja con relaciones lineales. Cuando los errores de las variables tienen distribución no normal, pueden afectar las relaciones y la significancia (¿Qué es eso? Ver post). ¿Por qué se enfocan en los errores y no la medición en sí? Porque en una regresión lineal también es posible poner variables dicotómicas (sexo) y estas no tienen una distribución normal (Williams, Grajales, & Kurkiewicz, 2013).
¡Excelente! ¡Sigamos avanzando! Este fue el calentamiento, pero estoy seguro que todo irá bien. Relación lineal
Este segundo supuesto está dirigido a la relación entre las variable independientes y dependiente. La relación entre cada variable independiente con la variable dependiente debe ser lineal. En otras palabras, y como bien conocemos, debe haber una correlación entre las variables independientes y la dependiente. ¿Qué era una correlación o relación? ¡Muy sencillo! Este post les puede dar indicios de qué es una correlación entre dos variables. Ojo, pestaña y ceja: los análisis de correlación se deben hacer antes de la regresión para poder saber qué variables tienen relación con la que deseamos medir. ¿Por qué? Porque este análisis previo nos permitirá saber qué variables incluimos en nuestro modelo de regresión.
¿Siguen acá? ¿Está todo bien? Me imagino que sí, ¡sigamos adelante como siempre! Additividad y multicolinealidad La aditividad se refiere a que el modelo de regresión lineal es aditivo. ¿Qué cosa? ¿Qué diablos es aditivo? Bueno, muy sencillo, que cada variable independiente por sí sola, suma a la explicación de la variable dependiente. En otras palabras, no hay relación entre las variables independientes. Si hubiera relación entre las variables independientes de nuestro modelo, tendríamos un problema. Nuestra dificultad, tiene nombre y se llama multicolinealidad. ¡Mero problema, con las justas lo puedo pronunciar! ¿Qué significa esto? La multicolinealidad es cuando dos variables independientes están relacionadas. ¿Por qué es un problema? Por una razón sencilla: Si hay relación entre dos variables entonces son muy parecidas y por ello tener las dos no aporta nada a explicar mejor nuestra variable dependiente. Les pongo un ejemplo, imagínense que tenemos un album de figuritas del mundial y sólo nos faltan dos. Si compramos unas figuritas en la tienda y nos vienen dos iguales y entre ellas está una de las que nos faltaba, esto no nos va a permitir llenar el album. Lo mismo pasa con la multicolinealidad, dos variables independientes muy relacionadas que parecen iguales no nos ayudarán a explicar más nuestra variable dependiente o a llenar el álbum. ¿Cómo se revisa si hay la terrible multicolinealidad? ¡Muy sencillo! Existen dos maneras: a) Previo a hacer nuestro modelo de regresión múltiple analizar con una correlación de Pearson (ver post), para ver si hay relación fuerte entre nuestras variables independientes. b) Durante el análisis estadístico de regresión múltiple se le puede pedir al programa, diagnósticos de multicolinealidad. Antes que se lancen encima de mi y del pobre Gonzalo sobre esto y pregunten ¿por qué no hay un post de ello? ¡No se preocupen! Luego de este post, escribiré un post sobre Multicolinealidad profundizando un poco más esto. :). Esta es más una introducción a este punto.
En el caso del post de multicolinealidad, nuestro amigo Gonzalo no va a poder acompañarnos porque seguro resumirá sus actividades de salvar el mundo y proponer políticas públicas. Pero yo seguiré aquí acompañándolos en nuestra aventura :).
Homocedasticidad ¡Muy bien! ¡Llegamos a la recta final! ¿Qué diablos es la homocedasticidad? ¡Muy sencillo! La homocedasticidad es cuando la varianza de los errores de medición de nuestro análisis es igual para todas las variables independientes. ¿Qué era varianza? No hay problema, aquí un pequeño recordatorio de lo que es una varianza. A su vez, cuándo esta varianza es diferente entre las diferentes variables independientes tenemos un problema de Heterocedasticidad. Según algunos autores, ¡esto puede ser un gran problema! ¡Qué miedo! ¿Por qué? La Heterocedasticidad puede arruinar nuestros resultados y hacernos caer en un error. ¿En cuál? Podríamos asumir que algo está relacionado cuando en realidad no lo está. ¿Se acuerdan cómo se llama esto? Los que no, no hay problema, pueden ir a este post para refrescar la mente (Tabachnick, & Fidell, 1996, 2001). Los que sí se acuerdan, estoy seguro que saben el tipo de error al que nos referimos.
Así como la Multicolinealidad, hay una manera de revisar si existe Homocedasticidad en nuestros datos. En este caso, no vamos a comentar la ruta que hay que seguir porque lo veremos en la regresión múltiple. Lo que sí les podemos contar es que se revisa un gráfico, y si la varianza del error de nuestras variables independientes está relacionada con la varianza que predice nuestra variable dependiente estamos fregados. Porque hay Heterocedasticidad, el error no debe estar relacionado con nuestra capacidad para predecir nuestra variable dependiente. Para mayor referencia pueden ver Osborne y Waters, (2002).
¡No se asusten! Vamos a ver esto nuevamente. Relájense respiren y todo irá bien. ¡Bueno! Ya estamos en la recta final. Espero que les haya gustado el post de hoy. Hay un tema importantísimo a tomar en cuenta. Todos estos supuestos se dan asumiendo que nuestros datos son confiables. En este caso, no agregamos un punto sobre confiabilidad por dos razones: a) Vamos a verlo luego :). b) Creemos que la confiabilidad es un supuesto que se aplica para todos los análisis y no exclusivamente para la regresión. ¿Están vivos? ¿Llegaron a la meta? ¡Excelente! Si es así, la verdad que los felicitamos, consideramos que este post es bien importante porque nos permite hacer análisis de regresión de manera eficiente y reduciendo el sesgo (error) de nuestros análisis. Para decir algo contundente hay que revisar que nuestros análisis estén bien hechos. Estamos seguros valientes lectores que este es el caso de ustedes.
Quiero agradecer a nuestro amigo Gonzalo, seguidor del blog por hacerse presente el día de hoy. Para la siguiente aventura de Stats SOS, pasaremos nuevamente al mundo no lineal, veremos la W de Wilcoxon para de paso crear un poco de expectativa antes de entrar completamente a la regresión múltiple. 🙂
¡Buenas vibras para todos! Referencias
– Osborne, Jason & Elaine Waters (2002). Four assumptions of multiple regression that researchers should always test. Practical Assessment, Research & Evaluation, 8(2).
– Tabachnick, B. G., Fidell, L. S. (1996). Using Multivariate Statistics (3rd ed.). New York: Harper Collins College Publishers
– Tabachnick, B. G., Fidell, L. S. (2001). Using Multivariate Statistics (4th ed.). Needham Heights, MA: Allyn and Bacon
– Williams, M., Gómez, C. A. y Kurkiewicz, D. (2013). Assumptions of multiple regression: correcting two misconceptions. Practical Assessment Research & evaluation, 18, 11, 1-14.
Un día llegó la regresión múltiple Publicado el mayo 12, 2015 por Juan Carlos Saravia Drago Estimados todos, saludos para ustedes, espero que estén muy bien. Bienvenidos a otra aventura de Stats SOS. El episodio de hoy, es parte del mundo lineal. 🙂
Esta aventura nos verá enfrentados a la regresión lineal múltiple, dónde tendremos que revisarla y comprenderla. Estoy seguro que al final la entenderemos y la podremos describir de manera sencilla.
¡Excelente! Primero que todo, la regresión lineal múltiple, es parte de la familia lineal y es una extensión de la regresión lineal simple. Esta busca relacionar varias variables independientes (o predictoras) con una variable dependiente y esta relación es lineal. ¿Vamos bien, no?
¿Qué les parece si vamos a un ejemplo? Imagínense que tenemos intención de saber si es que el soporte social (Variable A) y una menor desesperanza (Variable B) predice los niveles de estrés (Variable C). Para ello, encuestamos a 269 jóvenes y les preguntamos sobre su soporte social, desesperanza y estrés. ¡Perfecto! Luego de esto, ingresamos todos nuestros cuestionarios a la computadora, y en este caso abrimos SPSS y ¡vamos para adelante! (Aplausos).
Antes de entrar de lleno a nuestra regresión múltiple es importante revisar si es que efectivamente el soporte social y menor desesperanza (por separado) tienen una relación lineal con el estrés. Para ello, tenemos que hacer un análisis ¿Cuál? Seguramente ustedes ya lo deben saber, sin embargo, los que que no recuerdan pueden ir a este post para refrescar la memoria.
¡Muy bien! Aparte, otra medida que podemos tomar previa a nuestro análisis es evaluar la relación entre soporte social y menor desesperanza para revisar si es que hay una fuerte relación entre ellos. ¿Por qué se hacemos esto? ¡Adivinemos! No, nosotros vivimos de hechos y no de adivinanzas así que si no recordamos podemos ir a este post y revisar él título de Mulcolinealidad.
Ojo pestaña y ceja: Aquí hay que tener cuidado, si bien hacer este análisis nos puede dar indicios de que dos variables están muy relacionadas, esto no debe ser determinante (Yoo, Mayberry, Bae, Singh, Qinghua & Lillard jr, 2014), de todos modos, es mejor utilizar diagnósticos de multicolinealidad que los veremos más abajo.
Luego de haber hecho todo el calentamiento previo para la verdadera aventura, vamos al meollo de todo el asunto (Tambores). Para ello, vamos a la siguiente ruta:
Analizar/Regresión/Lineales/
Ahí nos va a salir una ventana que dice Regresiones lineales. En ella, tenemos que especificar cuáles son nuestra variable dependiente y nuestras variables independientes. Es importante que recordemos que nuestra variable dependiente es la que queremos medir, mientras que nuestras variables independientes (o predictoras) son las que queremos utilizar para para medir o predecir los puntajes de la variable dependiente.
En este caso, ponemos Estrés en la parte de que dice Dependientes y en la que dice Independientes ponemos soporte social y menor desesperanza total. ¿Por qué hacemos esto? Porque queremos saber cuánto predicen el soporte social y la menor desesperanza los puntajes de la prueba de estrés.
¡Muy bien! Ahora que tenemos esto, como ya mencionamos anteriormente, es importante también revisar temas como Multicolinealidad así como Homocedasticidad. Los que no recuerdan qué era esto, ¡No hay problema! Este post les puede ser de ayuda.
Para ello, vamos a Estadísticos y marcamos la casilla que dice Diagnósticos de colinealidad, luego continuar. Esta opción nos ayudará a revisar si tenemos problemas de Multicolinealidad o no.
Por otro lado, para probar la Homocedasticidad tenemos que ir a gráficos y ahí en el eje Y es necesario poner Zresid que son los residuos. En otras palabras la variabilidad del error de nuestras variables. Por otro lado, en el eje X es necesario poner Zpred que vendría a ser la variabilidad de nuestros predictores o variables independientes. En otras palabras, la
habilidad para predecir de nuestras variables. Luego ponemos continuar. Finalmente aceptar y ¡Ahí vamos!
Tabla 1
Esta tabla, es un resumen general de nuestro modelo. Aquí, podemos ver dos cosas muy importantes: a) Según el R, la combinación de puntajes de Soporte social y puntajes de menos desesperanza tienen una relación de.557 con los puntajes de estrés. Este valor se interpreta de la misma manera que se interpretaría una correlación de Pearson (ver post). Pero lo más importante para nosotros son los siguientes dos valores. El R cuadrado y el R cuadrado corregido que nos llevan a nuestro otro punto: b) Estos números nos indican la proporción de varianza de los puntajes de estrés explicada por los puntajes de Soporte social y de menor desesperanza. Entonces, la proporción de varianza explicada por nuestras dos variables vendría a ser .31. ¿Cuándo usamos el R cuadrado corregida? Es mejor usar este valor cuando tenemos muchas variables independientes (predictoras). Esto se da debido a que muchas variables tienden a subir (o inflar) el R cuadrado y nos podría dar una idea errónea de cuánto está siendo explicada nuestras variable dependiente por nuestras independientes. ¡Muy bien! Eso no fue tan malo, sigamos con la siguiente. 🙂
Tabla 2
No iremos mucho en detalle con esta tabla. Si se fijan esta es la misma tabla que hemos visto tanto en el post de ANOVA, así como en el post de regresión lineal simple. Esto nos muestra dos cosas: a) la regresión y el ANOVA en el fondo son el mismo análisis que pertenecen a la misma familia (la familia de relaciones lineales). b) La regresión múltiple es una extensión (más compleja) de la regresión lineal simple.
Aquí lo importante es que el modelo es significativo porque muestra una F enorme que genera una significación menor a 0.05. Los que desean ver la relación entre la significación y la F pueden ir al post de ANOVA y también pueden revisar las tablas de valores críticos donde pueden buscar la F = 59.761 y ver cuál es la significancia. Por otro lado, los que no recuerdan por qué diablos es significativo cuando es menor a 0.05 pueden ir al post de estadística inferencial que les puede dar muchas luces sobre ello. 🙂
Ahora vamos a la última tabla, ¿Vamos bien? Tomémoslo con calma, respiremos y descansemos un rato si es necesario, entiendo que esta es una aventura larga pero es importante tener toda la información con nosotros para poder lograr nuestra meta. 🙂 ¡Sigamos adelante valientes lectores!
Tabla 3
¡Muy bien! Ahora en este tabla veremos nuestros coeficientes, en este caso nos enfocaremos en los coeficientes no estandarizados, los coeficientes estandarizados y la Tolerancia y el FIV. Los que tiene interés en saber qué es la constante, siempre pueden dejar un excelente comentario abajo y encantado de responder :).
¡Vamos a lo nuestro! Primero que todo, el coeficiente no estandarizado nos muestra cuánto cambia el estrés cada vez que sube un punto de soporte social o de menor desesperanza. Entonces por ejemplo, cada vez que una persona puntúa un punto extra en el cuestionario de soporte social, el estrés baja (por el signo negativo) en .867. ¿Todo bien? ¿Están ahí? (cric cric, como los grillos). ¡Excelente! ¡Sigamos!
El coeficiente estandarizado, se llama de esa manera porque ahora los valores han sido estandarizados, que en sencillo significa que se le han puesto límites donde los números pueden ir de -1 a 1. ¿les suena conocido? A los que no, ¡no hay problema! Este post les podrá luces sobre ello. ¡Muy bien! Este coeficiente nos menciona cuánto nuestras variables independientes o predictoras predicen nuestra variable dependiente cuando las otras (en este caso la otra) tiene un valor constante. Para seguir con el ejemplo, Soporte social se relaciona en .16 (negativo) con estrés cuando menor desesperanza es constante. Mientras que menor desesperanza se relaciona en .469 (negativo) con estrés cuando soporte social se mantiene en un valor constante. ¿Qué nos dice esto? Que dentro de nuestro modelo, menor desesperanza predice mejor el estrés que soporte social.
Aparte, vemos que ambas variables independientes son significativas (menores a 0.05) por ello, podemos decir que estas dos variables son las que predicen los valores de estrés. ¡Excelente! Vamos muy bien, ahora el último respiro para acabar la tabla y terminar con nuestra regresión múltiple :). ¡Vamos nosotros podemos, fuerza! El FIV (factor de inflación de la varianza), nos muestra si es que un predictor (Variable independiente) tiene una fuerte relación lineal con otro predictor. Un FIV mayor a 10 es muy problemático (Bowerman & O’Connell, 1990; Myers, 1990). Aparte, un FIV muy por encima de 1 puede ser que nuestros resultados estén sesgados (Bowerman & O’Connell, 1990). Por otro lado, la Tolerancia está relacionada al FIV. En realidad el inverso del FIV es la tolerancia. ¿Qué significa esto? 1/FIV es igual a la tolerancia. Cuando esta es menor a 0.2 es problemático y nos puede dar indicios que hay una relación entre dos variables independientes de nuestro modelo (Menard, 1995). En nuestro caso, vemos que el FIV (1.218) está muy lejos de 10 y si bien está por encima de 1, no está muy por encima de 1. ¡Así que todo muy bien! No hay multicolinelidad en nuestro modelo :).
Ojo pestaña y ceja: Siempre hay que ser bien precavidos con estas “reglas de dedo”, por ejemplo, algunos autores más actuales han visto que el FIV también puede estar afectado por el tamaño de muestra (O’brien, 2007). Entonces es bueno usar, no solo una correlación previa de nuestras variables independientes (ver más arriba) así como también el diagnóstico de multicolinealidad.
Gráfica 1
Finalmente, este gráfico nos ayuda a ver si es que hay un problema de Homocedasticidad o no. Como vemos, no hay relación lineal entre los residuos y nuestros predictores, por ello, podemos ver que no hay Heterocedasticidad. Los que no recuerdan qué es esto, siempre pueden ir a este post que los puede ayudar. ¿Cómo se sabe cuándo hay relación o no? Muy sencillo, si los puntos tienen una forma en línea diagonal hacia arriba o hacia abajo, quiere decir que hay una relación lineal entre ellos. En ese caso, tenemos un problema de Heterocedasticidad. Para poner gráficamente esta idea de relación entre variables, siempre pueden ir a este post. Referencias: Bowerman, B. L., & O’Connell, R. T. (1990). Linear statistical models: An applied approach (2nd ed.). Belmont, CA: Duxbury. O’Brien, R. (2007). A Caution Regarding Rules of Thumb for Variance Inflation Factors. Quality & Quantity, 41, 673–690. Menard, S. (1995). Applied logistic regression analysis. Sage university paper series on quantitative applications in the social sciences, 07-106. Thousand Oaks, CA: Sage. Myers, R. (1990). Classical and modern regression with applications (2nd ed.). Boston, MA: Duxbury.
Yoo, W., Mayberry, R., Bae, S., Singh, K., Qinghua, P., & Lillard jr, J. (2014). A Study of Effects of MultiCollinearity in the Multivariable Analysis. International Journal of Applied Science and Technology, 4(5), 9-19
Cómo decir lo mismo de muchas maneras: interpretaciones de la Regresión Logística Publicado el noviembre 23, 2016 por Juan Carlos Saravia Drago Estimados todos, bienvenidos a otro maravilloso capítulo de Stats SOS. En este caso, seguiremos surcando los caminos de la regresión logística, pero en este caso, nos enfocaremos más en la interpretación. Como vimos en el post anterior, a veces la regresión logística puede ser algo complicada de interpretar. Por ello, es que les traigo esta pequeña aventura que nos describirá brevemente las diversas maneras de interpretar el mismo resultado.
En ese caso, el objetivo de hoy es describir diversas formas de interpretar los resultados de una regresión logística. ¡Muy bien! ¡Aquí vamos! Bueno, como ustedes bien saben, en el post pasado sobre regresiones logísticas, analizamos cuál era la probabilidad que una persona consumiera alcohol en el último mes tomando en cuenta el sexo y si la persona había fumado cigarrillos o no en el último mes. Luego de analizar los resultados obtuvimos múltiples tablas pero para efectos de este ejemplo sólo analizaremos las que tienen resultados concretos.
¡Excelente! ¡Sigamos adelante! El primer resultado que obtuvimos fue el siguiente:
En este caso, en el post anterior realizamos al siguiente interpretación: “en promedio, existe 14.763 veces la posibilidad que una persona haya consumido alcohol en el último vez a que no lo haya hecho”. Pero…¿que pasaría si yo quisiera decir esto por cantidad de personas? ¿Lo podría decir usando porcentajes? ¿Quizás podría usar probabilidades? ¡Claro que sí! Es posible analizar el mismo dato utilizando todas las formas: así les haré un pequeño listado de cómo se interpretaría si utilizara todo lo mencionado previamente:
Por cantidad de personas:
“En promedio, por cada 10 personas que no consumen alcohol en el último mes, 140 sí consume alcohol en el último mes”. ¿Difícil? ¡No hay problema vamos a porcentajes!
Utilizando porcentajes:
Primero tenemos que hacer el cálculo del porcentaje: 14.763 – 1 = 13.763*100
“En promedio, existe 1376% más posibilidad que una persona haya consumido alcohol en el último mes que no haya consumido” Asu…¡No! El porcentaje está demasiado difícil…mejor vamos a probabilidades.
Probabilidades:
Para ello, antes tenemos que transformar los OR (recuerden los OR son Odds ratio y en la tabla están expresados como “EXP(B)”). Por eso, debo hacer el siguiente cálculo:
Probabilidad = 14.763 / 1+ 14.763 = 93%
¡Genial! La interpretación de esto sería la siguiente:
“En promedio, existe una probabilidad de 93% que una persona haya consumido alcohol en el último mes a que no lo haya hecho”.
¿Hasta ahí todo bien? ¡Muy bien! Sigamos adelante, ahora pasemos a interpretar ya no el promedio general de consumo de alcohol en el último mes sino las diferencias entre sexo. Aquí les pongo el cuadro con el que nos aventuramos previamente: Recuerden, en este caso
el grupo de referencias son los hombres, entonces el valor de la tabla es el que se le asignan a las mujeres.
Por cantidad de personas: “En promedio, por cada 100 hombres que han consumido alcohol en el último mes, 96 mujeres han consumido alcohol en el mismo mes”.
Utilizando porcentajes: Primero tenemos que hacer el cálculo del porcentaje: 1-.965 = 0.035*100 = 3.5%. “En promedio, existe 3.5% menos posibilidad que una mujer consuma alcohol en comparación de un hombre en el último mes”.
Probabilidades: Nuevamente, al igual que la oportunidad pasada, debemos hacer el cálculo: Probabilidad = .965/1 + .965 = 49%. ¡Perfecto! ¡Ahora que tenemos la probabilidad viene la interpretación! “En promedio, existe 49% de probabilidad que una mujer haya consumido alcohol en el últimos mes en comparación de un hombre”. Bueno queridos amigos de la vida, eso sería todo por hoy. Como ven, existen múltiples maneras de interpretar una regresión logística, la idea acá no es confundirlos sino al contrario, darles múltiples herramientas para que ustedes puedan interpretar como mejor les parezca y sea más comprensible, este análisis. Recuerden de poner like en Facebook seguirnos en Twitter, seguirnos acá en el blog del estadística y obviamente dejar sus maravillosos comentarios. ¡Qué les vaya excelente!