-->

domingo, 17 de diciembre de 2017

Regresión Lineal en SPSS



El análisis de regresión lineal resume la relación contenida entre una variable dependiente y una o más variables independientes. Dicha relación queda explicada a través de la ecuación de regresión cuya propiedad principal es su linealidad. Si hablamos de datos de encuesta, este método explica las respuestas a una variable de todos los individuos encuestados a partir de una o más variables a través de una recta.


Requisitos


Todas las variables contenidas en este tipo de análisis han de ser métricas o cuantitativas. Como en ciencias sociales no solemos contar con variables cuantitativas puras este análisis pierde parte de su fuerza, aunque sigue siendo útil debido a su capacidad de resumen y predictiva con variables de 1 a 10 o incluso con escalas menores.


La ecuación de regresión


Cuando una relación entre dos variables es de tipo lineal, podemos conocer la relación entre una variable dependiente y una o varias variables independientes a través de la ecuación de regresión:





b0 es el punto de la recta de regresión que corta el eje de ordenadas. Es una constante que expresa el valor de Y cuando X es igual a 0, donde “x” es la variable independiente e “y” la variable dependiente a explicar.

b1 es la pendiente de la recta o lo que es lo mismo, el cambio que se da en Y por cada unidad de cambio en X.

La ei es el residuo. Es la diferencia entre los valores observados y los valores esperados por la recta de regresión

Conociendo la constante y la pendiente podemos calcular la ecuación de regresión.

Imaginemos una relación lineal perfecta entre dos variables. Por ejemplo, en un ejemplo ficticio con dos variables: número de mesas y número de manteles. Bajo el supuesto de que todas las mesas tienen mantel estaríamos ante una relación lineal perfecta. Podríamos realizar un análisis de regresión para explicar el número de manteles que debería haber a partir del número de mesas existentes. Bajo este supuesto de linealidad perfecta, la constante, es decir el valor de Y cuando X es igual 0 sería también 0 y la pendiente 1, ya que por cada unidad de cambio en X se dará una unidad de cambio en Y.


La mejor manera de estudiar una relación entre variables es a través de un gráfico de puntos. El de nuestro ejemplo sería el siguiente:



En este caso de relación perfecta no tenemos problemas porque solo existe una recta posible, pero lo normal es que el gráfico de dispersión presente una forma más desordenada y tengamos un número ilimitado de rectas posibles. Para resolver este problema debemos seleccionar un método que resuelva el dilema de qué recta seleccionar de entre todas las posibles. El método más extendido para ello es el ajuste de los mínimos cuadrados.


El método de mínimos cuadrados


Bajo este método elegimos la recta que minimiza la suma del cuadrado de los residuos. Los residuos se calculan como la diferencia entre los valores observados y los valores ajustados por la regresión. Bajo este criterio se calcula la constante y pendiente que debe tener la recta. Puede ver su cálculo visitando el enlace "cálculo coeficientes de regresión - método mínimos cuadrados".

Hasta aquí habremos seleccionado la recta que mejor se ajusta a nuestra nube de puntos, pero no sabemos si el ajuste que produce es bueno o malo. Para ello, existen distintos procedimientos que informan sobre la idoneidad del análisis.




Bondad del ajuste



Una vez que hemos obtenido la recta que minimiza la suma del cuadrado de los residuos necesitamos conocer la bondad del ajuste, es decir en qué medida esta recta obtenida se ajusta más o menos a la nube de puntos.  De nuevo, aunque existen diversos métodos de abordar esta cuestión, el coeficiente de determinación “R2” se ha impuesto entre el resto. El coeficiente de determinación es el cuadrado del coeficiente de correlación múltiple y sus valores se mueven entre -1 y 1, donde 0 es que no existe ninguna relación y 1 que existe la máxima relación positiva. El coeficiente de determinación representa la ganancia que obtenemos al predecir una variable basándonos en el conocimiento que tenemos de otra u otras variables. Por ejemplo, una R2 de “0,7” mejoraría nuestra predicción de la variable dependiente en un 70%. Normalmente se suele utilizar la R corregida, que realiza una corrección para tener en cuenta el número de casos y de variables contenidas en el análisis. Cuando las muestras son grandes la R2 y la R corregida presentan valores similares, sin embargo la R corregida es útil cuando tenemos muestras más pequeñas.


En nuestro ejemplo de mesas y manteles obtendríamos un R2 de 1. La línea obtenida se ajusta perfectamente a la nube de puntos. Dicho de otro modo, el número de mesas predice el 100% de la varianza de la variable manteles. ¿Esto es que las variables son idénticas? No tiene por qué, por ejemplo, si por cada mesa tenemos siempre dos manteles también obtendríamos un R2 de 1, aunque la pendiente en este caso sería de 2 en lugar de 1. Por tanto, no quiere decir que las variables sean idénticas sino que se mueven, varían, de igual manera.

Cuando trabajamos con una única variable independiente, como hacemos en regresión simple, la R2 presenta el mismo valor que la R de Pearson que obtenemos al lanzar una correlación lineal. Cuando se introducen más variables independientes este valor deja de coincidir porque otras variables pasan a explicar parte de la variabilidad que anteriormente explicaba una única variable. En un artículo posterior veremos cómo realizar un análisis de regresión múltiple con varias variables independientes y qué consecuencias tiene su introducción.

Como resumen de esta introducción teórica podemos concluir que la regresión lineal se fundamenta en dos pasos principales: El cálculo de la recta que minimiza la suma cuadrada de los residuos y el cálculo del coeficiente de determinación, que explica la manera en que dicha recta se ajusta a la línea de puntos, y que, por ello, estudia la relación entre las variables.


Vamos a ver un ejemplo práctico de un análisis de regresión a través de SPSS. Las variables usadas en el ejemplo son la renta per cápita y el % de población rural, ambas con datos obtenidos del Banco Mundial. Trataremos de predecir el porcentaje de población rural de un país a partir de la renta per cápita. 


Pasos regresión lineal en SPSS



Estudiando la distribución:


Cuando hacemos un análisis de regresión simple, con solo dos variables, es muy útil antes de nada estudiar el gráfico de dispersión entre nuestras variables.


Como se aprecia en el gráfico existe una relación entre ambas variables, pero esta no dibuja una recta, sino que se aprecia más una distribución de tipo exponencial. En los países con renta baja existen países con porcentajes de población rural altos, aunque también bajos. Sin embargo, a medida que la renta crece los porcentajes de países con población rural se mantienen siempre bajos.

Cómo pedirlo:



En SPSS pedimos este análisis desde la ruta “analizar; regresión; lineales”. Vamos a ir estudiando uno a uno los outputs que nos ofrece el programa. 






El primer ouptut del programa nos informa de las variables que componen el análisis. En este caso vemos que la variable dependiente es la población rural y el PIB per Cápita aparece como independiente. También nos habla del método utilizado para seleccionar las variables. En nuestro ejemplo, esta opción carece de importancia, ya que únicamente hemos introducido una única variable independiente, sin embargo, si hubiéramos introducido más variables independientes deberemos elegir el método de selección de variables.


Output bondad de ajuste:



El segundo output nos habla sobre la bondad del ajuste de nuestra recta:


-          La R que es el coeficiente de correlación de Pearson.
-          La R cuadrado que es el coeficiente de determinación.
-          La R cuadrado corregida que aplica al valor anterior un factor de corrección útil cuando tenemos pocos casos y muchas variables independientes. Es en este valor donde nos fijamos para conocer la bondad de ajuste de nuestra recta. En nuestro ejemplo, el coeficiente de determinación corregido es 0,326. Esto indica que la variable renta per cápita mejora la capacidad de predicción de la variable dependiente en un 32,6%. Aunque en el gráfico de dispersión vemos una clara relación entre nuestras variables, el R2 obtenido no es un muy alto, lo que indica que los puntos no se ajustan del todo bien a la recta propuesta. Esto se debe a que nuestras variables no se relacionan linealmente durante toda la distribución.

-          El error típico de la estimación indica la parte de la variable independiente que dejamos sin explicar.

Output ANOVA – Examen de la varianza:



El tercer output muestra un análisis de ANOVA que nos ofrece información sobre la varianza y da una pista más sobre la adecuación del modelo de regresión para estimar los valores de la variable dependiente. La varianza se descompone en varianza explicada por el modelo y por la varianza residual, es decir, aquella que el modelo no es capaz de explicar a partir de las variables introducidas. A través del estadístico F de Snedecor vemos que el valor de P o significación es menor que 0,05, por lo que la variable dependiente % población rural está influida por la variable PIB per cápita. Veamos a continuación qué dirección y qué impacto estimado tiene a través de los coeficientes de la recta de regresión.

Output Coeficientes de regresión:



La primera columna es la que nos ofrece los valores de la constante y la pendiente. Cuando el PIB per cápita es =0 entonces el % de población rural es igual a 23,643. Por otro lado, la pendiente igual a 0 indica que la recta de regresión no tiene pendiente o que es muy pequeña para los aumentos de la unidad de nuestra variable independiente. En este caso tenemos que pedir más decimales para saber que nuestra pendiente es igual a -0,000361. Esto indica que un aumento de la unidad en el PIB disminuye el porcentaje de población rural en un -0,000361. Dicho de otro modo por cada 10.000 puntos de aumento del PIB, el porcentaje de población rural decrece en un 3,61. 


Predicción de valores a partir de la recta de regresión:


Vamos a ver cuál sería la predicción de población rural para España cuando trabajamos con estos coeficientes de regresión. Para ello usaremos la ecuación de regresión sustituyendo el valor de la variable PIB que nos es conocido para España.

Para España el valor observado del PIB es = 29.863,18
% Pob rural observado para España = 4,4%
Y=a + bx
% Pob rural España= 12,9%

Como indica la fórmula el valor pronosticado por la recta para España es de 12,9%. Esto no es una buena aproximación ya que el valor observado para España es de 4,4. Es posible que esta diferencia se deba a una mala observación del porcentaje de población rural para España, pero es más probable que nuestra recta no esté ajustando como debería y no sea capaz de predecir el valor de un país.

En la siguiente sección vamos a ver qué acciones podemos llevar a cabo para mejorar nuestra predicción. En primer lugar detectaremos si hay casos que pueden estar perjudicando la predicción. En segundo lugar estudiaremos una posible transformación de nuestros datos. 


Mejora predictiva en el análisis de regresión



Casos extremos detección


Residuos:


Una primera forma de detectar casos extremos o outliers es atender a los residuos. Hemos dicho que los residuos se calculan como la diferencia entre el valor observado y el valor especificado por la recta. Paremos un momento nuestro ejercicio para volver temporalmente al ejemplo de mesas y manteles. Imaginemos que en nuestro ejemplo de manteles hayamos roto nuestra linealidad para uno de los casos. Cuando tenemos 3 mesas no tenemos 3 manteles sino 0. Esto provocaría una desviación en nuestra recta que provoca un impacto en la predicción del resto de casos como se aprecia en el siguiente gráfico. Por culpa del caso 3 estamos provocando un desajuste que hace incrementar los residuos del resto de casos. En la gráfica vemos claramente el caso que debemos eliminar por considerarse un valor extremo, pero normalmente no será algo tan claro cuando nos movamos en el terreno multivariable y deberemos hacer uso de algunos estadísticos para detectar nuestros casos extremos.


Desde el menú “Guardar” podemos guardar nuestros residuos tanto los no tipificados como los tipificados, así como algunos estadísticos de distancia que nos ayudan a identificar el impacto del caso sobre la recta. 


Los residuos se estandarizan dividiendo el residuo por la desviación típica de los residuos de modo que sea más fácil su interpretación. Dicha estandarización puede aproximarse a la distribución normal “Residuos tipificados” o a la de Student, que como ya hemos dicho en otros artículos aproxima distribuciones similares cuando tenemos un alto número de casos. La estandarización facilita la interpretación de los residuos y consiguen eliminar la incertidumbre que pueda generar la escala de la variable. Así podemos evaluar mejor cuando un residuo debe ser considerado alto. Normalmente se consideran outliers aquellos residuos estandarizados mayores que 2.

Las distancias de Cook y Mahalanobis:


Además del valor del residuo tipificado podemos hacer uso de las distancias de Cook y Mahalabonbis, también accesibles desde el menú guardar. Un valor mayor de 1 en el estadístico de Cook estaría indicando que el caso tiene un fuerte impacto en la constitución de la recta de regresión, por lo que puede ser aconsejable su eliminación. En el ejemplo de los manteles vemos a través del siguiente gráfico que el caso 3 tiene una distancia de Cook superior a 2, por lo que tiene un fuerte impacto sobre la recta.


Una vez detectados los casos perdidos podemos plantearnos su eliminación y repetir el análisis de regresión. Habremos aumentado nuestra bondad de ajuste y tendremos mayor capacidad predictiva.


Cambiando las reglas del juego. Transformación logarítmica



Como se puede apreciar en el gráfico, la relación entre las variables población rural y PIB per Cápita no puede ser explicada de manera óptima a través de una recta. En este ejemplo, valores bajos en la variable independiente producen valores distintos en nuestra variable dependiente. Es decir, hay poblaciones con bajo PIB per Cápita con un alto porcentaje de población rural, pero también con un bajo porcentaje. A medida que el PIB aumenta comenzamos a ver una clara relación lineal entre nuestras variables, donde a más PIB menor % de población rural. Como consecuencia de esta distribución inicial no podemos usar una recta para explicar la relación entre estas variables, ya que la relación es más de tipo exponencial. Por tanto, para poder hacer uso de la regresión y de la recta como elemento explicativo es necesario realizar una transformación logarítmica antes. Observemos como queda el gráfico de dispersión de nuestras variables tras convertir nuestra variable independiente “PIB” en su logaritmo.


Como se aprecia en el gráfico ahora nuestras variables pueden relacionarse a través de una línea. El R cuadrado ha subido de 0,326 hasta 0,664, lo que aumenta la capacidad predictiva notablemente. En cuanto a la constante, el valor de y cuando x=0 ahora es 117,636 en lugar de 23 y la pendiente es de -24 en lugar de 0. Si todo ha cambiado cabría preguntase entonces si estamos explicando las variables con que originalmente contábamos. La respuesta es que sí pero para poder volver a nuestras variables originales debemos volver a aplicar el logaritmo de nuestras variables independientes.


Vamos a volver a calcular la predicción del valor de España habiendo realizado la transformación logarítmica para comprobar si ahora el valor se parece más a lo que hemos medido y tenemos guardado en nuestra base de datos.

Para España el valor del PIB es = 29.863,18
% Pob rural observado para España = 4,4%
Y=a + bx
% Pob rural España= 6,04%

El porcentaje de población rural que predecimos para España ha bajado de 12,9% a 6%, lo que presenta un valor mucho más cercano al valor que hemos medido.