El análisis
de regresión lineal resume la relación contenida entre una variable dependiente
y una o más variables independientes. Dicha relación queda explicada a través
de la ecuación de regresión cuya propiedad principal es su linealidad. Si
hablamos de datos de encuesta, este método explica las respuestas a una
variable de todos los individuos encuestados a partir de una o más variables a
través de una recta.
Requisitos
Todas las
variables contenidas en este tipo de análisis han de ser métricas o
cuantitativas. Como en ciencias sociales no solemos contar con variables
cuantitativas puras este análisis pierde parte de su fuerza, aunque sigue
siendo útil debido a su capacidad de resumen y predictiva con variables de 1 a
10 o incluso con escalas menores.
La ecuación de regresión
Cuando una
relación entre dos variables es de tipo lineal, podemos conocer la relación
entre una variable dependiente y una o varias variables independientes a través
de la ecuación de regresión:
El método de mínimos cuadrados
b0 es
el punto de la recta de regresión que corta el eje de ordenadas. Es una
constante que expresa el valor de Y cuando X es igual a 0, donde “x” es la
variable independiente e “y” la variable dependiente a explicar.
b1 es
la pendiente de la recta o lo que es lo mismo, el cambio que se da en Y por
cada unidad de cambio en X.
La ei
es el residuo. Es la diferencia entre los valores observados y los valores
esperados por la recta de regresión
Conociendo
la constante y la pendiente podemos calcular la ecuación de regresión.
Imaginemos
una relación lineal perfecta entre dos variables. Por ejemplo, en un ejemplo
ficticio con dos variables: número de mesas y número de manteles. Bajo el
supuesto de que todas las mesas tienen mantel estaríamos ante una relación
lineal perfecta. Podríamos realizar un análisis de regresión para explicar el
número de manteles que debería haber a partir del número de mesas existentes.
Bajo este supuesto de linealidad perfecta, la constante, es decir el valor de Y
cuando X es igual 0 sería también 0 y la pendiente 1, ya que por cada unidad de
cambio en X se dará una unidad de cambio en Y.
La mejor
manera de estudiar una relación entre variables es a través de un gráfico de
puntos. El de nuestro ejemplo sería el siguiente:
En este caso
de relación perfecta no tenemos problemas porque solo existe una recta posible,
pero lo normal es que el gráfico de dispersión presente una forma más
desordenada y tengamos un número ilimitado de rectas posibles. Para resolver
este problema debemos seleccionar un método que resuelva el dilema de qué recta
seleccionar de entre todas las posibles. El método más extendido para ello es
el ajuste de los mínimos cuadrados.
El método de mínimos cuadrados
Bajo este
método elegimos la recta que minimiza la suma del cuadrado de los residuos. Los
residuos se calculan como la diferencia entre los valores observados y los
valores ajustados por la regresión. Bajo este criterio se calcula la constante
y pendiente que debe tener la recta. Puede ver su cálculo visitando el enlace "cálculo coeficientes de regresión - método mínimos cuadrados".
Hasta aquí
habremos seleccionado la recta que mejor se ajusta a nuestra nube de puntos,
pero no sabemos si el ajuste que produce es bueno o malo. Para ello, existen
distintos procedimientos que informan sobre la idoneidad del análisis.
Bondad del ajuste
Pasos regresión lineal en SPSS
Estudiando la distribución:
Cómo pedirlo:
Output bondad de ajuste:
Output ANOVA – Examen de la varianza:
Predicción de valores a partir de la recta de
regresión:
Mejora predictiva en el análisis de regresión
Casos extremos detección
Las distancias de Cook y Mahalanobis:
Cambiando las reglas del juego. Transformación
logarítmica
Bondad del ajuste
Una vez que
hemos obtenido la recta que minimiza la suma del cuadrado de los residuos
necesitamos conocer la bondad del ajuste, es decir en qué medida esta recta
obtenida se ajusta más o menos a la nube de puntos. De nuevo, aunque existen diversos métodos de
abordar esta cuestión, el coeficiente de determinación “R2” se ha
impuesto entre el resto. El coeficiente de determinación es el cuadrado del coeficiente
de correlación múltiple y sus valores se mueven entre -1 y 1, donde 0 es que no
existe ninguna relación y 1 que existe la máxima relación positiva. El
coeficiente de determinación representa la ganancia que obtenemos al predecir
una variable basándonos en el conocimiento que tenemos de otra u otras
variables. Por ejemplo, una R2 de “0,7” mejoraría nuestra predicción
de la variable dependiente en un 70%. Normalmente se suele utilizar la R
corregida, que realiza una corrección para tener en cuenta el número de casos y
de variables contenidas en el análisis. Cuando las muestras son grandes la R2
y la R corregida
presentan valores similares, sin embargo la R corregida es útil cuando tenemos
muestras más pequeñas.
En nuestro
ejemplo de mesas y manteles obtendríamos un R2 de 1. La línea
obtenida se ajusta perfectamente a la nube de puntos. Dicho de otro modo, el
número de mesas predice el 100% de la varianza de la variable manteles. ¿Esto
es que las variables son idénticas? No tiene por qué, por ejemplo, si por cada
mesa tenemos siempre dos manteles también obtendríamos un R2 de 1,
aunque la pendiente en este caso sería de 2 en lugar de 1. Por tanto, no quiere
decir que las variables sean idénticas sino que se mueven, varían, de igual manera.
Cuando
trabajamos con una única variable independiente, como hacemos en regresión simple, la R2 presenta el
mismo valor que la R de Pearson que
obtenemos al lanzar una correlación lineal. Cuando se introducen más variables independientes este valor deja
de coincidir porque otras variables pasan a explicar parte de la variabilidad
que anteriormente explicaba una única variable. En un artículo posterior veremos cómo
realizar un análisis de regresión múltiple con varias variables independientes
y qué consecuencias tiene su introducción.
Como resumen
de esta introducción teórica podemos concluir que la regresión lineal se
fundamenta en dos pasos principales: El cálculo de la recta que minimiza la
suma cuadrada de los residuos y el cálculo del coeficiente de determinación,
que explica la manera en que dicha recta se ajusta a la línea de puntos, y que,
por ello, estudia la relación entre las variables.
Vamos a ver
un ejemplo práctico de un análisis de regresión a través de SPSS. Las variables
usadas en el ejemplo son la
renta per cápita y el % de población rural, ambas con datos obtenidos
del Banco Mundial. Trataremos de predecir el porcentaje de población rural de
un país a partir de la renta per cápita.
Pasos regresión lineal en SPSS
Estudiando la distribución:
Cuando
hacemos un análisis de regresión simple, con solo dos variables, es muy útil
antes de nada estudiar el gráfico de dispersión entre nuestras variables.
Como se
aprecia en el gráfico existe una relación entre ambas variables, pero esta no
dibuja una recta, sino que se aprecia más una distribución de tipo exponencial.
En los países con renta baja existen países con porcentajes de población rural
altos, aunque también bajos. Sin embargo, a medida que la renta crece los
porcentajes de países con población rural se mantienen siempre bajos.
Cómo pedirlo:
En SPSS
pedimos este análisis desde la ruta “analizar; regresión; lineales”. Vamos a ir
estudiando uno a uno los outputs que nos ofrece el programa.
El primer
ouptut del programa nos informa de las variables que componen el análisis. En
este caso vemos que la variable dependiente es la población rural y el PIB per
Cápita aparece como independiente. También nos habla del método utilizado para
seleccionar las variables. En nuestro ejemplo, esta opción carece de
importancia, ya que únicamente hemos introducido una única variable
independiente, sin embargo, si hubiéramos introducido más variables
independientes deberemos elegir el método de selección de variables.
Output bondad de ajuste:
El segundo output nos habla sobre la bondad del ajuste
de nuestra recta:
-
La R que es el coeficiente de correlación
de Pearson.
-
La R cuadrado que es el coeficiente de
determinación.
-
La R cuadrado corregida que aplica al
valor anterior un factor de corrección útil cuando tenemos pocos casos y muchas
variables independientes. Es en este valor donde nos fijamos para conocer la
bondad de ajuste de nuestra recta. En nuestro ejemplo, el coeficiente de
determinación corregido es 0,326. Esto indica que la variable renta per cápita
mejora la capacidad de predicción de la variable dependiente en un 32,6%.
Aunque en el gráfico de dispersión vemos una clara relación entre nuestras
variables, el R2 obtenido no es un muy alto, lo que indica que los
puntos no se ajustan del todo bien a la recta propuesta. Esto se debe a que
nuestras variables no se relacionan linealmente durante toda la distribución.
-
El error típico de la estimación indica la
parte de la variable independiente que dejamos sin explicar.
Output ANOVA – Examen de la varianza:
El tercer
output muestra un análisis de ANOVA que nos ofrece información sobre la
varianza y da una pista más sobre la adecuación del modelo de regresión para
estimar los valores de la variable dependiente. La varianza se descompone en
varianza explicada por el modelo y por la varianza residual, es decir, aquella
que el modelo no es capaz de explicar a partir de las variables introducidas. A través del estadístico F de Snedecor vemos que el valor de P o significación es menor que 0,05, por lo que la
variable dependiente % población rural está influida por la variable PIB per
cápita. Veamos a continuación qué dirección y qué impacto estimado tiene a
través de los coeficientes de la recta de regresión.
Output Coeficientes de regresión:
Output Coeficientes de regresión:
La primera columna es la que nos ofrece los valores de la
constante y la pendiente. Cuando el PIB per cápita es =0 entonces el % de
población rural es igual a 23,643. Por otro lado, la pendiente igual a 0 indica
que la recta de regresión no tiene pendiente o que es muy pequeña para los
aumentos de la unidad de nuestra variable independiente. En este caso tenemos
que pedir más decimales para saber que nuestra pendiente es igual a -0,000361.
Esto indica que un aumento de la unidad en el PIB disminuye el porcentaje de
población rural en un -0,000361. Dicho de otro modo por cada 10.000 puntos de
aumento del PIB, el porcentaje de población rural decrece en un 3,61.
Predicción de valores a partir de la recta de
regresión:
Vamos a ver cuál sería la predicción de población rural para
España cuando trabajamos con estos coeficientes de regresión. Para ello usaremos
la ecuación de regresión sustituyendo el valor de la variable PIB que nos es
conocido para España.
Para España el valor observado del PIB es = 29.863,18
% Pob rural observado para España = 4,4%
Y=a + bx
% Pob rural España=
12,9%
Como indica la fórmula el valor pronosticado por la recta
para España es de 12,9%. Esto no es una buena aproximación ya que el valor
observado para España es de 4,4. Es posible que esta diferencia se deba a una
mala observación del porcentaje de población rural para España, pero es más
probable que nuestra recta no esté ajustando como debería y no sea capaz de
predecir el valor de un país.
En la siguiente sección vamos a ver qué acciones podemos
llevar a cabo para mejorar nuestra predicción. En primer lugar detectaremos si
hay casos que pueden estar perjudicando la predicción. En segundo lugar
estudiaremos una posible transformación de nuestros datos.
Mejora predictiva en el análisis de regresión
Casos extremos detección
Residuos:
Una primera forma de detectar casos extremos o outliers es
atender a los residuos. Hemos dicho que los residuos se calculan como la
diferencia entre el valor observado y el valor especificado por la recta. Paremos
un momento nuestro ejercicio para volver temporalmente al ejemplo de mesas y
manteles. Imaginemos que en nuestro ejemplo de manteles hayamos roto nuestra
linealidad para uno de los casos. Cuando tenemos 3 mesas no tenemos 3 manteles
sino 0. Esto provocaría una desviación en nuestra recta que provoca un impacto
en la predicción del resto de casos como se aprecia en el siguiente gráfico.
Por culpa del caso 3 estamos provocando un desajuste que hace incrementar los
residuos del resto de casos. En la gráfica vemos claramente el caso que debemos
eliminar por considerarse un valor extremo, pero normalmente no será algo tan
claro cuando nos movamos en el terreno multivariable y deberemos hacer uso de
algunos estadísticos para detectar nuestros casos extremos.
Desde el menú “Guardar” podemos guardar nuestros residuos
tanto los no tipificados como los tipificados, así como algunos estadísticos de
distancia que nos ayudan a identificar el impacto del caso sobre la recta.
Los residuos se estandarizan dividiendo el residuo por la
desviación típica de los residuos de modo que sea más fácil su interpretación.
Dicha estandarización puede aproximarse a la distribución normal “Residuos
tipificados” o a la de Student, que como ya hemos dicho en otros artículos
aproxima distribuciones similares cuando tenemos un alto número de casos. La
estandarización facilita la interpretación de los residuos y consiguen eliminar
la incertidumbre que pueda generar la escala de la variable. Así podemos
evaluar mejor cuando un residuo debe ser considerado alto. Normalmente se
consideran outliers aquellos residuos estandarizados mayores que 2.
Las distancias de Cook y Mahalanobis:
Además del valor del residuo tipificado podemos hacer uso de
las distancias de Cook y Mahalabonbis, también accesibles desde el menú guardar.
Un valor mayor de 1 en el estadístico de Cook estaría indicando que el caso
tiene un fuerte impacto en la constitución de la recta de regresión, por lo que
puede ser aconsejable su eliminación. En el ejemplo de los manteles vemos a
través del siguiente gráfico que el caso 3 tiene una distancia de Cook superior
a 2, por lo que tiene un fuerte impacto sobre la recta.
Una vez detectados los casos perdidos podemos plantearnos su
eliminación y repetir el análisis de regresión. Habremos aumentado nuestra
bondad de ajuste y tendremos mayor capacidad predictiva.
Cambiando las reglas del juego. Transformación
logarítmica
Como se
puede apreciar en el gráfico, la relación entre las variables población rural y
PIB per Cápita no puede ser explicada de manera óptima a través de una recta.
En este ejemplo, valores bajos en la variable independiente producen valores
distintos en nuestra variable dependiente. Es decir, hay poblaciones con bajo
PIB per Cápita con un alto porcentaje de población rural, pero también con un bajo
porcentaje. A medida que el PIB aumenta comenzamos a ver una clara relación
lineal entre nuestras variables, donde a más PIB menor % de población rural.
Como consecuencia de esta distribución inicial no podemos usar una recta para
explicar la relación entre estas variables, ya que la relación es más de tipo
exponencial. Por tanto, para poder hacer uso de la regresión y de la recta como
elemento explicativo es necesario realizar una transformación logarítmica
antes. Observemos como queda el gráfico de dispersión de nuestras variables
tras convertir nuestra variable independiente “PIB” en su logaritmo.
Como se
aprecia en el gráfico ahora nuestras variables pueden relacionarse a través de
una línea. El R cuadrado ha subido de 0,326 hasta 0,664, lo que aumenta la
capacidad predictiva notablemente. En cuanto a la constante, el valor de y
cuando x=0 ahora es 117,636 en lugar de 23 y la pendiente es de -24 en lugar de
0. Si todo ha cambiado cabría preguntase entonces si estamos explicando las
variables con que originalmente contábamos. La respuesta es que sí pero para
poder volver a nuestras variables originales debemos volver a aplicar el
logaritmo de nuestras variables independientes.
Vamos a
volver a calcular la predicción del valor de España habiendo realizado la
transformación logarítmica para comprobar si ahora el valor se parece más a lo
que hemos medido y tenemos guardado en nuestra base de datos.
Para España el valor del PIB es = 29.863,18
% Pob rural observado para España = 4,4%
Y=a + bx
% Pob rural España=
6,04%
El
porcentaje de población rural que predecimos para España ha bajado de 12,9% a
6%, lo que presenta un valor mucho más cercano al valor que hemos medido.
Me ha encantado el artículo, muy clarificador. Gracias.
ResponderEliminarExcelente...muchas felicidades ...gracias
ResponderEliminar