-->

domingo, 17 de diciembre de 2017

Regresión Lineal en SPSS



El análisis de regresión lineal resume la relación contenida entre una variable dependiente y una o más variables independientes. Dicha relación queda explicada a través de la ecuación de regresión cuya propiedad principal es su linealidad. Si hablamos de datos de encuesta, este método explica las respuestas a una variable de todos los individuos encuestados a partir de una o más variables a través de una recta.


Requisitos


Todas las variables contenidas en este tipo de análisis han de ser métricas o cuantitativas. Como en ciencias sociales no solemos contar con variables cuantitativas puras este análisis pierde parte de su fuerza, aunque sigue siendo útil debido a su capacidad de resumen y predictiva con variables de 1 a 10 o incluso con escalas menores.


La ecuación de regresión


Cuando una relación entre dos variables es de tipo lineal, podemos conocer la relación entre una variable dependiente y una o varias variables independientes a través de la ecuación de regresión:





b0 es el punto de la recta de regresión que corta el eje de ordenadas. Es una constante que expresa el valor de Y cuando X es igual a 0, donde “x” es la variable independiente e “y” la variable dependiente a explicar.

b1 es la pendiente de la recta o lo que es lo mismo, el cambio que se da en Y por cada unidad de cambio en X.

La ei es el residuo. Es la diferencia entre los valores observados y los valores esperados por la recta de regresión

Conociendo la constante y la pendiente podemos calcular la ecuación de regresión.

Imaginemos una relación lineal perfecta entre dos variables. Por ejemplo, en un ejemplo ficticio con dos variables: número de mesas y número de manteles. Bajo el supuesto de que todas las mesas tienen mantel estaríamos ante una relación lineal perfecta. Podríamos realizar un análisis de regresión para explicar el número de manteles que debería haber a partir del número de mesas existentes. Bajo este supuesto de linealidad perfecta, la constante, es decir el valor de Y cuando X es igual 0 sería también 0 y la pendiente 1, ya que por cada unidad de cambio en X se dará una unidad de cambio en Y.


La mejor manera de estudiar una relación entre variables es a través de un gráfico de puntos. El de nuestro ejemplo sería el siguiente:



En este caso de relación perfecta no tenemos problemas porque solo existe una recta posible, pero lo normal es que el gráfico de dispersión presente una forma más desordenada y tengamos un número ilimitado de rectas posibles. Para resolver este problema debemos seleccionar un método que resuelva el dilema de qué recta seleccionar de entre todas las posibles. El método más extendido para ello es el ajuste de los mínimos cuadrados.


El método de mínimos cuadrados


Bajo este método elegimos la recta que minimiza la suma del cuadrado de los residuos. Los residuos se calculan como la diferencia entre los valores observados y los valores ajustados por la regresión. Bajo este criterio se calcula la constante y pendiente que debe tener la recta. Puede ver su cálculo visitando el enlace "cálculo coeficientes de regresión - método mínimos cuadrados".

Hasta aquí habremos seleccionado la recta que mejor se ajusta a nuestra nube de puntos, pero no sabemos si el ajuste que produce es bueno o malo. Para ello, existen distintos procedimientos que informan sobre la idoneidad del análisis.




Bondad del ajuste



Una vez que hemos obtenido la recta que minimiza la suma del cuadrado de los residuos necesitamos conocer la bondad del ajuste, es decir en qué medida esta recta obtenida se ajusta más o menos a la nube de puntos.  De nuevo, aunque existen diversos métodos de abordar esta cuestión, el coeficiente de determinación “R2” se ha impuesto entre el resto. El coeficiente de determinación es el cuadrado del coeficiente de correlación múltiple y sus valores se mueven entre -1 y 1, donde 0 es que no existe ninguna relación y 1 que existe la máxima relación positiva. El coeficiente de determinación representa la ganancia que obtenemos al predecir una variable basándonos en el conocimiento que tenemos de otra u otras variables. Por ejemplo, una R2 de “0,7” mejoraría nuestra predicción de la variable dependiente en un 70%. Normalmente se suele utilizar la R corregida, que realiza una corrección para tener en cuenta el número de casos y de variables contenidas en el análisis. Cuando las muestras son grandes la R2 y la R corregida presentan valores similares, sin embargo la R corregida es útil cuando tenemos muestras más pequeñas.


En nuestro ejemplo de mesas y manteles obtendríamos un R2 de 1. La línea obtenida se ajusta perfectamente a la nube de puntos. Dicho de otro modo, el número de mesas predice el 100% de la varianza de la variable manteles. ¿Esto es que las variables son idénticas? No tiene por qué, por ejemplo, si por cada mesa tenemos siempre dos manteles también obtendríamos un R2 de 1, aunque la pendiente en este caso sería de 2 en lugar de 1. Por tanto, no quiere decir que las variables sean idénticas sino que se mueven, varían, de igual manera.

Cuando trabajamos con una única variable independiente, como hacemos en regresión simple, la R2 presenta el mismo valor que la R de Pearson que obtenemos al lanzar una correlación lineal. Cuando se introducen más variables independientes este valor deja de coincidir porque otras variables pasan a explicar parte de la variabilidad que anteriormente explicaba una única variable. En un artículo posterior veremos cómo realizar un análisis de regresión múltiple con varias variables independientes y qué consecuencias tiene su introducción.

Como resumen de esta introducción teórica podemos concluir que la regresión lineal se fundamenta en dos pasos principales: El cálculo de la recta que minimiza la suma cuadrada de los residuos y el cálculo del coeficiente de determinación, que explica la manera en que dicha recta se ajusta a la línea de puntos, y que, por ello, estudia la relación entre las variables.


Vamos a ver un ejemplo práctico de un análisis de regresión a través de SPSS. Las variables usadas en el ejemplo son la renta per cápita y el % de población rural, ambas con datos obtenidos del Banco Mundial. Trataremos de predecir el porcentaje de población rural de un país a partir de la renta per cápita. 


Pasos regresión lineal en SPSS



Estudiando la distribución:


Cuando hacemos un análisis de regresión simple, con solo dos variables, es muy útil antes de nada estudiar el gráfico de dispersión entre nuestras variables.


Como se aprecia en el gráfico existe una relación entre ambas variables, pero esta no dibuja una recta, sino que se aprecia más una distribución de tipo exponencial. En los países con renta baja existen países con porcentajes de población rural altos, aunque también bajos. Sin embargo, a medida que la renta crece los porcentajes de países con población rural se mantienen siempre bajos.

Cómo pedirlo:



En SPSS pedimos este análisis desde la ruta “analizar; regresión; lineales”. Vamos a ir estudiando uno a uno los outputs que nos ofrece el programa. 






El primer ouptut del programa nos informa de las variables que componen el análisis. En este caso vemos que la variable dependiente es la población rural y el PIB per Cápita aparece como independiente. También nos habla del método utilizado para seleccionar las variables. En nuestro ejemplo, esta opción carece de importancia, ya que únicamente hemos introducido una única variable independiente, sin embargo, si hubiéramos introducido más variables independientes deberemos elegir el método de selección de variables.


Output bondad de ajuste:



El segundo output nos habla sobre la bondad del ajuste de nuestra recta:


-          La R que es el coeficiente de correlación de Pearson.
-          La R cuadrado que es el coeficiente de determinación.
-          La R cuadrado corregida que aplica al valor anterior un factor de corrección útil cuando tenemos pocos casos y muchas variables independientes. Es en este valor donde nos fijamos para conocer la bondad de ajuste de nuestra recta. En nuestro ejemplo, el coeficiente de determinación corregido es 0,326. Esto indica que la variable renta per cápita mejora la capacidad de predicción de la variable dependiente en un 32,6%. Aunque en el gráfico de dispersión vemos una clara relación entre nuestras variables, el R2 obtenido no es un muy alto, lo que indica que los puntos no se ajustan del todo bien a la recta propuesta. Esto se debe a que nuestras variables no se relacionan linealmente durante toda la distribución.

-          El error típico de la estimación indica la parte de la variable independiente que dejamos sin explicar.

Output ANOVA – Examen de la varianza:



El tercer output muestra un análisis de ANOVA que nos ofrece información sobre la varianza y da una pista más sobre la adecuación del modelo de regresión para estimar los valores de la variable dependiente. La varianza se descompone en varianza explicada por el modelo y por la varianza residual, es decir, aquella que el modelo no es capaz de explicar a partir de las variables introducidas. A través del estadístico F de Snedecor vemos que el valor de P o significación es menor que 0,05, por lo que la variable dependiente % población rural está influida por la variable PIB per cápita. Veamos a continuación qué dirección y qué impacto estimado tiene a través de los coeficientes de la recta de regresión.

Output Coeficientes de regresión:



La primera columna es la que nos ofrece los valores de la constante y la pendiente. Cuando el PIB per cápita es =0 entonces el % de población rural es igual a 23,643. Por otro lado, la pendiente igual a 0 indica que la recta de regresión no tiene pendiente o que es muy pequeña para los aumentos de la unidad de nuestra variable independiente. En este caso tenemos que pedir más decimales para saber que nuestra pendiente es igual a -0,000361. Esto indica que un aumento de la unidad en el PIB disminuye el porcentaje de población rural en un -0,000361. Dicho de otro modo por cada 10.000 puntos de aumento del PIB, el porcentaje de población rural decrece en un 3,61. 


Predicción de valores a partir de la recta de regresión:


Vamos a ver cuál sería la predicción de población rural para España cuando trabajamos con estos coeficientes de regresión. Para ello usaremos la ecuación de regresión sustituyendo el valor de la variable PIB que nos es conocido para España.

Para España el valor observado del PIB es = 29.863,18
% Pob rural observado para España = 4,4%
Y=a + bx
% Pob rural España= 12,9%

Como indica la fórmula el valor pronosticado por la recta para España es de 12,9%. Esto no es una buena aproximación ya que el valor observado para España es de 4,4. Es posible que esta diferencia se deba a una mala observación del porcentaje de población rural para España, pero es más probable que nuestra recta no esté ajustando como debería y no sea capaz de predecir el valor de un país.

En la siguiente sección vamos a ver qué acciones podemos llevar a cabo para mejorar nuestra predicción. En primer lugar detectaremos si hay casos que pueden estar perjudicando la predicción. En segundo lugar estudiaremos una posible transformación de nuestros datos. 


Mejora predictiva en el análisis de regresión



Casos extremos detección


Residuos:


Una primera forma de detectar casos extremos o outliers es atender a los residuos. Hemos dicho que los residuos se calculan como la diferencia entre el valor observado y el valor especificado por la recta. Paremos un momento nuestro ejercicio para volver temporalmente al ejemplo de mesas y manteles. Imaginemos que en nuestro ejemplo de manteles hayamos roto nuestra linealidad para uno de los casos. Cuando tenemos 3 mesas no tenemos 3 manteles sino 0. Esto provocaría una desviación en nuestra recta que provoca un impacto en la predicción del resto de casos como se aprecia en el siguiente gráfico. Por culpa del caso 3 estamos provocando un desajuste que hace incrementar los residuos del resto de casos. En la gráfica vemos claramente el caso que debemos eliminar por considerarse un valor extremo, pero normalmente no será algo tan claro cuando nos movamos en el terreno multivariable y deberemos hacer uso de algunos estadísticos para detectar nuestros casos extremos.


Desde el menú “Guardar” podemos guardar nuestros residuos tanto los no tipificados como los tipificados, así como algunos estadísticos de distancia que nos ayudan a identificar el impacto del caso sobre la recta. 


Los residuos se estandarizan dividiendo el residuo por la desviación típica de los residuos de modo que sea más fácil su interpretación. Dicha estandarización puede aproximarse a la distribución normal “Residuos tipificados” o a la de Student, que como ya hemos dicho en otros artículos aproxima distribuciones similares cuando tenemos un alto número de casos. La estandarización facilita la interpretación de los residuos y consiguen eliminar la incertidumbre que pueda generar la escala de la variable. Así podemos evaluar mejor cuando un residuo debe ser considerado alto. Normalmente se consideran outliers aquellos residuos estandarizados mayores que 2.

Las distancias de Cook y Mahalanobis:


Además del valor del residuo tipificado podemos hacer uso de las distancias de Cook y Mahalabonbis, también accesibles desde el menú guardar. Un valor mayor de 1 en el estadístico de Cook estaría indicando que el caso tiene un fuerte impacto en la constitución de la recta de regresión, por lo que puede ser aconsejable su eliminación. En el ejemplo de los manteles vemos a través del siguiente gráfico que el caso 3 tiene una distancia de Cook superior a 2, por lo que tiene un fuerte impacto sobre la recta.


Una vez detectados los casos perdidos podemos plantearnos su eliminación y repetir el análisis de regresión. Habremos aumentado nuestra bondad de ajuste y tendremos mayor capacidad predictiva.


Cambiando las reglas del juego. Transformación logarítmica



Como se puede apreciar en el gráfico, la relación entre las variables población rural y PIB per Cápita no puede ser explicada de manera óptima a través de una recta. En este ejemplo, valores bajos en la variable independiente producen valores distintos en nuestra variable dependiente. Es decir, hay poblaciones con bajo PIB per Cápita con un alto porcentaje de población rural, pero también con un bajo porcentaje. A medida que el PIB aumenta comenzamos a ver una clara relación lineal entre nuestras variables, donde a más PIB menor % de población rural. Como consecuencia de esta distribución inicial no podemos usar una recta para explicar la relación entre estas variables, ya que la relación es más de tipo exponencial. Por tanto, para poder hacer uso de la regresión y de la recta como elemento explicativo es necesario realizar una transformación logarítmica antes. Observemos como queda el gráfico de dispersión de nuestras variables tras convertir nuestra variable independiente “PIB” en su logaritmo.


Como se aprecia en el gráfico ahora nuestras variables pueden relacionarse a través de una línea. El R cuadrado ha subido de 0,326 hasta 0,664, lo que aumenta la capacidad predictiva notablemente. En cuanto a la constante, el valor de y cuando x=0 ahora es 117,636 en lugar de 23 y la pendiente es de -24 en lugar de 0. Si todo ha cambiado cabría preguntase entonces si estamos explicando las variables con que originalmente contábamos. La respuesta es que sí pero para poder volver a nuestras variables originales debemos volver a aplicar el logaritmo de nuestras variables independientes.


Vamos a volver a calcular la predicción del valor de España habiendo realizado la transformación logarítmica para comprobar si ahora el valor se parece más a lo que hemos medido y tenemos guardado en nuestra base de datos.

Para España el valor del PIB es = 29.863,18
% Pob rural observado para España = 4,4%
Y=a + bx
% Pob rural España= 6,04%

El porcentaje de población rural que predecimos para España ha bajado de 12,9% a 6%, lo que presenta un valor mucho más cercano al valor que hemos medido.

sábado, 16 de diciembre de 2017

Cálculo coeficientes regresión - Método mínimos cuadrados

En este artículo se explica cómo calcular los coeficientes de regresión. Veremos por tanto como calcular la pendiente de la recta, así como la constante, mediante el método de mínimos cuadrados. Si lo que se busca es un conocimiento más teórico de la regresión o aprender a lanzar el análisis en SPSS puedes consultar el artículo sobre regresión lineal.

Si solo tuviéramos dos puntos, calcular la pendiente de una recta sería fácil, ya que solo tendríamos que unir dos puntos,  sin embargo cuando tenemos muchos puntos y rectas posibles necesitamos elegir un método que seleccione la recta que creemos mejor explica la relación entre dos variables.

De esto se encarga el método de mínimos cuadrados, que es el método más extendido cuando las variables a estudio tienen una relación que puede ser explicada por una línea recta. Este método tiene la característica de que minimiza la suma del cuadrado de los residuos. 

Vamos a proceder al cálculo de la pendiente y la constante a través de un ejemplo con pocos casos que nos sirva de ilustración.



Si pedimos un análisis de regresión lineal en SPSS obtenemos un valor de 0,308 para la constante y un 1,365 para la pendiente. Es decir, por cada unidad de aumento en x se produce un aumento en y de 1,365. Vamos a ver como obtenemos estos valores calculándolos por fuera de SPSS.



El cálculo de la pendiente por el método de mínimos cuadrados



El cálculo de la constante por el método de mínimos cuadrados

Como se observa en la tabla de abajo, los cálculos que realiza SPSS para la pendiente y la constante coinciden de manera exacta.

jueves, 21 de septiembre de 2017

Cálculo de Comunalidades Factorial

En este artículo veremos cómo calcular las comunalidades en un análisis factorial.

Las comunalidades de las variables iniciales dan cuenta de la varianza explicada de la variable el análisis factorial. Para su cálculo usamos la matriz de componentes final. Se calcula como la suma de los pesos de la variable en los factores extraídos.








    Los factores del análisis recogen el 70,6% de la varianza de la variable aborto y el 72,1% de la variable divorcio.

Cálculo del Autovalor en el Análisis Factorial


Este artículo forma parte del artículo principal análisis factorial:


La varianza explicada por el Factor o autovalor se calcula como el sumatorio de las cargas al cuadrado.


Calcular KMO – Kaiser Meyer

El estadístico KMO nos informa sobre la idoneidad de una matriz de correlaciones para aplicar un análisis factorial.


El estadístico se calcula como el cociente de la suma de correlaciones de la matriz al cuadrado entre el mismo valor más el cuadrado de la suma de las correlaciones parciales.

Rij= correlación lineal de Pearson
aij= correlación parcial

Vamos a ver su cálculo a partir de un ejemplo:

Primero extraemos la matriz de correlaciones y la correlación parcial. Puedes ver cómo calcularlos en los artículos de correlación parcial y Cálculo R de Pearson. La matriz de correlaciones parciales coincide con la inversa de la matriz anti-imagen que podemos pedir desde el menú de SPSS de análisis factorial. 


En segundo lugar, calculamos el cuadrado de cada coeficiente y sumamos todos los valores de cada matriz. Como se aprecia hemos excluido el dato que ofrece la correlación consigo misma.


3. Finalmente aplicamos la fórmula del KMO:



Esto coincide con nuestra salida en SPSS:


Análisis Factorial - ACP


Introducción
Análisis factorial por componentes principales (ACP)
Ejemplo 

1.       Examen de los datos
2.       Cómo pedirlo en SPSS
3.       Pruebas de ajuste de factorial
a.       Determinante
b.      KMO (Kaiser-Meyer)
c.       Test de Esfericidad de Barlett
d.      Residuos
4.       Matriz de correlaciones Anti-imagen
5.       Menú extracción
a.       Selección del número de factores
b.      Selección del tipo de factorial
6.       Varianza explicada por los factores
7.       Comunalidades
8.       La matriz de componentes
9.       Menú Rotación
a.        Métodos ortogonales
b.       Métodos oblicuos

10.   Cálculo de las puntuaciones

Introducción


El análisis factorial es una técnica de interdependencia, donde no hay variables dependientes o independientes. Su principal propósito es la reducción de los datos de diversas variables en una serie de dimensiones, factores, que son generados a partir de la relación compartida entre el grupo de variables inicial. De este modo, de un número x de variables se llega a un número menor de dimensiones y.

Debido a la capacidad reductora, este análisis ha cobrado gran relevancia para estudiar conceptos complejos. El análisis factorial será capaz de identificar si estas variables pertenecen al mismo concepto o están midiendo aspectos diferentes. 

Dentro de los factoriales encontramos el Análisis de Componentes principales que ha ganado gran popularidad debido a una característica. Los factores creados son independientes entre sí, por lo que ayuda a la interpretación de los factores y es ideal para ser utilizado como técnica intermedia para luego lanzar un análisis de regresión con dichos factores. El análisis de Regresión con factores independientes permite mejores resultados y una interpretación también más sencilla. Frente a los componentes principales se erige el factorial común, más indicado cuando estamos interesados en estudiar la relación y no tanto en la reducción de dimensiones. Este método tiene una interpretación más complicada y no ataja el problema de la multicolinialidad. En el factorial común buscamos encontrar un número menor de variables que expliquen la varianza compartida de las variables originales. Diferenciamos aquí entre varianza compartida y varianza exclusiva. En el análisis de componentes principales buscamos  combinaciones lineales de variables que expliquen la mayor cantidad de varianza total.

El análisis factorial se basa en las correlaciones entre las variables. Por tanto se asume que las variables deben estar relacionadas linealmente. Puedes consultar el artículo sobre correlación lineal para entender mejor este punto.

El análisis de Componentes principales - ACP


Hay diferentes maneras de ajustar los factores a la matriz de correlación (mínimos cuadrados, máximum likelihood, etc. Como hemos dicho, el método de componentes principales es el de mayor popularidad porque busca la incorrelación de los factores. Algunos autores distinguen el análisis de componentes principales del análisis factorial, debido a que los cálculos difieren. Como se ha comentado, el componente principal es una combinación lineal de variables. El primer factor obtiene la mayor varianza, el segundo factor obtiene la mayor varianza entre la varianza restante y así hasta acabar con la varianza del set de variables.

Vamos a realizar un ejemplo que nos permita ver paso a paso las acciones a realizar para llevar a cabo este análisis, al tiempo que vamos examinando más a fondo ciertos conceptos teóricos.

El ejemplo usa la batería de justificabilidad de la encuesta mundial de valores con una serie de variables medidas en una escala de 1 a 10. En concreto usaremos los datos de España para la ola 5. Idealmente este análisis debe ser lanzado con variables continuas, aunque a menudo es utilizado en ciencias sociales con variables ordinales de 10 puntos. El factorial también puede obtener aproximaciones satisfactorias a partir de variables dicotómicas 0, 1. 

Actualmente los estadísticos trabajan integrando en los paquetes estadísticos alternativas a la correlación de Pearson y acordes a variables categóricas y dicotómicas, como correlaciones Policóricas y Tetracóricas. En este artículo se exploran algunos de los avances en este sentido para su aplicación al análisis factorial. http://www.scielo.edu.uy/scielo.php?script=sci_arttext&pid=S1688-42212013000200005


Ejemplo de factorial por Componentes Principales

1.      Examen de los datos


El primer paso para todo análisis debería ser investigar nuestras variables. Ya que el factorial se basa en las correlaciones lanzaremos un análisis de correlación mediante el estadístico de Pearson, que apuntará como se configurarán posteriormente nuestros factores.

Además veremos los casos perdidos para estimar si debemos tomar acciones antes de llevar a cabo el análisis. 



Estudio de casos perdidos:

Desde el menú “Tablas Personalizadas” hemos construido una tabla que incluye la media, el count y el count válido (no incluye valores perdidos). Como se aprecia ninguna de las variables tiene respuestas para todos los casos, sin embargo se cuenta con un porcentaje de respuesta alto para todas las variables excepto para una. La base de datos utilizada contiene información de las olas 4 y 5 de la WVS. En la ola 4 no se incluyó la variable “For a man to beat his wife”, por lo que contamos con la mitad de casos. Por tanto, hay que tomar una decisión. Podemos eliminar la variable del factorial, o bien utilizar solo datos de la ola 5 para llevar a cabo el factorial. En nuestro caso hemos optado por esta segunda solución, ya que contamos con muestra suficiente.

Observando las medias de la tabla vemos que hay una serie de variables con una media de 5 o superior y otra serie de variables con una media de 3 o inferior. Las medias nos ofrecen una primera pista de cómo se agruparán nuestras variables, aunque una idea mucho más fiable la dará un análisis de correlación, que indaga en la manera en la cual se relacionan las variables.


Correlaciones


A partir de la matriz de correlaciones vemos que se comienzan a formar dos grupos de variables que correlacionan altamente entre sí. Por un lado, aborto, divorcio, eutanasia, homosexualidad y prostitución presentan correlaciones altas entre sí, por lo que parecen conformar un primer grupo. 


Para ver cómo solicitar e interpretar el análisis de correlaciones visita el artículo sobre Correlación Lineal. También puedes ver cómo calcular los coeficientes de Correlación en el artículo sobre calcular lar de Pearson.

2.      Cómo pedir el ACP en SPSS


En SPSS se pide desde el menú “analizar” + “Reducción de dimensiones” + “Factor”





Como se aprecia hay 5 submenús que iremos viendo a medida que avanzamos en el ejemplo y en los diferentes conceptos del análisis de componentes principales.


3.      Pruebas de ajuste 


Para que podamos trabajar con el análisis factorial es preciso que nuestras variables se hallen correlacionadas entre sí. Ya hemos examinado la matriz de correlaciones de nuestro ejemplo anteriormente y hemos visto que correlacionaban entre sí. Para mayor precisión existen diferentes estadísticos que nos informan sobre la adecuación de la matriz de correlaciones para llevar a cabo el análisis factorial.

Desde el menú descriptivo podemos pedir algunos estadísticos, así como diversas matrices que sirven para informarnos de la bondad del ajuste de nuestro factorial y por ende de su viabilidad. 




o   Determinante

El determinante de la matriz de correlaciones da un primer aviso de la adecuación de los datos al análisis factorial. El determinante fluctúa entre 0 y 1 y es mejor cuanto más bajo, aunque no deberá ser 0.  En nuestro ejemplo el determinante es de 0,06, por lo que es propicio para realizar el factorial. Puedes consultar como calcular el determinante de una matriz en el siguiente enlace.




o   KMO (Kaiser-Meyer)

Se mueve en valores 0, 1. Contra más cerca de 1 mejor indicador para realizar el análisis factorial. El KMO se calcula poniendo en relación las correlaciones con las correlaciones parciales de la matriz. Para ver una explicación más detallada y cómo se calcula pincha en el enlace cálculo KMO.



o   Test de Esfericidad de Barlett

El test de esfericidad de Barlett pone a prueba la hipótesis nula de que la matriz de correlaciones es igual a la matriz identidad. La matriz identidad está definida como la ausencia de correlación significativa entre las variables. La matriz identidad arrojaría un determinante de 1. El test de esfericidad está basado en una distribución chi- cuadrado.

En nuestro caso estamos rechazando la hipóstesis nula, ya que la significación es menor a 0,05. Por tanto, concluimos que nuestra matriz es diferente de la matriz identidad y que por ende existen variables correlacionadas en nuestra matriz. 




o   Residuos

Otra manera de comprobar la bondad el ajuste es fijarnos en los residuales. Los residuales se piden desde el menú “descriptivos” solicitando la matriz de correlaciones reproducida. La matriz de correlaciones reproducida se obtiene a partir de la solución factorial. En la diagonal se encuentran las comunalidades. Si el factorial tiene un buen ajuste debe ser capaz de reproducir la matriz de correlaciones inicial. Esto puede ser comprobado con los residuales que se calculan como la resta entre las correlaciones de las variables originales y las correlaciones reproducidas. Por lo general si más de un 30% de los residuos es mayor a 0,05 estaríamos ante un mal ajuste del ACP.


4.      Matriz de correlaciones Anti-imagen


La matriz de correlaciones sirve de base para el cálculo de los factores. Se solicita desde el aludido menú descriptivos seleccionando la opción “Anti-imagen”.

La correlacón anti-imagen es igual a la inversa de la correlación parcial. Para un buen ajuste del análisis factorial la diagonal debe presentar valores cercanos a 1, mientras que el resto de valores deben aproximarse a 0. Para un acercamiento a la correlación parcial y a su cálculo visita el enlace sobre correlación parcial. 





5.      Menú extracción


Una vez que verificamos que nuestra matriz de datos se ajusta a la realización de un análisis factorial debemos tomar una serie de decisiones para llevar a cabo el análisis. Desde el menú “Extracción” podemos definir el método para calcular los factores así como el número de factores a extraer.





-          Decisiones para la extracción de los factores

En método, la opción por defecto es el de componentes principales, por lo que nos quedamos con la opción por defecto. Ya hemos visto las ventajas de este método respecto a otros métodos.
En el submenú visualización, además de la opción “Solución factorial sin rotar” que aparece por defecto, hemos añadido el gráfico de sedimentación, que como veremos puede ser de utilidad para elegir el número de factores adecuados a nuestros datos.  

o   Selección del número de factores

Por defecto, el método de extracción está basado en autovalores mayores de 1. Este método tiene cierta lógica en cuanto que un factor con un autovalor menor que 1 estaría explicando menor porcentaje de varianza que una variable única. Aunque no hay un método del todo aceptado para elegir el número de factores, el autovalor puede ser una buena guía para comenzar, siempre y cuando tenga consistencia teórica. Si los factores extraídos no se terminan de ajustar a lo que buscamos podemos intentar modificar el número de factores extraído.


Una manera simple y gráfica de fijar el número de factores es consultar el gráfico de sedimentación. En dicho gráfico se muestran los autovalores en el eje vertical y los componentes o factores en el eje x. La decisión del número de factores podemos basarla en el no incremento de explicación cuando introducimos un factor. A partir del gráfico vemos que a partir del tercer factor no se producen grandes saltos en el autovalor, por tanto podría ser indicado elegir tres factores a pesar de que como se aprecia el tercer factor tiene un autovalor menor que 1.


Si tenemos claro el número de factores que queremos extraer, por ejemplo, cuando nos hallamos en el terreno confirmatorio, podemos fijar a priori el número de factores deseados desde el submenú extraer. No hay un consenso sobre la técnica óptima para establecer el número de factores, por lo que será el investigador el que decida en función de la teoría, lógica y objetivos.

o   Selección de matriz de cálculo

Desde el menú extracción se nos ofrece la posibilidad de usar la matriz de covarianzas en lugar de la de correlaciones para llevar a cabo el análisis. Por lo general usaremos el método de análisis basado en las correlaciones. Si por ejemplo queremos que alguna variable pese más para la configuración de nuestro factorial usaremos las covarianzas, ya que están influidas por la escala de medición de variables.

6.      Varianza explicada por los factores


La tabla de varianza total explicada nos informa del porcentaje de varianza que recogen nuestros factores del total de varianza observada de nuestras variables originales.

En la columna total vemos el autovalor de cada uno de los factores. En la segunda columna vemos el porcentaje de varianza explicada por cada factor y en la tercera el porcentaje acumulado. Luego se repiten dichas columnas con los factores seleccionados. Si hemos elegido una solución rotada se mostrará en la última categoría.

En nuestro ejemplo vemos que se han extraído dos factores por medio de la aludida decisión del autovalor. Nos hemos quedado todos los factores con autovalor mayor a 1. El primer factor, con un autovalor de 3,796, recoge un 34,5% de la variabilidad inicial de las variables introducidas en el ACP. El segundo factor explica un 27,7%, por lo que entre ambos explican un 62,236% de la varianza total de nuestras variables.

Tras rotar vemos que el porcentaje de varianza acumulada se mantiene, sin embargo los porcentajes para cada factor cambian y el segundo factor se incrementa hasta explicar un 29,1% de la varianza inicial.


7.      Comunalidades


Las comunalidades expresan el porcentaje de varianza de cada variable original que queda representada por los factores. Nos interesa, por tanto, que todas las variables tengan una alta comunalidad. En nuestro ACP vemos que la variable aborto quedaría explicada en un 70,6% por nuestros factores, por lo que parte de la varianza del atributo no sería recogida por los factores. Las variables “suicidio” y “claiming governments benefits” presentan comunalidades bajas, por lo que es posible que necesitemos un nuevo factor capaz de recoger la variabilidad de estas variables. Quizás podemos extraer un tercer factor como parecía indicar el gráfico de sedimentación.

Las comunalidades se utilizan para calcular los factores. El ACP se inicia dibujando una matriz reducida de correlaciones entre las variables. En la diagonal se encuentran las comunalidades. Por eso, para iniciar el cálculo previo a la primera iteración el valor de la comunalidad ha de ser asignado. En el análisis ACP no suponemos relación entre factores, por tanto, la comunidalidad inicial puede ser de 1. En el factorial común, a diferencia del ACP se usan estimaciones de la comunalidad inicial, ya que lo que tratamos de captar es la varianza común y no la varianza total como en el ACP.

Para ver cómo obtener las comunalidades pincha sobre el enlace cálculo comunalidades



8.      La matriz de componentes


La matriz de componentes se calcula como la correlación entre las variables originales y los factores extraidos.  Antes de rotar, la correlacón entre el Factor 1 y la variable “justificabilidad de la prostitución” es de 0,784. El factor 2 correlaciona con la misma variable en -0,144. La suma cuadrada de ambos valores nos arroja la varianza total explicada por el factorial para la variable prostitución, es decir nos ofrece la comunalidad. 



9.      Menú Rotación


Normalmente vamos a rotar los resultados de nuestro factorial para que nuestros factores sean más sencillos de interpretar. Para ello, rotamos los ejes de coordenadas de los factores de manera que se aproximen al máximo a las variables en que están saturando a la vez que se alejan del resto. La matriz factorial rotada es una combinación lineal de la matriz sin rotar. Como hemos visto la varianza total explicada, así como las comunalidades no quedan alteradas, sin embargo si se produce una alteración en la cantidad de varianza explicada por cada factor.

Hay diversos métodos de rotación de los factores cada uno de las cuáles ofrece resultados diferentes. Se pueden distinguir dos tipos de rotaciones atendiendo a la correlación de los factores extraidos: rotación ortogonal y rotación oblicua.

9.1 Métodos ortogonales

Los métodos ortogonales preservan la independencia entre los factores extraidos. Esto es ideal ya que nos permite interpretar con mayor facilidad las dimensiones extraidas y es más versatil para análisis donde haya problemas de multicolinealidad, como en la regresión. Como contraparte las soluciones que genera son menos realistas que las obtenidas por métodos oblicuos.


Varimax: Minimiza el número de variables que tienen cargas altas en cada factor. Suele ser la opción de más extendido uso ya que facilita la interpretación. Busca que cada variable correlacione al máximo con un solo factor y que no esté correlacionada con el resto de los factores. En el ejemplo hemos seleccionado esta opción. Se calcula escalando los pesos de los factores y dividiendolos por su comunalidad. Si estás interesado en saber como proceder a su cálculo puedes consultar el siguiente enlace. http://www.real-statistics.com/linear-algebra-matrix-topics/varimax/

Quartimax:  Minimiza el número de factores necesarios para explicar cada variable. Busca la ortogonalidad atendiendo a las filas de la matriz de compententes, mientras que en la solución varimax lo buscábamos a partir de las columnas.

Equamax: Es una combinación de los dos métodos anteriores. Se minimizan tanto el número de variables con cargas altas en un factor, así como el número de factores necesarios para explicar una variable.

9.2 Métodos oblicuos

Los métodos oblicuos permiten la existencia de correlación entre los factores. Dependiendo del método de rotación obtenemos outputs diferentes. En la rotación oblicua obtenemos dos matrices, la de configuración que presenta las saturaciones de las variables en los factores y la de estructura que presenta las correlaciones entre las variables observadas y los factores. Cuando la rotación es ortogonal ambas matrices coinciden, por lo que no se presentan por separado, y solo contamos con la matriz de componentes.

Oblimin: Es un método oblicuo en el que tenemos que designar el valor de delta. Cuando Delta vale 0 obtenemos la solución más oblicua.

Promax: Debemos definir el valor de Kappa. Por defecto este valor se sitúa en 4.
Como se aprecia en la siguiente tabla, los métodos ortogonales así como la solución no rotada presentan independencia entre factores con una correlación de 0. Por el contrario, los métodos oblicuos no preservan la independencia inicial de los factores. Aunque la correlación entre nuestros factores es significativa para los métodos oblicuos esta se presenta bastante baja.


En esta tabla se presenta la solución final rotada para nuestro ejemplo y según el método de rotación Varimax. Como se aprecia las 6 primeras variables conforman un primer eje con altas cargas en el factor 1. El resto de variables saturan alto en el factor 2. Por tanto, podemos dividir nuestro grupo de variables inicial en dos factores, uno relacionado con los valores que afectan a la vida del propio sujeto y otro relacionado con acciones que afectan de manera directa a la vida de un tercero.


La solución factorial no es única y las diferentes rotaciones dan lugar a diferentes matrices que proponen una solución. Para entender un poco mejor los efectos de las diferentes rotaciones en la siguiente tabla se presentan los diferentes valores de la variable “justificabilidad ante el aborto” para cada factor según los diferentes tipos de rotación. En el caso del ejemplo no se aprecian grandes diferencias atendiendo a los diferentes métodos. A medida que contemos con mayor número de factores y variables es posible que las diferencias se incrementen.



10.      Cálculo de las puntuaciones del factorial

Una vez realizado el análisis factorial podemos guardar los factores otorgando un valor para cada sujeto dentro de cada factor. Esto nos permitirá usar estas variables para otros análisis. Para ello debemos seleccionar la opción guardar como variables dentro del submenú “puntuaciones”. Podemos seleccionar variables maneras de calcular las puntuaciones factoriales. La opción por defecto es la de regresión que es la que usaremos para este ejemplo.

Para calcular los valores de un sujeto para cada factor debemos multiplicar el valor para el sujeto en la variable estandarizada por el coeficiente de dicha variable para ese factor en la matriz de coeficientes para el cálculo de coeficientes. Dicha matriz puede ser solicitada desde el menú “puntuaciones”. Podemos estandarizar las variables originales desde el menú analizar - estadísticos descriptivos - descriptivos y seleccionando la opción "Guardar valores tipificados como variables.