Introducción
Análisis factorial por componentes
principales (ACP)
Ejemplo
1.
Examen de los datos
2.
Cómo pedirlo en SPSS
3.
Pruebas de ajuste de factorial
a.
Determinante
b.
KMO (Kaiser-Meyer)
c.
Test de Esfericidad de Barlett
d.
Residuos
4.
Matriz de correlaciones Anti-imagen
5.
Menú extracción
a.
Selección del número de factores
b.
Selección del tipo de factorial
6.
Varianza explicada por los factores
7.
Comunalidades
8.
La matriz de componentes
9.
Menú Rotación
a.
Métodos ortogonales
b.
Métodos oblicuos
10.
Cálculo de las puntuaciones
Introducción
El análisis factorial es una técnica de interdependencia,
donde no hay variables dependientes o independientes. Su principal propósito es
la reducción de los datos de diversas variables en una serie de dimensiones,
factores, que son generados a partir de la relación compartida entre el grupo
de variables inicial. De este modo, de un número x de variables se llega a un
número menor de dimensiones y.
Debido a la capacidad reductora, este análisis ha cobrado
gran relevancia para estudiar conceptos complejos. El análisis factorial será
capaz de identificar si estas variables pertenecen al mismo concepto o están
midiendo aspectos diferentes.
2.
Cómo pedir el ACP en SPSS
3.
Pruebas de ajuste
4.
Matriz de correlaciones Anti-imagen
5.
Menú extracción
- Decisiones para la extracción de los factores
6.
Varianza explicada por los factores
7. Comunalidades
8. La matriz de componentes
9.
Menú Rotación
10. Cálculo de las puntuaciones
del factorial
Dentro
de los factoriales encontramos el Análisis de Componentes principales
que ha ganado gran popularidad debido a una característica. Los factores
creados son independientes entre sí, por lo que ayuda a la interpretación de
los factores y es ideal para ser utilizado como técnica intermedia para luego
lanzar un análisis de regresión con dichos factores. El análisis de Regresión
con factores independientes permite mejores resultados y una interpretación
también más sencilla. Frente a los componentes principales se erige el
factorial común, más indicado cuando estamos interesados en estudiar la
relación y no tanto en la reducción de dimensiones. Este método tiene una
interpretación más complicada y no ataja el problema de la multicolinialidad. En
el factorial común buscamos encontrar un número menor de variables que
expliquen la varianza compartida de las variables originales. Diferenciamos
aquí entre varianza compartida y varianza exclusiva. En el análisis de componentes
principales buscamos combinaciones
lineales de variables que expliquen la mayor cantidad de varianza total.
El análisis factorial se basa en las correlaciones entre las
variables. Por tanto se asume que las variables deben estar relacionadas
linealmente. Puedes consultar el artículo sobre correlación lineal para
entender mejor este punto.
El análisis de Componentes principales - ACP
1.
Examen de los datos
El análisis de Componentes principales - ACP
Hay diferentes maneras de ajustar los factores a la matriz
de correlación (mínimos cuadrados, máximum likelihood, etc. Como hemos dicho,
el método de componentes principales es el de mayor popularidad porque busca la
incorrelación de los factores. Algunos autores distinguen el análisis de
componentes principales del análisis factorial, debido a que los cálculos
difieren. Como se ha comentado, el componente principal es una combinación
lineal de variables. El primer factor obtiene la mayor varianza, el segundo
factor obtiene la mayor varianza entre la varianza restante y así hasta acabar
con la varianza del set de variables.
Vamos a realizar un ejemplo que nos permita ver paso a paso
las acciones a realizar para llevar a cabo este análisis, al tiempo que vamos
examinando más a fondo ciertos conceptos teóricos.
El ejemplo usa la batería de justificabilidad de la encuesta
mundial de valores con una serie de variables medidas en una escala de 1 a 10. En
concreto usaremos los datos de España para la ola 5. Idealmente este análisis
debe ser lanzado con variables continuas, aunque a menudo es utilizado en
ciencias sociales con variables ordinales de 10 puntos. El factorial también
puede obtener aproximaciones satisfactorias a partir de variables dicotómicas
0, 1.
Actualmente los estadísticos trabajan integrando en los paquetes
estadísticos alternativas a la correlación de Pearson y acordes a variables
categóricas y dicotómicas, como correlaciones Policóricas y Tetracóricas. En
este artículo se exploran algunos de los avances en este sentido para su
aplicación al análisis factorial. http://www.scielo.edu.uy/scielo.php?script=sci_arttext&pid=S1688-42212013000200005
Ejemplo de factorial
por Componentes Principales
1.
Examen de los datos
El primer paso para todo análisis debería ser investigar
nuestras variables. Ya que el factorial se basa en las correlaciones lanzaremos
un análisis de correlación mediante
el estadístico de Pearson, que apuntará como se configurarán posteriormente nuestros
factores.
Además veremos los casos perdidos para estimar si debemos
tomar acciones antes de llevar a cabo el análisis.
Estudio de casos perdidos:
Desde el menú “Tablas Personalizadas” hemos construido una
tabla que incluye la media, el count y el count válido (no incluye valores
perdidos). Como se aprecia ninguna de las variables tiene respuestas para todos
los casos, sin embargo se cuenta con un porcentaje de respuesta alto para todas
las variables excepto para una. La base de datos utilizada contiene información
de las olas 4 y 5 de la WVS. En la ola 4 no se incluyó la variable “For a man
to beat his wife”, por lo que contamos con la mitad de casos. Por tanto, hay
que tomar una decisión. Podemos eliminar la variable del factorial, o bien
utilizar solo datos de la ola 5 para llevar a cabo el factorial. En nuestro
caso hemos optado por esta segunda solución, ya que contamos con muestra
suficiente.
Observando las medias de la tabla vemos que hay una serie de
variables con una media de 5 o superior y otra serie de variables con una media
de 3 o inferior. Las medias nos ofrecen una primera pista de cómo se agruparán
nuestras variables, aunque una idea mucho más fiable la dará un análisis de
correlación, que indaga en la manera en la cual se relacionan las variables.
Correlaciones
A partir de la matriz de correlaciones vemos que se
comienzan a formar dos grupos de variables que correlacionan altamente entre
sí. Por un lado, aborto, divorcio, eutanasia, homosexualidad y prostitución
presentan correlaciones altas entre sí, por lo que parecen conformar un primer
grupo.
Para ver cómo solicitar e interpretar el análisis de
correlaciones visita el artículo sobre Correlación Lineal. También puedes ver
cómo calcular los coeficientes de Correlación en el artículo sobre calcular lar de Pearson.
2.
Cómo pedir el ACP en SPSS
En SPSS se pide desde el menú “analizar” + “Reducción de
dimensiones” + “Factor”
Como se aprecia hay 5 submenús que iremos viendo a medida
que avanzamos en el ejemplo y en los diferentes conceptos del análisis de
componentes principales.
3.
Pruebas de ajuste
Para que podamos trabajar con el análisis factorial es
preciso que nuestras variables se hallen correlacionadas entre sí. Ya hemos
examinado la matriz de correlaciones de nuestro ejemplo anteriormente y hemos
visto que correlacionaban entre sí. Para mayor precisión existen diferentes
estadísticos que nos informan sobre la adecuación de la matriz de correlaciones
para llevar a cabo el análisis factorial.
Desde el menú descriptivo podemos pedir algunos
estadísticos, así como diversas matrices que sirven para informarnos de la
bondad del ajuste de nuestro factorial y por ende de su viabilidad.
o
Determinante
El determinante de la matriz de correlaciones da un primer
aviso de la adecuación de los datos al análisis factorial. El determinante
fluctúa entre 0 y 1 y es mejor cuanto más bajo, aunque no deberá ser 0. En nuestro ejemplo el determinante es de 0,06,
por lo que es propicio para realizar el factorial. Puedes consultar como
calcular el determinante de una matriz en el siguiente enlace.
o
KMO
(Kaiser-Meyer)
Se mueve en valores 0, 1. Contra más cerca de 1 mejor
indicador para realizar el análisis factorial. El KMO se calcula poniendo en
relación las correlaciones con las correlaciones parciales de la matriz. Para
ver una explicación más detallada y cómo se calcula pincha en el enlace cálculo KMO.
o
Test de Esfericidad
de Barlett
El test de esfericidad de Barlett pone a prueba la hipótesis
nula de que la matriz de correlaciones es igual a la matriz identidad. La
matriz identidad está definida como la ausencia de correlación significativa
entre las variables. La matriz identidad arrojaría un determinante de 1. El
test de esfericidad está basado en una distribución chi- cuadrado.
En nuestro caso estamos rechazando la hipóstesis nula, ya
que la significación es menor a 0,05. Por tanto, concluimos que nuestra matriz
es diferente de la matriz identidad y que por ende existen variables
correlacionadas en nuestra matriz.
o
Residuos
Otra manera de comprobar la bondad el ajuste es fijarnos en
los residuales. Los residuales se piden desde el menú “descriptivos”
solicitando la matriz de correlaciones reproducida. La matriz de correlaciones
reproducida se obtiene a partir de la solución factorial. En la diagonal se
encuentran las comunalidades. Si el factorial tiene un buen ajuste debe ser
capaz de reproducir la matriz de correlaciones inicial. Esto puede ser
comprobado con los residuales que se calculan como la resta entre las
correlaciones de las variables originales y las correlaciones reproducidas. Por
lo general si más de un 30% de los residuos es mayor a 0,05 estaríamos ante un
mal ajuste del ACP.
4.
Matriz de correlaciones Anti-imagen
La matriz de correlaciones sirve
de base para el cálculo de los factores. Se solicita desde el aludido menú
descriptivos seleccionando la opción “Anti-imagen”.
La correlacón anti-imagen es
igual a la inversa de la correlación parcial. Para un buen ajuste del análisis
factorial la diagonal debe presentar valores cercanos a 1, mientras que el
resto de valores deben aproximarse a 0. Para un acercamiento a la correlación
parcial y a su cálculo visita el enlace sobre correlación parcial.
5.
Menú extracción
Una vez que verificamos que nuestra matriz de datos se
ajusta a la realización de un análisis factorial debemos tomar una serie de
decisiones para llevar a cabo el análisis. Desde el menú “Extracción” podemos
definir el método para calcular los factores así como el número de factores a
extraer.
En método, la opción por defecto es el de componentes
principales, por lo que nos quedamos con la opción por defecto. Ya hemos visto
las ventajas de este método respecto a otros métodos.
En el submenú visualización, además de la opción “Solución
factorial sin rotar” que aparece por defecto, hemos añadido el gráfico de
sedimentación, que como veremos puede ser de utilidad para elegir el número de
factores adecuados a nuestros datos.
o
Selección
del número de factores
Por defecto, el método de extracción está basado en autovalores mayores de 1. Este método tiene cierta
lógica en cuanto que un factor con un autovalor menor que 1 estaría explicando
menor porcentaje de varianza que una variable única. Aunque no hay un método
del todo aceptado para elegir el número de factores, el autovalor puede ser una
buena guía para comenzar, siempre y cuando tenga consistencia teórica. Si los
factores extraídos no se terminan de ajustar a lo que buscamos podemos intentar
modificar el número de factores extraído.
Una manera simple y gráfica de fijar el número de factores
es consultar el gráfico de sedimentación. En dicho gráfico se muestran los
autovalores en el eje vertical y los componentes o factores en el eje x. La
decisión del número de factores podemos basarla en el no incremento de
explicación cuando introducimos un factor. A partir del gráfico vemos que a
partir del tercer factor no se producen grandes saltos en el autovalor, por
tanto podría ser indicado elegir tres factores a pesar de que como se aprecia
el tercer factor tiene un autovalor menor que 1.
Si tenemos claro el número de factores que queremos extraer,
por ejemplo, cuando nos hallamos en el terreno confirmatorio, podemos fijar a
priori el número de factores deseados desde el submenú extraer. No hay un
consenso sobre la técnica óptima para establecer el número de factores, por lo
que será el investigador el que decida en función de la teoría, lógica y
objetivos.
o
Selección
de matriz de cálculo
Desde el menú extracción se nos ofrece la posibilidad de
usar la matriz de covarianzas en lugar de la de correlaciones para llevar a
cabo el análisis. Por lo general usaremos el método de análisis basado en las
correlaciones. Si por ejemplo queremos que alguna variable pese más para la
configuración de nuestro factorial usaremos las covarianzas, ya que están influidas
por la escala de medición de variables.
6.
Varianza explicada por los factores
La tabla de varianza total explicada nos informa del
porcentaje de varianza que recogen nuestros factores del total de varianza
observada de nuestras variables originales.
En la columna total vemos el autovalor de cada uno de los
factores. En la segunda columna vemos el porcentaje de varianza explicada por
cada factor y en la tercera el porcentaje acumulado. Luego se repiten dichas
columnas con los factores seleccionados. Si hemos elegido una solución rotada
se mostrará en la última categoría.
En nuestro ejemplo vemos que se han extraído dos factores
por medio de la aludida decisión del autovalor. Nos hemos quedado todos los
factores con autovalor mayor a 1. El primer factor, con un autovalor de 3,796, recoge
un 34,5% de la variabilidad inicial de las variables introducidas en el ACP. El
segundo factor explica un 27,7%, por lo que entre ambos explican un 62,236% de
la varianza total de nuestras variables.
Tras rotar vemos que el porcentaje de varianza acumulada se
mantiene, sin embargo los porcentajes para cada factor cambian y el segundo
factor se incrementa hasta explicar un 29,1% de la varianza inicial.
7. Comunalidades
Las
comunalidades expresan el porcentaje de varianza de cada variable original que
queda representada por los factores. Nos interesa, por tanto, que todas las variables tengan una
alta comunalidad. En nuestro ACP vemos que la variable aborto quedaría explicada
en un 70,6% por nuestros factores, por lo que parte de la varianza del atributo
no sería recogida por los factores. Las variables “suicidio” y “claiming
governments benefits” presentan comunalidades bajas, por lo que es posible que
necesitemos un nuevo factor capaz de recoger la variabilidad de estas variables.
Quizás podemos extraer un tercer factor como parecía indicar el gráfico de
sedimentación.
Las
comunalidades se utilizan para calcular los factores. El ACP se inicia
dibujando una matriz reducida de correlaciones entre las variables. En la
diagonal se encuentran las comunalidades. Por eso, para iniciar el cálculo
previo a la primera iteración el valor de la comunalidad ha de ser asignado. En
el análisis ACP no suponemos relación entre factores, por tanto, la
comunidalidad inicial puede ser de 1. En el factorial común, a diferencia del
ACP se usan estimaciones de la comunalidad inicial, ya que lo que tratamos de
captar es la varianza común y no la varianza total como en el ACP.
Para
ver cómo obtener las comunalidades pincha sobre el enlace cálculo comunalidades
8. La matriz de componentes
La
matriz de componentes se calcula como la correlación entre las variables
originales y los factores extraidos. Antes de rotar, la correlacón entre el Factor
1 y la variable “justificabilidad de la prostitución” es de 0,784. El factor 2
correlaciona con la misma variable en -0,144. La suma cuadrada de ambos valores
nos arroja la varianza total explicada por el factorial para la variable
prostitución, es decir nos ofrece la comunalidad.
9.
Menú Rotación
Normalmente
vamos a rotar los resultados de nuestro factorial para que nuestros factores
sean más sencillos de interpretar. Para ello, rotamos los ejes de coordenadas
de los factores de manera que se aproximen al máximo a las variables en que
están saturando a la vez que se alejan del resto. La matriz factorial rotada es
una combinación lineal de la matriz sin rotar. Como hemos visto la varianza
total explicada, así como las comunalidades no quedan alteradas, sin embargo si
se produce una alteración en la cantidad de varianza explicada por cada factor.
Hay
diversos métodos de rotación de los factores cada uno de las cuáles ofrece
resultados diferentes. Se pueden distinguir dos tipos de rotaciones atendiendo
a la correlación de los factores extraidos: rotación ortogonal y rotación
oblicua.
9.1 Métodos ortogonales
Los
métodos ortogonales preservan la independencia entre los factores extraidos.
Esto es ideal ya que nos permite interpretar con mayor facilidad las
dimensiones extraidas y es más versatil para análisis donde haya problemas de
multicolinealidad, como en la regresión. Como contraparte las soluciones que
genera son menos realistas que las obtenidas por métodos oblicuos.
Varimax: Minimiza el número de
variables que tienen cargas altas en cada factor. Suele ser la opción de más
extendido uso ya que facilita la interpretación. Busca que cada variable
correlacione al máximo con un solo factor y que no esté correlacionada con el
resto de los factores. En el ejemplo hemos seleccionado esta opción. Se calcula
escalando los pesos de los factores y dividiendolos por su comunalidad. Si
estás interesado en saber como proceder a su cálculo puedes consultar el
siguiente enlace. http://www.real-statistics.com/linear-algebra-matrix-topics/varimax/
Quartimax: Minimiza el número de factores necesarios para
explicar cada variable. Busca la ortogonalidad atendiendo a las filas de la
matriz de compententes, mientras que en la solución varimax lo buscábamos a
partir de las columnas.
Equamax: Es una combinación de los dos
métodos anteriores. Se minimizan tanto el número de variables con cargas altas
en un factor, así como el número de factores necesarios para explicar una
variable.
9.2 Métodos oblicuos
Los
métodos oblicuos permiten la existencia de correlación entre los factores. Dependiendo
del método de rotación obtenemos outputs diferentes. En la rotación oblicua
obtenemos dos matrices, la de configuración que presenta las saturaciones de
las variables en los factores y la de estructura que presenta las correlaciones
entre las variables observadas y los factores. Cuando la rotación es ortogonal
ambas matrices coinciden, por lo que no se presentan por separado, y solo
contamos con la matriz de componentes.
Oblimin: Es un método oblicuo en el que
tenemos que designar el valor de delta. Cuando Delta vale 0 obtenemos la
solución más oblicua.
Promax: Debemos definir el valor de
Kappa. Por defecto este valor se sitúa en 4.
Como
se aprecia en la siguiente tabla, los métodos ortogonales así como la solución
no rotada presentan independencia entre factores con una correlación de 0. Por
el contrario, los métodos oblicuos no preservan la independencia inicial de los
factores. Aunque la correlación entre nuestros factores es significativa para
los métodos oblicuos esta se presenta bastante baja.
En
esta tabla se presenta la solución final rotada para nuestro ejemplo y según el
método de rotación Varimax. Como se aprecia las 6 primeras variables conforman
un primer eje con altas cargas en el factor 1. El resto de variables saturan
alto en el factor 2. Por tanto, podemos dividir nuestro grupo de variables
inicial en dos factores, uno relacionado con los valores que afectan a la vida
del propio sujeto y otro relacionado con acciones que afectan de manera directa
a la vida de un tercero.
La
solución factorial no es única y las diferentes rotaciones dan lugar a
diferentes matrices que proponen una solución. Para entender un poco mejor los
efectos de las diferentes rotaciones en la siguiente tabla se presentan los
diferentes valores de la variable “justificabilidad ante el aborto” para cada factor
según los diferentes tipos de rotación. En el caso del ejemplo no se aprecian
grandes diferencias atendiendo a los diferentes métodos. A medida que contemos
con mayor número de factores y variables es posible que las diferencias se
incrementen.
10. Cálculo de las puntuaciones
del factorial
Una vez realizado el análisis factorial podemos guardar
los factores otorgando un valor para cada sujeto dentro de cada factor. Esto
nos permitirá usar estas variables para otros análisis. Para ello debemos
seleccionar la opción guardar como variables dentro del submenú “puntuaciones”.
Podemos seleccionar variables maneras de calcular las puntuaciones factoriales.
La opción por defecto es la de
regresión que es la que usaremos para este ejemplo.
Para calcular los valores de un sujeto para cada factor
debemos multiplicar el valor para el sujeto en la variable estandarizada por el
coeficiente de dicha variable para ese factor en la matriz de coeficientes para
el cálculo de coeficientes. Dicha matriz puede ser solicitada desde el
menú “puntuaciones”. Podemos estandarizar las variables originales desde el menú analizar - estadísticos descriptivos - descriptivos y seleccionando la opción "Guardar valores tipificados como variables.
buenaaa
ResponderEliminargenial
ResponderEliminar