1. Introducción
2. Anova de un Factor
2.1 Requisitos
2.2 Cómo pedirlo
2.3 Interpretación del output
- Descriptivos
- Prueba de homogeneidad de varianzas
- La F de Snedecor
- Estadísticos
- Pruebas Post Hoc
Introducción
El análisis de la varianza
comparte lógica con la diferencia de medias, pero es aplicado a situaciones
en las que existen más de dos grupos en la variable independiente. Por ejemplo,
para saber si existe diferencia salarial significativa entre hombres y mujeres
utilizaríamos la diferencia de medias, puesto que únicamente tenemos dos
categorías en la variable sexo. Sin embargo, si lo que pretendemos es estudiar dicha
diferencia salarial entre la población según rangos de edad, por ejemplo con
cuatro rangos de edad, utilizaremos el análisis de ANOVA.
La variable categórica (nominal u
ordinal) será la variable independiente que también recibe el nombre de factor.
Es la variable que establece los grupos o muestras, en nuestro caso los grupos
de edad. Cada grupo de edad será un nivel. La variable cuantitativa será la variable
dependiente. La hipótesis del análisis es que las medias poblaciones de la
variable dependiente son iguales para todos los grupos de la o las variables
independientes, y que por tanto, la variable dependiente no está relacionada o
es independiente de nuestro factor. Para llevar a cabo el análisis se utiliza
el estadístico F, que sustituye la t de student utilizada en el análisis de
comparación de medias
La primera distinción existente en el análisis de la
varianza es el número de variables independientes o factores que intervienen en
el análisis. Veamos a continuación el análisis de la varianza cuando solo
tenemos un factor con varias categorías o grupos.
Para poder comprender este tipo
de análisis vamos echar mano de un ejemplo que nos permita ir atacando a la vez
tanto la teoría como la práctica. Solo tener un factor implica que solo tenemos
en consideración una variable independiente (con sus niveles) enfrentada a una
variable dependiente.
En el siguiente ejemplo vamos a
estudiar si la edad (Recodificada en grupos o niveles) tiene influencia sobre
la manera en que la gente acepta la homosexualidad en España. Como en otras
ocasiones los datos proceden de la encuesta mundial de valores. Nuestra
variable independiente será la edad recodificada en grupos, mientras que la
consideración de la homosexualidad será nuestra variable dependiente, que se
constituye en una escala de 1 a 10.
Requisitos
Antes de llevar a cabo el
análisis debemos asegurarnos de que nuestras variables cumplen varios
requisitos:
Supuestos del
estadístico F:
1 - Las submuestras de cada nivel de los factores
son independientes entre sí.
2 - Las distribuciones son de igual varianza –
homoscedasticidad
3 - Las distribuciones son normales.
La hipótesis de homogeneidad de varianzas es proporcionada
por el mismo análisis de la ANOVA a través del estadístico de Levene, por lo
que lo tocaremos más adelante. Previo a este contraste podemos contrastar la hipótesis
de normalidad a través del menú de SPSS ‘Explorar’, que nos ofrece además de
gráficos, los contrastes de normalidad de Kolmogorov y Shapiro-Wilk. La
hipótesis inicial es que las distribuciones de nuestras variables son normales.
Como se puede observar en la tabla, obtenemos un nivel de significación
inferior a 0,05, por lo que rechazamos la hipótesis nula de normalidad y
concluimos que nuestras distribuciones no son normales.
El primer supuesto del análisis de ANOVA no ha sido cumplido. Sin embargo, el estadístico F puede arrojar resultados satisfactorios incluso incumpliendo este supuesto, siempre y cuando tengamos muestras grandes y se mantenga cierta simetría. Como nuestra muestra es lo suficientemente grande podemos llevar a cabo el análisis incluso incumpliendo este primer supuesto. Si nuestra muestra fuera insuficiente y el contraste de normalidad fuera negativo no podríamos echar mano de este análisis.
Como pedirlo en SPSS:
En SPPS lo pedimos desde la ruta
“analizar/comparar medias/ANOVA de un factor”. En la lista de variables
dependientes metemos las variables métricas, en nuestro caso, la consideración
sobre la homosexualidad. En el factor metemos la edad.
En la pestaña de opciones pedimos los descriptivos y la
prueba de homogeneidad de varianzas. Más adelante comprobaremos el motivo por
el cuál pedimos estos y no otros estadísticos.
Los descriptivos
La tabla de descriptivos nos ofrece una primera visión de
las medias de cada grupo o nivel de edad. También nos ofrece información de la
desviación típica, del error típico y del intervalo de confianza. Rápidamente
se intuye la existencia de relación entre nuestras variables. En las edades más
jóvenes las puntuaciones relacionadas con la variable homosexualidad son más
altas que entre las personas de edad avanzada. Las medias de los grupos oscilan
entre los 4,68 del grupo de edad de entre 65 y más años y los 7,67 de las
personas de entre 25 y 34 años. Es evidente que en nuestra muestra estos
subgrupos muestrales tienen medias distintas, pero ¿es aplicable esto a la población
general? En otras palabras, ¿es la diferencia de medias observada
significativa? El análisis de ANOVA a partir del estadístco F responderá a esta
pregunta y otros estadísticos como el de Bonferroni añadirán información,
permitiendo discernir entre qué grupos existen diferencias significativas y
entre cuáles no.
Levene – Prueba de homogeneidad:
El estadístico de Levene
nos indica si las varianzas de los grupos son similares o bien tienen una
estructura diferente. La hipótesis nula es que nuestros grupos de la variable
independiente tienen varianzas iguales. Como en nuestra tabla el nivel de significación
es mayor que 0,05 no podemos rechazar la hipótesis nula de igualdad de
varianzas. Por tanto concluimos que nuestros grupos de la variable independiente
no tienen varianzas distintas respecto a la variable dependiente, por lo que
estaremos cumpliendo uno de los supuestos de este análisis.
ANOVA: F de snedecor
El estadístico F se calcula como el
cociente entre la varianza inter-grupos e intragrupos. Como en nuestro caso no
hemos rechazado la hipótesis de igualdad de varianzas podemos hacer uso del
estadístico. El hecho de obtener una F significativa advierte de que nuestros
datos tienen medias distintas, ya que la hipótesis inicial supone la igualdad
de medias para todos los grupos de edad. Observando el nivel de significación
menor de 0,05 rechazamos dicha igualdad. Puedes ver cómo se calcula el
estadístico F pinchando sobre el enlace calculo F d Snedecor.
Pruebas
post Hoc
A través de la F y su nivel de
significación hemos llegado a la conclusión de que al menos uno de nuestros
grupos de edad tiene una media distinta al resto de grupos en la variable a
medir. Esto de por sí no nos aporta demasiada información. Para profundizar
algo más debemos echar mano de las pruebas post-hoc, que aportan información
sobre los grupos específicos que mantienen diferencia de medias poblacional.
Dependiendo de los resultados de
nuestra prueba de igualdad de varianzas a través del estadístico de Levene
deberemos echar mano de una prueba distinta. En el caso de igualdad de
varianzas echaríamos mano de la prueba de Bonferroni, mientras que en caso de
no igualdad lo más común es echar mano de Durwin Watson. En nuestro ejemplo,
hemos concluido que los grupos no tienen varianzas diferentes, por lo que
usamos la prueba de Bonferroni.
A la izquierda vemos cada grupo de edad
y dentro de cada uno se repiten los distintos grupos de edad. Cuando la
significación es menor que 0,05 rechazamos la hipótesis nula de igualdad de
medias y concluimos que las medias son distintas en la población. En la prueba
vemos que los de 15 a 24 tienen medias distintas que los de 55 a 64 y entre los
mayores de 65. Además sabemos también observando la columna de diferencia de
medias y los límites que la mayor diferencia se encuentra entre los más jóvenes
y los más mayores.
No hay comentarios:
Publicar un comentario