-->

sábado, 17 de junio de 2017

Cálculo Rho de Spearman

En esta entrada se explica cómo calcular la Rho de Spearman. Para ver cuándo pedirla, cómo lanzarla en SPSS y cómo interpretarla visita el artículo sobre correlación lineal.

Antes de nada debemos preparar los datos adecuadamente, para ello trabajaremos con los datos del siguiente ejemplo.




En primer lugar debemos ordenar las variables "x" e "y" por orden. El resultado puede ser apreciado en las columnas “Rango x” y “Rango y”. Los casos 6 y 7 comparten el mismo valor para la variable y, por lo que se le da el valor medio. Por ejemplo, el caso 6 está entre las posiciones 6 y 7 por lo que el valor del caso es 6,5, que es la media de las posiciones 6 y 7.

Una vez que tenemos los casos ordenados por cada una de las variables, calculamos una columna para cada variable que indique para cada caso la diferencia de la posición que ocupa en cada variable. Por último, generamos una última columna con el cuadrado de dicha diferencia.
Una vez preparada la tabla podemos aplicar la fórmula simplificada para el cálculo de la Rho de Spearman.


Si aplicamos nuestros datos obtentemos:




Como vemos el resultado que refleja SPSS es el mismo:



domingo, 11 de junio de 2017

Cálculo F de Snédecor

En este artículo vamos a aprender a calcular el estadístico F de Snedecor, utilizado en SPSS al realizar un análisis de ANOVA. Para entender cómo realizar el análisis e interpretar el estadístico visita el enlace al artículo sobre Análisis de Varianza. La F es el cociente de la varianza intragrupos y la varianza intergrupos corregida por los grados de libertad. La varianza intra es la suma de las varianzas dentro de cada grupo. La varianza inter se calcula como la resta entre la varianza total y la varianza intra. Tras aplicar una corrección por los grados de libertad obtenemos el estadístico. Para calcular el estadístico, como es costumbre, vamos a echar mano de un ejemplo con pocos casos que nos permitan agilizar los cálculos.

 

La variable x es la variable nominal que establece los grupos, que en ejemplo actúa como independiente.

La varianza intra es la suma de la varianza interna de cada uno de los grupos.
La varianza inter es la varianza total menos la varianza intra.

Varianza intra= (5 + 9,2 + 6,83)=  21,03

La varianza inter= (47,73-21,03)= 26,7


En el output de SPSS obtenido tras realizar el análisis de ANOVA podemos ver que nuestros cálculos son correctos.


Para calcular la F debemos calcular antes las medias cuadráticas, que también son obtenidas en el mismo output. Para ello, debemos calcular antes los grados de liberad.

Grados de libertad intra = n – g=12
Es el número de casos menos el número de grupos

Grados de libertad inter= g-1=2
Es el número de grupos menos 1.

Las medias cuadráticas se calculan como el cociente de la varianza y los grados de libertad correspondientes:

Media cuadrática intra= 21,033/12=1,752777778
Media cuadrática inter=26,7/2=13,35

Finalmente, el estadístico F es el cociente de las medias cuadráticas.

F=Media cuadrática inter/Media cuadrática intra
F=13,350/1,753777778=7,616




ANOVA de un Factor


1. Introducción

2. Anova de un Factor

      2.1 Requisitos

      2.2 Cómo pedirlo

      2.3 Interpretación del output

               - Descriptivos
               - Prueba de homogeneidad de varianzas
               - La F de Snedecor
               - Estadísticos
               - Pruebas Post Hoc



Introducción


El análisis de la varianza comparte lógica con la diferencia de medias, pero es aplicado a situaciones en las que existen más de dos grupos en la variable independiente. Por ejemplo, para saber si existe diferencia salarial significativa entre hombres y mujeres utilizaríamos la diferencia de medias, puesto que únicamente tenemos dos categorías en la variable sexo. Sin embargo, si lo que pretendemos es estudiar dicha diferencia salarial entre la población según rangos de edad, por ejemplo con cuatro rangos de edad, utilizaremos el análisis de ANOVA.

La variable categórica (nominal u ordinal) será la variable independiente que también recibe el nombre de factor. Es la variable que establece los grupos o muestras, en nuestro caso los grupos de edad. Cada grupo de edad será un nivel. La variable cuantitativa será la variable dependiente. La hipótesis del análisis es que las medias poblaciones de la variable dependiente son iguales para todos los grupos de la o las variables independientes, y que por tanto, la variable dependiente no está relacionada o es independiente de nuestro factor. Para llevar a cabo el análisis se utiliza el estadístico F, que sustituye la t de student utilizada en el análisis de comparación de medias
La primera distinción existente en el análisis de la varianza es el número de variables independientes o factores que intervienen en el análisis. Veamos a continuación el análisis de la varianza cuando solo tenemos un factor con varias categorías o grupos.

Para poder comprender este tipo de análisis vamos echar mano de un ejemplo que nos permita ir atacando a la vez tanto la teoría como la práctica. Solo tener un factor implica que solo tenemos en consideración una variable independiente (con sus niveles) enfrentada a una variable dependiente.

En el siguiente ejemplo vamos a estudiar si la edad (Recodificada en grupos o niveles) tiene influencia sobre la manera en que la gente acepta la homosexualidad en España. Como en otras ocasiones los datos proceden de la encuesta mundial de valores. Nuestra variable independiente será la edad recodificada en grupos, mientras que la consideración de la homosexualidad será nuestra variable dependiente, que se constituye en una escala de 1 a 10.


Requisitos


Antes de llevar a cabo el análisis debemos asegurarnos de que nuestras variables cumplen varios requisitos:

Supuestos del estadístico F:

1      -  Las submuestras de cada nivel de los factores son independientes entre sí.
2     -  Las distribuciones son de igual varianza – homoscedasticidad
3     - Las distribuciones son normales.

La hipótesis de homogeneidad de varianzas es proporcionada por el mismo análisis de la ANOVA a través del estadístico de Levene, por lo que lo tocaremos más adelante. Previo a este contraste podemos contrastar la hipótesis de normalidad a través del menú de SPSS ‘Explorar’, que nos ofrece además de gráficos, los contrastes de normalidad de Kolmogorov y Shapiro-Wilk. La hipótesis inicial es que las distribuciones de nuestras variables son normales. Como se puede observar en la tabla, obtenemos un nivel de significación inferior a 0,05, por lo que rechazamos la hipótesis nula de normalidad y concluimos que nuestras distribuciones no son normales.

El primer supuesto del análisis de ANOVA no ha sido cumplido. Sin embargo, el estadístico F puede arrojar resultados satisfactorios incluso incumpliendo este supuesto, siempre y cuando tengamos muestras grandes y se mantenga cierta simetría. Como nuestra muestra es lo suficientemente grande podemos llevar a cabo el análisis incluso incumpliendo este primer supuesto. Si nuestra muestra fuera insuficiente y el contraste de normalidad fuera negativo no podríamos echar mano de este análisis. 
















Como pedirlo en SPSS:


En SPPS lo pedimos desde la ruta “analizar/comparar medias/ANOVA de un factor”. En la lista de variables dependientes metemos las variables métricas, en nuestro caso, la consideración sobre la homosexualidad. En el factor metemos la edad.  



En la pestaña de opciones pedimos los descriptivos y la prueba de homogeneidad de varianzas. Más adelante comprobaremos el motivo por el cuál pedimos estos y no otros estadísticos.


Los descriptivos


La tabla de descriptivos nos ofrece una primera visión de las medias de cada grupo o nivel de edad. También nos ofrece información de la desviación típica, del error típico y del intervalo de confianza. Rápidamente se intuye la existencia de relación entre nuestras variables. En las edades más jóvenes las puntuaciones relacionadas con la variable homosexualidad son más altas que entre las personas de edad avanzada. Las medias de los grupos oscilan entre los 4,68 del grupo de edad de entre 65 y más años y los 7,67 de las personas de entre 25 y 34 años. Es evidente que en nuestra muestra estos subgrupos muestrales tienen medias distintas, pero ¿es aplicable esto a la población general? En otras palabras, ¿es la diferencia de medias observada significativa? El análisis de ANOVA a partir del estadístco F responderá a esta pregunta y otros estadísticos como el de Bonferroni añadirán información, permitiendo discernir entre qué grupos existen diferencias significativas y entre cuáles no.



Levene – Prueba de homogeneidad:


El estadístico de Levene nos indica si las varianzas de los grupos son similares o bien tienen una estructura diferente. La hipótesis nula es que nuestros grupos de la variable independiente tienen varianzas iguales. Como en nuestra tabla el nivel de significación es mayor que 0,05 no podemos rechazar la hipótesis nula de igualdad de varianzas. Por tanto concluimos que nuestros grupos de la variable independiente no tienen varianzas distintas respecto a la variable dependiente, por lo que estaremos cumpliendo uno de los supuestos de este análisis.




ANOVA: F de snedecor

El estadístico F se calcula como el cociente entre la varianza inter-grupos e intragrupos. Como en nuestro caso no hemos rechazado la hipótesis de igualdad de varianzas podemos hacer uso del estadístico. El hecho de obtener una F significativa advierte de que nuestros datos tienen medias distintas, ya que la hipótesis inicial supone la igualdad de medias para todos los grupos de edad. Observando el nivel de significación menor de 0,05 rechazamos dicha igualdad. Puedes ver cómo se calcula el estadístico F pinchando sobre el enlace calculo F d Snedecor.


Pruebas post Hoc

A través de la F y su nivel de significación hemos llegado a la conclusión de que al menos uno de nuestros grupos de edad tiene una media distinta al resto de grupos en la variable a medir. Esto de por sí no nos aporta demasiada información. Para profundizar algo más debemos echar mano de las pruebas post-hoc, que aportan información sobre los grupos específicos que mantienen diferencia de medias poblacional.

Dependiendo de los resultados de nuestra prueba de igualdad de varianzas a través del estadístico de Levene deberemos echar mano de una prueba distinta. En el caso de igualdad de varianzas echaríamos mano de la prueba de Bonferroni, mientras que en caso de no igualdad lo más común es echar mano de Durwin Watson. En nuestro ejemplo, hemos concluido que los grupos no tienen varianzas diferentes, por lo que usamos la prueba de Bonferroni.

A la izquierda vemos cada grupo de edad y dentro de cada uno se repiten los distintos grupos de edad. Cuando la significación es menor que 0,05 rechazamos la hipótesis nula de igualdad de medias y concluimos que las medias son distintas en la población. En la prueba vemos que los de 15 a 24 tienen medias distintas que los de 55 a 64 y entre los mayores de 65. Además sabemos también observando la columna de diferencia de medias y los límites que la mayor diferencia se encuentra entre los más jóvenes y los más mayores.