-->

martes, 5 de noviembre de 2013

Tabla de contingencia

Requisitos
Cómo calcular una tabla de contingencia en SPSS
Interpretación Estadísticos
Ejemplos 

Las tablas de contingencia son tablas que ponen en relación los datos de dos variables distintas. A través de un análisis de tabla de contiengencia podremos saber como se relacionan dos variables entre sí. Es uno de los análisis más sencillos y a la vez más utilizados en investigación social y de mercado.

1. Requisitos:


Dos variables categóricas. Si la variable es métrica o interval la tabla de contingencia no sería el análisis adecuado y habria que acudir a otro tipo de análisis o recodificar la variable para convertirla en nominal u ordinal. Al tomar esta decisión perderíamos información en favor de la claridad y sencillez que aporta un análisis de tabla de contingencia.

2. Cómo calcular una tabla de contingencia en SPSS:


La ruta a seguir en el SPSS es: Análisis/Estadísticos descriptivos/Tablas de contingencia
Procedimiento: Una variable en la fila y otra variable en la columna. En el menú casilla pedimos el porcentaje por columna, además de la frecuencia de observados que sale en SPSS por defecto. Además, en el menú estadísticos pediremos la chi cuadrado. Con esto tenemos un primer análisis de tabla de contingencia.

3. Interpretación


Según nuestros datos, generados a partir de dos variables aleatorias, hay 500 personas, 267 hombres y 233 mujeres. 117 personas (un 23,4%) están muy insatisfechas. De ellas, hay 63 hombres, es decir un 23,6% de los hombres, que están muy insatisfechos, mayor porcentaje que entre las mujeres con un 23,2%.



4. Estadísticos


A simple vista no parece que haya mucha diferencia entre la satisfacción de hombres y mujeres, por lo que parece que sexo y satisfacción son variables independientes entre sí. Sin embargo, el ojo de buen cubero no es suficiente y es necesario recurrir a algún tipo de test que sirva para estudiar la dependendica entre las dos variables.

Chi cuadrado:

Estudia la relación entre las variables. Se selecciona en el menú estadístico de la tabla de contingencia. La hipótesis nula a contrastar es la independencia de las variables, siendo la
dependencia la hipótesis alternativa.



Al pedir el chi cuadrado SPSS nos da su valor, que se calcula al poner en relación los valores observados con los esperados. En nuestro caso la Chi-cuadrado es de 3,157. Esto de por sí solo no nos dice mucho, sin embargo SPSS también nos facilita el nivel de significación que en este caso es de 0,532. Este nivel indica la probabilidad de rechazar la hipótesis nula de independencia siendo cierta. Si esta probabilidad es menor que 0,05 se rechaza la hipótesis nula y en consecuencia diremos que las variables son dependientes entre sí. En nuestro ejemplo, el nivel de significación es de 0,532, por lo que no podemos rechazar la hipótesis nula y decimos que las variables son independientes entre sí, o que no guardan una relación de dependencia. Para ver cómo se calcula la chi cuadrado pincha sobre el enlace.

Cosas a considerar de chi cuadrado:


La chi cuadrado está muy influenciada por el tamaño muestral. De modo que cuando tenemos muestras grandes la chi crece y es más fácil rechazar la hipótesis nula de independencia.
Para que el contraste de la chi sea estadísticamente válido cada celda de la tabla deberá tener una frecuencia esperada de 5. En nuestro ejemplo, como se ve en la línea de texto bajo la tabla de ejemplo no hay ninguna casilla que tenga menos de 5, por lo que nuestro test será estadísticamente válido. En el caso de que haya celdas con menos de 5 observaciones una posible solución es la recodificación de una variable con muchas categorías en una con menor número de categorías. Chi cuadrado puede funcionar con un porcentaje pequeño de celdas en las que se espere una frecuencia inferior a 5, pero con más de un 20% de las casillas con una frecuencia menor a 5 el test deja de ser fiable. Hasta ahora solo sabemos si existe o no dependencia entre las variables, pero no sabemos nada acerca del tipo de relación entre las variables . El siguiente grupo de estadísticos sirve para medir el grado de relación entre las variables.

Estadísticos para medir la fuerza de la relación:

En el menú estadísticos dentro de tabla de contingencia de SPSS es posible seleccionar varios estadísticos para medir la fuerza de la relación. Es importante saber si nuestras variables son nominales u ordinales, ya que según sea el tipo de variable elegiremos uno u otro estadístico. Cuando al menos una de nuestras variables es nominal debemos escoger los estadísticos para variables nominales. Si fueran las dos ordinales podríamos seleccionar estadísticos para variables ordinales que aportan mayor información.

4.a Estadísticos para variables nominales:


Medidas que tienen que ver con el valor de Chi cuadrado:

La chi cuadrado nos avisa de si hay o no relación pero no nos habla muy bien de la fuerza de la relación, ya que su valor se haya relacionado con el tamaño muestral y no está acotado. Por ello, hay una serie de estadísticos basados en chi que corrigen este problema teniendo en cuenta el número casos.



 Como se puede observar, los datos de los tres estadísticos coinciden en la tabla de nuestro ejemplo. Phi y Cramer siempre coinciden cuando al menos una de las variables tiene dos categorías de respuesta. El coeficiente de contingencia no es exactamente el mismo, aunque en este caso varía solo en el tercer decimal, que no sale por defecto en SPSS, por lo que coincide con los otros dos estadísticos. Veamos ahora estos estadísticos por separado: -Phi: Permite medir el grado de relación de dos variables. Se utiliza en el caso especial de tablas con dos filas y dos columnas (2x2). Valores cercanos a 0 indican poca relación y valores cercanos a 1 indican mucha fuerza en la relación. Se calcula como la raíz cuadrada de chi cuadrado entre el número de casos.

Se fórmula es: ϕ=√χ2/n donde χ2 es el valor de la chi y n es igual al número de casos. Aunque en nuestro ejemplo no haría falta recurrir a phi ni a ningún otro estadístico, ya que la chi cuadrado nos mostró que no había relación de dependencia entre las variables, la hemos pedido con objeto de ilustrar el ejemplo. El valor de phi es de 0,079 lo que indica una relación muy baja. Además, el coeficiente de significación sigue alertando de que no hay relación de dependencia entre ambas variables.

  -Coeficiente de contingencia: Es una prolongación de la phi para variables con más de dos categorías. Sin embargo, sus valores no están normalizados y su límite es menor que 1. Para conocer el límite máximo de C deberíamos calcularlo. Por ello, para ahorrar tiempo, se suele utilizar la V de cramer que sí está normalizada y tiene el límite máximo en 1, lo que indicaría una relación de dependencia perfecta. El coeficiente de contingencia se calcula como la raíz cuadrada de χ2 entre χ2 más el número de casos. C=√χ2/(χ2+n) Donde χ2 es el valor de chi cuadrado

  -V de Crammer: Es quizás el estadístico más utilizado en las tablas de contingencia junto con Lamda. Su origen es similar al de Phi, aunque es válido para variables con más de dos categorías de respuesta. Toma valores entre 0 y 1. 1 indica máxima dependencia y 0 independencia. El valor de la V para tablas con alguna variable con dos categorías coincide con el valor de phi. La V de Cramer se obtiene ajustando phi para el número de filas o columnas de la tabla, cualquiera que sea el menor. V= ϕ2/min⁡〖(r-1)(c-1)〗 Donde ϕ2 es el valor de phi, r es el número de filas y c el número de columnas. En nuestro ejemplo, la variable sexo tiene dos filas, por lo que el mínimo de (r-1)(c-1) = 2-1= 1. Elegimos la variable sexo que es la que menos categorías tiene y le restamos 1. La phi, por tanto, se divide por 1, motivo por el que la V de Cramer da el mismo resultado que la Phi cuando al menos una de las variables tiene solo dos categorías.


Medidas basadas en el error proporcional


- Lambda: Estadístico utilizado para determinar si usar los resultados de una de las variables sirve para predecir los resultados de otra. Lambda toma valores entre 0 y 1, donde 0 indica independencia entre las variables y 1 total dependencia. Lambda igual a 1 implicaría que la variable independiente consigue reducir a 0 el error de la variable dependiente y digo implicaría porque es un caso extremo que no se suele dar. En nuestro ejemplo implicaría que conociendo la variable sexo podríamos averiguar que satisfacción tiene un sujeto cualquiera, algo poco probable incluso asumiendo un cierto grado de dependencia entre variables. Por defecto, SPSS nos saca tres valores de Lambda diferentes. Dos asimétricas cuando una de las variables puede ser considerada como dependiente y otra simétrica cuando no hay razón para pensar que hay una variable dependiente de la otra. Cómo calcular lambda

- Tau de Goodman Se parece a la Lambda aunque su cálculo es algo más complejo pues tiene en cuenta todas las categorías de respuesta y no únicamente la que más casos contempla. Al igual que Lambda adopta valores de 0 a 1, dónde 0 es independencia y 1 total dependencia. El valor de la Tau se interpreta como el porcentaje que mejora el error la inclusión de la variable independiente en la predicción de los valores de la variable dependiente. Por tanto, utilizar el sexo como variable independiente mejoraría la predicción de la satisfacción en un 1% un valor muy bajo y que sigue sin ser significativo estadísticamente. Cómo calcular la Tau de Goodman

4.b Medidas de asociación para variables ordinales:


Cuando nuestras dos variables son ordinales podemos elegir ciertos estadísticos que averiguan si conocer el orden de los casos en una variable resulta útil para predecir el orden de otra. Estos estadísticos toman valores entre -1 y 1. Donde 0 es independencia, -1 dependencia negativa perfecta (A mayor “x” menor “y” y viceversa), y 1 dependencia positiva perfecta. Entre estos estadísticos encontramos Gamma, Tau-b, Tau-c y D de Sommers. Tienen en común la consideración del ordenamiento de las categorías de las variables considerando todos los pares posibles en una tabla.

  Gamma: La desventaja de este estadístico es que tiende a sobrestimar el grado de relación, por lo que es más común el uso de otros estadísticos para variables ordinales. Suele presentar valores mayores que las tau b y c. Su cálculo se realiza poniendo en relación los casos concordantes con los casos discordantes. Este estadístico no tiene en cuenta el número de casos empatados y tampoco hace correciones según el tamaño de la tabla. Cómo calcular Gamma .

  Tau-b de Kendall: La Tau b de Kendall es parecida a Gamma, aunque tiene en cuenta el número de casos empatados. Toma valores entre -1 y 1, aunque no alcanza los valores extremos en tablas que no son cuadradas, es decir, en tablas con diferente número de filas que de columnas. Cómo calcular la Tau-b de Kendall. 

 Tau-c: : Es parecida a la Tau-b. Alcanza valores extremos en tablas que no son cuadradas, por lo que su uso es recomendable en tablas de tipo rectangular. Para ver su cálculo ir al enlace de la Tau-b.

  D de Sommers: La D de Sommers es un estadístico similar a la Tau-b, aunque su fórmula varía ligeramente. Sus valores también oscilan entre -1 y 1. Presenta tres resultados diferentes: variable x como dependiente, variable y como dependiente y versión simétrica. Cómo calcular la D de Sommers A continuación vamos a ver un par de ejemplos del uso y la interpretación de una tabla de contingencia:

Ejemplos:


Ejemplo 1. Una variable nominal y otra ordinal

Vamos a ver un ejemplo en el que realizamos un análisis de contingencia con dos variables, una de tipo nominal y otra de tipo ordinal. Nuestro ejemplo va a estar basado en el estudio CIS 2980 sobre el último debate de la nación de febrero de 2013. Hemos seleccionado las variables P2 (interés de los debates) y P25 (sexo). Dentro del menú de SPSS análizar/estadísticos descriptivos/tablas de contingencia colocamos la variable sexo en la columna y en la fila la variable interés. En el menú casillas pediremos los porcentajes por columna, además de los observados que salen por defecto. En el menú estadísticos pediremos los estadíscos para variables nominales, ya que al menos una de nuestras variables es de tipo nominal. Pediremos, por tanto, chi, phi, V de Crammer, Coeficiente de contingencia, Lambda y la Tau de Goodman. Le damos a aceptar y obtenemos la siguiente salida en la hoja de resultados.




  

 Echando un primer ojo a la tabla vemos que no hay una relación aparente entre las variables sexo e interés por el debate. En términos generales, hombres y mujeres parecen presentar porcentajes muy similares de interés. Por ejemplo, un 28,2% de los hombres creen que para la gente estos debates son bastante interesantes, porcentaje similar al de las mujeres con un 29,4%. Sin embargo, el nivel de significación de la chi cuadradado es de 0,00, lo que indica que estas dos variables se hayan relacionadas de algún modo. Ya hemos alertado que la chi cuadrado es muy sensible a determinados supuestos. Uno de ellos es que un elevado porcentaje de casillas con una frecuencia inferior a 5 imposibilita el uso de este estadístico. En este caso hay 2 casillas (un 16,7% del total) que tienen una frecuencia observada inferior a 5. Como la frecuencia observada difiere mucho de la frecuencia esperada, el estadístico se vuelve significativo a pesar de que no existe relación verdadera entre ambas variables. Por ende, todos aquellos estadísticos basados en la chi cuadrado indicarán cierto grado de relación entre las variables. Sin embargo, aquellos basados en el error parecen ser algo más resistentes a este efecto, por lo que si nos encontramos con un caso en el que hay muchas casillas con frecuencias pequeñas y no queremos recodificar las variables, lo más indicado será el uso de los estadísitcos basados en el error, como Lambda o la Tau de Goodman, aunque tampoco son inmunes, por lo que lo más apropiado es recodificar las variables si la lógica lo permite.

   

 En este caso, el problema es de fácil solución, ya que solo tenemos que eliminar del análisis los casos que no supieron o no que quisieron contestar a esta pregunta. De ahí la importancia de depurar bien la base de datos y de eliminar valores perdidos en los análisis a no ser de que pretendamos buscar una relación causal que motive esa no respuesta. A continuación volvemos a realizar el análisis pero dejando fuera los casos no sabe y no contesta.

 
Cómo se puede observar ahora el nivel de siginificación es de 0,227, por tanto, mayor que 0,05. Por ello, no podemos rechazar la hipótesis inicial y decimos que las variables sexo e interés no están relacionadas entre sí. El resto de estadísticos basados en la chi cuadrado ahora tampoco son significativos y su valor ha bajado considerablemente hasta 0,053.

 

Ejemplo 2. Una variable nominal y otra ordinal

Vamos a ver otro ejemplo parecido pero con variables que guardan cierta relación entre ellas para ver cómo se comportan nuestros estadísticos: La base de datos que vamos a usar es el estudio 2833 del CIS sobre hábitos deportivos en 2010. Las variables que vamos a usar son P1 (interés por los deportes) y la P65 (sexo).


   


Un 74,3% de los hombres se interesa mucho o bastante por el deporte, mientras que entre las mujeres este porcentaje es de un 51,1%. Se puede apreciar, por tanto, cierto grado de relación entre ambas variables pero para asegurarnos debemos comprobar pidiendo los estadísticos correspondientes.

   

Como vemos en este estudio hay muchos casos (n= 8.909) por lo que la chi cuadrado saldrá muy alta y probablemente significativa. Es necesario pedir los estadísticos basados en chi cuadrado que como hemos visto tienen en cuenta el número de casos.
   

 La relación entre ambas variables es fuerte ya que la V de Crammer tiene un valor de 0,271. En datos procedentes de encuestas es raro encontrar estadísticos con grados muy altos de relación. Normalmente a modo de norma no escrita en investigación social podemos considerar una relación fuerte cuando la V de Crammer es mayor que 0,240. Esta norma no es fija y como siempre además del estadístico que resume la información de la tabla es preferible examinar detalladamente la tabla.


 

Por el contrario, en los estadísticos basados en el error obtenemos menor fuerza de relación. Según el estadístico lambda conocer el interés por los deportes de una persona nos ayuda a reducir el error de la variable sexo en un 21,8% un porcentaje a tener en cuenta. Sin embargo, conocer el sexo no nos ayuda a conocer el interés, de hecho SPSS nos alerta de que no es posible dicho cálculo porque el error típico asintótico es igual a 0. Por tanto, nuestras dos variables se hayan relacionadas, aunque dicha relación no es suficiente para realizar buenas predicciones de una variable conociendo los valores de la otra.

Ejemplo 3. Dos variables ordinales

Por último, vamos a ver un ejemplo en el que ponemos en relación dos variables de tipo ordinal. El estudio que vamos a utilizar es el mismo del ejemplo anterior 2833 del CIS sobre hábitos deportivos. Hemos elegido las variables edad e interés por los deportes. Como en el caso anterior hemos eliminado del análisis los casos perdidos. La variable continua edad la hemos recodificado en una variable ordinal según intervalos óptimos a la variable interés deporte para que presente las mayores diferencias posibles entre estas dos variables. Antes de nada, hemos de comprobar cómo están ordenadas las categorías de nuestras variables. La variable P1 (interés deporte) está ordenada de menor a mayor, mientras que la variable edad está codificada de mayor a menor. A fin de facilitar el análisis es aconsejable hacer que nuestras variables presenten un mismo tipo de ordenación. Para ello,  recodificamos P.1 en orden inverso.



 

 Los estadísticos para variables ordinales muestran una ligera relación de carácter negativo. A mayor edad, menor interés por el deporte y viceversa. En la tabla de contingencia podemos ver que un 30% de los menores de 27 están muy interesados por el deporte, mientras que este porcentaje va disminuyendo progresivamente hasta los mayores de 72 con un 12,4%. Las categorías mucho y nada interrelacionan muy bien con la edad, sin embargo las categorías bastante y poco presentan porcentajes similares para todas las edades, por lo que lo estadísticos no muestran una relación muy pronunciada. Aún así queda patente el mayor interés de los más jóvenes por los deportes. La significación aproximada es menor que 0,5, por lo que dicha relación puede ser extrapolada al conjunto de la población. Es decir, las diferencias observadas en nuestra muestra son extrapolables al conjunto de la población, en este caso los españoles.

Artículos relacionados en este blog


Cálculo de chi cuadrado Cálculo de lambda Cálculo de tau de Goodman Calculo de Gamma Tau-b y c de Kendall Cálculo D de Sommers

9 comentarios:

  1. excelente blog, es un aporte a la comprensión de las asociaciones estadísticas y es realmente muy gráfico y permite una adecuada orientación, excelente...

    ResponderEliminar
  2. muchas gracias Marcelo, tenía un poco olvidado el blog y entré por pura casualidad pero me alegra ver que te fue útil :)... igual me animo a alguna entrada más adelante

    ResponderEliminar
  3. muy interesante, esta información me va ha ayudar mucho en mis labore. Gracias.

    ResponderEliminar
  4. muy interesante, esta información me va ha ayudar mucho en mis labore. Gracias.

    ResponderEliminar
  5. Gracias!, muy buen contenido. ojalá tambien aplicara para software como R studio

    ResponderEliminar
  6. Gracias por tu comentario Angie, es posible que incluya algo en el futuro.

    ResponderEliminar
  7. Hola. Muchas gracias por la clara explicación de todo esto. Una pregunta: ¿has publicado toda esta información en algún artículo o libro? Me gustaría citarla, pero queda mejor cuando no es de un blog, je, je...

    ResponderEliminar
  8. Muy bien explicado y correcta clasificación..

    ResponderEliminar