next up previous
Next: Bibliografía Up: 5 Análisis de la Varianza Previous: 5.1 Análisis de la Varianza con un sólo

5.2 Análisis de la Varianza Multifactorial

El procedimiento Modelo Lineal General Univariante proporciona un Análisis de Regresión y un Análisis de la Varianza para una variable dependiente (respuesta) con uno o más factores, o covariables. Los factores dividen la población en grupos. Con este procedimiento se pueden investigar las interacciones entre los factores, así como los efectos de los factores individuales, algunos de los cuales pueden ser aleatorios. Además se pueden incluir los efectos de las covariables y las interacciones de las covariables con los factores. Para el Análisis de Regresión, las variables independientes (predictoras) se especifican como covariables.


Se consideran tanto los modelos balanceados como los que no. Esto es, un diseño es balanceado si cada casilla del modelo contiene el mismo número de casos. Además de contrastar las hipótesis el procedimiento MLGU genera las estimaciones de los parámetros.


También están disponibles en esta opción los contrastes a priori de uso más habitual. Por otra parte, si en el análisis de la varianza global la F ha mostrado cierta significación, se pueden emplear las pruebas Post Hoc para evaluar las diferencias entre las medias especificadas. Las medias marginales estimadas ofrecen estimaciones de los valores de las medias pronosticadas para las casillas del modelo; los Gráficos de Perfil de estas medias (gráficos de interacciones) permiten observar fácilmente algunas de las relaciones entre los factores.


Calcula los residuos, valores pronosticados, distancia de Cook, y valores de influencia como variables nuevas para comprobar los supuestos, información toda ella que permite guardar en un archivo de datos.


Para seleccionar este procedimiento elegimos de forma seguida las siguientes opciones desde el menú principal:


\fbox{\textsl{Analizar}}


                \fbox{\textsl{Modelo lineal general}}


                        \fbox{\textsl{Univariante}}


Entonces se abre un cuadro de diálogo con una serie de campos y botones. Entre los campos nos encontramos con:

Dependientes: se recoge aquí la variable respuesta que se desea analizar.

Factores Fijos: se introducen aquellos factores cuyos efectos de los niveles se quieren estudiar de manera precisa.

Factores Aleatorios: en este campo se colocan aquellos factores donde se selecciona de forma aleatoria los niveles a estudiar, y luego se extrapolan los resultados al resto.

Covariables: se introducen las covariables, esto es, aquellas otras variables que guardan relación con la variable respuesta y están medidas como la misma, en escala de intervalo o de razón.

Ponderación MCP: permite especificar una variable para ponderar las observaciones de forma diferente en un análisis de mínimos cuadrados ponderados (MCP). Esto se suele hacer para compensar la distinta precisión de las medidas.

En cuanto a los botones, se tienen los siguientes:


a) MODELO. Este botón esconde un cuadro con las siguientes opciones:


Especificar modelo. Por defecto está activa la opción Factorial Completo, la cual considera los efectos principales de todos los factores, los efectos principales de todas las covariables y todas las interacciones entre los factores. No contempla las interacciones entre las covariables, ni de los factores con las covariables. Para especificar un determinado conjunto de interacciones se ha de seleccionar el campo Personalizado. En este caso se activan los campos:


Factores y Covariables: muestra una lista de los factores y las covariables, etiquetando con F a los factores fijos, con C a las covariables y con R a los factores aleatorios.


Modelo: depende de la naturaleza de los datos. Aquí mediante el campo Construir término, se pueden elegir los efectos principales y las interacciones que sean de interés en el análisis, y que se quieren contemplar en el modelo.


Suma de Cuadrados. Aquí se indica el método para calcular las sumas de cuadrados, que por defecto es el Tipo III. Los otros tipos de sumas de cuadrados se utilizan según sea un modelo balanceado o no, anidado o no, con o sin categorías o combinación de categorías vacías. Así por ejemplo, si para alguna combinación de niveles el grupo está vacío se recomienda utilizar la suma de cuadrados Tipo IV.


Incluir la intersección en el modelo. La intersección se incluye normalmente en el modelo. Si se supone que los datos pasan por el origen se puede excluir ésta.


b) CONTRASTES. Este botón se usa para contrastar las diferencias entre los niveles de un factor. A los contrastes de este tipo se les denomina Contrastes Planificados o a Priori. Se puede especificar un contraste para cada factor en el modelo. Los contrastes representan las combinaciones lineales de los parámetros.


El contraste de hipótesis se basa en la hipótesis nula $ H_{0}: LB = 0$, donde $ L$ es la matriz de coeficientes del contraste y $ B$ es el vector de parámetros. Cuando se especifica un contraste, el SPSS crea una matriz $ L$ en la que las columnas correspondientes al factor coinciden con el contraste. El resto de las columnas se corrigen para que la matriz $ L$ sea estimable.


Los contrastes disponibles son:

Desviación. Compara las medias de los distintos niveles del factor, excepto la media de la categoría de referencia, con la media global de la variable dependiente de todos los niveles.

Simples. Compara la media de cada nivel, excepto la del nivel de referencia con la media del nivel de referencia.

Diferencia. Compara la media de cada nivel (excepto la del primero) con la media de todos los niveles que le preceden.

Helmet. Compara la media de cada nivel (excepto la del último) con la media del resto de los niveles que le siguen.

Repetida. Se compara la media de cada nivel del factor con la media del nivel que le precede.

Polinomial. Cada fator es contrastado a través de un polinomio lineal, cuadrático, cúbico, etc.


En los contrastes de desviación y contrastes simples, se puede determinar la categoría de referencia pudiendo ser la primera o la última.


c) GRÁFICOS DE PERFIL. Son gráficos de líneas en el que cada punto indica la media marginal estimada de una variable dependiente (corregida respecto a las covariables) en un nivel de un factor. Los niveles de un segundo factor se pueden utilizar para generar líneas diferentes, mientras que cada nivel de un tercer factor se utilizaría para crear gráficos distintos. Permiten visualizar la posible interacción entre factores. Si las líneas en el gráfico se cruzan existe interacción, si por el contrario, las líneas son paralelas no la hay. También con ellos, se puede observar la tendencia de los valores promedios de la variable dependiente para los distintos niveles de cada factor.


Una vez se ha elegido los factores a representar, se debe pulsar el botón AÑADIR para incluirlos en la lista de gráficos. En caso contrario, el sistema muestra un aviso.


d) POST HOC. Tras saber que existen diferencias entre las medias, las pruebas de rango Post Hoc y las comparaciones múltiples por parejas permiten determinar las medias que difieren. Las comparaciones se realizan sobre valores sin corregir, y sólo se utilizan tales pruebas para factores de efectos fijos.


e) GUARDAR. Este botón nos abre un cuadro que nos permite guardar los valores pronosticados por el modelo, los residuos y las medidas relacionadas como variables nuevas en el editor de datos. Muchas veces, estas variables se pueden utilizar para examinar supuestos sobre los datos. Dentro de este cuadro se tiene:


Valores pronosticados: nos referimos a los pronosticados no tipificados y los errores tipificados de los valores pronosticados. Si ha seleccionado una variable de ponderación MCP, dispondrá así mismo de los valores pronosticados no tipificados ponderados.


Diagnósticos: son medidas para identificar casos con combinaciones pocos usuales de valores para las variables independientes, y casos que puedan tener un gran impacto en el modelo. Las opciones disponibles incluyen la distancia de Cook y los valores de influencia no centrados.


Residuos: un residuo no tipificado es el valor real de la variable dependiente menos el valor pronosticado por el modelo. También se encuentran disponibles residuos eliminados, estudentizados y tipificados. Si ha seleccionado una variable de ponderación MCP, contará además con residuos no tipificados ponderados.


Guardar en archivo nuevo: las estimaciones del modelo. Para cada variable dependiente habrá una fila de las estimaciones de los parámetros, una fila de valores de significación para los estadísticos t de Student correspondientes a las estimaciones de los parámetros, y una fila de grados de libertad.


f) OPCIONES. El cuadro de diálogo que se abre al pulsar este botón contiene estadísticos opcionales. Tales estadísticos se calculan utilizando un modelo de efectos fijos.


- Medias marginales estimadas. Se trata de las medias marginales para cada grupo. Estas medias se corrigen respecto a las covariables, si las hay.


$ \bullet$ Comparar los efectos principales: lleva a cabo comparaciones por parejas no corregidas, entre las medias marginales estimadas para cualquier efecto principal del modelo, tanto para los factores entre sujetos como para los de dentro de los sujetos. Este elemento sólo se encuentra disponible si los efectos principales están seleccionados en la lista de Mostrar las medias para.


$ \bullet$ Ajuste del Intervalo de Confianza: nos permite seleccionar un ajuste de menor diferencia significativa (DMS), Bonferroni o Sidak para los intervalos de confianza y la significación. Este elemento sólo estará disponible si se selecciona Comparar los efectos principales.


- Mostrar. Dentro de este cuadro se recogen las siguientes opciones:


Estadísticos Descriptivos: entre los que se encuentran medias muestrales, desviaciones típicas y frecuencias para cada variable dependiente en todos los grupos.


Estimaciones del tamaño del efecto: ofrece un valor parcial de eta-cuadrado para cada efecto y cada estimación de los parámetros. El estadístico eta-cuadrado describe la proporción de variabilidad total atribuible a un factor.


Potencia observada: produce la potencia de la prueba cuando la hipótesis alternativa se ha establecido basándose en el valor observado.


Estimaciones de los parámetros: genera las estimaciones de los parámetros, los errores típicos, las pruebas t de Student donde se contrastan los parámetros con el valor 0, los intervalos de confianza y la potencia observada de la prueba.


Matriz de coeficientes de contraste: con ella se obtiene la matriz $ L$.


Las pruebas de homogeneidad: realiza el test de Levene para contrastar la igualdad de varianzas para cada variable dependiente en todas las combinaciones de niveles de los factores entre sujetos.


Diagramas de dispersión por nivel y Gráfico de los residuos: son útiles para comprobar los supuestos sobre los datos. Estos elementos no están activos si no hay factores.


Gráficos de los residuos: produce un gráfico de los residuos observados respecto a los pronosticados, y respecto a los tipificados para cada variable dependiente. Estos gráficos son útiles para investigar el supuesto de varianzas iguales.


Falta de ajuste: para comprobar si el modelo puede describir de forma adecuada la relación entre la variable dependiente y las variables independientes.


Función estimable general: permite construir pruebas de hipótesis personales basadas en la función estimable general. Las filas en las matrices de coeficientes de contraste son combinaciones lineales de la función estimable general.


- Nivel de significación. Para indicar el nivel de significación usado en las pruebas Post Hoc y el nivel de confianza empleado para construir intervalos de confianza. El valor especificado también se utiliza para calcular la potencia observada para la prueba. Si especifica un nivel de significación, el cuadro de diálogo mostrará el nivel asociado de los intervalos de confianza.


Ejemplo 5.3. Veamos la influencia sobre el tiempo dedicado a la docencia (variable respuesta) de los factores Categoría y Número de Asignaturas que imparte el profesor. Para ello seleccionamos:


\fbox{\textsl{Analizar}}


                \fbox{\textsl{Modelo lineal general}}


                                \fbox{\textsl{Univariante}}


Entonces se abre el cuadro de diálogo en el que se introduce la variable Tiemdoc como Variable Dependiente, y las variables Categoría y Numasig como Factores de Efectos Fijos.


A continuación seleccionamos el botón GRÁFICOS y elegimos las variables Categoría para el Eje horizontal y Numasig para Líneas distintas. Presionamos AÑADIR y CONTINUAR para volver al cuadro principal. Con esto podemos ver si existe o no interacción.


Pulsamos también el botón OPCIONES y elegimos la Prueba de Homogeneidad y el Gráfico de los Residuos.


Volviendo al cuadro principal, pulsamos el botón de ACEPTAR para ejecutar el procedimiento. Con ello se obtienen tres tablas:


- En la primera se muestra un simple resumen del número de profesores de cada categoría y del número de profesores según el número de asignaturas que imparte.


- La segunda tabla se refiere al constraste de Levene sobre la igualdad de varianzas, cuyo resultado aparece en la Tabla 6. Como se puede ver, el p-valor 0.003 es menor que 0.05, luego se rechaza que las varianzas sean iguales.


Tabla 6: Contraste de Homogeneidad de Varianzas
Contraste de Levene sobre la igualdad de las varianzas error $ \mathbf{^a}$


Variable dependiente: Tiempo diario para la docencia


F gl1 gl2 Significación.
2,737 15 64 0,003


Contrasta la hipótesis nula de que la varianza error de la variable dependiente es igual a lo largo de todos los grupos.


a.Diseño: Intercept + Categoría + Numasig + Categoría*Numasig


- La última tabla que muestra 7 recoge el Anova. En ella, los p-valores son todos menores que 0.05, salvo el de la interacción que es de 0.685. Esto quiere decir, que tanto la categoría del profesor como el número de asignaturas que imparte influyen en el tiempo que dedica a la docencia, pero la interacción no. El sistema también muestra el R cuadrado que vale en este caso, 0.789, lo que indica que el 78.9% del tiempo dedicado a la docencia por los profesores es explicado por el modelo.


Tabla 7: Análisis de la Varianza con Dos Factores
Pruebas de los efectos inter-sujetos

Variable dependiente: Tiempo diario para la docencia


  Suma de        
  cuadrados   Media    
Fuente tipo III gl cuadrática F Significación
Modelo corregido $ 130054,095^{a}$ 15 8670,273 16,890 ,000
Intercept 1305242,259 1 1305242,26 2542,707 ,000
Categoría 21788,020 5 4357,604 8,489 ,000
Numasig 8343,455 4 2085,864 4,063 ,005
Categoría * 2022,901 6 337,150 ,657 ,685
Numasig          
Error 32852,977 64 513,328    
Total 3785312,102 80      
Total Corregida 162907,072 79      


$ ^{a}$. R cuadrado =,789 (R cuadrado corregida = ,751)


Dentro de los resultados también se encuentran los siguientes gráficos. El Gráfico de los Residuos que muestra la Figura 7 y el Gráfico de Perfil que recoge la Figura 8. A partir del Gráfico de los Residuos se puede concluir que el modelo es relativamente bueno, ya que el gráfico de observados frente a pronosticados tiene una tendencia a estar sobre una recta creciente. Mientras que en los gráficos de los residuos frente a observados, y residuos frente a pronosticados, los puntos están al azar sin haber un patrón definido. Tal vez un poco menos en el gráfico de residuos frente a observados.


En el Gráfico de Perfil, se puede apreciar que existe cierta interacción entre los factores, ya que las rectas no son paralelas, y algunas se intersectan.

Ya que el Anova nos da que los tiempos medios difieren, podemos saber que grupos tienen medias iguales o distintas. Para ello, entramos de nuevo en el procedimiento MLGU y con las mismas variables seleccionadas, pulsamos el botón POST HOC. Entonces elegimos la variable Categoría y el Test de Duncan. Tras esto, el sistema mostrará dos tablas: en la primera de ellas se muestra las diferencias de medias, el error típico de tal diferencia, el p-valor para el contraste de cada par de medias y el intervalo de confianza. Mientras que en la segunda se recogen los subconjuntos homogéneos.


Las conclusiones que se obtienen es que hay dos grupos homogéneos, en cuanto al tiempo medio dedicado a la docencia, el de profesores ayudante y asociados; y el de titulares de universidad, de escuela y catedráticos de escuela.

Figura 7: Gráfico de los Residuos
\includegraphics[width=0.75\textwidth]{graficos/Residuos.eps}

Figura 8: Gráfico de Perfil
\includegraphics[width=0.75\textwidth]{graficos/Perfil.eps}


next up previous
Next: Bibliografía Up: 5 Análisis de la Varianza Previous: 5.1 Análisis de la Varianza con un sólo