Estadística en Microcomputadores/ANALISIS DE VARIANCIA EN EL SISTEMA ESTAD

CAPITULO 15

ANALISIS DE VARIANCIA EN EL SISTEMA ESTAD

El sistema ESTAD incluye la posibilidad de ejecutar procesos de Análisis de Variancia, con las siguientes características:

- Un factor, con una cantidad igual o desigual de observaciones para cada uno de los grupos definidos por los valores específicos del factor.

- Dos factores, con una cantidad mayor o igual a 1 de observaciones en cada grupo definido por los valores específicos de los factores. Dicha cantidad puede ser desigual en cada grupo, siempre y cuando la variación en la cantidad de observaciones no sea elevada y pueda considerarse aleatoria (no asociada de alguna manera a los valores de los factores).

No se consideran en el sistema las variantes de análisis de covariancia y los casos no paramétricos. Estos últimos pueden realizarse de manera indirecta, en algunos casos, mediante transformaciones previas de los datos a sus valores de rango.

En el Cuadro 15.1 se resumen los procedimientos de cálculo utilizados por el sistema para ejecutar procesos de Análisis de Variancia. Como se aprecia en el Cuadro, el sistema admite en los casos de dos factores la posibilidad de considerar modelos de tipo aditivo o multiplicativo con respecto a los factores.

La ejecución de un proceso de Análisis de Variancia se lleva a cabo mediante el siguiente menú, que aparece al seleccionar el tema en el menú principal del sistema:

PROCESOS

1 - Análisis de variancia

2 - Manejo de Datos

Se aprecia en el menú anterior que es posible llamar a la opción de Manejo de Datos sin tener que volver al menú principal del sistema.

La ejecución de un Análisis de Variancia requiere realizar los siguientes pasos, una vez seleccionado en el menú inicial del tema:

a) Se define el modelo específico a considerar (uno o dos factores y multiplicativo o aditivo, en este segundao caso), mediante el siguiente menú:


MODELOS

1 - Y = Mu + Alfa(X1)

2 - Y = Mu + Alfa(X1) + Beta(X2)

3 - Y = Mu + Alfa(X1) + Beta(X2) + Gama(X1,X2)

Los modelos 1 y 2 son aditivos con respecto a los factores. En cambio, el modelo 3 incluye un término que permite evaluar los efectos sobre la variable respuesta producidos por la interrelación de los factores.

b) Selección de las variables a considerar en el proceso, de las existentes en la memoria de trabajo, siguiendo el procedimiento descripto en . Se ingresan en primer lugar los factores (hasta 2) y, por último, la variable dependiente o respuesta para la cual se realiza el análisis. El proceso de Análisis de Variancia admite la consideración de datos de tipo agrupado.

c) Para cada una de las variables definidas como factores en el paso anterior, se ingresan los valores que permiten definir los diferentes grupos de observaciones. Este ingreso se realiza de manera similar al descripto en el proceso de clasificación ( paso b) de la sección ).

d) Ejecución por el computador del proceso sobre el juego de datos definido y presentación en pantalla de los siguientes resultados:

- Valor medio general de la variable dependiente.

- Para cada grupo en que se clasifican los valores de la variable dependiente:

. Número de observaciones

. Efectos diferenciales sobre la media general debidos a cada factor.

. En el caso de dos factores y un modelo de tipo multiplicativo el efecto diferencial sobre la media general, para cada combinación específica de los dos factores involucrados.

- Tabla resumen de la verificación del grado de significación de los efectos de cada factor sobre los valores de la variable dependiente. En la tabla se incluyen, para cada factor individual y para la interrelación, en el caso multiplicativo, los siguientes elementos:

. Suma de desvíos cuadraticos

. Grados de libertad

. Desvíos cuadráticos medios

. Estadística F

. Niveles de significación de la estadística F

En la misma tabla se incluye la suma de errores cuadráticos resultante del modelo de Análisis de Variancia, así como los grados de libertad correspondientes y el desvío cuadrático respectivo.

Si se está realizando un análisis con dos factores y los datos contienen una cantidad desigual de observaciones en cada grupo se presenta en pantalla el correspondiente mensaje.

e) Ejecución optativa de un proceso complementario, mediante su selección en el siguiente menú:

PROCESOS COMPLEMENTARIOS

1 - Cálculo de Valores Estimados y residuos

2 - Cálculo de Intervalos de Confianza por Grupos

3 - Comparación entre Grupos

La primera opción permite calcular los valores de la variable respuesta estimados por el modelo de Análisis de Variancia, así como los residuos resultantes entre ellos y los valores experimentales, pudiendo almacenarlos en la memoria de trabajo.

La segunda opción permite comparar las medias de la variable respuesta en cada grupo.

Finalmente, la tercera opción posibilita efectuar pruebas sobre la significación de la diferencia entre medias de la variable respuesta para dos grupos de observaciones.

f) Si en el menú anterior se seleccionó la opción 1, se efectúa la definición optativa de las variables de la memoria de trabajo donde se desea almacenar los valores estimados de la variable dependiente y los correspondientes residuos, siguiendo el procedimiento descripto en el punto .

El computador efectua el proceso, presentando en pantalla los valores reales y estimados de la variable Y, así como los correspondientes residuos, para cada observación, almacenando estos dos últimos en las posiciones definidas de la memoria de trabajo.

g) Si en el menú anterior se seleccionó la opción 2, el computador efectua el proceso correspondiente y presenta el pantalla los siguientes resultados, para cada combinación de valores de los factores:

- Promedio de la variable dependiente para las observaciones que se encuentran dentro del grupo.

- Valores mínimo y máximo del intervalo de confianza del promedio.

- Gráfico del intervalo de confianza.


h) Si en el menú anterior se eligió la opción 3, se ingresan los valores de los factores que definen los dos grupos para los que se desea verificar los valores de la variable dependiente. A partir de ello el computador efectua el proceso, presentando en pantalla el valor de la estadística de prueba y el correspondiente nivel de significación .

Como ejemplo de aplicación del procedimiento descripto presentamos en el Cuadro 15.2 la ejecución de un Análisis de Variancia sobre el juego de datos de nacimientos (NATIVBA), cargado previamente en la memoria de trabajo. El proceso consiste en el análisis del tiempo de gestación con respecto a dos factores: la actividad de la madre (si trabaja o no) y su edad. El modelo adoptado en el ejemplo es de tipo multiplicativo, es decir, considera el efecto de la interrelación entre los dos factores, además de los efectos independientes de cada uno de ellos. Los cálculos principales realizados son:

Valores medios y cantidad de observaciones, por grupos:

Edad

15 25 35 Total


=1 38.72 39.29 39.3 39.09

64 97 20 181

Actividad -------------------------------------------

>1 38.17 39.25 39.14 38.84

18 24 7 49


Total 38.60 39.28 39.26 39.04

82 121 27 230


Estimación de efectos diferenciales:

= 39.09 - 39.04 = 0.05

= 38.84 - 39.04 = -.20

= 38.28 - 39.04 = -.76

= 39.28 - 39.04 = 0.24

= 39.26 - 39.04 = 0.22

= 38.72 - 38.60 - 39.09 + 39.04 = 0.07

............

= 39.14 - 38.84 - 39.26 + 39.04 = 0.08

Número promedio de observaciones por grupo:

15 - 248

njk = 2*3 / (1/64+1/97+...+1/24+1/7) = 18.99

Suma de Desvíos Cuadráticos:

p=3 q=3

SD1 = 18.99*3*( (39.09-39.04)2 +...) = 2.44

SD2 = 18.99*2*( (38.60-39.04)2 +...) = 24.37

SD12 = 18.99*( (38.72-38.60-39.09-39.04)2+...) = 2.19

SDe = (39-39.3+39.04)2+(40-38.17+39.04)2 = 2090.72

SDt = SD. = 2119.72

Grados de Libertad:

Factor 1 = 2 - 1 = 1

Factor 2 = 3 - 1 = 2

Interr.12 = (2 - 1)*(3 - 1) = 2

Error = 230 - 2*6 = 224

Total = 1 + 2 + 2 + 224 = 229

Desvíos Cuadráticos Medios:

DM1 = 2.44/1 = 2.44

DM2 = 24.37/2 = 12.19

DM12 = 2.19/2 = 1.1

DMe = 2090.72/224 = 9.33

Estadísticas F:

F1 = 2.44/9.33 = 0.26

F2 = 12.19/9.33 = 1.31

F12 = 1.095/9.33 = 0.12

Niveles de Significación :

= 100*( 1 - FF(0.26) ) = 100*(1 - 0.3843) = 61.57%

Parámetros de FF(): k1 = 1 k2 = 224

= 100*( 1 - FF(1.31) ) = 100*(1 - 0.7276) = 27.24%

Parámetros de FF(): k1 = 2 k2 = 224

= 100*( 1 - FF(0.12) ) = 100*(1 - 0.1155) = 88.45%

Parámetros de FF(): k1 = 2 k2 = 224


CUADRO 15.1 - PROCESO DE ANALISIS DE VARIANCIA

a) Caso de Un Factor (X)

Valores posibles del Factor X: x1, x2, ...,xj, ...,xp

Cada valor xj del factor X define un grupo de nj observaciones de la variable respuesta Y (los nj pueden ser diferentes entre sí). j nj = n

Modelo: yij = + j + ei

siendo:

yij Observación i de la variable Y, asociado a un valor xj del factor X.

Valor esperado de la variable Y.

j Efecto diferencial sobre la variable Y debido al valor

xj del factor X.

ei Error o residuo del modelo en la observación i.

Valores medios de la variable Y:

Media para cada grupo j: yj = 1/nj yij

Media general y = 1/n yij

Estimación de parámetros del modelo

= y

= yj - y

Verificación de la significación de los efectos diferenciales

(si los j son o no = 0):

Causa de Suma de Grados de Desvíos Estad. Nivel

variación Desvíos Libertad Cuadráticos F de

de Y Cuadrat. Medios

Signific


Factor X SDx = kx = DMx = F = 1-FF(F)

nj(yj-y)2 p-1 SDx/kx DMx/DMe

Errores SDe = ke = DMe =

ei (yij-yj)2 n-p SDe/ke

Total SDT = kt =

(yij-y2 n-1


FF(): Función de Probabilidad acumulada de una distribución

"F" con parámetros k1=p-1, k2=n-p

b) Caso de Dos Factores (X,W)

Valores posibles de los factores:

X: x1, x2, ..., xj, ..., xp

W: w1, w2, ..., wk, ..., wq

cada combinación de valores xj, wk de los factores define un

grupo con njk valores de la variable respuesta Y (los

njk pueden ser diferentes entre sí, mientras la

diferencia sea relativamente pequeña y sea de carácter

aleatorio). njk = n

Número medio de observ. por grupo: ng = pq/ (1/njk)

Modelo: yijk = + j + k + jk + ei

siendo:

yijk Observación de la variable Y, asociada a valores xj, wk de los factores.

Valor esperado de la variable Y.

j Efecto diferencial sobre la variable Y debido al valor

xj del factor X.

k Idem, valor wk del factor W.

jk Idem, combinación de valores xj, wk de los factores X e

Y (no se considera en un modelo aditivo).

ei Error o residuo del modelo en la observación i.

Valores Medios de la variable Y:

. Media para cada grupo jk: yjk = 1/njk yijk

. Media para cada valor factor X: yj = 1/q yjk

. Media para cada valor factor Y: yk = 1/p yjk

. Media General: y = 1/pq yjk

Estimación de parámetros del modelo (efectos diferenciales):

= y

j = yj - y

k = yk - y

jk = yjk - yj - yk + y

Verificación de la significación de los Efectos Diferenciales

(si los j, k, jk son o no = 0):

Causa de Suma de Grados de Desvíos Estad. Nivel

variación Desvíos Libertad Cuadráticos F de

de Y Cuadrat. Medios

Signific


Factor X SDx = kx = DMx = Fx= 1-FF(Fx)

ngq (yj-y)2 p-1 SDx/kx DMx/DMe

Factor W SDw = kw = DMw = Fw= 1-FF(Fx)

ngp (yk-y)2 q-1 SDw/kw DMw/DMe

Interrrel. SDxw = kxw = DMxw = Fxw= 1-FF(Fxw)

XW ng (yjk-yj-yk+y)2

(p-1)(q-1) SDw/kw DMw/DMe

Errores SDe = ke = DMe =

ei (yijk-yjk+y)2

n-pq SDe/ke

Total SDT = kt =

(yijk-y2 n-1



En el caso de un modelo aditivo ( jk=0) SDxw y kxw se agregan a SDe y ke.

FF(): Función de Probabilidad acumulada de una distribución "F" con parámetros k1=kx, kw ó kxw, k2=ke.