Estadística en Microcomputadores/Pruebas Paramétricas ESTAD
14.1 PRUEBAS PARAMETRICAS
El sistema ESTAD incluye las siguientes pruebas de tipo
paramétrico:
- Una Variable
Sobre el Valor Esperado y sobre el Desvío Estándar
.
- Dos Variables Independientes
Sobre la diferencia - entre Valores Esperados y sobre el cociente / entre Desvíos Estándar.
- Dos variables Relacionadas
Sobre la diferencia - entre Valores Esperados y sobre el coeficiente de correlación
Para cada uno de estos casos el sistema permite también el cálculo de los correspondientes intervalos de confianza.
En el Cuadro 14.1 se resumen los criterios de cálculo utilizados por el sistema en las diversas pruebas enunciadas.
Los elementos consignados en el Cuadro, para cada prueba, son:
- Hipótesis Básica involucrada
- Estadística de prueba para verificar la hipótesis básica.
- Para cada posible hipótesis alternativa:
. Región de Rechazo
. Expresión de cálculo del nivel de significación para el rechazo de la prueba
. Expresión de cálculo del riesgo para una dada hipótesis alternativa
- Expresión de cálculo del intervalo de confianza del parámetro (o relación de parámetros) involucrado en la prueba.
El sistema permite ejecutar las pruebas enunciadas tanto sobre datos experimentales contenidos en la memoria de trabajo como a partir directamente de estadísticas descriptivas ingresadas especificamente para la prueba.
La realización de una prueba paramétrica mediante el sistema requiere ejecutar los siguientes pasos, una vez elegida la opción correspondiente en el menú inicial del tema Pruebas Estadísticas:
a) Selección de la prueba específica a ejecutar, del siguiente menú:
TIPO DE PRUEBA
Una Variable
1 - Mu
2 - Sigma
Dos variables Independientes
3 - Mu1 - Mu2
4 - Sigma1/Sigma2
Dos variables Relacionadas
5 - Mu1 - Mu2
6 - Coef.Correlación Ro
b) Interrogación sobre si se desea efectuar el ingreso directo de las estadísticas a considerar en la prueba seleccionada. En caso de respuesta afirmativa no se utilizan los datos contenidos en la memoria de trabajo, ingresándose los siguientes valores, según la prueba:
- Una Variable
. Número de observaciones, Valor medio y Desvío
Estándar
- Dos variables independientes
. Para cada variable: Número de observaciones, Valor Medio y Desvío Estándar
- Dos Variables relacionadas
. Número de observaciones, Para cada variable: Valor Medio y Desvío Estándar, Coeficiente de correlación
Si se había ejecutado una prueba previa el computador interroga sobre si se definen nuevas variables o estadísitcas para la nueva prueba, o se utilizan las existentes.
c) En el caso de que no se opte por el ingreso directo de las estadísticas a usar en la prueba se definen las variables de la memoria de trabajo a considerar (según procedimiento descripto en ), pudiendo involucrar datos de tipo agrupado. Para la prueba sobre una variable, o sobre dos variables relacionadas, se deben definir una o dos variables de la memoria de trabajo, respectivamente.
En el caso de la prueba sobre dos variables independientes existen dos posibilidades de definición de las variables a considerar en la prueba:
. Las dos muestras se encuentran en la misma variable: deben definirse dos variables, la primera corresponde a la variable cuyos valores permiten establecer las dos muestras y la segunda contiene los datos a considerar en la prueba. En este caso resulta necesario ingresar los valores mínimo y máximo de la primera variable que caracterizan las dos muestras.
. Las dos muestras se encuentran en variables distintas: en este caso se definen directamente dos variables, una para cada una de las muestras a considerar. Un caso u otro se estblece respondiendo a la interrogación sobre si las muestras se encuentran en variables distintas.
Una vez definidas las variables a considerar de la memoria de trabajo, el computador calcula con los datos correspondientes las estadísticas descriptivas requeridas en la prueba seleccionada.
d) Si se eligió la prueba sobre la diferencia entre valores esperados de dos variables independientes se interroga acerca de si se considera o no que las variancias correspondientes son iguales
e) Se interroga acerca de si se desea obtener el intervalo de confianza del parámetro (o relación entre parámetros) considerado por la prueba. En caso de respuesta afirmativa se ingresa el valor a adoptar del nivel de significación (en %) y se pasa a i).
f) Presentación en pantalla de las estadísticas descriptivas correspondientes a los datos definidos e ingreso de las hipótesis básica y alternativa a considerar en la prueba. La primera se establece directamente ingresando el valor numérico de referencia k para la estadística ( o relación entre estadísticas) correspondiente.
A su vez, la hipótesis alternativa se elige de un menú donde se presentan las tres variantes posibles:
HIPOTESIS ALTERNATIVAS
1 - (Estadística) < k
2 - (Estadística) > k
3 - (Estadística) <> k
g) El computador ejecuta el proceso y presenta en pantalla los siguientes resultados:
- Prueba efectuada
- Estadísticas descriptivas consideradas en la prueba
- Hipótesis básica y alternativa
- Valor de la estadística de prueba
- Nivel de significación resultante.
h) De manera optativa se pueden calcular los riesgos para diferentes hipótesis alternativas, ingresando los correspondientes valores de referencia. El computador efectúa su cálculo y presenta en pantalla los valores resultantes.
i) Si se eligió efectuar el cálculo del intervalo de confianza el computador efectua el proceso respectivo y presenta en pantalla los resultados obtenidos. Este cálculo se puede realizar también al final del de , respondiendo afirmativamente a la interrogación correspondiente.
Como ejemplos del proceso descripto se llevan a cabo dos pruebas definidas sobre el juego de datos referidos a nacimientos en la ciudad de Buenos Aires (NATIVBA), cargados previamente en la memoria de trabajo.
En la primera prueba se verifica si existen diferencias significativas en los tiempos de gestación entre las madres que trabajan o no (caso de variables independientes), sin considerar necesariamente igualdad de variancias entre ambos. Los resultados se muestran en el Cuadro 14.2 a), siendo los cálculos principales efectuados los siguientes:
A = 3.12372/177+2.86752/49 = 0.2229
t = (39.096-38.837)/ A = 0.549
Parámetro de t:
k = A2/((3.12372/177)2/176+(2.86752/49)2/48)
= 82
= 100*2*(1 - FStud(0.549)) = 58.99%
para d1 = 0.1:
= 0.1/ A
= 100*(FStud(0.337) - FStud(-0.761)) = 40.7%
Intervalo de Confianza:
(39.096-38.837)-1.95 A<= - <=(39.096-38.837)+1.95 A
-0.6615<= - <=1.1802
El segundo ejemplo implica la verificación acerca de si las edades de los padres son o no significativamente más altas que las de las madres (caso de variables relacionadas). En esta prueba, aunque puede efectuarse a partir de los datos contenidos en la memoria de trabajo se ha preferido, como ejemplo, ingresar directamente los valores de las estadísticas correspondientes, que fueron calculadas en el ejemplo de la aplicación vista en la sección 12.1 . Los rsultados se uestran en el Cuadro 14.2 b) siendo los cálculos principales realizados los siguientes:
s = 11.3032+5.9232-2*0.553*11.303*5.923 = 9.423
t = (28.635-27.278)*( 230 /9.423) = 2.184
Parámetro de la distribución t:
k = 230 - 1 = 229
= 100*(1-FStud(2.184)) = 1.42%
CUADRO 14.1 - PRUEBAS PARAMETRICAS
NOMENCLATURA
Constantes
FT(x) Función de Probabilidad acumulada de una distribución
"t".
FCHI(x) Idem, distribución Chi2.
FF(x) Idem, distribución "F".
tP Valor de la variable t tal que FT(tP)=p.
xP Idem, tal que FCHI(xP)=p.
xF.P Idem, tal que FF(xF.P)=p.
1. PRUEBA SOBRE EL VALOR ESPERADO DE UNA VARIABLE
Hipótesis
Básica =
Estadística
de Prueba t = (x - 0) n / s
Para muestras de tamaño n de una población normal con parámetro 0 la estadística t sigue una distribución "t" con parámtetro k = n-1.
Hipótesis
Alternativa > < =
Región de
rechazo
1-FT(t) FT(t) 2(1-FT( t ))
(para = 1) FT(t- ) 1-FT(t- ) FT(t- )-FT(-t- )
=( 1- 0) n/s
Intervalo
de Confianza x - t /2 s/ n <= <= x + t1- /2 s/ n
2. PRUEBA SOBRE EL DESVIO ESTANDAR DE UNA VARIABLE
Hipótesis
Básica =
Estadística
de Prueba x = (n-1) (s/ 0)2
Para muestras de tamaño de una población Normal con parámetro 0 la estadística x sigue una distribución "Chi", con parámetro k = n-1.
Hipótesis
Alternativa > < =
Región de
Rechazo
1-FCHI(x) FCHI(x) FCHI(xa) +
(1-FCHI(xb) )
xb=x
xa= valor para el que
FCHI(xa)=1-FCHI(x)
(para = 1) FCHI(x/ ) 1-FCHI(x/ ) FCHI(xb/ ) -
FCHI(xa/ )
= ( 1/ 0)2
Intervalo
de Confianza s (n-1)/x1- /2 <= <= s (n-1)/x /2
3. PRUEBA SOBRE LOS VALORES ESPERADOS x Y y DE DOS
VARIABLES INDEPENDIENTES X E Y
Hipótesis
Básica - =d0
Estadística
de Prueba a) Si se considera que las variancias de ambas
variables son iguales ( = ):
t=( xx-xy - d0) / ( s (1/nx+1/ny)
siendo:
s = (nx-1)sx2 + (ny-1)sy2)
nx+ny-2
Para muestras de tamaños nx y ny de variables normales independientes que cumplen la hipótesis básica la estadística t sigue una distribución "t" con parámetro k=nx+ny-2.
b) Si no se considera la igualdad de variancias:
t=(xx-xy-d0)/ (sx2/nx+sy2/ny)
Si las variables son normales independintes y cumplen la hipótesis básica la estadística t sigue aproximadamente una distribución "t" con parámetro k:
k = (s12/n1+s22/n2)2
x/nx)2/(nx-1)2 +
(sy/ny)2/(ny-1)2
(Redondeado a Entero)
Hipótesis
Alternativas >d0 <d0 =d0
Región
de Rechazo Idem a Prueba 1.
Idem a Prueba 1.
(para Idem a Prueba 1, con: =d1)
a) = (d1-d0)/(s 1/nx+1/ny)
b) = (d1-d0)/ (sx2/nx+sy2/ny) Intervalo
de Confianza a) (xx-xy)-t /2 s (1/nx+1/ny) <=
- <= (xx-xy)+t1- /2s (1/nx+1/ny)
b) (xx-xy)-t /2s (sx2/nx+sy2/ny)<=
- <=(xx-xy)-t1- /2s (sx2/nx+sy2/ny)
3. PRUEBA SOBRE LOS DESVIOS ESTANDAR x Y y DE DOS
VARIABLES INDEPENDIENTES X E Y
Hipótesis
Básica = k0
Estadística de Prueba xF = 1/k02 (sx/sy)2
Si las muestras de tamaño nx y ny responden a distribuciones
normales que cumplen la hipótesis básica la estadística xF sigue
una distribución "F" con parámetros k1=nx-1 y k2=ny-1.
Hipótesis
Alternativas >k0 <k0 =k0
Región de
Rechazo
1-FF(xF)) FF(xF) FF(xb)+(1-FF(xa)
xb=xF
xa=valor para el que
FF(xa)=1-FF(xF)
(para FF(xF/ ) 1-FF(xF/ ) FF(xb/ )
/ k1) -FF(xa/ )
Intervalo
de Confianza (sx/sy)/ xF.1- /2 <= /
<=(sx/sy)/ xF. /2
5. PRUEBA SOBRE LOS VALORES ESPERADOS Y DE DOS VARIABLES RELACIONADAS X E Y
Hipótesis
Básica - = d0
Estadística
de Prueba t = ( xx-xy-d0) n / s
siendo: s= sx2+sy2-2rsxsy
Si las muestras de tamaño n siguen una distribución normal bidimensional que cumple la hipótesis básica la estadística t corresponde a una distribución "t" con parámetro k=n-1.
Hipótesis
Alternativas Idem a Prueba 3
Región de
Rechazo Idem a Prueba 3
Idem a Prueba 3
Idem a Prueba 3, siendo:
= (d1-d0) n / s
Intervalo
de Confianza (xx-xy)-t /2 s/ n <= - <=
(xx-xy)+t1- /2 s/ n
6. PRUEBA SOBRE EL COEFICIENTE DE CORRELACION DE DOS
VARIABLES RELACIONADAS X E Y
Hipótesis
Básica = 0
Estadística
de Prueba t = r (n-2)/(1-r2)
Para muestras de dos variables que responden a una distribución Normal bidimensional y que cumplen la hipótesis básica la estadística t sigue una distribución "t" con parámetro k=n-2.
Hipótesis
Alternativas >0 <0 =0
Región de
Rechazo
1-FT(t) FT(t) 2(1 - FT( t ) )
Intervalo de Confianza - 1/(n-2)/t1- /22+1) <= <=
1/(n-2)/t1- /22+1)