Diferencia entre revisiones de «Estadística en Microcomputadores»

Contenido eliminado Contenido añadido
Sin resumen de edición
Partuca (discusión | contribs.)
Sin resumen de edición
Línea 1:
[[Estadística en Microcomputadores/INTRODUCCION|INTRODUCCION]]
 
== PARTE A - LOS PROCESOS ESTADISTICOS ==
#MANEJO DE LOS DATOS ESTADISTICOS
##[[Estadística en Microcomputadores/A.1.1|Presentación]]
##[[Estadística en Microcomputadores/A.1.2|Tipos de variables estadísticas]]
##[[Estadística en Microcomputadores/A.1.3|Organización de los datos estadísticos]]
##[[Estadística en Microcomputadores/A.1.4|Manejo de los datos estadísticos]]
#ANALISIS DESCRIPTIVO DE DATOS
##[[Estadística en Microcomputadores/A.2.1|Cálculo de Estadísticas Descriptivas]]
##[[Estadística en Microcomputadores/A.2.2|Clasificación de datos]]
##[[Estadística en Microcomputadores/A.2.3|Graficación de datos]]
##[[Estadística en Microcomputadores/A.2.4|Análisis Exploratorio]]
#DISTRIBUCIONES DE PROBABILIDAD
##Presentación
##Cálculos con Funciones de Probabilidad
##Ajuste de Distribuciones
##Generación de Valores aleatorios de una distribución
#PRUEBAS ESTADISTICAS
##Presentación General
##Pruebas Paramétricas
##Pruebas no Paramétricas
##Muestreo
#ANALISIS DE VARIANCIA
##Presentación
##El proceso de Análisis de Variancia
##otros casos de Análisis de variancia
#REGRESION
##Presnetación
##Etapas de aplicación de la regresión
##Regresión mediante una función lineal
##Funciones transformables al caso lineal
##Regresión no Lineal general
#ANALISIS MULTIVARIADO
##Presentación
##Análisis de Componentes Principales
##Análisis Discriminante
##Técnicas de Agrupamiento
##Otras técnicas de Análisis Multivariado
#SERIES DE TIEMPO
##Presentación
##Análisis Descriptivo de Series de Tiempo
##Modelos de Ajuste
##Modelos Autorregresivos
##Modelos de Descomposición
##Otros procesos con Series de Tiempo
 
 
== PARTE B - EL SISTEMA ESTAD ==
#CARACTERISTICAS GENERALES DEL SISTEMA ESTAD
##Introducción
##Características Generales
##La consideración de los procesos estadísticos
#OPERACION DEL SISTEMA ESTAD
##Presentación
##Inico de la operación del Sistema
##Parámetros del Sistema
##Operación dentro de un tema específico
##Elementos comunes de la operación
#MANEJO DE DATOS EN EL SISTEMA ESTAD
##Ingreso y Modificación de datos
##Creación de un Archivo de Datos
##Lectura de una Archivo de Datos
##Unión de Archivos
##Salida de Datos
##Selección de datos
##Transformación de datos
#ANALISIS DESCRIPTIVO DE DATOS EN EL SISTEMA ESTAD
##Cálculo de Estadísticas Descriptivas
##Clasificación de Datos
##Cálculo de Estadísticas de Datos Clasificados
##Graficación de Datos
#DISTRIBUCIONES DE PROBABILIDAD EN EL SISTEMA ESTAD
##Cálculos con Funciones de Probabilidad
##Ajuste de Distribuciones
##Generación de Valores Aleatorios
#PRUEBAS ESTADISTICAS
##Pruebas Paramétricas
##Pruebas no Paramétricas
#ANALISIS DE VARIANCIA EN EL SISTEMA ESTAD
#REGRESION EN EL SISTEMA ESTAD
##Regresión Lineal
##Regresión no Lineal General
#ANALISIS MULTIVARIADO EN EL SISTEMA ESTAD
##Análisis de Componentes Principales
##Análisis Discriminante Lineal
##Agrupamiento Jerárquico
#SERIES DE TIEMPO EN EL SISTEMA ESTAD
##Análisis Descriptivo de Series de Tiempo
##Modelos de Ajuste
##Modelos Autorregresivos
##Modelos de Descomposición
 
== APENDICES ==
 
#Estructura de los programas del sistema ESTAD
 
#Archivos de Datos en el sistema ESTAD
 
#Mensajes de Error en el sistema ESTAD
 
#Ejemplos de Datos Estadísticos
 
#Archivos BASIC
 
 
 
ESTADISTICA EN MICROCOMPUTADORES
 
 
 
 
 
Juan Ignacio Hernández
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
http://code.google.com/p/estad/
 
 
 
 
Setiembre, 1989
 
INDICE
 
 
INTRODUCCION
 
PARTE A - LOS PROCESOS ESTADISTICOS
 
CAPITULO 1 - MANEJO DE LOS DATOS ESTADISTICOS
 
1.1 Presentación
1.2 Tipos de variables estadísticas
1.3 Organización de los datos estadísticos
1.4 Manejo de los datos estadísticos
 
CAPITULO 2 - ANALISIS DESCRIPTIVO DE DATOS
 
2.1 Cálculo de Estadísticas Descriptivas
2.2 Clasificación de datos
2.3 Graficación de datos
2.4 Análisis Exploratorio
 
CAPITULO 3 - DISTRIBUCIONES DE PROBABILIDAD
 
3.1 Presentación
3.2 Cálculos con Funciones de Probabilidad
3.3 Ajuste de Distribuciones
3.4 generación de Valores aleatorios de una distribución
 
CAPITULO 4 - PRUEBAS ESTADISTICAS
 
4.1 Presentación General
4.2 Pruebas Paramétricas
4.3 Pruebas no Paramétricas
4.4 Muestreo
 
CAPITULO 5 - ANALISIS DE VARIANCIA
 
5.1 Presentación
5.2 El proceso de Análisis de Variancia
5.3 otros casos de Análisis de variancia
 
CAPITULO 6 - REGRESION
 
6.1 Presnetación
6.2 Etapas de aplicación de la regresión
6.3 Regresión mediante una función lineal
6.4 Funciones transformables al caso lineal
6.5 regresión no Lineal general
 
CAPITULO 7 - ANALISIS MULTIVARIADO
 
7.1 Presentación
7.2 Análisis de Componentes Principales
7.3 Análisis Discriminante
7.4 Técnicas de Agrupamiento
7.5 Otras técnicas de Análisis Multivariado
 
CAPITULO 8 - SERIES DE TIEMPO
 
8.1 Presentación
8.2 Análisis Descriptivo de Series de Tiempo
8.3 Modelos de Ajuste
8.4 Modelos Autorregresivos
8.5 Modelos de Descomposición
8.6 Otros procesos con Series de Tiempo
 
 
PARTE B - EL SISTEMA ESTAD
 
CAPITULO 9 - CARACTERISTICAS GENERALES DEL SISTEMA ESTAD
 
9.1 Introducción
9.2 Características Generales
9.3 La consideración de los procesos estadísticos
 
CAPITULO 10 - OPERACION DEL SISTEMA ESTAD
 
10.1 Presentación
10.2 Inico de la operación del Sistema
10.3 Parámetros del Sistema
10.4 Operación dentro de un tema específico
10.5 Elementos comunes de la operación
 
CAPITULO 11 - MANEJO DE DATOS EN EL SISTEMA ESTAD
 
11.1 Ingreso y Modificación de datos
11.2 Creación de un Archivo de Datos
11.3 Lectura de una Archivo de Datos
11.4 Unión de Archivos
11.5 Salida de Datos
11.6 Selección de datos
11.7 Transformación de datos
 
CAPITULO 12 - ANALISIS DESCRIPTIVO DE DATOS EN EL SISTEMA ESTAD
 
12.1 Cálculo de Estadísticas Descriptivas
12.2 Clasificación de Datos
12.3 Cálculo de Estadísticas de Datos Clasificados
12.4 Graficación de Datos
 
CAPITULO 13 - DISTRIBUCIONES DE PROBABILIDAD EN EL SISTEMA ESTAD
 
13.1 Cálculos con Funciones de Probabilidad
13.2 Ajuste de Distribuciones
13.3 Generación de Valores Aleatorios
 
CAPITULO 14 - PRUEBAS ESTADISTICAS
 
14.1 Pruebas Paramétricas
14.2 Pruebas no Paramétricas
 
CAPITULO 15 - ANALISIS DE VARIANCIA EN EL SISTEMA ESTAD
 
CAPITULO 16 - REGRESION EN EL SISTEMA ESTAD
 
16.1 Regresión Lineal
16.2 Regresión no Lineal General
 
CAPITULO 17 - ANALISIS MULTIVARIADO EN EL SISTEMA ESTAD
 
17.1 Análisis de Componentes Principales
17.2 Análisis Discriminante Lineal
17.3 Agrupamiento Jerárquico
 
CAPITULO 18 - SERIES DE TIEMPO EN EL SISTEMA ESTAD
 
18.1 Análisis Descriptivo de Series de Tiempo
18.2 Modelos de Ajuste
18.3 Modelos Autorregresivos
18.4 Modelos de Descomposición
 
 
APENDICES
 
1 - Estructura de los programas del sistema ESTAD
 
2 - Archivos de Datos en el sistema ESTAD
3 - Mensajes de Error en el sistema ESTAD
4 - Ejemplos de Datos Estadísticos
 
 
NOMENCLATURA
 
 
 
x,y,w,z Variables estadísticas.
 
Número de observaciones en un conjunto de datos estadísticos.
 
xi,yi,wi Valores de las variables X,Y,W en una observación genérica i (i=1,2,...,n).
 
yi Valor de la variable Y para la observación i estimada mediante algún modelo estadístico.
 
x Valor Medio de un conjunto de observaciones de una variable.
 
s Idem, Desvío Estándar.
 
x Valor absoluto de x.
 
exp(x) ex
 
Ln(x) Logaritmo Natural de x.
 
Sen(x),Cos(x)Funciones trigonométricas, expresado x en radianes.
 
a
f(x)dx Integral definida de f(x) entre x=a y x=b.
b
 
q
f(i) Sumatoria de f(i), para todos los valores
i=p enteros de i entre p y q.
 
i f(i) Sumatoria de f(i) para todas las observaciones i entre 1 y n.
 
k! Factorial del número entero k:
 
k! = (k)*(k-1)*(k-2)*...*1 (0!=1)
 
INTRODUCCION
 
 
 
La aplicación de técnicas estadísticas en el análisis de problemas concretos tuvo un marcado incremento con la aparición de los computadores. Ellos hicieron posible ejecutar, de manera rápida, cálculos que hasta ese momento habían requerido un importante esfuerzo manual, lo que dificultaba la aplicación de procedimientos estadísticos conocidos desde mucho tiempo atrás.
 
A su vez, la presencia de los microcomputadores significó otro avance importante en la aplicación de las técnicas estadísticas. Estos equipos poseen una capacidad de proceso suficiente, y continuamente en aumento, para efectuar la mayor parte de las aplicaciones estadísticas usuales, lo que se ve apoyado por características como:
 
- Una alta disponibilidad.
 
- Facilidades para el manejo de datos y su intercambio entre diferentes aplicacionses.
 
- La portabilidad de programas y datos entre diferentes equipos.
 
- La sencillez de utilización, que permite su operación por los mismos usuarios de los resultados.
 
- Una operación intercativa entre el usuario y el equipo, que otorga una gran flexibilidad a la ejecución de procesos como los estadísticos.
 
- La disponibilidad usual de facilidades de graficación interesantes.
 
Las restricciones más importantes que aún poseen los microcomputadores normales en la ejecución de aplicaciones estadísticas están asociadas a su capacidad limitada de almacenamiento de grandes volúmenes de datos y a sus tiempos elevados de ejecución, en el caso de procesos complejos o ante datos de gran tamaño. Dichas limitaciones se van reduciendo paulatinamente, dado el desarrollo continuo que presentan estos equipos.
 
La realización de trabajos estadísticos en un microcomputador puede ser realizada de diferentes maneras, que involucran grados diversos de posibilidades y complejidad.
 
Una primera opción es que el usuario, frente a un problema de tipo estadístico, desarrolle su propio programa de procesamiento, utilizando alguno de los lenguajes generales de programación disponibles para microcomputadores. Esta alternativa, aunque siempre posible, no es inevitable, excepto para aplicaciones complejas y muy específicas. Ello se debe a que, junto al avance
 
 
importante de los microcomputadores en los últimos años, se produjo un proceso ininterrumpido de desarrollo de programas y sistemas que, ejecutados sobre un microcomputador, permitieran que un conjunto nuemroso de usuarios pudieran realizar aplicaciones de tipo estadístico. Este proceso se mantiene en la actualidad, apareciendo periodicamente algún sistema estadístico nuevo, así como versiones mejoradas de los existentes.
 
La alternativa de mayor relevancia dentro de ello es la que ofrecen los programas específicos para desarrollar aplicaciones estadísticas. Estos programas, que se van haciendo cada vez más completos y poderosos, permiten realizar practicamente todos los procesos estadísticos usuales, en mayor o menor medida.
 
Una característica propia de los programas estadísticos es que en general cuentan con facilidades para un manejo amplio de los datos requeridos por los procesos que consideran. Así, disponen de procedimientos para efectuar el ingreso, corrección, transformación y otros procesos sobre los datos, junto con una operación variada de archivos en soportes magnéticos externos.
 
La cantidad de datos que pueden manejar varía según los diversos programas, permitiendo los más poderosos considerar volúmenes importantes, que además se encuentran en crecimiento continuo, debido al aumento permanente de capacidad de archivo de los equipos.
 
Frente a ello, los tiempos de procesamiento son aún de cierta magnitud, sobre todo en aplicaciones complejas o que involucran grandes volúmenes de datos. De todas maneras, esta es también una característica que va mejorando paulatinamente, con el aumento permanente de velocidad de los microcomputadores.
 
Un aspecto importante que permite establecer diferencias significativas entre los diversos programas estadísticos es el propósito principal al que está destinado cada programa específico. Así, existen programas orientados a servir de apoyo en el aprendizaje de la Estadística, de manejo sencillo y capacidad de datos limitada; programas de mayor capacidad, para aplicaciones de nivel intermedio, y programas de gran envergadura, que incluyen procesos complejos y que permiten manejar volúmenes importantes de datos, destinados a aplicaciones de mayor relevancia o a trabajos de investigación.
 
Otra posibilidad para efectuar trabajos estadísticos con microcomputadores es la utilización de programas utilitarios, de aplicación general. Estos programas han tenido un desarrollo importante en los últimos años, siguiendo el de los equipos, constituyéndose en herramientas poderosas para la ejecución de muchas aplicaciones en campos diversos, sin necesidad de tener que elaborar un programa ad-hoc para su ejecución.
 
Los programas utilitarios disponibles se diferencian entre sí basicamente por la estructura de los datos que manejan y por el tipo de procesamiento que sobre éstos puede efectuarse, siendo los más conocidos dentro de ellos los programas tipo Planilla de Cálculo, los programas de manejo de Bases de Datos, Editores, Procesadores de textos y graficadores, entre otros.
De ellos los de mayor aplicación potencial al tema estadístico son los de tipo Planilla de Cálculo ("spread-sheet"), ya que están específicamente configurados para manejar y efectuar cálculos sobre una organización matricial de datos usual en los procesos estadísticos. Además, estos programas utilitarios tienen en general incorporados para su ejecución directa ciertos procesos estadísticos de aplicación frecuente, pudiendo una buena parte de los restantes ser implementados con mayor o menor trabajo utilizando las facilidades de cálculo que los programas contienen.
 
 
 
De todo lo anterior se desprende que la utilización de microcomputadores en aplicaciones estadísticas presenta en la actualidad numerosas posibilidades e involucra diversos aspectos, que deben ser conocidos y apreciados, para que dicha utilización pueda ser efectiva.
 
Tratando de responder a esta necesidad el libro pretende servir de ayuda para un mejor conocimiento y uso de las posibilidades que brindan los microcomputadores en el desarrollo de aplicaciones estadísticas, así como suministrar una herramienta concreta, a nivel de programa, que pueda ser usada de manera directa y sencilla para realizar procesos estadísticos en un microcomputador. De acuerdo a este objetivo el libro está orientado a aquellas personas que, con un conocimiento por lo menos básico de Estadística, desean iniciarse en la utilización de microcomputadores en aplicaciones de esa disciplina.
 
El contenido del libro está organizado en dos partes, pretendiendo responder cada una de ellas a un propósito específico dentro del objetivo general planteado.
 
En la Parte A, entre los capítulos 1 y 8, se desarrolla una apreciación sintética de los temas estadísticos más usuales. En dicha apreciación se consideran los aspectos básicos de cada tema, destacando aquellos aspectos que interesan en su tratamiento computacional. No se desarrollan en detalle en la parte A procedimientos de cálculo concretos ni aspectos conceptuales ligados a las condiciones de aplicación e interpretación de resultados.
 
Esta primera parte, en su conjunto, pretende servir para lograr una apreciación básica de los procesos estadísticos involucrados en las implementaciones computacionales (particularmente en micros). Debe destacarse que dicha apreciación no resulta autosuficiente para lograr un conocimiento conceptual completo de los diversos temas considerados, resultando conveniente para leerla tener un conocimiento previo, por lo menos general, de cada tema estadístico tratado.
La aplicación práctica de la Estadística involucra, en un sentido amplio, algún trabajo numérico con datos experimentales, a fin de extraer de ellos un conocimiento mayor o alguna conclusión sobre la realidad de la que dichos datos provienen.
 
Existen numerosos procesos que, con diferentes criterios, permiten efectuar dicho trabajo, pudiendo ser agrupados de acuerdo a sus característica básicas en temas estadísticos representativos. En el libro adoptamos una clasificación y ordenamiento bastante usuales de los temas estadísticos, sobre todo vinculadas a las herramientas computacionales. Dicha clasificación es la siguiente:
 
1) Manejo de Datos
 
Involucra aquellos procesos que permiten manipular los datos estadísticos de manera que puedan ser despúes considerados en los restantes procesos estadísticos.
 
2) Análisis Descriptivo de Datos
 
Contempla aquellos procesos que posibilitan obtener un mayor conocimiento a partir de los datos en análisis, sin definir a priori hipótesis que expliquen el comportamiento de dichos datos.
 
3) Distribuciones de Probabilidad
 
Abarca los procesos que manejan modelos probabilísticos de comportamiento de variables estadísticas, denominados Distribuciones de Probabilidad.
 
4) Pruebas Estadísticas
 
Los procesos que incluye permiten verificar el cumplimiento de hipótesis que se plantean con respecto al comportamiento de variables estadísticas.
 
5) Análisis de Variancia
 
Implica el uso de modelos que permiten explicar los valores de una variable independiente o respuesta, en función de diferentes grupos en los que se pueden clasificar los valores de aquella.
6) Regresión
 
Abarca el manejo de modelos que permiten también explicar los valores de una variable independiente, en función de un cierto conjunto de variables independientes.
 
7) Análisis Multivariado
 
Involucra diversos procesos que permiten analizar en forma simultánea valores experimentales de un conjunto importante de variables estadísticas.
 
8) Series de Tiempo
 
Abarca los procesos estadísticos que pueden llevarse a cabo con datos experimentales que responden a un ordenamiento temporal.
 
 
En la Parte B del libro, abarcando los capítulos 9 a 18, se presenta y describe una herramienta concreta para la ejecución de procesos estadísticos en un microcomputador: el sistema ESTAD. Este sistema, compuesto por un conjunto integrado de programas en lenguaje BASIC, tiene por finalidad principal servir como herramienta computacional de gran disponibilidad y sencillez útil como apoyo al aprendizaje estadístico básico, así como para adquirir experiencia sobre el uso de herramientas de microcomputación en aplicaciones de esa disciplina. De manera complementaria el sistema ESTAD puede ser utilizado en aplicaciones estadísticas a problemas efectivos que involucren volúmenes pequeños de datos. Otra utilidad del sistema es la de proveer un conjunto de rutinas estadísticas integradas en lenguaje BASIC, que pueden incorporarse a programas desarrollados ad-hoc para aplicaciones específicas.
 
El sistema ha sido diseñado siguiendo la organización de los procesos estadísticos adoptada en la Parte A del libro, con lo cual ésta le sirve de marco de referencia para la apreciación de los procesos estadísticos que contiene y de los resultados que suministra.
 
La disponibilidad del sistema ESTAD es directa, ya que se encuentra grabado en su totalidad en el diskete que incluye en el libro. Por otra parte, está construido en lenguaje BASIC intérprete, que se dispone en general como lenguaje estándar en los microcomputadores. Ello hace que el sistema sea transparente, pudiéndoselo modificar, agregarle procesos, o utilizar algunas de sus rutinas en programas especìficos.
 
Otra característica del sistema es que en sus procesos se utilizan criterios de cálculo sencillos y en general de fácil comprensión, en lugar de aquellos más elaborados, actualizados y de mayor eficiencia computacional. Esta característica facilita enormemente la utilización del sistema como apoyo al aprendizaje, pero involucra tener precaución en su uso frente a datos con características anómalas.
 
Dicha precaución además se debe tener en la utilización del sistema en aplicaciones a problemas reales, de la misma manera que en cualquier otro sistema estadístico. Resulta necesario conocer la adecuación y limitaciones de las técnicas empleadas en cada caso, así como los criterios para interpretar los resultados, elementos éstos que no se consideran en el libro, salvo superficialmente, y que requieren un conocimiento previo.
 
Para cada uno de los temas abarcados por el sistema ESTAD se incluye un detalle de los procedimientos de cálculo considerados, los pasos a realizar para su ejecución y ejemplos de la aplicación de éstos a datos reales también provistos junto con los programas. Dichos procedimientos y ejemplos agregan elementos concretos a la apreciación conceptual genérica abarcada por la Parte A.
 
Como contenido final del libro se incluyen, en sendos apéndices, los siguientes temas: a) Estructura de los programas del sistema ESTAD; b) Características de los archivos de datos en el sistema; c) Descripción de los errores del sistema y d) Descripción de los juegos de datos que se incluyen en el diskete y que se utilizan en la Parte B.
 
No se ha conisderado conveniente incluir en el libro un estudio comparativo de los diversos sistemas estadísticos específicos disponibles, tipo Guía de Usuario, ya que ello resulta de validez temporal limitada, dada la aparición permanente de nuevos programas o de versiones mejoradas de los existentes. Por otra parte, estudios comparativos actualizados de ese tipo se incluyen periodicamente en las revistas especializadas en temas de microcomputación.
 
En la preparación del libro se han consultado diversas fuentes bibliográficas, de las cuales las más representativas se incluyen al final de cada capítulo. Ha servido como guía general el libro de Afifi y Azen (ver referencia), que puede ya ser considerado como un "clásico" en la literatura relacionada con la Estadística y su tratamiento computacional.
 
 
 
 
 
 
 
 
 
Referencias
 
A.A. Afifi , S.P. Azen. Statistical Analysis: A Computer Oriented Approach. Academic Press, New York, 1979.
 
 
CAPITULO 1
 
MANEJO DE LOS DATOS ESTADISTICOS
 
 
1.1 PRESENTACION
 
La mayor parte de las aplicaciones estadísticas consideran datos experimentales de una cierta situación real o hipotética en estudio, resultando entonces conveniente precisar sus características genéricas, que sirvan de base a su definición y tratamiento en cada proceso específico. Ello se hace más relevante cuando estamos utilizando un computador, donde debemos considerar organizaciones de los datos relativamente estructuradas y se dispone un conjunto amplio de facilidades para su manejo.
 
En las secciones siguientes veremos los conceptos más importantes relacionados con los datos estadísticos, teniendo en cuenta en ello su manejo computacional. Previamente definimos los conceptos de población, observación y muestra, fundamentales para definir dicchos datos y los procesos que sobre ellos se realizan.
 
Un primer concepto que en general se encuentra asociado a los datos estadísticos es el de población. Una población es el conjunto total de objetos o individuos que puede ser de interés en un dado problema. Desde el punto de vista estadístico a cada individuo de una cierta población lo caracterizamos mediante un grupo de atributos, o variables, que pueden ser medidas sobre él, obteniendo los valores correspondientes. Estos valores de las variables para un cierto individuo constituyen lo que se denomina usualmente observación.
 
Un ejemplo típico de población es la constituída por los habitantes de una ciudad. Para cada una de las personas que integran esta población podemos definir y medir de alguna manera variables como la edad, altura, sexo, educación, actividad desarrollada, etc., según el análisis considerado. Este ejemplo es un caso de población en la cual el número de individuos, aunque puede ser elevado, está acotado, ya que en la ciudad que se considera se tiene, en un momento dado, una cantidad definida de habitantes. Existe entonces la posibilidad de medir las variables de interés en todos los individuos, estando ello supeditado a un problema de tamaño o de disponibilidad de aquellos para la medición.
 
Otro ejemplo de población es la constituída por las piezas que se obtienen a la salida de un proceso de producción. Posibles variables para cada pieza serían: dimensiones, peso, si está o no fallada, etc. A diferencia del primer ejemplo, el número de individuos que constituyen la población, aunque no pueda decirse que es infinito, no está acotado a priori. En este caso no se puede medir la totalidad de los individuos de la población.
 
 
 
Cuando contamos con observaciones de un conjunto de individuos menor que el que constituye la población decimos que tenemos una muestra de ésta. Ligado a ello, una de las utilidades principales de la Estadística es la de obtener conclusiones sobre poblaciones, a partir de muestras de ellas.
 
 
1.2. TIPOS DE VARIABLES ESTADISTICAS
 
Podemos definir diferentes tipos de variables estadísticas, en función de sus características intrínsecas o de la forma en que se miden sus valores. Los dos tipos de variables que de acuerdo a ello pueden establecerse son:
 
a) Variables cualitativas
 
La característica distintiva de estas variables es que no se puede cuantificar la relación entre sus diferentes valores. Una primera variante dentro de las variables cualitativas son las identificadas como Nominales. Una variable nominal es aquella para la cual se define un conjunto de categorías posibles, numéricas o literales, que no tienen entre sí ninguna relación de orden. Un ejemplo de este tipo de variables es el sexo, medido en una muestra de personas, que puede tomar solo dos valores predefinidos (1 ó 2, M ó F, etc.).
 
Otras variables de tipo cualitativo son las denominadas ordinales. Ellas son similares a las nominales, solo que ahora es posible establecer una relación de orden entre las categorías predefinidas, que en general son numéricas aunque pueden ser literales. Como ejemplo se puede mencionar una variable que evalua la temperatura de ciertas piezas, sobre la base de los siguientes valores posibles: 1-Frío, 2-Templado, 3-Caliente.
 
b) Variables cuantitativas
 
En estas variables, a diferencia de las anteriores, resulta posible cuantificar la relación entre diferentes valores, los que son siempre numéricos. Son ejemplos de este tipo de variables la altura, peso o ritmo cardiacos medidos sobre un conjunto de personas.
 
El conocer a qué tipo corresponden las variables definidas en un cierto conjunto de datos resulta importante, ya que, como veremos en los capítulos subsiguientes, la aplicabilidad de las diversas técnicas estadísticas depende del tipo de variables involucradas. La mayor parte de las técnicas de uso más frecuente son aplicables a variables de tipo cuantitativo, aunque existen en número creciente procesos que son aptos para variables cualitativas.
1.3. ORGANIZACION DE LOS DATOS ESTADISTICOS
 
1.3.1 La estructura matricial
 
En función del concepto de observación, es decir, los valores de un conjunto de variables para un dado individuo, surge como organización básica de los datos estadísticos una de tipo matricial, Observaciones-Variables. En ella cada fila contiene una observación y cada columna los valores de una cierta variable, para el conjunto de observaciones considerado:
 
 
 
 
 
 
 
 
 
 
 
 
 
 
A una dada matriz de datos estadísticos como la presentada la denominaremos en adelante, de manera equivalente: Conjunto de Datos, Juego de Datos, Conjunto de Observaciones, o Muestra de Observaciones, en este último caso si existe una población asociada a los individuos en estudio. En el Apéndice 4 incluimos varios ejemplos de esta organización usual de los datos estadísticos.
 
Utilizando la estructura básica de datos vista, debemos definir una matriz de datos por cada muestra o conjunto de observaciones que consideremos. Cada una de estas matrices configura un juego de datos independiente y que manejamos por separado. Además, si las matrices constituyen muestras, pueden corresponder a la misma población, o pertenecer cada una a una población distinta.
 
Cuando consideramos variables de dos o más conjuntos de datos decimos que ellas son independientes entre sí, para diferenciarlas de las relacionadas, definidas en un mismo juego de datos:
En el caso de varios juegos de observaciones de variables independientes, si ellas son compatibles en sus respectivas definiciones, resulta posible unificarlos en un solo conjunto de observaciones, mediante el agregado de una nueva variable, de tipo nominal, con la que se identifica en el nuevo conjunto de datos cada uno de los juegos originales:
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Cada conjunto de datos pasa a ser ahora un subconjunto (o submuestra) del nuevo juego de datos.
 
Esta consolidación es posible, en general, cuando tenemos varias muestras independientes de una misma población o cuando, siendo de poblaciones diferentes, las variables medidas son compatibles entre las diversas muestras. La unificación resulta útil al utilizar un computador, ya que con ello eliminamos la necesidad de manejar varios conjuntos de datos en una cierta aplicación, siempre y cuando las variables y datos definidos en cada uno de ellos permitan la consolidación.
 
 
1.3.2 Otras estructuras de datos
 
Una variante de la estructura matricial básica, que se denomina usualmente Datos Agrupados, es la que considera la misma organización matricial, pero ahora cada fila puede corresponder a más de una observación, todas ellas con los mismos valores de las variables involucradas. En este caso es necesario agregar a la matriz una columna adicional que no constituye ninguna variable medida, sino solamente el número de observaciones correspondientes a cada fila de la matriz:
En general, esta variante surge cuando se define un conjunto de datos a partir de información estadística que ha tenido algún tipo de tratamiento previo, casi siempre de clasificación o tabulación, como veremos en el Capítulo 2. La variante además puede ser útil para ponderar observaciones individuales por alguna razón estadística.
 
En el tratamiento computacional de datos agrupados ellos se procesan usualmente como si existieran observaciones repetidas, en correspondencia con cada fila de datos.
 
Se pueden definir otras organizaciones de datos estadísticos de mayor complejidad. No obstante, la mayor parte de estos casos pueden resolverse adaptando la estructura básica anterior, aunque ello no sea lo más eficiente desde el punto de vista de la presentación o del procesamiento estadístico de los datos. Es por ello que en el resto del libro vamos a trabajar exclusivamente con dicha estructura básica, la que por otra parte es la única considerada en la mayoría de los programas estadísticos para microcomputador.
 
1.3.3 Series de Tiempo
 
Un caso particular dentro de la estructura matricial Observaciones-Variables se presenta cuando las observaciones están ordenadas temporalmente en forma consecutiva. Ejemplo de ello son una serie de temperaturas diarias, para un conjunto de regiones, o una serie de mediciones económicas anuales para un país.
 
En este caso particular los datos estadísticos se denominan usualmente Series de Tiempo, correspondiendo cada observación de una dada variable al mismo objeto o individuo, medida en períodos de tiempo diferentes.
 
 
1.4 MANEJO DE LOS DATOS ESTADISTICOS
 
En las aplicaciones computacionales los datos estadísticos pueden ser objeto de manipulaciones diversas, debido a requerimientos propios de la herramienta utilizada o aprovechando las facilidades que ella permite.
 
Así, se definen procesos como el ingreso manual de datos al computador, su modificación una vez contenidos en él, su almacenamiento en archivos residentes en soportes magnéticos externos, la gestión de estos archivos, la transformación de los datos para obtener nuevas variables, la eventual selección de una parte de los datos a utilizar en una cierta aplicación y la consideración de datos faltantes.
 
 
1.4.1 Ingreso y modificación de datos - Archivos
 
Los datos que se van a utilizar en un determinado proceso deben previamente encontrarse disponibles en el computador. Las alternativas posibles para ello son: el ingreso manual mediante el teclado del equipo, su ingreso mediante la adaptación de un archivo externo proveniente de otra aplicación, o la utilización como datos de resultados obtenidos por el computador en procesos estadísticos anteriores.
 
Los juegos de datos que se ingresan al computador requieren ser almacenados en un archivo residente en un soporte de memoria externo (en general un disco flexible o rígido), ya sea para que puedan ser utilizados por un dado proceso o para su uso en una aplicación posterior.
 
 
1.4.3 Transformación de datos
 
Dentro de las aplicaciones estadísticas resulta en muchos casos necesario modificar los valores experimentales de una o más variables, a fin de satisfacer así ciertas condiciones de la técnica utilizada, o para obtener nuevas variables, no medidas experimentalmente, pero de interés para el análisis estadistico considerado.
 
La utilización del computador permite efectuar transformaciones de datos de manera muy directa, inclusive en forma interactiva en el curso de un análisis estadístico, sin que necesariamente se modifiquen los datos originales. De ellas presentamos a continuación las más relevantes.
 
 
a) Transformaciones mediante una función
 
Mediante este criterio de transformación se obtienen valores de una nueva variable utilizando una función algebraica en la que intervienen otras variables del conjunto de datos considerado. En general la función se aplica observación a observación. Así, para una observación i, el valor de una nueva variable Z resulta:
 
zi = f( xi, yi, wi, ...)
 
siendo X, Y, W, ...., otras variables del mismo juego de datos. La estructura de la función f() puede ser arbitraria, aunque existen algunos casos particulares de interés, entre los cuales se destacan los siguientes:
 
- Normalización: mediante esta transformación se obtienen valores de una variable U a partir de los de otra X, considerando la siguiente función:
 
ui = ( xi - x ) / s
siendo x la media aritmética y s el desvío estándar de la variable X (ver capítulo 6). Esta transformación es muy importante en Estadística y uno de sus usos principales es para homogeneizar variables con escalas diferentes en un dado conjunto de observaciones.
 
- Escalamiento ("scaling"): esta transformación permite transformar linealmente los valores de una variable X de manera que su valor mínimo y máximo sean valores prefijados k1 y k2:
 
yi= (xi-xMIN)(k2-k1)/(xMAX-xMIN)+k1
 
- Diferencia: transformación que se aplica usualmente a datos tipo serie de tiempo y que implica obtener valores de una nueva variable como diferencia de valores consecutivos de otra variable X:
 
yi = xi - xi-1
 
- Corrimiento ("lagging"): también aplicada en general a series de tiempo esta transformación permite obtner nuevos valores en función de valores corridos de otra variable:
 
yi = xi-k
 
siendo k un entero, positivo o negativo
 
 
b) Recodificación
 
En este tipo de transformación los nuevos valores de una variable Y se obtienen a partir de los de otra X mediante una función de transformación constituida por una tabla de equivalencias entre valores:
 
Valor de X Valor de Y
--------------------------
xA yA
--------------------------
xB yB
--------------------------
...... .......
--------------------------
xZ yZ
--------------------------
 
 
Mediante la recodificación resulta posible modificar las categorías establecidas para una variable cualitativa, o transformar la medición cuantitativa de una variable en un conjunto de categorías (ordenadas o no).
c) Cálculo de Rangos
 
Esta es una transformación particular mediante la cual, dado un conjunto de valores de una variable, se obtienen sus rangos correspondientes, constituidos por el número de orden que le corresponde a cada uno de los valores de la variable cuando se ordenan de menor a mayor. De acuerdo a ello, si se tienen n valores de una variable los rangos correspondientes toman valores entre 1 y n.
 
La obtención de los rangos a partir de un conjunto de observaciones de una variable resulta útil en muchas aplicaciones estadísticas, principalmente asociada a la ejecución de pruebas no paramétricas y técnicas robustas en general, como veremos en capítulos siguientes.
 
 
d) Creación de variables indicatrices ("Dummy")
 
Esta transformación permite pasar de una variable cualitativa (nominal u ordinal) con k categorías posibles a un grupo de k-1 variables binarias, que en conjunto representan, para cada observación, la información contenida en la primera variable. Por ejemplo, una variable nominal X con tres valores posibles (1,2 ó 3) se puede transformar en dos variables binarias Y1 e Y2, con valores:
 
X Y1 Y2
-----------------
1 0 0
2 1 0
3 0 1
-----------------
 
La transformación se puede generalizar a grupos de variables cualitativas, caso en el que cada combinación de valores de éstas define una categoría.
 
La creación de variables indicatrices resulta útil en algunos procesos estadísticos específicos, principalmente los de Regresión, que requieren para su aplicación variables de tipo cuantitativo (ver capítulo 6). Dentro de este caso son también utilizadas para resolver modelos de Análisis de Variancia mediante técnicas de regresión (ver capítulo 5).
 
 
1.4.4 Selección de datos
 
En las aplicaciones estadísticas aparece frecuentemente la necesidad de efectuar un proceso sólo sobre algunas observaciones de un conjunto de datos que satisfagan cierta condición.
 
Dicha condicición involucra casi siempre valores que deben tomar algunas de las variables del conjunto de datos analizado, en cada observación.
1.4.5 Manejo de datos faltantes
 
Cuando se generan o recopilan los datos necesarios para una dada aplicación estadística puede ocurrir que no se obtengan algunos valores individuales, ya sea porque no existen en la información disponible o porque falló el proceso de medición correspondiente.
 
Las modalidades usuales para manejar esos valores faltantes durante un procesamiento computacional son:
 
- No consideración en el proceso en curso de la observación que tiene un dato faltante en cualquiera de las variables involucradas.
 
- No consideración del dato faltante en una observación unicamente cuando en una dada parte del proceso ese dato es necesario.
 
- Adopción de un cierto valor para el dato faltante (por ejemplo, el promedio de los valores conocidos de la variable o el valor resultante de aplicar un proceso de regresión a las restantes observaciones).
 
CAPITULO 2
 
ANALISIS DESCRIPTIVO DE DATOS
 
 
 
Dentro de este tema incluimos todos aquellos procesos estadísticos que permiten sintetizar la información contenida en un conjunto de datos, a fin de comprender mejor su comportamiento. Dichos procesos, a diferencia de los restantes temas estadísticos, no involucran la adopción o suposición de una hipótesis teórica, o modelo, que explique de alguna manera ese comportamiento.
 
Los procesos comprendidos en el Análisis Descriptivo de Datos son utilizados usualmente en las etapas iniciales de un análisis estadístico, a fin de obtener información que guie sus pasos subsiguientes. En muchas aplicaciones, inclusive, son el procesamiento principal que se efectúa sobre un conjunto de datos experimentales, como es el caso en general de los censos.
 
Además de ello, estos procesos constituyen herramientas de gran utilidad cuando se usan durante la ejecución de un análisis estadístico, lo que se ha facilitado a partir de disponer de herramientas computacionales de tipo interactivo.
 
Los procesos concretos que podemos incluir dentro del Análisis Descriptivo de Datos son el Cálculo de Estadísticas Descriptivas, la Clasificación de Datos, la Graficación de Datos y el Análisis Exploratorio, los que se describen genericamente a continuación.
 
 
2.1 CALCULO DE ESTADISTICAS DESCRIPTIVAS
 
Dado un cierto juego de datos de una variable (o varias) una estadística descriptiva es un indicador que se calcula en base a ellos y que sintetiza o describe de alguna manera el comportamiento global de dicha variable. Además de esta utilidad general de las estadísticas descriptivas ellas sirven de base en practicamente todos los restantes procesos estadísticos, como veremos en los capítulos siguientes.
 
Un aspecto importante sobre las estadísticas descriptivas es que, aunque ellas se calculan en general para juegos de datos conocidos, pueden tambien definirse y evaluarse para poblaciones, como veremos en el Capítulo 3. Cuando un dado juego de datos se supone que constituye una muestra de una cierta población las estadísticas que se calculan para ella son, en general, estimadores de las correspondientes a dicha población.
 
 
 
 
 
Puede definirse un conjunto amplio de estadísticas, cada una con un procedimiento de cálculo determinado y resumiendo determinado tipo de comportamiento de los datos considerados. A continuación enunciamos las estadísticas descriptivas que constituyen practicamente la totalidad de las que calculan los programas para microcomputador, agrupadas según el tipo principal de comportamiento que explican. En el capítulo 12 se incluyen expresiones específicas de cálculo de la mayor parte de las estadísticas aquí presentadas.
 
 
a) Estadísticas de Posición para una Variable
 
Abarcan aquellas estadísticas que suministran algún tipo de información sobre la ubicación de los valores analizados dentro del conjunto de valores posibles de la variable.
 
- Media Aritmética o Valor Medio x: Se obtiene como promedio del conjunto de observaciones involucrado.
 
- Mediana: Corresponde a la observación del juego de datos que se encuentra en el medio del total de observaciones, cuando ellas se ordenan de menor a mayor.
 
- Modo: Se corresponde con el valor (o intervalo de valores) en el cual se concentra la mayor proporción de observaciones, del total analizado.
 
- Otras Medias: Se pueden definir otras medias más específicas, como la geométrica,la armónica o la cuadrática.
 
- Valores Mínimo y Máximo: Estas estadísticas constituyen puntos singulares, que acotan los valores que toma la variable en estudio en el juego de datos considerado.
 
- Cuantiles (o Percentiles): Dado un cierto porcentaje, el cuantil correspondiente es un valor de la variable considerada tal que existe un porcentaje similar de observaciones menores o iguales a él. Los cuantiles más utilizados son los cuartiles, correspondientes a porcentajes 25%, 50% (que coincide con la mediana) y 75% .
 
 
b) Estadísticas de Dispersion para una Variable
 
Abarcan las estadísticas que sintetizan información sobre el grado de separación que presentan entre sí los valores analizados de la variable.
 
- Variancia s2: Se obtiene como promedio de las diferencias cuadráticas entre cada observación y el valor medio x. Si el conjunto de datos constituye una muestra de una cierta población la división por n-1 para el promedio en lugar de n hace que el valor de variancia resultante estime mejor el correspondiente a dicha población.
 
- Desvío Estándar s: Se obtiene como raíz cuadrada de la variancia.
 
- Error estándar de la media: Constituye una estimación del desvío estándar de los valores medios x considerando muestras de tamaño n.
 
- Desvío absoluto medio: Se obtiene como promedio de los valores absolutos de los desvíos entre cada observación y el valor medio x.
 
- Rango: Mide la diferencia entre algún par de estadísticas que representen cotas hacia un extremo y otro de los valores de las observaciones, como el máximo y el mínimo, o el tercer y primer cuartil (rango intercuartil).
 
- Coeficiente de Variación: Se calcula como cociente entre el desvío estandar y el valor medio x.
 
c) Otras Estadísticas para una Variable
 
- Rango sobre Desvío: Se obtiene como cociente entre el rango y el desvío estándar.
 
- Coeficiente de Asimetría: Evalua el grado de simetría en la ubicación de los valores dentro del rango.
 
- Coeficiente de Curtosis: Evalua el grado de concentración de los valores analizados alrededor del valor medio, en términos relativos a una distribución normal (ver Capítulo 3).
 
 
d) Estadísticas para dos Variables Relacionadas
 
- Covariancia: Con un concepto similar al de la variancia evalua el grado conjunto de dispersión de las observaciones de dos variables relacionadas X e Y con respecto a sus correspondientes valores medios. Se obtiene como promedio de los productos entre las diferencias para cada observación de los valores de cada una de las variables y los correspondientes valores medios. Si ambas variables tienden a encontrarse arriba o abajo de sus medias en las mismas observaciones la covariancia es positiva, y negativa en caso contrario. Al igual que la variancia la covariancia puede calcularse para la muestra de observaciones o para la población de la que se supone éstas forman parte.
- Coeficiente de Correlación: Se obtiene dividiendo a la covariancia por el producto de los desvíos estándar de las dos variables consideradas. Este coeficiente, con un concepto similar al de la variancia es una medida libre de escala del grado de relación lineal entre dos variables, tomando valores entre -1 y +1.
 
- Coeficiente de correlación parcial: tiene un significado similar al anterior, pero considerando removida de las dos variables involucradas la relación lineal con otras variables.
 
 
Las estadísticas definidas se aplican, en general, a variables de tipo cuantitativo. No obstante, algunas de ellas, como la Mediana, los valores Mínimo y Máximo, los cuartiles, o el Rango, se pueden utilizar para variables de tipo ordinal. En cambio, el Modo es la única estadística cuya aplicación tiene sentido en el caso de variables de tipo nominal.
 
Además de los procedimientos de cálculo usuales existen variantes de ellos que permiten obtener lo que se denomina usualmente estadísticas robustas. Dichas estadísticas reciben ese nombre debido a que sus valores no se ven tan influidos por valores extremos de la variable. Un ejemplo de ello es el cálculo robusto ("trimmed") del valor medio, mediante el cual se eliminan para el promedio un porcentaje definido de observaciones que se encuentran en los extremos inferior y superior del conjunto de datos considerado.
 
Otra posibilidad de cálculo de estadísticas robustas es la que utiliza los valores de los rangos de un conjunto de observaciones, en lugar de los valores experimentales correspondientes (concepto visto en el capítulo 1). Un ejemplo de ello es el cálculo del coeficiente de correlación de Spearman, definido en el Capítulo 4. Las estadísticas que se calculan utilizando los rangos pueden aplicarse a variables por lo menos de tipo ordinal.
 
 
2.2 CLASIFICACION DE DATOS
 
2.2.1 Proceso básico de clasificación
 
Igual que el cálculo de estadística descriptivas la clasificación permite sintetizar el comportamiento de una o más variables, sobre la base de un conjunto de observaciones de ellas. En este caso el procedimiento obtiene en esencia cuantas observaciones caen en determinados grupos de clasificación, que se definen de acuerdo a los valores que toman en el juego de datos analizado una o más de sus variables.
 
El número de variables de clasificación depende de cada aplicación específica, siendo tradicionalmnente de 1 ó 2, aunque con la utilizaciòn de un computador puede considerarse un número mayor. Asimismo, el uso de un computador permite obtener de manera sencilla diversas tabulaciones sobre los mismos datos, con diferentes criterios de clasificación.
La clasificación tiene en general un nivel de síntesis menor que el de las estadísticas descriptivas, pero da una mayor información sobre cómo se distribuyen las observaciones analizadas dentro del intervalo de valores posibles de la variable. Ello resulta útil para apreciar la forma de dicha distribución, el comportamiento de valores extremos o la ubicación del o los valores con mayor preponderancia en el conjunto de observaciones (modo).
 
Por otra parte, la clasificación de observaciones es una herramienta util en el estudio experimental de distribuciones de probabilidad, ya que la fracción de observaciones que cae en cada grupo, con respecto al total de ellas, es una estimación de la distribución de la población correspondiente a la variable en estudio, como veremos en el capítulo 3
 
El aspecto central en un proceso de clasificación es el de la definición de los grupos de clasificación, ya que, a partir de ello, la asignación de cada observación a uno de los grupos se efectua por simple comparación de valores. En el caso de variables cuantitativas es usual definir dichos grupos mediante intervalos consecutivos, caracterizados por sus valores extremos. Por el contrario, en variables de tipo cualitativo, es normal definir los grupos de clasificación asociados a los valores concretos que ellas pueden tomar.
 
La Presentación de los resultados de un proceso de clasificación, además de hacerla en forma tabular, es usual efectuarla mediante un gráfico o Histograma de frecuencias, en el que se representa la cantidad (frecuencia) de observaciones que caen en cada grupo de clasificación, para una variable X o dos variables relacionadas X e Y:
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2.2.2 Procesos complementarios
 
A partir de los resultados de la clasificación es posible evaluar su grado de independencia, es decir si la distribución relativa de observaciones en los diferentes grupos presenta determinadas condiciones, según el numero de variables de clasificación.
En el caso de una variable de clasificación la hipótesis de independencia equivale a considerar la igualdad en la cantidad de observaciones en cada grupo. A su vez, la hipótesis de independencia en el caso de dos (o más) variables de clasificación involucra que la distribución relativa de observaciones según una de ellas no cambia de acuerdo a los diferentes grupos de la otra (u otras) variable.
 
En ambos casos la hipótesis de independencia se puede verificar mediante una prueba estadística de tipo Chi2 (ver capítulo 4). Dicha prueba evalua las diferencias entre las frecuencias resultantes de la clasificación, con respecto a las que se tendrían suponiendo la independencia en ella.
 
Además de los indicadores que suministra la prueba Chi2 existen otros que tambien evaluan el grado de independencia en los resultados de un proceso de clasificación, como por ejemplo la Estadística Phi y los coeficientes de Cramer, Lambda, de Incertidumbre y de Kendall, entre otros.
 
Un proceso complementario de una clasificación, con el que es posible verificar la independencia entre las variables, así como ciertas hipótesis de relación entre ellas, es el denominado modelo Log-lineal.
 
 
2.2.3 Estadísticas de Datos Clasificados
 
La clasificación de datos puede combinarse con el cálculo de estadísticas descriptivas, calculando éstas para grupos de observaciones definidos en un cierto juego de datos.
 
La obtención de estadísticas de datos clasificados permite sintetizar similitudes o diferencias entre diversos grupos de observaciones de un dado conjunto de datos, según el grupo de clasificación en el que se encuentran.
 
El proceso considera, en primer lugar, una clasificación de las observaciones totales, del cual se obtienen aquellas que caen en cada uno de los grupos definidos. A partir de ello, para las observaciones que se encuentran en cada grupo se obtienen las estadísticas deseadas, como si aquellas constituyeran un juego de datos en sí mismo.
2.3 GRAFICACION DE DATOS
 
La graficación constituye una de los métodos más interesantes para analizar datos experimentales, como paso previo o interrelacionado a la aplicación de técnicas estadísticas más complejas. Su ejecución, que aunque sencilla es engorrosa, se ve muy facilitada por la utilización de las posibilidades de graficación de los microcomputadores.
 
En general, mediante la graficación se pretende relacionar visualmente entre sí las distintas observaciones de un dado juego de datos, utilizando para ello los valores que toman en ellas todas o algunas de las variables consideradas. Para ello, aunque existen otros criterios de graficación, se aplican principalmente aquellos que se basan en el uso de un sistema de ejes cartesianos, de dos o de tres dimensiones.
 
El caso más directo es aquél en que se definen dos (o tres) variables representativas de cada observación, en el cual su graficación es inmediata, mediante un punto para cada observación ("scatterplot"):
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Una alternativa en el caso de querer representar en el plano observaciones considerando 3 variables es la de usar dos ejes cartesianos para dos de ellas. Cada observación se ubica en el plano en función de sus valores para dichas variables. El símbolo utilizado para ello representa de alguna manera el valor de la tercera variable (graficación codificada):
 
 
 
 
 
 
 
 
 
 
 
Las facilidades de graficación de los microcomputadores permiten llevar a cabo una generalización de la graficación en dos dimensiones, obteniendo matrices de gráficos de dos variables. Una primera posibilidad es la de obtener series de gráficos de dos variables, para todas las combinaciones de a pares de tres o más variables de un dado juego de datos.
 
Otra posibilidad dentro de esta generalización es de obtener series de gráficos de dos variables para grupos de
observaciones determinados por los valores de otras variables. En la figura siguiente se muestra un ejemplo de este segundo caso. Se muestra una matriz de gráficos de observaciones correspondientes a dos variables 1 y 2, para valores definidos de otras dos variables 3 y 4.
 
Saliendo de las graficaciones basadas en dos dimensiones la representación de observaciones considerando más de tres variables requiere definir convenciones más complejas que las anteriores y, en general, resulta posible para un número relativamente reducido de observaciones. Un ejemplo de ello es la denominada graficación en estrella, en la que los valores de las variables de una observación se representan como los rayos de una estrella. Así, la representación según este criterio de varias observaciones de 5 variables resulta:
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2.4 ANALISIS EXPLORATORIO
 
Dentro de esta denominación se agrupan diversos métodos de tipo descriptivo que se han desarrollado en las últimas décadas y que tienen como características principales su generalidad de aplicación y el hecho de que presentan una robustez significativa frente a posibles valores anómalos en los datos analizados.
 
Estrictamente, dichos métodos pueden incluirse dentro de los diferentes grupos de técnicas de análisis descriptivo de datos vistas anteriormente, pero desde su desarrollo se las presenta normalmente constituyendo un grupo particular de técnicas estadísticas.
 
Existen numerosos métodos de Analisis Exploratorio, de los cuales veremos sólo algunos que, además de ser los más conocidos y utilizados, son los que en general se incluyen en los programas estadísticos para microcomputadores.
 
 
2.4.1 Gráfico "Box-Whisker"
 
Es, en esencia, un método de graficación de algunas estadísticas descriptivas para un dado juego de datos. Las estadísticas consideradas en la graficación son: la Mediana, el primer y tercer Cuartil y los valores Mínimo y Máximo, cada una representada según una convención que se muestra en la figura siguiente:
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
El gráfico "Box-Whisker" resulta útil para apreciar visualmente, en forma gruesa, la distribución de valores de cada variable, así como para comparar entre sí las distribuciones de varias variables. Se identifican claramente en el gráfico cuatro sectores con igual número de observaciones, definidos por los límites: valor mínimo - primer cuartil - mediana - tercer cuartil - valor máximo. En la representación se pueden agregar otros elementos adicionales de información sobre el conjunto de datos analizado, así como indicarse valores individuales de observaciones extremas, muy alejadas de la zona central de los datos.
 
 
2.4.2 Clasificación "Stem & Leaf"
 
Este método consiste basicamente en un histograma resultado de una clasificación de datos de una variable, pero en el cual, en lugar de representar las frecuencias mediante barras, se utilizan los últimos dígitos de las observaciones individuales analizadas. El siguiente es un ejemplo de una clasificación "Stem & Leaf" considerando que los intervalos de clasificación están compuestos por decenas. En cada intervalo se consignan los últimos dígitos de las observaciones que caen en él, ordenados en forma creciente:
 
 
Decena Dígitos
-------------------------------------------
30 11245557889
40 146679
50 002333344566677789
60 015778
70 2233344667
80 00113346677888999
90 133445779
-------------------------------------------
 
Este caso particular de clasificación presenta ventajas en algunas aplicaciones, ya que no se pierden, como en las clasificaciones usuales, los valores originales de las observaciones. Además de ello, se puede analizar la distribución de valores individuales dentro de cada intervalo de clasificación.
 
 
2.4.3 "Median Polish"
 
Este procedimiento se aplica a tablas en las que se han obtenido las medianas correspondientes a una tercera variable para grupos de observaciones definidos según dos variables de clasificación.
 
Mediante un proceso iterativo se obtienen los efectos (aditivos) que sobre cada uno de los valores de mediana tienen los diversos valores de cada variable de clasificación. De acuerdo a ello el método es similar al Análisis de Variancia para dos factores (Capítulo 5), excepto que no se supone el cumplimiento de un dado modelo estadístico.
 
 
2.4.4 Regresión Robusta
 
Este procedimiento permite encontrar una función lineal entre dos variables relacionadas, a partir de un conjunto de observaciones de ellas, sin recurrir a los modelos de regresión considerados en el capítulo 6. El resultado así obtenido es robusto frente a la presencia de un número significativo de observaciones con valores atípicos.
 
El procedimiento, de tipo iterativo, parte de dividir las observaciones en tres grupos, de acuerdo a los valores que toma la variable independiente. A partir de ello la línea robusta es la que obtiene una mediana de los residuos en el primer grupo igual a la correspondiente al tercer grupo. Como en el procedimiento anterior no se presupone en éste que los datos satisfacen algún modelo estadístico.
 
 
2.4.5 Otros Procesos
 
Dentro del Análisis Exploratorio se consideran otros procesos además de los vistos, entre los que podemos mencionar los siguientes:
 
- "Rootogram": es en esencia un histograma de clasificación, pero graficando no las frecuencias experimentales sino las diferencias entre éstas y las equivalentes esperables de una distribución normal ajustada a las observaciones consideradas.
 
- Obtención de valores suavizados ("Smoothed") a partir de series de tiempo, procesos que se incluyen en el capítulo 8, donde se analizan los procedimientos específicos para este tipo de datos.
 
CAPITULO 3
 
DISTRIBUCIONES DE PROBABILIDAD
 
 
 
3.1 PRESENTACION
 
El concepto de Distribución de Probabilidad es el primer caso que veremos de modelo estadístico. Este, en términos generales, es una cierta descripción matemática del comportamiento de una o más variables estadísticas y, por ende, de la población que se asocia a ellas.
 
El modelo, en el caso de una distribución de probabilidad, está definido por las probabilidades de ocurrencia de cada uno de los posibles valores de la variable, a lo largo del proceso en el que ellos se generan.
 
La forma más directa de definición de una distribución de probabilidad es la que involucra a una variable discreta, esto es, aquella cuyos valores posibles son sólo algunos dentro del intervalo de validez de la variable. En este caso, la distribución de probabilidad se establece mediante probabilidades p(x) de que en una cierta ocurrencia la variable X tome el valor x, siendo x cada uno de sus posibles valores:
 
 
 
p(x) = Probabilidad de (X = x)
 
 
 
 
 
 
 
El comportamiento de una variable queda así totalmente definido mediante la p(x) para cada uno de sus posibles valores, dentro de un intervalo a,b.
 
Asociado al concepto de distribución o función de probabilidad p(x) se puede definir el de Probabilidad acumulada F(x), la que, para un valor posible x de la variable, da la probabilidad de que ésta tome valores iguales o menores a él:
 
 
x
F(x) = p(x)
x=a
 
 
 
 
 
 
 
 
 
Lo enunciado para variables discretas se puede extender al caso de variables continuas, adaptado a las características de dichas variables. En este caso no resulta posible definir una probabilidad asociada a cada valor de la variable. En cambio, lo que sí puede definirse es un concepto relacionado, el de densidad de probabilidad f(x). Esta densidad puede variar de manera continua a lo largo del conjunto de valores posibles de la variable y su integración nos permite obtener la probabilidad de que la variable X tome valores dentro de un cierto intervalo x1,x2:
 
 
 
p(x1 > X > x2) = f(x) dx
 
 
 
 
 
 
En particular, la integración entre el valor mínimo de la variable y otro genérico x permite definir el concepto de función de Probabilidad acumulada F(x):
 
 
 
 
F(x) = f(x) dx
 
 
 
 
 
Igual que en el caso discreto, esta función nos da la proba- bilidad de que la variable tome valores iguales o menores a x.
 
Se pueden definir valores experimentales de las probabilidades p(x), en el caso discreto, o de las densidades f(x), en el caso continuo, llevando a fracciones las frecuencias obtenidas en un proceso de clasificación de un conjunto de observaciones, constituyendo así las denominadas distribuciones empíricas.
 
Cuando se consideran variables continuas es posible también definir una función F(x) empírica para un conjunto de datos experimentales, sin tener que efectuar un proceso previo de clasificación. Considerando n valores experimentales x1, x2, ...,xi, ..., xn, ordenados de menor a mayor, la F() correspondiente a un valor xi es directamente i/n:
 
 
 
 
 
 
 
 
 
 
 
 
 
En este caso un valor xi es el cuantil correspondiente a un valor de F(x) igual a i/n.
 
Un caso distinto al de las distribuciones empíricas es aquel en el que los valores de p(x) o de f(x) surgen de funciones que se definen sobre la base de algún concepto teórico, constituyendo así las denominadas distribuciones teóricas. Los siguientes son dos ejemplos típicos de esta clase de distribuciones:
 
. Distribución Poisson (discreta)
p(x)=exp(- ) x/x¡ , x = 0,1,2,...
 
. Distribución Exponencial (continua)
f(x)=(1/ )exp(-x/ ) , x >= 0
 
 
En el caso de distribuciones de probabilidad teóricas aparece, como vemos en estos ejemplos (coeficientes ), un concepto importante, el de los parámetros de la distribución. Estos son coeficientes que se incluyen en las funciones matemáticas con las que se definen las probabilidades p(x), densidades f(x), o probabilidades acumuladas F(x). Cada valor numérico asignado a dichos coeficientes permite establecer una cierta distribución específica.
 
Un concepto asociado directamente al anterior es el de estadística de una distribución. Dicho concepto es similar al visto en el capítulo 2 para un conjunto de valores experimentales (o muestra) de una variable, con la diferencia de que ahora la estadística corresponde a la distribución en su conjunto y, por ende, a la población asociada a ella.
 
Sobre esa base resulta posible definir y calcular, para una cierta distribución, todas las estadísticas descriptivas vistas para el caso de datos experimentales. De ellas, las más importantes son:
 
: Valor esperado (media aritmética)
: Desvío estándar
: Coeficiente de correlación (para dos variables relacionadas).
Existe una relación estrecha entre los parámetros de una distribución y las estadísticas que pueden definirse para ésta. Así, siempre pueden obtenerse relaciones que, para una cierta distribución, dan los valores de las estadísticas principales en función de los correspondientes parámetros. Por ejemplo, para las distribuciones mostradas anteriormente, el único parámetro es directamente el valor esperado de la distribución, en ambos casos.
 
Los conceptos vistos sobre las distribuciones de probabilidad de una variable pueden extenderse al caso de dos o más variables relacionadas, constituyendo en este caso modelos del comportamiento de las variables en su conjunto, y por ende, de la población que puede asociarse a ellas.
 
Por ejemplo, en el caso de una distribución de dos variables X e Y se definen funciones p(x,y), f(x,y) y F(x,y) con un concepto similar a las equivalentes para una variable. En cambio aparecen nuevas funciones como p(x) y f(x), en este caso la probabilidad o la densidad de probabilidad marginal de X (independientemente de los valores de Y). Otras funciones que surgen en el caso de dos variables son p(x,y1) y f(x,y1), ídem a las anteriores pero condicionales, esto es, considerando un valor fijo y1 de Y.
 
Existen numerosas distribuciones teóricas de probabilidad utilizadas en las aplicaciones estadísticas. De ellas enumeramos seguidamente las más conocidas y que se consideran en general en las herramientas computacionales. En el capítulo 13 se incluyen definiciones específicas para la mayor parte de ellas.
 
- Una variable
 
a) Continuas b) Discretas
.Uniforme .Uniforme
.Normal .Binomial
.Exponencial .Binomial Negativa
.Gamma .Pascal
.Erlang .Geométrica
.Beta
.Weibull
.Log-normal
.Chi2
."t"
."F"
.Triangular
.Cauchy
.Laplace
 
- Varias variables
 
a) Continuas b) Discretas
.Normal .Hipergeométrica
Multidimensional
El uso de un computador en el trabajo con distribuciones de probabilidad resulta de gran utilidad, dada la complejidad de manejo que en general aquellas poseen. Dicho trabajo puede agruparse en los siguientes procesos, que se describen en las restantes secciones del capítulo:
 
a) Cálculos con funciones de probabilidad;
 
b) Ajuste de distribuciones teóricas a datos experimentales;
 
c) Generación de valores aleatorios de distribuciones de probabilidad.
 
 
3.2 CALCULOS CON FUNCIONES DE PROBABILIDAD
 
Estos procesos abarcan cálculos que involucran las funciones p(x), f(x) o F(x) para distribuciones de probabilidad teóricas específicas. Las dos posibilidades usuales dentro de ello son, considerando una cierta distribución:
 
a) Cálculo del valor de p(x), f(x) ó F(x) para un dado valor de la variable X.
 
b) Cálculo del valor de la variable X para un dado valor de la función F(x) (Cálculo de cuantiles de la distribución).
 
La ejecución del primer proceso resulta directa en el caso de la determinación de los valores de p(x) ó f(x), ya que todas las distribuciones teóricas cuentan con funciones explícitas que permiten su cálculo para valores dados de la variable y de los parámetros de la distribución.
 
Por el contrario, para algunas distribuciones continuas específicas no se dispone de funciones explícitas de la probabilidad acumulada F(x), debido a que no es posible integrar analíticamente su respectiva f(x). Un ejemplo de esta dificultad es el caso de la distribución Normal.
 
En estos casos, la ejecución en computador del cálculo de la F(x) requiere la integración numérica de la función f(x), o la utilización de expresiones aproximantes de la función F(x) definidas para cada distribución específica. Estas últimas dan en general niveles de precisión razonables para las aplicaciones usuales, por lo que es normal su utilización preponderante frente a la primera posibilidad. En la sección 4.5 se incluyen funciones aproximantes concretas de la F(x) para algunas de las distribuciones que no tienen expresiones explícitas exactas.
 
Con respecto al segundo proceso, el cálculo del valor x para un valor prefijado de la función F(x), se obtiene resolviendo la ecuación siguiente, en la que x es la incógnita (o raiz) y k el valor conocido de F(x):
 
F(x) - k = 0
Existen numerosos métodos numéricos, de tipo iterativo, que obtienen las raices de una ecuación que pueden ser aplicados a este caso. Entre ellos podemos mencionar los siguientes:
 
- Bisección.
- Secante.
- "Regula Falsa".
- Newton-Raphson.
 
Todos estos métodos se aplican, en general, a partir de haber encerrado una (o más) raíz de la ecuación dentro de un cierto intervalo (ver capítulo 13).
 
 
3.3. AJUSTE DE DISTRIBUCIONES
 
Este proceso involucra encontrar una distribución teórica que se corresponda con un conjunto de valores experimentales de una o más variables, es decir, aquella distribución (población) de la que se acepta los datos experimentales constituyen una muestra.
 
El ajuste de distribuciones es también un proceso cuya ejecución se ve facilitada por la utilización del computador, permitiendo ello además una mayor variedad de análisis de diversas distribuciones para un mismo juego de datos.
 
El proceso de ajuste constituye un caso típico del trabajo con modelos estadísticos en relación con datos experimentales. En general, cuando se efectúa dicho trabajo, se desarrollan las actividades que se describen en los puntos siguientes, adecuadas a las características propias del tipo de modelo constituido por las distribuciones de probabilidad, para la identificación, la estimación y la evaluación de una distribución teórica a un conjunto de datos experimentales.
 
 
3.3.1 Identificación
 
En esta etapa tratamos de definir a priori qué distribución, o grupo de distribuciones, parece en principio ser representativa de los datos experimentales en análisis.
 
Para ello los instrumentos más útiles son los diversos procesos vistos dentro del Análisis Descriptivo de Datos, principalmente los de cálculo de estadísticas descriptivas y los de clasificación. Los histogramas de frecuencias que se obtienen en este último caso dan en general una buena apreciación de la repartición de los datos a lo largo del intervalo de valores posibles de la variable analizada, que puede ser comparada con la forma de la función f(x) para diversas distribuciones teóricas alternativas.
 
Además de la posibilidad que brinda el Análisis Descriptivo, existen algunos procedimientos específicos de tipo gráfico que son útiles para la tarea de identificación y cuya ejecución, engorrosa manualmente, es sencilla mediante un computador. De llos los más conocidos y útiles son los gráficos de probabilidad, o gráficos Q-Q, que describimos en la sección 3.3.3 .
 
 
3.3.2 Estimación
 
Una vez preseleccionada una cierta distribución de probabilidad específica, en la actividad anterior, se deben estimar los valores numéricos de sus parámetros, en función de los datos experimentales en análisis. Para efectuar dicha estimación existen diversos métodos, entre los cuales se destacan los denominados de Máxima Verosimilitud y de Momentos.
 
El método de Máxima Verosimilitud es, de todos los existentes, el que ha tenido mayor estudio y desarrollo teórico, siendo sus estimaciones las que presentan mejores propiedades estadísticas. Ello determina que sea el método de estimación adoptado en la mayor parte de los programas estadísticos, particularmente aquellos más complejos.
 
Dada una muestra de observaciones, el enfoque básico que utiliza el método consiste en que los valores estimados a obtener de los parámetros definan una distribución tal que haga máxima la probabilidad de que la muestra considerada pertenezca a ella (máxima "verosimilitud" de la muestra).
 
Este criterio se convierte en la práctica en encontrar los valores del o de los parámetros p de la distribución considerada que hagan máxima la siguiente funcion L de verosimilitud:
 
L = f(x1,p) f(x2, p) ... p(xi,p) ... f(xn, p)
 
siendo x1, x2, ...., xn los valores de la muestra de observaciones y f(xi,p) la función de densidad de probabilidad de la distribución considerada para el valor xi.
 
Salvo algunas distribuciones para las que se puede resolver el problema de maximización de manera genérica, obteniéndose expresiones que dan las estimaciones buscadas en función de estadísticas descriptivas de la muestra, se debe efectuar en cada aplicación un proceso de maximización numérica, para lo cual resulta casi indispensable el uso de un computador.
 
En cuanto al método de Momentos, su principal característica es la sencillez de aplicación, resuelta siempre mediante expresiones que, para la distribución preseleccionada, dan los valores estimados de sus parámetros como función de estadísticas descriptivas de la muestra de observaciones considerada.
 
El método se basa en la propiedad ya comentada por la cual las estadísticas de una cierta distribución se definen mediante expresiones que son función de los parámetros de aquella. Aplicando dichas expresiones en sentido inverso y considerando en lugar de las estadísticas de la población a las correspondientes para la muestra considerada, podemos obtener estimadores de los parámetros de la distribución.
Por ejemplo, para la distribución exponencial, cuyo parámetro es directamente el valor esperado de la distribución, la expresión de estimación de dicho parámetro en función de un conjunto de valores experimentales resulta:
 
= x
 
siendo x el valor medio de los valores involucrados.
 
Las estimaciones que provee el método tienen propiedades estadísticas razonablemente satisfactorias en las aplicaciones usuales, aunque pueden obtenerse resultados no adecuados en algunos casos, principalmente cuando los datos experimentales considerados presentan anomalías.
 
 
3.3.3 Evaluación del grado de ajuste
 
La actividad final en el ajuste de una distribución de probabilidad teórica a un conjunto de observaciones experimentales de una variable consiste en la evaluación del grado de correspondencia logrado, y si él es satisfactorio para el uso posterior de la distribución obtenida.
 
Como ayuda principal para efectuar dicha evaluación se dispone de procedimientos, del tipo prueba estadística (ver capítulo 4), mediante los cuales podemos obtener la significación del grado de ajuste que se produce entre la distribución obtenida en las etapas anteriores y los datos experimentales. Las pruebas específicas de mayor aplicación son las siguientes, ambas de tipo no paramétrico:
 
a) Prueba Chi cuadrado (Chi2)
 
Esta prueba se basa en la comparación entre las frecuencias que surgen de un proceso de clasificación de las observaciones experimentales y las correspondientes teóricas para la distribución ajustada:
 
 
 
 
 
 
 
 
 
 
Como función de las diferencias mencionadas se calcula el valor de la estadística chi2, con el que se obtiene el nivel de significación del ajuste (ver capítulo 4).
 
La prueba Chi2 es de aplicación general a cualquier tipo de distribución, tanto discreta como continua, siendo la más conocida y utilizada para evaluar la bondad del ajuste de una distribución.
b) Prueba de Kolmogorov - Smirnov
 
Esta prueba utiliza como estadística de prueba la máxima diferencia d que se produce entre la función de probabilidad acumulada empírica F(x) de la muestra de observaciones, que definimos en la sección 3.1, y la correspondiente a la distribución teórica, F'(x):
 
 
 
 
 
 
 
 
 
 
 
 
 
De acuerdo al valor d resultante se obtiene, mediante funciones aproximantes, el correspondiente nivel de significación del ajuste.
 
Esta prueba requiere en principio que la distribución definida sea continua. En ese caso y si la muestra considerada es pequeña, esta prueba puede ser más potente que la de chi2.
 
 
Además de las pruebas anteriores existen diversos procedimientos de tipo gráfico que pueden ser últiles para evaluar de manera no rigurosa el grado de ajuste de una cierta distribución a un conjunto de datos experimentales. Ellos son principalmente los siguientes:
 
a) Gráfico comparativo de las funciones de probabilidad acumulada experimental y teórica, similar al expuesto en la figura anterior.
 
b) Gráfico P-P. Es un gráfico de dos dimensiones en el que cada punto corresponde a una observación del juego de datos involucrado y se representa en función de sus funciones de probabilidad acumuladas, experimental y teórica:
A medida que el grado de ajuste entre los datos experimentales y la distribución teórica obtenida con ellos es mayor los puntos del gráfico tienden a ubicarse sobre una recta.
 
c) Gráfico Q-Q. Igual que en el anterior en este gráfico cada punto representa una de las observaciones del juego de datos considerado. Para la ubicación de una observación se utiliza ahora su valor (habiendo ordenado las observaciones de menor a mayor) yel cuantil correspondiente la la distribución teórica ajustada:
 
 
 
 
 
 
 
 
 
 
 
El acercamiento de los puntos a una recta permite determinar visualmente el grado de ajuste de los datos experimentales a la distribución teórica considerada.
 
Como ya dijimos, este tipo de gráfico puede utilizarse también en la etapa de identificación, caso en el que los cuantiles de la distribución teórica se calculan considerando valores de referencia de sus parámetros.
 
 
3.4 GENERACION DE VALORES ALEATORIOS DE UNA DISTRIBUCION
 
Este proceso involucra la obtención "simulada" de valores de una variable que responde a una distribución de probabilidad establecida. La condicón fundamental a respetar en ello es que la secuencia de valores de la variable se obtenga de manera aleatoria, es decir, reproduciendo el proceso probabilístico establecido por la distribución.
 
La utilidad principal de la generación de valores aleatorios es en estudios de simulación, en los cuales se reproduce en un computador un determinado proceso, dentro del cual puede definirse mediante modelos de distribuciones de probabilidad el comportamiento de algunas de sus variables.
 
Otra aplicación interesante del proceso de generación es para la obtención "simulada" de muestras de distribuciones teóricas con las cuales se puedan verificar numericamente hipótesis o condiciones de un cierto proceso estadístico.
 
La propiedad básica que se aplica en la generación de valores de variables aleatorias es que ellos se pueden obtener, para cualquier distribución de probabilidad, en función de valores de una particular, la uniforme en el intervalo 0-1. Esta distribución presenta una densidad de probabilidad constante en dicho intervalo, con lo cual todos los valores dentro de él tienen igual probabilidad de ocurrencia:
 
 
 
 
 
 
 
 
 
La generación de valores aleatorios uniformes normalizados es sencilla en un computador, mediante funciones o rutinas específicas para ello. Sobre esta base el proceso de generación de valores de cualquier distribución se resuelve en la medida que, dada la función de probabilidad acumulada F(x), podemos encontrar la función inversa F-1( ). Un valor aleatorio x resulta, aplicando dicha función inversa:
 
 
 
x = F-1(r)
 
 
 
 
 
 
siendo r un valor aleatorio uniforme normalizado. En la figura anterior se muestra, en términos gráficos, el concepto de cálculo de dicha función.
 
Por ejemplo, para la distribución exponencial, cuya función F(x) vale:
 
F(x) = 1 - exp( - /x ) = r
 
resulta:
x = - ln( 1 - r )
 
 
Existen algunas distribuciones de probabilidad para las que no es posible obtener la función inversa F-1( ). Un método alternativo en esos casos es el denominado de Aceptación- Rechazo. Este método se basa, en su concepción más simple, en la generación de dos valores aleatorios, uno x uniforme en el intervalo a,b de validez de la distibución considerada, y el otro y, uniforme entre 0 y un valor c igual o mayor que el máximo de la función f(x) para la distribución considerada. Si se cumple que y es igual o menor que el valor de f(x) para x, es decir:
 
y f(x)
 
el valor de x es un valor aleatorio de la distribución considerada:
 
 
 
 
 
 
 
 
 
 
 
 
El método se puede generalizar a fin de disminuir en la mayor medida posible el porcentaje de valores x desechados.
 
En otros casos se debe recurrir a transformaciones de la variable considerada a otras, para las cuales sí es posible obtener valores aleatorios. Para alguna distribución específica, entre las que se encuentran la mayor parte de las distribuciones discretas, se usa alguna propiedad específica de la distribución, como por ejemplo la reproducción de los procesos aleatorios mediante los cuales se define la distribución.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
CAPITULO 4
 
PRUEBAS ESTADISTICAS
 
 
 
4.1. PRESENTACION GENERAL
 
Las pruebas estadísticas son procedimientos que, aplicados a muestras de variables, permiten verificar si las poblaciones a las que ellas corresponden cumplen una cierta hipótesis o modelo, que se postula en cada caso. Su utilidad principal es la de servir de apoyo sistemático a las decisiones que deben tomarse sobre datos obtenidos de un cierto proceso experimental. Los siguientes son ejemplos de posibles hipótesis involucradas en una prueba estadística:
 
- El valor esperado de una variable es igual a un cierto valor numérico.
 
- Las poblaciones de dos variables son coincidentes.
 
- Una variable estadística responde a una cierta distribución de probabilidad (prueba que ya vimos en el capítulo 3).
 
 
El sujeto principal de toda prueba estadística está constituido por la hipótesis a verificar, denominada básica o nula. El resultado de la prueba será el rechazo o no de la hipótesis básica, requiriéndose siempre la definición de una hipótesis alternativa, a aceptar en caso de rechazar la primera.
 
De acuerdo a la hipótesis básica a verificar, se define en toda prueba una estadística descriptiva, que denominamos genéricamente xp y que se calcula en función de las observaciones de la muestra (o muestras) involucrada.
 
Una propiedad importante de la estadística xp es que si suponemos que tenemos un conjunto numeroso de muestras, y todas ellas cumplen la hipótesis planteada, el conjunto de valores xp calculados para cada una de ellas responde a una cierta distribución teórica, definida según el tipo de prueba involucrada.
 
Por ejemplo, la prueba más sencilla, respecto al valor esperado , involucra la siguiente estadística de prueba xp, para una hipótesis básica de que = k:
 
xp = (x - k) n /s
 
En el caso de muestras que cumplen la hipótesis planteada dicha estadística sigue una distribución "t" de Student. La propiedad enunciada nos permite establecer una zona de valores de xp, denominada de rechazo, abarcando aquellos valores de la
 
 
estadística de prueba poco probables si la hipótesis es cierta. Dicha zona se define siempre en el extremo (o extremos) de los valores de xp que tiene las menores probabilidades de ocurrencia:
 
 
 
 
 
 
 
 
 
 
 
 
La probabilidad asociada a la zona de rechazo, calculada mediante las distribución correspondiente a xp, define el riesgo o probabilidad de que rechacemos la hipótesis planteada, siendo ésta cierta. Ello surge del criterio con el que se definió la distribución asociada a xp. Dicha probabilidad de equivocarnos en el rechazo de la hipótesis planteada se denomina usualmente nivel de significación de la prueba.
 
Cuando una cierta prueba se ejecuta mediante la ayuda de un computador se calcula en primer lugar, dada la muestra (o muestras) involucrada, el valor de la estadística xp correspondiente a la hipótesis a verificar.
 
Considerando a dicho valor como límite de la zona de rechazo se calcula el nivel de significación correspondiente. Este cálculo se efectúa mediante las expresiones que permiten obtener valores de la función de probabilidad acumulada F(x) para un dado valor de x y una cierta distribución (sección 3.3).
 
Por ejemplo, para el caso de la figura anterior el nivel de significación resulta:
 
= 1 - F(xp)
 
siendo F( ) la función de probabilidad acumulada de la distribución asociada a la estadística de prueba definida.
 
Dado que el nivel de significación representa el riesgo de equivocarnos en el rechazo de una dada hipótesis, si el nivel obtenido en una prueba es bajo (usualmente menor al 5%) estamos en condiciones de rechazar la hipótesis básica planteada.
 
Por el contrario, valores altos de implican riesgos altos de equivocarnos en el rechazo, lo que nos estaría llevando a aceptar la hipótesis planteada. En este caso aparece otro riesgo, el de que aceptemos la hipótesis planteada cuando en realidad es cierta una alternativa. A dicho riesgo o probabilidad se lo denomina usualmente .
Considerando una hipótesis alternativa específica dicho riesgo en caso de aceptación también se obtiene mediante el valor de la estadística de prueba calculada para la muestra (o muestras) considerada.
 
Para ello se parte de que, si la hipótesis alternativa es cierta, la estadística xp responde a una distribución distinta a la anterior, que en la figura siguiente definimos como: f'(xp):
 
 
 
 
 
 
 
 
 
 
 
Si consideramos la aceptación de la hipotesis básica el riesgo que ello implica es la probabilidad de que xp tome valores dentro de la zona de aceptación definida, probabilidad calculada según la distribución f'(xp). Como vemos en la figura, para una hipótesis alternativa definida, un valor de xp que implica un menor en caso de rechazo corresponde a un mayor en caso de aceptación.
 
Por otra parte, si tomamos una hipótesis alternativa más diferenciada de la básica, lo que equivale a un alejamiento entre las f(xp) y f'(xp) correspondientes a ambas, disminuye el riesgo para un mismo valor de .
 
Otra propiedad general en toda prueba estadística es que, para una misma hipótesis alternativa, las funciones f(xp) f'(xp) tienden a disminuir su superposición a medida que aumenta el tamaño de la muestra considerada. Ello determina también una disminución de , para un mismo valor de .
 
A partir del riesgo en caso de aceptación se establece un concepto importante, el de potencia de una prueba estadística. La potencia de una prueba se define mediante la expresión:
 
Potencia = 1 -
 
y establece la probabilidad de rechazar una hipótesis siendo cierta una dada alternativa. Este concepto resulta útil para evaluar la efectividad relativa de pruebas alternativas, cuando existe más de una aplicable para probar una cierta hipótesis. Resultará más efectiva aquella prueba que, para un mismo valor de determine mayores potencias (menores ) que las restantes.
 
En la mayor parte de las pruebas estadísticas podemos plantear más de una hipótesis alternativa para la misma hipótesis básica, lo que determina a su vez diferencias en el cálculo del nivel de significación . En ese caso, si la hipótesis básica implica que se cumpla una cierta característica de la variable (o variables) considerada, las hipótesis alternativas pueden ser:
 
a) que la característica sea mayor.
 
b) que la característica sea menor.
 
c) que la característica sea distinta.
 
Las hipótesis alternativas a) o b), que definen pruebas denominadas genéricamente "de un extremo", se eligen cuando se tiene el conocimiento a priori de que la característica involucrada, o toma el valor planteado en la hipótesis básica, o varía en uno u otro sentido, según el caso.
 
En cambio, la hipótesis alternativa c), que determina pruebas denominadas "de dos extremos", se elige cuando no estamos en condiciones de definir a priori un sentido para sus valores alternativos.
 
El cálculo del riesgo en una prueba concreta depende de cuál de las hipótesis alternativas se elija, como se resume en la tabla siguiente:
 
Prueba Región de
Alternativa Rechazo
----------------------------------------------------------
 
Caracterist.
alternativa 1 - F(xp)
> caracter.
básica
----------------------------------------------------------
 
Caracterist.
alternativa F(xp)
caracter.
básica
----------------------------------------------------------
 
Caracteris.
alternativa (1-F(xp))+F(x'p)
= caract.
básica
----------------------------------------------------------
 
El cálculo del riesgo , en caso de aceptación, también depende de la hipótesis alternativa que se elija, siempre y cuando su determinación sea posible en forma más o menos directa.
 
Las pruebas estadísticas pueden dividirse en dos grandes grupos: Paramétricas y No Paramétricas, según que consideren o no a priori que las poblaciones de las variables en estudio siguen ciertas distribuciones teóricas, normal en la mayor parte de los casos.
Dentro de cada uno de estos dos grandes grupos de pruebas podemos a su vez tipificarlas, según el número de variables involucrado, en pruebas sobre una variable, sobre dos variables (independientes o relacionadas) y sobre k variables.
 
El concepto de prueba estadística, sobre todo dentro de ello el de intervalo de confianza, sirve de base para uno de los temas estadísticos de mayor utilidad: la estimación de propiedades de una o más variables experimentales mediante el muestreo de algunos de sus valores.
 
El aporte principal del concepto de prueba estadística a este tema es en la determinación de los tamaños de muestra necesarios para obtener determinada precisión en los resultados obtenidos del muestreo.
 
En las secciones siguientes describiremos para el caso de una o dos variables los dos tipos de pruebas enunciadas, de tipo paramétrico y no paramétrico, así como los aspectos básicos del muestreo estadístico. Las pruebas que involucran k variables entran dentro de un proceso estadístico específico, denominado Análisis de Variancia, que veremos en el capítulo 5. Como aspecto final se considera el tema de Muestreo, que se deriva de los conceptos definidos para las pruebas estadísticas.
 
 
4.2. PRUEBAS PARAMETRICAS
 
Estas pruebas, las que primero se desarrollaron y las más conocidas y utilizadas, parten de considerar una condición relativamente fuerte para las variables involucradas, ésta es que sus poblaciones responden a una distribución de probabilidad específica, normal en casi todos los casos. Dicha condición determina que estas pruebas abarquen solamente los parámetros de la distribución considerada, resultando de ello la denominación de "paramétricas", con que ellas se agrupan.
 
Otra condición limitante que se deriva de la anterior es el hecho de que, si aceptamos a priori que las variables que consideramos siguen una cierta distribución teórica, podemos utilizar las pruebas únicamente cuando las variables involucradas son de tipo cuantitativo.
 
Como ya dijimos, en las pruebas paramétricas las hipótesis básica y alternativa que se plantean involucran siempre valores numéricos de los parámetros de la o las distribuciones consideradas, o de relaciones entre ellos. Esta característica determina, por otra parte, la posibilidad de cálculo directo de los posibles riesgos de aceptación, debiendo para ello precisar numéricamente las hipótesis alternativas correspondientes.
 
Relacionado con las pruebas paramétricas se puede establecer un concepto importante, el de intervalo de confianza. Ello implica que, dada una muestra de observaciones de una variable y p un parámetro de su distribución, se pueden obtener valores mínimo pA y máximo pB, dentro de los cuales existirá una alta probabilidad de que se encuentre el valor exacto de dicho parámetro, para la población de la variable en estudio. Estos límites se obtienen en cada caso específico en funcion de la información de la muestra considerada y de un cierto nivel de significación que se adopte.
 
Conceptualmente, los límites del intervalo de confianza de p están directamente relacionados a los valores límites de la estadística de prueba, en el caso de una prueba a dos extremos:
 
 
 
 
 
 
 
 
 
 
 
Seguidamente presentaremos brevemente las diversas pruebas paramétricas disponibles, remitiendo al capítulo 14 para los correspondientes procedimientos computacionales.
 
 
4.2.1 Pruebas sobre variales normales
 
a) Pruebas sobre una variable
 
Estas pruebas pretenden verificar el valor de algún parámetro o estadística de la población asociada a la variable, básicamente o , a partir de una muestra de observaciones de ella.
 
Prueba sobre : La hipótesis básica que se establece en esta prueba es que el valor esperado es igual a un cierto valor numérico k. Las posibles hipótesis alternativas son que sea menor, mayor, o distinto que dicho valor.
 
Prueba sobre : Esta prueba es similar a la de , pero ahora contemplando el desvío estándar .
 
 
b) Pruebas sobre dos variables independientes
 
Estas pruebas consideran sendas muestras independientes de dos variables, y tratan de verificar determinados valores para las relaciones entre los valores esperados 1 y 2, o entre los desvíos 1 y 2 de las respectivas poblaciones.
 
Prueba sobre la diferencia 1 - 2: La hipótesis básica que considera es que la diferencia entre los valores esperados de las dos variables es igual a un cierto valor numérico k. Las posibles hipótesis alternativas son que dicha diferencia sea menor, mayor, o distinta que k.
En esta prueba existen dos criterios de cálculo de la estadística de prueba, según que aceptemos, o no, que los desvíos estándar de ambas variables son iguales.
 
Prueba sobre el cociente 1 2: Esta prueba es similar a la anterior, pero considerando ahora el cociente de desvíos estándar de ambas variables.
 
 
c) Pruebas sobre dos variales relacionadas
 
Estas pruebas consideran una muestra de dos variables relacionadas, tratando a partir de ello de verificar ciertas características de su población asociada.
 
Prueba sobre la diferencia 1- 2: Esta prueba es similar a la equivalente para dos variables independientes, cambiando únicamente el cálculo de la estadística de prueba.
 
Prueba sobre el coeficiente de correlación : Esta prueba considera como hipótesis básica que no existe correlación entre las dos variables, esto es, que el coeficiente de correlación entre ambas es igual a 0. Las posibles hipótesis alternativas son que dicho coeficiente sea menor, mayor o distinto de 0.
 
 
4.2.2 Pruebas sobre variables no normales
 
Como dijimos, las pruebas paramétricas de mayor aplicación consideran que las variables involucradas responden a distribuciones normales.
 
En algunos casos es posible suponer que las variables siguen otras distribuciones, de acuerdo a ciertas características del proceso experimental en el que aquéllas se obtienen. Podemos en estos casos definir otras pruebas paramétricas, en cada una de las cuales se presupone que las variables cumplen una dada distribución, no normal.
 
Resulta posible definir diversas pruebas paramétricas de poblaciones no normales. Algunas de ellas, de cierta aplicación, son:
 
. Prueba sobre la probabilidad en una variable Binomial.
. Prueba sobre el valor esperado de una variable Poisson.
. Prueba sobre el cociente de dos variables Poisson.
 
4.3. PRUEBAS NO PARAMETRICAS
 
Las condiciones enunciadas para las pruebas de tipo paramétrico, esto es, que las poblaciones son normales y que los datos deben ser cuantitativos, hacen que no puedan utilizarse en todas las aplicaciones donde sería útil efectuar una verificación estadística. Debido a ello se han desarrollado pruebas alternativas, denominadas por contraposición "no paramétricas", que reducen significativamente las condiciones de aplicabilidad requeridas.
 
En primer lugar, las pruebas no paramétricas no presuponen una distribución definida para las poblaciones consideradas, por lo que no involucran la verificación de ningún parámetro, sino en cambio, solamente las distribuciones de las poblaciones estudiadas. Así, son ejemplos típicos de pruebas no paramétricas:
 
- Si una variable responde a una cierta distribución, que se establece arbitrariamente.
 
- Si dos variables responden a la misma población, sin definir su distribución.
 
- Si existe relación entre dos variables, sin definir las posibles distribuciones de éstas.
 
Una característica distintiva de estas pruebas es que todas pueden utilizarse con variables de tipo ordinal, además de las de tipo cuantitativo. Algunas pruebas específicas pueden además utilizarse con variables de tipo nominal.
 
Su ejecución mediante un computador ha facilitado significativamente las posibilidades de aplicación de las pruebas no paramétricas, debido a que muchas de ellas presentan cierta complejidad de cálculo.
 
Como contrapartida de la mayor aplicabilidad de las pruebas no paramétricas, ellas son, en términos generales, menos potentes que sus equivalentes paramétricas, cuando se dan las condiciones para que éstas se puedan aplicar. Ello significa que en esos casos las primeras requieren muestras mayores para obtener niveles de significación semejantes.
 
Esta característica se da porque aquellas pruebas no utilizan en general toda la información contenida en las observaciones analizadas, ya que no consideran los valores experimentales sino que éstos son previamente transformados o agrupados. La transformación más usual es la que involucra el concepto de rango de un conjunto de observaciones, que vimos en el capítulo 1.
 
Por el contrario, la limitación mencionada hace que las pruebas no paramétricas sean más robustas, ya que sus conclusiones se ven menos influídas por observaciones extremas, muy alejadas del resto.
 
Las pruebas no paramétricas consideran todos los elementos que definimos con carácter general en la sección 4.1: hipótesis básica y alternativa, estadística de prueba, riesgos y , regiones de aceptación y rechazo. Dentro de ello los riesgos en el caso de aceptación de una prueba no son de cálculo directo como en las pruebas paramétricas, debido a que las posibles hipótesis alternativas están mucho menos definidas.
 
Sí se aplica, en la mayor parte de las pruebas no paramétricas, la posibilidad de realizar pruebas de uno o de dos extremos, según cómo se defina la hipótesis alternativa a considerar.
 
Existe un conjunto numeroso de pruebas no paramétricas. De ellas enunciamos a continuación las más conocidas y que se incluyen más frecuentemente en los programas estadísticos para microcomputadores. Detalles de cálculo de algunas de ellas se encuentran en el capítulo 14.
 
 
4.3.1 Pruebas sobre una variable
 
Este grupo de pruebas no paramétricas considera una muestra de observaciones de una variable, verificando a partir de ella el cumplimiento de ciertas condiciones prefijadas.
 
a) Prueba de Chi2
 
Esta prueba permite verificar si una variable en estudio responde a una cierta distribución arbitraria. Es la de mayor generalidad y aplicación dentro de las no paramétricas y puede ser utilizada con variables de cualquier tipo, tanto cuantitativas como ordinales o nominales.
 
La hipótesis básica a probar es si la variable involucrada responde a una cierta distribución que se establece, la que puede ser tanto continua o discreta, como empírica o teórica. La hipótesis alternativa es la complementaria de la anterior, es decir, que la variable no responde a la distribución establecida.
 
En capítulos anteriores hemos visto dos casos de aplicación específica de esta prueba. El primero de ellos (Capítulo 2) correspondía a la verificación de la igualdad de frecuencias de clasificación de una variable. El segundo, en cambio, se refería a la verificación de la bondad de ajuste de una distribución teórica a una muestra de observaciones experimentales (Capítulo 3).
 
b) Prueba de Kolmogorov-Smirnov para una variable
 
Esta prueba es similar a la de Chi2, ya que evalúa el grado de correspondencia entre una variable y una distribución prefijada. La prueba es de aplicabilidad menos general que la de Chi2, ya que requiere que la distribución establecida como hipótesis sea continua.
Se utiliza ahora como estadística de prueba el valor d, máxima diferencia en valor absoluto entre la función de probabilidad acumulada F(x) obtenida de la muestra y la F'(x), teórica, obtenida en base a la distribución adoptada en la hipótesis básica, como vimos en el punto 3.4.
 
c) Prueba de Wilcoxon
 
Esta prueba permite verificar si la mediana de una cierta variable se corresponde o no con un cierto valor que se establece.
 
En la prueba se calculan los valores de una nueva variable, definida por la diferencia entre cada observación de la variable involucrada y el valor postulado de mediana. La estadística de prueba correspondiente se calcula a partir de los valores de los rangos de dichas diferencias.
 
d) Otras pruebas
 
- Signos: se aplica a variables con sólo dos valores posibles y se verifica en ella si el número de observaciones de cada valor en la variable se distribuye equiprobablemente.
 
- Rachas ("Runs"): se utiliza en el mismo tipo de variables que la prueba anterior y permite verificar si la secuencia de los dos valores de una variable se distribuye aleatoriamente.
 
- Mediana: se aplica a variables por lo menos de tipo ordinal y verifica la equiprobabilidad de los valores de la variable arriba o abajo de la mediana de la muestra o de otra prestablecida.
 
 
4.3.2 Pruebas sobre dos variables independientes
 
Estas pruebas consideran hipótesis sobre dos variables independientes cuando se conocen sendas muestras de ellas.
 
a) Prueba Chi2
 
Esta prueba es una extensión a dos variables de la del mismo nombre presentada anteriormente para una variable. Ahora, la prueba permite verificar si dos variables independientes corresponden a la misma población (o distribución). Para ello se obtienen las frecuencias de clasificación de ambas muestras, a partir de cuyas diferencias se calcula la estadística de prueba x2.
 
b) Prueba de Mann - Whitney
 
Mediante esta prueba se puede verificar si dos variables X e Y independientes corresponden a la misma población o distribución. La prueba es aplicable tanto para variables de tipo cuantitativo como ordinal, ya que no utiliza directamente los valores de las observaciones, sino sus rangos. Dichos rangos se obtienen para las dos muestras en conjunto y la prueba evalúa de manera global la relación entre los rangos de ambas variables.
 
c) Prueba de Kolmogorov-Smirnov
 
Esta prueba es una extensión de la del mismo nombre, para una variable, al caso de dos variables independientes. Ahora la hipótesis que prueba es si las distribuciones no conocidas de dos variables independientes son similares.
 
La prueba es similar a la correspondiente para una variable, utilizando ahora como estadística de verificación a la máxima diferencia d, en valor absoluto, entre las funciones experimentales de probabilidad acumulada obtenidas para cada muestra siguiendo el procedimiento descripto en 3.1:
 
 
 
 
 
 
 
 
 
 
 
La prueba de Kolmogorov-Smirnov es, en general, menos potente que la de Mann-Whitney, excepto cuando las muestras consideradas son muy pequeñas.
 
 
4.3.3. Pruebas sobre dos variables relacionadas
 
Dentro de este grupo incluímos las pruebas no paramétricas que permiten evaluar el grado de correspondencia entre dos variables relacionadas, considerando una muestra de ellas.
 
a) Prueba de Wilcoxon
 
Esta prueba verifica si en base a observaciones relacionadas de dos variables X e Y puede establecerse o no que éstas siguen una misma distribución. La prueba se aplica tanto a variables cuantitativas como a aquéllas de tipo ordinal, en el caso de éstas últimas en la medida que la magnitud de las diferencias entre valores tenga cierto sentido físico.
 
La hipótesis básica en esta prueba considera que las dos variables siguen la misma distribución, sin necesitar definir ésta. Las hipótesis alternativas que se pueden plantear dependen que se establezca o no un sentido para la diferencia entre ambas distribuciones.
En la prueba se calculan los valores de una nueva variable, la diferencia entre cada par de observaciones de las variables X e Y la estadística de prueba correspondiente se calcula en base a los valores de los rangos de dichas diferencias.
 
b) Prueba de correlación de Spearman
 
En la sección 4.2 vimos una prueba de tipo paramétrico sobre el grado de relación entre dos variables X e Y, que involucraba el coeficiente de correlación r, calculado mediante una muestra de observaciones de dichas variables.
 
La prueba de Spearman es un equivalente no paramétrico de la anterior que considera al denominado coeficiente de correlación de Spearman rS. Este coeficiente de correlación se calcula de manera similar al coeficiente r, pero utilizando los rangos de las observaciones, en lugar de sus valores originales.
 
La prueba considera como hipótesis básica que no existe relación entre ambas variables, es decir rS=0. Las hipótesis alternativas pueden ser tanto en un sentido, como rS>0 ó rS<0, o en ambos sentidos, es decir, rS=0.
 
c) Prueba de correlación de rango de Kendall
 
Esta prueba es similar a la anterior, considerando ahora, en lugar del coeficiente de correlación rS el coeficiente de Kendall, con una interpretación equivalente al coeficiente de Spearman.
 
 
4.4 MUESTREO
 
4.4.1 Presentación
 
El concepto de prueba estadística, y dentro de éste el de intervalo de confianza, constituye la base de las técnicas de Muestreo, uno de los temas de mayor aplicación en Estadística.
 
El objeto de estas técnicas es obtener una o más características de una cierta población, mediante la selección por muestreo de algunos de sus individuos y la medición de dichas características sobre ellos.
 
El no evaluar la totalidad de los individuos de la población reduce notablemente el esfuerzo de estimación, en los casos en que esa evaluación resulta posible y constituye la unica alternativa cuando no es factible evaluar todos los individuos de una dada población.
 
Como contraparte de ello mediante el muestreo sólo es posible lograr una aproximación al valor exacto de la característica buscada para la población, aproximación que se encontrará más o menos cercana a éste según cómo se realice el muestreo.
 
Las características que se determinan usualmente mediante técnicas de muestreo para una cierta población en estudio son en general alguna estadística, o combinación de ellas, entre las que podemos mencionar:
 
- El valor medio para la población de una variable medida sobre cada individuo.
 
- El total para la población de una variable medida sobre cada individuo.
 
- La fracción de dos valores medios (o de dos totales) para la población de dos variables medidas sobre cada individuo.
 
- La fracción de individuos de la población que caen en una determinada categoría.
 
 
Los procedimientos de muestreo más utilizados para establecer estas estadísticas sobre una dada población son los siguientes:
 
- Muestreo Aleatorio Simple: en él se define la muestra mediante la selección aleatoria con igual probabilidad de cada individuo de la población.
 
- Muestreo Sistemático: es similar al anterior excepto que los individuos a incluir en la muestra se seleccionan a intervalos regulares dentro de la población.
 
- Muestreo Aleatorio Estratificado: en él la población total se divide en estratos (o grupos) mediante ciertas características diferentes para cada uno de ellos. A partir de esta división se efectúa un muestreo aleatorio simple en cada uno de los estratos definidos.
 
- Muestreo por Conglomerados ("Clusters"): en este caso cada unidad de muestreo puede contener más de un individuo de la población.
 
- Muestreo en Etapas: Se define una primera muestra sobre grupos de individuos y despues se realiza un muestreo de éstos en cada grupo seleccionado en la primera etapa de muestreo.
 
 
La utilización del computador como apoyo en el diseño de un proceso de muestreo involucra pricipalmente: a) La determinación de la cantidad de individuos a muestrear (tamaño de muestra) y b) La selección de los individuos dentro del total de la población.
 
En la segunda de estas actividades se utilizan usualmente procesos de generación de valores aleatorios de distribuciones vistos en el capítulo 3, por lo que no profundizaremos aquí sobre ellas, viendo seguidamente los conceptos genéricos referidos al proceso de definición de los tamaños de muestra.
4.4.2 Determinación del tamaño de muestra
 
Dicho tamaño se define basicamente en función del tipo de procedimiento de muestreo considerado, de la estadística (o estadísticas) que se desea estimar, y del nivel de precisión buscado en dicha estimación.
 
La base para ello es el concepto de intervalo de confianza, visto en la sección 4.2 . En términos genéricos un intervalo de confianza se puede definir, dada una cierta estdística, como el intervalo en más y en menos respecto al valor estimado para la muestra involucrada, dentro del cual se encontrará el valor correspondiente para la población a la que corresponde la muestra:
 
Estadistica (población) = Estadística (Muestra) + Int.Conf.
 
donde el intervalo de confianza es función del tamaño de la muestra, del nivel de significación adoptado y de alguna otra estadística obtenida para la muestra.
 
Considerando en sentido inverso como equivalente del intervalo de confianza un cierto valor de tolerancia que se establece como diferencia máxima admisible entre el valor de la estadística para la población y el que se obtiene para la muestra, resulta posible obtener, transformando en sentido inverso la expresión anterior, el número n de observaciones (de individuos) requerido:
 
n = Función de (Tolerancia d, Nivel Signif. ,
Valor de otra estadística para la Muestra).
 
Las expresiones concretas para n dependen del tipo de procedimiento de muestreo adoptado y de la estadística a estimar. En todos los casos usuales se utiliza para definir dichas expresiones la propiedad que surge del teorema del Límite Central, por el cual el valor medio o la suma de una variable que responde a cualquier diastribución se aproxima en mayor o menor medida a una distribución normal.
 
En el capítulo 14 se incluyen criterios específicos de cálculo para los casos de muestreo más usuales.
 
 
CAPITULO 5
 
ANALISIS DE VARIANCIA
 
 
 
5.1 PRESENTACION
 
Dado un conjunto de dos o más variables estadísticas relacionadas el objeto principal del Análisis de Variancia consiste en establecer el efecto que sobre una de ellas, dependiente o respuesta, tienen las restantes variables, denominadas independientes o factores, y si dicho efecto es significativo.
 
Los siguientes son ejemplos de casos típicos donde puede aplicarse el Análisis de Variancia:
 
- Establecer el grado de relación entre el aumento de peso en animales y el tipo de alimento que se les ha suministrado.
 
- Evaluar las diferencias en los efectos que diversos medicamentos producen sobre una cierta variable fisiológica medida en personas enfermas.
 
El Análisis de Variancia se desarrolló inicialmente como herramienta estadística para evaluar resultados de experimentos físicos o biológicos. En un experimento se obtiene un resultado de una (o más) variable respuesta, en función de condiciones en general controladas, definidas por valores específicos de variables independientes o factores del experimento. Esta aplicación del Análisis de Variancia sigue siendo la más importante, pero la técnica se utiliza también para analizar relaciones entre variables cuyos valores no surgen necesariamente de experimentos controlados.
 
El Análisis de Variancia considera que se puede establecer un modelo que explique el comportamiento de la variable respuesta Y, en función de un conjunto de factores X1 a Xk:
 
Y = f(X1, X2, ..., Xk)
 
Los factores pueden ser tanto cuantitativos como cualitativos, aunque es usual que sean de este último tipo y que en las observaciones consideradas cada uno de ellos tome un conjunto predefinido y pequeño de valores posibles. En el caso de que los factores sean cuantitativos, sus valores son considerados en la técnica como categorías similares a las de una variable cualitativa. Cada valor o combinación de valores de los factores forma un grupo de valores de la variable respuesta Y.
 
A su vez, la variable respuesta debe ser de tipo cuantitativo y, en general, se presupone que sigue una distribución normal. No obstante, existen algunos casos específicos, denominados no paramétricos, que no requieren esa condición y que pueden trabajar con variables respuesta aún de tipo ordinal.
 
La técnica tiene una relación estrecha con el análisis de Regresión, que veremos en el Capítulo 6, ya que ambas técnicas estudian la relación entre una variable respuesta y otras independientes relacionadas con ella, teniendo además la misma base teórica. No obstante, difieren en sus características de aplicación, ya que la Regresión requiere en principio que todas las variables sean de tipo cuantitativo, mientras que el Análisis de Variancia, como ya dijimos, requiere unicamente como condición que la variable respuesta sea de tipo cuantitativo, o aun ordinal, en los casos no paramétricos.
 
Por otra parte, las estructuras posibles del modelo Y= f() en el caso del Análisis de Variancia son más limitadas que en el caso de Regresión, debido al carácter cualitativo que se presupone para las variables independientes.
 
Un aspecto a mencionar es que la aplicación del modelo de Análisis de Variancia cuando se define un sólo factor puede considerarse una generalización de la prueba estadística sobre los valores esperados de dos variables independientes (Capítulo 4), al caso de k variables.
 
En los puntos siguientes presentamos en forma genérica los modelos más usuales del Análisis de variancia, de tipo parámetrico y cómo ellos se resuelven. A continuación de ello se presentan variantes de la técnica, como el Análisis de Covariancia y los casos no paramétricos. En el capítulo 15 se incluyen detalles del tratamiento computacionales de algunos modelos paramétricos típicos.
 
 
5.2 EL PROCESO DE ANALISIS DE VARIANCIA
 
Como toda técnica que involucra el concepto de modelo estadístico el proceso del Análisis de variancia incluye etapas de identificación del modelo, estimación de sus coeficientes y verificación de la significación, adaptadas a las características específicas del tipo de modelo considerado por la técnica.
 
5.2.1 Identificación del modelo
 
El Análisis de Variancia se inicia con una etapa de identificación, donde se especifica el modelo Y = f() que se considera en principio más adecuado para explicar la influencia de los factores sobre la variable respuesta. En general, la estructura de los experimentos de los cuales provienen los datos y la correspondiente organización de éstos, orienta sobre el tipo de modelo a establecer.
 
Describimos seguidamente los modelos más usuales del Análisis de variancia, que consideran que la variable respuesta sigue una distribución normal con variancia constante, independiente de los valores de los factores (casos paramétricos).
 
Como dijimos, la aplicación más frecuente del Análisis de Variancia es a resultados de un conjunto de experimentos. En ese caso la formulación de un dado modelo de Análisis de Variancia está asociada al tipo de diseño experimental utilizado para obtener los datos a los que dicho modelo se aplica. Un cierto diseño experimental establece la manera en que se definen los valores de los factores a considerar en cada experimento a realizar para obtener un valor de la variable respuesta.
 
Todos los posibles modelos presentan variantes de una estructura aditiva, en la cual un cierto valor de la variable dependiente se explica como suma de un valor medio general y un conjunto de efectos diferenciales debidos a cada factor en forma independiente y/o a combinaciones de ellos. A continuación describiremos los tipos de modelos parámetricos más usuales, particularmente el denominado Modelo Factorial.
 
El Modelo factorial
 
De todos los modelos posibles dentro del Análisis de Variancia el más general es el denominado Modelo Factorial. Este modelo surge del diseño experimental del mismo nombre, el que considera que existe una o más observaciones de la variable Y para cada combinación de valores de los factores involucrados.
 
Por ejemplo, el siguiente es un conjunto de datos resultante de experimentos con dos factores, X (con valores posibles 1 y 2) y Z (con valores 10, 50 y 100), experimentos definidos mediante un diseño factorial que involucra dos experimentos por cada combinación de factores (las observaciones faltantes en el diseño se supone que corresponden a experimentos fallidos):
 
X Z Y
----------------------
1 10 y1
1 10 y2
1 50 y3
1 100 y4
1 100 y5
2 10 y6
2 50 y7
2 50 y8
2 100 y9
2 100 y10
 
 
El modelo factorial prtende explicar cada valor de la variable Y mediante una función que incluye en principio los efectos aditivos de cada factor y los de cada posible interrelación entre ellos. Por ejemplo, para el caso anterior, de dos factores X y Z, el modelo factorial que se puede plantear para cada observación de la variable dependiente Y es el siguiente:
 
yi(jk) = + j + k + jk + ei
 
siendo:
 
yi(jk) Observación i de la variable Y, con valores j y k
de los factores X y Z.
 
Valor medio general de la variable Y.
 
j Efecto diferencial que sobre la variable Y produce el valor j del factor X.
 
k Idem, factor Z.
 
jk Efecto diferencial que sobre la variable Y produce la combinación o interacción de los valores j,k de los factores.
 
ei Error o residuo que contiene la parte del valor yi no explicada por los coeficientes anteriores.
 
 
En el caso de involucrar tres factores el modelo podría incluir, siempre de manera aditiva, los efectos de cada factor considerado en forma independiente, los tres efectos de las combinaciones de los factores de a pares y el efecto de la combinación de los tres factores en conjunto.
 
En un modelo factorial no es necesario incorporar todos los términos posibles, definiéndose ello según la comprobación que se quiera establecer con su aplicación, o el grado de significación a priori que se presuponga para ciertos efectos.
 
Por otra parte, los efectos de interrelaciones entre los factores pueden incluirse en el modelo si en los grupos formados por dichos factores se dispone de más de una observación. Por ejemplo, en el caso de dos factores, resulta posible incluir en el modelo dicho efecto si se tiene más de una observación para cada combinación de valores de ambos factores.
 
Otros modelos
 
Dentro de los criterios para establecer los experimentos a efectuar en una dada aplicación han surgido diversos diseños alternativos al caso factorial, con la finalidad básica de reducir la cantidad de experimentos a realizar o, asociado a ello, la variabilidad de la variable respuesta. Dichos criterios de diseño experimental pueden dar lugar a modelos específicos de Análisis de Variancia, con los que resulta posible evaluar los resultados de los experimentos obtenidos.
 
Cada uno de estos modelos tiene un tratamiento específico en lo que respecta a la etapa de evaluación. No obstante, para su realización es siempre posible utilizar los criterios del modelo factorial, reduciendo así la necesidad de disponer de procedimientos para cada modelo. Esto justifica que la mayor parte de los programas estadísticos sólo consideran el modelo factorial, incluyendo sólo algunos de ellos procesamientos directos de otros modelos de Análisis de Variancia.
 
a) Modelos jerárquicos o anidados ("nested")
 
Este tipo de modelos provienen de diseños experimentales en los cuales la ocurrencia de los valores de uno de los factores está supeditada a los valores de otro (u otros) factor, lo que permite reducir el número de experimentos a realizar. Por ejemplo, en el caso de tres factores X, W y Z, el factor Z está anidado dentro del factor W si cada uno de sus valores posibles se presenta con a lo sumo un valor de W.
 
El modelo de Análisis de Variancia que se deriva de este tipo de diseño experimental puede contemplar efectos diferenciales de cada factor en forma independiente, pero no puede incluir efectos de interacciones entre factores.
 
b) Cuadrados Latinos
 
Los denominados Cuadrados Latinos constituyen un caso particular de diseño experimental con tres factores en el que todos ellos tienen un número igual de valores posibles. Estos se combinan de manera tal que cada valor del primer factor se presenta una sola vez con cada valor del segundo y con cada valor del tercer factor.
 
Con este diseño se reduce el número de observaciones a obtener, con respecto al caso factorial, pero en el modelo resultante no es posible evaluar efectos de interacciones entre factores.
 
c) Modelo "Split-plot"
 
El modelo "split-plot" proviene del diseño experimental del mismo nombre e intenta reducir la variabilidad de los resultados en algunas situaciones experimentales específicas. Por ejemplo, en el caso de tener tres factores X,W y Z, el diseño "split-plot" asigna valores al azar del factor W a cada valor del Z y, a su vez, valores al azar del factor X a cada valor de W.
 
 
5.2.2 Estimación de los coeficientes del modelo
 
En la aplicación del Análisis de Variancia a un conjunto de datos experimentales, una vez especificado el modelo concreto a considerar, se efectúa la estimación de los coeficientes de éste, vale decir, los efectos diferenciales j, k, jk (en el caso de dos factores), para cada valor posible de los factores sólos o de sus interacciones.
Dicha estimación se realiza siguiendo el criterio de lograr los errores cuadráticos mínimos, es decir, obtener los valores de los coeficientes que minimicen la suma de los ei2 para el conjunto de observaciones considerado. La estimación según este criterio es directa, sobre la base de obtener los promedios de la variable respuesta para los diferentes grupos de observaciones definidos por los valores de los factores.
 
 
5.2.3 Verificación de la significación del modelo
 
Cuando la variable Y sigue una distribución normal, con variancia constante entre las diversas subpoblaciones de ella definidas por los diferentes valores de los factores, podemos realizar pruebas del grado de significación de los efectos establecidos en el modelo.
 
Mediante la evaluación, la etapa más relevante en el caso de los modelos de Análisis de Variancia, se verifica el grado de adecuación del modelo a los datos experimentales y, lo que es más importante, se establece el nivel de significación de la influencia global de los diferentes valores de los factores sobre la variable respuesta, objetivo principal de la técnica.
 
Por ejemplo, para el modelo factorial planteado anteriormente, con dos factores, resulta posible verificar si los efectos j, k, o jk, son significativos, es decir, si pueden estadísticamente considerarse distintos de cero. Esto equivale a que los diferentes valores del factor X, del Z, o de ambos combinados, respectivamente, tienen un efecto significativo sobre los valores de la variable Y.
 
En la verificación aparecen los conceptos vistos en el capítulo 4 para las pruebas estadísticas: definición de una hipótesis básica a comprobar y su alternativa, cálculo de una estadística de prueba y determinación a partir de ella del nivel de significación resultante.
 
La hipótesis básica que se plantea en la verificación de un dado modelo de Análisis de Variancia considera que los efectos diferenciales definidos en él son nulos para todos los valores posibles de los factores.
 
En el caso de que se establezca un sólo factor, o cuando en el caso de dos o más factores se tenga igual número de observaciones por cada combinación de valores de quellos (diseños balanceados), la ejecución de la verificación es relativamente directa y se basa en la determinación de la variación de la variable Y (suma de desvíos cuadráticos con respecto a la media) en las observaciones consideradas y cómo ella se reparte entre las diversas causas que la constituyen. Dichas causas dependen de la estructura planteada para el modelo de Análisis de variancia y pueden ser: cada uno de los factores considerado en forma independiente, las interacciones entre ellos, los términos de error, etc.
 
Cada una de las causas definidas contribuye, de manera aditiva, a la variación total de la variable Y.
 
Sobre la base de estas variaciones parciales se calcula una estadística de prueba para cada causa posible de variación de la variable Y. Las estadísticas de prueba así calculadas siguen una distribución "F" en el caso de que para la correspondiente causa se cumpla la hipótesis básica, es decir, que sus efectos diferenciales sean nulos para todos los valores del factor considerado. Esta propiedad permite obtener los niveles de significación de la hipótesis, como vimos en el capítulo 4.
 
En el caso de que en el conjunto de datos experimentales considerado no se cumpla la igualdad de observaciones entre los diferentes subgrupos (diseños no balanceados) no resulta posible efectuar la verificación de la manera directa presentada, salvo que las diferencias en el número de observaciones entre los diferentes grupos sean relativamente pequeñas y aleatorias con respecto a los valores de los factores, caso en que los resultados del cálculo directo tienen en general una aproximación razonable.
 
La aplicación del Análisis de Variancia a juegos de datos con diferencias en el número de observaciones en los diversos grupos de observaciones requiere estrictamente la utilización del denominado Modelo Lineal General. Este modelo es una generalización del caso lineal que veremos en Regresión (Capítulo 6) y constituye la base teórica de diversas técnicas, además de ésta y del Análisis de Variancia (como el Análisis Discriminante y otras).
 
La verificación que se efectua en el Análisis de Variancia es global, estableciendo si un cierto factor o una interrelación entre ellos tiene efecto significativo sobre la variable respuesta, sin precisar cuáles de los valores del factor son los que determinan dicho efecto y cuáles no. Establecer posibles diferencias en la variable respuesta según los diversos valores de un factor requiere efectuar comparaciones específicas, también denominadas contrastes. Por ejemplo, para dos valores j y m de un factor, su comparación involucra verificar la significación de la diferencia:
 
yj - ym
 
donde yj e ym son los valores medios de la variable Y en las observaciones que tienen valores j y m del factor, respectivamente.
 
Generalizando este tipo de comparaciones o contrastes resulta posible evaluar la significación de relaciones entre medias, tales como:
 
cjyj + cmym + ... + cpyp cm = 0
 
Para cada relación entre medias cuya significación se quiera verificar se puede establecer una estadística de prueba específica, que responde también a una distribución "F", en caso de que el contraste definido no sea significativo.
5.3 OTROS CASOS DE ANALISIS DE VARIANCIA
 
5.3.1 Análisis de Covariancia
 
Esta técnica constituye una variante del Análisis de Variancia, en la que también se considera una variable respuesta y variables independientes o factores. Su diferencia principal consiste en que se define además una (o más) variable cuantitativa, denominada covariable, que se supone tiene una relación lineal con la variable respuesta. La inclusión de esta (o estas) variable en el modelo de Análisis de Variancia permite en ciertas aplicaciones reducir la magnitud de los términos de error ei.
 
Un ejemplo de modelo en este caso, considerando dos factores X y W y una covariable Z es el siguiente:
 
yi = + j + k + jk + a(zi - z) + ei
 
siendo:
 
yi observación i de la variable respuesta Y.
 
valor medio general de la variable respuesta.
 
j, k, jk efectos diferenciales debido a los factores X y W.
 
zi observación i de la covariable Z.
 
z valor medio de la covariable Z.
 
a coeficiente de relación entre la variable Z y la Y.
 
 
La estimación de los coeficientes del modelo y la evaluación de la significación de los efectos es similar a la del Análisis de Variancia, debiendo ahora estimar otros coeficientes más, los de relación entre las covariables y la variable respuesta. Para la resolución del modelo se hace practicamente necesaria en todos los casos la aplicación del concepto de Modelo Lineal General.
 
 
5.3.3 Análisis de Variancia no paramétricos
 
La verificación de la significación de los efectos de los diferentes factores sobre la variable respuesta consituye el aspecto central en la mayor parte de las aplicaciones del Análisis de Variancia. En dicha verificación suponíamos como punto de arranque que la variable respuesta sigue una distribución normal.
 
Cuando ello no ocurre los procedimientos de verificación vistos no resultan válidos, debiéndose recurrir a otros que, por extensión de la denominación usada en las pruebas estadísticas (Capítulo 4) se conocen usualmente como no paramétricos. Los métodos específicos que veremos seguidamente requieren como única condición para su aplicación que la variable respuesta sea por lo menos de tipo ordinal.
a) Prueba de Kruskal-Wallis
 
Esta verificación se puede aplicar a casos en los que se define un único factor y utiliza, como la mayor parte de las pruebas estadísticas no paramétricas vistas en el capítulo 4, el concepto de rango asociado a un conjunto de observaciones de una variable.
 
De acuerdo a ello se obtiene el rango de cada observación del juego de datos considerado, sobre la base de los valores de la variable respuesta Y. A partir de esta determinación se calcula la suma de los rangos para cada submuestra definida por un valor específico del factor. Como función de dichas sumas se obtiene el valor de una estadística de prueba, que sigue una distribución Chi2 si los efectos diferenciales debidos a los diversos valores del factor son nulos.
 
 
b) Prueba de Friedman
 
Esta verificación se aplica a casos en los que se definen dos factores sin repetición, es decir, en los que se cuenta con una sola observación de la variable respuesta por cada combinación de valores de los factores.
 
Aquí se aplica también el concepto de rango, calculándolo sobre la base de los valores de la variable respuesta Y, pero ahora en forma independiente para cada grupo de observaciones definido por un valor específico del factor X1. A partir de ello se obtienen sumas de dichos rangos, pero para cada conjunto de observaciones determinado por los valores del factor X2. Como función de estas sumas se calcula una estadística de prueba, que sigue una distribución "Chi2" si los factores no afectan a la variable respuesta.
 
 
CAPITULO 6
 
REGRESION
 
 
 
6.1. PRESENTACION
 
La técnica de regresión constituye uno de los instrumentos más poderosos para sintetizar información experimental, debido a la amplitud de formas que puede tomar el modelo estadístico considerado en ella. Dicho modelo se define genericamente mediante una relación funcional entre una variable dependiente o respuesta Y y k variables independientes X1, X2, ..., Xk, correspondientes todas a una cierta población en estudio:
 
Y = f(X1, X2,..., Xk, A)
 
siendo A un conjunto de coeficientes o parámetros que aparecen en toda función de regresión.
 
A diferencia de otras técnicas estadísticas la de regresión permite considerar una gran variedad de formas posibles para la función f( ), teniendo como única condición que todas las variables involucradas sean de tipo cuantitativo.
 
La regresión involucra el concepto de modelo estadístico, por lo que su aplicación a un conjunto de datos experimentales involucra la ejecución consecutiva de etapas típicas en el trabajo con esa herramienta: Identificación de la estructura de la función f( ), Estimación de los valores numéricos de sus coeficientes, Evaluación del grado de ajuste de la función a los datos experimentales considerados y, en este caso, Uso del modelo de regresión para la predicción de valores de la variable dependiente, en función de nuevos valores de las variables independientes.
 
En las secciones siguientes se describen estas etapas de manera genérica, los casos de regresión lineal, de la no lineal transformable al caso lineal, así como la regresión no lineal general, incluyéndose detalles de los procedimientos computacionales correspondientes en el capítulo 16.
 
 
6.2 ETAPAS DE APLICACION DE LA REGRESION
 
6.2.1 Identificación
 
En esta etapa de la aplicación de regresión se preselecciona una cierta función de ajuste a los datos experimentales involucrados, a partir de lo cual se puedan estimar los valores numéricos de sus coeficientes y evaluar el grado de ajuste resultante.
 
 
 
A posteriori de dicha evaluación el proceso puede iniciarse nuevamente, seleccionando otra función de regresión, hasta obtener aquélla que se considera más adecuada a los datos y también que tiene significación para el problema en consideración. En este proceso el uso del computador facilita efectuar pruebas repetidas de regresión con diferentes tipos de funciones de ajuste.
 
Como actividad inicial de la identificación resulta conveniente efectuar un análisis previo de los datos experimentales, ya que además de orientar de alguna manera la elección de ciertos tipos de funciones de regresión posibles, suministra un conocimiento interesante del proceso experimental que generó los datos, útil como marco de referencia en toda la aplicación de la técnica. En este análisis previo de los datos se aplican usualmente las técnicas de análisis descriptivo vistas en el capítulo 2, y dentro de ellas principalmente las de graficación.
 
 
6.2.2 Estimación de los coeficientes de la función de
regresión
 
Una vez seleccionada a priori una cierta función f( ) es necesario estimar los valores numéricos de sus coeficientes o parámetros, utilizando para ello la información sobre las variables involucradas contenida en el conjunto de observaciones en estudio.
 
Teniendo en cuenta la presencia de dichos coeficientes en toda función de regresión podemos reexpresar a ésta genéricamente aplicada a una observación i como:
 
 
yi = f(Xi, A) + ei
 
siendo:
 
yi Valor de la variable
dependiente Y, para
la observación i.
 
Xi Conjunto de valores
de las variables
independientes,
para la observación i.
 
A Conjunto de coeficientes o parámetros de la función.
 
ei Residuo o error entre el valor estimado y el experimental de la variable Y.
 
 
Por ejemplo, considerando una función f( ) lineal, sería:
 
yi = a0 + a1x1i + a2x2i + ... + akxki + ei
 
Mediante la estimación se busca encontrar valores A de los coeficientes de la función de regresión que reduzcan al mánimo posible los residuos ei para el conjunto de observaciones analizado.
 
El método adoptado en general para ello es el denominado de Mínimos Cuadrados, que busca los valores estimados de los parámetros de la función de regresión considerada que hacen mínima la suma de los residuos ei cuadráticos, para el conjunto de observaciones en estudio:
 
n n
ei2 = [ yi - f(Xi, A) ]2 = mínimo
i=1 i=1
 
La aplicación del método de Mínimos Cuadrados constituye un problema de optimización, en el que las variables son los coeficientes A, cuya resolución depende de la estructura específica adoptada para la función f( ), como veremos más adelante, al analizar cada caso de regresión.
 
 
6.2.3 Verificación del grado de ajuste
 
La regresión es, dentro del conjunto de técnicas estadísticas, una de las que dispone una mayor variedad de criterios para la verificación del grado de ajuste logrado por el modelo a los datos experimentales utilizados para su definición. De ellos enunciamos seguidamente los que se consideran más frecuentemente en las aplicaciones computacionales.
 
 
a) Indicadores de Ajuste
 
El indicador más directo del grado de ajuste es el desvío estándar de los residuos ei, calculados éstos como diferencia entre los valores experimentales yi y los estimados por el modelo de regresión.
 
Existe otro indicador global del grado de ajuste del modelo de regresión, el denominado coeficiente de determinación R2, que tiene como ventaja sobre el anterior que se expresa en términos relativos. Dicho coeficiente mide la fracción de la variación de la variable Y que es explicada por el modelo de regresión.
 
R2 puede tomar como máximo el valor 1, si el ajuste de la función a los datos experimentales fuera perfecto, esto es, nulos los errores ei. A su vez, a medida que el ajuste empeora, R2 toma valores menores, alcanzando el valor 0 cuando la función de regresión no explica nada de la variación de la variable Y(estrictamente R2 podría tomar valores menores que 0 en el caso de funciones no lineales, cuando la aproximación que ellas logran es peor que la que da el promedio de los valores de Y).
Una formulación alternativa del coeficiente de determinación, que tiene en cuenta el número de variables independientes considerado, frente al número total de observaciones, es el coeficiente de determinación corregido. El coeficiente R2 visto anteriormente siempre aumenta a medida que agregamos nuevas variables independientes en la función de regresión, mientras que ello puede hacer disminuir el valor del R2 corregido.
 
 
b) Análisis de Variancia
 
En la regresión puede aplicarse el concepto de Análisis de Variancia visto en el capítulo 5, adaptado específicamente en este caso a la verificación global del grado de significación de la regresión, equivalente a verificar si la función de regresión es significativa o no para explicar globalmente la variación de los valores experimentales.
 
Para ello se considera cuanta de la variación total de la variable Y es explicada por el modelo de regresión y cuanta queda como remanente en los residuos ei. Con estas variaciones, y aplicando los criterios del Análisis de Variancia, resulta posible obtener el nivel de significación de la regresión en su explicación de la variación de Y.
 
Esta aplicación del Análisis de variancia considera al modelo de regresión en conjunto como un único factor y presupone en su aplicación que la variable dependiente Y responde a una distribución normal.
 
 
c) Significación de los coeficientes de la función de regresión
 
El Análisis de Variancia aplicado a la regresión permite verificar la significación del modelo de regresión en su conjunto. Además de esta prueba global se pueden definir otras más específicas, cuyo objetivo es verificar el grado de significación de cada uno de los coeficientes de la función de regresión.
 
La determinación de dicha significación depende del tipo de modelo de regresión que estemos considerando, como veremos en el tratamiento de los casos específicos.
 
 
d) Análisis de los residuos ei
 
Además de las evaluaciones anteriores, un análisis específico que aporta elementos de juicio sobre el grado de ajuste de la regresión a los datos experimentales es el referido al comportamiento de los residuos o errores ei.
 
Aparte de la información global sobre los residuos suministrada por los indicadores presentados en el apartado a) resulta posible efectuar un análisis más detallado de su comportamiento mediante diversos procedimientos, entre los que se destacan los siguientes:
 
- Análisis de la distribución de probabilidad a la que se pueden asociar los residuos de la regresión para el conjunto de datos considerado.
 
- Determinación de coeficientes de autocorrelación de los residuos, como se realiza en el capítulo 8, cuando las observaciones consideradas se ordenan temporalmente.
 
- Graficación de los residuos en función de Y, Y o alguna de las variables independientes.
 
Un análisis específico de los residuos, útil en general cuando las observaciones son del tipo serie de tiempos, es la denominada prueba de Durbin-Watson. Mediante la estadística del mismo nombre que se obtiene en la prueba se puede evaluar la significación del grado de relación entre valores consecutivos de los residuos.
 
 
6.2.4 Predicción de valores de la variable Y
 
Una vez que se ha verificado el grado de ajuste de un modelo de regresión, uno de sus usos más frecuentes es en la predicción de valores de la variable Y para determinados valores de las variables X1 a Xk. Ello es directo, aplicando dichos valores en la función de regresión y calculando el correspondiente valor estimado yi.
 
Dado que en general los valores experimentales de la variable Y no responden exactamente a la función de regresión, resulta conveniente obtener alguna medida del grado de variación que puede tener el valor de Y obtenido en la predicción, obteniendo un intervalo dentro del cual se encontraría el valor exacto buscado, basado en el concepto de intervalo de confianza visto en el capítulo 4.
 
La determinación de dicho intervalo depende del tipo de modelo de regresión considerado, como veremos en las secciones siguientes, pudiéndose aplicar según dos conceptos diferentes del valor estimado yi. El primer caso considera el concepto visto para yi, esto es, el de valor estimado de la variable Y en una cierta observación. El segundo caso considera, en cambio, que yi es un promedio de observaciones con los valores de las variables independientes definidos para la predicción.
6.3. REGRESION MEDIANTE UNA FUNCION LINEAL
 
6.3.1 El caso básico
 
En este tipo de regresión se define una función f( ) de tipo lineal, por lo que, si consideramos k variables independientes, el valor de la variable dependiente Y para una observación se explica mediante la expresión:
 
yi = ao + a1x1i + a2x2i + ... + akxki + ei
 
siendo ao, a1, a2, ..., ak, coeficientes de la función.
 
Dado un conjunto de valores experimentales de las variables X y de la Y la estimación de los coeficientes del modelo lineal aplicando el método de cuadrados mínimos está resuelta en forma genérica, no requiriéndose efectuar en cada aplicación el proceso de minimización de la suma de residuos cuadráticos. En dicha resolución genérica se obtienen valores estimados de los coeficientes mediante una ecuación matricial que requiere la obtención de la inversa de la matriz de sumas de productos cruzados de las variables, de a pares.
 
Una generalización de este procedimiento, englobada en lo que se denomina Modelo Lineal General, permite también su utilización para otras técnicas estadísticas que involucran modelos lineales, como el Análisis de Variancia o el Análisis Discriminante.
 
 
6.3.2 Regresión Paso a Paso ("Stepwise")
 
Cuando se está considerando una regresión con varias variables independientes no necesariamente la inclusión de todas en la función de regresión produce la mejor estimación de la variable Y.
 
Para verificar ello deberían realizarse diversas regresiones con subconjuntos de las variables independientes hasta encontrar aquella combinación específica de ellas que produce el mejor ajuste. Una alternativa a este proceso, que se encuentra incorporada en muchos de los programas estadísticos es la regresión denominada Paso a Paso ("Stepwise").
 
Esta variante de la regresión lineal múltiple permite establecer automáticamente un subconjunto de variables independientes, del total predefinido, mediante criterios que intentan que en dicho conjunto se incluyan las variables que más influyen en la variación de la variable Y.
 
La evaluación del grado de significación de las variables independientes se realiza mediante una estadística F que se calcula para cada una de ellas en cada paso del proceso. Previamente al inicio de éste se definen dos valores de dicha estadística, uno máximo y otro mínimo, que son usados para ir estableciendo a lo largo del proceso las variables que entran o salen de la función de regresión.
Los dos criterios alternativos que pueden ser usados para ello son:
 
a) Inclusión de variables ("forward selection")
 
Según este criterio en cada paso se va introduciendo consecutivamente en la función de regresión aquella variable no incluida en ella con mayor valor de la estadística F por encima del máximo establecido.
 
Por otra parte, en cada paso del proceso se eliminan de la función de regresión aquellas variables cuyo valor de F es menor al mínimo establecido.
 
b) Eliminación ("backward")
 
En este caso se consideran inicialmente todas las variables independientes predefinidas y se elimina en cada paso aquella con una F más baja inferior al valor mínimo establecido.
 
En cada paso se reingresan a la función aquellas variables cuyo valor de F vuelve a tomar valores mayores que el valor máximo establecido.
 
 
6.3.3 Evaluación del ajuste, otros procesos y predicción
 
En el caso específico de la función lineal se pueden ejecutar de manera directa pruebas estadísticas sobre la significación del efecto de cada variable independiente en la función de regresión. Para ello es necesario que se cumpla la condición de que los residuos ei sigan una distribución normal, con variancia constante.
 
A partir de ello, se puede demostrar que si extrayeramos muestras de la población a la que corresponden las variables Y, X1, ..., Xk, y obtuviéramos la función de regresión para cada una de dichas muestras, los valores estimados a0, a1, a2, ..., ak de los coeficientes de regresión responderían a distribuciones normales. Como consecuencia de esta propiedad podemos definir una prueba estadística sobre el grado de significación de los coeficientes a0, a1, ..., aj, ..., ak, planteando para cada uno la siguiente hipótesis básica:
 
aj = 0
 
y como alternativa:
 
aj = 0
 
El rechazo en la prueba de la hipótesis básica determina como conclusión que el efecto de la variable Xj sobre la Y es significativo, y lo opuesto, su aceptación.
Dado el supuesto de normalidad de los aj planteado anteriormente, la prueba implica directamente la verificación del valor esperado de una variable normal, vista en el capítulo 5. Para ejecutar dicha prueba se requiere conocer una estimación del desvío estándar de cada coeficiente, la que se obtiene dentro del mismo cálculo matricial con el que se determinan los valores estimados de los coeficientes.
 
En la ejecución del análisis de variancia para el modelo lineal resulta también posible obtener la variación de la variable dependiente debida a cada una de las variables independientes y su correspondiente significación. Ello resulta de utilidad para resolver modelos de análisis de variancia mediante la ejecución de un proceso de regresión lineal.
 
Otros resultados que s epueden obtener a partir de la resolución del modelo lineal son los coeficientes de correlación parcial entre pares de las variables involucradas, estadísticas útiles para evaluar el grado de relación lineal entre dos variables independiente de la relación que ellas tienen con otras variables, la que puede influir en el valor del coeficiente de correlación simple.
 
Con respecto a la predicción de valores de la variable dependiente Y ella es directa en el caso de la regresión lineal, pudiendo obtener el intervalo de confianza del valor estimado de la variable, para un nivel de significación prefijado.
 
 
6.4 REGRESION MEDIANTE FUNCIONES TRANSFORMABLES AL CASO LINEAL
 
Existen diversas funciones entre una variable Y y una o más variables X que mediante una adecuada transformación pueden ser llevadas a la forma lineal, siendo a partir de ello aplicables los conceptos vistos en la sección anterior. Por ejemplo, una función típica transformable al caso lineal de manera directa es la denominada potencial:
 
Y = a0*X1a1*...*Xkak
 
Esta función puede llevarse
al caso lineal mediante una
transformación logarítmica:
 
Y' = a0' + a1X1' + ... + akXk'
 
siendo: Y' = ln(Y) , Xj' = ln(Xj) , a'0 = ln(a0)
 
De ello resulta que, aplicando estas últimas transformaciones a los datos experimentales puede utilizarse el modelo lineal sobre las variables así transformadas. Los resultados de la resolución de este modelo lineal se extienden finalmente al caso potencial.
 
Un caso particular de función transformable a lineal de especial interés es la polinómica, que relaciona una variable dependiente Y y otra independiente X mediante la siguiente función:
 
Y = a0 + a1X + a2X2 + ... + akXk
 
La regresión polinómica puede
considerarse un caso particular de
la regresión lineal con k variables
independientes, mediante la siguiente
transformación de variables:
 
X'j = (X)j
 
a partir de lo cual la función polinómica se convierte en la siguiente función lineal, con k variables independientes X'1 a X'k:
 
Y = a0 + a1X'1 + a2 X'2 + ... + akX'k
 
Para las diversas transformaciones posibles, una vez llevada a lineal la función de regresión le son aplicables los procedimientos de estimación, verificación y predicción vistos en la sección 6.2, debiéndose efectuar en alguna de las etapas de ejecución la transformación inversa.
 
La regresión mediante funciones transformables al modelo lineal puede ser efectuada de manera relativamente sencilla mediante los programas estadísticos, aprovechando las facilidades que en general poseen para la transformación de variables.
Un caso particular de transformación, que también amplía las posibilidades de aplicación de la técnica, es el que involucra la redefinición de una variable independiente cualitativa, a fin de que pueda ser incluida en el modelo de regresión. Para ello se utiliza el proceso que permite transformarla en un conjunto de variables indicatrices (con valores 0-1) visto en el capítulo 1. Estas variables pueden considerarse como cuantitativas, a los efectos de la regresión.
 
 
6.5 REGRESION NO LINEAL GENERAL
 
En los puntos anteriores hemos presentado casos de regresión basados directa o indirectamente en una relación funcional lineal entre las variables, que cubren la mayor parte de las aplicaciones usuales de la técnica de regresión. No obstante, se presenta a veces la necesidad o conveniencia de establecer otras relaciones funcionales que no pueden llevarse a los casos mencionados.
 
Ello ocurre cuando existen funciones de cierta complejidad surgidas de desarrollos teóricos, que se quiere ajustar a datos experimentales, o cuando a pesar de que se evidencia una fuerte relación entre variables, ella no es bien representada por una función lineal o alguna transformable a ella.
 
En este caso consideramos una función de regresión no lineal arbitraria:
 
Y = f( X, A)
 
en la que A representa al conjunto de coeficientes a1, a2, ..., ap de la función f(). La estimación de estos coeficientes para un dado juego de datos implica obligadamente efectuar el proceso de minimización de la suma de desvíos cuadráticos, ya que no es posible definir procedimientos genéricos de cálculo como en el caso lineal.
 
Para ello se requiere en general utilizar algún método numérico de optimización, que suministre como resultado los valores a1, a2, ..., ap de los coeficientes de la relación funcional f( ) que hagan mínima la suma de los residuos cuadráticos, para el conjunto de observaciones:
 
n n
ei2 = [yi - f(Xi,a1,a2,...,ap)]2=Mínimo
i=1 i=1
 
Existen numerosos métodos de optimización que pueden ser aplicados a este problema. De ellos, los más generales son aquellos que no requieren conocer las expresiones de las derivadas parciales de la función a optimizar, con respecto a los coeficientes de la función f( ). Los métodos de optimización más utilizados en las implementaciones computacionales son los siguientes:
- Método de Marquardt
- Mayor descenso ("steepest descent")
- Gauss-Newton
 
El proceso de regresión no lineal es de ejecución más compleja que el caso lineal, siendo las estimaciones de los coeficientes de la función de regresión menos confiables, ya que los métodos de optimización utilizados no aseguran, salvo casos particulares, que se alcance a su finalización el mínimo global de la suma de desvíos cuadráticos.
 
En la regresión no lineal general es posible efectuar la mayor parte de las verificaciones planteadas en la sección 6.2.3. La obtención del nivel de significación de los coeficientes puede también llevarse a cabo a partir de obtener estimaciones aproximadas de sus desvíos estándar. De la misma manera pueden obtenerse intervalos de confianza aproximados para los valores de la variable Y estimados mediante la función de regresión.
 
 
CAPITULO 7
 
ANALISIS MULTIVARIADO
 
 
 
7.1 PRESENTACION
 
En un sentido amplio, una técnica de Análisis Multivariado involucra el estudio estadístico de datos que comprenden varias variables relacionadas. Ejemplo de ello sería la Regresión o el Análisis de Variancia, vistos en capítulos anteriores.
 
Con un alcance más específico, se consideran usualmente dentro del tema Análisis Multivariado un conjunto de técnicas de desarrollo relativamente reciente, que, además de considerar datos de tipo multivariado, involucran en su ejecución procesos de cierta complejidad. La utilización de un computador para realizar dichos procesos ha hecho que el desarrollo teórico y la aplicación de estas técnicas creciera notablemente durante las últimas décadas. De las diversas técnicas existentes, las más conocidas y que se consideran en general en los implementaciones computacionales son las siguientes, agrupadas según su aplicación principal:
 
 
- Reducción del número de variables
 
. Análisis de Componentes Principales
. Análisis Factorial
 
- Análisis y Representación de datos multivariados
 
. Análisis de Proximidades ("Multidimensional Scaling")
. (También Análisis de Componentes Principales)
. Análisis de Correspondencia
 
- Clasificación de observaciones en grupos
 
. Análisis Discriminante
. Agrupamiento ("Clustering")
 
- Análisis de relaciones entre subgrupos de variables
 
. Correlación Canónica
 
- Explicación de valores de variables
 
. Análisis Multivariado de Variancia
. Regresión Multivariada
 
 
En las secciones siguientes describimos sintéticamente estas técnicas, dando énfasis a aquellas de mayor relevancia en las aplicaciones usuales. En el capítulo 17 se incluyen procedimientos computacionales de algunas de ellas.
 
 
Previamente se presenta un concepto importante en buena parte de las técnicas de Análisis Multivariado, el de distancia entre observaciones y/o grupos de ellas. Este concepto implica la evaluación, mediante algún criterio, de la separación entre dos observaciones, entre una observación y un grupo de ellas, o entre dos grupos de observaciones.
 
Por ejemplo, considerando el criterio de la distancia euclídea, uno de los utilizados en el Análisis Multivariado, se obtienen las siguientes expresiones de distancia, en términos cuadráticos:
 
- Entre dos observaciones p y q:
 
k
dpq2 = (xjp - xjq)2
j=1
 
- Entre una observación p y un grupo
de observaciones g:
 
k
dpg2 = (xjp - xjg)2
j=1
 
- Entre dos grupos de observaciones
g y h:
 
k
dgh2 = (xjg - xjh)2
j=1
 
siendo:
 
xjp, xjq valores que toma la variable Xj en las observaciones p y q, respectivamente.
 
xjg, xjh promedios de la variable Xj en el grupo g y en el h, respectivamente.
 
 
En la figura siguiente se indican ejemplos de distancia euclídea en los tres casos anteriores, considerando dos variables X1 y X2.
 
Existen diversos criterios además del euclídeo para el cálculo de distancias que se consideran en las técnicas de Análisis Multivariado. Entre ellos uno de los más relevantes es el de la distancia de Mahalonobis, que se deriva de la euclidea pero tiene como ventaja sobre ésta que es invariante ante cambios de escala en los valores de las variables consideradas (ello contiene, en particular, a la normalización).
 
7.2 ANALISIS DE COMPONENTES PRINCIPALES
 
Dado un conjunto de observaciones correspondientes a un cierto número de variables relacionadas de tipo cuantitativo esta técnica define un número menor de nuevas variables, denominadas Componentes Principales, cuyos valores, calculados como combinación lineal de las anteriores para cada observación, explican una parte significativa de la variabilidad existente en los datos originales.
 
La utilidad del Análisis de Componentes Principales (ACP) es amplia, aunque sus aplicaciones más usuales son para reducir el número de variables de un dado juego de datos, manteniendo la mayor parte de la información contenida en ellos. Esta reducción de dimensión resulta útil, entre otras aplicaciones, para obtener una representación visual de las diferentes observaciones de un dado conjunto de datos multivariados. Otro uso de la técnica, también relacionado con lo anterior, es como paso previo de otras técnicas de Análisis Multivariado (por ejemplo, Análisis Discriminante o un método de Agrupamiento), aprovechando propiedades específicas de las componentes que se obtienen.
 
Las más relevantes de dichas propiedades de las componentes son las siguientes::
 
a) Cada componente Ym se obtiene como combinación lineal de las variables originales en el juego de observaciones considerado:
 
k
ymi = amjxji m = 1,2,...,p
j=1
 
siendo:
 
ymi Valor de la componente Ym para la observación i
xji Idem, variable Xj
amj Coeficiente de proporcionalidad entre la componente Ym y la variable Xj
p Número de componentes
 
b) Si consideramos el mismo número de componentes que el de variables originales, la suma de sus respectivas variancias es igual:
 
k k
s2(Ym) = s2(Xj)
m=1 j=1
 
siendo:
s2() Variancia
Ym Componente k
Xj Variable original j
k Número de variables X
 
A partir de esta propiedad, ordenando las componentes por valor decreciente de variancia, se obtiene que en general un número de componentes menor que k explica la mayor parte de la variancia de las variables originales.
 
c) Las covariancias (o los coeficientes de correlación) entre pares de componentes son nulas.
 
 
De acuerdo a estas características las componentes determinan un cambio de ejes de medición con respecto a las variables originales que, si se considera el mismo número de componentes que de variables originales, no modifica la distancia euclidea entre observaciones. La selección de un número menor de componentes implica que las distancias entre observaciones medidas a partir de ellos son una proyección de las distancias originales. Debido a ello el ACP es util como paso previo a la aplicación de otras técnicas de Análisis Multivariado, ya que permite disminuir la dimensión de los datos manteniendo aproximadamente las relaciones de distancia entre observaciones.
 
La obtención de los valores de las componentes principales para un dado juego de datos implica: a) Calcular las variancias del total de componentes posibles; b) Obtener los coeficientes amj de las funciones lineales que permiten calcular sus valores para cada observación; c) Ordenar las variancias y seleccionar el número de componentes de mayor variancia.
 
En estas actividades se usa un concepto importante, el de los Valores y Vectores Propios de una matriz simétrica. Estos elementos se obtienen como resultado de un proceso denominado de diagonalización de la matriz, esto es, su transformación lineal hasta obtener una nueva matriz con elementos no nulos unicamente en su diagonal principal. Existen diversos métodos numéricos para diagonalizar una matriz simétrica, entre los que se destaca el de Jacobi y sus variantes.
 
A partir de este concepto, dada la matriz de covariancias ( o la de correlaciones) calculada para un dado juego de datos multivariados, las variancias de las componentes son directamente los valores propios de dicha matriz. A su vez, los coeficientes amj son los elementos de los vectores propios de la misma matriz.
 
Del proceso de diagonalización se obtienen en primer lugar las variancias de todas las posibles componentes. Seleccionando aquellas con mayor variancia acumulada se establece el subconjunto de componentes principales, cuyos correspondientes vectores propios definen las funciones de transformación para obtener sus valores en cada observación.
 
Los resultados del proceso serán distintos según que consideremos la matriz de covariancias o la de correlaciones, particularmente si las diversas variables del juego de datos involucrado tienen escalas muy diferentes. Si ello ocurre es preferible considerar la matriz de correlaciones, lo que es equivalente a normalizar los datos.
 
La técnica de ACP nos permite reducir la complejidad de un juego de datos, a costa de perder una parte de la información existente en ellos, pérdida mensurada por la fracción de variancia no explicada por el subconjunto de componentes principales Yk seleccionado. Cuando el número de componentes considerado es dos (o aún tres) el ACP resulta sumamente útil para obtener una representación visual del conjunto multivariado de datos en estudio, graficando para ello las observaciones que lo componen según los correspondientes valores de las dos primeras componentes Y1 e Y2:
 
 
 
 
 
 
 
 
 
 
 
 
 
En este caso, si la fracción de la variancia total explicada por las dos componentes es importante, podemos sacar conclusiones acerca de la posición relativa de las observaciones, la eventual formación de regiones o grupos, la existencia de observaciones anómalas, etc.
 
Otra representación posible involucra la graficación de las variables originales, en función de las primeras dos componentes principales. En este caso cada punto corresponde a una de las variables originales Xj, ubicado en función de los coeficientes a1j y a2j correspondientes. Se obtiene así una representación visual del grado de relación entre dichas variables:
 
 
 
 
 
 
 
 
 
 
 
La aplicación del ACP requiere que los datos considerados sean de tipo cuantitativo, pero no estrictamente que respondan a una distribución normal multivariada. Sin embargo,la transformación de variables que es la base de la técnica presupone que se cumple dicha condición, principalmente en la estimación de las variancias de las componentes obtenidas. En caso contrario se producirá una distorsión en la estimación de las variancias de las componentes, así como una pérdida de información sobre la variabilidad de los datos originales. Por otra parte, si los datos responden a una distribución normal multivariada es posible aplicar pruebas estadísticas sobre el nivel de significación de las variancias de las componentes.
 
 
7.3 ANALISIS DISCRIMINANTE
 
Esta técnica, una de las más poderosas dentro de las incluídas en el Análisis Multivariado, permite predecir a qué grupo específico, de un conjunto prefijado, corresponde una cierta observación experimental. Es decir, la técnica pretende "discriminar" a qué grupo se asigna una cierta observación constituyendo así un método de clasificación de observaciones. A diferencia de otras técnicas de clasificación, en el AD dichos grupos deben estar predefinidos. Son ejemplos de este tipo de clasificación los siguientes:
 
- Dado un conjunto de enfermedades posibles, establecer cual es la que presenta una cierta persona, en base a valores de un conjunto de síntomas medidos sobre ella.
 
- Dado un conjunto de formas posibles, definir a cuál de ellas corresponde una cierta figura, considerando para ello mediciones efectuadas sobre ésta.
 
Para establecer los criterios con los que se clasifica una nueva observación el Análisis Discriminante (AD) utiliza un conjunto de observaciones experimentales para las cuales se conoce el grupo real al que corresponde cada una. Dicho grupo se define mediante una variable de tipo nominal.
 
De acuerdo a ello el AD puede considerarse un caso particular de regresión, en el que la variable dependiente es de tipo nominal. El problema de clasificación de una cierta observación es entonces similar al de predicción en regresión, esto es, obtener el valor de la variable que define su grupo, sobre la base de los valores de otras variables para la observación analizada.
 
El AD considera, en general, que las variables involucradas son de tipo cuantitativo, excepto aquella que establece el grupo al que corresponde cada observación. No obstante, existen modelos específicos de la técnica apropiados para variables cualitativas y, en particular, aquellas que pueden tomar valores 0-1.
 
La aplicación de la técnica de AD involucra: a) La identificación del modelo de discriminación aprpiado a los datos en estudio; b) La estimación de los coeficientes de dicho modelo; c) La verificación del grado de adecuación del modelo a los datos experimentales considerados y d) La clasificacion de nuevas observaciones mediante el modelo de discriminación establecido.
7.3.1 Definición del modelo de discriminación
 
El enfoque más directo para definir un modelo de discriminación es el que se basa en asignar una cierta observación al grupo que se encuentra más cercano, en términos de distancia. En los modelos de AD más usuales se utiliza este enfoque, considerando no la distancia euclidea sino la de Mahalonobis, ya mencionada.
 
El uso de la distancia de Mahalonobis hace que no resulte necesaria la realización de un proceso previo de normalización de los datos cuando presentan una gran diferencia en sus magnitudes, ya que, como dijimos, ella es invariante ante cambios de escala de las variables.
 
El criterio de clasificación de cada observación en función de su distancia a cada grupo se instrumenta en un modelo de discriminación, compuesto por un conjunto de funciones, una para cada grupo de clasificación. La estructura de estas funciones varía según qué características se asuman para los datos considerados.
 
El caso más directo es el que presupone que las observaciones conocidas de los diversos grupos pertenecen a la misma población, con una matriz de covariancias única. En este caso las funciones que se obtienen son lineales con respecto a las k variables involucradas (modelo lineal de discriminación):
 
k
Fg = ag0 + agjxji , para cada grupo g
j=1
 
en la que los ag0,..., agk son coeficientes que se definen para cada grupo g y xji el valor de la variable Xj en una cierta observación i.
 
Por el contrario, si se presupone que las observaciones de cada grupo corresponden a poblaciones distintas, cada una con una matriz de covariancias propia, las funciones tienen una estructura cuadrática con respecto a los valores de las variables, (modelo cuadrático de discriminación).
 
La estimación de los coeficientes de las funciones que constituyen el modelo de clasificación (o discriminación) se efectúa en cada caso a partir de disponer de un conjunto de observaciones multivariadas para cada una de las cuales se conoce el grupo al que corresponde (ver capítulo 17 para el caso del modelo lineal).
 
Tanto en el caso lineal como en el cuadrático, para predecir mediante el modelo de discriminación el grupo correspondiente a una cierta observación, se calculan con ella los valores de las funciones para todos los grupos. El grupo buscado será el vinculado a la función que toma mayor valor.
Hasta aquí hemos considerado el criterio de clasificación más aplicado en el AD, el de distancia entre las observaciones y los diferentes grupos. Además de él existen otros criterios, como el de máxima verosimilitud, concepto que ya vimos en el tema de distribuciones de probabilidad y que intenta asignar una observación al grupo para el cual la probabilidad de correspondencia es máxima. Este criterio presenta una mayor generalidad de aplicación que los anteriores, aunque sus resultados coinciden con éstos cuando las matrices de covariancia de los datos cumplen las condiciones enunciadas anteriormente.
 
Un proceso particular en el AD considera la posibilidad de ir entrando o sacando variables en la definición del modelo de discriminación, estableciendo el subconjunto de variables que permite lograr una mayor capacidad de clasificación, de manera similar al proceso denominado Paso a Paso ("step-wise") en regresión.
 
Finalmente, el AD considera en general que las variables en el conjunto de observaciones bajo análisis son todas de tipo cuantitativo, excepto la que indica el grupo conrrespondiente a cada observación. No obstante, existen algunos modelos particulares que permiten considerar variables de tipo cualitativo.
 
 
7.3.2 Evaluación del modelo de discriminación
 
Una vez definido el modelo de discriminación y estimados sus coeficientes para un conjunto de datos multivariados, podemos utilizarlo para predecir el grupo correspondiente a cada una de las observaciones que forman dicho conjunto. Ello permite efectuar una evaluación directa de la calidad de la clasificación lograda mediante el modelo discriminante, estableciendo así su grado de adecuación para la clasificación de nuevas observaciones.
 
La evaluación se efectúa a través de la comparación entre el grupo estimado por el modelo y el verdadero conocido de cada observación. Esta comparación se puede resumir en la tabla siguiente, donde en cada uno de sus casilleros se consigna el número de observaciones nst que corresponde a la combinación grupo asignado s - grupo real t:
 
-------------------------------------------------
Grupo Real
1 2 .... t ...... m
-------------------------------------------------
 
1
2
Grupo .
Estimado s nst
.
.
m
-------------------------------------------------
A partir de la tabla podemos calcular la probabilidad de clasificación errónea pS para cada grupo estimado, mediante la expresión:
m
pS = 1 - nSS / nSt
t=1
 
Dichas probabilidades de clasificación errónea constituyen estimaciones, en general sesgadas, de las verdaderas probabilidades. No obstante, son de utilidad práctica ya que la obtención de mejores estimaciones es compleja, salvo que se tengan únicamente dos grupos de clasificación.
 
 
7.4 TECNICAS DE AGRUPAMIENTO
 
Dado un conjunto de observaciones multivariadas, las técnicas de agrupamiento ("clustering") tienen como objetivo formar con ellas grupos, tratando de que en cada uno de ellos se concentren las observaciones que presentan mayor similaridad entre sí. A diferencia del Análisis Discriminante, que también constituye una técnica de clasificación, dichos grupos no están definidos a priori, sino que se establecen durante el proceso de agrupamiento.
 
Existen numerosas técnicas específicas de agrupamiento y practicamente todas ellas consideran como criterio básico de agrupamiento el tratar de lograr que la distancia media entre las observaciones que forman un grupo sea lo más baja posible, mientras que la distancia entre grupos sea lo más alta posible.
 
En las técnicas de agrupamiento es usual considerar para la determinación de las distancias el criterio de la distancia euclídea, enunciado en 7.1, debiendo en ese caso las observaciones involucrar variables cuantitativas. Su aplicación a variables cualitativas es posible mediante la adopción de otros criterios de distancia o, en forma indirecta, recurriendo a procesamientos previos como la aplicación del Análisis de Proximidades (Ver sección 7.5).
 
En la utilización de una cierta técnica de Agrupamiento y dado el criterio usual de considerar la distancia euclidea puede resultar conveniente efectuar un proceso previo de normalización de las observaciones en estudio, variable por variable, si las escalas de éstas presentan diferencias marcadas en sus niveles. Asimismo, en muchos casos se aplica previamente el Análisis de Componentes Principales al conjunto de observaciones originales, obteniendo un nuevo conjunto de datos con un número menor de componentes, no correlacionadas, lo que evita las distorsiones que en el cálculo de la distancia pueden producir variables experimentales altamente correlacionadas entre sí.
 
A diferencia de otras técnicas que hemos presentado anteriormente, en las de agrupamiento no se plantea ningún modelo estadístico que deba ser identificado, estimados sus coeficientes y verificado su ajuste. Debido a ello no se requiere asumir hipótesis sobre la o las poblaciones a las que pertenecen las observaciones en estudio.
Los métodos utilizados en todas las técnicas de agrupamiento usuales son de tipo heurístico, es decir, los criterios que se consideran en el agrupamiento de las observaciones no aseguran que la distancia dentro de cada grupo sea mínima y entre grupos máxima, sino que producen agrupamientos que se acercan en mayor o menor medida a ese objetivo.
 
Respondiendo a esta característica las diversas técnicas de agrupamiento pueden ubicarse en dos grandes grupos diferenciados según que que impliquen o no criterios jerárquicos en el agrupamiento, como veremos seguidamente.
 
 
7.4.1 Agrupamiento jerárquico
 
Este enfoque permite agrupar las observaciones de un cierto conjunto de datos multivariados en niveles crecientes de agregación. Partiendo del criterio que, al comienzo, cada observación constituye un grupo en sí mismo, el agrupamiento jerárquico va construyendo grupos con cada vez más observaciones, definiendo para ello en cada etapa un nuevo grupo como unión de los dos grupos que tengan entre sí la menor distancia. Los pasos de agrupamiento de a pares pueden repetirse hasta obtener el número de grupos deseado, o, en el caso extremo, hasta que todas las observaciones constituyan un único grupo.
 
El proceso jerárquico de agrupamiento se representa visualmente mediante un gráfico denominado Dendograma, en el que se indican en forma ordenada los grupos que se van formando y qué observaciones o grupos anteriores los constituyen:
 
Observaciones
1 2 3 4 5 6 7
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Un aspecto central en el proceso de agrupamiento está constituido por el criterio utilizado para definir la distancia entre un grupo y cada uno de los restantes. Inicialmente, cuando los grupos definidos son las observaciones del conjunto de datos bajo análisis, las distancias entre grupos son directamente las distancias entre observaciones, calculadas a partir de los valores de las variables involucradas en cada observación.
En cambio, en pasos subsiguientes del proceso los grupos que se van definiendo están formados por más de una observación. Existen diversas variantes a las generales presentadas en 7.1 para definir las distancias entre grupos en este caso, obteniéndose en general agrupamientos diferentes en la aplicación de cada uno de ellos:
 
a) Método de la Distancia Mínima
 
La distancia entre dos grupos se obtiene como la distancia entre el par de observaciones, una en cada grupo, que se encuentran más próximas entre sí(distancia dij' en la figura siguiente).
 
b) Método de la Distancia Máxima
 
Es similar al anterior, pero considerando ahora la distancia entre las dos observaciones más alejadas, una en cada grupo (distancia dij" en la figura siguiente).
 
c) Método de la Distancia Promedio
 
La distancia entre dos grupos se obtiene como promedio de las distancias entre sus respectivas observaciones (distancia dij en la figura siguiente).
 
 
 
 
 
 
 
 
 
Una propiedad general del proceso es que, en cada paso de agrupamiento, aumenta la distancia de los grupos que se unen, lo que equivale a expresar que cada vez se van uniendo grupos que se encuentran más separados. De acuerdo a ello se cumple la siguiente relación:
 
 
 
 
 
 
 
 
 
 
 
 
7.4.2 Agrupamiento no jerárquico
 
Existen diversos criterios de tipo no jerárquico definidos para realizar el agrupamiento de observaciones. Uno de ellos involucra la selección inicial de algunas observaciones como "semilla", a partir de las cuales se van consolidando grupos, por incorporación paulatina de nuevas observaciones en función de su cercanía a ellas. En este método el número de observaciones "semilla" es también el número de grupos que se obtendrán a la finalización del proceso.
 
Otro enfoque no jerárquico, denominado de las k-medias, organiza a las observaciones involucradas en el número de grupos deseado mediante algún criterio de aplicación sencilla y después va reasignando las observaciones entre grupos, tratando de ir mejorando algún criterio vinculado a las distancias dentro de cada grupo y a las correspondientes entre grupos.
 
 
7.5 OTRAS TECNICAS DE ANALISIS MULTIVARIADO
 
7.5.1 Análisis de Proximidades ("Multidimensional Scaling")
 
En la sección 7.2 vimos que unas de las aplicaciones del Análisis de Componentes Principales era la representación gráfica de un conjunto de observaciones de tipo cuantitativo. En dicha representación la separación entre observaciones correspondía aproximadamente a las respectivas distancias euclídeas.
 
El Análisis de Proximidades (AP) tiene una finalidad similar a la anterior, pero considerando ahora que la distancia entre pares de observaciones, a la que denominamos genéricamente disimilitud, en general de tipo no euclideo. Las únicas condiciones que debe cumplir la disimilitud dij entre dos observaciones i y j son que sea mayor o igual que 0, que sea nula cuando las dos observaciones son coincidentes y que aumente a medida que disminuye la semejanza entre las observaciones (de acuerdo a ello es necesario sólo que sea de tipo ordinal).
 
Esta definición tan general de distancia permite que el AP sea aplicable no sólo a observaciones correspondientes a variables cuantitativas, donde es posible calcular alguna distancia, sino a casos donde sólo se puede establecer algún grado de separación o de diferencia de tipo ordinal entre observaciones.
 
Dado un conjunto de observaciones multivariadas es necesario definir algún criterio para calcular las disimilitudes entre pares de ellas, sobre la base de los valores de las variables involucradas. Otra posibilidad es obtener directamente las disimilitudes entre pares de individuos de un conjunto de éstos en estudio. Por ejemplo, si tenemos un conjunto de personas, podemos medir el grado de disimilitud dij entre pares de ellas, con la siguiente escala ordinal: (1) Mucha afinidad; (2) Afinidad media; (3) Afinidad baja y (4) No hay afinidad
 
El AP define, dada la matriz de disimilitudes dij para un conjunto de observaciones o individuos, define un número reducido de variables cuantitativas, obteniendo sus valores para cada uno de dichos individuos. La condición que deben cumplir estos valores es que las distancias euclídeas calculadas mediante ellos reproduzcan aproximadamente las dij entre pares de individuos. Si ello se cumple los valores de esas variables resultan útiles para representar el conjunto de individuos en estudio. En el caso más usual, de que las variables que se obtengan sean dos, podemos efectuar dicha representación en un gráfico de dos dimensiones:
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Existen diversos métodos desarrollados para encontrar, dadas las dij entre individuos, las coordenadas de representación para cada individuo. Entre ellos, los de mayor aplicación en los programas estadísticos son los métodos de Kruskall y de Guttman.
 
Como resultado de la aplicación de la técnica se determinan los valores de las variables de representación para cada individuo. Además de ello es posible en general obtener la relación resultante entre las disimilitudes dij y las distancias euclídeas que las representan, para cada par de individuos, lo cual es útil para evaluar el grado de adecuación de la aproximación obtenida:
 
 
 
 
 
 
 
 
 
 
 
 
 
7.5.2 Analisis Factorial
 
El objetivo básico del Análisis Factorial (AF) es, dado un conjunto de datos multivariados, establecer un número menor de nuevas variables que puedan constituir factores básicos explicativos de los valores de las variables originales. Dichos factores no son variables de carácter experimental, pero se les puede dar un significado dentro del problema en estudio. Por ejemplo, dado un conjunto de variables de conducta medidas sobre una muestra de individuos, puede interesar encontrar un número más reducido de factores asociables a ciertas características psicológicas básicas, aunque éstas no se puedan medir.
 
El resultado principal del AF es el grado de influencia que cada factor definido tiene sobre las variables experimentales, influencia que se precisa mediante los coeficientes bjk de la relación lineal que se supone existe entre las variables Xj y los factores Y1,...,Ym:
 
m
xji = bjpypi + ei
p=1
 
siendo:
xji Observación i de la variable Xj.
 
ypi Observación i del factor Yp.
 
m Número de factores definido (menor que el número de variables experimentales).
 
ei Error que surge debido a que se establece un número de factores menor que el de variables, por lo que no se puede explicar toda la variabilidad de éstas.
 
 
El AF tiene, de acuerdo a lo visto, una semejanza importante con el Análisis de Componentes Principales, ya que ambas técnicas consideran la definición de nuevas variables de un conjunto de datos multivariados. Sin embargo, existe una diferencia significativa con respecto al uso que se da a esas nuevas variables. En el ACP interesa encontrar los valores de dichas variables (componentes) como representativos del conjunto original de datos, sin darles un significado dentro del proceso en estudio. En el AF, en cambio, interesa encontrar alguna interpretación de las nuevas variables (factores) más general que la de las variables experimentales, considerando para ello los coeficientes que permitirían definir los valores de éstas últimas en función de dichos factores.
 
Existen diversos métodos para obtener los coeficientes bjp. Entre ellos, uno de los más utilizados en las aplicaciones computacionales se basa en la aplicación del ACP. Otro proceso de aplicación usual en el AF es el denominado de Rotación de los factores. Mediante él se efectúa una transformación de estos factores, a fin de mejorar el grado de relación entre cada uno de ellos y algunas de las variables originales. Existen diversos procedimientos de rotación, como el Varimax o el Quartimax, entre otros.
7.5.3 Correlación Canónica
 
Esta técnica es una extensión del análisis de correlación entre dos variables, visto en el capítulo 2, ya que tiene por objetivo evaluar el grado de relación entre dos grupos de variables, en un dado juego de datos multivariados. Para ello se definen nuevas variables para cada grupo, como combinación lineal de las respectivas variables originales, obteniendo coeficientes de correlación entre pares de las nuevas variables.
 
Por ejemplo, si se tienen dos grupos A y B de variables en un cierto conjunto de datos, podemos definir nuevas variables YA e YB, una para cada grupo, como combinación lineal de las originales. La técnica nos permite obtener un coeficiente de correlación rAB, que globalmente da una evaluación del grado de relación entre los grupos A y B en el juego de datos considerado. A dichos coeficientes se les pueden aplicar pruebas de significación similares a las vistas para el caso de dos variables.
 
En las implementaciones computacionales de esta técnica es usual utilizar para resolverla el denominado Modelo Lineal General, descripto en el capítulo 6.
 
 
7.5.4 Análisis Multivariado de Variancia
 
Esta técnica constituye una generalización del Análisis de Variancia visto en el capítulo 6, considerando ahora que en cada experimento u observación se tienen varias variables respuesta para una dada combinación de valores de los factores.
 
En este caso se podría aplicar el Análisis de variancia normal a cada variable respuesta, en forma independiente. No obstante, ello no tiene en cuenta las correlaciones entre las diversas variables respuesta, que pueden afectar la verificación de las significaciones de los efectos producidos en ellas por los factores.
 
En el Análisis Multivariado de Variancia se establecen modelos que en conjunto pretenden explicar la relación entre las variables respuesta y los factores involucrados. Dichos modelos consideran que los términos de error responden a una distribución normal multivariada.
 
Los métodos utilizados para la estimación de los efectos debidos a cada factor y para la determinación de su significación constituyen una generalización de los correspondientes al Análisis de Variancia normal. Las estadísticas de prueba que se establecen en este caso responden a distribuciones complejas, que mediante transformaciones adecuadas se llevan a la "F" o a la "Chi2".
 
7.5.5 Regresión Multivariada
 
De igual manera que la anterior esta técnica constituye una ampliación de la de Regresión vista en el capítulo 6 al caso de más de una variable dependiente. Es decir que ahora tenemos varias funciones de regresión, interrelacionadas entre sí por el hecho de que las variables dependientes de algunas de ellas son variables independientes en otras, por lo cual no se pueden procesar de manera separada.
 
Este caso de regresión es frecuente en los análisis de tipo econométrico, utilizándose para su resolución, en general en el caso lineal, variantes del método de cuadrados mínimos que involucran procesos de varias etapas (procesos denominados "two stages", "three stages", etc).
 
 
CAPITULO 8
 
SERIES DE TIEMPO
 
 
8.1 PRESENTACION
 
En este capítulo consideraremos los procesos que involucran un caso particular de datos estadísticos, que aparece cuando cada observación corresponde a un cierto instante o período de tiempo y se encuentra ordenada dentro del conjunto de datos de acuerdo a dicho período. Los datos que responden a esta característica se denominan usualmente Series de Tiempo y en ellos cada variable constituye un serie específica.
 
Un primer grupo de procesos sobre este tipo de datos permiten efectuar diferentes análisis descriptivos, útiles para lograr un conocimiento inicial de las series y como ayuda para la identificación de posibles modelos que las expliquen.
 
El otro gran grupo de procesos sobre series de tiempo involucra en general la definición y utilización de modelos que las representan, teniendo como objetivos: a) Tratar de establecer las leyes que determinan la variación en los valores de la serie considerada, o b) Estimar valores futuros de una cierta serie, partiendo de un conjunto de valores conocidos de ella (Pronóstico).
 
En ambos objetivos un primer enfoque de modelización, de tipo explicativo, involucra la obtención de relaciones entre el valor de la serie en un cierto período y los de otras variables para el mismo u otros períodos. En este tipo de modelos se aplican los conceptos de regresión vistos en el Capítulo 7, por lo que no los desarrollaremos en este capítulo.
 
Los modelos específicos de series de tiempo consideran en cambio relaciones que estiman el valor de una variable X en un período únicamente como función de valores pasados de ella misma:
 
xt+k = f( xt, xt-1, xt-2, ... ) , k 1
 
 
En la aplicación de modelos a las series de tiempo aparecen las actividades típicas vistas para estas herramientas: la identificación, estimación, evaluación del ajuste y uso del modelo como herramienta explicativa o de predicción.
 
La primera actividad, de identificación, involucra la selección del modelo a utilizar, para lo cual resulta útil obtener algún conocimiento, aunque sea aproximado, del comportamiento de la serie en estudio. Este conocimiento previo puede efectuarse mediante algún método que permita efectuar un análisis descriptivo de la serie, como la graficación de sus valores, o el cálculo de las correlaciones que ellos presentan entre sí.
 
 
En cuanto a la actividad de estimación, dentro de la aplicación general de modelos estadísticos, ella involucra el cálculo de estimadores de los coeficientes que aparecen en las correspondientes funciones, mediante algún criterio que tienda a optimizar el grado de ajuste del modelo a los datos experimentales considerados. Cabe mencionar que en el caso específico de las Series de Tiempo, existen algunos modelos en los cuales no se aplica exactamente el concepto de estimación de sus coeficientes, sino que éstos se deben adoptar exógenamente.
 
La última etapa previa a la de aplicación de un modelo de serie de tiempo consiste en la evaluación del ajuste logrado entre los valores estimados por él y los experimentales de la serie. Ello se logra principalmente considerando los errores o residuos et que se producen entre cada valor experimental xt conocido de la serie y su correspondiente estimación xt:
 
et = xt - xt
 
A partir de dichos términos podemos definir de manera directa diversos indicadores del grado de ajuste del modelo involucrado, entre los que se destacan:
 
- Error Cuadrático Medio. Se obtiene como promedio de los errores de estimación, al cuadrado.
 
- Error Relativo Medio. Da la magnitud promedio de los errores, relativos a los valores experimentales de la variable.
 
En el caso de los modelos específicos para Series de Tiempo no es directa la definición de pruebas estadísticas de evaluación del grado de ajuste, como surgían en otros modelos vistos anteriormente. Sí, en cambio, pueden aplicarse pruebas a los términos de error et, para verificar su grado de aleatoriedad, de manera similar al caso de regresión.
 
Una vez evaluado un dado modelo resulta posible utilizarlo como herramienta de predicción (o de pronóstico) de valores futuros de la serie de tiempo considerada. Las posibilidades y alcance de esta predicción dependen del tipo de modelo específico utilizado y del grado de ajuste logrado con él a la serie experimental.
 
En las secciones siguientes del capítulo presentamos las diversas técnicas que, referidas a series de tiempo, se consideran en las implementaciones computacionales usuales. En primer lugar se describen los principales procesos de análisis descriptivo, específicos para series de tiempo. A continuación de ello se presentan los modelos de series de tiempo de mayor aplicación. Estos son:
 
- Modelos de Ajuste
- Modelos Autorregresivos
- Métodos de Descomposición
 
Previamente a ello y dado que sirven de referencia en todos los análisis del tema definimos las componentes típicas que, aisladas o en combinación, configuran usualmente el comportamiento de una serie de tiempo:
 
- Tendencia: Las observaciones de la serie manifiestan una dirección definida de variación a lo largo del tiempo (creciente o decreciente). Un caso particular de ello es el estacionario, donde la tendencia es horizontal.
 
- Estacionalidad: Los valores de la serie varían de acuerdo a una pauta general que se repite a intervalos de tiempo regulares.
 
 
- Ciclo: las observaciones de la serie van mostrando una oscilación a lo largo del tiempo, diferenciándose de la estacionalidad en que presentan períodos de duración variable y en general más largos.
 
- Aleatoriedad: las observaciones fluctúan aleatoriamente alrededor de un valor medio, sin que se reconozca en ellas ninguna pauta definida de variación.
 
 
8.2 ANALISIS DESCRIPTIVO DE SERIES DE TIEMPO
 
Las técnicas comprendidas dentro de este tema ayudan, por un lado, a entender el comportamiento global de una serie y a conocer las componentes que pueden estar contenidas en ella. Son útiles, además, cuando se trabaja con modelos, durante la etapa de identificación, para encontrar la estructura del modelo adecuada en principio a la serie de tiempo considerada.
 
Los procedimientos de mayor aplicación para efectuar un análisis inicial de tipo descriptivo (o exploratorio) de una dada serie de tiempo, además de los genéricos vistos en el capítulo 2, son: la graficación de sus valores, el cálculo de coeficientes de autocorrelación y la obtención de valores suavizados ("smoothed"), que describimos en los puntos siguientes.
 
 
8.2.1 Graficación
 
Este procedimiento permite obtener una síntesis visual global del comportamiento de una o más series de tiempo, tanto formadas por valores experimentales como por transformaciones de ellas o residuos de un dado proceso.
Es usual realizar la graficación de series en un sistema de dos dimensiones, en el que el eje horizontal es el tiempo y el vertical el valor de la serie (o series) considerada. Dentro de ello existen diversas variantes de representación, mediante las cuales pueden destacarse visualmente ciertos comportamientos que interesa apreciar.
 
La posibilidad de graficación más directa es aquella en la que se indica la secuencia de valores de la variable considerada a lo largo del tiempo:
 
 
 
 
 
 
 
 
 
Otra forma típica de graficación de series de tiempo involucra el indicar cada valor no mediante un punto sino en forma relativa a uno o más valores de referencia que se establecen en cada caso. Por ejemplo, en la primera de las figuras siguientes se define un valor de referencia único, promedio del conjunto de observaciones, y los valores de la serie se grafican a lo largo del tiempo como barras relativas a aquel. En la segunda figura se establecen valores de referencia para periodos representativos consecutivos (semanas, años, etc) como promedio de los valores en cada uno de ellos.
 
 
 
 
 
 
 
 
 
 
 
8.2.2 Correlación en Series
 
En el capítulo 2 presentamos una estadística específica, el coeficiente de correlación, que medía el grado de relación lineal entre dos variables, y que tomaba valores entre -1 y 1. Este mismo concepto lo podemos trasladar al caso de una serie de tiempo, surgiendo los coeficientes de autocorrelación, de autocorrelación parcial y de correlación cruzada.
 
a) Coeficientes de Autocorrelación
 
El cálculo de este coeficiente es similar al caso de dos variables relacionadas, pero ahora evaluado entre pares de valores de la misma serie.
 
Para una misma serie, podemos obtener varios coeficientes de autocorrelación, según como consideremos en ella los pares de valores para el cálculo. Así, un primer coeficiente r1 resulta de considerar los n-1 pares que se forman con cada observación de la serie y la anterior. Generalizando, el coeficiente rk se obtiene considerando los n-k pares que se forman entre un valor de la serie y el que se encuentra k posiciones más atrás.
 
El conjunto r1 a rk de coeficientes de autocorrelación de una serie suministra una información útil sobre su comportamiento y el tipo de compnentes presentes en ella, así como sirve de ayuda en la etapa de identificación del modelo que se considera explica más adecuadamente la serie en estudio. En el cálculo computacional de los coeficientes es usual obtener representaciones visuales de un conjunto de ellos para una dada serie (correlogramas):
 
 
 
 
 
 
 
 
 
 
 
En dichas graficaciones se suelen incluir también intervalos de confianza de sus valores, para un nivel de significación dado (usualmente 5%), como se definieron en el capítulo 4. Si un dado rk se encuentra dentro de ellos podemos presuponer que su valor no es significativamente diferente de cero.
 
Otra prueba disponible involucra obtener la significación global de un conjunto de m coeficientes de autocorrelación correspondientes a una dada serie (prueba de Box-Pierce). En función de la suma cuadrática de estos coeficientes se obtiene una estadística de prueba, que sigue una distribución "Chi2" en el caso de que los coeficientes en conjunto no sean significativos.
 
 
b) Coeficientes de Autocorrelación Parcial
 
Estos coeficientes tienen un significado similar a los de autocorrelación vistos, ya que evalúan el grado de relación entre pares de valores de una serie separados un cierto número de posiciones (una o más), pero ahora considerando que se mantiene constante el efecto de otras separaciones. Su utilidad principal es como ayuda en la etapa de identificación ligada a algunos tipos específicos de modelos de serie de tiempo, como veremos más adelante.
 
Los coeficientes de autocorrelación parcial se vinculan con los coeficientes de autocorrelación rk mediante un sistema de ecuaciones lineales, cuya resolución permite obtener los valores de aquellos. Sus valores varían también entre -1 y +1 y para ellos pueden también definirse intervalos de confianza en torno al valor 0.
 
 
c) Coeficientes de Correlación Cruzada
 
Estos coeficientes se calculan de manera similar a los de autocorrelación, pero considerando valores de dos series relacionadas, en lugar de una. Así, por ejemplo, un coeficiente rk corresponde a la correlación entre cada valor de una serie y el de otra serie ubicado k posiciones adelante en el tiempo. De la misma manera un coeficiente r-k evalúa la correlación entre cada valor de una serie y el valor de otra serie ubicado k posiciones más atrás:
 
 
 
 
 
 
 
 
 
 
 
8.2.3 Suavizamiento ("smoothing")
 
Los procesos de suavizamiento o filtrado permiten obtener una apreciación del comportamiento general de una serie, para lo cual obtienen, a partir de ésta, una nueva serie en cuyos valores se reducen significativamente componentes no deseables de variación de los valores experimentales (aleatoriedad y, en algunos casos, estacionalidad). De esta manera la nueva serie obtenida resulta mucho más "inteligible" que la serie original, en cuanto a apreciar su comportamiento global.
 
Los criterios más conocidos y aplicados para el suavizado de una serie son los siguientes:
 
a) Promedios Móviles
 
De acuerdo a este criterio, cada valor de la serie suavizada se obtiene como promedio de un número definido de valores de la serie original y se ubica en una posición centrada con respecto a éstos. Por ejemplo, si consideramos cinco valores para el promedio, un valor genérico yt suavizado resulta, a partir de los valores de la serie experimental X:
 
yt = (xt-2+ xt-1+ xt+ xt+1+ xt+2)/5
El proceso de promedio móvil puede aplicarse varias veces consecutivas a los valores de una serie, lo que permite obtener diferentes grados de suavizamiento. Asimismo, resulta posible aplicar ponderadores diferentes a cada uno de los valores que forman cada promedio, con lo que se generaliza el proceso de suavizado ("Hanning"). Un posible ejemplo de ello sería el siguiente, considerando tres valores para el promedio:
 
yt = 0.25 x-1 + 0.5 xt + 0.25 xt+1
 
 
b) Métodos robustos de suavizamiento
 
Estos métodos, que en general se agrupan dentro del Análisis Exploratorio de Datos (ver capítulo 2), permiten obtener series suavizadas que se ven menos afectadas por valores experimentales extraordinarios que los métodos de promedio móvil.
 
Los métodos robustos se basan en un concepto similar al de promedios móviles, pero considerando ahora las medianas, en lugar de las medias aritméticas. Asimismo, resulta posible combinar varias operaciones de medianas móviles, obteniendo diferentes grados de suavizamiento. Dentro de estas operaciones se pueden contemplar también procesos de ponderación de los valores de medianas, igual que en el caso de los promedios móviles.
 
 
c) Regresión
 
Mediante las técnicas de regresión puede suavizarse una cierta serie experimental. Ello se logra ajustando a ella alguna función de regresión, considerando al tiempo como variable independiente:
 
yt = f(t)
 
 
Una vez obtenida dicha función,
resulta directa la determinación
con ella de los valores suavizados
en correspondiencia con los de la
serie original.
 
Las funciones f() más usuales son la lineal y aquellas que se transforman al caso lineal: potencial, exponencial, semilogarítmica, logística o polinómica.
 
 
8.3 MODELOS DE AJUSTE
 
Estos modelos son los más sencillos que se pueden plantear para el caso específico de series de tiempo, definiéndose cada uno de ellos mediante una función específica de predicción. Estas funciones pueden definirse genericamente, para un dado período futuro de predicción t+k, como:
xt+k = f( xt, xt-1, ... , P) k> 1
 
siendo P un conjunto de parámetros cuyos valores no surgen de un proceso de estimación, como en otros modelos estadísticos, sino que son adoptados exógenamente por el usuario del modelo.
 
Los modelos de ajuste presentan la ventaja principal de ser de una mayor sencillez de aplicación que otros métodos de predicción. Ello, por el contrario, determina que su capacidad de predicción sea limitada, extendiéndose a uno o pocos períodos futuros. Debido a esta característica los modelos de ajuste tienen mucha aplicación como herramientas de predicción de corto plazo cuando se tienen muchas variables del tipo serie de tiempo. Un ejemplo de ello son las previsiones de demanda para un conjunto numeroso de productos, dentro de un sistema de gestión de inventarios.
 
 
8.3.1 Promedios Móviles
 
Este modelo constituye una aplicación a la predicción del concepto de promedio móvil visto dentro del análisis descriptivo de series (sección 8.1). Ahora, el promedio que se obtiene de cada grupo de valores de la serie se utiliza para estimar el valor siguiente de ésta. Así, por ejemplo, considerando grupos de m valores, la función de predicción es la siguiente, en la que el parámetro del modelo que se adopta es el número m de valores para el promedio:
 
xt+1= ( xt-m+1 +....+ xt-1 + xt) / m
 
Este es el modelo más simple de ajuste y resulta útil para predicción de series que no tienen componentes marcadas de tendencia o de estacionalidad.
 
 
8.3.2 Ajuste Exponencial
 
Este modelo predice el valor de la serie en estudio en el período futuro inmediato mediante el valor estimado en el período anterior, corregido por una fracción del error que dicho valor estimado tuvo con respecto al real:
 
xt+1 = xt + (xt - xt) = xt + (1- ) xt
 
siendo un parámetro cuyo valor se adopta entre 0 y 1.
 
El modelo exponencial, apropiado en general para series sin componentes definidas de tendencia y estacionalidad, es equivalente a realizar un promedio ponderado de los valores anteriores de la serie, con factores de ponderación que decrecen a medida que se consideran valores más antiguos de la serie.
 
Una variante del método exponencial es la de hacerlo adaptativo, es decir, transformar el parámetro en una variable, que se va modificando automáticamente a lo largo de la predicción, tratando de reducir los errores resultantes. Para ello, se definen expresiones que hacen que el valor de crezca cuando los errores tienden a hacerse más grandes.
 
 
8.3.3 Ajuste con Tendencia
 
Los modelos de ajuste vistos hasta ahora no se adaptan satisfactoriamente a la predicción de valores futuros de series con tendencias crecientes o decrecientes definidas. Debido a ello se han desarrollado modelos específicos de tipo exponencial o de promedios móviles que contemplan y ajustan la componente de tendencia que presenta una serie y la incorporan al modelo de predicción.
 
Uno de los métodos más utilizados dentro de este grupo es el denominado de Holt, que contempla dos funciones de ajuste exponencial. La primera de ellas, que involucra un parámetro . entre 0 y 1, pondera la evolución de la serie, obteniendo valores St. La segunda, con un parámetro , también con valores entre 0 y 1, pondera la evolución bt de la diferencia entre valores consecutivos de la serie. La predicción de valores de ésta se efectúa mediante la función:
 
xt+k = St + kbt
 
Otro modelo de ajuste para series con tendencia es el denominado de Brown. Este modelo utiliza dos veces un modelo exponencial simple, ambas con un único parámetro . La primera se aplica a los valores originales de la serie y la segunda a las estimaciones obtenidas con la primera. A partir de los resultados de las funciones de ajuste se obtienen valores at y bt, con los que se pueden predecir valores futuros de la serie, de manera similar al caso anterior.
 
Una extensión de este criterio se utiliza en el modelo cuadrático de Brown, donde se aplica tres veces la función de ajuste exponencial simple, con el mismo parámetro , obteniendo una función de estimación cuadrática con respecto al período k de predicción.
 
 
8.3.4 Ajuste con Tendencia y Estacionalidad
 
Cuando la serie en estudio presenta componentes definidas de tendencia y estacionalidad los modelos anteriores en general no suministran buenas predicciones. Debido a ello se han desarrollado modelos específicos que tienen en cuenta la existencia de dichas componentes, a costa de una mayor complejidad de cálculo. De ellos el más conocido es el denominado de Winters, que es una extensión del de Holt al caso de estacionalidad.
 
El modelo contempla tres funciones de ajuste exponencial. La primera de ellas pondera en un valor St la serie original sin tener en cuenta la estacionalidad. El segundo ajuste pondera la evolución bt de la tendencia como diferencia entre valores consecutivos de la serie. Finalmente, un tercer ajuste exponencial pondera el factor It de estacionalidad para cada período.
 
La predicción de valores de la serie se efectúa mediante la función:
 
xt+k = (St + kbt)It-L+1
 
El método requiere la definición de cuatro parámetros. Los tres primeros, , y , con valores entre 0 y 1, se utilizan en las respectivas funciones de ajuste. El último parámetro, L, es directamente la longitud del período de estacionalidad de la serie, que se conoce de antemano.
 
Otro modelo de ajuste dentro de este grupo, de menor aplicación que el anterior, es el armónico de Harrison. Este modelo representa la estacionalidad mediante combinaciones de funciones trigonométricas, basadas en el concepto de transformación de Fourier, que veremos en la sección 8.6 .
 
 
8.4 MODELOS AUTORREGRESIVOS
 
8.4.1 Introducción
 
Los modelos de ajuste que vimos en la sección anterior obtenían el valor estimado de una serie en dado período como cierta función de valores experimentales de períodos anteriores. Dicha función, que en general puede llevarse al caso lineal, queda totalmente definida según el modelo empleado y los valores adoptados para sus parámetros.
 
El concepto de regresión, considerado en el capítulo 6, nos permite definir una relación lineal más general entre un dado valor de una serie de tiempo y sus predecesores:
 
xt = 01xt-1 + 02xt-2 + ...+ 0pxt-p + et
 
Esta relación constituye prácticamente una función de regresión, sólo que ahora las variables independientes son directamente valores anteriores de la misma serie X. Por dicha razón el modelo planteado se denomina autorregresivo, definiéndose sinteticamente como modelo AR(p), siendo p el número de valores previos considerados en la función.
 
Este tipo de modelos de series de tiempo, que tienen un desarrollo teórico importante, tomaron relevancia práctica a partir de la utilización de computadores, que facilitan su resolución para obtener los valores de los coeficientes 0j mediante la minimización de la suma de errores cuadráticos et2.
 
Extendiendo el enfoque de autorregresión a los términos de error se puede definir otro grupo de modelos, que estiman el valor de la variable X en un cierto período como una función lineal de los errores en su estimación para q períodos anteriores:
 
xt = + 01et-1 + 02et-2 +...+ 0qet-q + et
 
donde es el valor esperado de la serie y 01 a 0q coeficientes que también pueden estimarse mediante el método de cuadrados mínimos. Estos modelos se denominan usualmente de promedios móviles, aunque sean totalmente diferentes en su enfoque a los métodos de ajuste del mismo nombre, siendo identificados sintéticamente mediante la denominación MA(q) ("Moving Average").
 
Ambos modelos, el AR(p) y el MA(q), pueden combinarse para establecer un nuevo grupo de modelos autorregresivos, definidos por una función que integra las dos anteriores. Estos modelos se denominan ahora ARMA(p,q) y sus coeficientes se estiman también tratando de minimizar la suma de los errores cuadráticos et2.
 
En su forma general los modelos ARMA(p,q) presentan una estructura de modelización muy flexible para el análisis de series de tiempo. Ello se hace más notorio comparándolos con los modelos de ajuste que, aunque presentan diferentes estructuras posibles, ellas son siempre fijas, una vez adoptado un cierto modelo.
 
La aplicación de los modelos ARMA(p,q) no requiere, en general, valores p ó q grandes. Así, en series sin estacionalidad marcada se obtienen usualmente buenas estimaciones con a lo sumo modelos ARMA(2,2). En el caso de series que presentan una componente de estacionalidad se requiere un mayor número de términos en el modelo en función del período de estacionalidad.
 
Los modelos autorregresivos han sido desarrollados teóricamente para series con un comportamiento estacionario predominante. En consecuencia, no resultan adecuados cuando la serie considerada presenta una componente de tendencia definida, dificultad que se resuelve mediante el cálculo previo de las diferencias entre valores consecutivos de la serie de valores xt, obteniendo así una nueva serie de valores x't:
 
x't = xt - xt-1
 
Esta transformación, que ya vimos genéricamente en el capítulo 1, reduce o elimina las diferencias sistemáticas determinadas por la tendencia y puede ser aplicada previamente a la consideración de cualquier modelo de serie de tiempo.
 
Una vez contenida la nueva serie de valores x't se identifica la estructura del modelo ARMA más adecuada para ella y se estiman los valores de sus coeficientes. A partir de ello resulta directa la predicción de los valores de la serie original, estimando valores de la serie X' y efectuando la transformación inversa.
Cuando los efectos de la tendencia son más fuertes que los lineales puede resultar necesario efectuar una nueva transformación similar de los valores x't antes de aplicar el modelo autorregresivo.
 
Cuando se considera el proceso de diferenciación visto, el modelo autorregresivo se generaliza, denominándose ahora ARIMA(p,d,q) ("Autoregressive-Integrated-Moving Average"), siendo d el número de procesos de cálculo de diferencias involucrados.
 
 
8.4.2 Identificación de los modelos ARMA (o ARIMA)
 
La identificación del modelo ARMA(p,q) más adecuado para una cierta serie experimental constituye tal vez la actividad menos estructurada en la aplicación de este tipo de modelos. De todas maneras, la facilidad que da el uso de un computador hace que sea relativamente sencillo probar eventualmente varias alternativas de modelo y obtener los resultados de sus correspondientes evaluaciones.
 
Para la identificación resulta de ayuda significativa el conocimiento de los coeficientes de autocorrelación y de autocorrelación parcial. De acuerdo a los valores que ellos toman para la serie analizada pueden inferirse valores tentativos de p y de q.
 
En el caso de que la serie considerada presente una componente de tendencia definida resultará necesario efectuar, como vimos, su transformación, obteniendo las primeras, segundas, o eventualmente más diferencias. Una vez efectuado ello estaremos en condiciones de identificar el modelo más adecuado a los valores transformados de la serie original. Como ya vimos, en este caso el modelo considerado es de tipo ARIMA(p,d,q).
 
Por otra parte, en el caso de que la serie contenga una componente de estacionalidad marcada, será necesario en general agregar nuevos términos a las funciones de autorregresión, adicionales a los p y q identificados. Dichos términos abarcan usualmente el período de estacionalidad. Por ejemplo, en el caso de una serie de valores mensuales con estacionalidad anual puede ser necesario agregar un término 012xt-12 en la función de autorregresión.
 
 
8.4.3 Estimación de los coeficientes del modelo
 
Una vez identificado el modelo autorregresivo que se presupone adecuado para representar a la serie en análisis resulta necesario estimar los valores de sus coeficientes que producen un mejor ajuste con los valores experimentales.
Para ello se debe aplicar algún proceso de minimización de los errores cuadráticos producidos entre los valores estimados por el modelo y los valores experimentales. De los diversos métodos disponibles para ello los más conocidos y considerados en las implementaciones computacionales son el de Filtrado Adaptativo y el de Box-Jenkins, que describimos sintéticamente a continuación.
 
a) Filtrado Adaptativo
 
El Filtrado Adaptativo es una técnica reletivamente sencilla de estimación de coeficientes de los modelos autorregresivos, frente a otras de mayor complejidad, como la de Box-Jenkins, ya que el proceso de minimización de los errores cuadráticos considerado en ella es de fácil implementación en un computador.
 
La técnica parte de considerar un juego inicial de valores para los coeficientes de la función de autorregresión. Estos valores iniciales se obtienen mediante criterios diferentes, según el tipo de modelo identificado, AR(p), MA(q), o ARMA (p,q).
 
A partir de ello se inicia la aplicación de la función de autorregresión a la obtención de los valores estimados y los errores resultantes correspondientes a los valores conocidos de la serie involucrada. Después de cada estimación se ajustan los valores de los coeficientes de la función mediante un proceso adaptativo, que intenta reducir los errores de estimación que se van produciendo. Una vez recorrida toda la serie se puede repetir el proceso, hasta que la reducción lograda en la suma de errores cuadráticos no sea significativa.
 
Por ejemplo, en un modelo de tipo AR(p), un coeficiente 0j se ajusta a un nuevo valor 0'j, después de haber obtenido el error de estimación et correspondiente al período t de la serie, mediante la siguiente función adaptativa:
 
0'j = 0j + ktetxt-j
 
donde kt es un coeficiente de adaptación.
 
Una característica interesante de la técnica, además de su sencillez de implementación, consiste en que los valores estimados de los coeficientes de la función de autorregresión obtenidos en base a un cierto juego de datos pueden irse modificando a medida que se conocen nuevos valores experimentales de la serie.
 
b) Método de Box-Jenkins
 
En este método los coeficientes del modelo autorregresivo se estiman mediante un algoritmo de minimización del error cuadrático medio, usando un criterio similar al que vimos en el caso del proceso de regresión no lineal. De acuerdo a ello se buscan aquellos valores 0j y 0j que hagan mínima la suma de errores cuadráticos et2:
 
n
(xt - xt(01,...,0p,01,...,0q) )2=Mínimo
t=1
 
Para resolver este problema de minimización el método de Box-Jenkins adopta algún procedimiento de optimización numérica, como el de Marquardt, utilizado también para la resolución del modelo no lineal de regresión (capítulo 6).
 
El método de Box-Jenkins tiene, con respecto al de Filtrado Adaptativo, la ventaja de estimar los valores de los coeficientes mediante un procedimiento más riguroso. Frente a ello el método es de ejecución más compleja y los coeficientes obtenidos no se actualizan con nuevos valores experimentales de la serie.
 
 
8.5 METODOS DE DESCOMPOSICION
 
Los modelos de serie de tiempo vistos hasta ahora presentan en general la característica de no efectuar la separación y aislamiento de las diferentes componentes que pueden estar presentes en un cierta serie experimental: la aleatoriedad, la tendencia, la estacionalidad y la variación cíclica. En cambio, los métodos de descomposición se basan justamente en esa separación, y en definir un submodelo para cada una de las componentes, que después puedan ser combinados en un modelo global de la serie en estudio.
 
Los métodos de descomposición fueron los primeros desarrollados para el análisis de series de tiempo. A pesar de que son empíricos, con una fundamentación teórica limitada, estos métodos son sumamente útiles, principalmente en series de tiempo con componentes estacionales y de tendencia definidas, para precisar éstas. Asimismo, los métodos de descomposición pueden usarse para predecir valores futuros de una cierta serie, estimando por separado el comportamiento de cada una de sus componentes, excepto la aleatoriedad.
 
Los modelos considerados en los métodos de descomposición presuponen que cada valor de la serie, real o futuro, es función de variables correspondientes a cada componente, para el mismo periodo:
 
xt = f( Tt, Ct, It, Et)
 
correspondiendo Tt a la tendencia, Ct a la variación cíclica, It a la estacionalidad y Et a la aleatoriedad.
 
Las estructuras más usuales para la función f() son de tipo multiplicativo o aditivo, es decir:
xt = TtCtItEt ó xt = Tt+Ct+It+Et
 
De acuerdo a estas estructuras, la estimación de un valor en un período t+k se obtiene a partir de estimaciones de cada una de las componentes para el mismo período, excepto la aleatoriedad:
 
xt+k = Tt+kCt+kIt+k ó xt+k = Tt+k+Ct+k+It+k
 
 
A partir principalmente de la estructura de tipo multiplicativo se han desarrollado diversos métodos de descomposición. De ellos, uno de los más difundidos, por su sencilla aplicación y bondad de sus resultados, es el denominado de Razón (o Diferencia) a Promedio Móvil, nombre que resume el criterio básico seguido para la descomposición de las componentes de la serie.
 
El método se inicia usualmente con el aislamiento de una estimación conjunta de los valores de tendencia y ciclo, reduciendo significativamente la componente de estacionalidad y, además, practicamente toda la aleatoriedad presente en la serie original. En este proceso se utiliza habitualmente algún tipo de promedio móvil sobre los valores experimentales xt, considerando para el cálculo de éste la longitud de estacionalidad.
 
A partir de la serie de valores TCt obtenida mediante el proceso anterior, podemos separar las dos componentes que están combinadas en ellos, la tendencia y la variación cíclica. La primera de ellas, Tt, se define usualmente ajustando algún modelo de regresión a los valores TCt, considerando como variable independiente en él a los períodos t, como se vió en la sección 8.2.3 . La función de regresión a considerar es aquélla que se considera mejor representa la evolución general de los valores TCt, por ejemplo, lineal, potencial, exponencial, polinómica o logística.
 
Con los valores Tt, la estimación Ct de la variación cíclica de la serie original resulta directa:
 
Ct = TCt / Tt
 
Las restantes componentes de la serie en estudio se separan a partir de conocer los valores TCt. La estimación conjunta IEt de la estacionalidad y de la aleatoriedad se obtiene haciendo:
 
IEt = xt / TCt
 
Con los valores IEt podemos modelizar la componente de estacionalidad, obteniendo, mediante algún tipo de promedio de los IEt, coeficientes de estacionalidad It para cada período considerado. A fin de hacer más robusta la estimación, frente a valores excepcionales de la serie, es una práctica usual eliminar valores extremos de IEt para efectuar su promedio y obtener los coeficientes de estacionalidad It.
Sobre la base de los criterios expuestos se han desarrollado diversas variantes y perfeccionamientos empíricos, principalmente para su ejecución en computador. El caso más relevante de ello está constituido por el método de descomposición CENSUS, compuesto por procedimientos consecutivos de descomposición, cada uno de los cuales considera diversas posibilidades en su aplicación, alcanzando así una gran potencia y versatilidad.
 
 
8.6 OTROS PROCESOS CON SERIES DE TIEMPO
 
Además de los procesos anteriores la técnica más conocida aplicable a Series de Tiempo es el denominado Análisis Espectral. Esta técnica, que también se conoce con el nombre de análisis de Fourier, tiene por objetivo básico representar una dada serie de tiempo mediante su descomposición en un conjunto de funciones trigonométricas de frecuencia creciente:
 
xt = a1 + a2sen(t) + a3cos(t) + a4sen(2t) +
+ a5cos(2t) + a6sen(3t) + a7cos(3t) + ...
 
aprovechando para ello la propiedad de la transformación de Fourier. El modelo así definido resulta útil como representación suavizada de la serie, así como para analizar su composición espectral.
 
Las aplicaciones usuales de la técnica a una serie experimental comprenden la determinación de los coeficientes (real e imaginario) para cada frecuencia respecto a t (1, 2, 3,...), y la correspondiente amplitud como combinación de ambos. Dicha determinación, para una dada serie, se efectúa usualmente mediante el método computacional conocido como transformación rápida de Fourier.
 
A partir de los resultados obtenidos de este proceso resulta posible obtener un periodograma, en el que se grafica la amplitud cuadrática para cada frecuencia:
 
 
CAPITULO 9
 
CARACTERISTICAS GENERALES
DEL SISTEMA ESTAD
 
 
 
9.1. INTRODUCCION
 
Iniciamos aquí la presentación del sistema ESTAD, una herramienta integrada de nivel básico que permite efectuar en un microcomputador los procesos considerados en las aplicaciones estadísticas más usuales. La finalidad principal del sistema es la de servir como herramienta computacional sencilla de apoyo al aprendizaje de Estadística, para realizar pequeñas aplicaciones y para extraer de él partes que puedan integrarse en programas desarrollados ad-hoc.
 
El sistema está integrado por un conjunto de rutinas integradas, en lenguaje BASIC intérprete, siendo sus características distintivas su sencillez de manejo, una cobertura razonable de los procesos estadísticos usuales y una capacidad limitada de los datos que puede manejar.
 
En el capítulo realizamos una caracterización global del sistema ESTAD, tratando en ello de ubicarlo en términos generales respecto a las herramientas estadísticas disponibles para microcomputador. Dichas herramientas, exceptuando aquellas muy específicas o de investigación, pueden clasificarse aproximadamente en alguno de los siguientes grupos representativos:
 
 
a) Sistemas estadísticos adaptados de versiones para computadores medianos y grandes
 
Estos sistemas surgen de una adecuación al ambiente de microcomputación de programas que ya existían desde varios años atrás para computadores medianos y grandes. Ejemplos representativos de ello son los programas SAS, SSPS y BMDP.
 
Las características básicas que en general tienen estos sistemas son una gran capacidad de procesamiento y de manejo de grandes volúmenes de datos, resultantes de desarrollos y mejoras efectuadas a lo largo de un período de tiempo prolongado. Por el contrario, su utilización es en general de mayor complejidad frente que la de los sistemas de los restantes grupos.
 
b) Sistemas estadísticos desarrollados para micros, de capacidad alta y media
 
Los sistemas que se pueden incluir dentro de este grupo, en general desarrollados específicamente para
 
 
microcomputadores, presentan una capacidad importante de procesamiento y de manejo de datos, en algunos casos semejante a la de los sistemas del grupo anterior. Son ejemplos representativos de este grupo los sistemas SYSTAT y STATGRAPHICS.
 
El hecho de haber sido desarrollados para micros hace que aprovechen en mayor medida las facilidades de estos equipos, presentando en general un nivel medio de complejidad de uso.
 
c) Sistemas desarrollados para micros, de baja capacidad
 
Los sistemas dentro de este grupo son los de mayor simplicidad de uso, frente a lo cual presentan una capacidad limitada en cuanto a los procesos que abarcan o al volumen de datos que permiten manejar. Son útiles en principio para pequeñas aplicaciones y como herramientas de aprendizaje. Se pueden incluir dentro de este grupo programas como MICROSTAT y MINITAB.
 
d) Sistemas utilitarios de aplicación general
 
Estos sistemas se han desarrollado para ejecutar aplicaciones diversas, dentro de una determinada estructura de proceso y de manejo de datos en la que se ubica cada uno de ellos. Los tipos de sistemas utilitarios más usados son las Planillas de cálculo, las baese de datos, los procesadors de textos y editores y los sistemas de graficación.
 
Otra clasificación que podemos realizar de las herramientas estadísticas, complementaria de la anterior, es en función de una cierta orientación predominante de los sistemas, caracterizada por los tipos y profundidad de los procesos que abarcan. La orientaciones más representativas que pueden establecerse en ese sentido son:
 
1) Estadística Básica
 
Los sistemas que responden a esta orientación consideran procesos en los que interviene un número reducido de variables (Análisis Descriptivo de Datos, versiones simples de Regresión y Análisis de Variancia, las Pruebas Estadísticas más usuales, etc).
 
2) Análisis Multivariado
 
Siguen esta orientación los sistemas que permiten efectuar procesos de cierta complejidad sobre conjuntos de datos con un número importante de variables.
 
3) Econometría
 
Los sistemas abarcados por esta orientación ponen énfasis en los procesos que permiten efectuar análisis econométricos sobre datos de tipo serie de tiempo.
 
Sobre la base de estas características de las herramientas disponibles podemos clasificar al sistema ESTAD en los niveles más bajos del grupo c). Asimismo, su orientación predominante es la 1, con incursiones simples en las orientaciones 2 y 3.
 
 
9.2 CARACTERISTICAS GENERALES DEL SISTEMA ESTAD
 
Consideramos aquí las características principales del sistema ESTAD, en cuanto al ambiente de computación en que funciona, la capacidad que posee de manejo de datos y sus modalidades de operación. En el tratamiento que se efectúa de estos temas se hace referencia de una manera global a otros sistemas estadísticos para microcomputadores, sobre todo en aquellas de sus características que el sistema ESTAD no incluye, o que lo hace de una manera diferente.
 
 
9.2.1. Requerimientos de equipo
 
Los requerimientos de equipo para la utilización del sistema ESTAD son mínimos, asociados a los que requiere el programa intérprete BASIC dentro del cual se ejecuta.
 
Con respecto a los otros sistemas estadísticos presentan diferencias importantes en los requerimientos del equipo de computación que necesitan para funcionar. Ello está, en general, asociado a las diferencias en cuanto a la complejidad de procesamiento y capacidad de datos que existen entre los diversos programas.
 
Así, los sistemas estadísticos más poderosos (sobre todo los del grupo a) definido anteriormente) requieren equipos con memorias internas y externas importantes, disminuyendo esas exigencias a medida que pasamos a los restantes grupos de sistemas.
 
 
9.2.2. Capacidad de procesamiento de Datos
 
El sistema ESTAD requiere que los datos involucrados sean cargados en la memoria interna del equipo, previamente a la ejecución de un cierto proceso. Ello, unido a su característica de estar asociados a un programa intérprte, determina que la capacidad de datos sea limitada, aunque adecuada al objetivo principal para el que está diseñado (el sistema puede considerar juegos de datos de hasta unos 5000 valores individuales).
 
La modalidad de que los datos deban residir totalmente en la memoria interna del computador para poder ser utilizados por un dado proceso estadístico, que determina una capacidad relativamente limitada de los conjuntos de datos procesables, se aplica también en otros sistemas sencillos, orientados a la enseñanza o a pequeñas aplicaciones, donde el tamaño de los datos no necesita ser importante.
La otra modalidad posible, que los datos residan en un dispositivo de memoria externo y vayan siendo leídos cuando son requeridos por el proceso, se aplica en todos los sistemas estadísticos de mayor envergadura. Ella permite en general utilizar juegos de datos solo limitados por la capacidad de almacenamiento de los dispositivos externos disponibles (disketes, discos rígidos). En este caso la velocidad de proceso en en general menor que en la modalidad anterior, debido al requerimiento de efectuar numerosas lecturas en el dispositivo externo a lo largo de la ejecución de un proceso.
 
Algunos sistemas permiten una operación mixta, es decir, pueden procesar tanto datos residentes en la memoria del computador como otros residentes en un soporte de memoria externo.
 
 
9.2.3. Modo de operación
 
Los dos modos básicos de operación de los programas estadísticos para microcomputador son mediante menús o mediante comandos, unidos a una utilización que puede ser interactiva o "batch", como describimos seguidamente.
 
a) Operación mediante Menús
 
En esta modalidad de operación, adoptada en el sistema ESTAD, todas las órdenes que el usuario da al computador para que éste realice algún proceso se efectuan eligiendo una dada opción de un menú donde se indican todas las opciones posibles.
 
Cuando se utiliza este modo de operación es usual que exista una jerarquía de menús, es decir que eligiendo una opción en un menú aparece un submenú y así siguiendo hasta llegar a la elección del proceso específico que se desea ejecutar.
 
b) Operación mediante Comandos
 
En este caso, las ordenes para que la computadora ejecute algún proceso se dan mediante comandos o instrucciones, existiendo uno diferente para cada proceso específico. Asociados a cada comando se dispone en general de subcomandos o parámetros, con los que se establecen características específicas del proceso elegido.
 
Comparativamente, los sistemas que funcionan mediante menús son más fáciles de operar y más "amigables" para el usuario que los que utilizan el concepto de comandos, ya que los primeros indican permanentemente al usuario las posibles acciones a realizar.
 
Frente a esa mayor facilidad que implica el uso de menús, ello puede ser engorroso en una aplicación intensa del programa, caso en que el concepto de comandos permite definir más directamente un determinado proceso, sin tener que pasar por varias selecciones previas, como el uso de menús implica.
 
En términos generales puede concluirse que la operación mediante comandos resulta más adecuada para usuarios permanentes de un sistema estadístico, mientras que el uso de menús es más conveniente para usuarios "esporádicos".
 
c) Operación interactiva o "batch"
 
La forma mas usual de funcionamiento de los sistemas diseñados para microcomputadores es de manera interactiva, esto es, a través de órdenes dadas por el usuario, mediante menús o comandos, y respuestas de la máquina a esas órdenes.
 
No obstante, una buena parte de los sistemas estadísticos, que en general usan el concepto de comandos, permiten definir procedimientos, constituídos por una secuencia de órdenes para realizar tareas, la que puede despues ejecutarse como un programa. Ello posibilita realizar procesos consecutivos de manera automática, en un modo de operación que se denomina usualmente "batch".
 
Una de las mayores utilidades de los procedimientos "batch" es que, en casos de tiempos de ejecución prolongados, liberan al usuario mientras se ejecutan todos los procesos establecidos en el procedimiento. Asimismo, permiten repetir una secuencia de procesos con muy poco trabajo adicional.
 
 
La adopación en el sistema ESTAD del modo de operación mediante menús, se adapta mejor a la finalidad básica para la cual se lo ha concebido. Por la misma razón no se ha considerado necesario incluir en su operación la posibilidad de definir y ejecutar procedimientos "Batch".
 
Con respecto a los restantes sistemas estadísticos utilizan los diversos modos de operación, menús o comandos, combinados con un funcionamiento interactivo o "batch", sin una preponderancia marcada entre ellos. No obstante, se evidencia una tendencia a que los sistemas de mayor envergadura adopten una operación mediante comandos, asociada a la posibilidad de definir procedimientos "batch", los que en algunos casos llegan a constituir la única forma de ejecución posible de un proceso.
 
 
9.2.4 Nivel de Precisión
 
En el sistema ESTAD se ha adoptado un nivel de precisión simple para los valores numéricos que maneja, así como en general procedimientos de cálculo relativamente sencillo. Todo determina una precisión satisfactoria cuando los datos involucrados son normales. En cambio, pueden dar resultados sesgados, o aún fallar en encontrar soluciones, cuando se aplican a datos con características anómalas. Por consiguiente, dichos resultados se deben usar con precaución cuando se presupone que los datos involucrados presentan ese comportamiento.
Los restantes sistemas estadísticos difieren en la precisión de los resultados, dependiendo ello principalmente del nivel de precisión interna utilizado en la programación y del método de resolución adoptado en cada proceso. Los sistemas de mayor envergadura permiten manejar datos con un alto nivel de anomalía, detectando e indicando en muchos casos esa condición.
 
 
9.2.5. Posibilidad de efectuar modificaciones o agregados
 
El sistema ESTAD está constituido por un conjunto de rutinas en lenguaje BASIC que son transparentes para sus usuarios, pudiendo éstos modificarlas o ampliarlas, asi como utilizarlas en programas desarrollados ad-hoc para aplicaciones específicas.
 
Por el contrario, la mayor parte de los sistemas estadísticos disponibles para microcomputadores constituyen "cajas negras", ya que se encuentran construídos en código objeto, lo cual no permite que los usuarios les puedan efectuar modificaciones para adaptarlos a necesidades específicas. Esta imposibilidad se hace en general extensiva al agregado de módulos o rutinas con nuevos procesos.
 
Esta característica de los sistemas estadísticos se supera en algunos casos mediante la inclusión de lenguajes de programación, o mediante comandos básicos que combinados permiten definir nuevos procesos.
 
 
9.3 LA CONSIDERACION DE LOS DIVERSOS PROCESOS ESTADISTICOS
 
En la sección anterior efectuamos la presentación general del sistema ESTAD en sus características globales, completándola ahora con la síntesis de los procesos estadísticos que el sistema permite realizar, siguiendo en ello la clasificación temática definida en la parte A del libro:
 
- Manejo de datos.
- Análisis Básico de Datos.
- Distribuciones de Probabilidad.
- Pruebas Estadísticas.
- Análisis de Variancia.
- Regresión.
- Análisis Multivariado.
- Series de tiempo.
 
En esta síntesis se hace también una referencia somera a cómo contemplan cada tema las restantes herramientas estadísticas disponibles, sobre todo en los aspectos en que difieren del sistema ESTAD.
 
9.3.1 Manejo de Datos
 
El sistema ESTAD contempla diversos procedimientos para efectuar el manejo de los datos utilizados en los procesos que abarca. Así, permite ingresar manualmente datos al computador mediante el teclado, o utilizar datos provenientes de otras aplicaciones, modificar los datos, crear con ellos archivos en dispositivos de memoria externa, obtener nuevos datos por transformación de los existentes y seleccionar de un conjunto de datos aquellos a considerar en un dado proceso.
 
Los aspectos más relevantes dentro de este tema son:
 
a) Estructura de datos y archivos
 
El sistema considera la estructura de datos matricial típica, siendo una dimensión las variables analizadas y la otra, observaciones de éstas. Dentro de ello permite la consideración de datos agrupados, mediante la definición de una variable específica de la matriz donde se consigna el número de observaciones correspondiente a cada fila.
 
Con respecto a los restantes sistemas, además de ello, en muchos casos permiten definir variables cualitativas cuyos valores pueden ser de tipo alfabético, en lugar de tipo numérico como es lo usual. Ligado a ello algunos programas permiten definir descripciones alfabéticas en correspondencia con cada valor posible de una variable.
 
En el sistema ESTAD los juegos de datos que se ingresan al microcomputador pueden ser almacenados en un archivo residente en un soporte de memoria externo (en general discos flexibles o rígidos), ya sea para ser utilizados por un dado proceso estadístico o para su uso en una aplicación futura.
 
La grabación de los datos dentro de un archivo se efectúa en el sistema utilizando el formato ASCII de grabación, de uso general en los microcomputadores. Ello permite que los archivos de datos sean totalmente transparentes y puedan ser procesados por programas utilitarios que manejan archivos con ese formato, como editores, procesadores de texto y otros (ver Apéndice 2).
 
Algunos sistemas consideran para los archivos un esquema de base de datos. Este esquema permite relacionar diversos conjuntos de observaciones entre sí, con lo cual resulta posible manejar estructuras más complejas que la básica matricial.
 
Dentro de ello la mayor parte de los programas estadísticos, principalmente los de mayor envergadura, graban los archivos de datos mediante formatos específicos para cada uno de ellos, que en general no son legibles directamente por otros programas. La razón para la utilización de estos formatos de grabación específicos es principalmente la mayor eficiencia en el uso del espacio de memoria externa que ellos permiten.
Tanto el sistema ESTAD como practicamente todos los restantes sistemas estadísticos incluyen facilidades para leer archivos de datos creados por otros programas y para efectuar el proceso inverso, es decir, crear archivos de datos que puedan ser leidos por otros programas. Ello incluye tanto programas de tipo utilitario, (como planillas de cálculo o bases de datos), como programas desarrollados para aplicaciones específicas.
 
b) Ingreso Manual y Modificación de datos
 
Los datos que se van a utilizar en un determinado proceso estadístico deben previamente encontrarse disponibles en el computador. Las alternativas para ello son: el ingreso manual de los datos por teclado, su ingreso mediante la adaptación de un archivo externo proveniente de otra aplicación, o la utilización como datos de resultados obtenidos en procesos anteriores realizados con el mismo programa.
 
La mayor parte de los programas estadísticos prevén como procedimiento básico el ingreso manual de datos o su modificación a través del teclado del equipo. Para ello los programas más simples disponen de facilidades limitadas (por variable o por observación), mientras que los sistemas de mayor envergadura disponen en general de facilidades similares a las de los programas tipo Planilla de Cálculo ("full-screen"). Esta última es la forma de ingreso más flexible y que mejor aprovecha las facilidades propias de los microcomputadores.
 
 
c) Transformación de datos
 
El sistema ESTAD, al igual que la mayor parte de los sistemas estadísticos, permite efectuar transformaciones de datos existentes, considerando las siguientes posibilidades, que ya vimos genéricamente en el Capítulo 1:
 
- Mediante una función de transformación.
 
- Normalización.
 
- Diferencia y corrimiento.
 
- Recodificación, mediante una tabla de equivalencias.
 
- Cálculo de Rangos.
 
- Obtención de variables indicatrices.
 
d) Selección de datos
 
En las aplicaciones estadísticas aparece frecuentemente la necesidad de efectuar determinados procesos sólo sobre aquellas observaciones de un conjunto de datos que satisfagan cierta condición. El sistema ESTAD permite efectuar esta selección, definiendo la condición a considerar para ello previamente a la ejecución del proceso involucrado.
 
Las condiciones que pueden establecerse son en general amplias, involucrando casi siempre funciones de los valores que deben tomar ciertas variables en cada observación o del número de orden de éstas dentro del conjunto de datos analizado.
 
e) Manejo de datos faltantes
 
Cuando se generan o recopilan los datos necesarios para una dada aplicación estadística puede ocurrir que no se obtengan algunos valores individuales, ya sea porque no existen en la información disponible o porque falló el proceso de medición correspondiente.
 
El sistema ESTAD permite que se pueda consignar en un juego de datos si un cierto valor individual de una variable no se conoce y, además, manejar esa situación durante su procesamiento. La modalidad que utiliza para ello es la no consideración en el proceso en curso de la observación que tiene un dato faltante en cualquiera de las variables involucradas.
 
Otros sistemas estadísticos permiten considerar valores faltantes en los datos mediante criterios que permiten aprovechar en mayor medida observaciones con valores incompletos:
 
- No consideración del dato faltante en una observación unicamente cuando en una dada parte del proceso esa observación es necesaria.
 
- Adopción de un cierto valor para el dato faltante (por ejemplo, el promedio de los valores conocidos de la variable o el valor resultante de aplicar un proceso de regresión a las restantes observaciones).
 
 
9.3.2 Análisis Descriptivo de datos
 
El sistema ESTAD contempla este tema de la siguiente manera, para cada uno de los procesos que abarca:
 
a) Cálculo de Estadísticas Descriptivas
 
El sistema permite calcular la mayor parte de la estadísticas descriptivas usualeses de una o más variables en un conjunto de observaciones.
En el caso de otros sistemas, además de ello pueden contemplar en algunos casos el cálculo de estadísticas más específicas o de tipo robusto.
 
b) Clasificación
 
El sistema ESTAD contiene un proceso de clasificación de las observaciones de una o más variables en un dado juego de datos, según una o dos variables de clasificación. Dentro de este proceso incluye la verificación de la independencia de la clasificación, según una prueba de Chi2.
 
Un proceso relacionado con el anterior que también se incluye en el sistema es el cálculo de estadísticas para datos clasificados en grupos, según una o dos variables.
 
Algunos de los restantes sistemas contemplan además de ello la posibilidad de efectuar clasificaciones con más de dos variables de clasificación, así como obtener diversos indicadores del grado de independencia o de relación entre variables de clasificación.
 
c) Graficación de datos
 
El sistema incluye la posibilidad de obtener graficaciones de datos, considerando para ello dos variables.
 
Algunos de los restantes sistemas incluyen además de ello la posibilidad de obtener graficaciones según tres variables y, usando algunos criterios específicos, la graficación según más de tres variables.
 
d) Análisis Exploratorio
 
El sistema ESTAD no contempla la posibilidad de efectuar procesos de Análisis Exploratorio. En cambio, la mayor parte de los restantes sistemas incluye la ejecución de algunas de las técnicas comprendidas en ese tema.
 
 
9.3.3 Distribuciones de Probabilidad
 
Los procesos por el sistema ESTAD dentro de este tema son los siguientes:
 
a) Cálculos con funciones de probabilidad
 
Como vimos, este proceso involucra dos casos típicos:
 
- Cálculo de las funciones de probabilidad para valores dados de x.
 
- Cálculo de los valores de x para valores dados de la función F(x).
b) Ajuste de distribuciones
 
Este proceso se incluye en el sistema, considerando dentro de él las prueba de bondad de ajuste de Chi2 y de Kolmogorov-Smirnov. El sistema contempla además la posibilidad de graficar los histogramas experimental y teórico que se obtienen para la verificación del ajuste, mediante la prueba Chi2, así cmo crear archivos de datos con los resultados del proceso de clasificación.
 
El sistema, por otra parte, permite obtener de manera indirecta graficos de probabilidad.
 
c) Generacion de valores aleatorios
 
El sistema contempla dentro de este proceso la generación de valores aleatorios de una muestra de observaciones de una variable. Asimismo, incluye la posibilidad de generar varias muestras de valores aleatorios de una variable, obtenidendo en ese caso como resultado no dichos valores sino estadísitcas descriptivas para cada muestra.
 
 
9.3.4 Pruebas Estadísticas
 
El sistema ESTAD incluye la ejecución de pruebas estadísticas, tanto de tipo paramétrico como no paramétrico. Dentro de ello, en los casos parametricos, contempla también la posibilidad de obtener intervalos de confianza para las estadísticas (o relaciones entre ellas) contempladas en las pruebas.
 
 
9.3.5 Análisis de Variancia
 
El sistema ESTAD incluye la posibilidad de efectuar procesos de análisis de variancia de tipo factorial, considerando uno o dos factores. No contempla en cambio procesos de tipo no paramétrico.
 
Con respecto a los restantes sistemas, los de un nivel bajo o intermedio de complejidad abarcan en general modelos de variancia de tipo factorial de hasta dos, o eventualmente tres factores, requiriendo una cantidad igual de observaciones por cada combinación de valores de los factores, en el caso de que éstos sean dos o más (Modelos balanceados u ortogonales).
 
Frente a ello, los programas de mayor envergadura permiten considerar modelos con una cantidad mayor de factores posibles y cantidades desiguales de observaciones en los diferentes grupos (Modelos no balanceados), así como procesos de análisis de covariancia. Para que ello sea posible utilizan en general implementaciones del denominado Modelo Lineal General.
 
Algunos sistemas consideran los casos no paramétricos de análisis de variancia (Kruskal-Wallis y Friedman).
9.3.6 Regresión
 
El sistema ESTAD incluye la posibilidad de efectuar procesos de regresión. El tratamiento que hace de estos procesos es el siguiente:
 
a) Regresión lineal y las transformables a ella
 
El sistema contempla la ejecución de procesos de regresión lineal, así como de algunos modelos no lineales que son transformables al caso lineal.
 
Algunos de los restantes sistemas, principalmente aquellos de mayor envergadura, incluyen además la posibilidad alternativa de ejecutar procedimientos del tipo paso a paso ("step-wise").
 
b) Regresión no lineal general
 
El sistema incluye la posibilidad de ejecutar procesos de regresión considerando funciones no lineales arbitrarias, que se definen en cada caso.
 
c) Otros procesos
 
El sistema incluye la evaluación del grado de ajuste logrado por el modelo de regresión, principalmente mediante el cálculo de indicadores de ajuste, la significación de los coeficientes estimados, el Análisis de Variancia y la prueba de Durbin-Watson. Se incluye también la posibilidad de efectuar de manera directa análisis de los residuos obtenidos del proceso de regresión, así como la de guardar dichos residuos o los valores estimados, para usos posteriores.
 
Un cálculo que también resulta posible en el sistema es el de predicción de valores de la variable Y, para nuevos valores de las variables X.
 
 
9.3.7 Análisis Multivariado
 
El sistema ESTAD contempla los siguientes procesos dentro de este tema:
 
- Análisis de Componentes Principales
 
- Análisis Discriminante
 
- Agrupamiento Jerárquico
 
Algunos de los restantes sistemas estadísticos contemplan otros procesos, además de los nombrados, como el Análisis de Proximidades, el Análisis Factorial, la Correlación canónica o el Análisis Multivariado de Variancia.
9.3.8 Series de Tiempo
 
Los procesos dentro de este tema que contempla el sistema ESTAD son los siguientes:
 
a) Análisis Descriptivo de Series
 
Dentro de ello el sistema incluye el cálculo de coeficientes de correlación, el suavizamiento de series y la graficación.
 
b) Modelos de Series de Tiempo
 
El sistema incluye modelos de Ajuste, Modelos autorregresivos y modelos de descomposición.
 
Los restantes sistemas incluyen dentro de este tema la resolución de modelos autorregresivos mediante la técnica de Box-Jenkins.
 
Con respecto a los métodos de Descomposición algunos sistemas contemplan el modelo de descomposición denominado CENSUS II.
 
Asimismo, la mayor parte de los programas de envergadura que abarcan series de tiempo contemplan el proceso de Análisis Espectral.
 
c) Otros procesos
 
Los programas estadísticos que incluyen el tratamiento de series de tiempo consideran, en mayor o menor medida, procesos complementarios dentro de los procesos básicos enunciados. Entre ellos podemos mencionar la evaluación del ajuste de los modelos a series experimentales, el análisis de residuos, la predicción de valores futuros de la serie y su eventual graficación y la posibilidad de almacenar series intermedias y residuos obtenidos durante la ejecución de los procesos, para usos posteriores.
 
 
CAPITULO 10
 
OPERACION DEL SISTEMA ESTAD
 
 
 
10.1. PRESENTACION
 
En las secciones siguientes del capítulo se describe en términos generales la organización y utilización del sistema ESTAD, que ya fue caracterizado en términos globales en el capítulo anterior. A su vez, en los capítulos 11 a 18 se detallan las características de operación de los diversos temas estadísticos contenidos en el sistema, siguiendo una división en capítulos similar a la considerada en la parte A del libro.
 
En dicha presentacón detallada se consideran algunos ejemplos concretos de aplicación, en los que se utilizan los siguientes juegos de datos reales, cuyos detalles de contenido se incluyen en el Apéndice 4:
 
a) Datos de una muestra de nacimientos en la ciudad de Buenos Aires (NATIVBA).
 
b) Datos socio-económicos de los paises de América Látina (AMERLAT).
 
c) Datos de una serie de pasajeros mensuales transportados por avión dentro de la Argentina (PASAJ).
 
En el Apéndice 1 se resumen las características de cada uno de los módulos de programa que componen el sistema ESTAD: rutinas, función de éstas, variables utilizadas, etc. El conocimiento de estos elementos no es necesario para la operación del sistema, siendo útil principalmente para efectuar modificaciones en él, o para utilizar alguna de sus rutinas en programas ad-hoc.
 
 
10.2 INICIO DE LA OPERACION DEL SISTEMA
 
El sistema ESTAD está compuesto por módulos, según los temas enunciados anteriormente. Cada modulo constituye un programa separado, siendo llamado por un programa principal (ESTAD), que debe ser cargado en memoria y ejecutado inicialmente. Esta ejecución requiere previamente la llamada al programa intérprete BASIC correspondiente, desde el sistema operativo.
 
Para ello resulta conveniente que el programa intérprete resida en el mismo dispositivo y directorio donde se encuentran los diversos programas del sistema.
 
Sobre la base de esta condición, y por ejemplo considerando el caso del sistema operativo MS-DOS, dicho proceso involucra las siguientes instrucciones al equipo:
 
 
C>BASICA (llamada al Intérprete BASIC desde el sistema operativo).
 
Run "ESTAD" (llamada y ejecución del programa principal del sistema ESTAD, dentro del ambiente del intérprete BASIC).
 
o, directamente:
 
C>BASICA ESTAD (llamada al intérprete BASIC desde el sistema operativo y ejecución del programa ESTAD).
 
A partir de cualquiera de estas dos alternativas se despliega en pantalla el menú principal del sistema:
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Mediante este menú se puede seleccionar alguno de los temas estadísticos incluidos en él, lo que determina la llamada al módulo de programa correspondiente. Cabe mencionar que la mayor parte de los procesos que incluye el sistema requieren que previamente se hayan cargado datos en la memoria de trabajo, lo que se efectúa mediante la opción 1 - Manejo de Datos. Esta opción puede llamarse al inicio de la ejecución del sistema, desde el menú principal, o desde el menú correspondiente a cualquiera de los restantes temas.
 
Al inicio de la operación del sistema éste considera que los datos a procesar se encuentran cargados en el dispositivo de memoria externa A. Ello puede ser cambiado mediante el parámetro correspondiente, como se describe en la sección 10.3.
 
Las opciones 9 y 10 del menú no implican la llamada a ningún modulo de proceso sino que permiten efectuar acciones ligadas al sistema. La primera de ellas posibilita modificar sus parámetros, cuyos valores iniciales se consignan al pie del menú (ver sección 10.3).
 
A su vez, la elección de la opción 10 permite salir del sistema. A partir de ello se vuelve al ambiente del intérprete BASIC. Para salir de éste al sistema operativo se ingresa el comando:
 
SYSTEM
 
El encabezamiento superior del menú principal es usado en las diversas pantallas y salidas del sistema, describiéndose su contenido en la sección 10.5.5.
 
 
10.3 PARAMETROS DEL SISTEMA
 
Al pie del menú principal se presentan los valores de un conjunto de parámetros generales del sistema. que definen aspectos centrales de funcionamiento de los procesos que éste considera. Dichos parámetros, sus rangos de variación posible (entre paréntesis), así como los valores que toman al inicio de la ejecución del sistema, son los siguientes:
 
 
PARAMETRO Valor inicial
----------------------------------------------------------
1. Número máximo de variables en la memoria
de trabajo (5 a 50) 25
 
2. Número máximo de observaciones en la
memoria de trabajo (50 a 500) 300
 
3. Número máximo de valores de una primera
variable de clasificación (10 a 100) 15
 
4. Idem, de una segunda. Tambien el número
máximo de variables en procesos de Regresión
y Análisis Multivariado ( 5 a 20) 15
 
5. Dispositivo de memoria externa donde
se almacenan los archivos de datos y
eventualmente de resultados (A, B ó C) A
 
6. Número de decimales en los resultados
númericos ( 0) 3
 
7. Valor que se asume como dato faltante -9999
---------------------------------------------------------
 
Un cambio permanente de los parámetros asumidos por el sistema requiere modificar el programa ESTAD, según se describe en el Apendice 1. En cambio, la modificación de los valores asumidos de los parámetros para la ejecución en curso del sistema puede efectuarse mediante la opción 9 del menú principal. Una vez elegida esta opción se presentan en pantalla los valores actuales de los parámetros, asociados a su número de orden. A partir de ello se ingresa el número de parámetro a modificar y su correspondiente nuevo valor.
 
El sistema verifica que los nuevos valores ingresados se encuentren dentro de los rangos posibles, pero no controla eventuales problemas de limitación de memoria que pueden ocurrir si se asignan valores elevados a los parámetros que definen la memoria de trabajo a utilizar para los datos (parámetros 1 y 2) y para algunos procesos (parámetros 3 y 4). Este problema, en caso de existir, surge cuando se inicia la ejecución de un proceso específico, mediante la emisión en pantalla del mensaje correspondiente (ver Apéndice 3).
 
 
10.4 OPERACION DENTRO DE UN TEMA ESPECIFICO
 
Como ya dijimos, la operación del sistema ESTAD se encuentra organizada según una modalidad de menús consecutivos, mediante los cuales se eligen los procesos específicos que se desea ejecutar. Dicha modalidad se inicia en el menú principal, ya visto. Una vez seleccionado en éste un cierto tema la operación dentro de él responde a un esquema común, compuesto por los siguientes pasos:
 
 
a) Selección de un proceso específico en el menú general del tema.
 
 
b) En la mayor parte de los procesos, definición de las variables específicas del juego de datos residente en la memoria de trabajo cuyas observaciones serán consideradas en el proceso elegido.
 
c) En algunos procesos, selección en un submenú de una de varias posibles variantes de ejecución.
 
d) Ingreso de valores específicos requeridos para la ejecución del proceso seleccionado.
 
e) Ejecución por el computador del proceso seleccionado, sobre los datos definidos en b).
 
f) Salida de los resultados del proceso por pantalla y, optativamente, por impresora o a un archivo externo.
 
g) En algunos casos, selección optativa en un menú de un proceso complementario que puede realizarse a partir de la ejecución del proceso básico. A partir de ello el computador realiza el proceso elegido y efectúa la salida de sus resultados.
En aquellos pasos donde existe algun ingreso por el usuario es posible no continuar su ejecución, volviendo a otro paso previo. En el diagrama anterior se indica, con lineas punteadas, a qué nivel de operación se vuelve en general en cada paso.
 
Como ya dijimos, la ejecución mediante el sistema de un cierto proceso estadístico requiere, si éste utiliza un dado juego de datos, que éste sea cargado previamente en la memoria de trabajo. Ello puede efectuarse desde el menú principal del sistema o dentro de un tema específico.
 
En los capítulos 11 a 18 veremos en detalle la operación de cada uno de los temas incluidos en el sistema ESTAD, considerando ejemplos de la ejecución de cada proceso sobre alguno de los juegos de datos ya presentados.
 
 
10.5 ELEMENTOS COMUNES DE LA OPERACION
 
Durante la operación del sistema ESTAD aparece un conjunto de elementos específicos, de uso común en los diversos procesos, que se describen a continuación, pudiendose observar ejemplos concretos de ellos en los capítulos siguientes.
 
 
10.5.1 Interrupción de un proceso
 
En cualquier momento que el computador espera un ingreso por teclado es posible interrumpir el proceso en curso y salir de él, mediante la tecla "Escape". En ese caso el computador vuelve a un nivel anterior de proceso.
 
 
10.5.1 Ingresos por teclado - Interrupción de un proceso
 
Todos los ingresos por teclado requieren ser finalizados por la tecla "Enter" (o "Return"). Cuando ante un requerimiento de ingreso por teclado se oprime unicamente la tecla "Enter", el sistema asume las siguientes acciones:
 
- Si era necesaria una respuesta específica para la ejecución de pasos subsiguientes se interrumpe el proceso en curso y se vuelve a un nivel anterior de la operación. Son ejemplos típicos de este caso las respuestas a menus, o cuando se ingresan datos indispensables para un dado proceso.
 
- Si no era necesaria una respuesta específica el sistema asume una respuesta predefinida ("Default") y se continua el proceso en curso. En los requerimientos de ingreso donde existe una respuesta predefinida ésta se presenta junto al requerimiento, entre paréntesis. Son respuestas asumidas posibles las siguientes:
 
. Si el requerimiento involucra un dato numerico: cero o el valor preexistente.
 
. Un valor típico, si existe para el dato involucrado.
 
. En una interrogación: la negativa.
 
. En un proceso de ingreso repetido, fin de éste.
 
El sistema verifica que cada ingreso individual por teclado se encuentre dentro del conjunto de posibilidades establecidas, según el caso. Si ello no es así se presenta el mensaje correspondiente (ver Apéndice 3) y se vuelve a efectuar el requerimiento de ingreso.
 
 
10.5.2. Definición de las variables a considerar en un proceso
 
En general, al comienzo de la ejecución de un dado proceso estadístico se requiere definir las variables específicas que se considerarán en él, del conjunto de datos existente en la memoria de trabajo del sistema. Dicha definición es similar para todos los procesos y se inicia con el despliegue en pantalla del número de posición y la descripción de cada una de las variables incluidas en la memoria de trabajo.
 
A continuación, si ya existía predefinido un cierto subconjunto de variables el computador las muestra en pantalla e interroga sobre si se quiere adoptar un nuevo subconjunto. En caso de respuesta negativa se mantienen las variables ya definidas, lo cual permite no tener que establecer las variables a considerar en un dado proceso, si son las mismas que en el proceso ejecutado previamente.
 
En caso afirmativo, o si no existe un subconjunto de variables previamente definido, se deben ingresar las posiciones de las variables que se desea considerar en el proceso a ejecutar. Consecutivamente al ingreso de cada posición de la memoria de trabajo el sistema verifica que sea válida, no repetida con las anteriores y que en ella exista una variable con datos cargados. En caso contrario se presenta en pantalla el mensaje correspondiente y se reitera el ingreso.
 
La definición de variables se termina oprimiendo unicamente la tecla "Enter" ante el requerimiento de una nueva posición de variable. También termina automaticamente cuando se ha alcanzado el número requerido o máximo de variables para el proceso en curso.
 
A partir de ello y cuando el proceso involucrado lo contempla se ingresa optativamente la posición de la variable en la que se encuentra el número de observaciones correspondiente a cada fila de la memoria de trabajo, si los datos considerados son de tipo agrupado.
 
En el Cuadro 10.1 se presenta un ejemplo de definición de variables para un cierto proceso, que permite el manejo de datos agrupados. En este caso corresponde al juego de datos sobre paises de América Latina (AMERLAT), que ha sido cargado previamente en la memoria de trabajo.
 
 
10.5.3. Selección de posición de la memoria de trabajo
 
En algunos procesos se requiere seleccionar una cierta posición de la memoria de trabajo para ubicar en ella, constituyendo una nueva variable, resultados del proceso (por ejemplo, los residuos en una regresión o valores aleatorios de una distribución).
 
En ese caso el computador despliega en primer lugar en pantalla la posición y descripción de todas las variables residentes en la memoria de trabajo. A partir de ello se selecciona una cierta posición y se ingresa la descripción a considerar.
 
Si la posición seleccionada se encuentra ocupada por una variable se requiere confirmar su utilización. En caso de una respuesta negativa el computador reitera el requerimiento de ingreso de la posición a seleccionar. Si se responde afirmativamente se ingresa una nueva descripción y el sistema interroga si se desea o no borrar los datos existentes en la variable seleccionada.
 
En el Cuadro 10.2 se incluye un ejemplo de selección de una posición, en este caso considerando también el juego de datos correspondiente a los paises de América Latina (AMERLAT).
 
 
10.5.4. Salidas de resultados
 
Los resultados de los procesos ejecutados por el sistema ESTAD se muestran en pantalla en todos los casos. Cuando la salida ocupa más de una pantalla se produce una pausa, que se libera con la tecla "ENTER". A partir de este despliegue en pantalla es posible obtener los mismos resultados en forma impresa, o crear con ellos un archivo en un dispositivo de memoria externa, mediante el siguiente requerimiento que se efectua al final de la salida por pantalla:
 
Nueva Salida: Impresora/I/ Archivo/Nombre/ (No)=
 
Si se ingresa "I" ó "i" se obtienen los mismos resultados por impresora. En cambio, si se ingresa un nombre, éste define un archivo donde se graban los resultados (para la definición del nombre ver punto 13.5.6). En caso de ingresar sólo "Enter" no se obtiene ninguna salida alternativa.
 
Los archivos de resultados que se pueden generar optativamente son similares, en formato ASCII, a la salida por pantalla, como se detalla en el Apéndice 4, y pueden ser leidos por un programa editor o un procesador de textos. La extensión que asume el sistema para estos archivos es ".TXT", salvo que se ingrese otra específica junto al nombre.
 
En el caso de querer colocar los resultados en un archivo si el nombre definido para éste ya existe el computador agrega el resultado involucrado al texto ya contenido en el archivo.
 
 
10.5.5. Encabezamiento de pantallas y salidas impresas
 
En la parte superior de cada pantalla de ingreso de datos o de emisión de resultados, así como en las salidas impresas o en los archivos de resultados, se incluye un encabezamiento uniforme, en el que aparecen los siguientes elementos:
 
- Tema considerado y, si ya ha sido definido, el proceso específico dentro de aquel.
 
- Nombre y descripción del archivo (o archivos) de datos, si se ha cargado alguno en la memoria de trabajo. En caso contrario se indica uno de los siguientes mensajes, según el caso:
 
. "No existen datos en memoria" (cuando en ella no se encuentra almacenado ningún dato).
 
. "Datos residentes en memoria" (cuando hay datos en la memoria de trabajo y ellos no fueron cargados a ningún archivo externo).
 
- Condición de selección de los datos a considerar en el proceso, si se ha definido previamente mediante la opción correspondiente (Ver sección ).
 
- En el caso de datos agrupados, posición y nombre de la variable que contiene el número de observaciones por fila.
 
- Si existe cargado un juego de datos en la memoria de trabajo, Número de observaciones que contiene. A la finalización de un proceso se indica también el número de observaciones efectivamente consideradas, excluyéndose en ello eventualmente algunas observaciones, debido a una condición de selección o a la existencia de valores faltantes.
 
- Fecha del proceso.
 
 
10.5.6 Definición de Archivos
 
Durante la ejecución del sistema se requiere ingresar al computador nombres de archivos de datos o de resultados. Estos nombres deben respetar ciertas reglas, según el sistema operativo en que se esté operando. Por ejemplo, en el sistema operatico MS-DOS el nombre de un archivo debe tener a lo sumo 8 caracteres, siendo el primero alfabético.
 
En el ingreso del nombre el sistema considera los siguientes criterios:
 
- Si se ingresa sólo el nombre el sistema asume que el archivo se grabará o leerá del dispositivo de memoria definido por el parámetro número 5. En caso de preceder el nombre con una letra de dispositivo de memoria se asume ésta.
 
- Si no se ingresa ninguna extensión al final del nombre se asume la extensión definida por el sistema para el tipo de archivo involucrado. En caso contrario se asume la extensión ingresada.
 
Son ejemplos de los criterios anteriores:
 
PRUEBA Se considera que el archivo reside en el dispositivo A (si ese es el dispositivo definido en el parámetro correspondiente) y se asume la extensión asociada al tipo de archivo involucrado, según el caso.
 
C:PRUEBA Se considera que el archivo reside en el dispositivo C. Para la extensión vale lo dicho en el ejemplo anterior.
 
B:PRUEBA.DAT El archivo se considera que reside en el dispositivo B y como extensión se adopta .DAT .
 
- Si la definición implica una grabación de un archivo y el archivo definido ya existe, el computador presenta el mensaje correspondiente (ver Apéndice 3) e interroga si se desea continuar el proceso con el archivo definido. En caso afirmativo el nuevo archivo borra el anterior.
 
 
10.5.7 Manejo de Datos Faltantes
 
El sistema verifica que en cada observación del juego de datos considerado ninguna de las variables seleccionadas para el proceso en curso tenga un valor igual al definido en el correspondiente parámetro del sistema que establece el valor que se asume como faltante.
 
Si en una cierta observación esto ocurre para alguna de las variables ella no se considera en el proceso. Asimismo, en los casos en que por esa razón o por alguna propiedad del proceso en curso no se puede obtener el valor para una cierta observación de una variable resultado, se coloca en ella el valor asumido como faltante.
 
 
10.5.8 Manejo de errores
 
Durante la ejecución pueden producirse condiciones que hacen que el sistema no pueda continuar el proceso en curso. En ese caso el sistema interrumpe la ejecución y emite un mensaje de error, a fin de que el usuario lleve a cabo la acción correctiva. Son condiciones usuales de error las siguientes:
 
- Valor no válido de un dato contenido en la memoria de trabajo.
 
- Ingreso no válido de un valor.
 
- Condiciones de operación no resolubles (en impresora o en un dispositivo de memoria externa).
 
- Problemas de memoria o numéricos durante un proceso.
 
 
En el Apéndice 3 se enumeran los mensajes de error y sus causas correspondientes.
 
 
CAPITULO 11
 
MANEJO DE DATOS
EN EL SISTEMA ESTAD
 
 
 
El sistema ESTAD incluye los siguientes manejos sobre los datos que se utilizarán despues en los restantes procesos abarcados por el sistema:
 
1 - Ingreso de Datos
Permite el ingreso de datos por teclado a la memoria de trabajo, así como la eventual modificación de los datos contenidos en ella.
 
2 - Grabación de Archivo de Datos
Efectua la grabación en un archivo de la totalidad o parte de los datos contenidos en la memoria de trabajo.
 
3 - Lectura de Archivo de Datos
Efectua la carga en la memoria de trabajo de todos o parte de los datos contenidos en un archivo.
 
4 - Unión de Archivos
Posibilita crear un nuevo archivo por unión de dos archivos existentes.
 
5 - Salida de Datos
Permite obtener salidas por pantalla o impresas de los datos contenidos en la memoria de trabajo o en un archivo.
 
6 - Selección de Datos
Permite definir una condición sobre los datos existentes en la memoria, mediante la cual se seleccionan aquellos que serán considerados en un dado proceso posterior.
 
7 - Transformación de Datos
Obtiene los valores de nuevas variables por transformación de los correspondientes a variables existentes en la memoria de trabajo.
 
 
Estas opciones de manejo, que se describen por separado en las secciones siguientes, se seleccionan mediante el siguiente menú principal del tema:
 
 
 
 
 
 
 
PROCESOS
 
1 - Ingreso de Datos
2 - Creación de Archivo de Datos
3 - Lectura de Archivo de Datos
4 - Unión de Archivos
5 - salida de datos
6 - Selección de Datos
7 - Transformación de Datos
 
 
En todos los casos el sistema considera la estructura de datos matricial Observaciones-Variables que se describe en el Apéndice 2.
 
La secuencia típica de proceso con un cierto juego de datos estadísticos es:
 
a) Ingreso del juego de datos a la memoria interna del computador, a través del teclado, mediante la opción 1.
 
b) Creación de un archivo con los datos en memoria, mediante la opción 2.
 
c) Ejecución del o los procesos requeridos.
 
d) Para una ejecución en otra oportunidad de un proceso sobre los mismos datos, carga de ellos en la memoria de trabajo, mediante la opción 3 de lectura de archivos de datos. Esta misma opción se utiliza si los datos involucrados no necesitan ser cargados inicialmente por el teclado, sino que provienen de otras aplicaciones.
 
 
11.1 INGRESO Y MODIFICACION DE DATOS
 
Esta opción tiene como función el ingreso manual de datos a la memoria de trabajo del sistema o la eventual modificación de datos contenidos en ella, a través del teclado. Se consideran varias posibilidades de ingreso o modificación, que se seleccionan al inicio de la opción, mediante el siguiente menú:
 
 
PROCESO
 
1 - Ingreso por Observación
2 - Ingreso por Variable
3 - Inserción de Observaciones
4 - Eliminación de Observaciones
 
 
La primera posibilidad involucra el ingreso observación a observación de los valores de todas las variables de un dado conjunto de datos, mientras que la segunda permite ingresar todos los valores de una cierta variable, de manera consecutiva.
 
A su vez, la tercera opción permite insertar una o más observaciones en una posición intermedia de un juego de datos existente en la memoria de trabajo. Finalmente, la última opción posibilita eliminar una o más observaciones de un juego de datos contenido en la memoria de trabajo. En los puntos siguientes describimos las características de ejecución de las opciones enunciadas.
 
 
Ingreso por Observación
 
El proceso que sigue esta variante de ingreso es el siguiente, una vez seleccionada la opción correspondiente en el menú de ingreso de datos:
 
a) Borrado optativo de los datos previos contenidos en la memoria de trabajo, respondiendo afirmativamente a la interrogación correspondiente.
 
b) Ingreso optativo de una descripción general de los datos a considerar. Se mantiene la existente si no se ingresa ninguna nueva.
 
c) Si hay variables definidas previamente en la memoria de trabajo el computador presenta sus nombres en pantalla. A partir de ello se ingresan las posiciones inicial y final de la memoria de trabajo correspondientes a las variables a cargar.
 
d) Si ya había variables definidas en la memoria de trabajo el computador interroga si se quiere modificar sus nombres. En caso afirmativo, o en el caso de que no existan variables definidas previamente, se ingresan los nombres de cada una de las variables comprendidas en el intervalo de la memoria de trabajo definido en c). Los nombres ingresados deben tener una longitud máxima de 8 caracteres. Si en una cierta posición se ingresa sólo "Enter" se mantiene el nombre existente, o en caso contrario éste queda en blanco.
 
e) Ingreso del número de orden de la observación de la memoria de trabajo donde se comienza el ingreso de datos.
 
f) Ingreso de los valores de todas las variables comprendidas en el intervalo prefijado, para cada observación a partir de la definida en e). Este ingreso continúa hasta que se alcanza el mayor número de observación que puede almacenarse en la memoria de trabajo, o hasta que se ingresa sólo "Enter". En este caso no se considera la última observación incompleta ingresada.
 
El proceso descripto puede utilizarse para modificar una observación previamente ingresada, definiéndola en el paso e) e ingresando sus nuevos valores según f).
Como ejemplo de los pasos anteriores se muestra en el Cuadro 11.1 a) el ingreso observación a observación de los datos correspondientes a un conjunto de nacimientos en la ciudad de Buenos Aires (NATIVBA).
 
 
Ingreso por Variable
 
El proceso seguido en la ejecución de esta variante de ingreso es el siguiente:
 
a) Borrado optativo de los datos contenidos en la memoria de trabajo, respondiendo afirmativamente a la interrogación correspondiente.
 
b) Ingreso optativo de una descripción general de los datos a ingresar, de manera similar al paso b) de la variante anterior.
 
c) Selección de la posición de la memoria de trabajo donde se ingresarán los datos de la variable considerada (ver sección ).
 
d) Ingreso del número de orden de la observación de la memoria de trabajo a partir del cual se realizará la carga de valores de la variable definida.
 
e) Ingreso de valores para la variable seleccionada a partir de la observación inicial definida en el paso anterior. El ingreso termina cuando se alcanza el máximo posible de observaciones en la memoria de trabajo, o cuando se ingresa sólo "Enter" en un ingreso cualquiera.
 
 
Esta variante de ingreso puede ser utilizada también para modificar valores específicos, existentes en la memoria de trabajo. Para ello se define en los pasos c) y d) la posición de variable y número de orden de observación donde se encuentra el dato involucrado.
 
En el Cuadro 11.1b) incluímos un ejemplo de ingreso por variable, considerando la variable Superficie en el juego de datos sobre países de América Latina (AMERLAT).
Inserción de Observaciones
 
Esta opción permite intercalar observaciones dentro de un juego de datos residente en la memoria de trabajo. Los pasos a seguir para ello son:
 
a) Ingreso del numero de orden de la observación donde se inicia la intercalación.
 
b) Ingreso del número de observaciones a insertar.
 
c) Ingreso de las posiciones inicial y final de las variables donde se insertarán datos.
 
d) Se ingresanlos datos efectivos a intercalar, para las variables y observaciones definidas previamente.
 
 
Eliminación de Observaciones
 
Esta opción permite elimininar un grupo de observaciones consecutivas del juego de datos que se encuentra en la memoria de trabajo. Los pasos a seguir para ello son:
 
a) Ingreso del número de orden de las observaciones inicial y final a eliminar. El computador requiere la confirmación de los límites ingresados.
 
b) El computador efectúa la eliminación, juntando las observaciones remanentes de la memoria de trabajo.
 
 
11.2 CREACION DE UN ARCHIVO DE DATOS
 
Esta opción permite crear un archivo, en un dispositivo externo de memoria, con todos o parte de los datos contenidos en la memoria de trabajo. Los pasos seguidos en la ejecución de la opción son los siguientes, considerando que ella ha sido elegida en el menú de Manejo de Datos:
 
a) Si no existen datos en la memoria de trabajo el computador sale de la opción. En caso contrario el computador presenta en pantalla las variables existentes en la memoria de trabajo y se selecciona si se graban todas o algunas en el archivo a crear, mediante el siguiente menú:
 
 
VARIABLES A GRABAR
 
1 - Todas las Variables
2 - Variables Seleccionadas
 
 
b) En el caso de que en a) se elija la grabación de algunas de las variables contenidas en la memoria de trabajo se ingresan las posiciones de aquellas que se desea incorporar al archivo a grabar, ya sea en forma individual o por rangos. En el primer caso se van ingresando una a una las posiciones correspondientes. Para definir en cambio un rango de variables a considerar se ingresa su posición inicial y final de manera individual, sólo que la segunda se ingresa con signo negativo. De esta manera se definen automáticamente todas las variables comprendidas entre ambas posiciones límites.
 
c) Si existe definida previamente una condición de selección (ver sección 11.6) se interroga sobre si se tiene en cuenta o no en la grabación. En caso afirmativo se grabarán en el archivo sólo aquellas observaciones que cumplan dicha condición.
 
d) Se ingresan los números de orden inicial y final de las observaciones contenidas en la memoria de trabajo que se desea grabar en el archivo a crear.
 
e)Se define el tipo de archivo a crear, mediante el siguiente menú:
 
 
TIPO DE ARCHIVO A CREAR
 
1 - Archivo ESTAD (.EST)
2 - Archivo LOTUS (.PRN)
3 - Archivo ASCII (.ASF)
 
 
El formato específico de cada uno de estos archivos se describe en detalle en el Apéndice 2.
 
f) Ingreso del nombre del archivo a crear, de acuerdo a los criterios vistos en la sección . Como control para ello el computador presenta en pantalla los archivos del tipo seleccionado existentes en el dispositivo de memoria externa considerado. Si en el nombre del archivo no se agrega ninguna extensión se asume la indicada en el menú del paso a), para el tipo de archivo elegido.
 
Si se ingresa el nombre de un archivo existente el computador interroga sobre si él se reemplaza o no con el archivo a crear. En caso de respuesta negativa se ingresa un nuevo nombre.
 
f) En el caso de grabación de archivos ESTAD se ingresa la descripción que se desea incorporar dentro del nuevo archivo.
 
g) En el caso de grabación de archivos LOTUS o ASCII se define si se desea incluir en su primer registro los nombres de las variables involucradas, respondiendo a la interrogación correspondiente.
h) El computador efectua la grabación del archivo en el soporte externo establecido para los datos y a su finalización presenta en pantalla el mensaje "Grabación Terminada".
 
 
En el caso de grabación de todas las variables contenidas en la memoria de trabajo ellas mantienen su posición en el archivo. Si sólo se seleccionan algunas variables, ellas se ubican en el archivo por orden de selección, a partir de la primera posición.
 
En el Cuadro 11.2 incluimos la ejecución del proceso descripto, considerando en este caso que se crea un nuevo archivo (AMERLAT1) con algunas de las variables del juego de datos sobre paises de América Látina (AMERLAT), el que fue cargado previamente en la memoria de trabajo, mediante la opción de lectura descripta en la sección siguiente.
 
11.3 LECTURA DE UN ARCHIVO DE DATOS
 
Esta opción permite cargar en la memoria de trabajo un cierto juego de datos contenido en un archivo residente en un dispositivo externo de memoria. Los pasos a seguir para la ejecución de la opción son los siguientes, a partir de su elección en el menú correspondiente a Manejo de Datos:
 
a) Selección del tipo de archivo a leer, mediante el siguiente menú:
 
 
TIPO DE ARCHIVO A LEER
 
 
1 - Archivo ESTAD (.EST)
2 - Archivo LOTUS (.PRN)
3 - Archivo ASCII (.ASF)
 
 
b) Aparecen en pantalla los archivos del tipo seleccionado existentes en el dispositivo de memoria externa establecido para los datos y se ingresa el nombre del archivo a grabar, siguiendo los criterios vistos en la sección 10.5.7 .
 
Los formatos que debe tener cada uno de estos tipos de archivos para ser leidos por el sistema se describen en el Apéndice 2.
 
Si en a) no se ingresó una extensión junto con el nombre del archivo, se asume en la lectura la extensión indicada en el menú del paso a), para el tipo de archivo elegido.
 
c) En el caso de que el archivo a leer se encuentre en el formato del sistema ESTAD aparecen en pantalla:
 
- El número de variables y de observaciones que contiene el archivo.
 
- La descripción de las variables que contiene el archivo.
 
A partir de ello se ingresan los números inicial y final de observaciones del archivo a leer. Si en el número inicial se ingresa sólo "Enter" se consideran todas la observaciones.
 
d) En el caso de archivos en formato ESTAD se define si se leen todas o algunas de las variables, mediante el siguiente menú:
 
 
VARIABLES A LEER
 
1 - Todas las Variables
2 - variables Seleccionadas
 
 
e) Si en el paso anterior se seleccionó la lectura de algunas de las variables contenidas en el archivo se ingresan las posiciones de aquellas variables a leer, de manera similar a la descripta en el proceso de creación de un archivo. A partir de ello, para cada variable que será leida, se ingresa la posición en la memoria de trabajo donde se colocarán sus datos (ver procedimiento en la sección ).
 
f) En el caso de lectura de archivos tipo LOTUS o ASCII se interroga sobre si el primer registro del archivo contiene las descripciones de sus variables. En caso de respuesta negativa el computador asume para las variables a leer los nombres Var1, Var2,...., Vark.
 
g) Si se definió previamente la lectura del total de observaciones, se efectua el borrado previo de la memoria de trabajo. El computador realiza el proceso de lectura del archivo y carga de los datos correspondientes en la memoria de trabajo. A la finalización aparece en pantalla el mensaje "Lectura Terminada".
 
En el caso de lectura de todas las variables, éstas mantienen en la memoria de trabajo la posición que tienen en el archivo, eliminándose todos los datos previos existentes en aquella. En el caso de lectura de algunas variables, éstas se cargan en las posiciones definidas en el paso e), sin alterar los datos contenidos en las restantes posiciones de la memoria de trabajo.
 
En el Cuadro 11.3 se presenta la ejecución de una lectura de datos, en este caso la carga en la memoria de trabajo de algunas de las variables del juego de datos sobre nacimientos en la ciudad de Buenos Aires (NATIVBA).
11.4 UNION DE ARCHIVOS
 
Esta opción permite crear nuevos archivos de datos mediante la unión de dos archivos existentes, en forma independiente de los datos existentes en la memoria de trabajo y considerando para ello diversos tipos de combinaciones. La opción incluye también la posibilidad de crear un subarchivo a partir de otro existente. Los archivos que se manejan en la opción requieren estar en todos los casos en el formato del sistema ESTAD (ver Apéndice 2).
 
Las combinaciones posibles son las siguientes:
 
1- Unión por Variables: Los dos archivos forman uno nuevo uniéndose en función de variables comunes.
 
2- Unión por Observaciones: Los dos archivos forman uno nuevo en función de observaciones comunes.
 
3- Creación de Subarchivo: se obtiene un nuevo archvo como parte de un archivo existente.
 
 
Los pasos requeridos para ejecutar la opción de Unión de Archivos son los siguientes, una vez elegida en el menú de Análisis básico de datos:
 
a) Se selecciona el tipo de unión, del siguiente menú:
 
 
PROCESOS
 
1 - Unión por Variables
2 - Unicón por Observaciones
3 - Creación de Subarchivo
 
 
a) Se ingresan los nombres de los dos archivos fuente y del archivo destino, siguiendo los criterios consignados en la sección .
 
c) Se ingresa optativamente una descripción a incluir en el archivo destino.
 
d) El computador muestra en pantalla los datos principales del archivo fuente número 1 y se seleccionan las variables y rango de observaciones que se considerarán en la unión.
 
e) Idem, archivo fuente número 2 (no en la opción de creación de subarchivo).
 
f) El computador realiza el proceso y a su finalización presenta en pantalla el mansaje "Union Terminada".
11.5 SALIDA DE DATOS
 
Mediante esta opción pueden obtenerse salidas en pantalla, por impresora o a un archivo externo, de datos contenidos en la memoria de trabajo o en un archivo externo, para lo cual se ejecutan los siguientes pasos, a partir de haberse elegido la opción dentro del menú de Manejo de Datos:
 
a) Se ingresa el nombre del archivo de datos a considerar. Si no se ingresa ningún nombre se asume que la salida será de datos contenidos en la memoria de trabajo. En este último caso, si no existen datos en la memoria se sale de la opción.
 
b) Se puede modificar la salida, usualmente por pantalla, a impresora o a un archivo externo (este último, en modo texto, ver Apéndice 2).
 
c) Si exiet previamente definida una condición de selección el computador interroga sobre si se desea considerar en el proceso de salida.
 
d) Se ingresan los números de orden de las observaciones inicial y final del juego de datos, a tener en cuenta en al proceso de salida.
 
e) Definición de las variables de la memoria de trabajo de cuyos datos se desea obtener una salida. Esta definición se realiza de manera similar a la vista en el proceso de grabación de datos. Si no se define ninguna variable se realiza la salida de todas las variables contenidas en la memoria de trabajo.
 
Cuando el número de variables seleccionado no entra en una fila de la pantalla se presentan pantallas consecutivas, hasta terminar el proceso de salida.Este se puede interrumpir previamente, ingresando F ó f en lugar de la tecla "Enter".
 
f) En el caso de que exista previamente definida una condición de selección se responde a la interrogación acerca de si se desea considerarla o no en la salida. Si se responde afirmativamente la salida incluye unicamente las observaciones que cumplen la condicion vigente.
 
g) El computador muestra los datos por pantalla o los envía al dispositivo externo definido en b) (impresora o un archivo externo).
 
 
En el Cuadro 11.4 se presenta la ejecución de un proceso de salida de una parte de los datos correspondientes a los paises de América Latina (AMERLAT), que se encuentran cargados en la memoria de trabajo.
11.6 SELECCION DE DATOS
 
Esta opción permite establecer qué observaciones específicas de la memoria de trabajo se considerarán en los procesos subsiguientes, mediante la definición de una condición que deben cumplir sus valores para ser seleccionados. Para su ejecución se siguen los siguientes pasos, a partir de la elección del proceso en el Menú de Manejo de Datos:
 
a) Si no hay datos en la memoria de trabajo se sale de la opción. En caso contrario, se presentan en pantalla las variables contenidas en la memoria de trabajo. Si ya existe una condición de selección definida previamente se interroga sobre si se elimina o no. En caso afirmativo se la anula, se sacan las marcas de las observaciones que quedaban excluídas y se sale de la opción. En caso negativo se interroga si se desea o no modificar la condición. En caso de respuesta negativa a esta segunda interrogación se sale directamente de la opción.
 
b) Se ingresa la condición de selección a considerar. En el caso de que ya exista una condición previa, ésta puede ser modificada (editada) mediante las teclas de edición "Insert" y "Delete" usuales en los microcomputadores.
 
La condición se define mediante una expresión lógico-matemática que se construye utilizando la sintáxis del lenguaje BASIC y de la manera que en este lenguaje se establece una condición lógica. Las variables que se pueden utilizar en dicha expresión son las siguientes:
 
V(j) representa el valor de la variable en la posición j de la memoria de trabajo, para cada observación. La variable debe tener datos incorporados en la memoria de trabajo.
 
I representa el número de orden de cada observación en la memoria de trabajo.
 
Asimismo, se pueden usar todos los operadores y funciones definidos en el lenguaje BASIC. Ellos son:
 
Operadores y funciones matemáticas:
 
+ - * / INT() FIX() INT() LOG() MOD() SIN() COS() SQR() TAN()
 
Operadores lógicos y de relación:
 
= < > <> <= >= OR AND
 
 
 
 
Por ejemplo, las siguientes expresiones son casos válidos de condiciones de selección:
 
V(3) > (3 * LN(V(4))) OR (V(5) + V(6)) < 3
 
I > 20 AND V(7) < (V(2) + V(3))
 
V(8) = 5 or (I > 10 and SQR(V(3)) > 2)
 
c) El computador coloca una marca en todas aquellas observaciones de la memoria de trabajo que no cumplen la condición de selección definida. Los procesos posteriores que se ejecuten no considerarán las observaciones de la memoria de trabajo que tengan dicha marca. Una vez realizado el proceso aparece en pantalla el mensaje "Selección terminada".
 
 
En el Cuadro 11.5 incluimos la ejecución de una selección siguiendo los pasos anteriores, que se realiza sobre los datos correspondientes a nacimientos en la ciudad de Buenos Aires (NATIVBA), que se encuentran cargados en la memoria de trabajo. Mediante ella se seleccionan los nacimientos cuya madre tiene entre 22 y 29 años de edad, y que trabaja.
 
 
11.7 TRANSFORMACION DE DATOS
 
Esta opción permite generar nuevos valores de variables en la memoria de trabajo, mediante la transformación de los valores existentes de una o varias variables existentes en la memoria.
 
La opción permite varias posibilidades, que se seleccionan mediante el siguiente menú inicial:
 
 
TRANSFORMACIONES
 
1 - Mediante una Función
2 - Normalización
3 - Recodificación
4 - Corrimiento/Diferencias
5 - Cálculo de Rangos
6 - Cálculo de variables Indicatrices
7 - Ordenamiento
 
 
La transformación mediante una función permite obtener valores de una variable como función matemática de los valores de otras variables existentes en la memoria de trabajo, función aplicada observación a observación.
 
La normalización implica obtener nuevos valores a partir de los originales de una variable, midiendo, en unidades de desvío estándar, la diferencia entre cada valor original y el valor medio de los datos.
 
La recodificación, a su vez, permite obtener nuevos valores transformando los preexistente de una variable mediante una tabla de equivalencias.
 
Con el corrimiento se obtienen nuevos valores para una variable mediante el desplazamiento de sus valores en una o más observaciones. En el caso de la diferencia la transformación implica que el valor de una nueva variable se obtiene como diferencia de valores consecutivos de otra variable original.
 
Mediante el cálculo de rangos resulta posible obtener éstos para un conjunto de observaciones de una variable contenida en la memoria de trabajo.
 
Con el cálculo de variables indicatrices resulta posible transformar cada valor de una variable, en general cualitativa, en valores de variables binarias, que en conjunto son equivalentes a la primera.
 
Finalmente, mediante el ordenaniento resulta posible obtener valores de una nueva variable como resultado del ordenamiento de menor a mayor (o de mayor a menor) de los valores de otra.
 
Los procedimientos específicos utilizados por el sistema para la ejecución de estas transformaciones de incluyen en el Cuadro 11.7 .
Los pasos a seguir para ejecutar alguna de las posibilidades de transformación que considera el sistema son los siguientes, una vez elegida una específica en el menú anterior:
 
a) Si no hay datos en la memoria de trabajo se sale de la opción. En caso contrario aparecen en pantalla las variables contenidas en la memoria de trabajo.
 
b) Si se eligió efectuar una transformación mediante una función y si ya existe una función definida previamente se interroga si se desea o no modificarla. En caso de respuesta negativa se mantiene la función existente. En caso de respuesta positiva se ingresa la función de transformación a considerar. En el caso de que ya exista una función previa, ésta puede ser modificada (editada) mediante las teclas de edición "Insert" y "Delete" usuales en los microcomputadores.
 
La expresión de transformación algebraica se define utilizando la sintaxis del lenguaje BASIC, pudiendo usar en ella las mismas variables ( V(j) e I ) y y operadores y funciones matemáticas definidas para el proceso de selección. Las siguientes expresiones son ejemplos válidos de funciones de transformación que se pueden definir:
 
V(3)*2 - 4*LN(V(2))
 
3.47*I+2.1*V(2) - 3.7*V(5)
 
(5.9 + SQR( V(7) )) / (V(3) - 1.7*V(1)*V(2))
 
Como ya dijimos, el valor de la nueva variable para cada observación se obtiene aplicando la expresión definida a los valores de las variables conocidas para la misma observación.
 
c) En el caso de haber seleccionado cualquiera de los procesos de transformación, excepto mediante una función, se selecciona la variable específica de la memoria de trabajo cuyos valores serán transformados.
 
d) Para el caso de recodificación y de cálculo de variables indicatrices se definen los grupos de valores actuales de la tabla de equivalencias. Esta definición se efectúa de manera idéntica a la definición de los grupos de clasificación, que se presenta en la sección .
 
En el caso de recodificación y para cada grupo de valores actuales definido en el paso anterior, se ingresa el correspondiente nuevo valor de la tabla de equivalencias.
 
e) En el caso de haber seleccionado el cálculo de diferencias o el corrimiento se elige cual de estas transformaciones se ejecuta, respondiendo a la interrogación correspondiente. Si la respuesta es negativa se efectúa el corrimiento de valores.
 
En ambos casos se ingresa el número k de observaciones a considerar en el proceso.
 
f) En el caso de seleccionar el ordenamiento se elige el tipo de ordenamiento a efectuar, mediante el siguiente menú:
 
 
TIPO DE ORDENAMIENTO
 
1 - De Menor a Mayor
2 - De Mayor a Menor
 
 
g) Definición de la posición de la memoria de trabajo donde se colocarán los valores resultado de la transformación (ver procedimiento en la sección ). En el caso de cálculo de variables indicatrices se debe definir una cantidad de variables igual al número de valores posibles establecido en d) para la variable original.
 
g) En caso de que exista una condición de selección definida se interroga sobre si ella se considera o no en la transformación. En caso afirmativo, la transformación se efectúa sólo para las observaciones que cumplen la condición.
 
h) Ejecución por el computador de la transformación para cada observación y carga de los valores correspondientes en la posición (o posiciones) definida en el paso f). A la finalización del proceso aparece en pantalla el mensaje "Transformación Terminada".
 
 
Se presentan dos ejemplos de procesos de transformación. En el primero de ellos, cuyos resultados aparecen en el Cuadro 11.8 a) se realiza un proceso de transformación mediante una función aplicada a los datos de países de América Latina (AMERLAT), que se encuentran previamente cargados en la memoria de trabajo. La transformación, en este caso, involucra obtener una nueva variable, la densidad de población (13- Densidad), como cociente entre la población (3-Poblacion) y la superficie de cada país (2-Superficie). la función de transformación ingresada es: v(3)/v(2).
 
En el segundo ejemplo, consignado en el Cuadro 11.8 b) se lleva a cabo una recodificación, aplicada a la variable Tiempo de Gestación (3-TpoGest) en el juego de datos de nacimientos de la ciudad de Buenos Aires (NATIVBA), que se encuentran cargados en la memoria de trabajo. La tabla de recodificación definida para este proceso, mediante la cual se transforma la variable de cuantitativa en ordinal, es:
 
Valor actual Nuevo Valor
-----------------------------------
< 38 1
>=38 < 40 2
>=40 < 42 3
>=42 4
-----------------------------------
 
Los resultados se colocan en la variable 16-TgesCod.
CUADRO 11.7 - CRITERIOS DE TRANSFORMACION DE VARIABLES
 
 
Nomenclatura
 
xi, wi, zi Valores de las variables X, W, Z para una observación i.
 
yi Valor de la variable transformada Y para una observación i.
 
Casos de Transformación
 
Mediante
una Función yi = f( xi, wi, zi, ...)
 
Normalización yi = ( xi - x )/s
 
siendo x y s la media aritmética y el desvío estándar de la variable X, respectivamente.
 
Recodificación Dada una tabla de equivalencias:
 
Valor Original Valor Transformado
-----------------------------------
>=x1 <x2 y1
>=x2 <x3 y2
........... ...
>=xk <xk+1 yk
.......... ...
>=xp yp
 
resulta:
 
yi = yk si xk<=xi<xk+1
 
Corrimiento/
Diferencia a) Corrimiento:
 
yi = xi-k , k entero.
 
b) Diferencia:
 
yi = xi - xi-k , entero
 
En ambos casos y1 a yk no están definidos.
 
Cálculo
de Rangos Ordenando previamente los valores de x de menor a mayor:
 
. Si xi-1<xi<xi+1 Rango yi = i
 
. Si xi=xi+1=...=xi+k
 
Rangos yi, yi+1,...,yi+k=
(i+(i+1)+...+(i+k))/(k+1)
Cálculo de
Variables Dado un conjunto x1, x2, ...,xp de
Indicatrices valores possibles de la variable X:
 
yki=1 si xi=xk+1
el resto de las y.i=0
 
Ordenamiento
 
 
CAPITULO 12
 
ANALISIS DESCRIPTIVO DE DATOS
EN EL SISTEMA ESTAD
 
 
Dentro del tema Análisis Descriptivo de Datos el sistema ESTAD considera los siguientes procesos específicos: Cálculo de estadísticas descriptivas, Clasificación de Datos, Cálculo de estadísticas descriptivas de datos clasificados y Graficación de Datos, que se describen en detalle en los puntos siguientes, y cuya selección se realiza por medio del menú inicial del tema:
 
PROCESOS
 
1 - Cálculo de Estadísticas Descriptivas
2 - Clasificación de Datos
3 - Cálculo de Estad. de Datos Clasificados
4 - Graficación de Datos
5 - Manejo de Datos
 
 
Se incluye en el menú, mediante la opción 5, la posibilidad de llamar en forma directa a la opción de Manejo de Datos, sin pasar por el menú principal del sistema. Por otra parte, el sistema no contempla la ejecución de manera directa de procesos de Análisis Exploratorio.
 
 
12.1 CALCULO DE ESTADISTICAS DESCRIPTIVAS
 
El sistema puede calcular las estadísticas descriptivas más usuales para una o más variables cuyos datos se encuentran en la memoria de trabajo. Ellas son:
 
a) Para una variable
 
- Suma
- Media aritmética o Valor Medio
- Mediana
- Desvío Estándar para la muestra
- Idem, para la población
- Coeficiente de Variación (si Media > 0)
- Valores Mínimo y Máximo
- Primer y tercer Cuartil
- Rango y Rango Intercuartil
- Rango sobre Desvío Estándar (si Desvío >0 )
- Coeficiente de Asimetría
- Coeficiente de Curtosis
 
b) Para dos variables relacionadas
 
- Covariancia
- Coeficiente de Correlación
- Nivel de Significación de los coeficientes de correlación
 
Los criterios utilizados en el sistema para el cálculo de estos indicadores se resumen en el Cuadro 12.1 .
 
El modo, estadística que representa el valor más frecuente en un dado conjunto de valores de una variable, puede obtenerse en el sistema de manera indirecta, a partir de un proceso de clasificación (ver sección 12.2).
 
La determinación de estadísticas desciptivas mediante el sistema ESTAD requiere realizar los pasos siguientes, una vez elegida la opción correspondiente en el menú de Análisis Descriptivo de Datos:
 
a) Selección de la o las variables para las cuales se desea obtener las estadísticas, dentro del conjunto de datos que se encuentra en la memoria de trabajo (procedimiento descripto en ). El proceso permite considerar datos agrupados.
 
b) Si en a) se define una sola variable el computador calcula y presenta en pantalla el total de estadísticas definidas anteriormente.
c) En el caso de que en a) se defina más de una variable el computador efectúa el cálculo correspondiente y presenta en pantalla, para cada una de ellas, la Suma de las observaciones, el Valor Medio y el Desvío Estándar (para la población).
 
d) En este mismo caso se pueden obtener, optativamente, los valores de las Covariancias entre pares de variables o los correspondientes Coeficientes de correlación, así como la significación de éstos últimos, seleccionando la opción correspondiente en el siguiente menú:
 
 
RESULTADOS COMPLEMENTARIOS
 
1 - Matriz de Covariancias
2 - Matriz de Coefic. de Correlación
3 - Matriz de Signif. de Coef.Correlac.
 
Presentamos seguidamente dos eejemplos del proceso descripto de Cálculo de Estadísticas Descriptivas, llevados a cabo sobre el juego de datos correspondiente a una muestra de nacimientos (NATIVBA), previamente cargados en la memoria de trabajo.
 
El primer ejemplo involucra la obtención del total de estadísticas para la variable Peso al nacer (Variable 4 - Peso), mostrando sus resultados en el Cuadro 12.2 a.
 
El segundo ejemplo considera la obtención de estadísticas pricipales, coeficientes de correlación y sus significaciones para las siguientes variables:
 
- Tiempo de Gestación (3 - TpoGest)
- Peso al nacer (4 - Peso)
- Edad de la Madre (5 - Edadmad)
- Edad del padre (12 - Edadpad)
- Hijos Totales (10-HijTot)
 
Los resultados correspondientes se muestran en el Cuadro 12.2b.
CUADRO 12.1 - PROCEDIMIENTOS PARA EL CALCULO DE ESTADISTICAS DESCRIPTIVAS
 
a) Estadísticas para Una Variable
 
. Suma de observaciones xi
 
. Media Aritmérica, o Valor
. Medio x = 1/n xi
 
. Mediana, primer Cuartil y
Tercer Cuartil Después de ordenar las observaciones de menor a mayor:
 
Dados porcentajes de 25%, 50% y 75% para cada una de las estadísticas, es el valor de la observación en la que se cumple dicho porcentaje. Si el % cae exactamente entre dos observaciones se calcula como promedio entre ellas.
 
. Variancia (para la población) s2 = 1/(n-1) (xi-x)2
 
. Desvío Estándar (ídem) s = s2
 
. Valores Mínimo y Máximo xMIN, xMAX
 
. Rango R = xMAX - xMIN
 
. Rango Intercuartil RINTC=Terc.Cuartil-
1er.Cuartil
 
.Coeficiente de Variación s/x
 
. Rango/Desvío Estándar R/s
 
. Coeficiente de Asimetría 1/n (xi-x)3/(1/n (xi-x)2 )3/2
 
. Coeficiente de Curtosis 1/n (xi-x)4/(1/n (xi-x)2 )2
 
 
b) Estadísticas para Dos Variables relacionadas X y Y
 
. Covariancia sxy=1/(n-1) (xi-x)(yi-x)
 
.Coeficiente de Correlación rxy = sxy/sxsy
-----------------
NOTAS
(1) En el sistema ESTAD se usa para el ordenamiento el método SHELL (Ver Ref. )
 
(2) Para obtener las mismas estadísticas para la muestra se divide por n, en lugar de n-1.n
12.2 CLASIFICACION DE DATOS
 
La clasificación de un conjunto de observaciones en grupos, de acuerdo a los valores que toman una o dos de sus variables, constituye otra posibilidad dentro del Análisis Básico de Datos considerada por el sistema ESTAD. El procedimiento utilizado para ello es muy sencillo, requiriendo unicamente definir los valores de la o las variables de clasificación con los que se establece cada grupo y, a partir de ello, encasillar cada observación del juego de datos en el grupo correspondiente.
 
En el Cuadro 15.3 se incluyen los criterios básicos seguidos por el sistema en la clasificación considerando 1 ó 2 variables para la definición de los grupos a los que se asigna cada observación. En el mismo cuadro se incluyen, para cada caso, los criterios para efectuar la prueba de la independencia de la clasificación.
 
Los pasos para la ejecución de un proceso de clasificación son los siguientes, considerando que se ha seleccionado dicha opción en el menú inicial del Análisis Descriptivo de Datos:
 
a) Selección de una o dos variables de clasificación, dentro del conjunto de datos que se encuentra en la memoria de trabajo (ver punto ). En el proceso se pueden contemplar datos de tipo agrupado.
 
b) Ingreso en orden consecutivo, de menor a mayor, de los valores de cada variable definida en el paso anterior, con los que se definen los grupos de clasificación. Para cada par de valores ingresados puede definirse optativamente un intervalo, con el cual el computador establece valores intermedios entre aquellos. En el caso de que ya existan valores previos ingresados éstos se presentan en pantalla, pudiendo utilizarlos nuevamente, respondiendo afirmativamente a la interrogación correspondiente.
 
Los valores definidos actúan de dos maneras diferentes según el tipo de variable considerada. En variables de tipo cuantitativo ellos constituyen los límites inferiores de cada intervalo consecutivo (se adopta automáticamente un primer intervalo con valores menores al primer valor ingresado). En cambio, con variables cualitativas, ellos pueden ser directamente cada uno de sus posibles valores.
 
Previo al ingreso de los valores de clasificación, y como ayuda para su definición, se muestran en pantalla los valores mínimo y máximo de las observaciones de la variable involucrada.
 
c) Si en a) se definió una sola variable de clasificación el computador efectúa el proceso, presentando en pantalla los siguientes resultados, para cada grupo de clasificación:
 
- Valor (o valores) de la variable de clasificación que define el grupo.
- Número de observaciones que cae dentro del grupo.
 
- Idem, en porcentajes respecto al total de observaciones.
 
- Porcentaje acumulado de observaciones hasta ese grupo.
 
- Histograma de porcentajes en el grupo y acumulados.
 
d) Si se definieron dos variables de clasificación el computador realiza el proceso, presentando en pantalla un menú de tabulados alternativos, obtenibles de manera consecutiva:
 
 
TABULADOS OPTATIVOS
 
1 - En Número de Observaciones
2 - En Número de Observaciones (Estimado)
3 - En Porcentajes por Total
4 - En Porcentajes por Total (Estimados)
5 - En Porcentajes por Fila
6 - En Porecntajes por Columna
 
 
De acuerdo a la opción elegida los tabulados que se obtienen son:
 
1- Tabla con la cantidad de observaciones que cae en cada grupo de clasificación.
 
2- Tabla similar a la anterior, pero ahora conteniendo la cantidad estimada de observaciones en cada grupo, suponiendo condiciones de independencia entre las dos variables de clasificación (n'ij en el Cuadro 15.3).
 
3- Tabla con los porcentajes que representa la cantidad de observaciones reales en cada grupo, con respecto al total.
 
4- Idem, considerando la cantidad estimada.
 
5- Tabla con los porcentajes que representa la cantidad de observaciones en cada grupo, con respecto al total de cada fila.
 
6- Idem, con respecto al total de cada columna.
 
e) En ambos casos, con una o dos variables de clasificación, resulta posible efectuar un proceso complementario, mediante el siguiente menú:
 
 
PROCESOS COMPLEMENTARIOS
 
1 - Verif.Independencia Clasificación
2 - Grabación Archivo Resultados
f) Si se eligió la opción 1 del menú se efectúa un ensayo de independencia de la clasificación. Los resultados que se obtienen en pantalla a su ejecución son los siguientes:
 
- Valor de la estadística "Chi2"
 
- Grados de libertad correspondientes
 
- Nivel de significación resultante
 
g) En el caso de elección de la opción 2 del menú resulta posible crear un archivo en el formato del sistema ESTAD con los resultados de la clasificación, útil para procesos posteriores. Para ello es necesario solamente ingresar el nombre del archivo a crear, siguiendo los criterios indicados en , así como una descripción que lo explique sinteticamente.
 
Las características del archivo generado son las siguientes:
 
- Como descripción del archivo se graba la leyenda: "Resultados Clasificacion".
 
- Sus variables son:
 
1- Nombre de la primera variable de clasificación. En ella se graban los límites de clasificación utilizados.
 
2- Idem, segunda variable de clasificación (si existe).
 
3- NumObs : Número de observaciones en cada grupo definido por los valores de las variables anteriores.
 
4- PorcObs : Porcentaje de observaciones en cada grupo respecto al total.
 
- Cada una de sus observaciones corresponde a un grupo de clasificación.
 
 
Consideramos a continuación dos ejemplos del proceso de Clasificación, realizados sobre los datos correspondientes a una muestra de nacimientos (NATIVBA), previamente cargados en la memoria de trabajo.
 
El primer ejemplo involucra la clasificación de las observaciones según los valores de la variable Peso al nacer (4 - Peso), considerando los siguientes valores límite de clasificación:
 
.5 - 1 - 1.5 - 2 - 2.5 - 3 - 3.5 - 4 - 4.5
 
Los resultados del ejemplo se indican en el Cuadro 12.4 a).
Como proceso complementario se efectúa la grabación de los resultados de la clasificación, en el archivo CLAPESO, para su utilización en ejemplos de capítulos subsiguientes.
 
Un segundo ejemplo contempla la clasificación de las observaciones según las variables: Edad de la Madre (5 - EdadMad) y Edad del Padre (12 - EdadPad), la primera entre 20 y 45 años, considerando intervalos de 5 años, y la segunda, entre 20 y 50, con el mismo intervalo. Los resultados que se obtienen para este segundo proceso, incluidos en el Cuadro 12.4 b), son: el tabulado según la cantidad de observaciones por grupo de clasificación y el tabulado en porcentajes por fila.
 
Como proceso complementario en este segundo ejemplo se lleva a cabo la verificación de la independencia de la clasificación, con resultados que también se incluyen en el Cuadro 12.4 b).
 
Mediante el sistema ESTAD es posible realizar clasificaciones de más de dos variables, en forma indirecta. Ello se efectua utilizando la opción de selección de observaciones (sección ) en forma previa a la clasificación. Por ejemplo, si quisieramos obtener la clasificación de las observaciones de nacimientos según las variables Tipo de Hospital, Lugar de residencia y Actividad de la madre deberíamos primero aplicar una condición de selección considerando el hospital de tipo 1 y a partir de ello efectuar la clasificación según las dos variables restantes. Este proceso se repite seleccionando el tipo de hospital 2.
CUADRO 12.3 - PROCESO DE CLASIFICACION
 
a) Según Una Variable
 
La definición de los grupos a los que se asignan las observaciones en el juego de datos en el proceso de clasificación puede realizarse según dos criterios:
 
- Por Intervalo: cada valor de clasificación define el límite inferior de un intervalo. Surge cuando los valores de la variable a clasificar no coinciden con los valores de clasificación definidos, en general en variables de tipo cuantitativo.
 
- Por Valor: cada valor de clasificación define un grupo de clasificación. surge cuando los valores de la variable a clasificar coinciden con aquellos, en general en variables de tipo cualitativo.
 
La verificación de la independencia de la clasificación en este caso involucra la ejecución de una prueba de Chi2, como se describe en el Capítulo 14. En este caso se obtiene la siguiente estadística de prueba:
 
x2 = (ni - ni')2/ni'
 
siendo m el número de grupos de clasificación definidos, ni el número de observaciones en cada grupo i y ni'=n/m el número esperado de observaciones en cada grupo de clasificación si existiera independencia entre los diferentes grupos.
 
Los grados de libertad para el cálculo del nivel de significación resultan en este caso: k=m-1.
 
 
b) Según Dos Variables
 
La definición de los grupos de clasificación se efectúa de manera similar al caso anterior, pero considerando ahora simultáneamente dos variables.
 
La verificación de la independencia de la clasificación en este caso también involucra una prueba de Chi2, obteniéndose ahora el valor de l estadística de prueba x2 mediante la expresión:
 
x2 = (nij - nij')2/nij'
 
siendo m1 y m2 el número de grupos de clasificación de cada variable, nij el número de observaciones en cada grupo ij y nij' el correspondiente valor esperado en cada grupo, si existe independencia entre las dos variables elegidas para la clasificación:
 
nij' = (ninj)/n .
 
donde ni y nj son el número de observaciones en el grupo i de la primera variable y en el j de la segunda, respectivamente.
 
El número de grados de liberatd para el cálculo del nivel de significación resulta: k=(m1 - 1)(m2 - 1).
 
12.3 CALCULO DE ESTADISTICAS DE DATOS CLASIFICADOS
 
De la combinación de los dos procesos anteriores surge la posibilidad de obtener estadísticas descriptivas de una cierta variable para diferentes grupos de observaciones de un dado juego de datos, grupos definidos de igual manera que en el proceso anterior, mediante una o dos variables de clasificación. Las estadísticas específicas consideradas por el sistema son, en este caso:
 
- Suma de valores
- Valor Medio
- Desvío Estándar (de la poblacion)
 
El procedimiento utilizado en el proceso es similar al de clasificación, pero ahora, en lugar de contar solamente la cantidad de observaciones que cae en cada grupo de clasificación, se acumulan también los valores necesarios para el cálculo de las estadísticas citadas.
 
El cálculo de estadísticas de datos clasificados, una vez elegida la opción correspondiente dentro del menú de Análisis Descriptivo de Datos, requiere ejecutar los siguientes pasos:
 
a) Selección de dos o tres variables a considerar en el proceso, dentro del conjunto de datos que se encuentra en la memoria de trabajo (punto ). El proceso permite considerar datos de tipo agrupado.
 
En todos los casos la variable para la que se calculan las estadísticas es la que se define en último lugar, mientras que la (o las) de clasificación es la que se define en primer término.
 
b) Ingreso de los valores de las variables de clasificación, siguiendo el mismo procedimiento establecido en el paso b) de la sección 12.2 .
 
c) El computador efectua el proceso y presenta en pantalla los resultados correspondientes, obteniéndose para cada grupo de clasificación definido por los valores ingresados en b) los siguientes resultados:
 
- Número de observaciones
- Suma de las observaciones de la variable considerada
- Idem, Valor Medio
- Idem, Desvío Estándar (para la población)
 
d) Resulta posible efectuar la grabación de un archivo con los resultados del proceso en el formato del sistema ESTAD, de manera similar al caso de clasificación, respondiendo afirmativamente a la interrogación correspondiente. La descripción incluida en el archivo es: "Resultados Estadísticas Datos Clasificados". a su vez, las variables del archivo son ahora:
1- Nombre de la primera variable de clasificación. En ella se graban los límites de clasificación utilizados.
 
2- Idem, segunda variable de clasificación (si existe).
 
3- NumObs : Número de observaciones en cada grupo definido por los valores de las variables anteriores.
 
4-ValMed : Idem, Valor Medio de la variable considerada.
 
5-DesvSt : Idem, Desvío Estándar.
 
 
Como ejemplo ejecutamos este proceso considerando el juego de datos sobre nacimientos (NATIVBA), previamente cargado en la memoria de trabajo. En este caso obtenemos estadísticas de la variable Hijos Totales (10-HijTot), para grupos definidos por los mismos valores de la variable Edad de la madre (5-EdadMad) considerados en el ejemplo de la sección 12.2 . Los resultados obtenidos mediante el sistema se incluyen en el Cuadro 12.5 .
12.4 GRAFICACION DE DATOS
 
El sistema ESTAD considera las siguientes posibilidades de graficación de las observaciones de un dado conjunto de datos:
 
- Mediante puntos en un sistema de ejes cartesianos (Graficación Normal), según dos variables.
 
- Idem a la anterior, pero codificando cada punto según el valor de una tercera variable (Graficación Codificada).
 
El tipo de graficación que considera el sistema ESTAD es en todos los casos de baja resolución, esto es, ejecutada utilizando los caracteres alfanuméricos usuales . Dentro de ello, el número de posiciones establecidas para cada eje cartesiano son de 60 columnas para el eje X y de 20 filas para el eje Y.
 
Los pasos a realizar en el sistema para efectuar una graficación son los siguientes, después de haber sido elegida la opción correspondiente en el menú de Análisis Descriptivo de Datos:
 
a) Selección de la opción de graficación a considerar, del siguiente menú:
 
 
TIPO DE GRAFICACION
 
1 - Normal
2 - Codificada
 
 
b) Definición de la posición de la variable independiente, así como los valores mínimo, máximo e intervalo, necesarios para la rotulación del eje X. Como ayuda para definir dichos valores se presentan en pantalla los valores mínimo y máximo de la variable, en los datos involucrados.
 
En el gráfico se consignan unicamente las observaciones que caen dentro de los límites mpinimo y máximo establecidos para el eje X y el Y.
 
Una posibilidad que permite el sistema, util principalmente en el caso de series de tiempo, es la de considerar como variable independiente al número de orden de cada observación dentro del juego de datos involucrado, para lo cual se ingresa el carácter I (o i) como posición de dicha variable.
 
c) Definición de la posición de la (o las) variable dependiente. En el caso de haber elegido la opción 1 del menú anterior se pueden definir hasta tres variables dependientes, considerando la misma escala en el eje Y. A partir de ello, para el conjunto de variables dependientes seleccionadas, se ingresan los valores mínimo, máximo e intervalo, a ser utilizados en la rotulación del eje Y. Como ayuda para ello se presentan en pantalla los valores mínimo y máximo de los valores para el conjunto de variables dependientes definidas.
Si se eligió la opción 2 en el menú anterior se puede definir una sola variable dependiente y, a partir de ello, la variable cuyos valores se utilizarán como símbolo de cada observación en el gráfico. Esta última variable también puede ser el número de observación, como se vió en el paso b).
 
d) El computador efectúa la graficación de datos en pantalla. En el caso de haber elegido la opción 1 de graficación se utilizan los siguientes símbolos para graficar cada punto:
 
- Primera variable dependiente: *
- Segunda : x
- Tercera : .
 
En caso de haber elegido la segunda opción de graficación se utiliza como símbolo de graficación el valor entero de la variable definida en el paso c), utilizando los siguientes códigos de graficación:
 
- si es menor que 0
0 a 9 si se encuentra entre 0 y 9
A a Z si se encuentra entre 10 y 35
+ si es superior a 35.
 
 
En el gráfico se indican también los valores 0 de ambos ejes, como ayuda para la ubicación de las observaciones.
 
Si se desean salidas impresas de los gráficos obtenidos en pantalla se pueden obtener mediante la tecla "Print Screen".
 
 
Como ejemplo de aplicación de los pasos anteriores se incluye en el Cuadro 12.6 la obtención de dos gráficos para el juego de datos socioeconómicos de América latina (AMERLAT). Los gráficos que se obtienen consecutivamente son:
 
a) Participaciones porcentuales de la Agricultura, Industria y Servicios en el Producto Bruto Interno (variables 6-%PBAgric, 7-%PBInd y 8-%PBServ), en función del PBI por cápita (4-PBNCap).
 
b) Mortalidad infantil (20-MortInf) en función del PBI por cápita (4-PBN-Cap), indicando en cada punto el correspondiente número de orden de país, este último seleccionando la opción 2 del menú de tipo de graficación e ingresando "I" como variable a codificar.
 
 
 
CAPITULO 13
 
DISTRIBUCIONES DE PROBABILIDAD
EN EL SISTEMA ESTAD
 
 
 
El sistema ESTAD contempla de este tema la ejecución de los procesos típicos vistos es las secciones anteriores, esto es: Cálculos con funciones de Probabilidad, Ajuste de distribuciones a datos experimentales y Generación de valores aleatorios. Las distribuciones específicas a las que se pueden aplicar dichos procesos son:
 
Continuas: Uniforme, Normal, Exponencial, Gamma, Beta, Lognormal, Chi2, t, F, Normal Autocorrelacionada, Normal Bidimensional.
 
Discretas: Uniforme, Binomial, Binomial negativa, Poisson.
 
 
La selección de alguno de los procesos enunciados, cuyas características se describen en las restantes secciones del capítulo, se realiza mediante el siguiente menú, presentado al inicio de la opción:
 
 
PROCESOS
 
1 - Cálculos con Funciones de Probabilidad
2 - Ajuste de Distribuciones
3 - Generación de Valores aleatorios
4 - Manejo de Datos
 
 
Como se aprecia en este menú, dentro del tema de Distribuciones de Probabilidad es posible ejecutar la opción de manejo de datos, sin pasar por el menú principal del sistema.
 
 
13.1 CALCULOS CON FUNCIONES DE PROBABILIDAD
 
Este primer proceso permite efectuar cálculos asociados a las funciones de probabilidad de las distribuciones estadísticas abarcadas por el sistema. Los procesos concretos disponibles son:
 
1) Cálculo de los valores de f(x), p(x) y F(x) para valores específicos de la variable X, considerando una distribución de probabilidad determinada. Dicho cálculo es efectuado mediante el uso de procedimientos que se incluyen en los Cuadros 13.6 y 13.7, para cada distribución considerada en el sistema.
 
 
 
2) Cálculo del valor de X para un valor específico de la función F(x) de un cierta distribución. El criterio utilizado en el sistema ESTAD para realizar este proceso, descripto en el Cuadro 13.1, se basa en aprovechar las expresiones de cálculo de F(x), definidas para el proceso anterior, mediante las cuales se va aproximando iterativamente el valor de x que corresponde al valor especificado de F(x).
 
En ambos procesos el sistema contempla la posibilidad de definir valores específicos para el cálculo, o utilizar valores contenidos en variables de la memoria de trabajo.
 
La ejecución de cálculos con funciones de probabilidad utilizando el sistema ESTAD requiere desarrollar los pasos que se enuncian a continuación, a partir de la elección de la opción correspondiente en el menú de Distribuciones:
 
a) Selección de la opción de proceso específica a considerar, del menú siguiente:
 
 
PROCESOS
 
1 - Cálculo de f(x) y F(x)
2 - Cálculo de x para valores de F(x)
 
 
b) Selección de la distribución a considerar, en el siguiente menú:
 
 
DISTRIBUCIONES CONTINUAS
 
1 - Uniforme (a,b) 7 - Chi2 (k)
2 - Normal (Mu,Sig) 8 - t (k)
3 - Exponencial (Mu) 9 - F (k1,k2)
4 - Gamma (Alfa,Beta) 10 - Normal Autocorr.(Mu,Sig,Ro)
5 - Beta (Alfa, Beta) 11 - Normal Bidimens.
6 - LogNormal (Mu',Sig') (Mu1,Sig1,Mu2,Sig2,Ro)
 
DISTRIBUCIONES DISCRETAS
 
12 - Uniforme Discr.(a,b) 14 - Binomial Negat.(r,p)
13 - Binomial (n,p) 15 - Poisson (Mu)
 
 
En el menú anterior se indican, junto a cada distribución, los parámetros correspondientes.
 
c) Ingreso de los valores de los parámetros para la distribución elegida. En este caso, si se ingresa sólo "Enter", se mantiene el valor anterior para el parámetro involucrado (que se presenta entre paréntesis). El valor ingresado es verificado de acuerdo a las siguientes condiciones:
.a Entero para la distribución uniforme discreta
 
.b Mayor que a. Entero para la distribución anterior
 
.Mu Mayor que 0 para las distribuciones Exponencial, Gamma, y Poisson
 
.Sig,Sig'
.Sig1,Sig2 Mayor que 0
.Mu',Alfa,Beta
 
.Ro,p Mayor que 0, menor que 1 (para la distrib.Normal Bidimens -1 Ro 1).
 
.k,k1,k2,n,r Entero mayor que 0
 
 
d) En el caso de la distribución normal bidimensional se ingresa el valor a considerar de la segunda variable Y.
 
e) Se define si los valores de x (o de F(x) ) a considerar en el cálculo se toman de una variable de la memoria de trabajo o se ingresan de manera específica, respondiendo a la correspondiente interrogación.
 
f) Si en el paso anterior se respondió afirmativamente se ingresa la variable de la memoria de trabajo donde se encuentran los valores de x (o de F(x) ) a utilizar. Asimismo, se define la posición de la memoria de trabajo donde se colocarán los resultados corrrespondientes.
 
e) En caso de respuesta negativa en e) y si en el paso a) se eligió la opción 1, se definen los valores x a considerar. Ello se realiza de la misma manera que la definición de valores de una variable para la clasificación (ver paso de sección ).
 
Cálculo de f(x) y F(x) para valores de x
 
f) El computador efectúa los cálculos correspondientes y presenta en pantalla los siguientes resultados, para cada valor x:
 
. f(x) Para variables continuas
 
. p(x) Para variables discretas. En el caso de variables continuas mide la probabilidad de ocurrencia entre el valor xi y el xi-1:
 
p(x) = F(xi) - F(xi-1)
 
. F(x)
 
. 1 - F(x)
Se presenta también finalmente la probabilidad de ocurrencia de valores mayores que el máximo valor x definido.
 
Si en f) se definió una posición de la memoria de trabajo el computador coloca en ella los valores de F(x) correspondientes a cada valor x considerado.
 
g) En el caso de haber ingresado valores específicos de x para el cálculo pueden ejecutarse, como procesos complementarios, la graficación de f(x) o de F(x) y la creación de un archivo con los resultados del cálculo , de acuerdo al siguiente menú:
 
 
PROCESOS COMPLEMENTARIOS
 
1 - Graficación de f(x) o p(x)
2 - Graficación de F(x)
3 - Creación de Archivo con resultados
 
 
h) Si se selecciona una de las dos primeras opciones el computador presenta en pantalla el gráfico correspondiente, utilizando el esquema de graficación visto en la sección . La definición de los valores para la rotulación de los ejes coordenados se efectua automaticamente.
 
En el caso de f(x) se grafica una barra en correspondencia con cada valor x. Para F(x) se grafica un punto en correspondencia con cada valor x.
 
Si se desea obtener los gráficos en forma impresa se utiliza la tecla "Print Screen" una ver obtenidos en pantalla.
 
i) Si en el menú anterior se elige la opción 3 resulta posible crear un archivo en formato ESTAD con los resultados de la clasificación. Las características de dicho archivo son:
 
- En la descripción del archivo se consigna el nombre de la distribución y los valores de sus parámetros.
 
- Las variables definidas son:
 
. Valor x Contiene los valores de x considerados.
 
. f(x)/p(x) Contiene los valores de f(x) (o de p(x) en el caso de distribuciones discretas), para cada valor de x.
 
. F(x) Contiene los valores de F(x) para cada valor de x.
 
- Se graba una osbervación en el archivo por cada valor de x definido en e).
 
Cálculo de x para valores de F(x)
 
j) Si en e) se respondió negativamente se ingresan los valores a considerar de F(x), entre 0 y 1, de manera similar al ingreso de valores x en el paso f).
k) Para la misma opción, el computador lleva a cabo el proceso y presenta en pantalla los valores x para cada valor definido de F(x). Si en e) se definió una posición de memoria se ingresan en ella los valores de x calculados.
 
l) En el caso de que en j) se ingresen valores específicos para el cálculo resulta posible crear un archivo en formato ESTAD con los resultados del cálculo. Las características de dicho arcivo son:
 
- En su descripción se incluye el nombre de la distribución considerada y los valores de sus parámetros.
 
- Se definen las siguientes variables:
 
. F(x) Contiene los valores de F9x) considerados.
 
. Valor x Contiene los valores x correspondientes a acad valor F(x).
 
- Se ingresa en el archivo una observación por cada valor de F(x) definido.
 
 
A contunuación se presentan dos ejemplos del proceso de Cálculo de Funciones de Probabilidad. En el primero de ellos se considera la obtención de valores de las funciones de probabilidad para una distribución Normal (con parámetros = 5 y = 1) y diversos valores de la variable X. Un resumen del cálculo para x = 3 es:
 
u= ( 3-5 )/1 = -2
 
fN(3)=(1/ 1* 6.2832 )*exp(-0.5*(-2)2) = 0.054
 
z= 1/(1+.2316419* -2 ) = 0.6834
 
F'(3) = 1-0.054*(.319315*0.6834+...+1.330274*0.6834 5)
= 0.9772
 
FN(3)=1 - 0.9772 = 0.0228
 
En el segundo ejemplo se obtienen valores x correspondientes a valores especificados de F(x), para una distribución "Chi2" con parámetro k = . La secuencia iterativa de cálculo resulta, para el caso de F(x) = 0.1:
 
Búsqueda del intervalo donde se encuentra x (Desvío estándar de la distribución = 4.899):
 
x F(x) y
---------------------------
12 0.5541 0.4541
7.101 0.14848 0.04848
2.202 0.0012 -0.0988
Determinación de x dentro del intervalo anterior:
 
xa ya xb yb x F(x) y
------------------------------------------------------
2.202 -.0988 7.101 .04848 5.4885 .0605 -.0395
6.2125 -.0395 7.101 .04848 6.2988 .09946 -.00054
 
 
CUADRO 13.1 OBTENCION DEL VALOR x PARA UN VALOR F(x)
 
Dado un valor conocido k de F(x) el proceso implica resolver la ecuación:
 
y = F(x) - k = 0
 
es decir, encontrar el valor de x que determina la igualdad. Se uitiliza para ello el método iterativo denominado "Regula Falsa", una vez encontrado un intervalo dentro del cual se encuentre el valor x buscado.
 
a) Búsqueda del intervalo de la variable x dentro del cual se cumple: y = 0
 
Se parte de x0 = y se toman
intervalos d = a uno y otro lado de
x0 (según el signo de y0) hasta que
se detecta el intervalo dentro del cual
se cumple y = 0, obteniendo los valores
de xA, xB, yA e yB.
 
 
 
 
 
 
b) Cálculo de un valor estimado de x
 
Suponiendo una recta entre (xAyA)
el valor de x para el quey=0 resulta:
 
x=xA+yA(xB-xA)/(yB-yA)
 
El valor correspondiente de y se
obtiene haciendo: y=F(x)-k
 
c) Para un valor de pequeño especificado, si:
 
y
 
se finaliza el proceso. En caso contrario se hace:
 
. Si y 0 xB = x ; yB = y
. Si y 0 xA = x ; yA = y
y se vuelve al paso b).
13.2 AJUSTE DE DISTRIBUCIONES
 
El sistema contempla el proceso de estimación de valores de los parámetros de una distribución preseleccionada que ajustan a un cierto conjunto de datos experimentales, obteniendo además una evaluación del grado de correspondencia entre ellos y la distribución así definida.
 
En el sistema ESTAD se ha adoptado para la estimación de parámetros, salvo excepciones, el método denominado de Momentos, indicándose en los Cuadros 13.6 y 13.7 las expresiones de cálculo de los parámetros de cada una de las distribuciones incluidas en el sistema, como función de determinadas estadísticas descriptivas de los datos experimentales analizados. Una vez estimados los parámetros la evaluación del grado de ajuste de la distribución así definida se efectua mediante una prueba basada en el valor de la estadística "Chi2", cuyo procedimiento se incluye en el Cuadro 13.3.
 
En la opción de Pruebas estadísticas del sistema (Capítulo 14) se incluye la posibilidad de efectuar la prueba de Kolmogorov-Smirnov, también útil para evaluar el grado de ajuste de una distribución a un conjunto de datos experimentales. Asimismo, el sistema permite obtener, de manera indirecta, diversos gráficos de probabilidad para la evaluación empírica del ajuste de distribuciones.
 
La ejecución de un proceso de ajuste mediante el sistema ESTAD involucra los siguientes pasos, una vez elegida la opción en el menú inicial de Distribuciones de Probabilidad:
 
a) Selección de la distribución a considerar, de manera similar al paso b) de la sección 13.1 .
 
b) Selección de la variable de la memoria de trabajo a considerar en el proceso de ajuste (dos variables en el caso de la distribución Normal Bidimensional), mediante el procedimiento descripto en . En el proceso se pueden considerar datos de tipo agrupado.
 
c) Ingreso optativo del valor de los parámetros de la distribución elegida. Esta posibilidad permite efectuar el proceso de ajuste con valores impuestos de algunos o todos los parámetros, los que en ese caso no se estiman en el paso e). Los valores ingresados se verifican según los criterios vistos en el paso c) de la sección 13.1.
 
En el caso de la distribución Normal Bidimensional se ingresa el valor a considerar de la segunda variable Y para la evaluación del ajuste. Para la distribución Gamma se define si el parámetro se considera o no entero (distribu- ción Erlang), respondiendo a la interrogación correspondiente.
 
d) Ingreso de los valores de clasificación de la variable en análisis, necesarios para la prueba de evaluación del ajuste. Este ingreso se efectua de manera similar al equivalente visto en el proceso de clasificación (sección 12.2).
e) El computador realiza la estimación y presentación en pantalla de los siguientes resultados:
 
- Valor Medio y Desvío Estándar de los datos analizados
 
- Valores estimados de los parámetros de la distribución elegida que ajustan a dichos datos. En el caso de que en c) se hayan impuesto valores de los parámetros se presentan éstos.
 
f) El computador calcula las frecuencias reales y teóricas y muestra en pantalla los resultados de la evaluación del ajuste:
 
- Para cada intervalo de clasificación, definido por los valores ingresados en d):
 
.Frecuencia de los datos
.Frecuencia teórica
.Aporte al valor de la estadística "Chi2"
 
- Valor de la estadística "Chi2" y sus grados de libertad. En el caso de que éstos sean menores que 1 la estadística no se calcula y se presenta el mensaje correspondiente.
 
- Nivel de significación de la estadística "Chi2.
 
g) Se puede efectuar un proceso complementario, seleccionando la opción correspondiente en el siguiente menú:
 
 
PROCESOS COMPLEMENTARIOS
 
1 - Graficación del Ajuste
2 - Creación de Archivo con Resultados
 
 
h) Si en el menú anterio se elige la opción 1 se muestra en pantalla un gráfico donde se muestran las frecuencias reales de los datos y las teóricas correspondientes, para cada intervalo de clasificación. En el centro de cada intervalo se representa con una barra la frecuencia real y en la misma posición, con un símbolo " ", la frecuencia teórica correspondiente. La impresión del gráfico se puede obtener mediante la tecla "Print Screen".
 
i) Si en el menú anterior se eleige la opción 2 resulta posible crear un archivo en formato ESTAD con los resultados del proceso de evaluación del ajuste. Las características de dicho arcivo son:
 
- En su descripción se incluye el nombre de la distribución considerada y los valores estimados de sus parámetros.
- Se definen las siguientes variables:
 
. Valor x Contiene los valores x correspondientes a cada intervalo de clasificación. Si ésta es por intervalo corresponde al valor medio de cada uno de ellos.
 
. FrecExpe Contiene la frecuencia experimental correspondiente a cada valro de x.
 
. FrecTeor Idem, frecuencia teórica.
 
- Se ingresa en el archivo una observación por cada valor de x definido.
 
 
Como ejemplo de aplicación del sistema ESTAD en el ajuste de distribuciones utilizamos este proceso para obtener las características de una distribución log-normal que ajuste a la variable Producto Bruto per cápita (4 - PBN/Cap), del juego de datos socioeconómicos de los paises de América Latina (AMERLAT), previamente cargado en la memoria de trabajo.
 
Los valores estimados de los parámetros resultan, siendo x= y s= :
 
 
 
 
 
Para efectuar la prueba de Chi2 se adoptan como límites para definir los intervalos de clasificación a los valores:
 
500-1000-1500-2000-2500-3000
 
Los cálculos correspondientes, tomando como ejemplo el intervalo de la variable entre 1500 y 2000 son:
 
Frecuencia de los datos = 1
 
Frecuencia teórica = n*( FLOGN(2000)-FLOGN(1500) )
 
= 20*(0.7485 - 0.546) = 4.05
 
Contribución a Chi2 = (1 - 4.05)2 / 4.05 = 2.3
 
Cálculo de para el Chi2 total = 100*(1- FCHI(5.085))
= 100*(1.0.7221)=27.79 %
 
 
Los resultados del proceo de ajuste, incluyendo su graficación, se muestran en el Cuadro 13.4 a).
Como segunda parte del ejemplo obtenemos diversos gráficos de probabilidad, que permiten obtener una apreciación visual, no rigurosa pero útil, del grado de ajuste. Para ello debemos efectuar los siguientes procesos:
 
- Ordenamiento de la variable en consideración (4 - PBN/Cap) de menor a mayor, mediante la opción correspondiente de transformación, dentro del tema Manejo de Datos. Los valores ordenados se colocan en la variable 23-PBNOrd.
 
- Obtención de los valores de F(x) correspondientes a la distribución Lognormal ajustada, para cada valor de la variable 23-PBNOrd, mediante la opción 1 del Cálculo de funciones de probabilidad. Los valores resultantes se colocan en la variable 24-F(x)Teor.
 
- Obtención de los valores experimentales de F(x) correspondientes a los valores ordenados contenidos en la variable 23-PBNOrd, utilizando la opción de transformación mediante una función dentro del tema Manejo de Datos. La expresión de transformación definida es:
 
(I-.5)/20
 
Los valores transformados se colocan en la variable 25-F(x)Exp
 
- Obtención de los cuantiles correspondientes a los valores experimentales de F(x) calculados en el paso anterior, mediante la opción de cálculo de x dado F(x), considerando los valores contenidos en la variable 25-F(x)Exp. Los valores resultantes se incluyen en la variable 26-Cuant.
 
A partir de estos cálculos podemos obtener los siguientes gráficos, mediante la opción de graficación del tema Análisis descriptivo de datos:
 
- Relación entre las F(x) teórica y experimental y los valores de x.
 
. Variable Independiente: 23-PBNOrd.
. Variables dependientes: 24-F(x)Teor y 25-F(x)Exp.
 
- Relación entre los valores de F(x) teórica y experimental, para cada observación (Gráfico P-P).
 
. Variable Independiente: 24-F(x)Teor.
. Variable Dependiente: 25-F(x)Exp.
 
- Relación entre los valores de x y los cuantiles experimentales (Gráfico Q-Q).
 
. Variable Indeopendiente: 23-PBNOrd.
. Variable Dependiente: 26-Cuant.
 
Los gráficos que se obtienen del proceso se incluyen en el Cuadro 13.4 b).
CUADRO 13.3 - VERIFICACION DEL AJUSTE DE DISTRIBUCIONES
 
 
El proceso contempla los siguientes pasos, una vez obtenidos los valores estimados de los parámetros de la distribución involucrada:
 
a) Clasificación de los datos experimentales de la variable considerada, obteniendo el número ni de observaciones, del total n, que cae en cada grupo de clasificación i definido.
 
b) Obtención del número teórico ni' de observaciones que caería an cada grupo i de clasificación, de acuerdo a la distribución ajustada:
 
 
ni = n F(xi - F(xi-1)
 
siendo xi y xi-1 los valores
de x limitantes de cada grupo
de clasificación i.
 
 
 
 
c) Realización de una prueba de tipo Chi2 (ver capítulo 14) para verificar el grado de ajuste entre la clasificación experimental y la teórica. La estadística de prueba x2 se calcula en este caso mediante la expresión:
 
x2 = (ni - ni')2/ni'
 
El nivel de significación correspondiente vale:
 
= 1 - FCHI(x2)
 
donde FCHI() es la función de probabilidad acumulada de la distribución "Chi2" con parámetro k=m-1-np, siendo np el número de parámetros de la distribución elegida que fueron estimados a partir de los datos experimentales.
 
13.3 GENERACION DE VALORES ALEATORIOS
 
Mediante este proceso se obtienen valores aleatorios de una cierta distribución que se especifica. En los Cuadros 13.6 y 13.7 se incluyen las expresiones y procedimientos que se utilizan para generar valores aleatorios de las distribuciones que considera el sistema.
 
La generación de valores aleatorios de una distribución determinada mediante el sistema ESTAD involucra la ejecución de los siguientes pasos:
 
a) Selección del tipo de generación a realizar, del siguiente menú:
 
 
OBTENCION DE
 
1 - Valores Aleatorios de una Distribucion
2 - Estadísticas Descriptivas de Muestras Aleatorias
 
 
Con la primera opción del menú se obtiene como resultado un conjunto o muestra de valores individuales de la distribución considerada. Con la segunda opción, en cambio, se pueden obtener valores de estadísticas descriptivas para cada una de un conjunto de muestras de valores aleatorios de una cierta distribución.
 
b) Selección del tipo de distribución a considerar, siguiendo el procedimiento descripto en el paso b) de la sección 13.1.
 
c) Ingreso de los parámetros de la distribución elegida, siguiendo el procedimiento descripto en el paso c) de la sección 13.1.
d) Ingreso de datos necesarios para el proceso. Si en el menú anterior se elige la opción 2 se ingresa el número de muestras a generar.
A continuación de ello y para ambas opciones se ingresa el número de valores aleatorios a generar en cada muestra.
Por último se interroga si se desea definir una cierta secuencia de valores aleatorios uniformes estandarizados. En caso afirmativo se ingresa un número entero entre -32767 y 32767, mediante el cual puede reproducirse una generación efectuada previamente, ingresando el mismo valor.
En el caso de la distribución uniforme discreta se responde a la interrogación sobre si la generación es sin reposición.
 
e) Si en a) se seleccionó la generación de valores de una distribución se define, optativamente, la variable de la memoria de trabajo donde se desea almacenar los valores generados (dos variables en el caso de la distribución Normal Bidimensional), siguiendo el procedimiento descripto en .
f) Para el mismo caso, el computador realiza la generación y presenta en pantalla los valores obtenidos. Si en el paso e) se definió una (o dos) variable de la memoria de trabajo se almacenan en ella dichos valores.
 
g) Si se requiere la obtención de estadísticas descriptivas de varias muestras de valores aleatorios se seleccionan las estadísticas deseadas, mediante el siguiente menú:
 
 
ESTADISTICA A OBTENER
 
1 - Valor Medio
2 - Desvío Estándar
3 - Estadística t
4 - Estadística Chi2
5 - Estadística definida por el Usuario
 
 
Se pueden definir algunas o todas de las estadísticas consignadas, mediante su selección consecutiva en el menú anterior.
 
Los criterios de cálculo de las estadísticas son los siguientes:
 
- Valor Medio y Desvío Estándar: se consideran las expresiones de cálculo vistas en la sección .
 
- Estadísticas t y Chi2: se aplican las expresiones contempladas en las pruebas sobre el valor esperado y sobre el desvío estándar de una variable normal (sección 14.1).
 
- Estadística definida por el usuario: puede ser cualquier estadística calculable sobre una muestra de valores de una variable, para lo cual se debe incorporar al sistema la rutina correspondiente (ver Apéndice 1).
 
Para cada estadística que se selecciona se define optativamente una variable de la memoria de trabajo donde se almacenarán los valores de ella para cada muestra (procedimiento visto en ).
 
h) En el caso de generación de más de una muestra el computador obtiene internamente los valores aleatorios correspondientes y presenta en pantalla las estadísticas seleccionadas en g), para cada muestra, así como almacena dichas estadísticas en las variables establecidas de la memoria de trabajo. En este caso no se presentan ni almacenan los valores individuales generados en cada muestra.
 
 
Como ejemplo de los pasos descriptos se realizan dos procesos de generación. El primero de ellos considera la obtención de una muestra de valores aleatorios de una distribución Log-normal, con los parámetros ajustados en la sección anterior a los datos de PBN/Cápita, mostrándose los resultados obtenidos en el Cuadro 13.5 a . Los cálculos efectuados para el primer valor generado son:
 
r1 = .1213501 r2 = .651861
 
x' = 0.5189* -2*ln(.1213501) * cos(6.2832*.651861)+7.2531
= 6.636766
 
x = exp(6.636766) = 762.625
 
Como segundo ejemplo se realiza la generación de 50 muestras de 20 valores cada una de una distribución Exponencial con = 2. En este segundo caso se obtienen, para cada muestra, las siguientes estadísticas:
 
- Valor Medio
- Desvío Estándar
- Estadística t
- Estadística Chi2 resultante de un proceso de ajuste de los valores aleatorios a la misma distribución usada para generarlos. Para el cálculo de esta estadística se incorpora al sistema una rutina específica, cuyo listado se incluye en el Cuadro 13.5 c . Los límites de intervalos de clasificación definidos para el ajuste son 0,1,2.
 
La primera muestra de valores aleatorios generados resulta:
 
0.281-0.630-0.449-5.216-1.425-1.577-4.465-0.102-0.702-1.263
0.059-2.273-0.089-0.135-1.251-1.144-0.797-0.706-0.600-0.810
 
- Con ella se obtienen los siguientes valores de las estadísticas involucradas:
 
x = 23.974 / 20 = 1.1987
 
s = (1/19)*(64.656 ' (23.974)2/20 = 1.37493
 
t = (1.1987 - 2)* 20 /1.37493 = -2.606
 
x Frec.Real Frec.Teórica
-----------------------------------
0 5 6 4.4
0.5 1 6 3.46
1 1.5 4 2.69
1.5 2 1 2.09
2 3 7.36
-----------------------------------
 
Chi2 = (6 - 4.4)2/4.4 + ... + (3 - 7.36)2/7.36
= 6.236
 
Los resultados del proceso de generación se incluyen en el Cuadro 13.5 b.
CUADRO 13.6 - DISTRIBUCIONES CONTINUAS
 
 
Nomenclatura
 
Valor Esperado y Desvío Estándar de la distribución.
 
x, s Valor Medio y Desvío Estándar de una muestra de valores experimentales de una variable.
 
r Coeficiente de correlación entre dos variables, o de autocorrelación para una serie de tiempo.
 
u valor aleatorio uniforme en el intervalo 0-1.
 
 
1. DISTRIBUCION UNIFORME CONTINUA
 
Intervalo de x
a <= x <= b
 
Parámetros
. a
. b ( >a )
 
 
 
y = (a+b)/2 = (b-a)/ 12
 
Funciones de
Probabilidad f(x) = 1/(b-a) F(x) = (x-a)/(b-a)
 
Estimación
de Parámetros a = x - 3s b = x + 3s
 
Generación
de valores x = a + (b-a)u
 
 
2. NORMAL
 
Intervalo de x
< x <
 
Parámetros
.
. ( >0 )
 
 
 
y coinciden con los parámetros de la distribución
 
Funciones de
Probabilidad f(x)=(1/ 2 ) exp( -.5((x- )/ )2 )
 
No existe la F(x) en forma explícita. Se considera la siguiente función aproximante, con un error máximo de 10-6:
 
F'(x)=1- f(x) (.3193815z-.3565638z2+
+1.781478z3-1.821256z4+1.330274z5
 
siendo:
z=1/(1+.2316419 y)
 
y=(x- )/
 
Si y>0: F(x)=F'(x)
Si y<0: F(x)=1-F'(x)
 
Estimación
de Parámetros = x = s
 
Generación
de Valores Se generan simultàneamente dos valores aleatorios:
 
x1= -2 ln(u1) cos(2 u2) +
x2= -2 ln(u1) sen(2 u2) +
 
 
3. EXPONENCIAL
 
Intervalo de x
<= x <
 
Parámetro
. ( >0 )
 
 
 
 
y coincide con el parámetro de la distri- bución.
 
=
 
Funciones de
Probabilidad f(x)=(1/ ) exp(-x/ ) F(x)=1 - exp(-x/ )
 
Estimación
de Parámetros = x ( debe ser >0 )
 
Generación
de Valores x = - ln(u)
 
 
4. DISTRIBUCION GAMMA
 
Intervalo de x
x>=0
 
Parámetros
. >0
. >0
 
 
 
Si = Entero: Distribución Erlang
 
y = =
 
Funciones de
Probabilidad f(x) = - x -1 exp(-x/ ) / ( )
 
F(x)=(exp(-x)x / ( )) ( )xn/ ( +1+n)
 
siendo:
 
( ) = Función Gamma
 
= t -1 exp(-t) dt ( >0)
 
Esta función se aproxima mediante una expansión en serie.
 
Estimación
de Parámetros = x2 / s2 = x /
 
Generación
de Valores 0 < < 1
 
b = (e + )/e
 
1) Generar u1 P=bu1
Si P>0 ir a 3), en caso contrario ir a 2).
 
2) y=P1/ Generar u2
Si u2<=exp(-y): x'=y (fin)
caso contrario ir a 2).
 
3) y=-ln((b-P)/ ) Generar u2
Si u2<=y -1 x'=y (fin)
caso contrario ir a 1).
 
= 1
 
Coincide con la distribución Exponencial
 
> 1
 
1) Generar u1, u2
 
2) v = a ln(u1/(1 - u1) )
 
y= exp(v) z= (u1)2u2
w= b+qv-y
 
siendo:
a=(2 -1)-1/2 b= - ln(4)
q = + 1/ d=1+ln(4.5)
 
3) Si w+d-4.5z>=0
o si w>=ln(z): x'= y (fin)
en caso contrario ir a 1).
 
Para todos los casos
 
x = x'
 
 
5. DISTRIBUCION BETA
 
Intervalo de x
0 <= x <= 1
 
Parámetros
. > 0
. > 0
 
 
 
y = / ( + )
= /( + )2( + + 1)
 
Funciones de
Probabilidad f(x) = x -1 (1-x) -1 / B( , )
 
siendo:
B( , ) = función beta
 
= t -1(1-t) -1 dt
= ( ) ( ) / ( + )
 
No existe una expresión explícita de F(x). Se aproxima mediante una expansión en serie de la integral de f(x).
 
Estimación
de Parámetros = x (x - x2 - s2)/s2
 
= (1/x - 1)
 
Generación
de Valores x = xG1 / (xG1+xG2)
 
siendo:
xG1 = valor aleatorio de una distribución Gamma con parámetros y 1.
 
xG2 = valor aleatorio de una distribución Gamma con parámetros y 1.
6. DISTRIBUCION LOGNORMAL
 
Intervalo de x
0 < x <
 
Parámetros
. '
. ' ( >0 )
 
 
 
y = exp( '+ '2/2) = ' exp( '2)-1
 
Funciones de
Probabilidad f(x)=(1/x ' 2 ) exp(-.5((ln(x)- ')/ ')2)
 
No existe una expresión explícita de F(x). Se calcula un valor específico de ella, para un valor x dado, haciendo:
 
x' = ln(x)
F(x) = FNORMAL(x')
con parámetros ' y '.
 
Estimación
de Parámetros ' = .5 ln(x2/(s2/x2+1))
 
' = ln(s2/x2+1)
 
Generación
de Valores Se genera un valor x' normal con parámetros ' y ' y se hace:
 
x = exp(x')
 
 
7. DISTRIBUCION CHI2
 
Intervalo de x
0 <= x <
 
Parámetro
. k (Entero>0)
 
 
 
 
y = k = 2k
 
Funciones de
Probabilidad f(x)=x(k/2-1) exp(-x/2)/(2k/2 (k/2 - 1)!)
 
No existe una función explícita de F(x). Para su cálculo se considera la relación entre la distribución Chi2 y la Gamma:
FCHI(x) = FGAMMA(X/2)
con parámetros =k/2, =1
 
Estimación
de Parámetros k = redondeo a entero de x (k debe ser >0)
 
Generación
de Valores Se generan valores de una distribución Gamma con parámetros =k/2 y =1.
 
 
8. DISTRIBUCION "t"
 
Intervalo de x
- < x <
 
Parámetro
. k (Entero >0 )
 
 
 
 
y = 0 = k / (k-2) (k>2)
 
Funciones de
Probabilidad f(x)=((k-1)/2)!/
( k((k-2)/2)!(1+x2/k)((k+1)/2)
 
No existe una función F(x) explícita. Se considera la siguiente relación:
 
Ft(t) = 1-FBETA( k/(k+t2) )
=k/2, =1/2)
 
si t<0: Ft(t) = 1-Ft(t)
 
Para k>= la distribución se aproxima mediante la Normal, con parámetros =0, =1.
 
Estimación
de Parámetros k=redondeo a entero de (2s2/(s2-1))
( k deber ser >2 )
 
Generación
de Valores x = u/ (xCHI/k)
 
siendo xCHI un valor aleatorio de una distribución Chi2 con parámetro k.
 
Para k>= se generan dierctamente valores de una distribución normal con =0, =1.
 
9. DISTRIBUCION "F"
 
Intervalo de x
0 <= x <
 
Parámetros
. k1 (Entero >0)
. k2 (Entero >0)
 
 
 
y =k2/(k2-2) (k2>2)
 
=k2 2(k1+k2-2)/(k1(k2-2)2(k2-4)) ( k2>4 )
 
Funciones de
Probabilidad f(x)=((k1+k2-2)!/((k1-k2)/2)!((k1-2))!
(k1/k2)k1/2 x((k1-2)/2) (1+k1x/k2)(k1+k2)/2
 
No existe una función F(x) explícita. Se utiliza la relación:
 
FF(x) = 1 - FBETA( k2/(k2+k1x) )
=k2/2, =k1/2)
 
Estimación
de Parámetros
 
 
 
Generación
de Valores x = (x1/k1)/(x2/k2)
 
siendo x1 y x2 valores aleatorios de distribuciones Chi2, con parámetros k1 y k2, respectivamente.
 
 
10. NORMAL AUTOCORRELACIONADA
 
Intervalo de x
- < x <
 
Parámetros
.
. (>0)
. ( 0 < < 1)
 
y Coinciden con los parámetros
 
Funciones de
Probabilidad f(x) y F(x) Idem distribución normal
 
La ley de los coeficientes de autocorrelación es lineal decreciente:
 
Estimación
de Parámetros = x
= s
= r1 (Primer coeficiente de autocorrel.)
 
Generación
de Valores x = (y - 10)/1.291 +
 
siendo: y = ui
 
ui : valores aleatorios uniformes (0-1). Para cada valor x a generar se obtienen n-k valores ui nuevos y se usan los k últimos valores de la generación anterior.
k=Redond. a entero de (n )
 
 
11. DISTRIBUCION NORMAL BIDIMENSIONAL
 
Intervalo de x e y
- < x <
- < y <
 
Parámetros
. x, y
. x, y (>0)
. (-1 < < 1)
 
 
 
y Coinciden con los parámetros de la distribución. Considerando la distribución condicional de una de las variables, por ejemplo la X dado un valor específico y de la otra, las estadísticas son:
 
x/y = x+ ( x/ y)(y- y)
 
x/y = x 1 - 2
 
Funciones de
Probabilidad f(x,y)=
 
La función de densidad condicional, por ejemplo, de x dado y resulta:
 
f(x/y) =
 
No existe una función F(x,y) explícita. Para la función de probabilidad acumulada condicional se utiliza la función aproximante consignada para la distribución Normal unidimensional, utilizando como parámetros a x/y y x/y.
Estimación
de Parámetros x = x y = y
x = sx y = sy
= rxy
 
Generación
de Valores Los valores de y se generan mediante una distribución normal con parámetros y y y. El valor de x correspondiente a cada valor de y se genera mediante una distribución normal con parámetros x/y y x/y.
CUADRO 13.7 - DISTRIBUCIONES DISCRETAS
 
 
12. UNIFORME DISCRETA
 
Intervalo de x
a <= x <= b
 
Parámetros
. a (Entero)
. b (Entero > a)
 
 
 
y = (a + b)/2 = (b-a)(b-a+2)/12
 
Funciones de
Probabilidad p(x) = 1/(b-a+1)
 
F(x) =
 
Estimación
de Parámetros a = xMIN b = xMAX
 
siendo xMIN y xMAX los valores mínimo y máximo de los datos considerados, respectivamente.
 
Generación
de Valores x = Parte Entera de ( (b-a+1)u+a )
 
Para generar valores sin reposición, es decir, que cada valor posible entre a y b sea elegido una sola vez, se genera un vector con los b-a+1 valores posibles, del que se extraen valores al azar que son eliminados del vector.
 
 
13. BINOMIAL
 
Intervalo de x
0 <= x <= n
 
Parámetros
. n (Entero>0)
. p (0 < p < 1)
 
 
 
y = np = np(1-p)
 
Funciones de
Probabilidad p(x) = (n!/x!(n-x)!) px (1-p)n-x
 
F(x) = p(k)
 
Para np>5 (si p<=.5) o para n(1-p)>5 (si p>.5) la distribución se aproxima, en términos discretos, a la Normal. En consecuencia, resulta:
 
p(x) = FN(x+0.5) - FN(x-0.5)
 
correspondiendo FN() a una Normal con parámetros y dados por las expresiones anteriores.
 
Estimación
de Parámetros n = Redondeo a Entero de ( x2/(x-s2) )
(debe ser n>0)
 
p = x/n (debe ser p>0)
 
Generación
de Valores x = ki
 
donde ki = 1 , si ui<=p
= 0 , si ui> p
 
es decir que se generan n números aleatorios uniformes ui, resultando x la cantidad de ellos que son menores o iguales a p. Si se dan las condiciones de validez de la aproximación Normal se pueden generar directamente valores de esa distribución, redondeándolos al entero más próximo.
 
 
14. BINOMIAL NEGATIVA
 
Intervalo de x
0 <= x <
 
Parámetros
. r (Entero>0)
. p (0<p<1)
 
Para r=1 es la distribución Geométrica.
Considerando como variable x'= es la distribución Pascal.
 
y = r(1-p)/p = r(1-p)/p
 
Funciones de
Probabilidad p(x)=((x+r-1)!/x!(r-1)!) pr (1-p)x
 
F(x) = pr ((k+r-1)!/k!(r-1)!) (1-p)k
 
Estimación
de Parámetros r = Redondeo a Entero de ( x2/(s2-x))
(debe ser r>0)
 
p = x/s2 (debe se 0 < p < 1)
 
Generación
de Valores Se generan valores aleatorios uniformes ui necesarios para que se obtengan r valores tales que ui<=p y el valor de x es el número de veces en que ui>p .
 
 
15. POISSON
 
Intervalo de x
0 <= x <
 
Parámetro
. (>0)
 
 
 
 
y coincide con el parámetro de la distri- bución
 
 
 
Funciones de
Probabilidad p(x) = exp(- ) x/x!
 
F(x) = exp(- ) k/k!
 
Para >=10 se aplica una aproximación Normal, en términos discretos. En ese caso p(x) resulta:
 
p(x) = FN(x+0.5) - FN(x-0.5)
 
donde FN() corresponde a una distribución Normal con los parámteros y anteriores.
 
Estimación
de Parámetros = x
 
Generación
de Valores Se obtiene un valor aleatorio x generando valores aleatorios uniformes ui hasta que su producto supere el valor exp(- ). Es decir, hasta que se cumpla la condición:
u1u2..ui..ux>=
exp(- )>u1u2..ui..ux+1
 
El valor resultante x es el número de valores ui generados menos 1.
 
Cuando se dan las condiciones para ello, se generan valores mediante la aproximación normal.
 
 
 
CAPITULO 14
 
PRUEBAS ESTADISTICAS
EN EL SISTEMA ESTAD
 
 
 
El sistema ESTAD incluye la posibilidad de ejecutar las pruebas estadísticas más usuales, tanto de tipo paramétrico como no paramétrico. La realización de alguna de estas pruebas, que se describen en las secciones siguientes del capítulo, requiere seleccionar en primer lugar el tipo de prueba dentro del que se agrupa, mediante el menú inicial de la opción:
 
 
PROCESOS
 
1 - Pruebas Paramétricas
2 - Pruebas no Paramétricas
3 - Manejo de Datos
 
 
En el menú se incluye la opción de Manejo de Datos, a la que se puede acceder sin salir del tema Pruebas estadísticas.
 
 
14.1 PRUEBAS PARAMETRICAS
 
El sistema ESTAD incluye las siguientes pruebas de tipo paramétrico:
 
- Una Variable
 
Sobre el Valor Esperado y sobre el Desvío Estándar .
 
- Dos Variables Independientes
 
Sobre la diferencia - entre Valores Esperados y sobre el cociente / entre Desvíos Estándar.
 
- Dos variables Relacionadas
 
Sobre la diferencia - entre Valores Esperados y sobre el coeficiente de correlación
 
Para cada uno de estos casos el sistema permite también el cálculo de los correspondientes intervalos de confianza.
 
 
 
 
 
 
 
En el Cuadro 14.1 se resumen los criterios de cálculo utilizados por el sistema en las diversas pruebas enunciadas. Los elementos consignados en el Cuadro, para cada prueba, son:
 
- Hipótesis Básica involucrada
 
- Estadística de prueba para verificar la hipótesis básica.
 
- Para cada posible hipótesis alternativa:
. Región de Rechazo
. Expresión de cálculo del nivel de significación para el rechazo de la prueba
. Expresión de cálculo del riesgo para una dada hipótesis alternativa
 
- Expresión de cálculo del intervalo de confianza del parámetro (o relación de parámetros) involucrado en la prueba.
 
El sistema permite ejecutar las pruebas enunciadas tanto sobre datos experimentales contenidos en la memoria de trabajo como a partir directamente de estadísticas descriptivas ingresadas especificamente para la prueba.
 
La realización de una prueba paramétrica mediante el sistema requiere ejecutar los siguientes pasos, una vez elegida la opción correspondiente en el menú inicial del tema Pruebas Estadísticas:
 
a) Selección de la prueba específica a ejecutar, del siguiente menú:
 
 
TIPO DE PRUEBA
 
Una Variable
1 - Mu
2 - Sigma
 
Dos variables Independientes
3 - Mu1 - Mu2
4 - Sigma1/Sigma2
 
Dos variables Relacionadas
5 - Mu1 - Mu2
6 - Coef.Correlación Ro
 
 
b) Interrogación sobre si se desea efectuar el ingreso directo de las estadísticas a considerar en la prueba seleccionada. En caso de respuesta afirmativa no se utilizan los datos contenidos en la memoria de trabajo, ingresándose los siguientes valores, según la prueba:
 
- Una Variable
. Número de observaciones, Valor medio y Desvío Estándar
- Dos variables independientes
. Para cada variable: Número de observaciones, Valor Medio y Desvío Estándar
 
- Dos Variables relacionadas
. Número de observaciones, Para cada variable: Valor Medio y Desvío Estándar, Coeficiente de correlación
 
Si se había ejecutado una prueba previa el computador interroga sobre si se definen nuevas variables o estadísitcas para la nueva prueba, o se utilizan las existentes.
 
c) En el caso de que no se opte por el ingreso directo de las estadísticas a usar en la prueba se definen las variables de la memoria de trabajo a considerar (según procedimiento descripto en ), pudiendo involucrar datos de tipo agrupado. Para la prueba sobre una variable, o sobre dos variables relacionadas, se deben definir una o dos variables de la memoria de trabajo, respectivamente.
 
En el caso de la prueba sobre dos variables independientes existen dos posibilidades de definición de las variables a considerar en la prueba:
 
. Las dos muestras se encuentran en la misma variable: deben definirse dos variables, la primera corresponde a la variable cuyos valores permiten establecer las dos muestras y la segunda contiene los datos a considerar en la prueba. En este caso resulta necesario ingresar los valores mínimo y máximo de la primera variable que caracterizan las dos muestras.
 
. Las dos muestras se encuentran en variables distintas: en este caso se definen directamente dos variables, una para cada una de las muestras a considerar.
 
Un caso u otro se estblece respondiendo a la interrogación sobre si las muestras se encuentran en variables distintas.
 
Una vez definidas las variables a considerar de la memoria de trabajo, el computador calcula con los datos correspondientes las estadísticas descriptivas requeridas en la prueba seleccionada.
 
d) Si se eligió la prueba sobre la diferencia entre valores esperados de dos variables independientes se interroga acerca de si se considera o no que las variancias correspondientes son iguales
 
e) Se interroga acerca de si se desea obtener el intervalo de confianza del parámetro (o relación entre parámetros) considerado por la prueba. En caso de respuesta afirmativa se ingresa el valor a adoptar del nivel de significación (en %) y se pasa a i).
f) Presentación en pantalla de las estadísticas descriptivas correspondientes a los datos definidos e ingreso de las hipótesis básica y alternativa a considerar en la prueba. La primera se establece directamente ingresando el valor numérico de referencia k para la estadística ( o relación entre estadísticas) correspondiente.
 
A su vez, la hipótesis alternativa se elige de un menú donde se presentan las tres variantes posibles:
 
 
HIPOTESIS ALTERNATIVAS
 
1 - (Estadística) < k
2 - (Estadística) > k
3 - (Estadística) <> k
 
 
g) El computador ejecuta el proceso y presenta en pantalla los siguientes resultados:
 
- Prueba efectuada
- Estadísticas descriptivas consideradas en la prueba
- Hipótesis básica y alternativa
- Valor de la estadística de prueba
- Nivel de significación resultante.
 
h) De manera optativa se pueden calcular los riesgos para diferentes hipótesis alternativas, ingresando los correspondientes valores de referencia. El computador efectúa su cálculo y presenta en pantalla los valores resultantes.
 
i) Si se eligió efectuar el cálculo del intervalo de confianza el computador efectua el proceso respectivo y presenta en pantalla los resultados obtenidos. Este cálculo se puede realizar también al final del de , respondiendo afirmativamente a la interrogación correspondiente.
 
 
Como ejemplos del proceso descripto se llevan a cabo dos pruebas definidas sobre el juego de datos referidos a nacimientos en la ciudad de Buenos Aires (NATIVBA), cargados previamente en la memoria de trabajo.
 
En la primera prueba se verifica si existen diferencias significativas en los tiempos de gestación entre las madres que trabajan o no (caso de variables independientes), sin considerar necesariamente igualdad de variancias entre ambos. Los resultados se muestran en el Cuadro 14.2 a), siendo los cálculos principales efectuados los siguientes:
 
A = 3.12372/177+2.86752/49 = 0.2229
 
t = (39.096-38.837)/ A = 0.549
Parámetro de t:
 
k = A2/((3.12372/177)2/176+(2.86752/49)2/48)
= 82
 
= 100*2*(1 - FStud(0.549)) = 58.99%
 
para d1 = 0.1:
 
= 0.1/ A
= 100*(FStud(0.337) - FStud(-0.761)) = 40.7%
 
Intervalo de Confianza:
 
(39.096-38.837)-1.95 A<= - <=(39.096-38.837)+1.95 A
 
-0.6615<= - <=1.1802
 
 
El segundo ejemplo implica la verificación acerca de si las edades de los padres son o no significativamente más altas que las de las madres (caso de variables relacionadas). En esta prueba, aunque puede efectuarse a partir de los datos contenidos en la memoria de trabajo se ha preferido, como ejemplo, ingresar directamente los valores de las estadísticas correspondientes, que fueron calculadas en el ejemplo de la aplicación vista en la sección 12.1 . Los rsultados se uestran en el Cuadro 14.2 b) siendo los cálculos principales realizados los siguientes:
 
s = 11.3032+5.9232-2*0.553*11.303*5.923 = 9.423
 
t = (28.635-27.278)*( 230 /9.423) = 2.184
 
Parámetro de la distribución t:
 
k = 230 - 1 = 229
 
= 100*(1-FStud(2.184)) = 1.42%
CUADRO 14.1 - PRUEBAS PARAMETRICAS
 
 
NOMENCLATURA
 
 
Constantes
 
FT(x) Función de Probabilidad acumulada de una distribución "t".
 
FCHI(x) Idem, distribución Chi2.
 
FF(x) Idem, distribución "F".
 
tP Valor de la variable t tal que FT(tP)=p.
 
xP Idem, tal que FCHI(xP)=p.
 
xF.P Idem, tal que FF(xF.P)=p.
 
 
1. PRUEBA SOBRE EL VALOR ESPERADO DE UNA VARIABLE
 
 
Hipótesis
Básica =
 
Estadística
de Prueba t = (x - 0) n / s
 
Para muestras de tamaño n de una población normal con parámetro 0 la estadística t sigue una distribución "t" con parámtetro k = n-1.
 
Hipótesis
Alternativa > < =
 
Región de
rechazo
 
 
 
 
 
1-FT(t) FT(t) 2(1-FT( t ))
 
 
(para = 1) FT(t- ) 1-FT(t- ) FT(t- )-FT(-t- )
 
=( 1- 0) n/s
 
 
Intervalo
de Confianza x - t /2 s/ n <= <= x + t1- /2 s/ n
 
2. PRUEBA SOBRE EL DESVIO ESTANDAR DE UNA VARIABLE
 
 
Hipótesis
Básica =
 
Estadística
de Prueba x = (n-1) (s/ 0)2
 
Para muestras de tamaño de una población Normal con parámetro 0 la estadística x sigue una distribución "Chi", con parámetro k = n-1.
 
Hipótesis
Alternativa > < =
 
Región de
Rechazo
 
 
 
 
 
1-FCHI(x) FCHI(x) FCHI(xa) +
(1-FCHI(xb) )
xb=x
xa= valor para el que
FCHI(xa)=1-FCHI(x)
 
 
(para = 1) FCHI(x/ ) 1-FCHI(x/ ) FCHI(xb/ ) -
FCHI(xa/ )
 
= ( 1/ 0)2
 
 
Intervalo
de Confianza s (n-1)/x1- /2 <= <= s (n-1)/x /2
 
 
3. PRUEBA SOBRE LOS VALORES ESPERADOS x Y y DE DOS VARIABLES INDEPENDIENTES X E Y
 
 
Hipótesis
Básica - =d0
 
Estadística
de Prueba a) Si se considera que las variancias de ambas variables son iguales ( = ):
 
t=( xx-xy - d0) / ( s (1/nx+1/ny)
 
siendo:
 
s = (nx-1)sx2 + (ny-1)sy2)
nx+ny-2
 
Para muestras de tamaños nx y ny de variables normales independientes que cumplen la hipótesis básica la estadística t sigue una distribución "t" con parámetro k=nx+ny-2.
 
b) Si no se considera la igualdad de variancias:
 
t=(xx-xy-d0)/ (sx2/nx+sy2/ny)
 
Si las variables son normales independintes y cumplen la hipótesis básica la estadística t sigue aproximadamente una distribución "t" con parámetro k:
 
k = (s12/n1+s22/n2)2
x/nx)2/(nx-1)2 +
(sy/ny)2/(ny-1)2
 
(Redondeado a Entero)
 
Hipótesis
Alternativas >d0 <d0 =d0
 
Región
de Rechazo Idem a Prueba 1.
 
Idem a Prueba 1.
 
 
(para Idem a Prueba 1, con:
=d1)
a) = (d1-d0)/(s 1/nx+1/ny)
 
b) = (d1-d0)/ (sx2/nx+sy2/ny)
 
 
Intervalo
de Confianza a) (xx-xy)-t /2 s (1/nx+1/ny) <=
- <= (xx-xy)+t1- /2s (1/nx+1/ny)
 
b) (xx-xy)-t /2s (sx2/nx+sy2/ny)<=
- <=(xx-xy)-t1- /2s (sx2/nx+sy2/ny)
 
 
3. PRUEBA SOBRE LOS DESVIOS ESTANDAR x Y y DE DOS VARIABLES INDEPENDIENTES X E Y
 
 
Hipótesis
Básica = k0
 
Estadística
de Prueba xF = 1/k02 (sx/sy)2
 
Si las muestras de tamaño nx y ny responden a distribuciones normales que cumplen la hipótesis básica la estadística xF sigue una distribución "F" con parámetros k1=nx-1 y k2=ny-1.
 
Hipótesis
Alternativas >k0 <k0 =k0
 
Región de
Rechazo
 
 
 
 
 
1-FF(xF)) FF(xF) FF(xb)+(1-FF(xa)
xb=xF
xa=valor para el que
FF(xa)=1-FF(xF)
 
(para FF(xF/ ) 1-FF(xF/ ) FF(xb/ )
/ k1) -FF(xa/ )
 
 
Intervalo
de Confianza (sx/sy)/ xF.1- /2 <= /
<=(sx/sy)/ xF. /2
 
 
5. PRUEBA SOBRE LOS VALORES ESPERADOS Y DE DOS VARIABLES RELACIONADAS X E Y
 
 
Hipótesis
Básica - = d0
 
Estadística
de Prueba t = ( xx-xy-d0) n / s
 
siendo: s= sx2+sy2-2rsxsy
 
Si las muestras de tamaño n siguen una distribución normal bidimensional que cumple la hipótesis básica la estadística t corresponde a una distribución "t" con parámetro k=n-1.
 
Hipótesis
Alternativas Idem a Prueba 3
 
Región de
Rechazo Idem a Prueba 3
 
Idem a Prueba 3
 
Idem a Prueba 3, siendo:
 
= (d1-d0) n / s
 
 
Intervalo
de Confianza (xx-xy)-t /2 s/ n <= - <=
(xx-xy)+t1- /2 s/ n
 
 
6. PRUEBA SOBRE EL COEFICIENTE DE CORRELACION DE DOS VARIABLES RELACIONADAS X E Y
 
 
Hipótesis
Básica = 0
 
Estadística
de Prueba t = r (n-2)/(1-r2)
 
Para muestras de dos variables que responden a una distribución Normal bidimensional y que cumplen la hipótesis básica la estadística t sigue una distribución "t" con parámetro k=n-2.
 
Hipótesis
Alternativas >0 <0 =0
 
Región de
Rechazo
 
 
 
 
 
1-FT(t) FT(t) 2(1 - FT( t ) )
 
 
Intervalo
de Confianza - 1/(n-2)/t1- /22+1) <= <=
 
1/(n-2)/t1- /22+1)
 
 
14.2 PRUEBAS NO PARAMETRICAS
 
La pruebas no paramétricas incluidas en el sistema ESTAD son las siguientes:
 
- Una variable
 
Pruebas Chi2, Wilcoxon y Kolmogorov-Smirnov.
 
- Dos Variables independientes
 
Pruebas de Mann-Whitney y de Kolmogorov-Smirnov.
 
- Dos Variables relacionadas
 
Pruebas de Wilcoxon y de Correlación de Spearman.
 
 
En el Cuadro 14.3 se resumen los procedimiento de cálculo utilizados por el sistema para las pruebas enunciadas. Los elementos incluidos en el Cuadro, para cada prueba, son:
 
- Hipótesis Básica y Alternativa
- Procedimiento de cálculo de la estadística de prueba, en cada caso.
- Expresión de cálculo del nivel de significación .
 
La ejecución de las pruebas no paramétricas incluidas en el sistema involucra llevar a cabo los siguientes pasos, una vez elegida la opción correspondiente en el menú de Pruebas Estadísticas:
 
a) Selección de la prueba no paramétrica específica a ejecutar, del siguiente menú:
 
 
TIPO DE PRUEBA
 
Una Variable
1 - Chi2
2 - Wilcoxon (1)
3 - Kolmogorov-Smirnov (1)
 
Dos Variables Independientes
4 - Mann-Whitney
5 - Kolmogorov-Smirnov (2)
 
Dos Variables Relacionadas
6 - Wilcoxon (2)
7 - Correlac. de Spearman
 
 
b) Selección de las variables de la memoria de trabajo a considerar en la prueba. Esta selección se realiza de manera similar a la descripta para las pruebas paramétricas, según que intervengan variables independientes o relacionadas (paso c) de la sección 5.4.2). En el caso se las pruebas no paramétricas no se tienen en cuenta datos de tipo agrupado.
 
c) Ejecución por el computador de la prueba seleccionada y presentación en pantalla de los resultados correspondientes:
 
- Variables involucradas
- Número de observaciones de cada variable
- Estadísticas descriptivas de cada variable
- Valor de la estadística de prueba
- Nivel de significación de la prueba
- Mensaje en el caso de que el número de observaciones de las variables sea menor a los límites establecidos en cada prueba, indicando el carácter aproximado del nivel de significación obtenido.
 
 
Se consideran seguidamente dos ejemplos de ejecución del proceso descripto, que involucran el juego de datos de nacimientos (NATIVBA), cargado previamente en la memoria de trabajo. En el primer ejemplo, cuyos resultados se incluyen en el Cuadro 14.4 a), se evalúa mediante la prueba de Mann-Whitney si existe diferencia en el nivel de instrucción de la madre (variable de tipo ordinal) según el tipo de hospital utilizado. Los cálculos efectuados son:
 
Rangos de las dos muestras:
 
Muestra 1 Muestra 2
Obs. Valor Rango Obs. Valor Rango
Nro. exper. Nro. exper.
---------------------- ------------------------
1 3 73 1 0 1
2 4 140.5 2 5 181.5
3 3 73 3 5 181.5
4 2 11.5 4 5 181.5
........................ ........................
....................... ........................
137 3 73 87 5 181.5
138 3 73 88 7 223.5
139 4 140.5 89 6 212.5
140 3 73 90 4 140.5
------------------------ ------------------------
 
Suma de Rangos:
T1 = 12324
 
Estadística de prueba:
 
U1 = 140*90+140*(140+1)/2-12324 = 10146
U2 = 140*9-10146 = 2454
U = mínimo (U1,U2) = 2454
 
Nivel de significación :
 
Parámetros de la aproximación normal
 
= 140*90/2 = 6300
 
= 140*90*(140+90+1)/12 = 492.5
 
FN(6300) = 1
 
= 100*2(1 - 1) = 0
 
En el segundo ejemplo se analiza la relación entre el nivel de instrucción de la madre y el del padre, ambas variables de tipo ordinal, mediante la prueba de Wilcoxon. Los resultados del proceso se muestran en el Cuadro 14.4 b), siendo los cálculos correspondientes los siguientes:
 
Rangos de las diferencias
 
Nro.Difer. Diferencia Rango de Dif
----------------------------------------
1 -3 97.5
2 -1 26.5
3 -2 71
4 2 71
...................................
...................................
105 -2 71
106 2 71
107 -1 26.5
108 2 71
-----------------------------------------
 
Nro. de observaciones con diferencia distinta de 0 = 108
 
Estadística de Prueba
SP = 3839.5
SN = 2046.5
S = mínimo (SP,SN) = 2046.5
 
Nivel de significación
 
Parámetros de la aproximación normal
 
= 108*(108+1)/4 = 2943
= 108*109*(2*108+1)/24 = 326.25
 
FN(2046.5) = .9985
 
= 100*2*(1-.9985) = 0.3%
CUADRO 14.3 - PRUEBAS NO PARAMETRICAS
 
 
1. PRUEBA DE CHI2 SOBRE UNA VARIABLE
 
 
Hipótesis
Básica La variable responde a una dada población especificada.
 
Hipótesis
Alternativa La variable no responde a la población especificada.
 
Estadística
de Prueba Se obtiene una estadística de prueba x2 en función de las frecuencias de una muestra de observaciones de la variable y las frecuencias que se considera corresponden a la población establecida, para un conjunto de m grupos de clasificación:
 
x2 = (fg - fg')2/fg'
 
siendo:
 
fg frecuencia de observaciones de el grupo g para la muestra de observaciones.
 
fg' Idem, para la población.
 
Cálculo
de La estadística x2 para muestras de tamaño n que responden a la hipótesis básica sigue una distribución Chi2 con parámetro k = m-1. En consecuencia resulta:
 
= 1 - FCHI(x2)
 
Una condición a satisfacer es que las frecuencias esperadas no sean demasiado pequeñas (no deberían ser menores a 5 en más del 20% de los grupos).
 
 
2. PRUEBA DE WILCOXON SOBRE UNA VARIABLE
 
 
Hipótesis
Básica Mediana = m0
 
Hipótesis
Alternativas a) Mediana m0
b) m0
c) = m0
Estadística
de Prueba La estadística de prueba S se calcula mediante el siguiente procedimiento:
 
a) Determinación de la diferencia di entre el valor xi y d0 en cada observación de la muestra considerada:
 
di = xi - m0
 
b) Se obtienen los rangos pi de los valores absolutos de las diferencias di distintas de cero.
 
c) Se suman por separado los rangos correspondientes a las diferencias positivas pi+ y negativas pi-:
 
SP = nd pi+
 
SN = nd pi- nd=Nro. Difs. positivas o negativas=0
 
d) La estadística de prueba S resulta:
 
Hipótesis Alt. S
a) SN
b) SP
c) Minimo de (SN,SP)
 
Cálculo
de Para muestras de una variable que cumple la hipótesis básica la estadística de prueba S sigue una distribución Normal, con parámetros:
 
= nd(nd+1)/4
 
= nd(nd+1)(2nd+1)/24
 
Hipótesis alternativas a) y b):
 
Si FN(S)>0.5: = 1 - FN(S)
Si FN(S)<=0.5: = FN(S)
 
Hipótesis alternativa c):
 
= 2 * Valor anterior de
 
La distribución Normal de la estadística de prueba es aproximada para nd 25.
3. PRUEBA DE KOLMOGOROV-SMIRNOV SOBRE UNA VARIABLE
 
 
Hipótesis
Básica La variable responde a una dada distribución teórica especificada.
 
Hipótesis
Alternativa La opuesta
 
Estadística
de Prueba La estadística de Prueba d se obtiene como la máxima diferencia entre la función de probabilidad acumulada F(x) empírica para la muestra considerada (ver sección 4.1) y la F(x) de la distribución teórica planteada:
 
 
d=Valor máximo de F(x)EXP-F(x)TEOR
 
 
 
 
 
 
Cálculo
de Para muestras de una variable que cumple la hipótesis básica planteada la probabilidad de que la diferencia máxima entre ambas funciones supere al valor de la estadística de prueba d resulta:
 
= Q( n d)
 
siendo Q() la siguiente función:
 
Q(a) = (-1)j-1 exp(-2j2a2)
 
El valor de obtenido resulta una aproximación conservadora para n<20. También ocurre ello cuando los parámetros de la distribución teórica se estiman a partir de la muestra, asi como cuando dicha distribución es de tipo discreto.
 
 
4. PRUEBA DE MANN-WHITNEY SOBRE DOS VARIABLES INDEPENDIENTES
X e Y
 
 
Hipótesis
Básica Las dos variables corresponden a una misma distribución
 
Hipótesis
Alternativas a) Distrib(X) > Distrib(Y)
b) Distrib(X) < Distrib(Y)
c) Distrib(X) = Distrib(Y)
Estadística
de Prueba La estadística de prueba U se calcula mediante el siguiente procedimiento:
 
a) Determinación del rango correspondiente a cada observación de la variable X y de la Y, consideradas en conjunto.
 
b) Cálculo de la estadística U para cada variable, mediante las expresiones:
 
Ux=nxny + nx(nx+1)/2 - Tx
 
Uy = nxny - Ux
 
siendo:
 
Tx: Suma de los rangos para las observaciones de la variable X.
 
c) La estadística de prueba resulta:
 
Hipótesis Alt. U
a) Ux
b) Uy
c) Minimo de (Ux,Uy)
 
Cálculo
de Para muestras de variables que cumplen la hipótesis básica la estadística U sigue una distribución Normal, con los siguientes parámetros:
 
= nxny/2
 
= ( nxny/n(n-1) )((n3-n)/12 - T)
 
siendo T = (t3-t)/12
 
t: nro. de observaciones empatadas para un dado rango (ver sección ).
 
n=nx+ny
 
Hipótesis a) y b)
 
Si FN(U)>=0.5: = 1-FN(U)
Si FN(U)<0.5: = FN(U)
 
Hipótesis c)
 
= 2 * para las alternativas anteriores
 
La distribución Normal de U es aproximada para nx y ny <=10.
5. PRUEBA DE KOLMOGOROV-SMIRNOV SOBRE DOS VARIABLES INDEPENDIENTES X E Y
 
 
Hipótesis
Básica Distribución Variable X = Distribución Variable Y
 
Hipótesis
Alternativa La opuesta
 
Estadística
de Prueba La estadística de Prueba d se obtiene como la máxima diferencia entre la función de probabilidad acumulada F(x) empírica para la variable X y la equivalente para la variable Y (ver sección 4.1):
 
 
d=Valor máximo de F(x)-F(y)
 
 
 
 
Cálculo
de Para muestras de variables que cumplen la hipótesis planteada la probabilidad de que la diferencia máxima entre ambas funciones supere al valor de la estadística de prueba d resulta:
 
= Q( nxny / (nx+ny) d )
 
siendo Q() la función definida para la prueba similar sobre una variable.
 
El valor obtenido de resulta una aproximación para nx o ny<20.
 
 
6. PRUEBA DE WILCOXON SOBRE DOS VARIABLES RELACIONADAS X E Y
 
 
Hipótesis
Básica Distribución Variable X = Distribución Variable Y
 
Hipótesis
Alternativas a) Distrib(X) > Distrib(Y)
b) Distrib(X) < Distrib(Y)
c) Distrib(X) = Distrib(Y)
 
Estadística
de Prueba La estadística de prueba S se calcula mediante el siguiente procedimiento:
 
a) Determinación para cada observación de la diferencia di entre los valores xi e yi de las dos variables:
 
di = xi - yi
b) Se obtienen los rangos pi de los valores absolutos de las diferencias di distintas de cero.
 
c) Se suman por separado los rangos correspondientes a las diferencias positivas pi+ y negativas pi-:
 
SP = nd pi+
 
SN = nd pi- ,nd=Nro. Diferenc.
posit. o negat.=0
 
d) La estadística de prueba S resulta:
 
Hipótesis Alt. S
a) SN
b) SP
c) Minimo de (SN,SP)
 
Cálculo
de Para muestras de variables que cumplen la hipótesis básica la estadística de prueba S sigue una distribución Normal, con parámetros:
 
= nd(nd+1)/4
 
= nd(nd+1)(2nd+1)/24
 
Hipótesis a) y b):
 
Si FN(S)>0.5: = 1 - FN(S)
Si FN(S)<=0.5: = FN(S)
 
Hipótesis c)
 
= 2 * para hipótesis anteriores
 
La distribución normal de la estadística de prueba es aproximada para nd<25.
 
 
7. PRUEBA SOBRE EL COEFICIENTE DE CORRELACION DE SPEARMAN DE DOS VARIABLES RELACIONADAS
 
 
Hipótesis
Básica S = 0
 
siendo S el coeficiente de correlación de Spearman, con una interpretación similar al coeficiente de correlación pero calculado ahora sobre los rangos de las dos variables, en lugar de los valores originales.
 
Hipótesis
Alternativas a) S > 0
b) S < 0
c) S = 0
 
Estadística
de Prueba La estadística de Prueba t se calcula mediante el siguiente procedimiento:
 
a) Determinación de los rangos de las observaciones de las variables X e Y, en forma separada.
 
b) Cálculo del coeficiente de correlación de Spearman rS para la muestra, considerando los rangos anteriores:
 
rS=sx'y'/sx'sy'
 
donde x' e y' indican los rangos de las variables involucradas.
 
rS=(Kx+Ky- (xi'-yi')/(2 KxKy)
 
Kx = n(n2-1)/12 - (tx3-tx)/12
 
Ky = n(n2-1)/12 - (ty3-ty)/12
 
c) La estadística de prueba t se obtiene mediante:
 
t = rS (n-2)/(1-rS2)
 
Cálculo
de Para muestras de variables que cumplen la hipótesis básica la estadística t sigue una distribución "t" con parámetro k=n-2. Esta distribución es aproximada para muestras con n<10.
 
El nivel de significación se obtiene de manera similar a la prueba sobre el coeficiente de correlación (ver Cuadro 14.1).
 
14.3 DETERMINACION DE TAMANOS DE MUESTRA
 
El sistema ESTAD incluye la posibilidad de determinar el tamaño de la muestra necesaria para obtener una precisión definida en la estimación de una dada estadística de una cierta población. De manera complementaria, el sistema ofrece la posibilidad de establecer la precisión esperable de una muestra de tamaño conocido.
 
Las estadísticas cuya estimación contempla el sistema son el valor esparado de una dada variable y la fracción de observaciones de la población en las que una dada variable prsenta una característica determinada. Los criterios específicos de cálculo considerados en el sistema para efectuar el proceso en estos dos casos se indican en el Cuadro 14.5.
 
La ejecución del proceso requiere llevar a cabo los siguientes pasos, una vez elegida la opción correspondiente en el Menú inicial del tema Pruebas Estadísticas:
 
a) Definición la estadística involucrada en el muestreo, mediante su elección en el siguiente menú:
 
 
DETERMINACION DE
 
1 - Valor Esperado de una variable
2 - Fracción respecto al total de Observaciones
 
 
b) Ingreso de los siguientes datos para el proceso:
 
- Nivel de Significación Alfa a utilizar en los cálculos.
 
- Tamaño de la población de la cual se extraerá la muestra en consideración.
 
- Desvío Estandar estimado para la población, en el caso de estimación de su valor esperado.
 
- Fracción prevista para la población, en el caso de que la muestra en consideración involucre su estimación.
 
- Tolerancia admisible en más o en menos para el valor esperado o para la fracción, según el caso. Si no se ingresa ningún valor para este dato el sistema asume que se desea calcularlo.
 
- Tamaño de Muestra, cuyo valor es requerido por el sistema en caso de que no se ingrese el valor deseado de tolerancia.
 
c) El computador efectúa el cálculo del tamaño de muestra o de la tolerancia resultante, mostrando a su finalización en pantalla los siguientes resultados:
 
- Datos ingresados para el cálculo.
 
- Tolerancia y Tamaño de Muestra resultantes.
 
 
Como ejemplo del proceso descrito se realiza el cálculo del tamaño de muestra necesario para estimar la fracción de ...., mostrándose los resultados obtenidos en el Cuadro 14.6 . Los datos utilizados para ello son los siguientes:
 
. Nivel de Significación Alfa = 5 %
. Tamaño de la población = Infinito
. Valor estimado de la Fracción = 0.25
. Tolerancia admisible en el valor de la proporción = 0.05
 
Los cálculos efectuados son:
CUADRO 14.5 - DETERMINACION DE TAMAÑOS DE MUESTRA
 
 
NOMENCLATURA
 
N Número de Observaciones (individuos) en la Población.
 
n Idem, en la Muestra.
 
Nivel de Significación del muestreo.
 
t Valor de la variable t para el cual se cumple:
Ft(t) = 1 - /2
 
 
s Valor supuesto del desvío estándar de la población.
 
p Valor supuesto de la fracción de observaciones de la población que cumplen una determinada condición.
 
d Tolerancia en más o en menos admitida en la estimación mediante una muestra de una dada estadística de la población.
 
 
1. ESTIMACION DEL VALOR ESPERADO DE UNA VARIABLE
 
a) Tamaño de Muestra para una Tolerancia especificada d entre el valor medio x obtenido de la muestra y el Valor esperado de la población:
 
n = (ts/d)2 / ( 1 + (ts/d)2/N )
 
b) Tolerancia d en el Valor Esperado resultante de una muestra de tamaño n:
 
d = ts ( 1 - n/N )/n
 
 
2. ESTIMACION DE UNA FRACCION
 
a) Tamaño de Muestra para una tolerancia especificada d entre la fracción p de observaciones (individuos) de la muestra que cumplen una determinada condición y la equivalente P de la población:
 
n = (t/d)2 p(1-p) / ( 1 + ( (t/d)2p(1-p) - 1 )/N )
 
b) Tolerancia d resultante en la fracción resultante de una muestra de tamaño n:
 
d = t (N-n)p(1-p) / ((N-1)n)
 
 
CAPITULO 15
 
ANALISIS DE VARIANCIA
EN EL SISTEMA ESTAD
 
 
 
El sistema ESTAD incluye la posibilidad de ejecutar procesos de Análisis de Variancia, con las siguientes características:
 
 
- Un factor, con una cantidad igual o desigual de observaciones para cada uno de los grupos definidos por los valores específicos del factor.
 
- Dos factores, con una cantidad mayor o igual a 1 de observaciones en cada grupo definido por los valores específicos de los factores. Dicha cantidad puede ser desigual en cada grupo, siempre y cuando la variación en la cantidad de observaciones no sea elevada y pueda considerarse aleatoria (no asociada de alguna manera a los valores de los factores).
 
 
No se consideran en el sistema las variantes de análisis de covariancia y los casos no paramétricos. Estos últimos pueden realizarse de manera indirecta, en algunos casos, mediante transformaciones previas de los datos a sus valores de rango.
 
En el Cuadro 15.1 se resumen los procedimientos de cálculo utilizados por el sistema para ejecutar procesos de Análisis de Variancia. Como se aprecia en el Cuadro, el sistema admite en los casos de dos factores la posibilidad de considerar modelos de tipo aditivo o multiplicativo con respecto a los factores.
 
La ejecución de un proceso de Análisis de Variancia se lleva a cabo mediante el siguiente menú, que aparece al seleccionar el tema en el menú principal del sistema:
 
 
PROCESOS
 
1 - Análisis de variancia
2 - Manejo de Datos
 
 
Se aprecia en el menú anterior que es posible llamar a la opción de Manejo de Datos sin tener que volver al menú principal del sistema.
 
La ejecución de un Análisis de Variancia requiere realizar los siguientes pasos, una vez seleccionado en el menú inicial del tema:
 
 
 
 
a) Se define el modelo específico a considerar (uno o dos factores y multiplicativo o aditivo, en este segundao caso), mediante el siguiente menú:
 
MODELOS
 
1 - Y = Mu + Alfa(X1)
2 - Y = Mu + Alfa(X1) + Beta(X2)
3 - Y = Mu + Alfa(X1) + Beta(X2) + Gama(X1,X2)
 
 
Los modelos 1 y 2 son aditivos con respecto a los factores. En cambio, el modelo 3 incluye un término que permite evaluar los efectos sobre la variable respuesta producidos por la interrelación de los factores.
 
b) Selección de las variables a considerar en el proceso, de las existentes en la memoria de trabajo, siguiendo el procedimiento descripto en . Se ingresan en primer lugar los factores (hasta 2) y, por último, la variable dependiente o respuesta para la cual se realiza el análisis. El proceso de Análisis de Variancia admite la consideración de datos de tipo agrupado.
 
c) Para cada una de las variables definidas como factores en el paso anterior, se ingresan los valores que permiten definir los diferentes grupos de observaciones. Este ingreso se realiza de manera similar al descripto en el proceso de clasificación ( paso b) de la sección ).
 
d) Ejecución por el computador del proceso sobre el juego de datos definido y presentación en pantalla de los siguientes resultados:
 
- Valor medio general de la variable dependiente.
 
- Para cada grupo en que se clasifican los valores de la variable dependiente:
 
. Número de observaciones
. Efectos diferenciales sobre la media general debidos a cada factor.
. En el caso de dos factores y un modelo de tipo multiplicativo el efecto diferencial sobre la media general, para cada combinación específica de los dos factores involucrados.
 
- Tabla resumen de la verificación del grado de significación de los efectos de cada factor sobre los valores de la variable dependiente. En la tabla se incluyen, para cada factor individual y para la interrelación, en el caso multiplicativo, los siguientes elementos:
 
. Suma de desvíos cuadraticos
. Grados de libertad
. Desvíos cuadráticos medios
. Estadística F
. Niveles de significación de la estadística F
 
En la misma tabla se incluye la suma de errores cuadráticos resultante del modelo de Análisis de Variancia, así como los grados de libertad correspondientes y el desvío cuadrático respectivo.
 
Si se está realizando un análisis con dos factores y los datos contienen una cantidad desigual de observaciones en cada grupo se presenta en pantalla el correspondiente mensaje.
 
e) Ejecución optativa de un proceso complementario, mediante su selección en el siguiente menú:
 
 
PROCESOS COMPLEMENTARIOS
 
1 - Cálculo de Valores Estimados y residuos
2 - Cálculo de Intervalos de Confianza por Grupos
3 - Comparación entre Grupos
 
 
La primera opción permite calcular los valores de la variable respuesta estimados por el modelo de Análisis de Variancia, así como los residuos resultantes entre ellos y los valores experimentales, pudiendo almacenarlos en la memoria de trabajo.
 
La segunda opción permite comparar las medias de la variable respuesta en cada grupo.
 
Finalmente, la tercera opción posibilita efectuar pruebas sobre la significación de la diferencia entre medias de la variable respuesta para dos grupos de observaciones.
 
f) Si en el menú anterior se seleccionó la opción 1, se efectúa la definición optativa de las variables de la memoria de trabajo donde se desea almacenar los valores estimados de la variable dependiente y los correspondientes residuos, siguiendo el procedimiento descripto en el punto .
 
El computador efectua el proceso, presentando en pantalla los valores reales y estimados de la variable Y, así como los correspondientes residuos, para cada observación, almacenando estos dos últimos en las posiciones definidas de la memoria de trabajo.
 
g) Si en el menú anterior se seleccionó la opción 2, el computador efectua el proceso correspondiente y presenta el pantalla los siguientes resultados, para cada combinación de valores de los factores:
 
- Promedio de la variable dependiente para las observaciones que se encuentran dentro del grupo.
 
- Valores mínimo y máximo del intervalo de confianza del promedio.
 
- Gráfico del intervalo de confianza.
 
h) Si en el menú anterior se eligió la opción 3, se ingresan los valores de los factores que definen los dos grupos para los que se desea verificar los valores de la variable dependiente. A partir de ello el computador efectua el proceso, presentando en pantalla el valor de la estadística de prueba y el correspondiente nivel de significación .
 
 
Como ejemplo de aplicación del procedimiento descripto presentamos en el Cuadro 15.2 la ejecución de un Análisis de Variancia sobre el juego de datos de nacimientos (NATIVBA), cargado previamente en la memoria de trabajo. El proceso consiste en el análisis del tiempo de gestación con respecto a dos factores: la actividad de la madre (si trabaja o no) y su edad. El modelo adoptado en el ejemplo es de tipo multiplicativo, es decir, considera el efecto de la interrelación entre los dos factores, además de los efectos independientes de cada uno de ellos. Los cálculos principales realizados son:
 
 
Valores medios y cantidad de observaciones, por grupos:
 
Edad
15 25 35 Total
-----------------------------------------------------
=1 38.72 39.29 39.3 39.09
64 97 20 181
Actividad -------------------------------------------
>1 38.17 39.25 39.14 38.84
18 24 7 49
-----------------------------------------------------
Total 38.60 39.28 39.26 39.04
82 121 27 230
-----------------------------------------------------
 
Estimación de efectos diferenciales:
 
= 39.09 - 39.04 = 0.05
= 38.84 - 39.04 = -.20
= 38.28 - 39.04 = -.76
= 39.28 - 39.04 = 0.24
= 39.26 - 39.04 = 0.22
= 38.72 - 38.60 - 39.09 + 39.04 = 0.07
............
= 39.14 - 38.84 - 39.26 + 39.04 = 0.08
 
Número promedio de observaciones por grupo:
 
njk = 2*3 / (1/64+1/97+...+1/24+1/7) = 18.99
 
Suma de Desvíos Cuadráticos:
 
p=3 q=3
 
SD1 = 18.99*3*( (39.09-39.04)2 +...) = 2.44
SD2 = 18.99*2*( (38.60-39.04)2 +...) = 24.37
SD12 = 18.99*( (38.72-38.60-39.09-39.04)2+...) = 2.19
SDe = (39-39.3+39.04)2+(40-38.17+39.04)2 = 2090.72
SDt = SD. = 2119.72
 
Grados de Libertad:
 
Factor 1 = 2 - 1 = 1
Factor 2 = 3 - 1 = 2
Interr.12 = (2 - 1)*(3 - 1) = 2
Error = 230 - 2*6 = 224
Total = 1 + 2 + 2 + 224 = 229
 
Desvíos Cuadráticos Medios:
 
DM1 = 2.44/1 = 2.44
DM2 = 24.37/2 = 12.19
DM12 = 2.19/2 = 1.1
DMe = 2090.72/224 = 9.33
 
Estadísticas F:
 
F1 = 2.44/9.33 = 0.26
F2 = 12.19/9.33 = 1.31
F12 = 1.095/9.33 = 0.12
 
Niveles de Significación :
 
= 100*( 1 - FF(0.26) ) = 100*(1 - 0.3843) = 61.57%
Parámetros de FF(): k1 = 1 k2 = 224
 
= 100*( 1 - FF(1.31) ) = 100*(1 - 0.7276) = 27.24%
Parámetros de FF(): k1 = 2 k2 = 224
 
= 100*( 1 - FF(0.12) ) = 100*(1 - 0.1155) = 88.45%
Parámetros de FF(): k1 = 2 k2 = 224
CUADRO 15.1 - PROCESO DE ANALISIS DE VARIANCIA
 
 
a) Caso de Un Factor (X)
 
Valores posibles del Factor X: x1, x2, ...,xj, ...,xp
 
Cada valor xj del factor X define un grupo de nj observaciones de la variable respuesta Y (los nj pueden ser diferentes entre sí). j nj = n
 
Modelo: yij = + j + ei
 
siendo:
yij Observación i de la variable Y, asociado a un valor xj del factor X.
 
Valor esperado de la variable Y.
 
j Efecto diferencial sobre la variable Y debido al valor xj del factor X.
 
ei Error o residuo del modelo en la observación i.
 
Valores medios de la variable Y:
 
Media para cada grupo j: yj = 1/nj yij
 
Media general y = 1/n yij
 
Estimación de parámetros del modelo
 
= y
 
= yj - y
 
Verificación de la significación de los efectos diferenciales (si los j son o no = 0):
 
Causa de Suma de Grados de Desvíos Estad. Nivel
variación Desvíos Libertad Cuadráticos F de
de Y Cuadrat. Medios Signific
-----------------------------------------------------------------
Factor X SDx = kx = DMx = F = 1-FF(F)
nj(yj-y)2 p-1 SDx/kx DMx/DMe
 
Errores SDe = ke = DMe =
ei (yij-yj)2 n-p SDe/ke
 
Total SDT = kt =
(yij-y2 n-1
-----------------------------------------------------------------
FF(): Función de Probabilidad acumulada de una distribución "F" con parámetros k1=p-1, k2=n-p
b) Caso de Dos Factores (X,W)
 
Valores posibles de los factores:
X: x1, x2, ..., xj, ..., xp
W: w1, w2, ..., wk, ..., wq
 
cada combinación de valores xj, wk de los factores define un grupo con njk valores de la variable respuesta Y (los njk pueden ser diferentes entre sí, mientras la diferencia sea relativamente pequeña y sea de carácter aleatorio). njk = n
 
Número medio de observ. por grupo: ng = pq/ (1/njk)
 
 
Modelo: yijk = + j + k + jk + ei
 
siendo:
yijk Observación de la variable Y, asociada a valores xj, wk de los factores.
 
Valor esperado de la variable Y.
 
j Efecto diferencial sobre la variable Y debido al valor xj del factor X.
 
k Idem, valor wk del factor W.
 
jk Idem, combinación de valores xj, wk de los factores X e Y (no se considera en un modelo aditivo).
 
ei Error o residuo del modelo en la observación i.
 
 
Valores Medios de la variable Y:
 
. Media para cada grupo jk: yjk = 1/njk yijk
 
. Media para cada valor factor X: yj = 1/q yjk
 
. Media para cada valor factor Y: yk = 1/p yjk
 
. Media General: y = 1/pq yjk
 
Estimación de parámetros del modelo (efectos diferenciales):
 
= y
j = yj - y
k = yk - y
jk = yjk - yj - yk + y
Verificación de la significación de los Efectos Diferenciales (si los j, k, jk son o no = 0):
 
 
Causa de Suma de Grados de Desvíos Estad. Nivel
variación Desvíos Libertad Cuadráticos F de
de Y Cuadrat. Medios Signific
-----------------------------------------------------------------
Factor X SDx = kx = DMx = Fx= 1-FF(Fx)
ngq (yj-y)2 p-1 SDx/kx DMx/DMe
 
Factor W SDw = kw = DMw = Fw= 1-FF(Fx)
ngp (yk-y)2 q-1 SDw/kw DMw/DMe
 
Interrrel. SDxw = kxw = DMxw = Fxw= 1-FF(Fxw)
XW ng (yjk-yj-yk+y)2
(p-1)(q-1) SDw/kw DMw/DMe
 
Errores SDe = ke = DMe =
ei (yijk-yjk+y)2
n-pq SDe/ke
 
Total SDT = kt =
(yijk-y2 n-1
-----------------------------------------------------------------
En el caso de un modelo aditivo ( jk=0) SDxw y kxw se agregan a SDe y ke.
 
FF(): Función de Probabilidad acumulada de una distribución "F" con parámetros k1=kx, kw ó kxw, k2=ke.
 
 
 
CAPITULO 16
 
REGRESION
EN EL SISTEMA ESTAD
 
 
 
 
El sistema incluye la ejecución de procesos de regresión, tanto mediante el modelo lineal y los transformables a él como el caso de modelos no lineales de tipo general.
 
La selección de alguno de estos modelos de regresión se efectúa mediante el siguiente menú, que se presenta al comienzo de la opción:
 
 
PROCESOS
 
1 - Regresión Lineal y sus Transformadas
2 - Regresión no Lineal
3 - Graficación
4 - Manejo de Datos
 
 
Se incluye en el menú la posibilidad de llamar a la opción de Manejo de Datos sin volver al menú principal del sistema, así cmo la de graficación, ya vista en el Análisis Descriptivo de Datos.
 
 
16.1 REGRESION LINEAL
 
Dentro de esta opción resulta posible efectuar procesos de regresión basicamente sobre modelos o funciones de tipo lineal, entre una variable dependiente Y y un conjunto de variables independientes X1 a Xk, todas ellas relacionadas entre sí, para lo cual se utilizan los procedimientos específicos presentados en el Cuadro 16.1 .
 
Dentro de la opción de regresión lineal el sistema ESTAD incluye también la posibilidad de analizar un conjunto predefinido de modelos no lineales, pero que pueden ser llevados al caso lineal mediante transformaciones apropiadas, en cada caso. Otras transformaciones se pueden manejar indirectamente, efectuando previamente las transformaciones de variables correspondientes.
 
En el Cuadro 16.2 se presentan las funciones específicas contempladas en el sistema, así como las transformaciones por las cuales se las lleva al modelo lineal. El sistema efectúa de manera automática las transformaciones de los datos específicas de cada función, sin modificar los valores originales contenidos en la memoria de trabajo, aplicando a partir de ello los procedimientos considerados para el modelo lineal.
 
 
La ejecución de un proceso de regresión lineal, una vez seleccionada la opción correspondiente en el menú general del tema, requiere efectuar los pasos que se describen a continuación:
 
a) Selección del tipo de función a considerar, del siguiente menú:
 
 
FUNCION DE REGRESION
 
1 - LINEAL Y = a0 + a1*X1 + ... + ak*Xk
2 - Potencial Y = a0 * (X1^a1) * ... * (Xk^ak)
3 - Exponencial Y = a0 * exp(a1*X1 + ... + ak*Xk)
4 - Expon.Gral Y = a0 * (a1^X1) * ... * (ak^Xk)
5 - Semilogaritm. Y = a0 + a1*Ln(X1) + ... + ak*Ln(Xk)
6 - Hiperbolica Y = ao + a1/X1 + ... + ak/Xk
7 - Logistica Y = exp(a0 + a1/X)
8 - Polinomica Y = ao + a1*X^1 + ... + ak^X^k
 
 
b) En el caso de haber seleccionado una función polinómica, se ingresa el grado k del polinomio.
 
c) Interrogación sobre si se considera o no el coeficiente independiente a0 en la función de regresión. En caso de no considerarse se asume que a0 toma el valor 0 en las funciones lineal, semilogarítmica, hiperbólica, logística y polinómica, y 1 en las restantes.
 
d) Selección de las variables a considerar en el proceso, de acuerdo al procedimiento definido en . Se definen en primer lugar las variables independientes y, por último, la variable dependiente. El proceso de regresión permite considerar datos de tipo agrupado.
 
En el caso de haber seleccionado la función polinómica se debe definir una sola variable independiente.
 
e) Ejecución del proceso por el computador y presentación en pantalla de los siguientes resultados:
 
- Función de regresión considerada.
 
- Variable dependiente Y involucrada.
 
- Para cada variable independiente Xj (se incluye dentro de ello al coeficiente independiente a0):
 
. Descripción de la variable
. Coeficiente aj de la función de regresión
. Desvío sj del coeficiente aj
. Estadística de prueba t para la evaluación de la significación de aj
. Nivel de significación del coeficiente aj
- Coeficiente de determinación R2 de la regresión y el mismo corregido.
 
- Desvío de los residuos ei entre los valores exprimentales de Y y los estimados por el modelo.
 
f) Se pueden efectuar diversos procesos complementarios, seleccionando las opciones correspondientes del siguiente menú:
 
 
PROCESOS COMPLEMENTARIOS
 
1 - Cálculo de Coeficientes de Correlación
2 - Análisis de Variancia
3 - Prueba de Durbin-Watson
4 - Cálculo de valores estimados y Residuos
5 - Predicción de Valores de Y
6 - Graficación
 
 
g) Si en el menú anterior se elige la opción 1, Cálculo de Coeficientes de Correlación, el computador realiza el proceso correspondiente y presenta en pantalla dichos coeficientes entre cada par de variables definidas en el paso a), de manera similar a la opción incluida dentro del proceso de Cálculo de Estadísticas Descriptivas (sección ).
 
h) Si se elige la opción 2 el computador efectúa el proceso de Análisis de variancia, presentando en pantalla la tabla de varificación correspondiente, similar a la vista en el capítulo 15.
 
i) Mediante la opción 3 se efectúa la prueba de Durbin-Watson para la verificación de la significación de la autocorrelación en los valores de los residuos de la regresión para el conjunto de datos analizados. Una vez elegida la opción el computador efectúa el proceso correspondiente y presenta en pantalla la estadística de prueba correspondiente.
 
j) En el caso de elección de la opción 4, cálculo de valores estimados y residuos, se definen optativamente las posiciones de la memoria de trabajo donde ellos se almacenarán. El computador calcula para cada observación el valor estimado de la variable dependiente y el correspondiente residuo, presentándolos en pantalla y almacenándolos en las posiciones de la memoria de trabajo definidas anteriormente. En la misma salida se grafica, en correspondencia con cada observación, el valor del residuo, normalizado mediante el desvío estándar del conjunto de ellos.
 
k) Si se eligió la opción 5 del menú de procesos complementarios resulta posible predecir valores de la variable dependiente para nuevas observaciones de las variables X1 a Xk. Para cada una de ellas se ingresan los valores de dichas variables.
El computador efectúa el cálculo y presenta en pantalla el valor estimado resultante de la variable Y, así como los intervalos de confianza correspondientes a dicho valor (considerado éste como promedio de las observaciones con los valores definidos de las variables independientes, o correspondiente a una observación individual con los mismos valores de dichas variables).
 
l) Mediante la opción 6 resulta posible obtener gráficos de las observaciones contenidas en la memoria de trabajo, de manera similar a la opción equivalente incluida dentro del tema Análisis Descriptivo de datos (Sección ).
 
 
Como ejemplos del proceso descripto se considera seguidamente la ejecución de dos regresiones sobre el conjunto de datos referidos a los paises de América Latina (AMERLAT), previamente cargados en la memoria de trabajo.
 
En la primera de ellas se obtiene la relación lineal entre la esperanza de vida de cada país y las siguientes variables: PBN/Cápita, Calorías/Cápita y médicos por mil habitantes, de acuerdo al siguiente modelo:
 
EspVida = a0 + a1*PBN/cap + a2*Cal/cap + a3*Med/hab
 
Los cálculos principales involucrados en la aplicación son:
 
Suma de valores de las observaciones para cada variable y suma de productos de valores de pares de variables:
 
Variable Suma de Suma de Productos de Observ.
Observac. PBN/Cap Cal/cap Med/hab EspVida
------------------------------------------------------------
PBN/Cap 32320 6.7561E7 3560050 91871.8 2150030
Cal/cap 2143 232667 5147.02 139012
Med/hab 46.79 157.27 2143
EspVida 1288 83764
--------------------------------------------------------------
 
 
Coeficientes conocidos del sistema de ecuaciones lineales:
 
20 32320 2143 46.79
32320 6.7561E7 3560050 91871.8
W = 2143 3560050 232667 5147.02
46.79 91871.8 5147.02 157.27
 
1288
2150030
B = 139012
3156.17
 
Resolviendo el sistema de ecuaciones lineales se obtienen los valores estimados de los coeficientes aj y los valores wjj-1 de la diagonal de la matriz inversa W-1:
a0 = 35.734 7.256E-2
a1 = 0.0009 wjj-1 = 1.1355E-7
a2 = 0.2077 4.1656E-4
a3 = 2.0864 3.3142E-2
 
Promedio de la variable Y:
 
y = (70 +...+68)/20 = 64.4
 
Suma de desvíos cuadraticos:
 
. Variable Y: SDY=(70-64.4)2+...+(68-64.4)2 = 816.8
 
. Residuos e: SDe=(-3.244)2+...+(-1.709)2 = 260.58
 
Variancias:
 
. Variable Y: s2Y = 816.8/(20-1) = 42.99
 
. Residuos e: s2e = 260.58/(20-3) = 15.33
 
Coeficientes de Determinación:
 
R2 = 1 - 260.58/816.8 = 0.7
 
R2 = 1 - 15.33/42.99 = 0.643 (corregido)
 
Desvío de errores:
 
se = 15.33 = 3.915
 
Verificación de la significación de los coeficientes aj
 
Para a1:
 
s1 = 3.915 * 1.1355E-7 = 0.0013
 
t1 = 0.00095 / 0.0013 = 0.72
 
= 100*2*( 1 - Ft(0.72) ) = 48.75 %
 
b) En este segundo ejemplo se resuelve un modelo potencial con las mismas variables que en el caso anterior:
 
EspVida = a0 * PBN/cap a1 * Cal/cap a2 * Med/hab a3
 
Las sumas de valores de las variables transformadas y de sus correspondientes productos son ahora:
 
Variable Suma de Suma de Productos de Observ.
Observac. PBN/Cap' Cal/cap' Med/hab' EspVida'
------------------------------------------------------------
PBN/Cap' 1051.97 675.52 98.56 602.23
Cal/cap' 436.03 60.85 388.53
Med/hab' 16.85 54.68
EspVida' 346.33
--------------------------------------------------------------
 
A partir de estos valores los cálculos son similares al caso lineal.
CUADRO 16.1 - PROCEDIMIENTO DE REGRESION LINEAL
 
 
Modelo
 
yi= a0+ a1x1i+ ...+ ajxji+ ...+ akxki+ ei
 
siendo:
 
yi Valor de la variable Y en la observación i.
 
x1i,..., xji,..., xki
Valores de la variables independientes X1,..., Xj,..., Xk en la observación i.
 
a0,a1,...,aj,...ak
Coeficientes o parámetros del modelo.
 
ei Error o Residuo del modelo en la observación i
 
Estimación de los coeficientes del modelo
 
Los valores de los coeficientes a1,...,ak para una dado conjunto de observaciones de las variables anteriores se estiman resolviendo el siguiente sistema de ecuaciones lineales:
 
w00a0 + w10a1 +...+ wj0aj + wk0ak = b0
w01a0 + w11a1 +...+ wj1aj + wk1ak = b1
...........................................
..................+ wjmaj+................
...........................................
w0ka0 + w1ka1 +...+ wjkaj + wkkak = bk
 
siendo:
 
wjm = xjixmi bm = xjiyi
 
El sistema de ecuaciones, expresado en forma matricial, resulta:
 
W A = B
 
Para el cálculo de los valores wj0, w0m y b0 se define una variable ficticia X0, asociada al coeficiente a0, que toma valor 1 en todas las observaciones. En el caso de que se adopte a priori que a0=0 (modelo sin término independiente) dicha variable no se define y desaparece en el sistema de ecuaciones la fila y la columna de a0.
 
A partir del sistema de ecuaciones se obtienen los valores estimados de los coeficientes, haciendo:
 
A = W-1 B
 
siendo W-1 la inversa de la matriz W.
Evaluación del Modelo
 
a) Indicadores Globales
 
.Desvío de los residuos ei: sE = ( (yi-y)2)/(n-k-1)
 
.Coeficiente de Determinación: R2 = 1 - SDe/SDy
 
.Idem, corregido: R2 = 1 - (sE/sy)2
 
siendo:
SDe: Suma de residuos cuadráticos ei2
SDy: Suma de desvíos cuadrát. de Y (yi-y)2
sy: Desvío Estándar de Y.
 
b) Significación de los coeficientes del modelo
 
La hipótesis básica que se verifica para cada coeficiente aj es:
 
aj = 0
 
siendo la alternativa:
 
aj = 0
 
La estadística de prueba resulta:
 
tj = aj / sj
 
siendo sj el desvío del coeficiente aj:
 
sj = sE wjj-1
 
donde wjj-1 es el elemento ubicado en la posición jj (diagonal principal) de la matriz inversa W-1.
 
El nivel de significación j resultante es:
 
j = 2*(1 - FT( tj )
 
FT(): Función de probabilidad acum. distrib "t" con parámetro k=n-
 
c) Análisis de variancia
 
La verificación que se realiza en el Análisis de Variancia se aplica en la Regresión para evaluar globalmente la significación del modelo para explicar la variación de la variable Y.
 
En este caso la verificación es similar a la que se efectúa en el Análisis de Variancia considerando un factor, tomando ahora al modelo como causa de variación de la variable Y. Las sumas de desvíos cuadráticos y grados de libertad correspondientes resultan:
SDMODELO = (yi - y)2
Grados de libertad = k+1
 
SDERROR = (yi - y)2
Grados de libertad = n-k-1
 
A partir de estos indicadores la verificación es similar a la vista para el Análisis de Variancia con un factor.
 
d) Prueba de Durbin-Watson
 
Mediante esta prueba se verifica si existe autocorrelación positiva (ver capítulo 9) significativa entre valores consecutivos de los residuos que se obtienen al aplicar el modelo de regresión al conjunto de datos experimentales involucrado.
 
La hipótesis básica a probar es que el coeficiente de autocorrelación entre valores consecutivos de los residuos es nulo, mientras que la alternativa es que sea positivo. La estadística de prueba d se obtiene mediante la expresión:
 
d = (ei - ei-1)2 / ei2
 
Para un dado un nivel de significación se obtienen de tablas dos valores límite dL y dU, con los que se puiede rechazar o no la hipótesis planteada.
 
Cuando no resulta posible obtener los residuos de todas las observaciones, debido a la presencia de valores faltantes en algunas de ellas se consideran para el cálculo de la estadística d los pares de observaciones consecutivas para los que se obtienen valores de residuos.
 
Predicción
 
El valor estimado y de la variable Y, para valores x1 a xk de las variables independientes, resulta:
 
y = a0 + a1x1 + ... + akxk
 
Los intervalos de confianza del valor y son:
 
. Considerando que y es el promedio de las diversas estimaciones para los mismos valores de las variables independientes:
 
y + t1- /2 sE hi
 
. Considerando que y es un valor individual:
 
y + t1- /2 sE 1 + hi
 
siendo:
t1- /2 Valor de la distribución "t" para F(t)=1- /2, con parámetro k =
 
hi = xj ( wjmxj)
CUADRO 16.2 - TRANSFORMACIONES AL MODELO LINEAL DE REGRESION
 
 
FUNCION GRAFICO TRANSFORMACION
------------------------------------------------------------
 
Potencial
 
Y=a0(X1)a1...(Xk)ak Y'=a0'+a1X1'+...+
+akXk'
 
------------------------------------------------------------
 
Exponencial
 
Y=exp(a0+a1X1+...+ Y'=a0'+a1X1+...+
+akXk) +akXk
 
------------------------------------------------------------
 
Exponenc.Gral.
 
Y=a0a1X1...akXk Y'=a0'+a1'X1+...+
+ak'Xk
 
------------------------------------------------------------
 
Semilogarítmica
 
Y=a0+a1Ln(X1)+ Y=a0+a1X1'+...+
+...+akLn(Xk) +akXk'
 
------------------------------------------------------------
 
Hiperbólica
 
Y=a0+a1/X1+ Y=a0+a1X1"+...+
+...+ak/Xk +akXk"
 
------------------------------------------------------------
 
Logística
 
Y=exp(a0+a1/X) Y'=a0+a1/X
 
 
------------------------------------------------------------
 
Polinómica
 
Y=a0+a1X+a2X2+ Y=a0+a1X1+
+...+akXk +a2X2+..+akXk
 
-------------------------------------------------------------
Y'=Ln(Y) X'=Ln(X) X"=1/X Xj=Xj aj'=Ln(aj)
 
En los casos en que los coeficientes se transforman la prueba de aj'=0 en la función transformada equivale a aj=1 en la función original.
16.2 REGRESION NO LINEAL GENERAL
 
En esta opción se considera un modelo no lineal arbitrario entre la variable dependiente Y y un conjunto de variables independientes X1 a Xk, modelo que debe ser definido por el usuario en cada aplicación.
 
El procedimiento de minimización iterativa utilizado por el sistema para la estimación de los coeficientes del modelo de regresión se describe en el Cuadro 16.4 .
 
El manejo de una regresión no lineal mediante el sistema ESTAD involucra los siguientes pasos, una vez elegida la opción correspondiente en el menú de regresión:
 
a) Selección de las variables a considerar en el proceso, siguiendo el procedimiento descripto en el punto . Se definen en primer lugar las variables independientes y, por último, la variable dependiente. El proceso admite la consideración de datos de tipo agrupado.
 
b) Ingreso de la función de regresión a considerar. Esta función se define como una expresión algebraica, utilizando para ello la sintaxis del lenguaje BASIC, de manera similar a las funciones de transformación vistas en el capítulo 11. En la expresión pueden utilizarse las siguientes variables:
 
V(J) representa la variable independiente contenida en la posición J de la memoria de trabajo.
 
I representa la posición de una dada observación en el conjunto de datos analizado.
 
AA(K) representa el coeficiente K de la función de regresión, cuyo valor numérico será uno de los resultados del proceso (K 1).
 
Por ejemplo, las siguientes expresiones son funciones válidas para la opción:
 
AA(1)*V(5) AA(2) + AA(3)*V(8) AA(4)
 
AA(1)*LOG(I)*V(2)*V(3) AA(2)
 
COS( 1 + AA(1)*V(7) )
 
c) Para cada coeficiente AA() definido en la función de regresión se ingresan sus valores mínimo y máximo posibles. De manera optativa se define el valor de arranque para el proceso de optimización. Si no se ingresa dicho valor se asume el promedio entre los valores mínimo y máximo.
 
d) Se define optativamente el número máximo de iteraciones a realizar en el proceso de optimización. Si no se ingresa ningun valor se asumen 50 iteraciones.
e) El computador efectúa el proceso de optimización, presentándo en pantalla, a su finalización, los siguientes resultados:
 
- Valores estimados de los coeficientes de la función de regresión definida.
 
- Coeficientes de determinación R2 de la regresión, con y sin correción.
 
- Desvío de los residuos.
 
f) Ejecución optativa de procesos complementarios, de manera similar al caso de regresión lineal (sección 16.1).
 
 
En el Cuadro 16.5 se incluye el desarrollo de un ejemplo de aplicación del proceso de regresión no lineal al juego de datos sobre paises de América Latina (AMERLAT), cargado previamente en la memoria de trabajo.
 
 
CAPITULO 17
 
ANALISIS MULTIVARIADO
EN EL SISTEMA ESTAD
 
 
El sistema ESTAD involucra dentro del tema de Análisis Multivariado procesos de Análisis de Componentes Principales, Análisis Discriminante Lineal y de Agrupamiento jerárquico ("Clustering").
 
La selección de alguno de estos procesos, cuyas características de ejecución se describen en las restantes secciones del capítulo, se realiza mediante el siguiente menú, presentado al inicio de la opción:
 
 
PROCESOS
 
1 - Análisis de Componentes Principales
2 - Análisis Discriminante Lineal
3 -Agrupamiento Jerárquico
4 - Graficación
5 - Manejo de Datos
 
 
Al igual que en los otros temas se incluye la posibilidad de llamar a la opción de manejo de datos sin pasar por el menú principal del sistema. Asimismo se considera en el menú el llamado directo a la opción de graficación, tambien incluida en el tema Análisis Básico de datos.
 
 
17.1 ANALISIS DE COMPONENTES PRINCIPALES
 
El sistema ESTAD incluye la posibilidad de efectuar un Análisis de Componentes Principales sobre un conjunto de datos multivariados, resumiéndose en el Cuadro 17.1 los procedimientos de cálculo utilizados para ello.
 
La realización de un proceso de Análisis de Componentes Principales requiere efectuar los siguientes pasos, una vez seleccionada la opción correspondiente en el menú de Análisis Multivariado:
 
a) El computador interroga si se efectua el ingreso directo de las estadísticas descriptivas a utilizar en el proceso, en lugar de considerar un juego de datos existente en la memoria de trabajo. En caso de responder afirmativamente se ingresan los siguientes elementos:
 
- Número de variables a considerar
 
- Para cada variable:
. Valor Medio
. Covariancia (o coeficiente de correlación) entre la variable y cada una de las siguientes.
 
b) En caso de que se responda negativamente a la interrogación anterior se definen las variables específicas de la memoria de trabajo que se considerarán en el análisis, siguiendo el procedimiento descripto en la sección . En esta definición resulta posible considerar datos de tipo agrupado.
 
A continuación de ello se responde a la interrogación acerca de si se considera o no que las variables se normalizan para el análisis. En caso afirmativo el proceso no utiliza los datos originales de las variables contenidos en la memoria de trabajo sino los normalizados para cada una de ellas, sin modificar aquellos en la transformación.
 
c) El computador ejecuta el proceso y a su finalización presenta en pantalla, para el número máximo posible de componentes (igual al número de variables definido en a) o en b), la parte de la variancia de los datos que cada componente explica y el correspondiente porcentaje acumulado. En esta presentación las componentes se ordenan por valor decreciente de variancia explicada.
 
A partir de ello se ingresa el número de componentes principales para las cuales se obtendrán las funciones lineales que permiten calcular sus valores, para cada observación.
 
d) El computador presenta en pantalla los siguientes resultados:
 
- Variables consideradas y si ellas se normalizaron para el proceso.
 
- Matriz de covariancias (o de coeficientes de correlación, si las variables se normalizan) correspondiente a las variables seleccionadas para el proceso.
 
- Tabla de Variancias para el conjunto total de componentes, similar a la presentada en el paso c).
 
- Coeficientes de las transformaciones lineales que permiten calcular los valores de las componentes principales seleccionadas, en función de los valores de las variables originales.
 
e) Se pueden llevar a cabo optativamente procesos complementarios, mediante su selección en el siguiente menú:
 
 
PROCESOS COMPLEMENTARIOS
 
1 - Salida de Coeficientes de Correlación
2 - Cálculo de Valores de las Componentes
3 - Graficación de Variables según Comp. 1 y 2
4 - Graficación
f) La opción 1 permite obtener por pantalla o en otras salidas la matriz de coeficientes de correlación, de manera similar a la que surge en el proceso de Cálculo de Estadísitcas Descriptivas (ver Sección ).
 
g) La opción 2 permite calcular y almacenar en la memoria de trabajo los valores de las componentes para cada observación del juego de datos analizado. Este proceso se puede realizar si en el paso a) se eligió el uso de datos contenidos en la memoria de trabajo.
 
Dentro de la opción se define optativamente, para cada componente seleccionada, la posición de la memoria de trabajo donde se incluirán sus valores correspondientes a cada observación del conjunto de datos analizado, siguiendo el procedimiento descripto en .
 
El computador calcula los valores de las componentes y los presenta en pantalla, almacenándolos también en las posiciones de la memoria de trabajo antes definidas.
 
h) Mediante la tercera opción se obtiene en pantalla un gráfico donde se muestra la posición de cada una de las variables originales, en función de los valores de los coeficientes de las dos primeras componentes asociadas a dicha variable en la función lineal resultante del análisis.
 
i) Si se elige la opción 4 en el menú de procesos complementarios se pueden efectuar gráficos según dos ejes cartesianos, de manera similar al proceso descripto en la sección .
 
 
En el Cuadro 17.2 presentamos un ejemplo de ejecución de un análisis de componentes principales mediante el sistema ESTAD, siguiendo los pasos descriptos. Se considera en este caso el juego de datos correspondientes a los paises de América Latina (AMERLAT), cargado previamente en la memoria de trabajo. El objeto principal del análisis es tratar de obtener un número reducido de componentes que expliquen la mayor parte de la variabilidad contenida en las variables experimentales seleccionadas.
 
Los cálculos realizados en el ejemplo son los siguientes, en los que se considera una normalización previa de los valores originales de las variables involucradas:
Matriz R de Coeficientes de Correlación entre las variables definidas para el análisis:
 
4 6 7 12 14 18 19
 
4-PBN/cap 1 -.213 .513 .826 -.327 .449 .613
6-%PBagric -.213 1 .335 -.215 .39 .115 -.047
7-%PBind .513 .335 1 .297 .132 .17 .087
12-Energ/cap .826 -.215 .297 1 .263 .267 .563
14-%CrecPobla -.327 .39 .132 .263 1 -.445 -.586
18-Cal/cap .449 .115 .17 .267 -.445 1 .636
19-EspVida .613 -.047 .087 .563 -.586 .636 1
 
Vectores y Valores propios de la matriz R (Matrices A y ):
 
.7728 .1735 .3080 .4997 -.0258 .1499 .0701 .0853
.2593 .5839 -.5161 -.1184 .3026 -.3713 -.2861 1.5824
-.3410 .6397 .1668 .1911 -.6002 -.1450 .1700 1.1146
-.3965 .0939 .4088 .4466 .4588 -.0802 -.5005 = 3.1475
-.0860 .4494 .2289 -.3506 .4512 .5346 .3547 .5124
-.1509 .0423 -.5589 .3835 -.1250 .6756 -.2098 .3762
-.1785 -.0841 -.2811 .4799 .3431 -.2645 .6812 .1905
 
Variancias de las Componentes, ordenadas de mayor a menor:
 
Comp Variancia % Acum.Variancia
-------------------------------------------
1 3.1475 44.97
2 1.5824 67.57
3 1.1146 83.49
4 .5124 90.81
5 .3672 96.06
6 .1905 98.78
7 .0853 100
 
Seleccionando las dos primeras componentes principales ellas permiten explicar el 67.6% de la variancia de las variables originales en los datos. Las funciones de transformación para obtener los valores de dichas componentes principales para cada observación son:
 
Y1 =.4997*PBN/cap-.1184*%PBagr+.1911*%PBind+.4466*Energ/cap
-.3506*%CrecPob+.3835*Cal/cap+.4799*EspVida
 
Y2 =.1735*PBN/cap+.5839*%PBagr+.6397*%PBind+.0939*Energ/cap
+.4494*%CrecPob+.0423*Cal/cap-.0841*EspVida
 
Por ejemplo, los valores de las dos componentes principales para la primera observación resultan:
 
y1 =.4997*2520-.1184*16+.1911*38+.4466*1445
-.3506*1.3+.3835*125+.4799*70 = 2.51
 
Y2 =.1735*2520+.5839*16+.6397*38+.0939*1445
+.4494*1.3+.0423*125-.0841*70 = 0.37
CUADRO 17.1 - ANALISIS DE COMPONENTES PRINCIPALES
 
 
Modelo
 
Dado un conjunto de k variables X1 a Xk, pertenecientes a la misma población, se obtienen nuevas variables Y1 a Yk (componentes) mediante transformaciones lineales:
 
YP = aP1X1+aP2X2+...+aPkXk p=1,2,...,k
 
 
Determinación de los coeficientes aPj
 
Dado un conjunto de n observaciones de las variables X1, X2,...,Xk, se obtiene la matriz de covariancias V (o la de correlaciones R). Calculando los vectores propios AP de esa matriz los elementos de cada uno de ellos constituyen los coeficientes aPj:
 
aP1
aP2
.....
AP aPj
.....
aPk
 
A partir de este cálculo la variancia de cada componente YP es el Valor Propio P correspondiente a cada vector propio AP:
 
V(YP) = P
 
La suma de las variancias de las componentes son iguales a la suma de las variancias de las variables originales X:
 
V(YP) = V(Xj)
 
Asimismo, las componentes son linealmente independientes entre sí, lo que equivale a que los coeficientes de correlación entre pares de ellas sean nulos.
 
Ordenando las componentes por valor decreciente de variancia se puede definir algunas de ellas como Principales, tales que explican una fracción significativa de la variancia de las variables originales.
 
 
Determinación de los Valores y Vectores propios de una Matriz
 
Se utiliza el método de Diagonalización de Jacobi (Ver Ref. ). Dada una matriz simétrica V (o R) se efectúan operaciones lineales de transformación que también involucran a una matriz unidad I, del mismo rango.
Mediante dichas transformaciones se busca modificar la matriz V hasta tener valores no nulos unicamente en su diagonal principal. Una vez terminado el proceso se tienen en la diagonal de la matriz transformada V los valores propios de la matriz original y en la transformada de I los vectores propios correspondientes:
 
1
1
V .
.
.
1
1
 
 
1 a11.... ak1
. . .
. . .
. . .
P a1k akk
 
17.2 ANALISIS DISCRIMINANTE LINEAL
 
Existen diversos modelos que pueden definirse dentro del Análisis Discriminante, según las hipótesis de partida que se establezcan. El sistema ESTAD considera un modelo de tipo lineal, utilizando para su resolución los procedimientos incluidos en el Cuadro 20.3 .
 
La ejecución de una aplicación del Análisis Discriminante involucra la realización de los siguientes pasos, una vez elegida la opción correspondiente en el menú de Análisis Multivariado:
 
a) El computador interroga sobre si se efectua el ingreso directo de las estadísticas descriptivas a utilizar en el proceso, en lugar de considerar datos contenidos en la memoria de trabajo. En caso de una respuesta afirmativa se ingresan los siguientes valores:
 
- Número de variables a considerar
- Número de grupos de clasificación
- Promedios de las variables en cada grupo de clasificación
- Matriz consolidada de Covariancia (o de Correlación) entre las variables involucradas.
 
b) En caso de responder negativamente a la pregunta anterior se definen las variables específicas de la memoria de trabajo a considerar en el análisis, siguiendo el procedimiento descripto en . De ellas, la última que se define es la que contiene el grupo de clasificación de cada observación. El proceso admite la consideración de datos agrupados.
 
c) El computador efectua el proceso y a su finalización presenta en pantalla los siguientes resultados:
 
- Variables consideradas en el proceso.
- Coeficientes de las funciones de discriminación.
- Matriz de correspondencia entre los grupos estimados y los reales
- Probabilidad de clasificación erronea asociada a cada grupo estimado.
 
d) Se pueden ejecutar optativamente procesos complementarios, seleccionándolos en el siguiente menú:
 
 
PROCESOS COMPLEMENTARIOS
 
1 - Cálculo de Grupos Estimados
2 - Predicción de Grupos de nuevas Observaciones
3 - Graficación
Mediante la opción 2 se puede estimar el grupo de clasificación para nuevas observaciones.
 
e) Mediante la opción 1 se obtiene el grupo estimado por el modelo de discriminación para cada una de las observaciones consideradas en el análisis.
 
Dentro de la opción se efectúa la definición optativa de la posición de la memoria de trabajo donde se desea almacenar el grupo estimado para cada observación. A partir de ello el computador presenta en pantalla los grupos real y estimado, para cada observación, colocando éstos últimos en la posición definida de la memoria de trabajo.
 
f) Si se eligió la opción 2 se ingresan los valores de las variables involucradas para una nueva observación, presentando el computador en pantalla el correspondiente grupo estimado.
 
g) Mediante la opción 3 resulta posible obtener gráficos de los datos contenidos en la memoria de trabajo, de manera idéntica al proceso incluido en el Análisis Descriptivo de datos (ver sección ).
 
 
En el Cuadro 17.4 se presenta un ejemplo de aplicación del Análisis Discriminante. En este caso se considera el juego de datos sobre paises de América Latina (AMERLAT), cargado previamente en la memoria de trabajo. El objetivo de la aplicación es, considerando como variable de clasificación al Grupo de país, encontrar funciones discriminantes que permitan clasificar a otros paises en un cierto grupo.
 
Las variables consideradas en el Análisis son: el Producto per Cápita (4-PBN/Cap), las participaciones porcentuales de la agricultura e inductria en el producto bruto (6-%PBAGRIC y 7-%PBIND), el Consumo de Calorías per cápita (18-CAL/CAP), la Esperanza de Vida (19-ESP.VIDA) y como variable que define el grupo correspondiente a cada observación al Grupo de país (1-GRUPO).
 
Los cálculos principales realizados en el ejemplo son:
 
Valores medios de las variables definidas para el análisis, calculados para cada grupo de país:
 
Grupo PBN/cap %PBagr %PBind Cal/cap EspVida
------------------------------------------------------
1 300 24 13 96 54
2 1155.86 16.75 24.75 105 62.75
3 2592.86 10.86 34 112.43 68.71
------------------------------------------------------
 
Matriz consolidada de Covariancias C:
 
3974200 24380 57632.9 209414.7 126472.4
24380 318.53 480.76 1760.77 1046.24
C = 57632.9 480.76 1035.24 3403.65 2035.06
209414.7 1760.77 3403.65 13686.3 8177.2
126472.4 1046.24 2035.06 8177.2 4927.29
 
 
Funciones Discriminantes:
 
F1=-2.9046-.0017*PBN/cap-.1679*%PBagr-.0371*%PBind+
.092*Cal/cap-.0464*EspVida
 
F2=-.5646-.0006*PBN/cap+.0157*%PBagr+.0075*%PBind+
-.0001*Cal/cap+.0226*EspVida
 
F3=-.9596+.0011*PBN/cap-.0103*%PBagr+.0026*%PBind+
-.0079*Cal/cap+.0004*EspVida
 
 
Aplicando estas funciones a la primera observación resulta:
 
F1=-2.9046-.0017*2520-.1679*%16-.0371*38+
.092*125-.0464*70 = -3.033
 
F2=-.5646-.0006*2520+.0157*16+.0075*38+
-.0001*125+.0226*70 = 1.046
 
F3=-.9596+.0011*2520-.0103*16+.0026*38+
-.0079*125+.0004*70 = 25.73
 
A partir de estos valores de las funciones el grupo estimado de país para la observación 1 resulta el 3.
CUADRO 17.3 - PROCESO DE ANALISIS DISCRIMINANTE LINEAL
 
 
Modelo
 
Se intenta establecer una relación entre un conjunto de k variables independientes X1 a Xk (cuantitativas) y una variable dependiente Y (que puede tomar sólo m valores posibles, definiendo cada uno de ellos un grupo de clasificación de las observaciones de las variables X).
 
El modelo considerado para ello define m funciones discriminantes lineales con respecto a las variables X1 a Xk (una para cada valor de la variable Y):
 
FG = aG0+aG1X1+aG2X2+...+aGkXk ,G=1,2,...,m
 
El valor estimado por el modelo para la variable Y en una observación genérica i resulta:
 
yi = p si FPi=máximo de (F1i,F2i,..,FPi,..,Fmi)
 
donde los valores F1i,..., Fmi surgen de aplicar las funciones discriminantes a los valores de las variables independientes para la observación i.
 
Estimación de los coeficientes aG. del modelo
 
Se requieren para su determinación las siguientes estadísticas correspondientes a n observaciones de las variables involucradas:
 
. Valores Medios de las variables X1 a Xk dentro de cada grupo definido por los valores de la variable Y:
 
x1G
x2G
...
xG = xjG G = 1,2, ..., m
...
xkG
 
. Matriz de Covariancias entre pares de variables X, dentro de cada grupo G definido por los valores de la variable Y.
 
s11G s12G .... s1kG
s21G s22G .... s2kG
.....................
sG sj1G sj2G .... sjkG G=1,2,...,m
.....................
sk1G sk2G .... skkG
 
. Matriz consolidada de variancias
 
s = ( (nG-1)sG )/(n-k)
donde nG es el número de observaciones en el grupo G:
 
nG = n
 
A partir de estas estadísticas los valores estimados aG. de los coeficientes de las funciones discriminantes resultan:
 
aG0 = -0.5 ( xlGslG-1 ) xjG
 
aGj = xlGslG-1
 
siendo slG-1 el valor ubicado en la posición lj de la matriz inversa de S. En términos matriciales:
 
aG0 = -0.5 XG S-1 XG
 
aG1, aG2,..., aGj,..., aGk = XG S-1
 
 
Evaluación del modelo discriminante
 
A partir de la estimación mediante el modelo del grupo correspondiente a cada observación del conjunto de datos considerado se determinan las probabilidades de los grupos reales correspondientes a cada grupo estimado:
 
Grupo Real
Grupo 1 2 .... j ... m
Estimado
 
1
2
.
.
i pij
.
.
m
 
Los valores de pij así obtenidos constituyen en general estimadores sesgados de las verdaderas probabilidades.
 
La probabilidad de estimación errónea para cada grupo se obtiene mediante la expresión:
 
pi = pij - pii
 
17.3 AGRUPAMIENTO JERARQUICO
 
El sistema ESTAD incluye la opción de realizar el agrupamiento de un conjunto de observaciones, siguiendo un criterio de tipo jerárquico. Los procedimientos específicos que el sistema utiliza para ello se incluyen en el Cuadro 17.5 .
 
La ejecución de un proceso de agrupamiento requiere efectuar los siguientes pasos, una vez seleccionada la opción correspondiente del menú de Análisis Multivariado:
 
a) El computador interroga si se desea efectuar el ingreso directo de la matriz de distancias a utilizar en el proceso, en lugar de calcular éstas a partir de datos contenidos en la memoria de trabajo. En caso afirmativo se ingresa:
 
- Número de observaciones a considerar.
- Distancia entre cada observación y la siguiente.
 
b) En caso de que se responda negativamente a la pregunta anterior se definen las variables específicas de la memoria de trabajo que se consideran en el análisis. Además de ello se responde a la pregunta de si se considera o no que las variables se normalizan para el proceso. En caso afirmativo no se utilizan los datos originales de las variables seleccionadas sino los normalizados correspondientes, no modificándose en ello los valores contenidos en la memoria de trabajo.
 
c) Se ingresa el número deseado de grupos y el criterio a utilizar para el cálculo de distancias entre grupos, éste último mediante el siguiente menú:
 
 
CRITERIO DE CALCULO DE DISTANCIAS
 
1 - Distancia Mínima
2 - Distancia Máxima
 
 
d) El computador efectua el proceso de agrupamiento, presentando en pantalla a su finalización los siguientes resultados:
 
- Variables consideradas y si ellas se normalizaron para el proceso.
- Dendograma de la secuencia de consolidación de los grupos, desde las observaciones individuales hasta el número de grupos prefijado.
- Distancia involucrada en cada paso de agrupamiento.
 
En el Cuadro 17.6 se muestra un ejemplo de aplicación de los pasos enunciados al conjunto de datos sobre paises de América Latina (AMERLAT), cargado previamente en la memoria de trabajo. En el ejemplo se considera el agrupamiento de los paises, teniendo en cuenta un conjunto de variables, que se normalizan para el proceso.
 
Las variables consideradas en el Análisis son las mismas que se utilizaron en el ejemplo de Análisis de Componentes Principales.
CUADRO 17.5 - PROCEDIMIENTO DE AGRUPAMIENTO JERARQUICO
 
 
Distancias entre Pares de Observaciones
 
Dado un conjunto de observaciones se conocen las distancias dij entre cada par de ellas. En caso contrario se calculan mediante la expresión:
 
dij = (xmi - xmj)2
 
siendo:
 
k Número de variables en el conjunto de observaciones.
 
xmi,xmj Valor de la variable Xm en las observaciones i y j, respectivamente.
 
Mediante este procedimiento se obtiene una matriz de distancias.
 
Proceso de Agrupamiento
 
Inicialmente cada observación constituye un grupo. A partir de ello se van formando consecutivamente nuevos grupos, cada uno de los cuales se constituye por la unión de dos grupos anteriores. Los grupos que se unen en cada paso son los que tienen entre sí la menor distancia.
 
Cuando un grupo está compuesto por varias observaciones se puede utilizar alguno de los siguientes criterios para calcular la distancia entre el grupo y cada uno de los restantes:
 
Distancia Mínima: se considera la distancia entre las observaciones más próximas entre sí, una en cada grupo.
 
Distancia Máxima: Idem, distancia máxima entre las observaciones más alejadas.
 
Cuando se crea un nuevo grupo se recalculan, con alguno de los criterios anteriores, las distancias entre él y los grupos restantes, y se ingresan en la matriz de distancias. Al mismo tiempo, desaparecen de dicha matriz de distancias los dos grupos que contribuyen a formar el nuevo grupo.
 
 
CAPITULO 18
 
SERIES DE TIEMPO
EN EL SISTEMA ESTAD
 
 
 
El sistema ESTAD permite efectuar los siguientes procesos sobre conjuntos de datos del tipo de Series de Tiempo: Análisis Descriptivo, Modelos de Ajuste, Modelos Autorregresivos y Modelos de Descomposición.
 
Estas opciones de proceso, que se describen en detalle en las restantes secciones del capítulo, se seleccionan mediante el siguiente menú inicial del módulo:
 
 
PROCESOS
 
1 - Análisis Descriptivo
2 - Modelos de Ajuste
3 - Modelos Autorregresivos
4 - Modelos de Descomposición
5 - Manejo de Dtos
 
 
Se observa en el menú que es posible llamar a la opción de Manejo de Datos sin pasar por el menú principal del sistema.
 
 
18.1 ANALISIS DESCRIPTIVO DE SERIES DE TIEMPO
 
Dentro de esta opción el sistema ESTAD incluye en primer lugar la determinación de Coeficientes de Corrrelación, para un conjunto de observaciones de una o dos variables ordenadas temporalmante. Dentro de ello se considera el cálculo de Coeficientes de Autocorrelación, de Autocorrelación Parcial y de Correlación Cruzada
 
En el Cuadro 18.1 a) se incluyen los procedimientos de cálculo de dichos coeficientes, presentando también el criterio para definir los intervalos de confianza de los valores obtenidos.
 
Un segundo proceso incluido dentro del Análisis Descriptivo de series es el Suavizamiento ("Smoothing"). Mediante este proceso, dada una serie experimental se obtiene otra, correspondiente con la primera, en la que se reducen o "suavizan" las variaciones de sus valores, reteniendo principalmente la tendencia general de evolución de los valores de la serie experimental considerada.
 
El sistema contempla la posibilidad de efectuar el suavizamiento de una serie considerando dos criterios alternativos: mediante pronedios móviles o a través de medianas
 
 
móviles. En el primer caso resulta posible definir ponderadores para cada uno de los términos del promedio. Los procedimientos que utiliza el sistema para efectuar este proceso se incluyen en el Cuadro 18.1 b).
 
Un tercer proceso que considera el sistema dentro del Análisis descriptivo de Series es su graficación, de manera similar a la vista en el Capítulo 12 .
 
La ejecución de un proceso de Análisis Descriptivo de series sobre un dado conjunto de observaciones ordenadas temporalmente requiere ejecutar los pasos que describen a continuación, una vez elegida la opción correspondiente en el menú de Series de Tiempo:
 
a) Selección del proceso a ejecutar, mediante el siguiente menú:
 
 
PROCESOS
 
1 - Cálculo de Coeficientes de Correlación
2 - Suavizamiento
3 - Graficación
 
 
b) Si en el paso anterior se eligió la opción 1, Cálculo de Coeficientes de Correlación, se selecciona el tipo de coeficiente específico a obtener, del siguiente menú:
 
 
CALCULO DE
 
1 - Coeficientes de Autocorrelación cOE
2 - Coeficientes de Correlación parcial
3 - Coeficientes de Correlación Cruzada
 
 
c) Para la misma opción, se define la variable de la memoria de trabajo donde se encuentra la serie experimental a considerar en el proceso, siguiendo el procedimiento descripto en . En el caso del cálculo de coeficientes de correlación cruzada se deben definir dos variables. No se consideran en este proceso datos de tipo agrupado.
 
d) Siguiendo con la misma opción se ingresa el número maximo de períodos de separación entre observaciones, hasta el cual se calcularán sus respectivos coeficientes, a partir de un período igual a 1.
 
e) El computador efectúa el cálculo y presenta en pantalla los valores de los coeficientes requeridos, así como una graficación de dichos valores. En ella se marcan los intervalos de confianza, para un nivel de significación del 5%, más allá de los cuales los coeficientes son significativos.
f) Si en el paso a) se eligió la opción 2, de Suavizamiento, se define el tipo de suavizamiento a realizar, mediante el siguiente menú:
 
 
TIPO DE SUAVIZAMIENTO
 
1 - Promedios Móviles
2 - Medianas Móviles
 
 
g) Dentro de este mismo proceso se define la variable de la memoria de trabajo que contiene la serie de tiempo a considerar.
 
h) Se ingresa el número k de períodos a utilizar en los promedios o medianas móviles. Asimismo, se define optativamente la posición de la memoria de trabajo donde se colocarán los valores de la serie suavizada.
 
En el caso de haber adoptado el método de promedios móviles se ingresan optativamente los valores de los ponderadores para cada término del promedio.
 
i) El computador efectua el proceso de suavizamiento, mostrando en pantalla los valores de la serie original y los suavizados correspondientes.
 
j) Si en el paso a) se eligió la opción 3, de graficación, se puede obtener una representación visual de hasta tres series relacionadas, siguiendo el procedimiento descripto en la sección .
 
 
A continuación se llevan a cabo varios ejemplos de aplicación del proceso descripto, considerando la serie de pasajeros aéreos mensuales (PASAJ), cargada previamente en la memoria de trabajo.
 
El primer ejemplo involucra el cálculo de coeficientes de autocorrelación y de autocorrelación parcial sobre dicha serie, presentándose sus resultados en el Cuadro 18.2 a).
 
Los cálculos principales efectuados para el cálculo de los coeficientes de Autocorrelación son:
 
Valor medio de la serie: (112+...+201)/60 = 171.7
 
Desvío Estándar:
 
( (112-171.7)2+...+(201-171.7)2)/59 = 41.778
 
Coeficiente de autocorrelación r1 para la primera diferencia:
 
r1 = (112-171.7)*(118-171.7)+...+
+(180-171.7)*(201-171.7) / (59*41.778) = 0.908
Intervalo de confianza de r1 (para = 95%):
 
r = 1/(58/(t2+1)) = 0.253
 
t = valor para el que FStud(t) = 0.975 ,con k=59
t = 1.647
 
Los coeficientes de autocorrelación parcial se obtienen resolviendo el siguiente sistema de ecuaciones lineales, en las que los valores numéricos son los coeficientes de autocorrelación:
 
+ .908 + .79 + .693 = .908
.908 + + .908 + .79 = .79
.79 + .908 + + .908 = .693
.693 + .79 + .908 + = .63
 
Resolviendo el sistema resulta:
 
= .034
= .27
= .433
= .463
 
 
El segundo ejemplo consdiera el suavizamiento de la serie, mediante el método de promedio móvil. e adopta k=12, así como ponderadores iguales. Se realiza también un segundo paso de suavizamiento, con k=2, para centrar los valores suavizados. Los resultados de este proceso se muestran en el Cuadro 18.2 b)
 
Los primeros suavizamientos resultan:
 
y'6.5 = (112+118+...+104+118)/12 = 126.67
y'7.5 = (118+132+...+118+115)/12 = 126.91
y'8.5 = (132+129+...+115+126)/12 = 127.43
...............
 
Promediando estos valores de a pares se obtienen los valores suavizados definitivos:
 
y7 = (126.67+126.91)/2 = 126.79
y8 = (126.91+127.43)/2 = 127.17
................
 
En un tercer ejemplo se realiza otro proceso de suavizamiento sobre la misma serie, en este caso considerando un proceso más complejo de suavizamiento, denominado 4253H. Este proceso involucra la realización consecutiva de cuatro suavizamientos, con k=4, 2, 5 y 3, respectivamente. Sobre la serie resultante se aplica un promedio móvil con k=3 y ponderadores 0.25, 0.5 y 0.75. Los resultados del proceso se muestran en el Cuadro 18.2 c).
 
En el último ejemplo se grafica la serie original y las dos sries suavizadas obtenidas en los ejemplos anteriores, en sendo gráficos (ver Cuadro 18.2 d).
CUADRO 18.1 a) - PROCEDIMIENTO DE CALCULO DE COEFICIENTES DE CORRELACION EN SERIES
 
 
Coeficientes de Autocorrelación
 
El coeficiente de autocorrelación rk de uns serie, considerando parse de valores separados por k períodos, resulta:
 
rk = 1/(n-k) ( (xi-x(xi+k-x) )/ s2
 
siendo:
 
x Valor Medio de la Serie
 
Desvío Estándar de la Serie
 
El intervalo de confianza de un coeficiente de correlación rk resulta:
 
 
 
Coeficientes de Autocorrelación Parcial
 
Los valores de los k primeros coeficientes de autocorrelación parcial 1 a k se obtienen resolviendo el siguiente sistema de ecuaciones lineales:
 
1+ r1 2 + r2 3 + ... + rk-1 k = r1
r1 1+ 2 + r1 3 + ... + rk-2 k = r2
r2 1+ r1 2 + 3 + ... + rk-3 k = r3
............................................
rk-1 1+ rk-2 2 + rk-3 3 + ... + k = rk
 
donde r1 a rk son los valores de los coeficientes de correlación.
 
Coeficientes de Correlación Cruzada
 
El valor del coeficiente de correlación cruzada rCk entre una serie X y otra Y resulta, considerando pares de valores de ambas series separados por k períodos:
 
Si k>0:
 
rCk = 1/(n-k) ( (xi-x)(yi+k-y) )/sxsy
 
Si k<=-1:
 
rCk = 1/(n-k) ( (xi+k-x)(yi-y) )/sxsy
 
CUADRO 18.2 b) - PROCEDIMIENTOS DE SUAVIZAMIENTO
 
 
Promedios Móviles
 
A partir de observaciones x1, ..., xi, ..., xn de una serie X se obtienen valores de una serie Y suavizada, mediante la siguiente expresión:
 
ym = f1xi+f2xi+1+...+fk-1xi+k-2+fkxi+k-1
 
siendo:
 
k Número de períodos para el promedio
 
m Si k es impar: m=(i+k)/2
Si k es par >2: m=(i+k+1)/2
Si k=2: m=i
 
f1,...,fk
Factores de ponderación fi = 1
Si no se ponderan los valores fi=1/k
 
Mediante la expresión anterior no resulta posible obtener los primeros valores y los últimos . Debido a ello en la serie suavizada Y se consideran en correspondencia con dichas posiciones los valores de la serie original X.
 
 
Medianas Móviles
 
La función de suavizamiento es, en este caso:
 
ym = Mediana de (xi, xi+1,...,xi+k-2, xi+k-1)
 
donde k y m tienen un significado sinilar al caso anterior.
 
18.2 MODELOS DE AJUSTE
 
El sistema ESTAD contempla el manejo de los siguientes modelos de ajuste específicos:
 
- Promedios móviles.
- Ajuste Exponencial Simple.
- Ajuste Exponencial Adaptativo.
- Ajuste Exponencial con Tendencia (Método de Brown con un parámetro).
- Ajuste Exponencial con Tendencia y Estacionalidad (Método de Winters). Este modelo incluye como caso particular el método de Holt con dos parámetros.
 
 
En el Cuadro 18.3 se presentan las funciones de predicción correspondientes a cada modelo, los parámetros que intervienen en ellas y los criterios para su aplicación a la estimación de valores de una dada serie experimental. Además de ello se incluye la definición de los indicadores que permiten evaluar el grado de adecuación de un dado modelo para la predicción de valores de la serie involucrada.
 
La aplicación de un modelo de ajuste a una serie de tiempo residente en la memoria de trabajo requiere la ejecución de los pasos que se describen a continuación, una vez elegida la opción correspondiente en el menú de Series de Tiempo:
 
a) Selección del modelo de ajuste a considerar, del siguiente menú:
 
 
MODELO DE AJUSTE
 
1 - Promedios Móviles
2 - Ajuste Exponencial
3 - Ajuste Exponencial Adaptativo
4 - Ajuste Exponencial con Tendencia
6 - Ajuste Expon. con Tendencia y Estacion.
 
 
b) Definición de la variable de la memoria de trabajo que contiene la serie de tiempo a considerar en el proceso (ver procedimiento en el punto ).
 
c) Definición optativa de las posiciones de la memoria de trabajo donde se almacenarán los valores estimados de la serie y los correspondientes residuos, según el procedimiento visto en .
 
d) Ingreso de los valores de los parámetros, de acuerdo al modelo elegido.
e) Ejecución del proceso por el computador, presentando en pantalla a su finalización los siguientes resultados:
 
- En correspondencia con cada período de la serie:
 
. Valor original de la serie
. Valor estimado por el modelo
. Residuo
. Coeficientes intermedios, según el modelo (se identifican en la salida con la misma nomenclatura utilizada en el Cuadro 18.3).
 
- Indicadores de Evaluación:
 
. Error Cuadrático Medio
. Error Porcentual Medio
 
Estos indicadores se calculan en cada caso considerando aquellas observaciones de la serie involucrada estimadas por el modelo respectivo.
 
El computador almacena asimismo en la memoria de trabajo los valores estimados y residuos, si en el paso c) se definieron las posiciones correspondientes.
 
f) Selección optativa de un proceso complementario, del siguiente menú:
 
 
PROCESO COMPLEMENTARIO
 
1 - Predicción
2 - Graficación
 
 
g) Si en el menú anterior se eligió la opción 1, de Predicción, se ingresa el número de períodos futuros a considerar, a partir del último valor conocido de la serie. El computador efectúa la predicción y presenta en pantalla los valores resultantes, para cada período futuro definido.
 
h) Si en el menú de procesos complementarios se eligió la opción 2, de graficación, se pasa al proceso presentado en la sección 18.1 .
 
 
Se describen seguidamente dos ejemplos de los pasos anteriores al juego de datos correspondiente a pasajeros aereos mensuales (PASAJ), cargado previamente en la memoria de trabajo. El primer ejemplo comprende la aplicación del modelo exponencial adaptativo a la serie anterior, verificando el ajuste logrado, efectuando la predicción de valores futuros para un año completo y graficando los valores de la serie experimental y de los estimados por el modelo (históricos y futuros). Los resultados de la aplicación se consignan en el Cuadro 18.4 a).
Los cálculos principales involucrados en el caso del ajuste Exponencial adaptativo son:
 
Período xt xt et et e't t
-------------------------------------------
1 112 - - 0 0 0.2
2 118 112 6 1.2 1.2 0.2
3 132 113.2 18.8 4.7 4.7 0.2
4 129 117 12 6.2 6.2 0.2
5 121 119.4 1.6 5.3 5.3 1
............
............
 
Indicadores de evaluación del ajuste:
 
 
 
 
 
 
En un segundo ejemplo se aplica a la misma serie el modelo exponencial con tendencia y estacionalidad, mostrándose sus resultados en el Cuadro 18.4 b). Los cálculos principales efectuados en el ejemplo son:
 
Promedio de los 12 primeros valores:
 
x1-12 = (112+118+...+104+118)/12 = 126.67
 
 
Período xt xt St bt It
------------------------------------------
1 112 0.884
2 118 0.932
3 132 1.042
4 129 1.018
5 121 0.955
6 135 1.066
7 148 1.168
8 148 1.168
9 136 1.074
10 119 0.939
11 104 0.821
12 118 126.67 0 0.932
13 115 111.98 127.35 0.34 0.903
14 126 118.95 126.84 -.085 0.929
...................
...................
60 201 217.97 236.27 0.39 0.878
 
El primer valor futuro estimado resulta:
 
x61 = (236.27+0.39)*0.886 = 209.7
CUADRO 18.3 - PROCEDIMIENTO DE LOS MODELOS DE AJUSTE
 
 
PROMEDIO MOVIL
 
Modelo de
Predicción xt+1 = (xt+xt-1+...+xt-k+1)/k
 
Parámetro k (1<=k<=n, entero)
 
Condiciones Ninguna.
Iniciales La estimación mediante el modelo puede comenzar a partir del período t=k+1.
 
 
AJUSTE EXPONENCIAL
 
Modelo de xt+1 = xt-1 + (xt - xt)
Predicción = xt + (1 - )xt
 
Parámetro (0< <1)
 
Condiciones Se asume: x1 = x1
Inciales La estimación mediante el modelo puede comenzar a partir del período t=2.
 
 
AJUSTE EXPONENCIAL ADAPTATIVO
 
Modelo de xt+1 = t + (1 - t)xt
Predicción
t es ahora una variable que se calcula para cada período mediante la expresión:
 
t = et-1/et-1'
 
siendo:
 
et-1 = xt-1 - xt-1
et-1 = et-1 + (1 - )et-2
et-1' = et-1 + (1 - )et-2'
 
Parámetro = 0.2
 
Condiciones e1 = 0 , e1 = 0
Inciales 1 a 4 = , para disminuair el efecto de las condiciones iniciales.
x1 = x1
La estimación mediante el modelo puede comenzar a partir del período t=2.
 
AJUSTE EXPONENCIAL CON TENDENCIA (Método de Brown)
 
Modelo de xt+1 = at + bt
Predicción siendo:
at = St' + (St' - St")
= 2St' - St"
bt = ( /(1- )) (St' - St")
St' = xt + (1 - )St-1'
St" = St' + (1 - )St-1"
 
Parámetro (0< <1)
 
Condiciones Se asume: S1' = S2" = x1
Iniciales A partir de estos valores se calculan S2', S2", a2 y b2.
La estimación mediante el modelo puede comenzar a partir del período t=3.
 
 
AJUSTE EXPONENCIAL CON TENDENCIA Y ESTACIONALIDAD (Método de Winters)
 
Modelo de xt+1 = (St + bt) It-L+1
Predicción siendo:
St = xt/(It-L)+
(1- )(St-1+bt-1)
bt = (St - St-1)+(1- )bt-1
It= xt/St+(1- )It-L
 
Si It es siempre igual a 1, con lo cual desaparece el ajuste por estacionalidad, el modelo considera unicamente la tendencia. Constituye así el método de Holt, similar al de Brown paro ahora con dos parámetros.
 
Parámetros (0< <1)
(0< <1)
(0< <1)
L: número de períodos de estacionalidad (no se considera si no hay estacionalidad).
 
Condiciones Se asume:
Inciales SL = promedio de x1 a xL
bL = 0
I1,..,Ii,..,IL= xi/SL
(Ii=1 si no se considera estacionalidad)
 
La estimación mediante el modelo puede comenzar a partir del período L+2.
 
18.3 MODELOS AUTORREGRESIVOS
 
En el sistema ESTAD se incluye la posibilidad de aplicar modelos de tipo autorregresivo a una dada serie experimental. Se consideran específicamente modelos de tipo AR(p), estimándose sus coeficientes mediante el método de Filtrado Adaptativo. Los procedimientos considerados en el sistema para ello se presentan en el Cuadro 18.5 .
 
La utilización de un modelo autorregresivo dentro del sistema ESTAD requiere ejecutar los siguientes pasos, a partir de haber seleccionado la opción correspondiente, en el menú de Series de Tiempo:
 
a) Definición de la variable de la memoria de trabajo que contiene la serie de tiempo a considerar en el proceso (siguiendo el procedimiento descripto en ).
 
b) Definición optativa de las posiciones de la memoria de trabajo donde se almacenarán los valores estimados de la serie y los correspondientes residuos, mediante el procedimiento descripto en .
 
c) Ingreso del parámetro p que define el número de términos autorregresivos del modelo.
 
d) Ingreso del número de ciclos de iteración a considerar.
 
e) El computador ejecuta el proceso iterativo para el cálculo de los parámetros del modelo, a cuya finalización presenta en pantalla los siguientes resultados:
 
- Valores finales de los parámetros del modelo AR(p).
 
- Para cada período de la serie considerada, su valor experimental, el estimado por el modelo y el correspondiente residuo.
 
- Los indicadores de evaluación del ajuste logrado por el modelo.
 
El computador almacena asimismo en la memoria de trabajo los valores estimados y residuos, si en el paso b) se definieron las posiciones correspondientes.
 
f) Selección optativa de un proceso complementario, de manera similar a los pasos f) a h) de los modelos de ajuste (sección 18.2).
 
 
En el Cuadro 18.6 se indica la aplicación de los pasos anteriores a la serie de pasajeros mensuales (PASAJ). Esta serie tiene una componente de tendencia significativa, por lo que el proceso se efectúa sobre la primera diferencia de sus valores, cuya determinación se ha efectuado previamente, utilizando la opción correspondiente dentro del módulo de Manejo de Datos. Esta diferencia se almacena en la variable DifPas.
CUADRO 18.5 - PROCEDIMEINTO DE LOS MODELOS AUTORREGRESIVOS AR(p)
 
 
Modelo de xt+1= 1xt+ 2xt-1+...+ jxt-j+
Predicción +...+ pxt-p+1
 
siendo 1 a p coeficientes que se estiman a partir de una serie de valores conocidos x1 a xn de la variable X.
 
Estimación La estimación de valores iniciales de los
de coeficientes coeficientes 1 a p consiste
del modelo directamente en los coeficientes de autocorrelación parcial (vistos en la sección 18.1). A partir de esos valores inicales se aplica el método de Filtrado adaptativo.
Dado el conjunto de valores conocidos de la variable X se van obteniendo estimaciones consecutivas de los coeficientes, recorriendo la serie entre el período p+1 y el n. Para cada período se calcula una nueva estimación de cada coeficnete j mediante la expresión:
 
j" = j' + 2ketxt-j
 
siendo:
j Nuevo valor del coeficiente j en el período t.
j Valor del coeficiente j en el período t-1.
et Error de la estimación de la variable X en el período t mediante el modelo, con los coeficientes estimados en el período t-1.
xt-j Valor de la variable X en el período t-j.
k Constante de adaptación. Debe ser: k<=1/p.
 
El ciclo de estimación de los coeficientes j entre los períodos p+1 y n se repite hasta que no se produzcan disminuciones significativas en el error cuadrático medio para el conjunto de observaciones analizado.
 
 
 
18.4 MODELOS DE DESCOMPOSICION
 
Esta opción del sistema ESTAD permite aplicar a una serie de tiempo el método de descomposición denominado usualmente de Razón a Promedio Móvil, siguiendo para ello los procedimientos descriptos en el Cuadro 18.7 .
 
La aplicación de un modelo de descomposición a una serie contenida en la memoria de trabajo requiere efectuar los siguientes pasos, una vez seleccionada la opción correspondiente en el menú de Series de Tiempo:
 
a) Definición de la variable de la memoria de trabajo con la serie a considerar en el proceso (ver ).
 
b) Selección del tipo de modelo de descomposición a considerar, del siguiente menú:
 
TIPO DE MODELO
 
1 - Multiplicativo
2 - Aditivo
 
 
c) Ingreso del número de períodos de estacionalidad de la serie considerada.
 
d) Interrogación acerca de si se eliminan o no los valores extremos de los cocientes para el cálculo de los coeficientes de estacionalidad.
 
e) Selección de la ley de tendencia a considerar, del siguiente menú:
 
 
FUNCION DE TENDENCIA
 
1 - Ninguna
2 - Estacionaria x=a
3 - Lineal x=a+bt
4 - Potencial x=at b
5 - Exponencial x=ab t
6 - Logísitca x=exp(a+b/t)
 
 
f) Definición optativa de las variables de la memoria de trabajo donde se almacenarán los valores de tendencia, función de tendencia, estacionalidad, aleatoriedad (residuo) y valor estimado por el modelo (ver ).
 
f) El computador efectua el proceso, presentado a su finalización los siguientes resultados en pantalla:
 
- Coeficientes de estacionalidad resultantes.
 
- Coeficientes de la función de tendencia seleccionada.
 
- Valores de cada una de las componentes de la serie analizada, para cada observación.
 
- Indicadores de Evaluación del grado de ajuste logrado por el modelo.
 
El computador almacena asimismo los valores de las componentes para cada observación, en las posiciones de memoria definidas en b).
 
g) Ejecución optativa de un proceso complementario, de manera similar a lo descripto en la sección 18.2 para los modelos de ajuste.
 
 
En el Cuadro 18.8 se incluye un ejemplo de aplicación de los pasos anteriores, en este caso a la serie de pasajeros mensuales (PASAJ), cargada previamente en la memoria de trabajo.
CUADRO 18.7 - MODELO DE DESCOMPOSICION
 
 
Modelo Caso Multiplicativo: xt = TtCtIt
 
Caso Aditivo: xt = Tt+Ct+It
 
siendo:
 
Tt Componente de tendencia en el período t.
 
Ct Componente cíclica en el período t.
 
It Componente de aleatoriedad en el período t.
 
Determinación de las componentes del modelo
 
a) Suavizamiento de la serie original
 
Se aplica a los valores x1 a xn de la serie X un proceso de suavizamiento mediante promedios móviles, tomando como parámetro k el número de períodos de estacionalidad. Si k es par se realiza un segundo proceso de suavizamiento con k=2, para centrar los valores resultantes.
 
Los valores obtenidos del suavizado constituyen una estimación conjunta de las componentes de tendencia y ciclo de la serie, TCt o Tt+Ct.
 
b) Separación de las componentes de tendencia Tt y ciclo Ct
 
En caso de que se quiera separar la componente de tendencia de la del ciclo se ajusta una función de tendencia a los valores TCt o Tt+Ct (estacionaria, lineal, potencial, exponencial, logística) mediante regresión. Los valores obtenidos aplicando la función ajustada a cada período t constituye una estimación Tt de la componente de tendencia Tt. La componente cíclica se obtiene haciendo:
 
Ct = TCt/Tt o Ct = (Tt+Ct) - Tt
 
c) Estimación de la componente de Estcionalidad It
 
La estimación conjunta de la estacionalidad y la aleatoriedad IEt (o It+Et) se obtiene haciendo:
 
IEt = xt / TCt o IEt = xt - TCt
 
A partir de estos valores e puede obtener la componente de estacionalidad It. El estimador Ij para cada período j=1,...,L se calcula como promedio de los valores IEt, IEt+L, IEt+2L,...
 
A fin de hacer más robusta la estimación de la componente de estacionalidad puede eliminarse del cálculo los valores menor y mayor de IEt, en cada período t.
 
 
APENDICE 1
 
ESTRUCTURA DE LOS PROGRAMAS
DEL SISTEMA ESTAD
 
 
El sistema ESTAD está formado por un programa principal y un conjunto de programas separados, que son llamados por aquél. Ellos son:
 
- Programa principal ESTAD
- Módulo ESTAD1
- Módulo ESTAD2
- Módulo ESTAD3
- Módulo ESTAD4
- Módulo ESTAD5
- Módulo ESTAD6
- Módulo ESTAD7
- Módulo ESTAD8
 
 
En este apéndice analizamos las características generales de estos programas y la estructura de cada uno de ellos, útil en principio para programadores que deseen efectuar modificaciones en el sistema, o usar algunas de sus rutinas en programas desarrollados para aplicaciones específicas.
 
 
A1.1 CRITERIOS DE DISEÑO DE LOS PROGRAMAS
 
Los programas que constituyen el sistema ESTAD se han construido en lenguaje BASIC intérprete. Dentro de las posibilidades que brinda este lenguaje cada uno de los programas se ha diseñado de manera modular, tratando de definir rutinas separadas para cada proceso específico considerado. Asimismo, en las rutinas extensas, se han definido sectores consecutivos que constituyen pequeñas unidades de programa. En estos casos no existen bifurcaciones del programa que dentro de un sector salten a otro.
 
Por otra parte, cuendo en programas diferentes se llevan cabo funciones semejantes se utilizan las mismas rutinas, que mantienen su numeración.
 
Se ha buscado utilizar criterios de diseño lo más homogéneos posibles entre las dieferentes rutinas que constituyen cada programa.
 
Las pantallas de ingreso y las salidas se han resuelto de la manera más simple posible compatible con su adecuación al uso, de manera de hacer más sencillo el programa resultante.
 
Los divsersos programas intercambian unicamente los datos básicos necesarios a través de un área de COMMON.
 
 
A1.2. ESTRUCTURA DE LOS PROGRAMAS
 
Programa ESTAD
 
El programa principal, denominado ESTAD, tiene como funciones:
 
a) Definir los sectores de la memoria interna que constituyen la memoria de trabajo.
 
b) Presentar al usuario el menú de selección del tema a ejecutar y, a partir de ello, llamar al módulo de programa correspondiente.
 
c) Permitir la modificación de los parámetros del sistema.
 
 
Programa ESTAD1
 
Este módulo tiene por función efectuar los diversos manejos de datos que contempla el sistema, mostrándose su organización en el Cuadro A1.1 . Las rutinas específicas que componen el módulo son:
 
EST1 Rutina inicial de Manejo de Datos
Su función es la de presentar el menú de Manejo de Datos y llamar a las rutinas correspondientes.
 
EST11 Ingreso de datos
Sirve de control para los diversos tipos de ingreso y modificación de datos
 
EST111 Ingreso de datos por Observación
Efectua el ingreso de datos desde el teclado a la memoria de trabajo, observación a observación.
 
EST112 Ingreso de datos por variable
Idem a la anterior, variable a variable.
 
EST113 Inserción de Observaciones
Ejecuta la inserción de una o más observaciones en la memoria de trabajo.
 
EST114 Eliminación de observaciones
Efectúa la eliminación de observaciones del juego de datos contenido en la memoria de trabajo.
 
EST12 Grabación de Archivo
Lleva a cabo la grabación de un juego de datos existente en la memoria de trabajo a un archivo residente en un dispositivo de memoria externa.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
EST121 Definición de variables para grabación
Su función es la definición por el usuario de las variables del archivo de datos, a considerar en la grabación.
 
EST13 Lectura de datos
Efectúa la lectura de un juego de datos de un archivo externo a la memoria de trabajo.
 
EST14 Unión de Archivos
Su función es la de presentar el menú para la selección del tipo de unión de archivos a realizar (por variables, por observaciones, por mezclado o creación de subarchivo).
 
EST141 Proceso de unión
Ejecuta el proceso específico de unión definido en la rutina enterior.
 
EST15 Salida de datos
Efectúa la salida de datos de un cierto conjunto de observaciones contenido en la memoria de trabajo, o en un archivo externo, ya sea por pantalla, por impresora o a un archivo externo.
EST16 Selección de datos
Su función es la de definir una condición de seleción sobre los datos contenidos en la memoria de trabajo, a ser considerada por todo proceso posterior que se realice sobre ellos.
 
EST17 Transformación de datos
Se utiliza para presentar el menú con las diferentes opciones de transformación abarcadas por el sistema.
 
EST171 Transformación mediante una función
Obtiene el valor de una nueva variable en la memoria de trabajo mediante una función que puede involucrar otras variables contenidas en ella.
 
EST172 Normalización
Ejecuta la normalización de los valores de una variable existente en la memoria de trabajo, colocando los valores resultantes en ésta.
 
EST173 Recodificación
Idem a la anterior, pero ahora considerando la recodificación de los valores de una variable, mediante una tabla de equivalencias.
 
EST174 Corrimiento/Diferencia
Efectúa las operaciones de corrimiento o de diferencia sobre los valores de una variable de la memoria de trabajo.
 
EST175 Cálculo de Rangos
Tiene como función ejecutar los cálculos previos para la determinación de los rangos de una variable.
 
EST176 Cálculo de variables indicatrices
Efectúa el cálculo de las variables indicatrices asociadas a una cierta variable de la memoria de trabajo.
 
EST177 Determinación de rangos
Realiza el cálculo efectivo de los rangos asociados a un conjunto de valores de una variable de la memoria de trabajo.
Programa ESTAD2
 
Este módulo tiene por función ejecutar los procesos de Análisis Básico de Datos comprendidos en el sistema ESTAD.
 
En el Cuadro A1.2 se muestra la organización general de rutinas del módulo, describiéndose sinteticamente a continuación la función de cada una de ellas.
 
EST2 Inicio del proceso de Análisis Básico de datos
Efectúa la presentación del menú de opciones del tam, llamando a las rutinas correspondientes.
 
EST21 Cálculo de estadísticas básicas
Realiza el proceso de cálculo de estadísticas básicas.
 
EST211 Cálculo de Estadísticas básicas
Tiene como función el cálculo del valor medio, del desvío estándar y de los valores máximo y mínimo para un conjunto de datos de una variable contenida en la memoria de trabajo.
 
EST212 Cálculo de mediana, asimetría y curtosis
Efectúa el cálculo de las estadísticas mencionadas.
 
EST213 Cálculo de covariancias y Correlaciones
Realiza el cálculo de las covariancias y coeficientes de correlación para dos variables relacionadas de la memoria de trabajo.
 
EST22 Clasificación de Datos
Tiene por función organizar el proceso de clasificación y efectuar la salida de sus resultados.
 
EST221 Ingreso valores de clasificación
Mediante ella el usuario efectua el ingreso de los valores a considerar de las variables de clasificación.
 
EST222 Proceso de clasificación
Realiza el proceso de clasificación de un conjunto de datos residente en la memoria de trabajo.
 
EST223 Verificación independencia en la clasificación
Ejecuta el proceso de veriificación de independencia con los resultados de un proceso previo de clasificación.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
EST23 Estadísticas datos clasificados
Realiza el cálculo del valor medio y desvío estándar por grupos de un conjunto de datos.
 
EST24 Graficación
Su función es la de organizar la graficación de un conjunto de datos.
 
EST241 Proceso de graficación
Efectúa el proceso específico de graficación de un conjunto de datos residente en la memoria de trabajo.
 
 
Programa ESTAD3
 
Este módulo de programa lleva a cabo todos los procesos dentro del tema Distribuciones de Probabilidad. La organización de sus rutinas se presenta en el Cuadro A1.3 . Las rútinas propias del módulo son las siguientes.
 
EST3 Rutina Inicial de distribuciones de probabilidad
Efectúa la presentación en pantalla del menú de opciones y llama a las rutinas específicas de cada proceso.
 
EST30 Selección de Distribución
Mediante ella el ususario selecciona la distribución específica a considerar en un dado proceso
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
EST31 Cálculos con funciones de probabilidad
Realiza los procesos que involucran cálculos con funciones de probabilidad.
 
EST32 Ajuste de distribuciones
Tiene por función ejecutar el proceso de ajuste de valores contenidos en la memoria de trabajo a una cierta distribución experimental.
 
EST33 Generación de variables aleatorias
Efectúa la generación de valores aleatorios de una cierta distribución.
 
EST300 Llamada a una distribución específica.
EST301 Distribución Uniforme Continua
EST302 " Normal.
EST303 " Exponencial.
EST304 " Erlang.
EST305 " Log-normal
EST306 " Chi2.
EST307 " t.
EST308 " F.
EST309 " Normal Autocorrelacionada.
EST310 " Normal bidimensional.
EST311 " Uniforme Discreta.
EST312 " Binomial.
EST313 " Binomial negativa.
EST314 " Poisson.
Programa ESTAD4
 
Este módulo maneja todos los procesos vinculados a la ejecución de pruebas estadísticas mediante el sistema. La organización de sus rutinas se muestra en el Cuadro A1.4, enumerándose a continuación aquellas que son específicas del módulo.
 
EST4 Rutina inicial de Distribuciones de Probabilidad
Posibilita la selección por el usuario de un proceso específico y llama a la rutina correspondiente.
 
EST40 Ingreso de datos
Efectua la definición de datos, cuando ellos no provienen de la memoria de trabajo.
 
EST41 Pruebas paramétricas
Permite que el usuario seleccione una prueba paramétrica específica y llama a la rutina correspondiente.
 
EST410 Presentación estadísticas muestras
Es utilizada por otras rutinas para presentar los valores de las estadísricas descriptivas utilizadas en las pruebas.
EST411 Prueba sobre Mu
EST412 " " Sigma.
EST413 " " Mu1-Mu2 (variables independ.)
EST414 Prueba sobre Sig1/Sig2
EST415 " " Mu1-Mu2 (variables relacion.)
 
EST42 Pruebas Paramétricas
Permite que el usuario seleccione una prueba no paramétrica específica y llama a la rutina correspondiente.
 
EST421 Prueba de Mann-Witney
EST422 " Wilcoxon
EST423 " Spearman
 
 
Programa ESTAD5
 
Este módulo abarca los procesos de Análisis de variancia considerados en el sistema. La organización de sus rutinas se muestra en el Cuadro A1.5, mientras que las rutinas específicas que la componen se enumeran seguidamente.
 
EST5 Rutina inicial de Análisis de Variancia
Efectua el manejo inicial del tema y llama a la rutina siguiente.
 
EST5 Proceso de análisis de variancia
Ejecuta el proceso de Análisis de variancia sobre un conjunto de datos residente en la memoria de trabajo.
 
EST511 Cálculo de valores estimados y residuos
Realiza el cálculo de valores estimados y residuos a posteriori de la ejecución de un proceso de Análisis de variancia.
 
EST512 Comparación de medias por grupos
Efectúa la comparación de medias de dos grupos de observaciones, a posteriori de la ejecución de un proceso de Análisis de Variancia.
Programa ESTAD6
 
Este módulo tiene por función ejecutar todos los procesos que contempla el sistema ESTAD referidos al tema de regresión. La organización de las rutinas que actúan en el módulo se muestra en el Cuadro A1.6, enunciándose seguidamente las rutinas propias del módulo.
 
EST6 Inicio Regresión
Permite que el usuario seleccione un dado proceso de regresión y llama a la rutina correspondiente.
 
EST601 Resolución de Ecuaciones Lineales
Resuelve un sistema de ecuaciones lineales.
 
EST61 Regresión Lineal
Ejecuta un proceso de regresión lineal, o de una transformable a este caso, sobre un conjunto de datos residente en la memoria de trabajo.
 
EST612 Cálculo de desvíos cuadráticos
Efectúa el calculo de los desvíos cuadráticos entre un conjunto de valores de una variable existentes en la memoria de trabajo y los correspondientes estimados mediante un modelo de regresión.
 
EST613 Cálculo de Y estimado
Realiza el cálculo del valor estimado de la variable dependiente Y para valores definidos de las variables independientes, considerando un dado modelo de regresión.
 
EST614 Cálculo de coeficientes de correlación
Ejecuta el cálculo de los coeficientes de correlación entre las variables consideradas en la regresión.
 
EST615 Análisis de Variancia
Efectúa un Análisis de variancia de la regresión.
 
EST616 Prueba de Durbin-Watson
Tiene por función ejecutar la prueba de Durbin-Watson sobre los residuos de un propceso previo de regresión.
 
EST617 Cálculo de valores estimados y residuos
calcula los valores estimados y residuos mediante un modelo de regresión para un conjunto de variables residentes en la memoria de trabajo.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
EST618 Predicción de valores de Y
Efectúa la predicción del valor de la variable dependiente para nuevos valores de las variables independientes.
 
EST62 Regresión no Lineal
Lleva a cabo un proceso de regresión no lineal sobre un conjunto de variables residentes en la memoria de trabajo.
 
EST621 Minimización de una función
Efectúa la minimización numérica de una función.
 
 
Programa ESTAD7
 
El módulo contiene la ejecución de los diversos procesos de Análisis Multivariado abarcados por el sistema ESTAD. Su organizacón se muestra en el Cuadro A1.7 y sus rutinas propias se enumeran seguidamente.
 
EST7 Rutina Inicial de análisis Multivariado
Presenta al usuario los diversos procesos disponibles y llama a las rutinas correspondientes.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
EST71 Análisis de Componentes Principales
Efectúa el proceso de Análisis de Componentes Principales sobre un conjunto de datos residente en la memoria de trabajo.
 
EST711 Cálculo de Valores y Vectores propios
realiza el cálculo de los valores y vectores propios de una matriz simétrica.
 
EST712 Cálculo de valores de componentes
Tiene por función calcular los valores de las componentes principales para un conjunto de datos residente en la memoria de trabajo.
 
EST713 Graficación de Variables según componentes
Efectúa la graficación de las variables consideradas en el análisis a partir de los coeficientes de las primeras dos componentes.
 
EST72 Análisis Discriminante Lineal
efectúa un proceso de dicriminación lineal sobre un conjunto de datos contenido en la memoria de trabajo.
 
EST721 Clasificación de Observaciones
A posteriori de un proceso de clasificación realiza la clasificación de una nueva observación.
EST73 Agrupamiento Jerárquico
Se lleva a cabo un proceso de agrupamiento jeráquico de un conjunto de observaciones contenidas en la memoria de trabajo o definidas ad-hoc.
 
 
Programa ESTAD8
 
Este módulo lleva a cabo los procesos relacionadso con series de tiempo incluidos en el sistema ESTAD. La organización de las rutinas del módulo se indica en el Cuadro A1.8, mientras que la enumeración de las rutinas propias del módulo se efectúa seguidamente.
 
EST8 Rutina inicial de Series de Tiempo
permite que el usuario seleccione un proceso específico y llama a la rutina correspondiente.
 
EST81 Análisis Descriptivo de Series de Tiempo
Mediante ella el usuario selecciona un proceso específico de análisis descriptivo y llama a la rutina correspondiente.
 
EST811 Cálculo de Coeficientes de Correlación
Realiza el control de los procesos de cálculo de coeficientes de correlación en series.
 
EST812 Cálculo de coeficientes de autocorrelación
Efectúa el cálculo de los coeficientes de autocorrelación para una serie contenida en la memoria de trabajo.
 
EST813 Idem, de autocorrelación parcial
 
EST814 Idem, de autocorrelación cruzada
 
EST815 Suavizamiento de series
Realiza un proceso de suavizado de una serie contenida en la memoria de trabajo.
 
EST82 Modelos de Ajuste
Organiza la selección por el usuario de un modelo específico de ajuste y el llamado a la rutina correspondiente.
 
EST821 Promedios Móviles
EST822 Ajuste Exponencial
EST823 Ajuste Exponencial con tendencia
EST824 Ajuste Exponencial con tendencia y Estacionalidad
 
EST825 Predicción de valores de una serie
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
EST83 Modelos Autorregresivos
Tiene por función la resolución de un modelo de filtrado adaptativo sobre uns serie contenida en la memoria de trabajo.
 
EST831 Predicción
Realiza la predicción de nuevos valores de la serie considerada, a partir de la resolución de un dado modelo autorregrasivo.
 
EST84 Métodos de Descomposición
Lleva a cabo un proceso de descomposición en componentes de una serie existente en la memoria de trabajo.
 
EST841 Predicción
Ejecuta la predicción de nuevos valores de una serie, a partir de haber establecido previamente modelos de sus componentes.
LISTADO DE VARIABLES PRINCIPALES DE LOS MODULOS DE PROGRAMA
 
A(I,J) Memoria de trabajo del sistema. Cada valor I representa una observación y cada valor J la posición de una variable.
 
CO Posición máxima de variables definidas en un juego de datos.
 
DDA$ Dispositivo de memoria externa donde se encuentran los archivos de datos y/o de resultados.
 
I Número de orden de una observación.
 
J Posición de una cierta variable en un juego de datos.
 
JF Posición de variable donde se encuentran el número de observaciones correspondeinte a cada fila de un juego de datos de tipo agrupado.
 
JX(K) Posición de variable en la memoria de datos A() para la variable K definida en un cierto proceso.
 
K
 
ND Número de observaciones coorespondiente a una dada fila de datos de tipo agrupado.
 
NF Número de filas de un cierto juego de datos.
 
NV
 
NX
 
 
APENDICE 2
 
ARCHIVOS DE DATOS
EN EL SISTEMA ESTAD
 
 
 
Todos los archivos que considera el sistema ESTAD son de tipo secuencial, grabados en código ASCII. Debido a ello pueden ser leidos y modificados mediante un programa editor.
 
El sistema maneja dos tipos de archivos: de datos, con diversas variantes, o de resultados, todos los cuales se describen en las secciones siguientes.
 
 
1. ARCHIVOS DE DATOS EN FORMATO ESTAD
 
Este formato es el que se utiliza de manera normal en el sistema para el manejo de archivos de datos estadísticos. Su forma de geabación es libre, es decir, los diferentes datos dentro de un mismo registro no utilizan posiciones fijas, sino que unicamente deben estar separados entre sí por un blanco.
 
El contenido del archivo es el siguiente, donde cada guión corresponde a un registro, separado del anterior por un caracter "Enter". Junto a cada dato se indica entre paréntesis si es de tipo numérico o alfabético.
 
- Descripción del archivo (alfabético).
 
- Número k de variables que contiene el archivo (numérico).
 
- Nombre de la variable 1 (alfabético).
 
- .....
 
- Nombre de la variable k (alfabético).
 
- Datos de la observación 1 para las k variables (numéricos).
 
- ...
 
- Datos de la observación n para las k variables (numéricos).
 
 
Estos archivos, salvo que el usuario especifique otra, llevan en su nombre la extensión ".EST".
 
En el Cuadro A2.1 se muestra el archivo AMERLAT.EST tal como se lee en un programa editor. Para su creación se requirió el ingreso de los datos a la memoria de trtabajo, mediante el teclado, y la grabación con ellos de un archivo.
 
2. ARCHIVOS DE DATOS EN FORMATO LOTUS
 
El sistema puede manejar (leer o grabar) archivos en código ASCII en un formato compatible con el sistema LOTUS. Ello es posible considerando los tipos de archivos que el sistema LOTUS maneja con la extensión ".PRN".
 
Estos archivos pueden ser creados por el sistema LOTUS con datos contenidos en la planilla de trabajo, mediante la opción de proceso /Print Files, y ser leidos por el sistema ESTAD. A su vez, éste incluye una opción para crearlos, pudiendo entoncesa ser leidos por el sistema LOTUS, mediante la opción /Files Import y cargados en su planilla de trabajo.
 
En el manejo de estos archivos el sistema ESTAD considera dos variantes: que en la primera fila del archivo se incluyan los nombres de las variables o que ello no ocurra, conteniendo entonces dicha fila los datos para la primera observación..
 
Los archivos de tipo ".PRN" se graban en formato fijo, siendo el contenido de sus registros el siguiente:
 
- Optativamente, los nombres de las variables involucradas (alfabéticos)
 
- Datos de la observación 1, para todas las variables.
 
- ...
 
- Datos de la observación n, para todas las variables.
 
En el Cuadro A2.2 se muestra la organización de un archivo tipo ".PRN" correspondiente al juego de datos sobre paises de América Latina (AMERLAT.PRN), tal como aparece en un programa editor después de haber sido creado por la opción de grabación del sistema ESTAD.
 
 
3. ARCHIVOS ASCII
 
Estos archivos se identifican en el sistema ESTAD mediante la extensión ".ASF" y son practicamente similares a los de tipo ".PRN" vistos anteriormente. A diferencia de ellos generan en formato libre, con cada dato dentro de un registro separado por uno o más blancos.
 
los archivos de tipo ".ASF" puede ser generados por el sistema ESTAD para ser leidos por otro sistema, o por un programa desarrollado ad-hoc. A la inversa, el sistema ESTAD puede leer este tipo de archivos en el caso de haber sido creados por otros sistemas o programas.
 
En ellos también es optativa la unclusión o no en su primer registro de los nombres de las variables que contiene, siendo el contenido de sus registros similar al de los archivos tipo ".PRN".
En el Cuadro A2.3 se muestra un ejemplo de este tipo de archivo, para el mismo juego de datos que los ejemplos anteriores (AMERLAT.ASF), creado mediante la opción de grabación del sistema ESTAD. En este caso no se ha incluido el nombre de las variables en su primer registro.
 
 
4. ARCHIVOS DE RESULTADOS
 
El sistema ESTAD contempla la posibilidad de obtener archivos con los resultados de la ejecución de procesos. Dichos archivos se graban en formato ASCII, estando constituido cada uno de sus registros por 80 caracteres de texto, en la misma disposición que las salidas de resultados por pantalla.
 
En el Cuadro A2.4 se muestra un ejemplo de un archivo de resultados, tal cual como se puede observar en un editor. En este caso el archivo contiene resultados de un proceso de regresión lineal, sobre el juego de datos AMERLAT.
 
 
APENDICE 3
 
MENSAJES DE ERROR
DEL SISTEMA ESTAD
 
 
 
Durante la ejecución del sistema ESTAD pueden producirse condiciones de error que determinan que el sistema no pueda proseguir el proceso en curso, requiriendo una intervención del usuario para superarlas. Cuando ello ocurre la ejecución del sistema se detiene, apareciendo un mensaje de error en pantalla y....
 
A continuación se enumeran los mensajes de error contemplados en el sistema, así como posibles causas y las acciones correspondientes esperadas del usuario.
 
** Dispositivo de memoria externo A,B,... no disponible, o error de E/S.
Surge cuando existe un problema físico en el dispositivo involucrado que impide la grabación o lectura de un archivo en él (por ejemplo, no existencia de diskete, puerta abierta, diskete protegido, disco dañado, dispositivo no existente, etc).Se deben revisar las condiciones del dispositivo involucrado y reintentar la operación.
 
** Disco lleno.
Surge en en un caso de grabación de un archivo, cuando el dispositivo involucrado no tiene capacidad suficiente para alojarlo. Se debe cambiar el soporte involucrado o aumentar el espació de grabación disponible en él y reiterar la grabación.
 
** Archivo no existente en el dispositivo A,B,... .
Surge cuando se quiere leer un archivo y éste no se encuentra en el dispositivo definido.Se debe cambiar el medio de memoria externa leido y reiterar la lectura.
 
** Fin de Archivo.
Aparece cuando en un proceso de lectura de un archivo +este termina antes de lo previsto en las condiciones de lectura. Después del mensaje el programa continua su ejecución.
 
** Problemas en impresora.
Puede deberse a que la impresora no se encuentra activa, a falta de papel, etc. Se debe resolver el problema y reintentar la impresión.
 
** Memoria no suficiente.
Ocurre cuando, debido a los valores definidos de los parámetros se excede la capacidad de memoria interna del intérprete BASIC. Se deben reducir los valores de algunos de los parámetros.
** Error en expresión.
Aparece cuando existe un error de sintaxis en una expresión ingresada como función de transformación o como condición de selección. Se debe corregir la expresión y volver a ingresarla.
 
** Desborde ("overflow").
Implica que el resultado de algún cálculo está fuera del rango -1.7E38/1.7E38. Después del mensaje continua la ejecución del programa.
** División por Cero.
Implica que el programa intenta realizar una división por cero. Después del mensaje continua la ejecución del programa.
 
** Valor ingresado no admisible.
El valor ingresado no se encuentra dentro de los posibles para el dato involucrado. Se requiere reingresar un nuevo valor.
 
** Número definido de variables no adecuado para el proceso.
El número de variables definido para ejecutar un cierto proceso no resulta aceduado. Se debe redefinir las variables a considerar.
 
** Variable no existente.
Surge cuando se define una posición de la memoria de trabajo que no está ocupada por ninguna variable. Se debe efectuar el ingreso de otra posición.
 
** Error.......
En cualquier otra condición de error diferente a las anteriores aparece el código de error definido en el intérprte BASIC.
 
 
APENDICE 4
 
EJEMPLOS DE DATOS ESTADISTICOS
 
 
 
En la descripción de la operación del sistema ESTAD se utilizan varios juegos de datos extraidos de situaciones reales, los que se describen a continuación.
 
 
1. DATOS SOCIOECONOMICOS DE LOS PAISES DE AMERICA LATINA
 
Este juego de datos, contenido en el archivo AMERLAT.EST, abarca un conjunto de variables sociales y económicas para los 20 paises de América Latina. Los datos, que corresponden aproximadamente al período 1983-1987, han sido extraidos de informes diversos del banco Mundial (ver Ref. ).
 
Las variables consideradas en el juego de datos son:
 
Posición Nombre Descripción
--------------------------------------------------------------
1 GRUPO Grupo de país definido por el Banco Mundial.
 
2 SUPERFIC Superficie del pais, en miles de Km2.
 
3 POBLACION Población, en miles de habitantes
 
4 PBN/CAP Producto Bruto Interno, per cápita, en u$s.
 
5 CRECPBN% Crecimiento porcentual anual del PBN.
 
6 %PBAGRIC Porcentaje de participación del sector agrícola en el PBN.
 
7 %PBIND Idem, sector industrial.
 
8 %PBSERV Idem, sector servicios.
 
9 %MOAGRIC Porcentaje del total de mano de obra en el sector agrícola.
 
10 %MOIND Idem, sector industrial.
 
11 %MOSERV Idem, sector servicios.
 
12 ENER/CAP Consumo de energía per cápita.
 
 
13 Posición vacia.
 
14 %CRECPOB Porcentaje anual de crecimiento de la población.
 
15 %POBURB Porcentaje de población urbana, del total.
 
16 %CRPOBUR Procentaje anual de crecimiento de la población urbana.
 
17 ALFABET Porcentaje de alfabetización.
 
18 CAL/CAP Calorías promedio per cápita, en número índice con respecto a un nivel de equilibrio igual a 100.
 
19 ESP.VIDA Esperanza promedio de vida, en años.
 
20 MORTINF Tasa de Mortalidad infantil, en por mil de nacidos vivos.
 
21 MED/HAB Medicos más auxiliares médicos por mil habitantes.
 
 
2. DATOS DE UNA MUESTRA DE NACIMIENTOS EN LA CIUDAD DE BUENOS AIRES
 
Este juego de datos involucra valores de un conjunto de variables medidas sobre los nacidos y sobre sus padres, para una muestra de 230 nacimientos en la Ciudad de Buenos Aires ocurridos durante julio de 1985. Los datos han sido obtenidos de la Dirección de Estadística de la Municipalidad de Buenos Aires.
 
Las variables involucradas son:
Posición Nombre Descripción
----------------------------------------------------------
1 TIPOHOSP Tipo de hospital donde ocurrió el nacimiento (1: hospital público, 2: centro privado o de obra social).
 
2 SEXO 1: masculino, 2: femenino.
 
3 TPOGEST Tiempo de gestación, en semanas.
 
4 PESO Peso al nacer, en Kg.
5 EDADMD Edad de la madre, en años.
 
6 LNACMAD Lugar de nacimiento de la madre.
 
7 RESID Lugar de residencia de la madre (1: Capital Federal, 2: Gran Buenos aires, 3: otra localización).
 
8 INSTMAD Nivel de instrucción de la madre (1:sin instrucción; 2: primaria incompleta; 3: primaria completa; 4:secundaria incompleta; 5: secundaria completa; 6: terciaria incompleta; 7:terciaria completa).
 
9 ANSCASAM Años desde el casamiento.
 
10 HIJTOT Numero total de hijos, incluyendo el nacido.
 
11 ACTMAD Actividad de la madre.
 
12 EDADPAD Edad del padre, en años
 
13 LNACPAD lugar de nacimiento del padre.
 
14 INSTPAD Nivel de instrucción del padre, usando la misma escala que para el nivel de instrucción de la madre.
 
15 ACTPAD Actividad del padre.
 
 
3. DATOS DE UNA SERIE DE PASAJEROS AEREOS MENSUALES
 
Este juego de datos contiene los niveles de pasajeros aéreos transportados mensualmente en vuelos internos en la Argentina, durante el período 1982-1988.
 
las variables consideradas en el juego de datos son:
 
Posición Nombre Descripción
----------------------------------------------------------
 
1 PASAJEROS Volumen de pasajeros mensuales transportados en vuelos internos.