Estadística en Microcomputadores/Manejo de los datos estadísticos

1.4 MANEJO DE LOS DATOS ESTADISTICOS

En las aplicaciones computacionales los datos estadísticos pueden ser objeto de manipulaciones diversas, debido a requerimientos propios de la herramienta utilizada o aprovechando las facilidades que ella permite.

Así, se definen procesos como el ingreso manual de datos al computador, su modificación una vez contenidos en él, su almacenamiento en archivos residentes en soportes magnéticos externos, la gestión de estos archivos, la transformación de los datos para obtener nuevas variables, la eventual selección de una parte de los datos a utilizar en una cierta aplicación y la consideración de datos faltantes.

1.4.1 Ingreso y modificación de datos - Archivos

Los datos que se van a utilizar en un determinado proceso deben previamente encontrarse disponibles en el computador. Las alternativas posibles para ello son: el ingreso manual mediante el teclado del equipo, su ingreso mediante la adaptación de un archivo externo proveniente de otra aplicación, o la utilización como datos de resultados obtenidos por el computador en procesos estadísticos anteriores.

Los juegos de datos que se ingresan al computador requieren ser almacenados en un archivo residente en un soporte de memoria externo (en general un disco flexible o rígido), ya sea para que puedan ser utilizados por un dado proceso o para su uso en una aplicación posterior.

1.4.2 Transformación de datos

Dentro de las aplicaciones estadísticas resulta en muchos casos necesario modificar los valores experimentales de una o más variables, a fin de satisfacer así ciertas condiciones de la técnica utilizada, o para obtener nuevas variables, no medidas experimentalmente, pero de interés para el análisis estadistico considerado.

La utilización del computador permite efectuar transformaciones de datos de manera muy directa, inclusive en forma interactiva en el curso de un análisis estadístico, sin que necesariamente se modifiquen los datos originales. De ellas presentamos a continuación las más relevantes.

a) Transformaciones mediante una función

Mediante este criterio de transformación se obtienen valores de una nueva variable utilizando una función algebraica en la que intervienen otras variables del conjunto de datos considerado. En general la función se aplica observación a observación. Así, para una observación i, el valor de una nueva variable Z resulta:

zi = f( xi, yi, wi, ...)

siendo X, Y, W, ...., otras variables del mismo juego de datos. La estructura de la función f() puede ser arbitraria, aunque existen algunos casos particulares de interés, entre los cuales se destacan los siguientes:

- Normalización: mediante esta transformación

se obtienen valores de una variable U a partir de los de otra X, considerando la siguiente función:

ui = ( xi - x ) / s

siendo x la media aritmética y s el desvío estándar de la variable X (ver capítulo 6). Esta transformación es muy importante en Estadística y uno de sus usos principales es para homogeneizar variables con escalas diferentes en un dado conjunto de observaciones.

- Escalamiento ("scaling"): esta transformación permite transformar linealmente los valores de una variable X de manera que su valor mínimo y máximo sean valores prefijados k1 y k2:

yi= (xi-xMIN)(k2-k1)/(xMAX-xMIN)+k1

- Diferencia: transformación que se aplica usualmente a datos tipo serie de tiempo y que implica obtener valores de una nueva variable como diferencia de valores consecutivos de otra variable X:

yi = xi - xi-1

- Corrimiento ("lagging"): también aplicada en general a series de tiempo esta transformación permite obtner nuevos valores en función de valores corridos de otra variable:

yi = xi-k

siendo k un entero, positivo o negativo

b) Recodificación En este tipo de transformación los nuevos valores de una variable Y se obtienen a partir de los de otra X mediante una función de transformación constituida por una tabla de equivalencias entre valores:

Valor de X Valor de Y

xA yA

xB yB

...... .......

xZ yZ

Mediante la recodificación resulta posible modificar las categorías establecidas para una variable cualitativa, o transformar la medición cuantitativa de una variable en un conjunto de categorías (ordenadas o no).

c) Cálculo de Rangos

Esta es una transformación particular mediante la cual, dado un conjunto de valores de una variable, se obtienen sus rangos correspondientes, constituidos por el número de orden que le corresponde a cada uno de los valores de la variable cuando se ordenan de menor a mayor. De acuerdo a ello, si se tienen n valores de una variable los rangos correspondientes toman valores entre 1 y n.

La obtención de los rangos a partir de un conjunto de observaciones de una variable resulta útil en muchas aplicaciones estadísticas, principalmente asociada a la ejecución de pruebas no paramétricas y técnicas robustas en general, como veremos en capítulos siguientes.

d) Creación de variables indicatrices ("Dummy") Esta transformación permite pasar de una variable cualitativa (nominal u ordinal) con k categorías posibles a un grupo de k-1 variables binarias, que en conjunto representan, para cada observación, la información contenida en la primera variable. Por ejemplo, una variable nominal X con tres valores posibles (1,2 ó 3) se puede transformar en dos variables binarias Y1 e Y2, con valores:

X Y1 Y2

1 0 0

2 1 0

3 0 1

La transformación se puede generalizar a grupos de variables cualitativas, caso en el que cada combinación de valores de éstas define una categoría.

La creación de variables indicatrices resulta útil en algunos procesos estadísticos específicos, principalmente los de Regresión, que requieren para su aplicación variables de tipo cuantitativo (ver capítulo 6). Dentro de este caso son también utilizadas para resolver modelos de Análisis de Variancia mediante técnicas de regresión (ver capítulo 5).

1.4.3 Selección de datos

En las aplicaciones estadísticas aparece frecuentemente la necesidad de efectuar un proceso sólo sobre algunas observaciones de un conjunto de datos que satisfagan cierta condición.

Dicha condicición involucra casi siempre valores que deben tomar algunas de las variables del conjunto de datos analizado, en cada observación.

1.4.4 Manejo de datos faltantes

Cuando se generan o recopilan los datos necesarios para una dada aplicación estadística puede ocurrir que no se obtengan algunos valores individuales, ya sea porque no existen en la información disponible o porque falló el proceso de medición correspondiente.

Las modalidades usuales para manejar esos valores faltantes durante un procesamiento computacional son:

- No consideración en el proceso en curso de la observación que tiene un dato faltante en cualquiera de las variables involucradas.

- No consideración del dato faltante en una observación unicamente cuando en una dada parte del proceso ese dato es necesario.

- Adopción de un cierto valor para el dato faltante (por ejemplo, el promedio de los valores conocidos de la variable o el valor resultante de aplicar un proceso de regresión a las restantes observaciones).