Estadística en Microcomputadores/Etapas de aplicación de la regresión

6.2 ETAPAS DE APLICACION DE LA REGRESION

6.2.1 Identificación

En esta etapa de la aplicación de regresión se preselecciona una cierta función de ajuste a los datos experimentales involucrados, a partir de lo cual se puedan estimar los valores numéricos de sus coeficientes y evaluar el grado de ajuste resultante.

A posteriori de dicha evaluación el proceso puede iniciarse nuevamente, seleccionando otra función de regresión, hasta obtener aquélla que se considera más adecuada a los datos y también que tiene significación para el problema en consideración. En este proceso el uso del computador facilita efectuar pruebas repetidas de regresión con diferentes tipos de funciones de ajuste.

Como actividad inicial de la identificación resulta conveniente efectuar un análisis previo de los datos experimentales, ya que además de orientar de alguna manera la elección de ciertos tipos de funciones de regresión posibles, suministra un conocimiento interesante del proceso experimental que generó los datos, útil como marco de referencia en toda la aplicación de la técnica. En este análisis previo de los datos se aplican usualmente las técnicas de análisis descriptivo vistas en el capítulo 2, y dentro de ellas principalmente las de graficación.

6.2.2 Estimación de los coeficientes de la función de regresión

Una vez seleccionada a priori una cierta función f( ) es necesario estimar los valores numéricos de sus coeficientes o parámetros, utilizando para ello la información sobre las variables involucradas contenida en el conjunto de observaciones en estudio.

Teniendo en cuenta la presencia de dichos coeficientes en toda función de regresión podemos reexpresar a ésta genéricamente aplicada a una observación i como:

yi = f(Xi, A) + ei

siendo:

yi Valor de la variable dependiente Y, para la observación i.

Xi Conjunto de valores de las variables independientes, para la observación i.

A Conjunto de coeficientes o parámetros de la función. ei Residuo o error entre el valor estimado y el experimental de la variable Y.

Por ejemplo, considerando una función f( ) lineal, sería:

yi = a0 + a1x1i + a2x2i + ... + akxki + ei

Mediante la estimación se busca encontrar valores A de los coeficientes de la función de regresión que reduzcan al mánimo posible los residuos ei para el conjunto de observaciones analizado.

El método adoptado en general para ello es el denominado de Mínimos Cuadrados, que busca los valores estimados de los parámetros de la función de regresión considerada que hacen mínima la suma de los residuos ei cuadráticos, para el conjunto de observaciones en estudio:

n n

ei2 = [ yi - f(Xi, A) ]2 = mínimo

i=1 i=1

La aplicación del método de Mínimos Cuadrados constituye un problema de optimización, en el que las variables son los coeficientes A, cuya resolución depende de la estructura específica adoptada para la función f( ), como veremos más adelante, al analizar cada caso de regresión.

6.2.3 Verificación del grado de ajuste

La regresión es, dentro del conjunto de técnicas estadísticas, una de las que dispone una mayor variedad de criterios para la verificación del grado de ajuste logrado por el modelo a los datos experimentales utilizados para su definición. De ellos enunciamos seguidamente los que se consideran más frecuentemente en las aplicaciones computacionales.

a) Indicadores de Ajuste

El indicador más directo del grado de ajuste es el desvío estándar de los residuos ei, calculados éstos como diferencia entre los valores experimentales yi y los estimados por el modelo de regresión.

Existe otro indicador global del grado de ajuste del modelo de regresión, el denominado coeficiente de determinación R2, que tiene como ventaja sobre el anterior que se expresa en términos relativos. Dicho coeficiente mide la fracción de la variación de la variable Y que es explicada por el modelo de regresión. R2 puede tomar como máximo el valor 1, si el ajuste de la función a los datos experimentales fuera perfecto, esto es, nulos los errores ei. A su vez, a medida que el ajuste empeora, R2 toma valores menores, alcanzando el valor 0 cuando la función de regresión no explica nada de la variación de la variable Y(estrictamente R2 podría tomar valores menores que 0 en el caso de funciones no lineales, cuando la aproximación que ellas logran es peor que la que da el promedio de los valores de Y). Una formulación alternativa del coeficiente de determinación, que tiene en cuenta el número de variables independientes considerado, frente al número total de observaciones, es el coeficiente de determinación corregido. El coeficiente R2 visto anteriormente siempre aumenta a medida que agregamos nuevas variables independientes en la función de regresión, mientras que ello puede hacer disminuir el valor del R2 corregido.

b) Análisis de Variancia

En la regresión puede aplicarse el concepto de Análisis de Variancia visto en el capítulo 5, adaptado específicamente en este caso a la verificación global del grado de significación de la regresión, equivalente a verificar si la función de regresión es significativa o no para explicar globalmente la variación de los valores experimentales.

Para ello se considera cuanta de la variación total de la variable Y es explicada por el modelo de regresión y cuanta queda como remanente en los residuos ei. Con estas variaciones, y aplicando los criterios del Análisis de Variancia, resulta posible obtener el nivel de significación de la regresión en su explicación de la variación de Y.

Esta aplicación del Análisis de variancia considera al modelo de regresión en conjunto como un único factor y presupone en su aplicación que la variable dependiente Y responde a una distribución normal.

c) Significación de los coeficientes de la función de regresión

El Análisis de Variancia aplicado a la regresión permite verificar la significación del modelo de regresión en su conjunto. Además de esta prueba global se pueden definir otras más específicas, cuyo objetivo es verificar el grado de significación de cada uno de los coeficientes de la función de regresión.

La determinación de dicha significación depende del tipo de modelo de regresión que estemos considerando, como veremos en el tratamiento de los casos específicos.

d) Análisis de los residuos ei Además de las evaluaciones anteriores, un análisis específico que aporta elementos de juicio sobre el grado de ajuste de la regresión a los datos experimentales es el referido al comportamiento de los residuos o errores ei.

Aparte de la información global sobre los residuos suministrada por los indicadores presentados en el apartado a) resulta posible efectuar un análisis más detallado de su comportamiento mediante diversos procedimientos, entre los que se destacan los siguientes:

- Análisis de la distribución de probabilidad a la que se pueden asociar los residuos de la regresión para el conjunto de datos considerado.

- Determinación de coeficientes de autocorrelación de los residuos, como se realiza en el capítulo 8, cuando las observaciones consideradas se ordenan temporalmente.

- Graficación de los residuos en función de Y, Y o alguna de las variables independientes.

Un análisis específico de los residuos, útil en general cuando las observaciones son del tipo serie de tiempos, es la denominada prueba de Durbin-Watson. Mediante la estadística del mismo nombre que se obtiene en la prueba se puede evaluar la significación del grado de relación entre valores consecutivos de los residuos.

6.2.4 Predicción de valores de la variable Y Una vez que se ha verificado el grado de ajuste de un modelo de regresión, uno de sus usos más frecuentes es en la predicción de valores de la variable Y para determinados valores de las variables X1 a Xk. Ello es directo, aplicando dichos valores en la función de regresión y calculando el correspondiente valor estimado yi.

Dado que en general los valores experimentales de la variable Y no responden exactamente a la función de regresión, resulta conveniente obtener alguna medida del grado de variación que puede tener el valor de Y obtenido en la predicción, obteniendo un intervalo dentro del cual se encontraría el valor exacto buscado, basado en el concepto de intervalo de confianza visto en el capítulo 4.

La determinación de dicho intervalo depende del tipo de modelo de regresión considerado, como veremos en las secciones siguientes, pudiéndose aplicar según dos conceptos diferentes del valor estimado yi. El primer caso considera el concepto visto para yi, esto es, el de valor estimado de la variable Y en una cierta observación. El segundo caso considera, en cambio, que yi es un promedio de observaciones con los valores de las variables independientes definidos para la predicción.