Técnicas Estadísticas para las Ciencias de la Documentación/Inferencia/Contraste de hipótesis

Contraste de hipótesis

editar

El contraste de hipótesis es una técnica de inferencia estadística. Como tal, trata de obtener conclusiones sobre una población (o varias) a partir de datos de una (o varias) muestras.

En pocas palabras, el contraste de hipótesis consiste en un proceso estadístico para comprobar si una afirmación sobre una propiedad poblacional puede sostenerse a la luz de los datos recogidos en una muestra.

También se le denomina test de hipótesis o prueba de significación.

¿Qué es una hipótesis?

editar

En Estadística, una hipótesis es una afirmación (matemáticamente, una expresión lógica) sobre parámetros o sobre la distribución de una población. El método de contraste de hipótesis tiene como objetivo rechazar o aceptar hipótesis, de acuerdo a técnicas estadísticas aplicadas sobre las muestras o las propiedades de la población disponibles.

Si la hipótesis es una afirmación sobre el valor de un parámetro estadístico de la variable aleatoria en estudio, tenemos un test paramétrico. En caso contrario se habla de test no paramétrico.

Ejemplos

editar

Una hipótesis sobre un parámetro puede ser la siguiente:

  •  : La media de la población considerada es menor o igual que 45. En términos matemáticos  .

Por el contrario, las hipótesis no paramétricas se refieren a propiedades de la distribución u otras afirmaciones relativas a una o más poblaciones. La siguiente es un ejemplo:

  •  : la variable aleatoria considerada sigue una distribución Normal. En términos matemáticos:  .

La lógica del contraste de hipótesis

editar

Lo esencial del contraste de hipótesis es la comparación de la hipótesis estudiada con la evidencia obtenida de la muestra (o muestras). Se utilizan técnicas estadísticas para hacer esta comparación, llegando a dos situaciones:

  • Si los datos de la muestra no contradicen la hipótesis, se sigue sosteniendo la hipótesis.
  • Si los datos de la muestra contradicen la hipótesis, se rechaza ésta, y se sostiene la validez de la hipótesis contraria (o alternativa).

Desde el punto de vista del conocimiento (epistemológico), cuando los datos de la muestra no contradicen la hipótesis no podemos afirmar con total garantía que la hipótesis es cierta. Por ejemplo, podría suceder que tomásemos otra muestra y ésta segunda sí que entre en contradicción con la hipótesis. Por lo tanto, la hipótesis es siempre provisional.

Pero la cosa cambia si se mira de la otra forma. Si encontramos que la muestra contradice la hipótesis, podemos considerarla falsa (y por tanto es cierta la alternativa). No obstante, en ambos casos la "contradicción" que los datos pueden dar lugar respecto a la hipótesis es una cuestión de probabilidad. Por ello, la certeza en el contraste de hipótesis es siempre probabilista, y se basa en el concepto de nivel de significación.

Método general

editar

El contraste de hipótesis es una técnica o procedimiento que nos permite determinar si las muestras observadas difieren significativamente de la hipótesis planteada. Dependiendo de la magnitud de esa diferencia, se rechazará la hipótesis planteada o se considerará cierta.

Desde el punto de vista de la lógica científica, si damos por cierta la hipótesis tras el contraste, esta siempre es una certeza provisional, ya que siempre cabe la posibilidad de que al observar otra muestra en el futuro, la diferencia sea tan grande como para rechazar la hipótesis que provisionalmente se había dado por válida.

Paso 1: Planteamiento de la hipótesis nula (y en consecuencia, de la alternativa)

editar

El contraste de hipótesis comienza por el planteamiento de la hipótesis nula, denominada  .

Una vez definida la hipótesis nula, se define la hipótesis alternativa, denominada  . Las dos hipótesis son complementarias (contrarias) y entre las dos deben cubrir todas las posibilidades. En otras palabras, si una de ellas es cierta, forzosamente la otra tiene que ser falsa.

NOTA: En la hipótesis nula cuando se comprueban valores, siempre tiene que figurar la igualdad en la comparación, debido al tipo de técnica matemática utilizada, ya que   es la afirmación concreta que se somete a contraste.

Ejemplos

editar

Siguiendo los ejemplos anteriores:

  • Si  , entonces la alternativa será  .
  • Si  .

Paso 2: Prueba, contraste o test sobre la hipótesis nula

editar

Consiste en partir de las suposición de que la hipótesis nula es cierta, tomar y analizar las muestras y comparar si el resultado empírico de los datos es compatible o coherente o no con la hipótesis nula de partida.

Para ello se recurre a un estadístico de contraste. Un estadístico es siempre función de una muestra. Por ejemplo, si nuestra hipótesis es una afirmación sobre la media poblacional tal como  , entonces el estadístico de contraste que parece lógico utilizar es la media muestral  . El estadístico de contraste debe poseer dos características:

  • Proporciona información empírica relavante a la hipótesis nula.
  • Posee una distribución muestral conocida.

Todo estadístico - como la media muestral - es en sí una variable aleatoria que sigue una determinada distribución muestral. Sobre esa distribución muestral se hará realmente el contraste.

Contraste sobre la distribución muestral

editar

Para proceder al contraste se divide la distribución muestral en dos regiones:

  • Región de rechazo (crítica). Zona de valores del estadístico de contraste que están tan alejados de   que es muy poco probable que ocurren si ésta es verdadera.
  • Región de aceptación. Resto de los valores, que se consideran próximos en cierto grado a  .

Para definir la región crítica, se utiliza un nivel de significación   (que típicamente toma valores 0.10, 0.05 ó 0.01). Si la compatibilidad de la muestra con   es menor que  , llegamos a una contradicción, y la conclusión es que la hipótesis de partida es falsa.

Tipos de errores en el contraste de hipótesis

editar

Todo contraste de hipótesis termina con una decisión de aceptar o rechazar  . Al tomar esa decisión, siempre se corre el riesgo de caer en el error, aunque la probabilidad de hacerlo sea pequeña. Es importante entender dos tipos de errores que pueden darse:

  1. Si se rechazó   y ésta es realmente cierta, se hizo por contraste utilizando un nivel de significación  , es decir, la probabilidad de este error es  . Este es un valor conocido en el propio test de hipótesis, y se denomina error de tipo I.
  2. Si se aceptó   y ésta es realmente falsa, se hizo con una probabilidad que no conocemos por el propio contraste y que llamaremos  .

El error de tipo II depende de varios factores:

  • La verdadera  
  • El valor de  .
  • El tamaño de la desviación típica de la distribución muestral (del estadístico de contraste).


  es cierta   es cierta
  No hay error Error de tipo II
  Error de tipo I No hay error


El concepto de p-valor

editar

La probabilidad de cometer error de tipo I es el nivel de significación   que es realmente un valor que el investigador establece de antemano.

Para facilitar las comparaciones con posibles alternativas de niveles de significación, se introduce el concepto de p-valor (valor crítico) que se define como nivel de significación más pequeño al que una hipótesis nula puede ser rechazada.