Técnicas Estadísticas para las Ciencias de la Documentación/Descripción/Parámetros

Medidas descriptivas

editar

La tabulación y la representación gráfica proporcionan información sobre los individuos de una población o una muestra. No obstante, en ocasiones se busca resumir la infomación en unas pocas medidas. Estas medidas descriptivas, en el caso de que estemos trabajando con una muestra, se denominan estadísticos.

Medidas de posición

editar

Las medidas de posición tratan de resumir la posición en torno a la cual se distribuyen las observaciones. Si la posición que se examina es el centro, se denominan también de centralización (media, mediana, moda).

La media muestral se calcula mediante cualquiera de las siguientes fórmulas:

 

La media poblacional se denota habitualmente como  . El cálculo es igual al caso muestral, pero como habitualmente no se dispone de todos los datos de la población, en muchos estudios se utiliza la media muestral como estimación de la poblacional.

Lógicamente, la media solo tiene sentido en el caso de variables numéricas. En el caso de variables ordinales con representación numérica (como una escala Likert) solo tiene sentido si los diferentes valores de la variable están distribuidos uniformemente, es decir, si la distancia de uno a otro es la misma.


Mediana

editar

La mediana es el dato que ocupa la posición central en una lista ordenada de valores. dicho de otro modo, la mediana divide en dos partes de igual tamaño a los datos. Por ello, la mediana es aplicable a cualquier variable numérica y tembién a variables ordinales. La forma de calcularla es ordenar los datos, y tomar el valor que esté en la posición central:

  1. Si el número de observaciones es impar, estará en la posición  
  2. Si el número de observaciones es par, hay dos valores centrales en   y  . Lo habitual en este caso es dar como mediana la media aritmética entre esos dos valores.

Esta medida es menos sensible a datos atípicos (outlier) que la media, ya que no se calcula por los valores, sino por su posición en la lista ordenada.

La moda (Mo) es el valor (o valores) de mayor frecuencia absoluta. Esta medida es aplicable a cualquier tipo de datos. Si hay más de un valor que sea moda, se denomina a la distribución de los valores bimodal, si hay tres trimodal, etc.

En el caso de que los valores se particionen en intervalos, lo que se proporciona es la estimación del intervalo que contiene más valores o intervalo modal.


Cuantiles

editar

La mediana divide en dos subconjuntos de igual tamaño a los datos. Si se aplica esta misma idea a otras particiones (dividir en cuatro partes, en cien partes, etc.) llegamos al concepto de cuantil.

Cuartiles

editar

Los cuartiles dividen a los datos en cuatro partes, y se suelen denotar como  ,   y  . Así:

  •   es el valor que deja por debajo el 25% de los datos.
  •   es el valor que deja por debajo el 50% de los datos, es decir, la mediana.
  •   es el valor que deja por debajo el 75% de los datos.


Percentiles

editar

Si en lugar de dividir en cuatro particiones los datos se dividen en cien partes, tenemos los percentiles.

Medidas de dispersión

editar

Al grado de heterogeneidad de los valores de una muestra o población se le denomina dispersión. Estas medidas son relativas en el caso de que midan las diferencias de los datos con respecto a una medida de posición como la media. De hecho, la dispersión relativa, por ejemplo, a la media, nos indica cuán representativa es esa media de los individuos de la población.

Recorrido (rango)

editar

El recorrido de una variable para una muestra es la diferencia entre el mayor valor y el menor.

Rango intercuantílico

editar

En general, son diferencias entre cuantiles, para examinar la variación de los valores no para el rango completo sino para subconjuntos de los datos.

El más común es el rango intercuartílico, que es la diferencia entre el primer y el tercer cuartil.


Desviación media

editar

La desviación absoluta de un valor de una variable respecto a la media es  .

Para todos los datos en estudio tendríamos entonces la desviación media como:

 

La desviación media mide al grado de representatividad de la media, cuanto más pequeña sea la desviación, más representativa es la media.

También se puede medir la representatividad de la mediana de igual forma, dando en este caso la desviación media respecto a la mediana.

Varianza y desviación típica

editar

La varianza es la media aritmética de los cuadrados de las desviaciones de los datos respecto a la media.

En el caso muestral se denota como  , mientras que para la población se denota como  

 

Debido a que se elevan al cuadrado las desviaciones, la varianza es siempre un número no negativo. También debido a eso, la varianza no está expresada en las mismas unidades que los valores, por lo que se utiliza a veces en su lugar la medida de desviación típica, que no es otra cosa que la raíz cuadrada de la varianza.

 

Coeficiente de variación

editar

Las medidas como la desviación típica están expresadas en unidades dependientes de la muestra o población considerada. Esto es un inconveniente cuando se quieren comparar diferentes muestras o poblaciones. El coeficiente de variación es una de las medidas relativas que permite ese tipo de comparaciones, y se define de la siguiente forma.

 

Medidas de forma

editar

La observación del gráfico de frecuencias relativas o de los histogramas nos da una idea intuitiva de la forma de la distribución.

Muchas variables siguen una distribución campaniforme, con las frecuencias concentradas en torno a un valor central, y disminuyendo a ambos lados. Para analizar si una distribución tiene forma de campana se recurre a medidas que comparan con la curva Normal (campana de Gauss).

Coeficiente de asimetría

editar

Apuntamiento o Curtosis

editar