Tema 5. Estadística descriptiva.


5.1 MEDICIONES

La Estadística Descriptiva, describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos. En este caso, los resultados del análisis estadístico no pretenden ir más allá del conjunto de datos investigados, es decir, de la muestra o de la misma población de dónde hemos obtenido los datos.

Los cálculos dependen del modelo estadístico que se utilice. En general, y debido a su facilidad, se utilizarán modelos basados en la distribución normal.

Una distribución no es más que una representación gráfica de los resultados obtenidos en una variable. Cuando la distribución de frecuencias es una curva de campana, se describe como distribución normal o de Gauss.

5.1.1 Medidas de Tendencia Central

La medida de la tendencia central usada con mayor frecuencia es la media aritmética. Otras determinaciones de la tendencia central menos conocidas, pero también útiles, son la mediana y la moda.


La media, también llamada media aritmética, se obtiene mediante la suma de los valores individuales y su división entre el número total de mediciones. Se representa por μ (en poblaciones) o x (en muestras).
En su cálculo intervienen todos los valores de la distribución. Esto le hace muy sensible a la presentación de observaciones extremas o anómalas al hacer que la media se desplace hacia ellas.

La mediana de una distribución es un punto medio en el cual la mitad de las observaciones son inferiores a este valor y la otra mitad son superiores al mismo. Para su cálculo se ordenan los valores de la variable de menor a mayor, y se busca aquel valor que divide a la distribución de frecuencias de forma que el número de frecuencias que quedan a su izquierda es igual al número de frecuencias que quedan a su derecha. Coincide con el percentil 50.

La moda es la determinación más frecuente en una distribución.

5.1.2 Medidas de Dispersión

Los estadísticos de tendencia central nos pueden indicar cuáles son los valores que más se repiten en la muestra, sus valores centrales y cuál es el valor medio, pero esa información no es suficiente. Además de conocer el valor medio de una serie de mediciones, es importante tener una idea acerca de su variación alrededor de la media. La variabilidad habitualmente se mide respecto a una medida de posición central pretendiendo conocer la representatividad de los valores centrales de la distribución Así, generalmente cuanta mayor sea la variabilidad, menor será la representatividad de las medidas centrales, ya que habrá más valores que se alejen de las medidas centrales.

5.1.3 Medidas de Posición

Los cuartiles, son aquellos valores de la variable que dividen a la distribución ordenada en partes, de tal manera que cada una de ellas contiene el mismo número de frecuencias. 

Los percentiles proporcionan otra manera de tener en cuenta las variaciones en las distribuciones. Igual que la mediana es el percentil 50 de una recopilación de datos, puede determinarse el percentil 75 o el 95, que indican que una medición determinada es superior a 75% o a 95% de todos los demás valores.

Una ventaja de los percentiles es que pueden aplicarse a los datos con una distribución asimétrica, no normal, en la que los datos no están distribuidos de manera uniforme alrededor de la media.

 5.1.4 Medidas de Forma de Distribución de Datos

Existen distribuciones que presentan el mismo valor central e igual grado de dispersión, pero difieren en la forma o aspecto de sus representaciones gráficas, cuantificables con las medidas de asimetría y de apuntamiento o kurtosis.

5.2 CORRELACIÓN

El objetivo de esta parte de la estadística es descubrir la existencia de relaciones entre variables y si es posible predecir el valor de una variable a partir de otras.

En el contexto de la correlación, los datos se clasifican como variables independientes o dependientes. Las primeras se conocen como variables de entrada y tienen normalmente valores que son autónomos de las variables dependientes o de desenlace. Las variables dependientes (también llamadas de salida o de resultado), tienen respuestas que dependen de las variables independientes.

Las variables dependientes se consideran antecedentes y las variables dependientes son consiguientes.

En la epidemiología, las variables independientes se llaman a menudo factores de riesgo o variables de exposición.

5.2.1 Diagrama de dispersión

Cuando un investigador ha recopilado dos conjuntos de observaciones y desea ver si hay una relación entre ellos, lo mejor es construir primero un diagrama de dispersión.

5.2.2 Coeficiente de correlación

Cuando la relación entre dos variables puede expresarse gráficamente por una línea recta, la correlación puede expresarse como el coeficiente de correlación, y puede ser positiva o negativa. Cuando una variable aumenta a medida que la otra también aumenta, la correlación es positiva. Cuando una variable disminuye conforme la otra aumenta, es negativa.

Coeficiente De Correlación Lineal De Pearson

El coeficiente de correlación lineal de Pearson de dos variables, r, nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales). Tiene el mismo signo que Sxy, por lo tanto, de su signo positivo o negativo obtenemos el que la posible relación sea directa o inversa respectivamente.

Otros Coeficientes De Correlación

Cuando las variables en vez de ser numéricas son ordinales, es posible preguntarse sobre si hay algún tipo de correlación entre ellas.  

5.2.3 Ecuación de regresión

La correlación entre dos variables significa que cuando una de ellas cambia en una cierta cantidad, la otra cambia en promedio una determinada cantidad. La relación puede ser descrita por una ecuación sencilla llamada la ecuación de regresión, que puede usarse para construir una recta de regresión sobre un diagrama de dispersión.

5.3 GRÁFICOS Y FIGURAS

Las figuras mejoran la legibilidad de los resultados. Las representaciones gráficas permiten captar visualmente las características de los datos de forma rápida. Hay varios tipos de gráficas que se escogen según el tipo de variables del estudio.Los actuales sistemas computacionales como Excel, Lotus Smart Suite, Minitab, SAS, SPSS, entre otros permiten obtener representaciones gráficas de diversos conjuntos de datos. Las gráficas pueden ser tipo histograma, polígono de frecuencias, gráfica de series de tiempo, etc,

Veremos a continuación las principales gráficas según el tipo de variable.

5.3.1 Gráficas para variables cualitativas o nominales

Diagrama de barras. Son gráficas en las que se representan en el eje de abscisas las diferentes modalidades de la variable, y a cada una de ellas se le socia una barra de altura proporcional a la frecuencia (absoluta o relativa) de la misma. Se pueden comparar varias poblaciones en un mismo gráfico.  

Diagrama de sectores. Se les llama coloquialmente “quesitos” o “tartas”. Se divide un círculo en tantas porciones como modalidades existan, de modo que a cada una le corresponda un arco de círculo proporcional a su frecuencia absoluta o relativa. Para comparar una variable cualitativa en dos poblaciones, se usa para cada una de ellas un diagrama circular. Los radios deben ser proporcionales a los números de individuos en las poblaciones.

Pictogramas. Expresan con dibujos alusivos al tema de estudio las frecuencias de las modalidades de la variable. Se representan en diferentes escalas un mismo dibujo. La escala de los dibujos debe ser tal que el área (no el perímetro) de cada uno de ellos sea proporcional a la frecuencia de la modalidad que representa. Son fáciles de comprender.

5.3.2 Gráficas para variables cuantitativas discretas

Diagrama de barras. Se usa para construir una gráfica diferencial. Las barras deben ser estrechas para mostrar que los valores que toma la variable son discretos.

Diagrama en escalera o acumulado. Se usa para construir una gráfica integral.

5.3.3 Gráficas para variables cuantitativas continuas

Se construye representado sobre cada intervalo un rectángulo que tiene este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el área de los mismos. Si los intervalos son de igual amplitud la altura puede coincidir con la frecuencia (absoluta o relativa). Si los intervalos son de distinta amplitud la altura se calcula dividiendo la frecuencia por la amplitud (frecuencia rectificada o densidad de frecuencias), que será la altura del rectángulo.

  • Polígono de frecuencias. 
  • Polígono de frecuencias acumulado u ojiva

5.3.4 Diagramas especiales

Son diagramas diferentes a los anteriores y suelen utilizarse con bastante frecuencia.

  • Gráfica de dispersión: Permite visualizar la distribución y la posible relación entre dos variables medidas en cada sujeto de la muestra. (vistas anteriormente)
  • Gráficos Box plots (de caja “box” y bigotes “whisker plots”). Permiten determinar fácilmente de forma visual la tendencia central, la variabilidad, la asimetría y la existencia de valores anómalos en una distribución de frecuencias.

5.4 PROBABILIDAD

En ciencias de la salud la mayoría de los fenómenos se relacionan a situaciones alea­torias. Así, aunque un experimento se reproduzca en condiciones similares se puede producir resultados diferentes. El experimento también se llama experiencia aleatoria, siendo cada uno de los posibles resultados aleatorios un suceso elemental. La probabilidad de que se produzca un suceso hace referencia a la frecuencia relativa con la que ese suceso tendrá lugar a largo plazo en pruebas repetidas y en condiciones similares.

La probabilidad es el cociente entre los casos favorables (A) y los casos posibles (N). 

5.5 DISTRIBUCIONES

Al realizar un estudio con va­riables aleatorias continuas se utiliza la distribución normal o gaussiana, la distribución uniforme o rectangular, la distribución exponencial o la distribu­ción t de Student.

Para el estudio de las distribuciones con variables aleatorias discretas, se aplican la distribución de Bernoulli, la distribución binomial y la distribución de Poisson.

Las tres leyes teóricas más utilizadas en ciencias de la salud para las distribuciones de probabilidad son: Distribución de Gauss o normal, Distribución binomial y Distribución de Poisson.