Tema 2. Estadística Descriptiva


1. VARIABLES

Una variable es una propiedad que puede fluctuar y cuya variación es susceptible de medirse u observarse.

 

1.1. DEFINICIÓN CONCEPTUAL Y OPERACIONAL DE LAS VARIABLES

El proceso de definición de variables comienza desde que se define el problema de estudio y se formulan los objetivos, y es uno de los pasos más difíciles de la investigación.

Las variables deben ser definidas de manera conceptual y operacional. La definición conceptual es de índole teórica, mientras que la operacional nos da las bases de medición y la definición de los indicadores.

 

1.2. DESCRIPCIÓN DE LAS VARIABLES

Según la relación que formula la hipótesis:

  • Variable dependiente. Es la variable de mayor interés o interés principal. Representa al desenlace o resultado que se pretende explicar o estimar en el estudio.
  • Variable independiente. Define la condición bajo la cual se examina a la variable dependiente. 

 

Según la posibilidad de manipularlas:

  • Variables activas que son manipulables.

  • Variables atributivas, o no manipulables.

 

Según su naturaleza:

  • Variables cuantitativas. Son las variables que pueden medirse, cuantificarse o expresarse numéricamente. 
  • Variables cualitativas. Representan una cualidad o atributo que clasifica a cada caso en una de varias categorías. 

En muchas ocasiones este tipo de clasificación no es suficiente y se requiere de un mayor número de categorías. En el proceso de medición de estas variables, se pueden utilizar dos escalas:

  • Escalas nominales.

  • Escalas ordinales.

 

2. MEDICIONES


2.1. ESCALAS DE MEDICIÓN

Las Escalas de Medición son instrumentos de medida y se refieren a la forma en que se materializa el indicador.

Hay cuatro clases de escalas que representan los diferentes tipos de medición. Estas son nominales, ordinales, intervalo y razón o proporción

 

2.2. MEDICIONES

La Estadística Descriptiva, describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos. En este caso, los resultados del análisis estadístico no pretenden ir más allá del conjunto de datos investigados, es decir, de la muestra o de la misma población de dónde hemos obtenido los datos.

 

Los datos numéricos pueden resumirse por el cálculo de su tendencia central y de su variabilidad, mediante el cálculo de los porcentajes y las proporciones, y por medio del cálculo de razones y tasas. Los programas informáticos han facilitado estos cálculos.

 

MEDIDAS DE TENDENCIA CENTAL

La medida de la tendencia central usada con mayor frecuencia es la media aritmética. Otras determinaciones de la tendencia central menos conocidas, pero también útiles, son la mediana y la moda.

 

MEDIDAS DE DISPERSIÓN

Además de conocer el valor medio de una serie de mediciones, es importante tener una idea acerca de su variación alrededor de la media. La variabilidad habitualmente se mide respecto a una medida de posición central pretendiendo conocer la representatividad de los valores centrales de la distribución Así, generalmente cuanta mayor sea la variabilidad, menor será la representatividad de las medidas centrales, ya que habrá más valores que se alejen de las medidas centrales.

Hay tres maneras de presentar la variabilidad de los datos alrededor de la media. Estos son el intervalo o rango, la desviación estándar y el coeficiente de variación.

 

MEDIDAS DE POSICIÓN

Los cuartiles, son aquellos valores de la variable que dividen a la distribución ordenada en partes, de tal manera que cada una de ellas contiene el mismo número de frecuencias.

 

MEDIDAS DE FORMA DE DISTRIBUCIÓN DE DATOS

Existen distribuciones que presentan el mismo valor central e igual grado de dispersión, pero difieren en la forma o aspecto de sus representaciones gráficas, cuantificables con las medidas de asimetría y de apuntamiento o kurtosis.

 

3. CORRELACIÓN

El objetivo de esta parte de la estadística es descubrir la existencia de relaciones entre variables y si es posible predecir el valor de una variable a partir de otras.

Las variables dependientes se consideran antecedentes y las variables dependientes son consiguientes. En la epidemiología, las variables independientes se llaman a menudo factores de riesgo o variables de exposición.

 

COEFICIENTE DE CORRELACIÓN

Cuando la relación entre dos variables puede expresarse gráficamente por una línea recta, la correlación puede expresarse como el coeficiente de correlación, y puede ser positiva o negativa. Cuando una variable aumenta a medida que la otra también aumenta, la correlación es positiva. Cuando una variable disminuye conforme la otra aumenta, es negativa.

 

ECUACIÓN DE REGRESIÓN

La correlación entre dos variables significa que cuando una de ellas cambia en una cierta cantidad, la otra cambia en promedio una determinada cantidad. La relación puede ser descrita por una ecuación sencilla llamada la ecuación de regresión, que puede usarse para construir una recta de regresión sobre un diagrama de dispersión.

 

 

4. GRÁFICOS Y FIGURAS

 

4.1.  GRÁFICAS PARA VARIABLES CUALITATIVAS O NOMINALES

  • Diagrama de barras. 
  • Diagrama de sectores. 
  • Pictogramas. 

 

4.2. GRÁFICOS PARA VARIABLES CUANTITATIVAS DISCRETAS

  • Diagrama de barras.
  • Diagrama en escalera o acumulado. 

 

4.3. GRÁFICOS PARA VARIABLES CUANTITATIVAS CONTINUAS

  • Histograma. 

  • Polígono de frecuencias. 

  • Polígono de frecuencias acumulado u ojiva. 

 

4.4. DIAGRAMAS ESPECIALES

Son diagramas diferentes a los anteriores y suelen utilizarse con bastante frecuencia.

  • Gráfica de dispersión.
  • Gráficos Box plots (de caja “box” y bigotes “whisker plots”).
  • Diagrama de barras de error. 
  • Pirámide de población.
  • Curvas ROC. 
  • Perfil radial. 

 

5. PROBABILIDAD

La probabilidad de que se produzca un suceso hace referencia a la frecuencia relativa con la que ese suceso tendrá lugar a largo plazo en pruebas repetidas y en condiciones similares.

La probabilidad es el cociente entre los casos favorables (A) y los casos posibles (N). Teniendo esto en cuenta la fórmula básica para calcular la probabilidad es:

P (evento) = A / N

El valor de una probabilidad se sitúa entre 0 (no sucede) y 1 (sucede). La probabilidad de que se produzca un evento se expresa en porcentaje y, por ello, nunca es superior a 1 (100%) ni inferior a 0 (0%).

 

Al ser los sucesos aleatorios son partes de un espacio muestral, se pueden aplicar las mismas operaciones que para los conjuntos, estas son:

  • Unión.
  • Intersección.
  • Diferencia.

 

5.1. SUCESOS MUTUAMENTE EXCLUYENTES

Hablamos de sucesos mutuamente excluyentes o incompatibles cuando no se pueden producir de manera simultánea. Por ejemplo, la probabilidad de que una mujer embarazada tenga una hija (género femenino), excluye a que tenga un hijo (género masculino).

 

5.2. SUCESOS NO MUTUAMENTE EXCLUYENTES

Si los sucesos no son mutuamente excluyentes, la suma de los dos sucesos debe tener en cuenta que la inter­sección no es nula.

(A ∪ B) = P(A) + P(B) - P(A ∩ B)

 

5.3. PROBABILIDAD CONDICIONADA

La probabilidad condicionada es la probabilidad de que un suceso se produzca según el resultado de algún otro suceso.

P(A/B) = P(A  B) / P(B)

Sería la probabilidad de que después de producirse el suceso A, se produzca el suceso B.

 

5.4. SUCESOS INDEPENDIENTES Y DEPENDIENTES

Dos sucesos son independientes si al producirse el suceso no interfiere en la probabilidad de que aparezca el suceso B:

P(B/A) = P(B))

 

5.5. TEOREMA DE BAYES

El teorema de Bayes permite conocer la probabilidad de presencia de enfermedad de un sujeto P(E) después de conocer la presencia de un síntoma P(S), signo o prueba diag­nóstica positiva, mediante el uso de probabilidades condicionadas.

P(Bi/A) = P(Bi) · P(A/Bi) / Σi=1 P(Bi) · P(A/Bi)

El Teorema de Bayes per­mite hallar los valores predictivos a posteriori, es decir, una vez conocido el resultado de la prueba del paciente y conociendo la prevalencia de la enfermedad en la población.

 

6. DISTRIBUCIONES

Al realizar un estudio con va­riables aleatorias continuas se utiliza la distribución normal o gaussiana, la distribución uniforme o rectangular, la distribución exponencial o la distribu­ción t de Student.

Para el estudio de las distribuciones con variables aleatorias discretas, se aplican la distribución de Bernoulli, la distribución binomial y la distribución de Poisson.

Las tres leyes teóricas más utilizadas en ciencias de la salud para las distribuciones de probabilidad son:

  • Distribución de Gauss o normal.
  • Distribución binomial.
  • Distribución de Poisson.