5.1 MEDICIONES
La Estadística Descriptiva, describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos. En este caso, los resultados del análisis estadístico no pretenden ir más allá del conjunto de datos investigados, es decir, de la muestra o de la misma población de dónde hemos obtenido los datos.
Los cálculos dependen del modelo estadístico que se utilice. En general, y debido a su facilidad, se utilizarán modelos basados en la distribución normal.
Una distribución no es más que una representación gráfica de los resultados obtenidos en una variable. Cuando la distribución de frecuencias es una curva de campana, se describe como distribución normal o de Gauss.
P.ej., imaginemos que tenemos una muestra de 75 mujeres de 25 a 50 años de edad a las que hemos pesado. Cada punto que aparece en la gráfica es el peso de una mujer. Lo más habitual es que muchas pesen entre 55 y 75 Kg, por eso hay más puntos en esa zona. Cada vez que nos vamos hacia ambos lados de la gráfica, hay menos puntos, porque hay menos mujeres que pesen menos de 50 kg y también menos mujeres que pesen más de 80 kg. Cuando esto ocurre, es una indicación de que la distribución es simétrica o “normal”.
Los datos numéricos pueden resumirse por el cálculo de su tendencia central y de su variabilidad, mediante el cálculo de los porcentajes y las proporciones, y por medio del cálculo de razones y tasas. Los programas informáticos han facilitado estos cálculos.
5.1.1 Medidas de Tendencia Central
La medida de la tendencia central usada con mayor frecuencia es la media aritmética. Otras determinaciones de la tendencia central menos conocidas, pero también útiles, son la mediana y la moda.
- La media, también llamada media aritmética, se obtiene mediante la suma de los valores individuales y su división entre el número total de mediciones. Se representa por μ (en poblaciones) o x (en muestras).
En su cálculo intervienen todos los valores de la distribución. Esto le hace muy sensible a la presentación de observaciones extremas o anómalas al hacer que la media se desplace hacia ellas.
Por ejemplo, imaginemos en una muestra de 10 sujetos, la variable edad medida en años, nos ha dado los siguientes resultados: 25, 27, 31, 35, 38, 21, 40, 31, 33 y 36.
Media aritmética de los valores: Se suman los valores (25 + 27 + 31 + 35 + 38 + 21 + 40 + 31 + 33 + 36 = 317), dividiéndola entre el número de valores (10). Por lo tanto: 317/10 = 31,7 años.
Si en la serie anterior, la última edad fuese 71 en lugar de 36, la media seria de 35,2 años.
La media aritmética tiene una serie de ventajas:
- Es fácil de calcular.
- Es única.
- Es el centro de gravedad de la distribución, por lo que es el índice de centralización más utilizado para realizar inferencias.
El principal inconveniente es la escasa representatividad que puede tener como valor central de la distribución, en el caso de que la variable tome valores anormalmente extremos, dando lugar a conclusiones no muy fiables. Sólo se puede determinar para variables cuantitativas.
- La mediana de una distribución es un punto medio en el cual la mitad de las observaciones son inferiores a este valor y la otra mitad son superiores al mismo. Para su cálculo se ordenan los valores de la variable de menor a mayor, y se busca aquel valor que divide a la distribución de frecuencias de forma que el número de frecuencias que quedan a su izquierda es igual al número de frecuencias que quedan a su derecha. Coincide con el percentil 50 (véase más adelante).
Por ejemplo, la mediana de la serie: 1,2,4,5,5,6,6,8,9, es 5, ya que debajo de él quedan cuatro observaciones, y por encima otras cuatro.
Si la serie es par, la mediana es la media de los valores centrales. Por ejemplo, en la serie: 1,2,4,5,5,6,6,6,8,9; la mediana es la media de 5 y 6, es decir, 5,5.
Su cálculo resulta de gran utilidad en los siguientes casos:
- Cuando existan valores anormalmente bajos o elevados. Esta medida es menos sensible que la media aritmética cuando existen valores extremos, ya que en su determinación no intervienen todos los valores de la variable, sino los que ocupan las posiciones centrales.
- Cuando en las distribuciones agrupadas en intervalos el primero sea del tipo menor que, o el último sea del tipo mayor que, siempre y cuando ninguno de estos intervalos sea el intervalo mediano.
- Cuando se analizan variables cuantitativas medidas en escala ordinal, ya que en este caso no se podría determinar la media aritmética, siendo la mediana la medida de tendencia central más representativa.
La mediana es de cálculo rápido y de interpretación sencilla. El principal inconveniente de la mediana es que tiene unas propiedades matemáticas complicadas, lo que hace que sea difícil de utilizar en inferencia estadística.
- La moda es la determinación más frecuente en una distribución.
Por ejemplo, en la última serie del ejemplo: 1,2,4,5,5,6,6,6,8,9; la moda o el valor más frecuente es 6, que se da en tres ocasiones.
Tiene la ventaja de poder calcularse para todo tipo de variables, incluidas las cualitativas. La moda es la mejor medida de tendencia central en el análisis de los atributos medidos en escala nominal, ya que sus modalidades no son susceptibles de ser ordenadas, no admitiendo tampoco ningún tipo de operación algebraica, como por ejemplo; ¿Qué nombre es el que más se repite en una serie?, o ¿en qué ciudad han nacido más sujetos de la muestra?
Su inconveniente es que puede no ser única al existir varios valores que presenten la máxima frecuencia absoluta, teniéndose entonces una distribución bimodal (tiene dos modas), trimodal (tres modas), etc.
5.1.2 Medidas de Dispersión
Los estadísticos de tendencia central nos pueden indicar cuáles son los valores que más se repiten en la muestra, sus valores centrales y cuál es el valor medio, pero esa información no es suficiente. Además de conocer el valor medio de una serie de mediciones, es importante tener una idea acerca de su variación alrededor de la media. La variabilidad habitualmente se mide respecto a una medida de posición central pretendiendo conocer la representatividad de los valores centrales de la distribución Así, generalmente cuanta mayor sea la variabilidad, menor será la representatividad de las medidas centrales, ya que habrá más valores que se alejen de las medidas centrales.
Por ejemplo, las distribuciones A y B representan las estaturas en cm de dos muestras distintitas de 500 personas cada una. “A simple vista”, se aprecia que en la distribución A hay menos valores extremos y menos que se alejan del centro, por lo que la variabilidad o dispersión es menor. Lo contrario ocurre en la distribución B.
Hay tres maneras de presentar la variabilidad de los datos alrededor de la media. Estos son el intervalo o rango, la desviación estándar y el coeficiente de variación.
- El intervalo o rango proporciona los valores máximo y mínimo, pero no da mucha indicación de la dispersión de las observaciones alrededor de la media. Esta dispersión la proporciona la desviación estándar.
- La Desviación expresa la distancia que debe recorrer un individuo para llegar a la media. La desviación media (DM) es un índice de dispersión poco utilizado, es el sumatorio de la diferencia de los valores de la variable con respecto a la media en valores absolutos. La media de este índice es un índice de dispersión.
La desviación estándar (s) se calcula con una fórmula que suma los cuadrados de las diferencias entre la media del grupo y cada valor individual. Esta suma total se conoce como varianza y se representa como S2.
Cuanto mayores sean las diferencias entre los valores, tanto más diseminada estará la distribución y la desviación estándar será mayor. Los matemáticos han calculado que si las observaciones siguen una distribución “normal” (valores con una dispersión uniforme alrededor de la media), un intervalo cubierto por una desviación estándar por encima y por debajo de la media abarcará cerca de 68% de las observaciones. Un intervalo de ± 2 DE comprenderá aproximadamente el 95% de las observaciones, y un intervalo de ± 3 DE abarcará alrededor del 99,73%. El cálculo de la media y de la desviación estándar nos proporciona un buen resumen de los datos.
Varianza (s2) es la medida de la variación entre todos los sujetos o valores de un experimento. Corresponde a la media de las diferencias al cuadrado entre cada valor de la variable y la media aritmética de la distribución dividida por el número de datos medidos. Sus unidades son las de la variable al cuadrado. En general, se puede afirmar que cuanto menor sea la varianza, mayor es la homogeneidad de la variable y, por tanto, menor es la dispersión. Al igual que la desviación estándar, la varianza es una medida para obtener la dispersión del conjunto de datos a partir del valor medio.
La varianza es siempre una cantidad positiva y, dado que sus unidades son las del cuadrado de la variable, resulta más sencillo usar su raíz cuadrada, que es el valor de la desviación estándar.
- Coeficiente de variación (CV) E la razón entre la desviación típica y la media. Mide la desviación típica en forma de “qué tamaño tiene con respecto a la media”. También se la denomina variabilidad relativa. Este estadístico es interesante para comparar la variabilidad de diferentes variables.
Es frecuente mostrarla en porcentajes. Si la media es 80 y la desviación típica 20, entonces CV=20/80=0,25=25% (variabilidad relativa).
Por ejemplo, si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso que en altura.
5.1.3 Medidas de Posición
Los cuartiles, son aquellos valores de la variable que dividen a la distribución ordenada en partes, de tal manera que cada una de ellas contiene el mismo número de frecuencias. Así;
- Los cuartiles (i Q), dividen a la distribución en 4.
- Los deciles en 10.
- Los percentiles en 100.
Los más usados en Ciencias de la Salud son los cuartiles y los percentiles.
Los cuartiles dividen a la muestra en 4 grupos con frecuencias similares.
- Primer cuartil = Percentil 25 = Cuantil 0,25
- Segundo cuartil = Percentil 50 = Cuantil 0,5 = Mediana
- Tercer cuartil = Percentil 75 = Cuantil 0,75
Los percentiles proporcionan otra manera de tener en cuenta las variaciones en las distribuciones. Igual que la mediana es el percentil 50 de una recopilación de datos, puede determinarse el percentil 75 o el 95, que indican que una medición determinada es superior a 75% o a 95% de todos los demás valores.
Una ventaja de los percentiles es que pueden aplicarse a los datos con una distribución asimétrica, no normal, en la que los datos no están distribuidos de manera uniforme alrededor de la media.
5.1.4 Medidas de Forma de Distribución de Datos
Existen distribuciones que presentan el mismo valor central e igual grado de dispersión, pero difieren en la forma o aspecto de sus representaciones gráficas, cuantificables con las medidas de asimetría y de apuntamiento o kurtosis.
Si la asimetría es 0, la curva o distribución es simétrica. Cuando es positiva, quiere decir que hay más valores agrupados hacia la izquierda de la curva. Cuando es negativa, significa que los valores tienden a agruparse hacia la derecha.
La kurtosis es un indicador de lo plana o “picuda” que es una curva. Cuando es 0 (kurtosis = 0) se denomina mesocurtosis, y significa que puede tratarse de una curva normal. Si es positiva, quiere decir que la curva, la distribución o el polígono es más “picuda(o)” o elevada(o). Si la curtosis es negativa indica que es más plana la curva.
5.2 CORRELACIÓN
El objetivo de esta parte de la estadística es descubrir la existencia de relaciones entre variables y si es posible predecir el valor de una variable a partir de otras.
En el contexto de la correlación, los datos se clasifican como variables independientes o dependientes. Las primeras se conocen como variables de entrada y tienen normalmente valores que son autónomos de las variables dependientes o de desenlace. Las variables dependientes (también llamadas de salida o de resultado), tienen respuestas que dependen de las variables independientes.
Las variables dependientes se consideran antecedentes y las variables dependientes son consiguientes.
En la epidemiología, las variables independientes se llaman a menudo factores de riesgo o variables de exposición.
5.2.1 Diagrama de dispersión
Cuando un investigador ha recopilado dos conjuntos de observaciones y desea ver si hay una relación entre ellos, lo mejor es construir primero un diagrama de dispersión.
La escala vertical representa un conjunto de mediciones, y la horizontal el otro. Los puntos de diagrama de dispersión generalmente no caen sobre una única línea recta, ni son equidistantes a ninguno de los lados de una recta central. A menudo caen en un área aproximadamente elíptica. El diagrama de dispersión da una indicación de si puede existir una correlación y de cuál es su dirección. Por lo general, las variables independientes se representan gráficamente en el eje X (eje horizontal) y las variables dependientes se representan en el eje Y (eje vertical).
La covarianza entre dos variables, Sxy, indica si la posible relación entre dos variables es directa o inversa, si:
- Directa: Sxy >0
- Inversa: Sxy <0
- Incorreladas o no correlacionadas: Sxy =0
5.2.2 Coeficiente de correlación
Cuando la relación entre dos variables puede expresarse gráficamente por una línea recta, la correlación puede expresarse como el coeficiente de correlación, y puede ser positiva o negativa. Cuando una variable aumenta a medida que la otra también aumenta, la correlación es positiva. Cuando una variable disminuye conforme la otra aumenta, es negativa.
Coeficiente De Correlación Lineal De Pearson
El coeficiente de correlación lineal de Pearson de dos variables, r, nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales). Tiene el mismo signo que Sxy, por lo tanto, de su signo positivo o negativo obtenemos el que la posible relación sea directa o inversa respectivamente.
Es útil para determinar si hay una relación lineal entre dos variables, pero no servirá para otro tipo de relaciones. El coeficiente de correlación (r) se mide en una escala que varía entre +1 y –1, pasando por 0. La correlación completa entre dos variables se expresa como 1. Deberá quedar claro que correlación significa asociación, pero no necesariamente significa causalidad. Esta conclusión queda para la interpretación de los resultados.
Otros Coeficientes De Correlación
Cuando las variables en vez de ser numéricas son ordinales, es posible preguntarse sobre si hay algún tipo de correlación entre ellas. Disponemos para estos casos de dos estadísticos:
- ρ (‘ro’) de Spearman
- τ (‘tau’) de Kendall
Son estadísticos análogos al coeficiente de Pearson.
5.2.3 Ecuación de regresión
La correlación entre dos variables significa que cuando una de ellas cambia en una cierta cantidad, la otra cambia en promedio una determinada cantidad. La relación puede ser descrita por una ecuación sencilla llamada la ecuación de regresión, que puede usarse para construir una recta de regresión sobre un diagrama de dispersión.
Es algo habitual en Ciencias de la Salud, de forma que las fórmulas y expresiones que utilizamos con frecuencia derivan de análisis de este tipo.
Y = f(X) + e
Decimos entonces que, si conocemos X, podemos aproximarnos al valor de Y, donde:
- Y = Variable dependiente, predicha o explicada.
- X = Variable independiente, predictora o explicativa.
- E= error aleatorio, pequeño, y no depende de X.
Como la línea debe ser recta, probablemente pasará por algunos puntos, si los hay.
Coeficiente de regresión es el término usado para significar la cantidad por la cual debe multiplicarse un cambio en una variable (variable independiente), para obtener el cambio promedio correspondiente en otra variable (variable dependiente). Representa el grado en que la recta de regresión se inclina hacia arriba o hacia abajo.
5.3 GRÁFICOS Y FIGURAS
Las figuras mejoran la legibilidad de los resultados. Las representaciones gráficas permiten captar visualmente las características de los datos de forma rápida. Hay varios tipos de gráficas que se escogen según el tipo de variables del estudio.Los actuales sistemas computacionales como Excel, Lotus Smart Suite, Minitab, SAS, SPSS, entre otros permiten obtener representaciones gráficas de diversos conjuntos de datos. Las gráficas pueden ser tipo histograma, polígono de frecuencias, gráfica de series de tiempo, etc,
Veremos a continuación las principales gráficas según el tipo de variable.
5.3.1 Gráficas para variables cualitativas o nominales
- Diagrama de barras. Son gráficas en las que se representan en el eje de abscisas las diferentes modalidades de la variable, y a cada una de ellas se le socia una barra de altura proporcional a la frecuencia (absoluta o relativa) de la misma. Se pueden comparar varias poblaciones en un mismo gráfico. Cuando los tamaños de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas en lugar de las absolutas.
Ej. Distribución de Infecciones relacionadas con atención Sanitaria (IRAS) en un hospital
- Diagrama de sectores. Se les llama coloquialmente “quesitos” o “tartas”. Se divide un círculo en tantas porciones como modalidades existan, de modo que a cada una le corresponda un arco de círculo proporcional a su frecuencia absoluta o relativa. Para comparar una variable cualitativa en dos poblaciones, se usa para cada una de ellas un diagrama circular. Los radios deben ser proporcionales a los números de individuos en las poblaciones.
Ejemplo anterior distribución por sexos
- Pictogramas. Expresan con dibujos alusivos al tema de estudio las frecuencias de las modalidades de la variable. Se representan en diferentes escalas un mismo dibujo. La escala de los dibujos debe ser tal que el área (no el perímetro) de cada uno de ellos sea proporcional a la frecuencia de la modalidad que representa. Son fáciles de comprender.
5.3.2 Gráficas para variables cuantitativas discretas
- Diagrama de barras. Se usa para construir una gráfica diferencial. Las barras deben ser estrechas para mostrar que los valores que toma la variable son discretos.
- Diagrama en escalera o acumulado. Se usa para construir una gráfica integral.
5.3.3 Gráficas para variables cuantitativas continuas
Se construye representado sobre cada intervalo un rectángulo que tiene este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el área de los mismos. Si los intervalos son de igual amplitud la altura puede coincidir con la frecuencia (absoluta o relativa). Si los intervalos son de distinta amplitud la altura se calcula dividiendo la frecuencia por la amplitud (frecuencia rectificada o densidad de frecuencias), que será la altura del rectángulo.
- Polígono de frecuencias. Se construye fácilmente si se representa previamente el histograma. Se unen mediante líneas rectas los puntos del histograma que corresponden a las marcas de clase. En el primer y último intervalo se considera que adyacentes a ellos existen otros intervalos de la misma longitud y frecuencia nula y se unen por una línea recta los puntos del histograma que corresponden a sus marcas de clase. Tiene en común con el histograma el que las áreas de las gráficas sobre un intervalo son idénticas.
- Polígono de frecuencias acumulado u ojiva. Se obtiene como la poligonal definida en abscisas a partir de los extremos de los intervalos y, en ordenadas, por alturas que son proporcionales a las frecuencias acumuladas. Deriva del histograma.
5.3.4 Diagramas especiales
Son diagramas diferentes a los anteriores y suelen utilizarse con bastante frecuencia.
- Gráfica de dispersión: Permite visualizar la distribución y la posible relación entre dos variables medidas en cada sujeto de la muestra. (vistas anteriormente)
- Gráficos Box plots (de caja “box” y bigotes “whisker plots”). Permiten determinar fácilmente de forma visual la tendencia central, la variabilidad, la asimetría y la existencia de valores anómalos en una distribución de frecuencias.
Incluye las siguientes características de la distribución:
- Caja (box). La línea interior representa la mediana, la de la izquierda el primer cuartil y la de la derecha el tercer cuartil. La caja recoge el 50% de las observaciones de la distribución y se determina uniendo los extremos de estas tres líneas por dos segmentos paralelos.
- Bigotes (whiskers): La observación más grande que no se aleja más de 1,5 veces el recorrido intercuartílico (C3 – C1) desde el tercer cuartil se encuentra unida a la caja por el bigote derecho. La observación más pequeña que no se aleja más de 1,5 veces el recorrido intercuartílico desde el primer cuartil se encuentra unida a la caja por el bigote izquierdo.
- Valores sospechosos de ser anómalos (o): Los puntos que sobrepasan los extremos de los bigotes, pero no están a más de 3 veces el recorrido intercuartílico desde el lado derecho e izquierdo de la caja. Estos valores deben ser considerados con prudencia.
- Valores anómalos: Puntos que se alejan del lado derecho e izquierdo de la caja más de 3 veces el recorrido intercuartílico. Estos valores pueden no considerarse como pertenecientes a la distribución estudiada.
- Diagrama de barras de error. Representa intervalos de confianza.
- Pirámide de población: Son histogramas de frecuencias de cada grupo de edad, y permite hacerse una idea clara no sólo acerca de las características generales de la población total.
- Curvas ROC: Se usa para valorar la exactitud de una prueba diagnóstica. El área bajo la curva constituye el método más apropiado. Un parámetro para evaluar la bondad de la prueba es el área bajo la curva que tomará valores entre 1 (prueba perfecta) y 0,5 (prueba inútil). Puede demostrarse (Hanley y McNeil) que esta área se interpreta como la probabilidad de que ante un par de individuos, uno enfermo y el otro sano, la prueba los clasifique correctamente. En consecuencia, las curvas ROC son útiles para:
o Conocer el rendimiento global de una prueba. Área bajo la curva.
o Comparar dos pruebas o dos puntos de corte. Comparación de dos curvas o de dos puntos sobre una curva.
o Elegir el punto de corte apropiado para un determinado paciente.
- Perfil radial. Representan frecuencias de una serie de casos. Cada “brazo” es una clase. En el ejemplo se representa el porcentaje de homosexuales en los cinco continentes (brazos).
5.4 PROBABILIDAD
En ciencias de la salud la mayoría de los fenómenos se relacionan a situaciones aleatorias. Así, aunque un experimento se reproduzca en condiciones similares se puede producir resultados diferentes. El experimento también se llama experiencia aleatoria, siendo cada uno de los posibles resultados aleatorios un suceso elemental. La probabilidad de que se produzca un suceso hace referencia a la frecuencia relativa con la que ese suceso tendrá lugar a largo plazo en pruebas repetidas y en condiciones similares.
La probabilidad es el cociente entre los casos favorables (A) y los casos posibles (N). Teniendo esto en cuenta la fórmula básica para calcular la probabilidad es:
P (evento) = A / N
El valor de una probabilidad se sitúa entre 0 (no sucede) y 1 (sucede). La probabilidad de que se produzca un evento se expresa en porcentaje y, por ello, nunca es superior a 1 (100%) ni inferior a 0 (0%).
Como ejemplo, una probabilidad de 0,1 significa que tiene un 10% de probabilidades de que se produzca, mientras que la probabilidad de que no se produzca es de 1 – 0,1 = 0,9, es decir, del 90%:
P (nA) = 1 - P(A)
Para que un experimento sea aleatorio es necesario que:
- No es posible predecir el resultado que se va a producir.
- Se puede repetir indefinidamente produciéndose en las mismas condiciones.
Al ser los sucesos aleatorios son partes de un espacio muestral, se pueden aplicar las mismas operaciones que para los conjuntos, estas son:
- Unión: dados dos sucesos aleatorios A, B se denomina suceso unión de A y B al conjunto formado por todos los sucesos elementales que pertenecen a A o bien que pertenecen a B (incluyendo los que sean de ambos simultáneamente).
- Intersección: dados dos sucesos aleatorios A, B se denomina suceso intersección de A y B al conjunto formado por todos los sucesos elementales que pertenecen a A y B a la vez.
- Diferencia: dados dos sucesos aleatorios A, B, se llama suceso diferencia de A y B, y se representa mediante AB, o bien A-B, al suceso aleatorio formado por todos los sucesos elementales que pertenecen a A, pero no a B.
Cuando existe un problema de probabilidad, lo primero que es recomendable hacer es identificar si nos encontramos ante un suceso mutuamente excluyente o no mutuamente excluyente, ya que el cálculo de probabilidades es diferente.
5.4.1 Sucesos mutuamente excluyentes
Hablamos de sucesos mutuamente excluyentes o incompatibles cuando no se pueden producir de manera simultánea. Por ejemplo, la probabilidad de que una mujer embarazada tenga una hija (género femenino), excluye a que tenga un hijo (género masculino).
En los sucesos mutuamente excluyentes o incompatibles, la intersección entre los dos sucesos no existe:
P (A ∩ B) = 0
La probabilidad de que dos sucesos mutuamente excluyentes sucedan se obtiene por la adición de las probabilidades individuales de cada uno:
P (A ∪ B)= P(A) + P(B)
Por ejemplo, la probabilidad de que una mujer embarazada tenga un hijo (0,5) o una hija (0,5) es la suma de cada una de sus posibilidades:
P (0,5 o 0,5)= P(0,5) + P(0,5) = 1
5.4.2 Sucesos no mutuamente excluyentes
Si los sucesos no son mutuamente excluyentes, la suma de los dos sucesos debe tener en cuenta que la intersección no es nula.
P (A ∪ B) = P(A) + P(B) - P(A ∩ B)
Por ejemplo, la probabilidad de que al lanzar un dado salga un resultado superior a 2 o par debe tener en cuenta que los resultados 4 y 6 cumplen con las dos condiciones.
P(>2 o par)= P(3, 4, 5, 6) + P(2, 4, 6) - P(4, 6)
5.4.3 Probabilidad condicionada
La probabilidad condicionada es la probabilidad de que un suceso se produzca según el resultado de algún otro suceso.
P(A/B) = P(A ∪ B) / P(B)
Sería la probabilidad de que después de producirse el suceso A, se produzca el suceso B.
En este caso, la probabilidad de que dos sucesos A y B ocurran se calcula mediante la ley multiplicativa:
P(A ∩ B) = P(B/A) x P(A)
5.4.4 Sucesos independientes y dependientes
Dos sucesos son independientes si al producirse el suceso A no interfiere en la probabilidad de que aparezca el suceso B:
P(B/A) = P(B))
Dos sucesos son dependientes si ocurre justamente lo contrario, es decir, que al producirse el suceso A interfiere en la probabilidad de que se produzca el suceso B:
P(B/A) ≠ P(B)
Si existe sucesos independientes se ejecutaría la ley multiplicativa:
P(A ∩ B) = P(A) x P(B)
5.4.5 Teorema de bayes
El teorema de Bayes permite conocer la probabilidad de presencia de enfermedad de un sujeto P(E) después de conocer la presencia de un síntoma P(S), signo o prueba diagnóstica positiva, mediante el uso de probabilidades condicionadas.
P(Bi/A) = P(Bi) · P(A/Bi) / Σk i=1 P(Bi) · P(A/Bi)
El Teorema de Bayes permite hallar los valores predictivos a posteriori, es decir, una vez conocido el resultado de la prueba del paciente y conociendo la prevalencia de la enfermedad en la población.
5.5 DISTRIBUCIONES
Al realizar un estudio con variables aleatorias continuas se utiliza la distribución normal o gaussiana, la distribución uniforme o rectangular, la distribución exponencial o la distribución t de Student.
Para el estudio de las distribuciones con variables aleatorias discretas, se aplican la distribución de Bernoulli, la distribución binomial y la distribución de Poisson.
Las tres leyes teóricas más utilizadas en ciencias de la salud para las distribuciones de probabilidad son: Distribución de Gauss o normal, Distribución binomial y Distribución de Poisson.
5.5.1 Distribuciones continuas
Distribución normal o de Gauss
La mayoría de las variables biológicas siguen una distribución denominada normal o de Gauss. La forma de la función de densidad es la llamada campana de Gauss. Esta distribución tiene como características:
- Posee una forma de campana.
- Es simétrica respecto a su media. Esto significa que el área comprendida entre la curva y el eje de abscisas se encuentra concentrada alrededor de la media.
- Tiene una única moda que coincide con su media y su mediana.
- La mayor parte de los valores se sitúan alrededor de la media.
- Va de menos infinito a más infinito.
- El área total bajo la curva es 1.
- La probabilidad de un valor concreto es 0.
- Se puede conocer entre qué valores está un determinado porcentaje de valores:
- La media ±1 desviación estándar comprende el 68% central de los valores.
- La media ±2 desviaciones estándar comprende el 95% central de los valores.
- La media ±2,57 desviaciones estándar comprende el 99% central de los valores.
- La media ±3 desviaciones estándar comprende el 99,75% central de los valores.
Al revisar la campana de Gauss se aprecia que la mayor parte del área de probabilidad se encuentra concentrada alrededor de la media, y las ramas de la curva se extienden de forma descendente hacia los ejes de manera que cualquier valor, aunque sea distante de la media, es posible pero poco probable.
5.5.2 Distribuciones discretas
Distribución binomial
La distribución binomial es una ley teórica que aplicaremos siempre que conozcamos la probabilidad de aparición de un fenómeno biológico. El resultado es dicotómico y pudiendo ser un éxito o fracaso, siendo la variable de interés el número de casos de éxito alcanzados en n pruebas.Es posible entonces obtener la probabilidad de k éxitos en una repetición de n experimentos:
En esta fórmula interviene el coeficiente binomial (nk)del que se deriva su nombre:
Distribución de Poisson
La distribución de Poisson es un caso especial de la ley binomial para aquellas situaciones en las que la probabilidad de aparición de un fenómeno sea muy pequeña. Es una ley que se utiliza en aquellos sucesos poco habituales o raros.
Se utiliza cuando la probabilidad de aparición del suceso es muy baja, siendo muy cercana a 0 (p < 0,01) y la probabilidad de no aparición próxima a 1 (q ≈ 1).
La distribución de Poisson está caracterizada por:
- La media es igual a la varianza poblacional.
- Está definida por un único parámetro, la media poblacional.
- Es asimétrica, pero a medida que aumenta la media tiende a la normalidad.
BIBLIOGRAFÍA
- Argimón JM, Jiménez J. Métodos de investigación clínica y epidemiológica. 4º ed. Elsevier España SA. Madrid, 2013.
- Escuela Nacional de Sanidad (ENS) Instituto de Salud Carlos III - Ministerio de Ciencia e Innovación. Miguel Ángel Royo Bordonada, Javier Damián Moreno, “Método epidemiológico”. Madrid: ENS - Instituto de Salud Carlos III, Octubre de 2009
- Castro, A. B. El AEIOU de la investigación en enfermería. Fuden, Salamanca.2013.
- Elena Sinobas P. Manual de investigación cuantitativa para enfermería. Oviedo: Federación de Asociaciones de Enfermería Comunitaria y Atención Primaria; 2011.
- Escuela Nacional de Sanidad (ENS) Instituto de Salud Carlos III - Ministerio de Ciencia e Innovación. Miguel Ángel Royo Bordonada, Javier Damián Moreno, “Método epidemiológico”. Madrid: ENS - Instituto de Salud Carlos III, Octubre de 2009
- Fathalla MF, Fathalla MMF. Guía práctica de investigación en salud. Washington, D.C.: OPS, Of. Regional de la Organización Mudial para la Salud; 2008.
- Hernández Sampieri R, Fernández Collado C, Baptista Lucio P. Metodología de la investigación. 5a ed. México, D.F: McGraw-Hill; 2010. 613 p.
- Mirón Canelo JA, Alonso Sardón M, Iglesias de Sena H. Metodología de investigación en Salud Laboral. Medicina y Seguridad del Trabajo. 2010;56(221):347–65.
- Pineda EB, Alvarado EL de, Hernández de Canales F. Metodología de la investigación: manual para el desarrollo de personal de salud. Washington, D. C.: Organización Panamericana de la Salud?: Organización Mundial de la Salud; 1994.
- Ávila Baray, H.L. (2006) Introducción a la metodología de la investigación Edición electrónica. Texto completo en www.eumed.net/libros/2006c/203/doc. (cita sugerida)
- Bilal U. Belza Mª J.Bolúmar F. Introducción al método epidemiológico y su uso en administración sanitaria[Internet]. Madrid: Escuela Nacional de Sanidad; 2012
- Jarrín Vera I. Conceptos básicos de Estadistica I [Internet]. Madrid: Escuela Nacional de Sanidad; 2012
- Jarrín Vera I. Conceptos básicos de Estadistica II [Internet]. Madrid: Escuela Nacional de Sanidad; 2012
- Pita Fernández, S. Uso de la estadística y la epidemiología en atención primaria. En: Gil VF, Merino J, Orozco D, Quirce F. Manual de metodología de trabajo en atención primaria. Universidad de Alicante. Madrid, Jarpyo Editores, S.A. 1997; 115-161.
- Galindo-Domínguez, H. Estadística para no estadísticos: una guía básica sobre la metodología cuantitativa de trabajos académicos. 1ªed. Alicante:3ciencias, 2020. DOI: https://doi.org/10.17993/EcoOrgyCso.2020.59
- Ochoa Sangrador C., Molina Arias M., Ortega Páez E. Inferencia estadística: contraste de hipótesis. (Internet) Evid Pediatr, 2020; 16:11. Disponible en: https://evidenciasenpediatria.es/articulo/7537/inferencia-estadistica-contraste-de-hipotesis (consultado 20 agosto 2024)