4. CORRELACIÓN; RELACIÓN ENTRE VARIABLES
El objetivo de esta parte de la estadística es descubrir la existencia de relaciones entre variables y si es posible predecir el valor de una variable a partir de otras.
En el contexto de la correlación, los datos se clasifican como variables independientes o dependientes. Las primeras se conocen como variables de entrada y tienen normalmente valores que son autónomos de las variables dependientes o de desenlace. Las variables dependientes (también llamadas de salida o de resultado), tienen respuestas que dependen de las variables independientes.
Las variables dependientes se consideran antecedentes y las variables dependientes son consiguientes. En la epidemiología, las variables independientes se llaman a menudo factores de riesgo o variables de exposición.
4.1. Diagrama de dispersión
Cuando un investigador ha recopilado dos conjuntos de observaciones y desea ver si hay una relación entre ellos, lo mejor es construir primero un diagrama de dispersión.
La escala vertical representa un conjunto de mediciones, y la horizontal el otro. Los puntos de diagrama de dispersión generalmente no caen sobre una única línea recta, ni son equidistantes a ninguno de los lados de una recta central. A menudo caen en un área aproximadamente elíptica. El diagrama de dispersión da una indicación de si puede existir una correlación y de cuál es su dirección. Por lo general, las variables independientes se representan gráficamente en el eje X (eje horizontal) y las variables dependientes se representan en el eje Y (eje vertical).
La covarianza entre dos variables, Sxy, indica si la posible relación entre dos variables es directa o inversa, si:
- Directa: Sxy >0
- Inversa: Sxy <0
- Incorreladas o no correlacionadas: Sxy =0
4.2. Coeficiente de correlación
Cuando la relación entre dos variables puede expresarse gráficamente por una línea recta, la correlación puede expresarse como el coeficiente de correlación, y puede ser positiva o negativa. Cuando una variable aumenta a medida que la otra también aumenta, la correlación es positiva. Cuando una variable disminuye conforme la otra aumenta, es negativa.
4.2.1. Coeficiente De Correlación Lineal De Pearson
El coeficiente de correlación lineal de Pearson de dos variables, r, nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales). Tiene el mismo signo que Sxy, por lo tanto, de su signo positivo o negativo obtenemos el que la posible relación sea directa o inversa respectivamente.
Es útil para determinar si hay una relación lineal entre dos variables, pero no servirá para otro tipo de relaciones. El coeficiente de correlación (r) se mide en una escala que varía entre +1 y –1, pasando por 0. La correlación completa entre dos variables se expresa como 1. Deberá quedar claro que correlación significa asociación, pero no necesariamente significa causalidad. Esta conclusión queda para la interpretación de los resultados.
4.2.2. Otros Coeficientes De Correlación
Cuando las variables en vez de ser numéricas son ordinales, es posible preguntarse sobre si hay algún tipo de correlación entre ellas. Disponemos para estos casos de dos estadísticos:
- ? (‘ro’) de Spearman
- t (‘tau’) de Kendall
Son estadísticos análogos al coeficiente de Pearson.
4.3. Ecuación de regresión
La correlación entre dos variables significa que cuando una de ellas cambia en una cierta cantidad, la otra cambia en promedio una determinada cantidad. La relación puede ser descrita por una ecuación sencilla llamada la ecuación de regresión, que puede usarse para construir una recta de regresión sobre un diagrama de dispersión.
Es algo habitual en Ciencias de la Salud, de forma que las fórmulas y expresiones que utilizamos con frecuencia derivan de análisis de este tipo.
Y = f(X) + e
Decimos entonces que, si conocemos X, podemos aproximarnos al valor de Y, donde:
- Y = Variable dependiente, predicha o explicada.
- X = Variable independiente, predictora o explicativa.
- E= error aleatorio, pequeño, y no depende de X.
Como la línea debe ser recta, probablemente pasará por algunos puntos, si los hay.
Coeficiente de regresión es el término usado para significar la cantidad por la cual debe multiplicarse un cambio en una variable (variable independiente), para obtener el cambio promedio correspondiente en otra variable (variable dependiente). Representa el grado en que la recta de regresión se inclina hacia arriba o hacia abajo.