Errores y Sesgos en Investigación

4. VALIDEZ Y FIABILIDAD DE LAS PRUEBAS DIAGNÓSTICAS

Desde un punto de vista funcional, consideramos prueba diagnóstica a cualquier procedimiento realizado para confirmar o descartar un diagnóstico o incrementar o disminuir su verosimilitud. La utilidad de una prueba diagnóstica depende fundamentalmente de su validez y de su fiabilidad, pero también de su rendimiento clínico y de su coste.

En el caso de necesitar clasificar a los individuos como sanos o enfermos, deberemos tener en cuenta la sensibilidad o especificidad de las pruebas diagnósticas. La validación de una prueba diagnóstica se realiza mediante la comparación de sus resultados con los obtenidos mediante el mejor instrumento de medida del fenómeno estudiado, o con el verdadero resultado si éste es conocido, o sea mediante la comparación del test con un “estándar de oro”.

Hemos visto que la validez se evalúa comparando los resultados de la prueba con los de un patrón de referencia (gold-standard), que identifica el diagnóstico verdadero. Para pruebas con resultados dicotómicos (ej. presencia-ausencia de enfermedad) la evaluación se concreta en distintos indicadores de validez:

Sensibilidad o probabilidad de que la prueba dé positiva si la enfermedad o condición de estudio está presente.
Especificidad o probabilidad de que la prueba dé negativa si la enfermedad está ausente.
Valores predictivos positivo o probabilidad de tener la enfermedad si la prueba ha sido positiva.
Valores predictivos negativos o probabilidad de no tener la enfermedad si la prueba ha sido negativa.

La sensibilidad y la especificidad son características intrínsecas de la prueba diagnóstica, que informan de su validez antes de conocer el resultado. Una vez conocido el resultado de la prueba, son los valores predictivos los que informan sobre la probabilidad de la enfermedad.

Sin embargo, los valores predictivos dependen de la prevalencia de enfermedad en el estudio original y por ello no son directamente aplicables a escenarios con probabilidades preprueba distintas. Para conocer la probabilidad de enfermedad (postprueba), en escenarios con probabilidades preprueba distintas, debemos usar los cocientes de probabilidades (CP). Esto es la probabilidad de un determinado resultado de la prueba en presencia de enfermedad, dividida por la probabilidad de ese mismo resultado en ausencia de enfermedad que son índices resumen de la sensibilidad y la especificidad, independientes de la probabilidad preprueba en el estudio original.

Para poder operar con los CP en el cálculo de probabilidades, éstas deben transformarse en ventajas (odds). Las ventajas u odds se calculan dividiendo las probabilidades por sus complementarios (P/[1-P]). Los pasos a seguir en el cálculo de la probabilidad postprueba son:

Transformar la probabilidad preprueba en odds preprueba.
Multiplicar la odds preprueba por el CP del resultado encontrado para obtener la odds postprueba.
Transformar la odds postprueba en probabilidad (probabilidad = odds/[1+odds]).

Todos estos cálculos se simplifican recurriendo a nomogramas o a aplicaciones informáticas. Todos estos estimadores de validez pueden ser aplicados a pruebas con resultados discretos con más de dos categorías e incluso a resultados expresados en variables continuas. En este caso podemos establecer puntos de corte para convertir el resultado en una variable discreta con dos o más categorías. Otra alternativa que permite explorar la capacidad diagnóstica de una prueba en sus distintos valores son las curvas ROC (iniciales del término inglés original receiver operating characteristics), con las que podemos conocer su validez global y seleccionar el punto o puntos de corte más adecuados.

Es preciso tener en cuenta que la información que disponemos sobre la validez de las pruebas diagnósticas procede de estudios realizados en muestras de población. Por lo tanto, las estimaciones obtenidas en dichos estudios están sujetas a variabilidad aleatoria (por lo que les son aplicables intervalos de confianza) y si los estudios han sido diseñados incorrectamente, a sesgos.

La fiabilidad de una prueba viene determinada por la estabilidad de sus ediciones cuando se repite en condiciones similares. La variabilidad de las mediciones va a estar influida por múltiples factores que interesa conocer y controlar. Entre ellos, tiene especial importancia distinguir las variaciones de interpretación intraobservador e interobservador.

La fiabilidad puede ser evaluada para resultados discretos nominales mediante el índice kappa, para resultados discretos ordinales mediante el índice kappa ponderado y para resultados continuos mediante el coeficiente de correlación intraclase y el método de Bland-Altman.

Tema 7. Errores y Sesgos en Investigación