Ensayos Clínicos
Investigaciones
Bajando el umbral de valor de P — Respuesta (Lowering the P Value Threshold—Reply)
John P. A. Ioannidis, MD, DSc1
JAMA. 2018;320(9):937-938. doi:10.1001/jama.2018.8743
Traducido por Salud y Fármacos
Los doctores Wei y Chen enumeran varios acercamientos que se pueden utilizar para minimizar el sesgo y aumentar la reproducibilidad y utilidad de futuros estudios. No hay ninguna razón por la que no se puedan realizar todos estos esfuerzos. En la actualidad, hay una gran discusión sobre las formas de mejorar la investigación [1,2]. Cambiar el umbral del valor P no obstaculizará dichas mejoras. Además, las mejoras propuestas no pueden rescatar a los estudios ya realizados, mientras que cambiar el umbral de valor P puede calibrar mejor la interpretación de la literatura existente.
El Dr. Hernández y sus colegas están preocupados porque al requerir muestras más grandes aumentarán los costos, porque los límites en la financiación pública hace que aumente en el número de ensayos no financiados, y retrasos en el acceso a nuevas terapias. Su razonamiento supone que la agenda de los ensayos clínicos está optimizada e impulsada racionalmente con cálculos cuidadosos de potencia estadística y relevancia clínica. Esto está lejos de la realidad; la mayoría de los ensayos son notoriamente poco potentes, con potencia espuria para resultados irrelevantes, muy sesgados o una combinación de estos problemas. En lugar de tener un millón de ensayos, en su mayoría inútiles, sería mejor centrarse en menos, mejores y más concluyentes.
En cualquier caso, a veces las decisiones clínicas y de implementación deben adoptarse con evidencia “sugestiva” en lugar de “estadísticamente significativa”. Para las enfermedades raras, esta situación puede ser más común, pero el término (“sugestiva”) es apropiado: transmite la idea de que se sabe menos de lo que se desearía. En condiciones extremadamente raras con evidencia mínima, se pueden tomar decisiones incluso con un valor de P mayor a .05, tratando de equilibrar de manera óptima las consecuencias y el costo de los resultados falsos positivos y falsos negativos [3].
No comparto las preocupaciones de Wei, Chen, Hernández y sus colegas sobre la desaceleración de la innovación. Las mejores reglas de decisión producen una innovación más eficiente, que discrimina mejor lo importante de lo que no lo és, y con menos inversiones en pistas falsas.
El Sr. Gebski y el Dr. Byth sugieren que se descartarán muchas diferencias clínicamente significativas. Por supuesto, la interpretación de los resultados de los estudios clínicos debe centrarse principalmente en su significado clínico más que en su significación estadística. Sin embargo, la mayoría de los efectos en el rango de valores de P entre .005 y .05 en la literatura existente no son clínicamente significativos. Reconocí en mi articulo que hay excepciones [4].
En el caso de significancia estadística “sugestiva” con clara significancia clínica, esta última debe tener prioridad. Los dos ejemplos que Gebski y Byth proporcionan para ilustrar las grandes fallas del umbral de valor P inferior a ,005 demuestran, de hecho, que la regla funciona. El estudio de supervivencia a largo plazo de pacientes con cáncer de ovario que reciben quimioterapia intraperitoneal muestra un valor de P de ,002 para el beneficio de supervivencia [5], no ,04, según afirman. Para K-ras y el cáncer colorrectal, el valor de p de ,01 es para la supervivencia (“sugestiva”), pero el valor de p es menor que ,001 (“estadísticamente significativo”) para la supervivencia sin progresión [6].
Estoy de acuerdo con el Dr. Barach y sus colegas con respecto a los intervalos de confianza y estoy a favor de contextualizar los hallazgos en el contexto clínico. El estudio de simulación se suma a la literatura acerca de cómo se malinterpretan los valores p. Sin embargo, su afirmación de que “los valores fuera del IC [95%] probablemente no existan en la población” es optimista. Solo es cierto si se cumplen varios supuestos, como la ausencia de sesgos. El uso de IC del 95% sufre de algunos, pero no todos, los problemas de los umbrales de valor P inferiores a ,05.
Simpatizo con las dos reglas adicionales que los doctores Janssens y Penders proponen para sensibilizar a más investigadores clínicos, clínicos y usuarios de la literatura científica. Sin embargo, el hecho de tener que recurrir a reglas generales excesivamente simplificadas perpetúa el concepto actual de que hay que dar por sentado el analfabetismo estadístico generalizado y la incertidumbre. El razonamiento científico necesita una sólida formación metodológica. Las reglas de oro (incluyendo P <,005) son en su mayoría medidas evasivas.
Referencias