En este número, Anaesthesia publica una descripción general de la experiencia de la revista al tratar de desenterrar los ensayos controlados aleatorios (ECA) que recibieron para publicar y que parecían ser falsos, y aquellos cuyos datos carecen de credibilidad de una manera tan descarada que se los puede llamar “zombis” [1]. El importante trabajo de John Carlisle, quien dirigió en solitario esta tarea durante varios años, tiene importantes implicaciones para la ciencia médica y los procesos de publicación. Carlisle evaluó los artículos de los 526 ensayos que fueron sometidos y valorados por Anaesthesia durante 3 años (febrero de 2017 a marzo de 2020), y también obtuvo datos a nivel individual de los autores de 153 ensayos. La disponibilidad de datos a nivel individual aumentó las probabilidades de que un ensayo se calificara como falso o zombi en 47 y 79 veces, respectivamente. Entre los 153 ensayos analizados en profundidad, el 44% se consideraron falsos y el 26% zombis. Utilizando únicamente en el manuscrito enviado originalmente, sin el beneficio de acceder a los datos a nivel individual, se pudieron detectar muy pocos ensayos falsos y zombis.
¿Qué tan extendido está el problema?
Las tasas de ensayos falsos y zombis entre los 153 ensayos analizados en profundidad son probablemente subestimaciones. Carlisle dedicó mucho tiempo a este ejercicio, tal vez invirtiendo más esfuerzo en cada ensayo que muchos/la mayoría de sus autores. Sin embargo, la capacidad de detectar fallas importantes o incluso fatales depende de si hay algún indicio de estos fallos, y de si uno puede identificar estos indicios. Los datos grupales resumidos que se presentan en los manuscritos ofrecen pocas pistas sobre algo importante que podría haber salido mal.
Carlisle había demostrado en un trabajo previo [2-4] cómo al analizar las características basales que se informaban para cada grupo aleatorizado se puede, ocasionalmente, identificar ensayos con datos inverosímiles. Esto condujo a algunos descubrimientos importantes, por ejemplo, como el que llevó a la retractación, reanálisis y (discutible) republicación del estudio de Estruch et al., posiblemente el ensayo más prestigioso entre la investigación nutricional [5, 6].
Los datos a nivel individual ofrecen muchas más oportunidades para comprobar la veracidad de los datos, pero aún así no reflejan todo lo sucedido. Las hojas de cálculo para analizar los datos de la mayoría de los ensayos clasificados como zombis tenían problemas evidentes. Si aceptamos que esos datos habían sido manipulados o inventados, entonces el manipulador/fabricante fue tonto al hacer algo tan atroz y fácil de detectar, por ejemplo, cortar y pegar grandes cantidades de datos en la hoja de cálculo o informar números pares para todos los resultados.
Carlisle detectó el desorden obvio, la dejadez inculta. La dejadez sofisticada y los manipuladores más hábiles seguirían sin ser detectados. Además, aunque Carlisle tiene mucha experiencia en estos análisis, el esfuerzo se asemeja a diseccionar un cadáver en busca de pruebas de envenenamiento. Incluso el ojo más experimentado puede pasar por alto estos diagnósticos. No existe un libro de texto que incluya todas las posibles manipulaciones. Compilar una guía forense de ensayos de este tipo no es sencillo.
¿Se podrían extrapolar estos datos a todos los ECA de toda la medicina? Los 153 ensayos analizados en profundidad se eligieron deliberadamente, en función de si los datos resumidos y el manuscrito generaron alguna sospecha (2017-2019) o (en el último año) si provenían de países “sospechosos” que presentaron muchos ensayos (Egipto, China, India, Irán, Japón, Corea del Sur y Turquía). Por lo tanto, representan una muestra seleccionada y sesgada. No es sorprendente que se detectaran ensayos falsos y zombis con mayor frecuencia en estos países.
Origen de los datos
Centrándose en los artículos presentados durante el último año, en los artículos de países para los que rutinariamente se solicitaron las hojas de cálculo y limitándose a los ensayos para los que se pudieron analizar los datos a nivel individual, las tasas de ensayos falsos fueron muy altas: 100% (7/7) en Egipto; 75% (3/4) en Irán; 54% (7/13) en India; 46% (22/48) en China; 40% (2/5) en Turquía; 25% (5/20) en Corea del Sur; y 18% (2/11) en Japón.
En la mayoría de estos países, excepto Turquía y Corea del Sur, todos o casi todos los ensayos falsos eran zombis. El Registro Internacional de Ensayos Clínicos de la OMS incluye (al 26 de septiembre de 2020): 6.668 ensayos de Egipto; 27.064 de Irán; 33.134 de la India; 54.746 de China; 8.362 de Turquía; 19.680 de Corea; y 51.095 de Japón. Si uno extrapola las proporciones de ensayos falsos observados en Anaesthesia en 2019-2020 para estos países utilizando sus aportaciones al registro de la OMS, uno puede estimar que hay casi 90.000 ensayos falsos registrados de estos países, incluyendo unos 50.000 zombis. De hecho, Anaesthesia solo considera la publicación de los ensayos que han sido registrados. Quizás la mayoría de los ensayos de estos siete países ni siquiera se registraron [7, 8] (hay variabilidad en las tasas de registro entre los países y a lo largo del tiempo). Además, la proporción de ensayos falsos y zombis puede ser mayor entre los estudios que ni siquiera se molestan en registrar que entre los que sí se registran. Si estas suposiciones son ciertas, tan solo en estos siete países podría haber entre 200.000 y 300.000 ensayos falsos y entre 100.000 y 200.000 zombis acechando.
Estas estimaciones obviamente son inciertas, pero cubren sólo un subconjunto del total de ensayos falsos y zombis, ya que sólo se consideraron siete países. Carlisle no examinó de manera tan sistemática los ensayos de otros países, porque su sospecha previa de que fueran falsos y zombis era menor. Esto puede ser apropiado, y las tasas de ensayos falsos y zombis pueden ser mucho más bajas en otros lugares. Sin embargo, incluso en ese escenario, puede haber muchas decenas, si no cientos de miles de ensayos falsos y zombis adicionales de otros países. Además, como se mencionó anteriormente, una hoja de cálculo sin problemas no significa que un ensayo esté libre de manipulación. Por ejemplo, podría ser simplemente que los manipuladores de EE UU o Europa son más sofisticados y pueden ocultar el fraude mejor que sus colegas de China o Egipto.
A primera vista, el número de ensayos presentados a Anaesthesia de países conocidos por su fuerte tradición en investigación parece bajo. De hecho, el número total de ensayos que se sometieron a publicación de los seis países más prolíficos de ese grupo (Francia, Alemania, Australia, EE UU, Reino Unido y Canadá) es sólo 90, en comparación con 96 ensayos presentados solo desde China. De estos seis países, solo EE UU (n = 147.442 ensayos) supera a China (n = 54 .46) en la cantidad de ensayos que aparecen en el registro de la OMS, y este incluye ensayos registrados durante muchos años. En los últimos años, la brecha se ha reducido o incluso se ha invertido. En muchos campos de investigación, el volumen de publicaciones de China ha superado a EE UU y a otras potencias de investigación tradicionales [9, 10]. Por ejemplo, el 27 de septiembre de 2020, la cantidad de artículos sobre covid-19 procedentes de China que aparecen en LitCOVID es más del doble que la cantidad de artículos de EE UU. Hasta el 19 de mayo de 2020 se registraron 1.551 ensayos sobre la covid-19 en clinicaltrials.gov, y China contribuyó con muchos de ellos [11]. Otros países, como los otros seis destacados en el corpus de Anaesthesia, también se están convirtiendo en productores masivos de investigación clínica. La mayor parte de esta investigación puede provenir de investigadores inexpertos y de entornos con salvaguardas subóptimas para mantener la calidad o integridad de la investigación. Varios estudios empíricos destacan deficiencias importantes en estos estudios de China y países menos desarrollados, y sugieren que estos estudios pueden eventualmente difundir inferencias sesgadas, por ejemplo, resultados estadísticamente más significativos y estimaciones exageradas de los beneficios del tratamiento [12-14].
Los estudios realizados en EE UU o Europa tampoco son infalibles. Lo más probable es que menos de ellos muestren errores atroces en las hojas de cálculo. Sin embargo, gran parte de la investigación académica que se hace en estos países sigue siendo de baja calidad. Además, en los ensayos financiados por la industria que revisan los reguladores, los errores superficiales perjudicarían la autorización de medicamentos. Sin embargo, estos ensayos podrían ser zombis y tener otros problemas más sutiles, pero aún más peligrosos, entre ellos: elección de resultados clínicamente irrelevantes; elección engañosa de comparadores y diseños de no inferioridad; análisis estadísticos sofisticados pero engañosos; informes selectivos; manipulación y otras formas de sesgo de difusión; y colusión dentro del complejo médico-industrial [15]. Estos ensayos probablemente estuvieron subrepresentados en la cohorte de Anaesthesia, dada la naturaleza de la especialidad de anestesiología y de sus intervenciones.
Valor de la investigación
¿Son los ensayos falsos y zombis, tal como los define Carlisle, un desperdicio total, o tienen algún valor a pesar de sus defectos? En primer lugar, hay que reconocer que Carlisle no proporcionó una estimación de la concordancia entre los observadores para calificar un ensayo como falso o zombi. Diferentes editores y analistas pueden tener opiniones diferentes sobre la gravedad de los problemas detectados. Algunas de las peculiaridades y anomalías observadas en los datos pueden deberse a hallazgos casuales sin que haya habido manipulación. Sin embargo, parece muy poco probable que en la mayoría de los casos reflejen aleatoriedad.
Una cuestión crítica es si la detección de un signo de zombi invalida toda la base de datos. Quizás solo una parte de los datos sea espuria y el resto sean válidos. Por ejemplo, no se puede excluir que algunos datos hayan sido introducidos por un estudiante inexperto o incluso por un colega con un comportamiento poco ético, pero el resto de los datos son completamente válidos. En el pasado, hemos documentado situaciones en las que se introdujeron datos fraudulentos en un ensayo, provocando una pérdida de confianza no solo en ese ensayo en sí, sino en toda la organización que realiza muchos ensayos [16]. Los resultados y conclusiones de los ensayos específicos no se vieron afectados por una pequeña porción de datos fraudulentos, y los demás ensayos de los mismos investigadores ciertamente no deberían haber sufrido, ya que las intenciones, los métodos y la conducta fueron excelentes. La investigación clínica es difícil y propensa a errores. El ensayo perfecto no existe, pero los ensayos imperfectos pueden ofrecer alguna evidencia y orientación útiles.
Sin embargo, en última instancia, no solo se trata de si datos erróneos específicos marca una diferencia en esa base específica de datos. Esto se podría abordar excluyendo los datos cuestionables y volviendo a ejecutar los análisis. Así es como se realizó un esfuerzo discutible para salvar el estudio de Estruch et al. de la retractación definitiva [6, 7]. El problema más profundo es que la detección de fallas fatales en algunos datos o en algún aspecto del estudio puede poner en duda si se han producido fallas adicionales y errores fatales o manipulaciones en otros aspectos del estudio que no se pueden investigar con los datos disponibles. Muchos aspectos de la investigación clínica siguen sin ser transparentes, incluso cuando se comparten datos a nivel individual.
Las bases de datos que se comparten son una versión final que puede haber sufrido decenas de iteraciones, limpieza y manipulaciones desde que se ingresaron los primeros datos durante la recopilación inicial. Aspectos relacionados con la fidelidad de la aleatorización, el ocultamiento de la asignación, el cegamiento, el cronograma de visitas, la recopilación de datos, la obtención de datos y muchas otras características clave de cómo se realizó realmente un ensayo, siguen siendo en gran parte desconocidos. Un ensayo con un patrón zombi perfecto en una hoja de cálculo podría o no haber tenido problemas igualmente graves en otros aspectos de su diseño, realización y redacción. Problemas importantes pueden concentrarse en los mismos ensayos, incluso si se desconoce el grado de agrupación de los defectos principales en cada ensayo individual.
La interesante experiencia editorial de Anaesthesia tiene implicaciones para toda la investigación clínica. En primer lugar, la revisión editorial de los ensayos debería requerir acceso a datos a nivel individual y esto requeriría recursos adecuados y una dedicación de tiempo. En una comunicación personal, Carlisle confió que dedicaba una media de 3 horas a cada ensayo que proporcionaba hojas de cálculo, pero los editores y analistas menos experimentados pueden no ser tan eficientes. Además, la mayoría de las revistas actualmente funcionan con equipos editoriales muy limitados.
En segundo lugar, uno teme pensar en otros diseños de estudio, por ejemplo, la investigación observacional, que tienen incluso menos probabilidades de estar regulados y más probabilidades de no ser tan rigurosos como los ensayos aleatorios. En total, en la investigación clínica, el acceso a datos a nivel individual debería ser mucho más frecuente. Se han planteado contraargumentos, pero existen soluciones para resolverlos [17]. El intercambio de datos de los ensayos a nivel individual ya se ha convertido en norma en algunas revistas, como British Medical Journal y PLoS Medicine, y los resultados de estas pruebas piloto parecen sólidos al volverlos a analizar [18]. Incluso si los editores no pueden examinar cada detalle, la disponibilidad de los datos mejorará las opciones de revisión posterior a la publicación y permitirá que estos datos se utilicen de muchas otras maneras de forma fructífera.
En tercer lugar, los que hacen revisiones sistemáticas deben ser conscientes de que los ensayos falsos y zombis son muy comunes, y pueden ser incluso más comunes en campos específicos y en ensayos que provienen de algunos países o equipos. Muchas revisiones sistemáticas pueden tener que moderar su confianza en sus conclusiones.
Por último, los financiadores y los reguladores también pueden promover la transparencia proporcionando incentivos para el intercambio de datos y/o sanciones por ocultar bases de datos. De igual manera, el sistema de recompensas académicas debería tener más en cuenta la transparencia, la apertura y el rigor de la investigación al evaluar a los profesores para su contratación y promoción [19]. Ya hay demasiados zombis circulando entre nosotros.
Referencias
[1] Nota de SyF. Los ensayos zombis son ensayos clínicos con tantos errores en los datos que se consideran poco fiables. El término “zombi” se utiliza porque los ensayos parecen ser investigaciones reales, pero en realidad están vacíos.