Investigaciones
Cómo un detective de datos divulgó datos sospechosos de ensayos clínicos (How a data detective exposed suspicious medical trials)
David Adam
Nature 571, 462-464 (2019) doi: 10.1038/d41586-019-02241-z
https://www.nature.com/articles/d41586-019-02241-z
Traducido por Salud y Fármacos
John Carlisle se levanta habitualmente a las 4,30 a.m. para dejar salir a Wizard, la mascota de la familia. Luego, incapaz de dormir, toma su computadora portátil y comienza a transcribir datos de artículos sobre ensayos clínicos que se hayan publicado. Antes de que suene el despertador de su esposa 90 minutos después, por lo general se las ha arreglado para llenar una hoja de cálculo con las edades, pesos y alturas de cientos de personas, algunas de las cuales, sospecha, nunca existieron.
De día, Carlisle es anestesista y trabaja para el Servicio Nacional de Salud de Inglaterra en la ciudad costera de Torquay. Pero en su tiempo libre, busca entre la información científica datos sospechosos en la investigación clínica. Durante la última década, su investigación incluyó ensayos que investigaban una amplia gama de problemas de salud, desde los beneficios de dietas específicas hasta pautas para el tratamiento hospitalario. Ha llevado a que cientos de documentos sean retractados y corregidos, tanto por mala conducta como por errores. Y ha ayudado a poner fin a las carreras de algunos falsificadores a gran escala: de los seis científicos en todo el mundo con la mayor cantidad de retracciones, tres fueron identificados utilizando variantes de análisis de datos de Carlisle.
“Se ha demostrado que su técnica es increíblemente útil”, dice Paul Myles, director de anestesia y medicina perioperatoria en el hospital Alfred en Melbourne, Australia, que ha trabajado con Carlisle en el análisis de documentos de investigación que contienen estadísticas poco fiables. “La ha usado para demostrar algunos ejemplos importantes de fraude”.
Hay científicos que cuestionan el acercamiento estadístico de Carlisle. Sus críticos sostienen que ha cuestionado estudios que no incluyen falsificaciones obvias, lo que ha generado sospechas injustificadas.
Pero Carlisle cree que está ayudando a proteger a los pacientes, por lo que pasa su tiempo libre estudiando detenidamente los estudios de otros. “Lo hago porque mi curiosidad me motiva a hacerlo”, dice, no por un afán abrumador de descubrir malas conductas: “Es importante no convertirse en un cruzado contra la mala conducta”.
Junto con el trabajo de otros investigadores que revisan obstinadamente documentos académicos, sus esfuerzos sugieren que los guardianes de la ciencia, las revistas y las instituciones, podrían estar haciendo mucho más para detectar errores. En los ensayos cínicos clínicos, que son en los que Carlisle se enfoca, puede ser una cuestión de vida o muerte.
Anestesistas que se portan mal
Torquay, se parece a otras muchas ciudades tradicionales de provincia en Inglaterra. Carlisle ha vivido en el área durante 18 años y trabaja en el hospital general de la ciudad. En un quirófano vacío, después de que una operación, explica cómo comenzó a buscar datos falsos en la investigación médica.
Hace más de diez años, Carlisle y otros anestesiólogos comenzaron a hablar sobre los resultados publicados por un investigador japonés, Yoshitaka Fujii. En una serie de ensayos controlados aleatorios (ECA), Fujii, que luego trabajó en la Universidad de Toho en Tokio, afirmó haber examinado el impacto de varios medicamentos en la prevención de vómitos y náuseas en pacientes posquirúrgicos. Pero los datos parecían demasiado limpios para ser verdad. Carlisle, uno de los muchos interesados, decidió verificar las cifras, utilizando pruebas estadísticas para detectar patrones poco probables en los datos. Mostró en 2012 que, en muchos casos, la probabilidad de que los patrones surgieran por casualidad era “infinitamente pequeña”[1]. Impulsados en parte por este análisis, los editores de revistas pidieron a las universidades donde Fujii estaba y había trabajado que investigaran; Fujii fue despedido de la Universidad de Toho en 2012 y 183 de sus artículos fueron retractados, un récord histórico. Cuatro años después, Carlisle fue coautor de un análisis de los resultados de otro anestesiólogo japonés, Yuhji Saitoh, que había sido un coautor frecuente de Fujii, y demostró que sus datos también eran extremadamente sospechosos [2]. Saitoh tiene en este momento 53 artículos retractados.
Otros investigadores, que utilizaron variantes de su enfoque, no tardaron en citar el trabajo de Carlisle en sus propios análisis. En 2016, investigadores de Nueva Zelanda y Reino Unido, por ejemplo, informaron problemas en los documentos de Yoshihiro Sato, un investigador de huesos de un hospital al sur de Japón [3]. Eso finalmente condujo a 27 retracciones, y en total se han retirados 66 documentos escritos por Sato.
La revista Anaesthesia ya había tenido varios escándalos de fraude antes de los casos de Fujii y Saitoh, incluido el del anestesista alemán Joachim Boldt, a quien le han retirado más de 90 artículos. Pero Carlisle comenzó a preguntarse si estos problemas solo se daban en anestesia. Así que eligió ocho revistas destacadas y, trabajando en sus momentos libres, revisó miles de ensayos clínicos aleatorios que se habían publicado.
En 2017, publicó un análisis en la revista Anesthesia afirmando que había encontrado datos sospechosos en 90 de más de 5.000 ensayos publicados durante 16 años [4]. Desde entonces, al menos diez de estos documentos han sido retirados y seis corregidos, incluido un estudio de alta notoriedad publicado en The New England Journal of Medicine (NEJM) sobre los beneficios para la salud de la dieta mediterránea. En ese caso, sin embargo, no hubo ninguna sugerencia de fraude: los autores habían cometido un error en la forma de aleatorizar a los participantes. Cuando los autores eliminaron los datos erróneos, el artículo se volvió a publicar con conclusiones similares [5].
Carlisle sigue adelante. Este año, advirtió sobre docenas de estudios de anestesia realizados por un cirujano italiano, Mario Schietroma, de la Universidad de L’Aquila, en el centro de Italia, diciendo que no eran una base confiable para la práctica clínica [6]. Myles, que trabajó en el informe con Carlisle, había dado la alarma el año pasado, tras detectar similitudes sospechosas en los datos sin procesar para el control y los grupos de pacientes en cinco artículos de Schietroma.
Los desafíos a las afirmaciones de Schietroma han tenido un impacto en los hospitales de todo el mundo. La OMS citó el trabajo de Schietroma cuando, en 2016, recomendó que los anestesistas debieran aumentar rutinariamente los niveles de oxígeno que entregan a los pacientes durante y después de la cirugía, para ayudar a reducir la infección. Esa fue una decisión controvertida: los anestesistas saben que, en algunos procedimientos, el exceso de oxígeno se puede asociar con un mayor riesgo de complicaciones, y las recomendaciones habrían significado que los hospitales de los países más pobres gasten más de sus presupuestos en costoso oxígeno embotellado, dice Myles.
Los cinco documentos identificados por Myles fueron retractados rápidamente, y la OMS revisó su recomendación de “fuerte” a “condicional”, lo que significa que los médicos tienen más libertad para tomar decisiones distintas para pacientes diferentes. Schietroma dice que sus cálculos fueron evaluados por un estadístico independiente y superaron la revisión por pares, y que seleccionó a propósito grupos similares de pacientes, por lo que no es sorprendente que los datos sean parecidos. También dice que perdió datos sin procesar y documentos relacionados con los ensayos cuando en 2009 hubo un terremoto en L’Aquila. Un portavoz de la universidad dice que ha dejado las consultas a “grupos competentes de investigación”, pero no identificó cuáles eran esos grupos o si había alguna investigación en curso.
Detectar datos que no son naturales
Según explica Carlisle su metodología no es innovadora: es simplemente que los datos de la vida real siguen patrones naturales que los datos artificiales tienen dificultades para replicar. Estos fenómenos ya se identificaron en la década de 1880; Frank Benford, un ingeniero eléctrico y físico estadounidense los popularizó en 1938; y desde entonces muchos estadísticos los han utilizado para verificar análisis. Los politólogos, por ejemplo, han utilizado durante mucho tiempo un enfoque similar para analizar los datos de las encuestas, una técnica que llaman el método de Stouffer porque fue el sociólogo Samuel Stouffer quien lo popularizó en la década de 1950.
En el caso de los ECA, Carlisle analiza los datos basales que describen las características de los sujetos de experimentación, generalmente el grupo de control y el grupo de la intervención. Estos incluyen altura, peso y características fisiológicas relevantes, generalmente descritas en la primera tabla de un artículo.
En un ECA genuino, los sujetos se asignan aleatoriamente al control o a (uno o más) grupos de intervención. Consecuentemente, la media y la desviación estándar para cada característica deberían ser aproximadamente iguales, pero no demasiado idénticas. Eso sería demasiado perfecto y levantaría sospechas.
Carlisle primero construye un valor P para cada emparejamiento: una medición estadística de la probabilidad de que los datos basales sean verdaderos cuando se supone que los voluntarios fueron asignados aleatoriamente a cada grupo. Luego agrupa todos estos valores de la P para tener una idea de cuán aleatorias son en general las medidas. Un valor de P combinado demasiado alto sugiere que los datos están sospechosamente bien equilibrados; y demasiado bajo podría indicar que los pacientes han sido aleatorizados incorrectamente.
El método no es infalible. Las verificaciones estadísticas exigen que las variables en la tabla sean verdaderamente independientes, pero en realidad, a menudo no lo son (por ejemplo, la altura y el peso están vinculados). En la práctica, esto significa que algunos documentos marcados como incorrectos en realidad no lo son, y por esa razón, algunos estadísticos han criticado el trabajo de Carlisle.
Pero Carlisle dice que aplicar su método es un buen primer paso, que puede identificar estudios que podrían merecer un análisis más cuidadoso, por ejemplo, solicitar los datos individuales de los pacientes incluidos en el estudio.
“Puede ser como sacar una bandera roja. O una bandera ámbar, o cinco o diez banderas rojas para indicar que es muy poco probable que sean datos reales”, dice Myles.
Errores versus malhechores
Carlisle dice que tiene cuidado en no atribuir causalidad a los posibles problemas que identifica. Sin embargo, en 2017, cuando el análisis de Carlisle de 5.000 ensayos apareció en la revista Anaesthesia, de la cual es editor, una editorial acompañante de los anestesistas John Loadsman y Tim McCulloch de la Universidad de Sydney en Australia adoptó una línea más provocativa [7].
Hablaba de “autores deshonestos” y “delincuentes” y sugirió que “más autores de ECAs ya publicados recibirían eventualmente un toque de atención”. También decía: “Se podría argumentar que todas las revistas del mundo ahora deben aplicar el método de Carlisle a todos los ECAs que hayan publicado”.
Esto provocó una fuerte respuesta de los editores de una revista, Anesthesiology, que había publicado 12 de los artículos que Carlisle destacó como problemáticos. “El artículo de Carlisle es éticamente cuestionable y perjudica a los autores de los artículos publicados que allí ‘se discuten’”, escribió el editor de la revista, Evan Kharasch, un anestesiólogo de la Universidad de Duke [8]. Su editorial, coescrita con el anestesiólogo Timothy Houle del Hospital General de Massachusetts de Boston, consultor estadístico de Anesthesiology, destacó problemas como el hecho de que el método puede identificar falsos positivos. “Un método válido para detectar la fabricación y la falsificación de datos sería bienvenido (similar al software de control de plagio). El método Carlisle no es tal”, escribieron en una carta a Anaesthesia [9].
En mayo, Anesthesiology corrigió uno de los documentos que Carlisle había destacado, señalando que había informado valores de P “sistemáticamente incorrectos” en dos tablas, y que los autores habían perdido los datos originales y no podían volver a calcular los valores. Kharasch, sin embargo, dice que mantiene su punto de vista sobre la editorial. Carlisle dice que la editorial de Loadsman y McCulloch fue “razonable” y que las críticas a su trabajo no socavan su valor. “Me siento cómodo pensando que el esfuerzo vale la pena, mientras que otros puede que no lo estén”, dice.
Los verificadores de datos
El método de Carlisle para verificar los datos publicados no es el único método que ha aparecido en los últimos años.
Michèle Nuijten, de la Universidad de Tilburg en Holanda, especialista de métodos analíticos, ha desarrollado el statcheck, un “corrector ortográfico para las estadísticas” que escanea estadísticas de artículos y verifica su consistencia interna. El statcheck verifica, por ejemplo, que los datos reportados en la sección de resultados concuerden con los valores P calculados. Se ha utilizado para detectar errores, generalmente tipográficos, en artículos de revistas que se han publicado hace décadas.
Nick Brown, estudiante graduado de psicología de la Universidad de Groningen, también en Holanda, y James Heathers, que estudia métodos científicos de la Universidad Northeastern en Boston, Massachusetts, han utilizado un programa llamado GRIM para verificar los cálculos estadísticos de la media, como otra forma de identificar datos sospechosos.
Ninguna de estas técnicas funcionaría para analizar los documentos que describen ECAs, como los que Carlisle ha evaluado. Statcheck se ejecuta en el estricto formato de presentación de datos utilizado por la Asociación Americana de Psicología. GRIM funciona solo cuando los datos son enteros, como los números discretos generados en los cuestionarios de psicología, cuando un valor se puntúa de 1 a 5.
Hay un interés creciente en este tipo de controles, dice John Ioannidis de la Universidad de Stanford, especialista en métodos científicos que aboga por utilizar mejor las estadísticas para mejorar la reproducción de estudios científicos. Ioannidis explica: “Son herramientas maravillosas y muy ingeniosas”. Pero advierte del peligro de sacar conclusiones precipitadas sobre las causas de los problemas encontrados. “Hablar de fraude es muy diferente de hablar de error tipográfico”, dice.
Brown, Nuijten y Carlisle están de acuerdo en que sus herramientas solo pueden identificar problemas que hay que investigar. “Realmente no quiero asociar statcheck con fraude”, dice Nuijten. El verdadero valor de estas herramientas dice Ioannidis, será examinar los documentos, antes de que se publiquen, para ver si hay datos problemáticos, y así evitar fraudes y la divulgación de errores científicos.
Carlisle dice que un número cada vez mayor de editores de revistas lo han contactado para usar su técnica de esta manera. Actualmente, la mayor parte de este esfuerzo es ad hoc, es decir no es oficial, y solo se utiliza cuando los editores sospechan algo.
Al menos dos revistas han llevado las cosas más lejos y ahora utilizan las comprobaciones estadísticas como parte del proceso de publicación de todos los artículos. La revista del propio Carlisle, Anesthesia, lo usa de manera rutinaria, al igual que los editores del New England Journal of Medicine. “Estamos tratando de prevenir un evento negativo raro, pero potencialmente impactante”, dice un portavoz del NEJM. “Vale la pena invertir el tiempo extra y los gastos”.
Carlisle dice que está muy impresionado de que una revista de la categoría del NEJM esté haciendo estos controles, que él sabe de primera mano que son laboriosos, requieren mucho tiempo y no son universalmente populares. Según Carlisle, se necesitaría automatización para verificar, aunque solo fuera una fracción de los aproximadamente dos millones de artículos de medicina que se publican anualmente en el mundo. Y piensa que es posible hacerlo. Statcheck funciona de esta manera, y según Nuijten varias revistas de psicología lo utilizan de forma rutinaria para evaluar los artículos que se reciben. Y las técnicas de análisis de los manuscritos han permitido a los investigadores evaluar, por ejemplo, los valores P en miles de documentos como una forma de investigar el pirateo de P, algo que ocurre cuando se modifican los datos para producir valores de P significativos.
Un problema, dicen varios especialistas de estadística es que los financiadores, las revistas y muchos en la comunidad científica otorgan una prioridad relativamente baja a dichos controles. “Este tipo de trabajo no es muy gratificante”, dice Nuijten. “Estás tratando de encontrar fallas en el trabajo de otras personas, y eso no es algo que te haga muy popular”.
Incluso encontrar que un estudio es fraudulento no siempre soluciona el problema. En 2012, investigadores de Corea del Sur presentaron a Anesthesia&Analgesia un informe de un ensayo que analizaba cómo el tono muscular facial podría indicar el mejor momento para insertar tubos de respiración en la garganta. Cuando se le preguntó, extraoficialmente, que lo revisara, Carlisle encontró discrepancias entre los datos del paciente y el resumen, y el artículo fue rechazado.
Sorprendentemente, después se envió a la revista que edita Carlisle (Anesthesia) con datos diferentes de pacientes, pero Carlisle reconoció el documento. Fue rechazado nuevamente, y los editores en ambas revistas contactaron a los autores y a sus instituciones para expresar sus preocupaciones. Para asombro de Carlisle, unos meses más tarde, el artículo, sin cambios desde la última versión, se publicó en el European Journal of Anaesthesiology. Después de que Carlisle compartió la dudosa historia del artículo con el editor de la revista, se retiró en 2017 debido a “irregularidades en sus datos, incluida la falsificación de los resultados” [10].
Después de ver tantos casos de fraude, junto con errores tipográficos y equivocaciones, Carlisle ha desarrollado su propia teoría de lo que impulsa a algunos investigadores a inventar sus datos. “Creen que una arbitrariedad casual se interpuso en esa ocasión en el camino de la verdad, que es cómo ellos saben que el Universo realmente funciona”, dice. “Entonces cambian el resultado a lo que creen que debería haber sido”.
Como Carlisle ha demostrado, se necesita un verificador de datos para detectar el engaño.
References