ENSAYOS. Investigaciones. Cambios

Inicio

ENSAYOS CLÍNICOS

Investigaciones

Cambios en la metodología de los ensayos clínicos a lo largo del tiempo: Revisión de seis décadas de investigación en psicofarmacología.
(Changes in Clinical Trials Methodology Over Time: A Systematic Review of Six Decades of Research in Psychopharmacology).
Brunoni AR, Tadini L, Fregni F.Plos One, 2010; 5(3): e9479
http://www.plosone.org/article/info:doi%2F10.1371%2Fjournal.pone.0009479
Resumido y comentado por Francisco Martínez-Granados

Introducción

Después de la Segunda Guerra Mundial hubo una explosión en investigación farmacológica y creció el interés por los ensayos clínicos. Este entusiasmo también se dio en psicofarmacología, cuya era moderna no empezó hasta el año 1949, cuando se reintrodujo litio para su uso en psiquiatría. Más tarde se incorporaron clorpromazina (1954), imipramina (1958) y algunos otros. La aparición de estas nuevas herramientas terapéuticas supuso un cambio no sólo en la práctica psiquiátrica sino también en el campo de la investigación, ya que hasta entonces había habido poca investigación en este campo y se tenía que confrontar el reto de diseñar metodologías específicas para los psicofármacos. Este reto fue el que generó, entre otras cosas, el desarrollo de la psicometría como una forma de cuantificar la sintomatología psiquiátrica y la publicación del Diagnostic and Statistical Manual of Mental Disorders (DSM).

Paralelamente el diseño metodológico en la farmacología clínica seguía evolucionando; se introdujeron nuevos diseños que reforzaron los elementos de cohesión y validez interna en los estudios, como el cegamiento, los métodos de aleatorización, o las medidas de impacto.

En la actualidad la psicofarmacología se enfrenta a nuevos retos importantes. Por ejemplo, aunque se han comercializado multitud de fármacos para las mismas indicaciones, aún teniendo mecanismos de acción diferentes, no parece que ninguno de estos avances neuropsicofarmacológicos entrañe un avance real en la efectividad clínica de estos productos en las afecciones psiquiátricas. O este otro: las variables de resultado que se emplean como indicadores de garantías clínicas (efectividad) son variables subrogadas y escalas de gravedad que no están exentas de cierto grado de subjetividad. Por otro lado, los criterios diagnósticos del DSM están muy encaminados a que los estudios psicofarmacológicos sean operativos, es decir que se requiere la presencia de un mínimo de sintomatología para poder establecer un diagnóstico, pero configura una pseudorealidad (o ficción) que dista mucho de la práctica clínica. Por lo tanto, es lícito y está justificado preguntarse si los ensayos psicofarmacológicos son metodológicamente adecuados y si consideramos que no, hay que preguntarse por qué no se ofrecen soluciones a estos retos, debemos plantearnos qué debemos cambiar, cómo hacer avanzar en definitiva la forma que tenemos de generar conocimiento en psicofarmacología.

Pero antes de mirar adelante, es preciso entender cómo hemos llegado al punto en el que estamos, esto es, mirar restrospectivamente cómo y en qué se ha evolucionado desde el inicio de la psicofarmacología humana, y ver si el conocimiento que se generó en estos años iniciales fue válido, ya que en parte, nos basamos en él para establecer hipótesis en el presente. Finalmente habría que ofrecer soluciones a la evidencia que actualmente disponemos de que los estudios psicofarmacológicos más recientes fracasan en su intento de demostrar resultados positivos.

Por lo tanto conocer cómo ha sido la calidad metodológica de los estudios en psicofarmacología actuales y en el pasado es necesario para avanzar en el conocimiento futuro. El objetivo de este estudio es examinar los cambios en el diseño metodológico acaecidos en los últimos 60 años revisando estudios publicados en revistas de alto impacto.

Métodos

Criterios de selección: Ya que la tarea de revisar todo lo publicado en el campo de la psicofarmacología en 60 años es impracticable, se revisaron exclusivamente estudios publicados en revistas de alto impacto: The New England Journal of Medicine (NEJM), JAMA, Lancet, British Medical Journal, Archives of General Psychiatry, The American Journal of Psychiatry (AJP), The Journal of Mental Sciences/British Journal of Psychiatry (BJP) y The Journal of Clinical Psychiatry (JCP). También era impracticable realizar este análisis con todos los psicofármacos empleados en este tiempo, por lo que solamente fueron incluidos los psicofármacos que: (1) se utilizan actualmente en psiquiatría (con lo que se facilita la interpretación de los resultados), (2) se emplean en el tratamiento de trastornos psicóticos, de ansiedad o del humor (ya que en todos estos trastornos la psicofarmacología tiene un peso relativo importante), y (3) fueron introducidos durante el periodo de tiempo prefijado para la revisión. De esta forma, los psicofármacos incluidos fueron: litio, clorpromazina, diazepam, clozapina, fluoxetina, risperidona y lamotrigina.

Otra restricción fue la inclusión de estudios que hubiesen sido publicados en los 100 meses posteriores al primero rescatado, ya que este es el periodo de tiempo estimado en el que se llevan a cabo los estudios de eficacia de un fármaco. Se hicieron, no obstante, dos excepciones a esta restricción que fueron para el litio y clozapina, ya que estos psicofármacos se retiraron del mercado en EE UU por problemas derivados de una falta de monitorización clínica y más tarde fueron reintroducidos, por lo que extendimos el periodo de tiempo de inclusión de estudios con estos fármacos a 20 años.

Los criterios de selección no se rigieron por criterios diagnósticos, ni se focalizó en un único fármaco, sino que se hizo con la estrategia expuesta con el fin de incrementar en lo posible el espectro de estudios a lo largo del tiempo de manera que fuesen un fiel reflejo de la evolución en la calidad metodológica de los estudios en psicofarmacología.

Los criterios de inclusión para cada uno de los psicofármacos incluidos fueron:

Ensayos clínicos en trastornos psicóticos, ansiosos o del humor.
Todos los estudios debían tener un diseño experimental, controlado, aleatorizado, tanto si se testaban fármacos con fines terapéuticos como profilácticos (ej. respuesta/remisión o recaídas).

Se excluyeron:

Otros diseños como estudios de casos y controles y otros estudios observacionales, series de casos y estudios cuasi-experimentales.
Aquellos estudios cuyo objetivo principal no era testar la eficacia farmacológica.
Ensayos clínicos de otros trastornos (litio en niños hiperactivos por ejemplo).
Estudios en animales.

Procesamiento de los datos: El primer autor (ARB) llevó a cabo tanto la extracción de la información como el registro de las variables en la base de datos, mientras que el segundo (LT) hizo la comprobación de la base de datos con el fin de corregir cualquier error. El tercer autor (FF) revisó una muestra aleatoria de estudios con el fin de comprobar que tanto la información introducida como su interpretación eran correctas. Si había desacuerdo en algún punto, éste era consensuado. Se desarrolló un checklist basado en revisiones metodológicas de ensayos clínicos anteriores con el objetivo de trabajar los siguientes aspectos:

Características generales (nombre de autores, año de publicación, revista científica y declaración de fuentes de financiación).
Presencia de resúmenes. Se chequeaba la presencia o no de los apartados de antecedentes, métodos y resultados en los resúmene de los artículos.
Diseño del estudio. Se valoró el número de centros (uni- versus multicéntrico), si hubo período de lavado, si uno de los brazos recibió placebo, el diseño del estudio (2 brazos, 3 brazos, otros), y si el análisis fue por intención de tratar o no.
Participantes. Se registró el tamaño muestral, si se registró el consentimiento informado de los sujetos que formaron parte de los estudios, los criterios de selección (claros/no claros), el método por el cual se valoró la severidad del diagnóstico (juicio personal/ escalas psicométricas), y cómo se realizó la confirmación del diagnóstico (entrevista clínica/ cuestionario estructurado).
Metodología. Si el método de aleatorización fue adecuado (si/no/sesgado), si se informó sobre el cálculo del tamaño muestral, y si la hipótesis principal del estudio se definió de forma adecuada.
Resultados. Si se llevó a cabo un análisis comparativo de las características basales, si se incorporaron variables de efectos adversos, si se describieron los motivos de abandono (adecuado/ inadecuado), y si se realizaron test paramétricos (si/no).
Conclusiones. Se valoró si las conclusiones eran positivas, negativas o eclécticas y si estas conclusiones eran coherentes con los resultados del estudio (consistente/inconsistente/dudoso).

Los criterios empleados para la clasificación de la información se presentan en el Cuadro 1 que se puede observar en este enlace: http://www.plosone.org/article/info:doi%2F10.1371%2Fjournal.pone.0009479

Análisis de datos: Cada una de las variables recogidas fue considerada como una variable de resultado y por lo tanto fue analizada por separado. La variable “año” fue la principal variable predictora para determinar si se produjo un cambio a lo largo del tiempo en alguna de las variables de resultado. Se realizó un análisis independiente por clase farmacológica: antipsicóticos (clozapina, clorpromazina, risperidona), estabilizadores del ánimo (litio, lamotrigina), y otros (fluoxetina y diazepam) de manera que pudiera identificarse cualquier posible efecto de confusión por este criterio. La variable “año” se consideró tanto una variable continua como una ordinal (dividida en cuartiles iguales). Cuando se trató como una variable continua se analizó haciendo una regresión logística, mientras que cuando se trató como una variable ordinal, se aplicaron los tests de Chi-square y el exacto de Fisher. Como se puede comprobar más abajo, ambos análisis dieron resultados similares. El software estadístico que se empleó fue el StataCorp, College Station, TX,USA, versión 9 y el SPSS versión 16.

Resultados

Se revisaron noventa y cuatro estudios, 24 (26,7%) con clorpromazina, 20 (21%) con litio, 8 (8,9%) con diazepam, 6 (6,7%) con clozapina y otros tantos con lamotrigina, 16 (17,8%) con fluoxetina y 11 (12,2%) con risperidona. La mayoría de los estudios fueron publicados en el BJP (30, un 33%), en el JCP (20 ensayos, 22%), y en el AJP (19 estudios, 21%). No se identificó ningún estudio publicado en el NEJM. Veintidós estudios fueron anteriores al año 1961, 23 se llevaron a cabo en el período de 1962-74, otros 22 ensayos se desarrollaron de 1975-89 y otros 22 de 1990 al 2003.

No se consiguió clasificar la fuente de financiación de 48 estudios (52%). Se clasificaron 36 estudios como de financiación pública y 7 de financiación privada. El tema es que los ensayos más recientes tienen un gran número de autores, y suelen declarar una o incluso varias fuentes de financiación de todo tipo (públicas y privadas). Por lo que muchos de estos casos fueron clasificados como “fuente de financiación no definida”. Pero como este fue el caso de un 52% de los estudios, no se llevaron a cabo más análisis estadísticos sobre este aspecto.

En los Cuadros 2 y 3 (ver el enlace que se ha proporcionado) del estudio pueden verse todas las características descritas con sus respectivos análisis.

En cuanto a la evolución de la publicación de resúmenes, con el tiempo se observó una clara mejoría en la calidad de las publicaciones de todas las secciones que componen un resumen (p<0,001 para todos los análisis). Esto puede verse en la figura 4 del estudio original.

Los criterios de selección de los sujetos de estudio también se han definido cada vez mejor (p<0,001). Algunos ejemplos que los autores encontraron de falta de claridad en los criterios de selección fueron “una ansiedad lo suficientemente severa como para necesitar un tranquilizante”, “los pacientes no tratados que estuviesen más perturbados y agresivos”, “pacientes que necesitasen ECT”, y “cuando la clorpromazina fuera considerada el tratamiento de elección”. También hay una clara evolución en los métodos confirmatorios de diagnósticos previos al ensayo clínico, ya que antes solían basarse en entrevistas clínicas, mientras que los nuevos estudios suelen basarse en entrevistas estructuradas (p<0,01). Lo mismo que en la evaluación de la severidad sintomática que antes se basaba en el “juicio clínico” mientras que en los estudios más recientes se basan en escalas psicométricas (p<0,01). Asimismo se evidencia una clara evolución en los métodos de cegamiento del tratamiento activo, ya que en los estudios antiguos este en realidad era probable que no se llevase a cabo de forma adecuada, por lo que los estudios más antiguos podrían estar favoreciendo mediante un sesgo de cegamiento a los tratamientos activos. El cálculo del tamaño muestral se ha empezado a describir en los estudios con el transcurso del tiempo (p<0,01). Quizás una consecuencia de esto es que el tamaño muestral ha ido aumentando (p=0,04 y p=0,03 tomando la variable “año” como continua y como ordinal respectivamente), aunque es también probable que este aumento se deba a estudios puntuales que se han llevado a cabo en periodos recientes y que tienen tamaños muestrales muy superiores al resto, más que ser una tendencia generalizada en todos los estudios recientes. El consentimiento informado de los pacientes también ha ido mejorando con el tiempo (p<0,01).

Durante la revisión también se detectaron estudios que violaron los criterios éticos; por ejemplo en un ensayo clínico en el que se pasaban a los pacientes de litio a placebo sin que estos fuesen informados de esta posibilidad.

En cuanto al diseño de los estudios, el diseño en paralelo de dos brazos fue el más frecuente entre los nuevos en comparación con los estudios de tres brazos y otros diseños (p<0,01). Uno de los pocos aspectos que no ha evolucionado con el tiempo es el uso de placebo: el número de estudios controlados con placebo no ha cambiado con el paso de los años (p=0,13 para años tanto como variable continua como ordinal). Otros rasgos diferenciales de los nuevos estudios han sido la incorporación de un periodo de lavado al inicio del estudio, el diseño multicéntrico y el análisis por intención de tratar (p<0,01 para todas las variables).

Seis estudios tuvieron un claro sesgo en la aleatorización y asignación de los sujetos de estudio. Todos estos casos se clasificaron como inadecuados a pesar de que el método que siguieron estaba descrito. El análisis mostró que, aunque sí que hubo una evolución positiva en la descripción del método de aleatorización con el tiempo (p=0,01 y p<0,01 para años como variable continua y ordinal respectivamente), la asignación aleatoria de los sujetos no varió (p=0,39 y p=0,08 para años como variable continua y ordinal respectivamente). Este análisis debe ser contextualizado por el hecho de que el número global de estudios que describieron tanto el método de aleatorización como el método de asignación de los sujetos fue bajo (18% y 10% respectivamente). En cuanto al cegamiento, 8 estudios no lo llevaron a cabo y 4 compararon intervenciones farmacológicas con intervenciones no farmacológicas por lo que tampoco hubo cegamiento. Un estudio empleó un brazo sin tratamiento, uno se declaró inicialmente como doble ciego pero más tarde los pacientes y médicos descubrieron la asignación porque los comprimidos empleados tenían un tamaño, color y número diferente en uno y otro brazo. En un estudio se realizaban pruebas sanguíneas sólo a los pacientes de uno de los brazos. En otro estudio los sujetos conocían su asignación. Finalmente los 83 estudios restantes emplearon un diseño de doble ciego.

En la sección de resultados, los estudios más recientes informaron mejor sobre comparación de los grupos basales (p<0,01) y efectos secundarios de fármacos (p<0,01), pero no se experimentó ningún cambio en la descripción de los motivos de abandono (p=0,34 y p=0,41 para años como variable continua y ordinal respectivamente). Con el tiempo, se empleó más la expresión estadística p y se detectó un aumento del uso de tests estadísticos paramétricos (p<0,01 para ambos parámetros).

Un ejemplo de otro de los aspectos de calidad metodológica que analizaron los autores: si las conclusiones (cómo presentan su contenido) se corresponden con los resultados y análisis proporcionados por el propio estudio. En un estudio de lamotrigina versus placebo, encontraron que el fármaco activo “se asocia a una eficacia superior”, aunque esto sólo era cierto para algunos, pero no para todos los análisis que se llevaron a cabo. Un ejemplo de un estudio de conclusiones inconsistentes fue uno con un tamaño muestral muy bajo, 23 sujetos con manía donde se concluye que “litio es superior en todas las escalas, aunque no hubo diferencias estadísticamente significativas en ninguna de ellas”. Los autores justificaban esta conclusión arguyendo que debido a la naturaleza de la enfermedad estudiada y a la naturaleza del psicofármaco, había barreras metodológicas que nunca podrían ser resueltas. Curiosamente, los 17 estudios que desarrollaron conclusiones inconsistentes, como el del ejemplo anterior, tenían sesgos metodológicos importantes.

Se observó que los estudios más recientes mostraron conclusiones más consistentes con los resultados que habían obtenido, en comparación los estudios previos (p<0,01), una asociación que continuó siendo significativa después de introducir la variable “resultados positivos o negativos” en el modelo (p<0.01). No se evidenció ninguna tendencia hacia la publicación de resultados positivos en comparación con resultados negativos o dudosos (p=0.16).

Por último, se realizó un análisis independiente por clase farmacológica con el fin de estudiar si este factor podía explicar las diferencias observadas. De los 24 análisis que se llevaron a cabo, únicamente se encontró asociación entre la clase farmacológica “otros” y las variables consentimiento informado (p=0,01), aleatorización (p=0,02), asignación (p=0,02), comparación basal (p=0,04) y consistencia con los resultados (p<0,01); aunque en todos estos casos las diferencias se asociaron solamente con el grupo farmacológico “otros”, del que formaban parte fluoxetina y diazepam, por lo que no se está mostrando realmente un efecto de clase. Además como la significación estadística fue marginal, probablemente se trate de hallazgos falsos positivos.

Discusión

Los resultados descritos muestran cómo efectivamente ha habido un cambio en la calidad metodológica de los estudios en psicofarmacología durante los últimos 60 años de manera que los ensayos clínicos son de más calidad y presentan una validez interna superior. La inmensa mayoría de las variables de calidad que se han analizado han experimentado una mejoría en el tiempo, incluyendo la descripción del resumen, la expresión de diferencias estadísticas utilizando el valor de la p, el cálculo del tamaño muestral, el registro de eventos adversos, la definición más precisa de los criterios de selección o el análisis por intención de tratar. Los estudios más recientes están menos sesgados que los del pasado en cuanto a los métodos de aleatorización y cegamiento. Además las conclusiones proporcionadas en los estudios nuevos son más consistentes con sus resultados. Los tamaños muestrales cada vez han sido mayores, y el diseño de dos brazos ha ido sustituyendo al de tres brazos. Otros criterios no han cambiado, por ejemplo el uso de placebo ha permanecido invariable.

Hay algunas limitaciones del estudio que hay que considerar. El presente estudio se ha basado en los que los ensayos clínicos reportaban, por lo tanto es posible que se hayan considerado como sesgos metodológicos aspectos que sencillamente no fueron publicados. Además se ha podido incurrir en un sesgo de publicación ya que únicamente se incluyeron estudios publicados en revistas de alto impacto.

Es posible que algunos de los elementos que han evolucionado positivamente (publicación de resúmenes, métodos de aleatorización, y comparaciones basales) hayan sido incentivados por las políticas editoriales de las revistas y por los propios investigadores, lo cual derivó en los acuerdos CONSORT. Sin embargo se pudo observar cómo algunos de los elementos, por ejemplo el caso de la publicación de resúmenes, evolucionaron antes del CONSORT. Por lo tanto es posible que se hayan dado otros factores precursores de estas prácticas como por ejemplo el hecho de que fuese posible publicar un resumen del estudio en páginas webs, o el hecho de que los resúmenes cada vez se valoren más por ser piezas clave en la decisión última de leer un determinado artículo completo. Es más, muy frecuentemente lo único que se lee es el resumen, ya que de su breve lectura se puede comprender al menos la hipótesis principal del estudio y sus resultados.

Otros elementos que aumentan sin duda la validez interna de los estudios es el uso de la psicometría y de entrevistas estructuradas, lo que por otra parte incrementa el grado de consenso y reproducibilidad de resultados. A pesar de esto, la estandarización de los criterios diagnósticos no acaba de solucionar el problema de la heterogeneidad de grupos diagnósticos. Por ejemplo, de acuerdo con el DSM-IV hay 93 combinaciones diferentes de síntomas depresivos, lo cual refleja la heterogeneidad de pacientes con características diferentes que se engloban dentro de la clasificación de depresión del DSM-IV.

Las escalas de evaluación psiquiátricas permiten estimar la eficacia farmacológica de una forma cuantitativa (reducción en la puntuación) y de forma cualitativa (tasas de remisión y respuesta). También permiten seleccionar pacientes para el estudio, estimar la severidad sintomática, definir factores predictivos de respuesta y comparar resultados entre diferentes estudios. En definitiva proporcionan precisión en los resultados. Sin embargo tampoco están exentas de limitaciones importantes. Por ejemplo la escala de Hamilton pondera más los aspectos somáticos y ansiosos que los propiamente depresivos, lo cual distorsiona el resultado.

Cada vez son más numerosos los ensayos multicéntricos y lo que es más relevante: el tamaño muestral. Los motivos pueden ser varios: (1) aspectos económicos y éticos para incorporar más pacientes de los necesarios para testar la hipótesis principal, (2) por evolución estadística permitiendo estimaciones cada vez más precisas del tamaño muestral, (3) aumento del rigor científico ya que los investigadores deben enunciar la hipótesis principal a priori, (4) preocupación por obtener resultados negativos y que estos se deban a una falta de poder estadístico.

La validez interna de los estudios ha ganado con el tiempo debido a que cada vez más se utiliza más frecuentemente el análisis por intención de tratar, minimizando los sesgos por abandono del tratamiento.

El uso del placebo no ha disminuido con el tiempo sino que ha permanecido estable. Además hay un dato interesante: la respuesta al placebo se ha incrementado con el tiempo, lo que puede ser la consecuencia del aumento de la calidad de los estudios. En cualquier caso, esta práctica de emplear sistemáticamente placebo puede explicarse porque maximiza la sensibilidad del análisis, amplificando de esta manera la señal, porque se requiere menor tamaño muestral y porque se asume que no se expone al paciente a ningún riesgo, siempre que la duración del tratamiento sea corta, y con esto se justifican las cuestiones éticas.

La utilización cada vez mayor de la p estadística para expresar los resultados puede deberse a una cuestión de rigor científico, uniformidad en la expresión y democratización de conocimientos estadísticos en biomedicina. Por otra parte se confirma la tendencia al alza en el uso de test paramétricos para testar las hipótesis principales. Esto tiene como repercusión más evidente un menor requerimiento en tamaño muestral, pero condiciona también la forma de expresión del resultado ya que con un test paramétrico la variable de resultado se expresa en términos de disminución en la puntuación de la escala psicométrica que se esté testando y no en términos de tasas de respuesta/recaídas. En muchas ocasiones se expresan las tasas de respuesta dicotomizando una variable continua, como la puntuación obtenida en la escala psicométrica, lo cual ofrece sesgos en la interpretación del resultado.

Los métodos de aleatorización y asignación de sujetos también han evolucionado, pero la publicación expresa del método empleado continúa siendo muy baja. Esto llama la atención ya que tanto el método de aleatorización como el de asignación son dos pilares en la valoración de la calidad interna de un estudio. Siempre queda la duda de si la falta de descripción y publicación del método se debe a un sesgo real (que prefiere ocultarse) o simplemente a que no se ha explicado pero sí se ha hecho debidamente. Con el fin de dilucidar cual de las dos situaciones es la que se produce en realidad, algunos investigadores se han puesto en contacto con los investigadores de los trabajos originales y han indagado el método que emplearon. Así se puede saber si en realidad se incurrió en un sesgo metodológico o si se hizo de forma adecuada pero no se publicó. Los estudios llevados a cabo a este respecto son contradictorios en sus conclusiones, por lo que queda la duda.

Los autores del presente trabajo afirman que no hay ningún motivo para ocultar información acerca del diseño y la metodología empleada en los estudios. Es importante que la calidad interna de los ensayos clínicos pueda ser estratificada en niveles de calidad y fiabilidad internas y esto no se puede hacer si no se detallan todos los aspectos metodológicos. Además ocultando información tampoco se contribuye a la homogeneidad en la investigación, y la excusa de falta de espacio que muchas veces puede ser un límite, actualmente puede salvarse con la publicación de material extra on-line.

En la valoración de la consistencia de las conclusiones de los estudios en su relación con su calidad interna, se evidenció que aquellos estudios etiquetados como “inconsistentes” eran de baja calidad interna mientras que los “consistentes” tenían una buena calidad interna. Casi un tercio de los estudios se clasificaron como de “calidad dudosa” y sobre estos no se estableció un juicio definitivo. Por lo general se puede decir que con el tiempo hay una mayor coherencia entre las conclusiones y los resultados.

Conclusiones

La irrupción de la ciencia psicofarmacológica en psiquiatría despertó retos importantes en el campo de la investigación. Algunos de esos retos fueron la precisión en la definición criterios diagnósticos y de las variables de respuesta (a través de la psicometría).

Como resultado, la calidad interna de los ensayos clínicos en psicofarmacología ha mejorado en los últimos 60 años, sobre todo en lo que se refiere a aspectos fundamentales de la validez interna como el método de aleatorización, asignación, método estadístico, aspectos éticos y demás. Sólo el uso de placebo ha permanecido invariable con el tiempo. Los cambios acontecidos han mejorado la eficiencia y la validez interna a través de la identificación de sesgos potenciales sistemáticos. Sin embargo hay aún camino por recorrer y aspectos que deben evolucionar, como por ejemplo la construcción de herramientas psicométricas, la definición de criterios diagnósticos y otros aspectos metodológicos. Por lo tanto, a pesar de la mejoría con respecto al pasado, aún no podemos afirmar que estamos realizando ensayos clínicos de óptima calidad.

Comentario del traductor

Los hechos dilucidados por el trabajo son los expuestos por los autores, pero las lecturas y repercusiones son varias. Decir que la calidad metodológica de los ensayos clínicos en psicofarmacología ha aumentado es lo mismo que decir que el soporte científico que constituye el cimiento de la psicofarmacología moderna está plagado de sesgos metodológicos. Por tomar un ejemplo, sólo recientemente se ha integrado el hecho de que hay abandonos en los ensayos clínicos y se hace un análisis por intención de tratar, algo fundamental en la medición precisa de los resultados; otro resultado manifestado por este trabajo es que en los ensayos clínicos del pasado, la inclusión de los sujetos de estudio y la valoración de los resultados se hacían a “juicio médico”. Esto nos debería poner en posición crítica y de incertidumbre acerca de las intervenciones psicofarmacológicas que se emplean en la actualidad, ya que estas se basan en las del pasado.

Casi todos los aspectos metodológicos importantes en la valoración de la validez interna de los ensayos clínicos han evolucionado positivamente. Pero estamos muy alejados de una situación que los sistemas sanitarios podamos considerar aceptable, por lo siguiente:

El principal comparador de los fármacos activos ha sido, es y ¿seguirá siendo? un placebo. Esto no ha cambiado en 60 años. Los autores apuntan a que se debe a un menor requerimiento en el tamaño muestral porque se amplifica la señal de respuesta y a que no hay consecuencias éticas por emplear placebo a corto plazo en un paciente diagnosticado de trastorno mental grave. Pero hay consecuencias que los sistemas sanitarios no pueden seguir permitiéndose.

Mientras se siga comparando con placebo, se hace muy fácil la proliferación de fármacos nuevos, y muy difícil que los sistemas sanitarios puedan posicionarse en términos de algoritmos de tratamiento óptimos y en términos de financiación. ¿Por qué tenemos que financiar fármacos que no suponen ningún avance terapéutico? Esto se evitaría si sustituimos el placebo por otro comparador (incluso cambiando el diseño por uno de no superioridad), y restringiendo la comercialización de fármacos nuevos que no demuestren un avance. Pero mientras el único requerimiento sea demostrar eficacia frente a placebo, el engranaje comercial está garantizado. Y la supeditación de los sistemas sanitarios –y de los ciudadanos- a este engranaje comercial también. Porque luego los recursos disponibles para encontrar ese posicionamiento terapéutico y económico son muy escasos, y cada vez más (recortes). Es decir, no se invierte en el lugar adecuado (en términos de calidad asistencial) y sí se invierte en el lugar adecuado (en términos de beneficios para la industria farmacéutica).

Lo de que no hay conflictos éticos en utilizar placebos a corto plazo en personas diagnosticadas de trastornos mentales graves es como mínimo, una contradicción.

Si las herramientas psicométricas y de definición de criterios diagnósticos como el DSM nacieron para proporcionar operatividad a la investigación psicofarmacológica, ¿por qué no se restringen estas herramientas al campo de la investigación?, ¿qué sentido tiene emplear algo que tiene un fin operativo y de investigación en algo que tiene que ver con un diagnóstico (que es un proceso de mayor complejidad y que está orientado a la restitución de un desequilibrio, es decir, a obtener un resultado sanitario en el mundo real y no en condiciones experimentales)?

Otro dato revelado por el estudio es que con el tiempo, cada vez se han empleado más tests paramétricos. Esto tiene la ventaja de que es más fácil financiar los estudios (porque requieren un tamaño muestral menor y por tanto el coste para la industria es menor), pero enormes desventajas a la hora de extrapolar resultados a pacientes en el mundo real. En primer lugar esta herramienta estadística no permite expresar resultados en términos de tasas de respuesta o recaídas. Pero esta restricción no se aplica. Se dicotomiza una variable que tiene una naturaleza continua y no dicotómica, de manera que se distorsiona la relevancia clínica real de las tasas de respuesta (Moncrieff & Kirsch, 2005). Esto es premeditado, ya que se magnifica la repercusión clínica de un efecto farmacológico. Recientemente se han reconvertido en un metaanálisis los efectos de los antipsicóticos expresados mediante escalas psicométricas a un impacto clínico real y se ha comprobado que la repercusión clínica real es sustancialmente menor (Lepping, Sambhi, Whittington, Lane, & Poole, 2011). Por lo tanto este aspecto debería ser inasumible por parte de los sistemas sanitarios, y es un elemento de los ensayos clínicos que debería ser optimizado hasta niveles aceptables. Una forma sería la incorporación de variables duras como tasas de suicidio, hospitalizaciones, grado de reinserción social o calidad de vida.

Otro dato llamativo es que aún en la actualidad, el número global de estudios que describen tanto el método de aleatorización como el método de asignación de sujetos no sobrepasa el 20%, y como bien comentan los autores, dos pilares tan importantes en la valoración de la calidad metodológica no se puede entender el motivo de ocultarlos, sobre todo el la actualidad, donde se puede publicar material web adjunto al artículo, y por tanto no hay problemas de límite de espacio.

Otro aspecto que no ha evolucionado en 60 años es la descripción y publicación de los motivos de abandono de los ensayos clínicos, algo que puede proporcionar una información muy valiosa ya que los abandonos son en sí mismos una variable de resultado de gran valor, puede que de mayor valor que las variables psicométricas.

Este estudio es de gran relevancia porque pone en evidencia los retos que debería asumir la investigación en psicofarmacología, sobre todo de cara al uso de estas intervenciones por parte de los sistemas sanitarios. Necesitamos en definitiva que los esfuerzos y la inversión se concentren en maximizar garantías y no tanto en multiplicar moléculas.

Referencias

1. Lepping, P., Sambhi, R., Whittington, R., Lane, S., & Poole, R. (2011). Clinical relevance of findings in trials of antipsychotics: Clinical relevance of findings in trials of antipsychotics. The British Journal of Psychiatry , 198, 341-345.

2. Moncrieff, J., & Kirsch, I. (2005). Efficacy of antidepressants in adults. BMJ (331), 155-157.

modificado el 28 de noviembre de 2013

Noviembre 2011