Integridade Científica

O ChatGPT gera dados de ensaios clínicos falsos para apoiar hipóteses científicas

(ChatGPT genera datos de ensayos clínicos falsos para respaldar hipótesis científicas)
RPP, 10 de dezembro de 2023
https://rpp.pe/ciencia/mas-ciencia/chatgpt-genera-datos-de-ensayos-clinicos-falsos-para-respaldar-hipotesis-cientificas-noticia-1521457
Traduzido por Salud y Fármacos, publicado em Boletim Fármacos: Ética 2024; 2 (2)

O ChatGPT gera dados falsos de ensaios clínicos para apoiar hipóteses científicas

Após essa descoberta, a capacidade da inteligência artificial de fabricar dados convincentes aumenta preocupações entre os pesquisadores e editores de revistas sobre a integridade da pesquisa.

Um grupo de pesquisadores do Departamento de Oftalmologia da Universidade Magna Graecia, em Catanzaro (Itália), usou a tecnologia por trás do ChatGPT de inteligência artificial (IA) para criar um conjunto de dados de ensaios clínicos falsos para apoiar uma afirmação científica não verificada, alertando sobre o perigo que essa tecnologia pode representar para a ciência, revela uma carta publicada no Jama Ophtalmogoly e recolhida pela revista Nature.

Os dados gerados pela inteligência artificial (IA) compararam os resultados de dois procedimentos cirúrgicos e indicaram erroneamente que um tratamento é melhor que o outro.

Para fazer isso, os autores usaram o GPT-4, a última versão do modelo de linguagem que executa o ChatGPT, juntamente com a Análise de dados avançado (ADA), um modelo que incorpora a linguagem de programação Python e pode realizar análises estatísticas e criar visualizações de dados.

“Nosso objetivo era destacar que, em poucos minutos, é possível criar um conjunto de dados que não é apoiado por dados originais reais e que também é oposto ou está na direção contrária à evidência disponível”, diz o coautor do estudo e cirurgião oftalmológico da Universidade de Cagliari na Itália, Giuseppe Giannaccare.

Após essa descoberta, a capacidade da IA de fabricar dados convincentes aumenta preocupações entre os pesquisadores e editores de revistas sobre a integridade da pesquisa.

“Uma coisa é a IA generativa poder ser usada para gerar texto que não seria detectável por software de plágio, mas a capacidade de criar conjuntos de dados falsos, porém realistas, é o nível seguinte de preocupação”, diz a microbióloga e Pesquisadora independente Elisabeth Bik.

Sendo assim, a Bik diz que a tecnologia “fará com que seja muito fácil para qualquer pesquisador ou grupo de pesquisadores criar medições falsas em pacientes inexistentes, respostas falsas a questionários ou gerar um grande conjunto de dados sobre experimentos com animais”.

Os autores descrevem os resultados como um “banco de dados aparentemente autêntico”, mas, quando os especialistas examinaram os dados, não passaram nas verificações de autenticidade e continham sinais reveladores de terem sido inventados.

Para chegar a essa conclusão, os pesquisadores solicitaram à GPT-4 ADA que criasse um conjunto de dados sobre pessoas com uma condição ocular chamada ceratocone, que causa o afinamento da córnea e pode levar a problemas de concentração e visão ruim. Para 15 a 20% das pessoas com a doença, o tratamento implica um transplante de córnea, realizado por meio de um de dois procedimentos.

O primeiro método, a ceratoplastia penetrante (PK), consiste em remover cirurgicamente todas as camadas danificadas da córnea e substituí-las por tecido saudável de um doador. O segundo procedimento, a ceratoplastia lamelar anterior profunda (DALK), substitui apenas a camada frontal da córnea, deixando intacta a camada mais interna.

Os autores instruíram o ChatGPT a fabricar dados para apoiar a conclusão de que o método DALK produz melhores resultados do que o PK. Para isso, eles solicitaram que o ChatGPT mostrasse uma diferença estatística em um exame de imagem que avalia o formato da córnea e detecta irregularidades, bem como uma diferença na forma como os participantes do ensaio podiam enxergar antes e depois dos procedimentos.

Os dados gerados pela IA incluíram 160 participantes do sexo masculino e 140 do sexo feminino e indicaram que aqueles que se submeteram ao DALK obtiveram melhores resultados no teste de visão e no teste de imagem do que aqueles que se submeteram à PK, uma descoberta que contradiz o que os ensaios clínicos atuais mostram. Em um relatório de 2010 de um ensaio com 77 participantes, os resultados do DALK foram semelhantes aos da PK até dois anos depois da cirurgia.

Jack Wilkinson, bioestatístico da Universidade de Manchester (Reino Unido), explica: “Parece ser bastante fácil criar conjuntos de dados que sejam, pelo menos superficialmente, plausíveis. Portanto, para os olhos inexperientes, isso certamente parece um conjunto de dados real”.

Como reconhecer a origem não humana dos dados
Os dados científicos parecem ser gerados por seres humanos e não por inteligência artificial, mas os pesquisadores afirmam que, com um exame minucioso, é possível diferenciar a origem não humana dos dados. “Se você observar o conjunto de dados rapidamente, é difícil reconhecer a origem não humana da fonte de dados”, diz o cirurgião Giuseppe Giannaccare.

A pedido da revista Nature, os pesquisadores avaliaram o conjunto de dados falsos por meio de um protocolo de detecção desenhado para comprovar sua autenticidade.

Isso revelou uma discrepância em muitos “participantes” entre o sexo designado e o sexo que normalmente seria esperado de seu nome. Além disso, não foi encontrada nenhuma correlação entre as medidas pré-operatórias e pós-operatórias de capacidade visual com exame de imagem ocular.

Ainda assim, foi inspecionada a distribuição dos números em algumas das colunas do conjunto de dados para verificar se havia padrões não aleatórios. Os valores das imagens oculares passaram nesse teste, mas alguns dos valores de idade dos participantes estavam agrupados de uma forma que seria extremamente incomum em um conjunto de dados genuíno, já que havia um número desproporcional de participantes cujos valores de idade terminavam em sete e oito.

“Na realidade, a revisão por pares muitas vezes não chega a ser uma reanálise completa dos dados e é improvável que detecte violações de integridade bem desenhadas usando IA”, diz o editor-chefe do EMBO Reports, Bernd Pulverer, acrescentando que as revistas precisarão atualizar os controles de qualidade para identificar dados sintéticos gerados por IA.

Não obstante, o pesquisador Wilkinson está liderando um projeto colaborativo para desenhar ferramentas estatísticas e não estatísticas para avaliar estudos potencialmente problemáticos porque “assim como a IA pode ser parte do problema, pode haver soluções baseadas em IA para algo. É possível que possamos automatizar alguns desses controles.

creado el 13 de Noviembre de 2024