Um novo estudo publicado em 24 de março na Radiology, o jornal da Sociedade Radiológica da América do Norte (RSNA), mostra que tanto radiologistas quanto modelos de linguagem grandes multimodais (LLMs) têm dificuldade em distinguir raios-X reais de imagens “deepfake” geradas por inteligência artificial (IA). As descobertas levantam preocupações sobre os riscos representados por imagens médicas sintéticas e destacam a necessidade de melhores ferramentas e treinamentos para ajudar a proteger a precisão da imagem médica e preparar os profissionais da saúde para reconhecer deepfakes.
Um “deepfake” é um vídeo, foto, imagem ou arquivo de áudio que parece autêntico, mas foi criado ou alterado usando IA.
“Nosso estudo demonstra que esses raios-X deepfake são realistas o suficiente para enganar radiologistas, os especialistas em imagem médica mais altamente treinados, mesmo quando estavam cientes de que imagens geradas por IA estavam presentes,” disse o autor principal do estudo, Mickael Tordjman, M.D., bolsista de pós-doutorado, Icahn School of Medicine at Mount Sinai, Nova York. “Isso cria uma vulnerabilidade de alto risco para litígios fraudulentos se, por exemplo, uma fratura fabricada puder ser indistinguível de uma real. Há também um risco significativo de cibersegurança se hackers conseguirem acessar a rede de um hospital e injetar imagens sintéticas para manipular diagnósticos de pacientes ou causar caos clínico generalizado, minando a confiabilidade fundamental do registro médico digital.”
Detalhes do Estudo e Teste de Imagens
A pesquisa incluiu 17 radiologistas de 12 instituições em seis países (Estados Unidos, França, Alemanha, Turquia, Reino Unido e Emirados Árabes Unidos). Sua experiência variou desde iniciantes até especialistas com até 40 anos de prática. No total, o estudo examinou 264 imagens de raios-X, divididas igualmente entre exames reais e gerados por IA.
Os participantes revisaram dois conjuntos de imagens separados sem sobreposição. Um conjunto continha uma mistura de imagens reais e raios-X gerados pelo ChatGPT de diferentes partes do corpo. O segundo conjunto focou em raios-X do tórax, com metade real e metade criada usando RoentGen, um modelo de difusão generativa de IA de código aberto desenvolvido por pesquisadores da Stanford Medicine.
Precisão de Detecção para Radiologistas e IA
Quando os radiologistas não foram informados de que imagens falsas estavam incluídas, apenas 41% reconheceram os raios-X gerados por IA após avaliar sua qualidade técnica. Uma vez informados de que imagens sintéticas estavam presentes, sua precisão média em distinguir reais de falsas subiu para 75%.
A performance variou amplamente entre os indivíduos. Os radiologistas identificaram corretamente entre 58% e 92% das imagens geradas pelo ChatGPT. Os sistemas de IA mostraram limitações semelhantes. Quatro LLMs multimodais — GPT-4o (OpenAI), GPT-5 (OpenAI), Gemini 2.5 Pro (Google) e Llama 4 Maverick (Meta) — alcançaram taxas de precisão variando de 57% a 85%. Mesmo o ChatGPT-4o, que foi usado para gerar as imagens deepfake, não conseguiu detectar todas, embora tenha se saído melhor do que os outros modelos.
Para os raios-X do tórax gerados pelo RoentGen, os radiologistas alcançaram taxas de precisão entre 62% e 78%, enquanto os modelos de IA variaram de 52% a 89%.
Experiência Não Garante Detecção
O estudo não encontrou relação entre os anos de experiência de um radiologista e sua capacidade de identificar raios-X falsos. No entanto, radiologistas musculoesqueléticos se saíram significativamente melhor do que outros subspecialistas.
Pistas Visuais em Raios-X Deepfake
Os pesquisadores identificaram vários padrões que podem aparecer em imagens sintéticas.
“Imagens médicas deepfake geralmente parecem perfeitas demais,” disse Dr. Tordjman. “Os ossos são excessivamente lisos, as colunas são artificialmente retas, os pulmões são excessivamente simétricos, os padrões dos vasos sanguíneos são excessivamente uniformes, e as fraturas parecem incomumente limpas e consistentes, muitas vezes limitadas a um lado do osso.”
Riscos e Salvaguardas para Imagens Médicas
Os resultados destacam riscos significativos se raios-X deepfake forem mal utilizados. Imagens fabricadas poderiam ser usadas em casos legais ou inseridas em sistemas hospitalares para influenciar diagnósticos e interromper cuidados.
Para reduzir essas ameaças, os pesquisadores recomendam proteções digitais mais robustas. Isso inclui marcas d’água invisíveis incorporadas diretamente nas imagens e assinaturas criptográficas ligadas ao tecnólogo no momento da captura da imagem, o que pode ajudar a verificar a autenticidade.
O Futuro da IA na Imagem Médica
“Estamos possivelmente vendo apenas a ponta do iceberg,” disse Dr. Tordjman. “O próximo passo lógico nessa evolução é a geração por IA de imagens sintéticas em 3D, como CT e MRI. Estabelecer conjuntos de dados educacionais e ferramentas de detecção agora é crítico.”
Para apoiar a educação e a conscientização, os pesquisadores liberaram um conjunto de dados deepfake curado que inclui quizzes interativos para fins de treinamento.
