- Um novo estudo revela que os sistemas de inteligência artificial utilizados para diagnosticar câncer a partir de lâminas de patologia não apresentam desempenho igual para todos os pacientes, com variações de precisão entre diferentes grupos demográficos.
- Os pesquisadores identificaram três razões principais para esse viés e criaram uma nova abordagem que reduziu significativamente essas diferenças.
- Os resultados enfatizam a importância da avaliação rotineira da IA médica para viés, a fim de garantir cuidados de câncer justos e confiáveis para todos.
Patologia e os Fundamentos do Diagnóstico do Câncer
Durante décadas, a patologia tem sido essencial para o diagnóstico e tratamento do câncer pelos médicos. Um patologista estuda uma fatia extremamente fina de tecido humano sob um microscópio, procurando sinais visuais que revelem a presença de câncer e, se presente, seu tipo e estágio.
Para um especialista treinado, examinar uma amostra de tecido com tons de rosa, repleta de células roxas, é como corrigir uma prova sem nome — a lâmina contém informações vitais sobre a doença, mas não fornece pistas sobre quem é o paciente.
Quando a IA Vê Mais do que o Esperado
Essa suposição não se aplica totalmente aos sistemas de inteligência artificial que estão entrando nos laboratórios de patologia. Um novo estudo liderado por pesquisadores da Escola Médica de Harvard mostra que modelos de IA para patologia podem inferir detalhes demográficos diretamente a partir das lâminas de tecido. Essa habilidade inesperada pode introduzir viés no diagnóstico do câncer entre diferentes grupos de pacientes.
Após avaliar vários modelos de IA amplamente utilizados para identificar câncer, os pesquisadores descobriram que esses sistemas não apresentavam desempenho igual para todos os pacientes. A precisão diagnóstica variou com base na raça, gênero e idade auto-relatados pelos pacientes. A equipe também desvendou várias razões pelas quais essas disparidades ocorrem.
Para abordar a questão, os pesquisadores desenvolveram uma estrutura chamada FAIR-Path, que reduziu significativamente o viés nos modelos testados.
“Ler dados demográficos a partir de uma lâmina de patologia é considerado uma ‘missão impossível’ para um patologista humano, então o viés na IA da patologia nos surpreendeu,” disse o autor sênior Kun-Hsing Yu, professor associado de informática biomédica no Instituto Blavatnik da HMS e professor assistente de patologia no Hospital Brigham and Women’s.
Yu enfatizou que reconhecer e corrigir o viés na IA médica é crucial, uma vez que pode influenciar diretamente a precisão diagnóstica e os resultados para os pacientes. O sucesso do FAIR-Path sugere que a melhoria da justiça na IA de patologia do câncer, e possivelmente em outras ferramentas de IA médica, pode não exigir mudanças drásticas nos sistemas existentes.
O trabalho, que foi apoiado em parte por financiamento federal, foi descrito em 16 de dezembro na Cell Reports Medicine.
Testando a IA do Câncer
Yu e seus colegas examinaram o viés em quatro modelos de IA de patologia comumente utilizados que estão atualmente sendo desenvolvidos para o diagnóstico do câncer. Esses sistemas de aprendizado profundo foram treinados em grandes coleções de lâminas de patologia rotuladas, permitindo que aprendam padrões biológicos e apliquem esse conhecimento a novas amostras.
A equipe avaliou os modelos usando um grande conjunto de dados multi-institucional que incluía lâminas de patologia de 20 tipos diferentes de câncer.
Em todos os quatro modelos, lacunas de desempenho surgiram de forma consistente. Os sistemas de IA eram menos precisos para certos grupos demográficos definidos por raça, gênero e idade. Por exemplo, os modelos tiveram dificuldade em distinguir subtipos de câncer de pulmão em pacientes afro-americanos e em pacientes homens. Eles também mostraram menor precisão ao classificar subtipos de câncer de mama em pacientes mais jovens. Além disso, os modelos tiveram dificuldades em detectar cânceres de mama, renal, tireoide e estômago em alguns grupos demográficos. No total, essas disparidades apareceram em cerca de 29% das tarefas diagnósticas analisadas.
De acordo com Yu, esses erros surgem porque os sistemas de IA extraem informações demográficas das imagens dos tecidos — e então se baseiam em padrões ligados a essas demografias ao tomar decisões diagnósticas.
Os achados foram inesperados. “Porque esperaríamos que a avaliação patológica fosse objetiva,” disse Yu. “Ao avaliar imagens, não precisamos necessariamente conhecer os dados demográficos de um paciente para fazer um diagnóstico.”
Isso levou os pesquisadores a fazer uma pergunta chave: Por que a IA da patologia não conseguia atender ao mesmo padrão de objetividade?
Por que o Viés Aparece na IA de Patologia
A equipe identificou três contributos principais para o viés.
Primeiro, os dados de treinamento são frequentemente desiguais. Amostras de tecido são mais fáceis de obter de alguns grupos demográficos do que de outros, resultando em conjuntos de dados desequilibrados. Isso torna mais difícil para os modelos de IA diagnosticarem cânceres em grupos sub-representados, incluindo algumas populações definidas por raça, idade ou gênero.
No entanto, Yu observou que “o problema acabou sendo muito mais profundo do que isso.” Em vários casos, os modelos apresentaram desempenho pior para certos grupos demográficos, mesmo quando os tamanhos das amostras eram semelhantes.
Análises posteriores apontaram para diferenças na incidência da doença. Alguns cânceres ocorrem com mais frequência em populações específicas, permitindo que os modelos de IA se tornem especialmente precisos para esses grupos. Como resultado, os mesmos modelos podem ter dificuldades para diagnosticar cânceres em populações onde essas doenças são menos comuns.
Os pesquisadores também descobriram que os modelos de IA podem detectar sutis diferenças moleculares entre grupos demográficos. Por exemplo, os sistemas podem identificar mutações em genes que causam câncer e usá-las como atalhos para classificar o tipo de câncer — o que pode reduzir a precisão em populações onde essas mutações são menos prevalentes.
“Descobrimos que, devido à potência da IA, ela pode diferenciar muitos sinais biológicos obscuros que não podem ser detectados pela avaliação humana padrão,” disse Yu.
Com o tempo, isso pode fazer com que os modelos de IA se concentrem em sinais mais ligados a dados demográficos do que à doença em si, enfraquecendo o desempenho diagnóstico em grupos de pacientes diversos.
Juntas, essas descobertas mostram que o viés na IA de patologia é influenciado não apenas pela qualidade e equilíbrio dos dados de treinamento, mas também pela forma como os modelos são treinados para interpretar o que veem.
Uma Nova Abordagem para Reduzir o Viés
Após identificar as fontes de viés, os pesquisadores se propuseram a corrigi-los.
Desenvolveram o FAIR-Path, uma estrutura baseada em um método de aprendizado de máquina existente conhecido como aprendizado contrastivo. Essa abordagem modifica o treinamento de IA para que os modelos se concentrem mais fortemente em distinções críticas, como as diferenças entre tipos de câncer, enquanto reduzem a atenção a diferenças menos relevantes, incluindo características demográficas.
Quando o FAIR-Path foi aplicado aos modelos testados, as disparidades diagnósticas caíram cerca de 88 por cento.
“Mostramos que ao fazer esse pequeno ajuste, os modelos podem aprender características robustas que os tornam mais generalizáveis e justos entre diferentes populações,” disse Yu.
O resultado é encorajador, acrescentou, porque sugere que reduções significativas de viés são possíveis mesmo sem conjuntos de dados de treinamento perfeitamente equilibrados ou totalmente representativos.
Olhando para o futuro, Yu e sua equipe estão trabalhando com instituições em todo o mundo para estudar o viés na IA de patologia em regiões com diferentes demografias, práticas clínicas e configurações laboratoriais. Eles também estão explorando como o FAIR-Path poderia ser adaptado para situações com dados limitados. Outra área de interesse é compreender como o viés induzido pela IA contribui para disparidades mais amplas na saúde e nos resultados dos pacientes.
Em última análise, disse Yu, o objetivo é desenvolver sistemas de IA de patologia que apoiem especialistas humanos, fornecendo diagnósticos rápidos, precisos e justos para todos os pacientes.
“Acredito que há esperança de que, se estivermos mais cientes e cuidadosos sobre como projetamos sistemas de IA, podemos construir modelos que funcionem bem em todas as populações,” disse ele.
Autoria, financiamento, divulgações
Os autores adicionais do estudo incluem Shih-Yen Lin, Pei-Chen Tsai, Fang-Yi Su, Chun-Yen Chen, Fuchen Li, Junhan Zhao, Yuk Yeung Ho, Tsung-Lu Michael Lee, Elizabeth Healey, Po-Jen Lin, Ting-Wan Kao, Dmytro Vremenko, Thomas Roetzer-Pejrimovsky, Lynette Sholl, Deborah Dillon, Nancy U. Lin, David Meredith, Keith L. Ligon, Ying-Chun Lo, Nipon Chaisuriya, David J. Cook, Adelheid Woehrer, Jeffrey Meyerhardt, Shuji Ogino, MacLean P. Nasrallah, Jeffrey A. Golden, Sabina Signoretti, e Jung-Hsien Chiang.
O financiamento foi fornecido pelo Instituto Nacional de Ciências Médicas Gerais e pelo Instituto Nacional do Coração, Pulmão e Sangue dos Institutos Nacionais de Saúde, pela Comissão de Defesa (Peer Reviewed Cancer Research Program Career Development Award HT9425-231-0523), pela Sociedade Americana do Câncer, por uma Google Research Scholar Award, pelo Harvard Medical School Dean’s Innovation Award, pelo Conselho Nacional de Ciência e Tecnologia de Taiwan, e por uma bolsa de doutorado da Fundação de Educação Xin Miao.
Ligon foi consultor da Travera, Bristol Myers Squibb, Servier, IntegraGen, L.E.K. Consulting, e Blaze Bioscience; recebeu participação acionária da Travera; e tem financiamento de pesquisa da Bristol Myers Squibb e Lilly. Vremenko é cofundador e acionista da Vectorly.
Os autores prepararam o manuscrito inicial e usaram o ChatGPT para editar seções selecionadas para melhorar a legibilidade. Após usar essa ferramenta, os autores revisaram e editaram o conteúdo conforme necessário e assumem total responsabilidade pelo conteúdo do artigo publicado.
