À medida que mais pessoas buscam aconselhamento sobre saúde mental com o ChatGPT e outros grandes modelos de linguagem (LLMs), novas pesquisas sugerem que esses chatbots de IA podem não estar prontos para esse papel. O estudo revelou que, mesmo quando instruídos a usar abordagens de psicoterapia estabelecidas, os sistemas falham consistentemente em atender aos padrões éticos profissionais estabelecidos por organizações como a American Psychological Association.

Pesquisadores da Universidade Brown, trabalhando de perto com profissionais de saúde mental, identificaram padrões recorrentes de comportamento problemático. Nos testes, os chatbots manejaram inadequadamente situações de crise, deram respostas que reforçaram crenças prejudiciais sobre os usuários ou outros, e utilizaram uma linguagem que criava a aparência de empatia sem compreensão genuína.

“Neste trabalho, apresentamos uma estrutura informada por profissionais de 15 riscos éticos para demonstrar como os conselheiros LLM violam padrões éticos na prática de saúde mental, mapeando o comportamento do modelo para violações éticas específicas”, escreveram os pesquisadores em seu estudo. “Chamamos o trabalho futuro a criar padrões éticos, educacionais e legais para conselheiros LLM – padrões que reflitam a qualidade e rigor do cuidado exigido para a psicoterapia facilitada por humanos.”

Os achados foram apresentados na Conferência AAAI/ACM sobre Inteligência Artificial, Ética e Sociedade. A equipe de pesquisa é afiliada ao Centro de Responsabilidade Tecnológica, Reimaginacão e Redesign da Brown.

Como os Prompts Influenciam as Respostas da Terapia de IA

Zainab Iftikhar, doutoranda em ciência da computação na Brown que liderou o estudo, buscou examinar se prompts cuidadosamente elaborados poderiam guiar os sistemas de IA a se comportarem de maneira mais ética em ambientes de saúde mental. Prompts são instruções escritas destinadas a orientar a saída de um modelo sem reeducá-lo ou adicionar novos dados.

“Prompts são instruções dadas ao modelo para guiar seu comportamento de modo a alcançar uma tarefa específica,” disse Iftikhar. “Você não muda o modelo subjacente ou fornece novos dados, mas o prompt ajuda a guiar a saída do modelo com base em seu conhecimento pré-existente e padrões aprendidos.”

“Por exemplo, um usuário pode solicitar ao modelo: ‘Atue como um terapeuta cognitivo-comportamental para me ajudar a reformular meus pensamentos,’ ou ‘Use princípios da terapia comportamental dialética para me ajudar a entender e gerenciar minhas emoções.’ Embora esses modelos não realizem essas técnicas terapêuticas como um humano faria, eles utilizam seus padrões aprendidos para gerar respostas que se alinham aos conceitos de TCC ou DBT com base no prompt fornecido.”

Pessoas compartilham regularmente essas estratégias de prompts em plataformas como TikTok, Instagram e Reddit. Além da experimentação individual, muitos chatbots de saúde mental voltados para o consumidor são construídos aplicando prompts relacionados à terapia a LLMs de propósito geral. Isso torna especialmente importante entender se apenas o prompting pode tornar o aconselhamento por IA mais seguro.

Para avaliar os sistemas, os pesquisadores observaram sete conselheiros pares treinados que tinham experiência com terapia cognitivo-comportamental. Esses conselheiros conduziram sessões de autoconselho com modelos de IA solicitados a atuar como terapeutas de TCC. Os modelos testados incluíram versões da série GPT da OpenAI, Claude da Anthropic e Llama da Meta.

A equipe então selecionou chats simulados com base em conversações de aconselhamento humano reais. Três psicólogos clínicos licenciados revisaram essas transcrições para sinalizar possíveis violações éticas.

A análise revelou 15 riscos distintos agrupados em cinco categorias amplas:

  • Falta de adaptação contextual: Ignorar o histórico único de uma pessoa e oferecer conselhos genéricos.
  • Pobre colaboração terapêutica: Conduzir a conversa de maneira excessiva e, às vezes, reforçar crenças incorretas ou prejudiciais.
  • Empatia ilusória: Usar frases como “Eu vejo você” ou “Eu entendo” para sugerir conexão emocional sem verdadeira compreensão.
  • Discriminação injusta: Exibir preconceito relacionado a gênero, cultura ou religião.
  • Falta de segurança e gerenciamento de crise: Recusar-se a abordar questões sensíveis, falhar em direcionar usuários para ajuda adequada ou responder de forma inadequada a crises, incluindo pensamentos suicidas.

A Lacuna de Responsabilidade na Saúde Mental de IA

Iftikhar observou que terapeutas humanos também podem cometer erros. A grande diferença é a supervisão.

“Para terapeutas humanos, existem conselhos de governança e mecanismos para responsabilizar os prestadores de serviços por mau atendimento e negligência,” disse Iftikhar. “Mas quando conselheiros LLM cometem essas violações, não existem estruturas regulatórias estabelecidas.”

Os pesquisadores enfatizam que suas descobertas não sugerem que a IA não tenha lugar na saúde mental. Ferramentas alimentadas por inteligência artificial poderiam ajudar a expandir o acesso, especialmente para pessoas que enfrentam altos custos ou disponibilidade limitada de profissionais licenciados. No entanto, o estudo destaca a necessidade de salvaguardas claras, implantação responsável e estruturas regulatórias mais robustas antes de confiar nesses sistemas em situações de alto risco.

No momento, Iftikhar espera que o trabalho incentive a cautela.

“Se você está conversando com um chatbot sobre saúde mental, essas são algumas coisas que as pessoas devem observar,” disse ela.

Por que a Avaliação Rigorosa é Importante

Ellie Pavlick, professora de ciência da computação da Brown que não participou da pesquisa, disse que o estudo enfatiza a importância de examinar cuidadosamente sistemas de IA usados em áreas sensíveis como a saúde mental. Pavlick lidera o ARIA, um instituto de pesquisa em IA da National Science Foundation na Brown focado em construir assistentes de IA confiáveis.

“A realidade da IA hoje é que é muito mais fácil construir e implantar sistemas do que avaliá-los e compreendê-los,” disse Pavlick. “Este artigo exigiu uma equipe de especialistas clínicos e um estudo que durou mais de um ano para demonstrar esses riscos. A maior parte do trabalho em IA hoje é avaliada usando métricas automáticas que, por design, são estáticas e carecem de um humano no processo.”

Ela acrescentou que o estudo poderia servir como um modelo para futuras pesquisas destinadas a melhorar a segurança em ferramentas de saúde mental alimentadas por IA.

“Há uma verdadeira oportunidade para a IA desempenhar um papel no combate à crise de saúde mental que nossa sociedade enfrenta, mas é de extrema importância que levemos o tempo necessário para criticar e avaliar nossos sistemas a cada passo do caminho, a fim de evitar causar mais mal do que bem,” disse Pavlick. “Este trabalho oferece um bom exemplo de como isso pode se concretizar.”

Exit mobile version
Privacy Overview

This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful.

Strictly Necessary Cookies

Strictly Necessary Cookie should be enabled at all times so that we can save your preferences for cookie settings.