Em 2023, a National Eating Disorders Association (NEDA), dos Estados Unidos, desativou sua linha telefônica de apoio e passou a oferecer um chatbot chamado Tessa como alternativa. Dias depois, usuários denunciaram que o sistema recomendava restrição calórica e perda de peso — exatamente o oposto do que pacientes com anorexia e bulimia precisam ouvir. O episódio expôs uma pergunta que a medicina não pode mais adiar: até onde um assistente virtual pode ir no cuidado ao paciente?
Chatbots médicos já respondem dúvidas de pacientes, realizam triagem de sintomas, oferecem suporte em saúde mental e auxiliam no manejo de doenças crônicas. Modelos de linguagem de grande porte (LLMs) prometem democratizar o acesso à informação médica e aliviar a sobrecarga dos sistemas de saúde. Mas entre a promessa e a prática clínica segura, há um abismo que só as evidências científicas podem ajudar a transpor.
Leia mais: Uso da IA na Saúde: pesquisa revela como médicos e pacientes usam a tecnologia

O que a ciência já demonstrou sobre chatbot médico e assistentes virtuais
Os avanços são reais e, em alguns casos, surpreendentes. Tu et al. (2025), na Nature, apresentaram o AMIE (Articulate Medical Intelligence Explorer), sistema de IA para diálogo diagnóstico testado em estudo randomizado, duplo-cego e cruzado com 159 cenários clínicos e pacientes-atores no Canadá, Reino Unido e Índia. O AMIE superou médicos de atenção primária em 30 de 32 dimensões avaliadas por especialistas e 25 de 26 avaliadas pelos pacientes-atores — com a ressalva de que o formato textual é incomum na prática clínica e pesquisas adicionais são necessárias antes de qualquer aplicação clínica.
Singhal et al. publicaram dois estudos marcantes. Na Nature (2023), o modelo base do sistema — com 540 bilhões de parâmetros — atingiu 67,6% de acurácia no exame de licenciamento médico americano (USMLE), superando o estado da arte em mais de 17 pontos percentuais, com a avaliação humana revelando lacunas em factualidade e raciocínio clínico. Na Nature Medicine (2025), o Med-PaLM 2 chegou a 86,5% de acurácia, com médicos preferindo suas respostas às de outros médicos em oito de nove dimensões clínicas — embora especialistas humanos ainda sejam preferidos na avaliação geral.
Diagnóstico e triagem não são a mesma coisa
Na Lancet Digital Health, Levine et al. (2024) compararam o GPT-3 com 5.000 leigos e 21 médicos de Harvard em 48 cenários clínicos. O modelo acertou o diagnóstico entre os três primeiros em 88% dos casos (médicos: 96%; leigos: 54%), mas na triagem acertou apenas 70% contra 91% dos médicos, despriorizando casos emergenciais em sete ocasiões. Diagnosticar e triar são competências distintas, e a IA ainda tropeça justamente onde o erro custa mais caro.
Empatia algorítmica: quando a máquina responde melhor que o médico?
Ayers et al. (2023), na JAMA Internal Medicine, compararam respostas de médicos e do ChatGPT a 195 perguntas reais de pacientes em um fórum público: avaliadores profissionais preferiram o chatbot em 78,6% dos casos, com qualidade boa ou ótima em 78,5% das avaliações (contra 22,1% dos médicos) e empatia percebida 9,8 vezes maior.
Os médicos respondiam com 52 palavras em média, sem acesso ao prontuário; o chatbot, com 211. Se a máquina demonstra mais empatia textual que um profissional sobrecarregado, o problema talvez não esteja na tecnologia — mas no sistema de saúde que esgota seus médicos.
A confiança do paciente ainda depende do vínculo humano
Contudo, quando saímos do texto e entramos na sala de consulta, a percepção muda. Chen e Cui (2025), em estudo randomizado com 1.762 americanos no Journal of Medical Internet Research, demonstraram que a simples menção ao uso de IA no diagnóstico reduz significativamente a confiança no médico — efeito consistente em todos os perfis demográficos. O paciente pode preferir a resposta da máquina, mas na hora de confiar sua saúde a alguém, quer um ser humano.
Quando o chatbot erra: segurança e alucinações
Knitza et al. (2024), no Journal of Medical Internet Research, compararam os verificadores de sintomas Ada e Symptoma em 450 pacientes de emergência na Alemanha. O Ada identificou o diagnóstico exato em apenas 14% dos casos; ambos falharam em reconhecer diagnósticos potencialmente fatais em 13-14% dos pacientes. O Ada subestimou a gravidade em 13% dos casos e, no sentido oposto, superestimou a gravidade em 53%. Os pesquisadores concluíram que “a confiabilidade das recomendações dos verificadores de sintomas parece questionável.”
Zaretsky et al. (2024), na JAMA Network Open, mostraram que o GPT-4 melhora dramaticamente a legibilidade de resumos de alta hospitalar, com compreensibilidade saltando de 13% para 81% — mas 18% das revisões médicas identificaram preocupações de segurança, incluindo omissões críticas e afirmações fabricadas, exigindo revisão médica antes de qualquer implementação. Huo et al. (2025), na mesma revista, analisaram 137 estudos sobre chatbots em saúde e encontraram problemas metodológicos graves: 99,3% sem versão do modelo identificada, 99,3% sem descrever engenharia de prompt, apenas 39,4% com data de consulta reportada. Sem padronização, muitos resultados positivos podem ser irreplicáveis.
Saúde mental: a fronteira mais sensível
O caso NEDA/Tessa é sintoma de uma tendência de delegar suporte emocional a algoritmos sem validação clínica adequada. A literatura mostra, porém, que chatbots estruturados e baseados em evidência podem oferecer benefícios reais. Suharwardy et al. (2023), no AJOG Global Reports, demonstraram a viabilidade e aceitabilidade de um chatbot de saúde mental perinatal em 192 puérperas, com 91% de satisfação e 80% de conforto com o uso de aplicativos.
Nicol et al. (2022), no JMIR Formative Research, demonstraram viabilidade, aceitabilidade e segurança de um chatbot de terapia cognitivo-comportamental (TCC) para adolescentes com depressão moderada em atenção primária.
Chatbots podem apoiar, mas não substituir profissionais
Chatbots com conteúdo validado, escopo delimitado e supervisão profissional podem ser ferramentas úteis. Chatbots generativos sem barreiras de segurança, operando como substitutos de profissionais, são bombas-relógio.
Regulação: o vácuo que o mercado ocupou
Freyer et al. (2024), na Lancet Digital Health, apontaram que a alta variabilidade nas respostas geradas, a baixa explicabilidade e o risco de alucinações colocam aplicações de LLMs com propósito médico diante de obstáculos regulatórios substanciais — ainda assim já disponíveis no mercado, com riscos não resolvidos para pacientes. Em janeiro de 2024, a OMS publicou o documento Ethics and Governance of Artificial Intelligence for Health: Guidance on Large Multi-Modal Models, com mais de 40 recomendações enfatizando validação clínica rigorosa, transparência, proteção de dados e preservação da autonomia médica.
Regulação de IA médica no Brasil
No Brasil, a Resolução CFM nº 2.454/2026 estabelece que a decisão final será sempre do médico, proíbe a comunicação de diagnósticos por sistemas de IA ao paciente e exige a criação de uma Comissão de IA e Telemedicina nas instituições que adotem a tecnologia. Um avanço importante, mas que ainda precisa ser testado diante da proliferação de aplicativos que operam em zonas regulatórias cinzentas.
E no Brasil? O desafio da equidade digital
Soares e Chiavegatto Filho (2026), na Revista Brasileira de Epidemiologia, identificam oportunidades concretas da IA para o SUS — predição de eventos de saúde, apoio diagnóstico, regulação de serviços, formulação de políticas — mas destacam barreiras sérias: fragmentação dos sistemas de informação, desigualdades regionais, lacunas na formação profissional e ausência de soberania tecnológica. A conclusão é contundente: “a IA não é neutra, e sua integração ao SUS deve ser guiada por princípios democráticos e sensibilidade às vulnerabilidades sociais, sob pena de reforçar modelos tecnocráticos e excludentes.”
Com mais de 28 milhões de brasileiros sem acesso à internet (IBGE) e 75% da população dependendo do SUS, a introdução de chatbots médicos sem atenção às assimetrias de letramento digital e conectividade pode criar um sistema de saúde de duas velocidades. Há ainda a questão linguística: modelos treinados predominantemente em inglês têm representação limitada do português brasileiro e quase nula de variações regionais.
O caminho possível para chatbot médico e assistentes virtuais
As evidências convergem: chatbots têm potencial real para ampliar o acesso à informação de saúde, melhorar a comunicação com o paciente e apoiar profissionais sobrecarregados — mas esse potencial só se converte em benefício clínico sob condições estritas de validação prospectiva, transparência algorítmica, escopo bem definido e supervisão profissional.
Chatbots podem ir longe como ferramentas de apoio, educação e filtragem. Mas o cuidado — aquele que se expressa no olhar, no toque, na escuta atenta e na presença verdadeira — permanece um território exclusivamente humano. A melhor versão dessa tecnologia não é aquela que substitui o médico. É aquela que devolve ao médico o tempo para ser médico.
Afya Summit
Se tem interesse em conhecer mais sobre temas de inovação, saúde e tecnologia, não perca a chance de participar do evento dedicado ao mundo médico! Inscreva-se no Afya Summit.
O evento ocorrerá em SP, dia 29/8/2026. Marque na agenda e garanta seu ingresso!
#Matéria elaborada com auxílio de IA e revisada pelo editor-médico.
Autoria

Bernardo Campos
Medicina pela Universidade Federal do Estado do Rio de Janeiro (UNIRIO). Especialização em Endocrinologia, Diabetes e Metabologia pela Universidade do Estado do Rio de Janeiro (UERJ). Cursando Sistemas de Informação na Pontifícia Universidade Católica de Minas Gerais (PUC Minas).
Como você avalia este conteúdo?
Sua opinião ajudará outros médicos a encontrar conteúdos mais relevantes.