Logotipo Afya
Anúncio
Ginecologia e Obstetrícia13 novembro 2025

Avaliação do ChatGPT e Google Gemini em fornecer respostas à pacientes

Estudo comparou ChatGPT e Google Gemini em temas de obstetrícia e ginecologia, avaliando precisão, completude e segurança das respostas médicas geradas por IA.

O acesso a informações médicas confiáveis ainda é limitado por barreiras pagas e pela linguagem técnica dos artigos científicos. Cerca de 35% dos adultos nos Estados Unidos já tentaram se autodiagnosticar utilizando recursos online, demonstrando que muitos pacientes recorrem à internet como fonte principal de orientação médica. No entanto, a maioria dos materiais educativos disponíveis apresenta níveis de leitura acima do recomendado por diretrizes nacionais. Esse cenário é especialmente relevante na obstetrícia e ginecologia, áreas caracterizadas por alta complexidade diagnóstica e terapêutica, além de ampla variabilidade nos cuidados durante a gestação e o parto. 

Nos últimos anos, a inteligência artificial (IA), em especial os grandes modelos de linguagem (LLMs), como ChatGPT e Google Gemini, transformou a forma como pacientes buscam informações sobre saúde. Esses modelos se destacam pela acessibilidade, facilidade de uso e formato interativo de perguntas e respostas. Estudos mostram que LLMs, como o ChatGPT, têm apresentado desempenho promissor, inclusive acima da média em exames médicos como o USMLE, e boa capacidade de resolver casos clínicos em obstetrícia e ginecologia. No entanto, há preocupações sobre precisão, segurança e transparência, pois as respostas não são revisadas por especialistas nem baseadas necessariamente em diretrizes atualizadas, podendo gerar erros ou atrasos no cuidado. 

Respostas geradas por IA em GO 

Diante da popularização dessas ferramentas, este estudo teve como objetivo avaliar a precisão e a completude das respostas geradas pelo ChatGPT e pelo Google Gemini em temas frequentes de obstetrícia e ginecologia. Para isso, foram selecionados dez tópicos, cinco obstétricos e cinco ginecológicos, e elaboradas as perguntas mais comuns sobre cada um. Duas médicas especialistas avaliaram as respostas quanto à exatidão e abrangência, utilizando escalas padronizadas. As médias de pontuação foram calculadas e a confiabilidade entre avaliadoras foi medida por meio do coeficiente de correlação intraclasse. O estudo foi classificado como pesquisa não regulamentada, dispensando aprovação ética. 

Nos resultados, ambos os modelos, ChatGPT e Google Gemini, forneceram respostas consideradas adequadas em completude e precisão, porém com desempenho estatisticamente superior do ChatGPT nas questões obstétricas (p < 0,05). Em obstetrícia, o ChatGPT obteve média geral de completude de 2,78 contra 2,56 do Gemini, e em ginecologia, 2,85 contra 2,74, também com diferença significativa. Quanto à precisão, o ChatGPT apresentou média de 5,82 em obstetrícia e 5,78 em ginecologia, enquanto o Gemini alcançou 5,54 e 5,92, respectivamente. A concordância entre avaliadores foi apenas “leve a moderada”, refletindo certa subjetividade nas pontuações. 

Na discussão, os autores destacam que, apesar do bom desempenho geral, o ChatGPT demonstrou respostas mais completas e detalhadas, enquanto o Gemini foi ligeiramente mais preciso em ginecologia. Contudo, ambos apresentaram limitações, incluindo ausência de citações verificáveis e eventuais informações falsas. O ChatGPT forneceu 114 referências, das quais 36,8% eram incorretas ou fabricadas. Já o Gemini evitou citar fontes diretas, oferecendo apenas links genéricos de instituições médicas. Essa falta de rastreabilidade e transparência levanta preocupações quanto à segurança do uso desses modelos como fontes primárias de informação médica. 

Os pesquisadores observaram ainda que, embora as respostas fossem extensas e tecnicamente completas, muitas vezes faltava clareza e contextualização, o que pode confundir pacientes e gerar interpretações equivocadas. Além disso, os modelos demonstraram pouca empatia e neutralidade emocional nas respostas. Conclui-se que, apesar de apresentarem potencial como ferramentas complementares de educação em saúde, ChatGPT e Google Gemini ainda não substituem a orientação médica profissional. Os autores recomendam que futuros estudos explorem estratégias para reduzir vieses, melhorar a precisão das citações e ampliar a representatividade populacional no treinamento desses modelos. 

Autoria

Foto de Ênio Luis Damaso

Ênio Luis Damaso

Doutor em Ciências Médicas pela Faculdade de Medicina de Ribeirão Preto da Universidade de São Paulo (FMRP-USP) ⦁ Professor no Curso de Medicina da Faculdade de Odontologia de Bauru da Universidade de São Paulo (FOB-USP) ⦁ Professor no Curso de Medicina da Universidade Nove de Julho de Bauru (UNINOVE).

Como você avalia este conteúdo?

Sua opinião ajudará outros médicos a encontrar conteúdos mais relevantes.

Compartilhar artigo

Referências bibliográficas

Newsletter

Aproveite o benefício de manter-se atualizado sem esforço.

Anúncio

Leia também em Ginecologia e Obstetrícia