Veja como usar a IA em pesquisa médica sem reduzir o rigor e a responsabilidade

Recentemente, editores do JAMA publicaram uma nota que deveria ser leitura obrigatória para todo médico pesquisador. No documento, Malani e Ross (2026) apresentam dados de duas publicações sobre o uso declarado de inteligência artificial (IA) em manuscritos científicos.

A primeira publicação analisou mais de 105 mil manuscritos submetidos a 13 periódicos da Rede JAMA entre agosto de 2023 e outubro de 2025. Apenas 3,3% declararam uso de IA, mas essa proporção mais que triplicou no período, saltando de 1,7% para quase 6%.

A segunda publicação, com submissões aos periódicos do BMJ, encontrou padrão semelhante: 5,7% declararam uso de IA, com crescimento de 4,5% para 7,3% em apenas seis meses.

O uso mais frequente da IA foi para correção e refinamento de linguagem, reportado em mais de dois terços dos casos. Manuscritos retirados antes da revisão tinham probabilidade quase nove vezes maior de declarar uso de IA do que os aceitos, e autores de países sem inglês como idioma oficial declararam esse uso com mais frequência.

Segundo a nota, o uso real da IA é provavelmente maior do que o declarado, a tendência é de crescimento e a comunidade científica precisa desenvolver orientações mais claras antes que a prática se consolide sem critérios. Isso significa declarar não apenas que a IA foi usada, mas também como foi usada, identificando ferramenta, versão, data de acesso e finalidade.

Veja também: Inteligência artificial na formação médica: como preparar os futuros médicos

Diretrizes para orientar a pesquisa científica com IA

Já existem diretrizes consolidadas, publicadas por periódicos de alto impacto, para orientar o desenho e o relato de estudos com IA. Elas não substituem o julgamento clínico nem a responsabilidade do pesquisador, mas conhecê-las é o primeiro passo para atender ao mínimo dos padrões que a comunidade científica espera.

O CONSORT-AI estende o já conhecido CONSORT para ensaios clínicos randomizados com intervenções baseadas em IA, adicionando itens específicos ao checklist original. O SPIRIT-AI é a versão para protocolos prospectivos.

O CHART, publicado pelo JAMA Network Open, foi desenvolvido para estudos que avaliam chatbots em orientação clínica. O TRIPOD+AI orienta o relato de modelos de predição clínica com regressão ou aprendizado de máquina.

Complementando essas ferramentas, o documento de princípios éticos gerais para IA em saúde da AMIA também representa a posição oficial de uma das principais associações mundiais de informática médica.

Checklist para submeter um estudo com IA

O checklist a seguir não é um documento oficial, mas foi construído a partir da compilação de requisitos exigidos pelas diretrizes citadas, estudos recentes e documentos de referência publicados nos últimos anos em periódicos como JAMA, Nature Medicine, BMJ e Lancet Digital Health.

Respondê-lo antes de submeter uma publicação pode ajudar a avaliar se ela segue padrões mínimos para o uso de IA em pesquisa científica.

Transparência e declaração de uso

1. Qual ferramenta de IA foi utilizada?

Versões diferentes de uma ferramenta podem ter capacidades e limitações distintas. Sem informações como nome, versão, data de acesso e se a ferramenta é open-source ou proprietária, o leitor não consegue avaliar se os resultados são reproduzíveis ou se já foram superados por versões mais recentes.

2. Para qual finalidade específica a IA foi utilizada?

Usar IA para formatar referências é diferente de usá-la para analisar dados ou redigir conclusões. Sem essa declaração, o leitor não consegue avaliar o risco de viés introduzido pela ferramenta. (Malani e Ross, 2026)

3. Essa informação está declarada de forma clara e localizada no manuscrito?

Declarações em notas de rodapé ou apêndices dificultam a avaliação crítica por revisores e leitores. Tanto o JAMA quanto o BMJ já adicionam campos específicos para declaração de uso de IA em seus processos de submissão. (Malani e Ross, 2026)

4. Em estudos com IA generativa, as fontes dos prompts utilizados foram descritas?

Estudos mostraram que a formulação do prompt tem impacto decisivo na resposta de modelos de linguagem. Sem essa documentação, o leitor não consegue avaliar se o desempenho reportado foi resultado de uma abordagem sistematizada ou de tentativa e erro.

5. Datas e locais das consultas ao sistema de IA foram registrados?

Um resultado obtido em fevereiro de 2024 pode não ser reproduzível em novembro do mesmo ano se o modelo foi modificado entre as datas. Por isso, além de informar a versão, também é importante registrar a contextualização temporal dos achados.

Metodologia e rigor técnico

6. Por que uma abordagem de IA é apropriada para esta questão de pesquisa?

O pesquisador deve articular qual vantagem específica a IA oferece sobre métodos convencionais para justificar seu uso. (Cote e Lubowitz, 2024)

7. Os dados de treinamento são representativos da população para a qual o modelo será aplicado?

Um modelo treinado em populações europeias pode ter desempenho inferior ou prejudicial quando aplicado a populações afrodescendentes, asiáticas ou de baixa renda. Griffin et al. (2024) estabelecem que o conceito de representatividade não é absoluto e deve ser definido para cada contexto de aplicação.

8. O modelo foi validado internamente e existe um plano explícito de validação externa?

Uma boa validação interna não garante que o modelo funcionará em outro hospital, cidade ou país. O artigo da AMIA comenta que a transferência de modelos entre instituições é um desafio real, citando o caso de um modelo comercial de predição de sepse que falhou quando transferido para outra instituição. (Solomonides et al., 2022)

9. A acurácia e a calibração do modelo foram reportadas?

Acurácia mede se o modelo acerta. Já a calibração mede se ele acerta com o nível adequado de confiança. Um modelo mal calibrado pode comprometer a tomada de decisão clínica mesmo quando apresenta alta acurácia geral.

10. O código-fonte está disponível ou há justificativa para sua não disponibilização?

O princípio da ciência aberta, já padrão-ouro para dados de ensaios clínicos, precisa ser aplicado também aos modelos de IA. Sem acesso ao código, a reprodução independente se torna impossível.

11. Como os dados de entrada de má qualidade ou ausentes foram identificados e manejados?

Griffin et al. (2024) comentam que dados ausentes de forma sistemática são uma das principais fontes de viés em modelos de IA em saúde. Se um modelo não foi testado com dados imperfeitos, como ocorre no mundo real, seu desempenho pode ser superestimado.

12. A interação humano-IA foi descrita, incluindo o nível de expertise dos usuários?

Muitos sistemas de IA não operam de forma autônoma. Por exemplo, um radiologista pode selecionar regiões de interesse na imagem ou um endoscopista escolher frames de vídeo. Se essa interação não for descrita, não é possível saber se o desempenho reflete a ferramenta ou a competência do operador.

13. O output do sistema de IA foi claramente especificado e sua contribuição para a tomada de decisão foi descrita?

Uma classificação binária, como positivo ou negativo, é usada de forma diferente de uma probabilidade contínua ou de um mapa de ativação. Sem essa descrição, o leitor não consegue avaliar se o modelo está sendo usado de forma apropriada.

Viés e equidade

14. Potenciais fontes de viés foram identificadas? Foram tomadas medidas para mitigá-las?

Um modelo treinado em dados de um sistema que subdiagnostica uma condição em determinada população tende a reproduzir esse subdiagnóstico. (Solomonides et al., 2022)

Ignorar determinantes sociais de saúde, por exemplo, pode levar modelos a confundir pobreza com risco biológico ou acesso limitado a serviços com menor necessidade clínica. São distorções com impacto sobre populações vulneráveis. (Welch et al., 2026)

As principais categorias incluem viés nas fontes de dados, viés na topologia dos dados apresentados ao modelo, inclusão inadequada de variáveis de confusão e ausência de consideração temporal. (Griffin et al., 2024)

15. O desempenho do modelo foi avaliado em subgrupos relevantes?

Uma acurácia geral de 90% pode esconder 95% de acurácia em homens brancos de meia-idade e 75% em mulheres negras jovens. A análise de subgrupos evita que desigualdades se tornem invisíveis em estatísticas agregadas. (Griffin et al., 2024; Welch et al., 2026)

Ética e consentimento

16. Os participantes foram informados sobre o uso de seus dados para treinamento de IA?

O treinamento de modelos representa uso secundário de dados que pode não estar coberto pelo consentimento original.

17. As regulações de privacidade foram respeitadas?

No Brasil, a Lei Geral de Proteção de Dados (LGPD) tem implicações específicas para o uso de dados de saúde. Pesquisadores devem cumprir a regulação aplicável ao seu contexto.

18. Houve revisão ética do protocolo por um comitê independente?

Sistemas de IA têm riscos que comitês de ética tradicionais podem não estar preparados para avaliar adequadamente, como viés algorítmico, privacidade diferencial ou uso secundário de dados. (Youssef et al., 2024)

Limitações e relato de erros

19. As limitações do modelo foram discutidas, incluindo as condições sob as quais o desempenho pode ser inferior?

Todo modelo tem condições específicas nas quais foi treinado e para as quais funciona bem. A pressão para publicar resultados positivos pode produzir uma literatura com modelos que parecem excelentes no papel e decepcionam na prática.

20. Foram informados e analisados os casos de erro de performance do modelo?

Um modelo com erros aleatórios é diferente de um modelo com erros sistemáticos em subgrupos específicos de pacientes.

Ciclo de vida e sustentabilidade

21. Existe plano de monitoramento contínuo, atualização e descontinuidade do modelo após a publicação?

Um modelo validado hoje pode se tornar inadequado se a população ou os protocolos clínicos mudam. O artigo da AMIA cita o exemplo de um modelo de COVID-19 treinado em 2020 que seria diferente de um treinado em 2021. (Solomonides et al., 2022)

Modelos obsoletos podem causar dano real se continuam sendo usados além de sua vida útil. (Welch et al., 2026; Foote et al., 2025)

Afya Summit

Se tem interesse em conhecer mais sobre temas de inovação, saúde e tecnologia, não perca a chance de participar do evento dedicado ao mundo médico! Inscreva-se no Afya Summit.

O evento ocorrerá em SP, dia 29/8/2026. Marque na agenda e garanta seu ingresso!

Autoria

Juliana Karpinski

Editora-assistente médica na Afya. Médica e Jornalista formada pela Universidade Federal do Paraná (UFPR), com MBA em Gestão Estratégica pela mesma instituição (2022).

Ver perfil

Exclusividade médica

Prescreva medicação aos seus pacientes de forma gratuita e ilimitada

Como você avalia este conteúdo?

Sua opinião ajudará outros médicos a encontrar conteúdos mais relevantes.

Compartilhar artigo

Referências bibliográficas

Malani PN, Ross JS. AI Use in Research and the Need for Continued Guidance. JAMA. 2026;335(8):673. doi:10.1001/jama.2025.26845
Welch ML, Grant B, Deutschman C, et al. A practical framework for operationalising responsible and equitable artificial intelligence in health care: tackling bias, inequity, and implementation challenges. Lancet Digit Health. 2026 Mar 20:100957. doi: 10.1016/j.landig.2025.100957.
Foote HP, Hong C, Anwar M, et al. Embracing Generative Artificial Intelligence in Clinical Research and Beyond: Opportunities, Challenges, and Solutions. JACC Adv. 2025 Mar;4(3):101593. doi: 10.1016/j.jacadv.2025.101593.
The CHART Collaborative. Reporting Guideline for Chatbot Health Advice Studies: The CHART Statement. JAMA Netw Open. 2025;8(8):e2530220. doi:10.1001/jamanetworkopen.2025.30220
Youssef A, Nichol AA, Martinez-Martin N, et al. Ethical Considerations in the Design and Conduct of Clinical Trials of Artificial Intelligence. JAMA Netw Open. 2024;7(9):e2432482. doi:10.1001/jamanetworkopen.2024.32482
Griffin AC, Wang KH, Leung TI, et al. Recommendations to promote fairness and inclusion in biomedical AI research and clinical use. J Biomed Inform. 2024 Sep;157:104693. doi: 10.1016/j.jbi.2024.104693.
Collins G S, Moons K G M, Dhiman P, et al. TRIPOD+AI statement: updated guidance for reporting clinical prediction models that use regression or machine learning methods BMJ 2024; 385 :e078378 doi:10.1136/bmj-2023-078378
Cote MP, Lubowitz JH. Recommended Requirements and Essential Elements for Proper Reporting of the Use of Artificial Intelligence Machine Learning Tools in Biomedical Research and Scientific Publications. Arthroscopy. 2024 Apr;40(4):1033-1038. doi: 10.1016/j.arthro.2023.12.027.
Solomonides AE, Koski E, Atabaki SM, et al. Defining AMIA’s artificial intelligence principles, Journal of the American Medical Informatics Association, Volume 29, Issue 4, April 2022, Pages 585–591, https://doi.org/10.1093/jamia/ocac006
Cruz Rivera S, Liu X, Chan A et al. Guidelines for clinical trial protocols for interventions involving artificial intelligence: the SPIRIT-AI extension. The Lancet Digital Health, 2020; 2, e549-e560
Liu, X., Cruz Rivera, S., Moher, D. et al. Reporting guidelines for clinical trial reports for interventions involving artificial intelligence: the CONSORT-AI extension. Nat Med 26, 1364–1374 (2020). https://doi.org/10.1038/s41591-020-1034-x