As cirurgias ambulatoriais envolvem um amplo número de procedimentos nas áreas de cirurgia geral, cirurgia plástica, ortopedia, urologia dentre outros. No Brasil é frequentemente chamada de “pequenas cirurgias”, embora essa denominação não seja universal nem adequadamente aplicável a todo tipo de cirurgia ambulatorial. Alguns consensos como a Associação Internacional de Cirurgia Ambulatorial (AICA) definem cirurgia ambulatorial como aquela em que o paciente é admitido, operado e recebe alta em um único dia útil.
Dado a suas diversas vantagens, como maior rotatividade de leitos e menor período de internação, existem estudos para expandir os procedimentos que podem ser realizados, como cirurgia ambulatorial, definidos por diretrizes de prática clínica (DPC) e consensos. Trata-se de documentos que têm a função de orientar a prática clínica.
Com o advento da inteligência artificial, surgiram os chamados Modelos de Grande Linguagem (MGLs) que são algoritmos que atuam como modelos generativos (redes avançadas que imitam a estrutura do cérebro humano programados para promover aprendizado de máquinas). Entretanto, esses modelos ainda apresentam incertezas sobre suas aplicações.
Um estudo, publicado em março de 2025, avaliou a viabilidade e a confiabilidade desses MGLs no âmbito da cirurgia ambulatorial.
Métodos
O estudo conduzido por Wan X et al. compararam avaliações manuais e por MGLs (ChatGPT) por meio de pontuações em duas ferramentas – The Appraisal of Guidelines for Research & Evaluation Instrument II (AGREEII) e Reporting Items for practice Guidelines in HealThcare (RIGHT) – para avaliar a qualidade das diretrizes e consensos relacionados a cirurgia ambulatorial.
Foram realizadas buscas sistemáticas em várias bases de dados confiáveis sendo definido, após seleção, 54 artigos para análise, dentre os quais 17 (31,48%) foram classificados como diretrizes e 37 (68,52%) como consensos.
Pontuações nas escalas AGREEII e RIGHT
A comparação entre pontuações com o uso da ferramenta AGREEII baseada em MGLs e método manual (humano) mostrou maiores taxas quando realizada por MGLs nos seis tópicos avaliados: escopo e propósito (84,77% vs 25%), envolvimento das partes interessadas (61,46% vs 20,16%), rigor do desenvolvimento (40,70% vs 17,28%), clareza de apresentação (72,02% vs 41,56%) e independência editorial (41,56% vs 26,39%).
Na comparação realizada com a ferramenta RIGHT, maiores pontuações também foram encontradas nas avaliações baseadas em MGLs em comparação com os métodos manuais nos seguintes tópicos avaliados: informações básicas (91,97% vs 44,44%), histórico (85,19% vs 36,11%), evidências (43,33% vs 14,07%), recomendações (38,89% vs 34,66%), revisão e garantia de qualidade (30,56% vs 3,70%), financiamento, declaração e gestão de interesses (28,24% vs 24,54%) e outras informações (40,12% vs 27,16%).
Avaliação da qualidade pelo método manual
Wan X et al. demonstraram que, no geral, a qualidade dos métodos e dos relatos das áreas incluídas nas 54 diretrizes e consensos avaliados em seu estudo foram irregulares e de baixa qualidade. As falhas podem ser encontradas, por exemplo, na falta de informações e clareza sobre os participantes dos grupos de diretrizes, bem como a definição dos respectivos papéis.
A avaliação do rigor do desenvolvimento está diretamente relacionada à credibilidade da diretriz ou consenso e quanto maior a pontuação, mais força na abordagem baseada em evidência e menor o viés. A avaliação da aplicabilidade também apresentou limitações e ausência de efetividade. Uma maneira sugerida por Wan X et al. para facilitar a disseminação e implementação de diretrizes e consensos seria a padronização da elaboração e divulgação desses estudos.
Por outro lado, as diretrizes baseadas em evidências, as que indicaram apoio financeiro e as que declararam conflitos de interesse tiverem pontuações mais altas, com significância estatística (p< 0,05) em relação às diretrizes e consensos que foram baseados em opinião de especialistas e sem as declarações citadas.
Avaliação da qualidade pelo método MGL
Uma das grandes vantagens do método MGL é a avaliação completa e eficiente da qualidade das diretrizes e consensos em minutos – tempo consideravelmente mais rápido em relação ao método manual. Além disso, não há o viés subjetivo, que pode resultar em impactos potenciais associados a erro humano. Outra vantagem é que algoritmos chave permitem extrair informações precisas das diretrizes e consensos.
Em relação às desvantagens desses métodos, podem ser citados viés de dados de “treinamento” da inteligência artificial, elaboração de conclusões erradas ou distorcidas, limitação da capacidade de compreensão de texto, limitações de generalização.
A inteligência artificial substitui a avaliação humana?
A conjunção desses fatores revela que, mesmo com toda tecnologia envolvida nas MGLs e vantagens associadas, mecanismos de inteligência artificial não são capazes de substituir a avaliação manual. Isso porque nenhuma ferramenta de inteligência artificial substitui a experiência médica e a prática clínica, que são itens cruciais na cirurgia ambulatorial (e em toda a medicina).
Somente a avaliação manual permite uma compreensão mais profunda das diretrizes e sua aplicabilidade na escolha do procedimento mais indicado para cada paciente, bem como manejo pré e pós-operatório. Além disso, a avaliação manual é mais apta a identificar falhas e pontos de melhorias nas diretrizes e consensos, promovendo revisões contínuas em busca do aperfeiçoamento.
Diante dessas considerações, é possível inferir que os MGLs devem servir como uma ferramenta auxiliar que permite otimizar a eficácia das avaliações de qualidade, sem ser, necessariamente, uma ferramenta de substituição do trabalho humano.
Como você avalia este conteúdo?
Sua opinião ajudará outros médicos a encontrar conteúdos mais relevantes.