O que o RECIST 1.1 realmente mede nos estudos clínicos

Em oncologia, muita decisão importante depende de uma palavra pequena: progressão. Ela encerra tratamento, muda linha terapêutica, define desfecho em estudo, derruba ou aprova um medicamento. E, na era moderna, com imunoterapia e terapias-alvo, progressão é ainda mais sensível, porque a imagem pode enganar. Pseudoprogressão existe, inflamação pode parecer tumor, atelectasia pode virar “lesão medida” e um novo nódulo no pulmão pode ser infecção, não metástase.

O que este artigo faz é colocar luz em um ponto que costuma ficar nos bastidores. A progressão em ensaio clínico, pelo RECIST 1.1, é uma construção baseada em componentes, e esses componentes têm confiabilidade diferente. O estudo pergunta de forma direta se quando dois leitores independentes discordam sobre a data da progressão, eles discordam por quê? É porque um viu uma lesão nova e o outro não vi? É porque um mediu diferente o diâmetro das lesões-alvo? É porque um interpretou progressão de não-alvo e o outro achou estável? A resposta importa porque PFS (sobrevida livre de progressão) é um dos endpoints mais usados em fase III, e a variabilidade entre leitores pode distorcer curvas de sobrevida e, com isso, distorcer conclusões.

RECIST é como um checklist de inspeção de um prédio. Você avalia portas e janelas, você mede rachaduras, você procura algo novo. Só que, diferente de uma rachadura que todo mundo vê, definir um achado novo na TC de tórax como progressão de doença ou não pode ser nebuloso, não existem parâmetros de imagem 100% patognomônicos. E, se o checklist tem itens mais frágeis, o resultado final fica mais instável. O artigo é importante porque quantifica essa instabilidade e mostra onde ela nasce.

Metodologia

Foi uma análise retrospectiva, usando dados de cinco ensaios clínicos em câncer de pulmão não pequenas células (NSCLC), com terapias-alvo ou imunoterapia, conduzidos entre 2017 e 2021, todos com BICR (leitura cega por comitê central), dupla leitura e adjudicação. O conjunto total teve 1932 pacientes, e 1718 tiveram pelo menos uma visita pós-baseline, todas com TC; o intervalo entre visitas era de 6 a 8 semanas no início, depois 9 a 12 semanas.

O desenho de leitura é o padrão de alto rigor, com dois radiologistas experientes, treinados, que avaliavam cada exame usando a mesma plataforma. Se havia discordância, um adjudicador escolhia qual leitura era a mais correta e registrava justificativa; os autores trataram a decisão do adjudicador como “verdade operacional”, reconhecendo que a verdade absoluta pode ser incerta. Isso é honesto, e é o que de fato acontece nos estudos clínicos.

Eles decompuseram progressão em três componentes do RECIST 1.1: aumento do somatório dos diâmetros das lesões-alvo, SoD, com critérios de 20% e 5 mm; progressão inequívoca de lesões não-alvo e aparecimento de lesão nova. Fizeram análises que vão além de discordou ou não, pois também mediram a taxa de discordância na data de progressão, DoPD; avaliaram quanto a adjudicação aceitava ou refutava a progressão; calcularam valor preditivo positivo por componente, na prática, o quanto cada componente acerta quando dispara uma progressão; olharam atraso de detecção e simularam impacto em curvas de PFS variando discordância, atrasos e detecções por um único leitor.

População envolvida

O foco foi NSCLC, em ensaios com imunoterapia ou terapia-alvo. Radiologistas e adjudicadores tinham alta experiência, mais de 10 anos, e o pool foi selecionado para ser homogêneo. Se mesmo com leitores experientes, treinados, e com plataforma central, a discordância é alta, imagine no mundo real, com laudos em serviços diferentes, sem adjudicação.

A maioria dos pacientes tinha múltiplas avaliações ao longo do tratamento. Todos os pacientes eram de ensaios clínicos, portanto tinham cronograma de realização de exames relativamente rígidos. A discordância pode ser o reflexo de uma regra clínica e metodológica: quando uma lesão nova é equívoca, o RECIST permite aguardar o próximo exame para confirmar. Na prática, isso vira uma fonte de variabilidade, e o artigo demonstra o tamanho dela.

Resultados

O primeiro dado já é surpreendente. A discordância na data de progressão foi de 39,3%, portanto quase quatro em cada dez pacientes tiveram leitores discordando do dia em que progrediu a doença. Ao mesmo tempo, houve concordância plena em 17,3% dos casos de progressão, e em 43,4% dos casos de não progressão. O resto caiu na zona de adjudicação.

Quando os dois leitores concordavam que havia progressão, eles raramente concordavam por um único motivo simples. Em 70,3% dos casos concordantes, havia múltiplos componentes do RECIST apontando progressão, não foi só uma coisa e isso é intuitivo, porque quanto mais sinais, mais segurança, e temos o artigo mostrando isso de forma numérica. Inclusive, em 54,2% desses casos concordantes, pelo menos um dos leitores usou mais de um componente para declarar PD.

Quando havia discordância, o campeão foi a lesão nova, com discordância em 41,4% dos casos. Os demais casos de discordância foram a medida de SoD em 33,3%; progressão de não-alvo em 11,8% e em 13,4% dos casos envolveram múltiplos componentes.

E o que a adjudicação fez com essas discordâncias? Aceitou 62,5% das progressões, ou seja, quase dois terços das discordâncias eram progressões reais segundo o padrão do trial. Discordar não significa “erro”, muitas vezes significa diferença de sensibilidade, ou diferença de limiar para declarar algo como inequívoco.

Mas há um detalhe que interessa muito, que foi quando o adjudicador refutou progressão, o maior motivo foi aumento de SoD, que ocorreu em 41,9% das refutações; e os autores citam um exemplo clássico de erro de medida: atelectasia sendo incluída como tumor, responsável por 15% dessas refutações de SoD. Aqui dá para sentir a vida real, quando vemos que no pulmão, a fronteira entre tumor, atelectasia e inflamação é traiçoeira. Se o leitor “puxa” o cursor e mede uma área que não é tumor, o SoD cresce, e o RECIST dispara progressão; só que é progressão falsa.

O artigo entra então no conceito de confiabilidade por componente, usando valor preditivo positivo (VPP). Progressão baseada em múltiplos componentes foi a mais confiável, VPP 0,89. Progressão baseada apenas em aumento de SoD foi a menos confiável, VPP 0,59. Isso deve mexer com a forma de treinar leitura em trial, pois se eu só tenho um aumento de soma de diâmetros, sem lesão nova, sem não-alvo inequívoco, eu preciso ter certeza da medida, e ter certeza do que estou medindo.

A lesão nova, apesar de ser a maior fonte de discordância, é também o motor principal da progressão em NSCLC. No fim dos trials, 53,8% das progressões aceitas foram atribuídas a lesão nova. Só que nem toda lesão nova tem o mesmo peso no julgamento. A aceitação variou por sítio, sendo linfonodo o mais confiável, com 88,4% de aceitação; osso, 86,7%; cérebro, 71,4%; pulmão foi o pior, com 40,6%. Uma lesão nova no pulmão, em paciente em imunoterapia, tem um universo grande de mimetizadores, como infecção, inflamação, pneumonite, artefato, atelectasia. Uma lesão nova nodal, em geral, é mais fácil de aceitar como progressão.

Em 49,2% dos casos discrepantes, o que aconteceu foi “progressão tardia”, com um leitor declarando depois do outro. Em quase 80% dos atrasos, a diferença foi de um ciclo apenas.

Mensagem Prática

Se você é oncologista, este artigo serve para calibrar expectativas. PFS não é uma medida perfeita, e parte dessa imperfeição nasce na imagem. Quando um trial mostra diferença pequena de PFS, você precisa lembrar que a data de progressão tem variabilidade. Isso não desqualifica o estudo, mas muda o nível de confiança em ganhos marginais.

Se você é radiologista de pesquisa clínica, o recado é ainda mais direto. Lesão nova é o coração do RECIST na prática, e também o seu calcanhar de Aquiles. Em pulmão, a chance de falso positivo é alta, a taxa de aceitação foi a mais baixa pelo adjudicador; então, disciplina em diferenciar tumor de atelectasia e inflamação não é detalhe, é endpoint. Treinar reconhecimento de mímicos e padronizar critérios de “equivocal” pode reduzir discordância e, por tabela, melhorar a robustez do PFS.

Se você coordena um laboratório central ou um BICR, há um caminho óbvio. Incentivar progressão sustentada por múltiplos componentes sempre que possível. Não como regra artificial, mas como “segundo passo” de segurança. Se a progressão só existe porque o SoD aumentou, revise medida, revise seleção de alvo, revise bordas, compare com fases anteriores. O artigo mostra que SoD isolado tem VPP baixo, e que uma parte relevante das refutações veio de erro de medida, inclusive atelectasia contada como tumor.

E para o mundo pós-RECIST? O artigo fecha com uma provocação justa. Imunoterapia pressiona o RECIST, porque surgem padrões de resposta mistos e atrasados. Se a leitura central já tem discordância alta em RECIST clássico, talvez o futuro precise de critérios mais adaptados, e de ferramentas de apoio. Eles discutem IA para detecção de lesão nova, especialmente em pulmão e fígado, e estimam que um sistema ideal poderia reduzir parte das discrepâncias, evitando falsos positivos e falsos negativos. Isso ainda não é rotina, mas a necessidade está posta.

No fim, o recado que fica é simples, que é “progressão não é só tumor crescendo”. É também como nós olhamos, medimos, e decidimos quando algo é inequívoco. Quando a progressão é sustentada por mais de um sinal, ela é mais confiável. Quando depende de um único detalhe, especialmente em pulmão, ela merece um segundo olhar, e um pouco mais de humildade.

Autoria

Gabriel Madeira Werberich

Possui graduação em Medicina pela Universidade do Estado do Rio de Janeiro (2009). Residência de Clínica Médica pela UERJ/Hospital Universitário Pedro Ernesto(HUPE)/Policlínica Piquet Carneiro(PPC). Residência Medica em Oncologia Clínica pelo Instituto Nacional de Câncer (INCA). Fellowship (R4) de Oncologia Clínica no Hospital Sírio Libanês (2016). Concluiu a residência médica de Radiologia e Diagnóstico por Imagem no HUCFF-UFRJ e R4 de Radiologia do Centro de Imagem do Copa Dor, com ênfase em Ressonância Magnética de Medicina Interna, e mestrado em Medicina na UFRJ concluído em 2023. Tem experiência na área de Clínica Médica, Oncologia Clínica e Diagnóstico por Imagem em Tórax, Medicina Interna e Radiologia Oncologica. Pos-Graduação em curso de Inteligencia Artificial aplicada a Saúde.

Ver perfil

Exclusividade médica

Prescreva medicação aos seus pacientes de forma gratuita e ilimitada

Como você avalia este conteúdo?

Sua opinião ajudará outros médicos a encontrar conteúdos mais relevantes.

O que o RECIST 1.1 realmente mede nos estudos clínicos

Metodologia

População envolvida

Resultados

Mensagem Prática

Autoria

Gabriel Madeira Werberich

Compartilhar artigo

Referências bibliográficas

Newsletter

Leia também em Oncologia

Check-up Semanal: vacina contra monkeypox, aneurisma intracraniano e muito mais! [podcast]

Lei sobre orientações sobre localização de doadores de medula óssea é sancionada

Células naturais ampliam o acesso à terapia avançada contra o câncer

Classificação PI-RADS: o que você precisa saber sobre risco de câncer de próstata

Qualidade da comunicação entre pacientes com câncer e seus médicos

HER2-Low: Desfechos relatados pelas pacientes no estudo DESTINY-Breast 04