Objetivo: Avaliar comparativamente o desempenho de três chatbots baseados em Large Language Models (LLMs) generativos (ChatGPT-3.5, Copilot/GPT-4 e Gemini) ao responderem às provas objetivas das últimas 5 edições (2017 a 2023) do Exame Nacional de Revalidação de Diplomas Médicos Expedidos por Instituição de Educação Superior Estrangeira (Revalida). Métodos: Foram coletadas as provas do Revalida e preparadas para serem utilizadas como entrada nos chatbots. Realizou-se a inserção das questões e anotação das respostas. As respostas geradas foram então comparadas com o gabarito oficial, a fim de determinar o desempenho dos chatbots. Resultados: O Copilot/GPT-4 obteve o melhor desempenho, com uma taxa de acerto médio de 63,85% (Min=52,17%; Máx= 83,54%; Mediana=61,62%; DP=17,80%). O segundo melhor desempenho foi do ChatGPT-3.5 com a média de acerto de 60,55% (Min=45,56%; Máx=71,95%; Mediana=60,64%; DP=7,17%) nas provas dos cinco anos. O menor desempenho foi do Gemini, com uma taxa de acerto médio de 59,08% (Min=51,08%; Máx=67,90%; Mediana=58.03%; DP=5,53%). O índice de fallback do Gemini foi 1% e do Copilot/GPT-4 foi 0,64%. Conclusão: Os resultados sugerem que, com um treinamento para a utilização adequada, eles podem ter potencial para serem aplicados em sistemas de suporte à decisão clínica, ajudando profissionais a acessar informações atualizadas sobre diagnósticos e tratamentos, e na educação em saúde, melhorando o aprendizado de estudantes e profissionais.