A detecção automatizada dos níveis de atenção e engajamento em salas de aula representa um desafio relevante para a pesquisa em visão computacional e inteligência artificial, para além dos grandes laboratórios de pesquisa. Nesse contexto, esta dissertação investiga a utilização de arquiteturas baseadas em Transformers para aprimorar a precisão da classificação desses estados psíquicos, no âmbito do ensino fundamental. A pesquisa concentra-se na identificação de características visuais relevantes, como linguagem corporal e a orientação do corpo em relação aos objetos de atenção. Além disso, explora-se, pela práxis, a interação entre linguagem e imagem nos Transformers, possibilitando associações semânticas como característica do uso prevalente de vetores multidimensionais de representação (embedding vectors) e similaridade de cossenos, que servem de liame entre os sentidos expressos visualmente e através do vernáculo, associados aos mecanismos de atenção inerentes à arquitetura. Para mitigar eventuais vieses (etnias, gêneros, idades) e possibilitar o uso das técnicas de detecção de atenção voltada a um público alvo merecedor de especial proteção quanto à privacidade (menores de idade), foi criada uma base de dados sintética, utilizando modelos de IA generativa como o Stable Diffusion, a fim de representar diversos estados de atenção e desatenção em cenários realistas de sala de aula. Como contribuição central, propõe-se um conjunto de dados (dataset), apto ao ajuste fino (fine-tuning) de um modelo Vision Transformer CLIP, e um fluxo de trabalho (pipeline) que incorpore o uso de Grandes Modelos de Linguagem (Large Language Models) para a definição dos comandos condicionantes (prompts) aptos a gerá-las, e tecnologias multimodais interpretativas (imagem para texto), para análise e validação das imagens geradas e rotuladas. A dissertação busca responder a questões fundamentais, incluindo, na falta de uma definição precisa de "atenção" e "engajamento", a adequação de características visuais para sua mensuração para o uso da arquitetura Transformer. Além disso, avalia-se se o uso de imagens estáticas, sem componente temporal, é suficiente para essa tarefa. A estrutura do trabalho compreende a apresentação, como referencial teórico, de Transformers, IA generativa e visão computacional clássica, uma revisão do estado da arte, seguida da descrição da abordagem proposta e de experimentos realizados. Este trabalho visa democratizar o acesso à análise automatizada do engajamento estudantil no contexto específico, contribuindo também para a redução de possíveis vieses decorrentes de um dataset não balanceado.