Esta proposta de pesquisa apresenta a WellNet, uma rede neural híbrida que se propõe como uma alternativa eficaz entre as abordagens para classificação de rachaduras. A WellNet combina as capacidades das Redes Neurais Convolucionais (CNN), conhecidas por sua eficiência na extração de
características locais, com a abordagem dos Transformadores Visuais (ViT), que captura informações contextuais globais. O modelo foi validado utilizando o conjunto de dados Mendeley, com diferentes configurações de hiperparâmetros e técnicas de aumento de dados. Foram realizados experimentos com e sem aumento de dados, evidenciando que a WellNet apresenta resultados comparáveis a arquiteturas CNN e híbridas em métricas como acurácia, precisão, recall e F1-score. Além disso, o modelo se destaca pelo seu tamanho reduzido (26 MB), tornando-o viável para uso em sistemas embarcados, como NVIDIA Jetson e Raspberry Pi, possibilitando sua integração em drones e outros dispositivos móveis, facilitando inspeções automatizadas em fachadas de edificações e locais de difícil acesso.