Notícias

Banca de DEFESA: FÁBIO CORDEIRO

Uma banca de DEFESA de MESTRADO foi cadastrada pelo programa.
DISCENTE: FÁBIO CORDEIRO
DATA: 23/06/2023
HORA: 14:30
LOCAL: Sala de aula do PPGCC e Remota: meet.google.com/xzs-bjpk-pwg
TÍTULO: Classificação de Comunicados de Irregularidades da Ouvidoria do TCE/PI Utilizando Técnicas de Aprendizado Profundo
PALAVRAS-CHAVES: Aprendizagem de Máquina, Classificação de Texto, Comunicados de Irregularidades, Ouvidoria, Processamento de Linguagem Natural
PÁGINAS: 71
GRANDE ÁREA: Ciências Exatas e da Terra
ÁREA: Ciência da Computação
SUBÁREA: Metodologia e Técnicas da Computação
ESPECIALIDADE: Sistemas de Informação
RESUMO:

Com o crescente envolvimento da sociedade na fiscalização de gastos públicos por meio de manifestações, torna-se necessário adotar modelos computacionais inteligentes para analisar e compreender essas manifestações em formato textual, com isso garantir uma resposta mais rápida e eficiente aos anseios da sociedade. O objetivo deste trabalho é explorar a utilização de técnicas de Processamento de Linguagem Natural (PLN) e Aprendizado de Máquina (AM) para classificar as manifestações recebidas pela Ouvidoria do Tribunal de Contas do Estado do Piauí (TCE/PI). Pretende-se investigar modelos de AM que possam substituir o trabalho manual de classificação de manifestações (Comunicados de Irregularidades) e comparar os resultados obtidos para selecionar o melhor modelo. Dado o baixo número de Comunicados de Irregularidades classificados e para superar o problema do desbalanceamento de classes, foram utilizadas as técnicas de função de perda ponderada e reamostragem. Além disso, foram realizados testes em três configurações diferentes: sem a aplicação de técnicas, com a função de perda ponderada e com a reamostragem e função de perda ponderada. Entre os modelos de AM testados, o modelo Support Vector apresentou o segundo melhor desempenho em todos os testes: no teste com o dataset original obteve 80,17% de F1-Score, no teste com perda ponderada, obteve 82,23% de F1- Score e no teste combinando reamostragem e perda ponderada obteve 81,60% de F1-Score. Em todos os testes o modelo Bidirectional Encoder Representations from Transformers (BERT) foi superior em todas as métricas, obtendo os melhores resultados nos testes com reamostragem do dataset de treinamento e função de perda ponderada, com a 86,22% de F1-Score. Com o uso da ferramenta "Weights & Biases"para encontrar o melhor conjunto de hyperparâmetros, o modelo BERT chegou a 88,58% de acurácia. Os experimentos demostraram que o modelo de linguagem BERT supera todos os outros modelos testados. Em relação às técnicas para superar o desbalanceamento das classes, a função de perda ponderada apresentou um ganho considerável, mas os melhores resultados foram obtidos com a combinação das duas técnicas, função de perda ponderada e reamostragem.


MEMBROS DA BANCA:
Interno - 1632667 - ANDRE MACEDO SANTANA
Interno - 2061294 - RICARDO DE ANDRADE LIRA RABELO
Interno - 1446435 - VINICIUS PONTE MACHADO
Externo ao Programa - 375.523.843-87 - ANSELMO CARDOSO DE PAIVA - UFMA
Notícia cadastrada em: 25/05/2023 15:49
SIGAA | Superintendência de Tecnologia da Informação - STI/UFPI - (86) 3215-1124 | © UFRN | sigjb04.ufpi.br.instancia1 03/11/2024 16:48