Notícias

Banca de DEFESA: GHIVVAGO DAMAS SARAIVA

Uma banca de DEFESA de MESTRADO foi cadastrada pelo programa.
DISCENTE: GHIVVAGO DAMAS SARAIVA
DATA: 06/12/2024
HORA: 14:00
LOCAL: Sala Remota: meet.google.com/fxx-ksjn-zqz
TÍTULO: LLMeFT-Transformer: uma abordagem de TDL para detecção de Discurso de Ódio e Toxicidade em Redes Sociais
PALAVRAS-CHAVES: Ódio, Toxicidade, Processamento de Linguagem Natural, Tabular Deep Learning, FT-Transformer.
PÁGINAS: 76
GRANDE ÁREA: Ciências Exatas e da Terra
ÁREA: Ciência da Computação
SUBÁREA: Metodologia e Técnicas da Computação
RESUMO:

Nos últimos anos, a incidência de ódio e toxicidade nas redes sociais tem crescido exponen- cialmente, tornando-se um fenômeno cada vez mais complexo que permeia os ambientes virtuais. Esse fenômeno, agora intrínseco às interações sociais online, tem sido alvo de análise e detecção por parte das comunidades científicas, expandindo-se para além das disciplinas tradicionais como Direito, Sociologia, Psicologia e Política, adentrando também nas áreas de Processamento de Linguagem Natural, Aprendizado de Máquina e Linguística. Nesse contexto, este estudo propõe uma abordagem para identificar comentários tóxicos ou que contenham discurso de ódio nas redes sociais, utilizando uma combinação de Tabular Deep Learning e Processamento de Linguagem Natural. O objetivo é ampliar um modelo preditivo baseado em Transformer, o FT-Transformer, para detectar com precisão satisfatória se um comentário textual, como um tweet, possui conteúdo tóxico ou de ódio. Uma parte crucial do trabalho é a geração e processamento das características textuais, geradas a partir de modelos pré-treinados como Sentence-Transformer e BERT (tais como BERTimbau e Albertina PT-BR) e outros modelos de embeddings, utilizando-os como poderosos codificadores de texto. Assim, um aspecto importante da pesquisa envolve o uso de modelos de embeddings modernos como incorporadores e modelos de linguagem avaliando seu desempenho com o FT-Transformer, um modelo tabular baseado em trans- formador. O cenário experimental utiliza a versão binária do conjunto de dados ToLD-Br e a nossa abordagem alcançou uma precisão de 76% e uma pontuação F1-score de 75% usando o modelo de embedding da OpenAI text-embedding-3-large. Os resultados obtidos indicam o desempenho singular da abordagem, que pode ser aprimorada com a incorpora- ção de novas características, como o uso de técnicas como o RAG (Retrieval-Augmented Generation) que podem melhorar sua capacidade de lidar com as nuances da linguagem e a manutenção das características mais significativas em um objeto textual. Portanto, acreditamos haver oportunidades para aprimorar e expandir a capacidade do modelo em classificar comentários com ódio e toxicidade, destacando ainda mais a abordagem como uma alternativa inovadora em relação às abordagens tradicionais.


MEMBROS DA BANCA:
Presidente - 1226761 - RAIMUNDO SANTOS MOURA
Interno - 1579396 - RODRIGO DE MELO SOUZA VERAS
Interno - 1446435 - VINICIUS PONTE MACHADO
Externo à Instituição - 042.***.***-90 - JONICE DE OLIVEIRA SAMPAIO - UFRJ
Externo à Instituição - 017.***.***-81 - RAFAEL TORRES ANCHIÊTA - IFPI
Notícia cadastrada em: 11/11/2024 08:58
SIGAA | Superintendência de Tecnologia da Informação - STI/UFPI - (86) 3215-1124 | © UFRN | sigjb06.ufpi.br.instancia1 14/03/2025 01:14