UNIB apresenta um modelo de lematização baseado na rede neural para a língua Urdu

12 de Dezembro de 2023
UNIB apresenta um modelo de lematização baseado na rede neural para a língua Urdu

O reitor da Universidad Internacional Iberoamericana de México (Universidade Internacional Iberoamericana de México, UNINI México), Dr. Luis Dzul López, colabora com a Universidad Internacional Iberoamericana (Universidade Internacional Iberoamericana, UNIB) em estudo que apresenta algoritmo de lematização para a língua urdu.

No campo do processamento de linguagem natural (PNL), a tradução automática (TA) otimiza a comunicação entre as pessoas, eliminando a lacuna linguística. Na tradução automática, a normalização e as análises morfológicas são módulos importantes para a recuperação de informação (RI).

A derivação e a lematização são frequentemente utilizadas como técnicas para encontrar a raiz correta das palavras numa língua. No entanto, estudos sobre sistemas de IR para a língua urdu mostram que a lematização é mais eficiente do que a derivação devido aos infixos presentes nas palavras urdu. Em semântica, o objetivo da lematização é agrupar as formas flexionadas de uma palavra para as decompor numa forma comum e analisá-las como um termo básico. Por outras palavras, consiste em remover as terminações flexionais das palavras para as fazer regressar à sua forma de base.

Existem poucos estudos sobre a lematização do Urdu e tais estudos geralmente se concentram em regras; deixando de lado aspectos elementares como a identificação de substantivos, o manejo de stopwords, empréstimos, entre outros. Portanto, o objetivo desta pesquisa é apresentar um algoritmo de lematização aprimorado baseado em modelos de redes neurais comuns para a língua urdu. Focando principalmente na detecção de nomes próprios; a lematização de palavras morfológicas urdu flexivas e derivacionais, entre outras.

Resultados da pesquisa

Os resultados demonstraram que este modelo proposto tem a capacidade de abordar áreas ausentes na lematização do Urdu, como manipulação de empréstimos, palavras irrelevantes, identificação de substantivos e palavras em Urdu com diacríticos. Da mesma forma, este modelo lida com eficiência com a lematização de palavras morfológicas flexionais e derivativas.

A integração do modelo AFED melhorou muito o desempenho do sistema, alcançando exatidão, precisão, recuperação e pontuação F de 0,96, 0,95, 0,95 e 0,95, respectivamente.

Saiba mais sobre esse fascinante estudo, clique aqui.

Para ler mais pesquisas, consulte o repositório da UNIB.