Validação de termos de domínio por meio de uma base lexical-semântica difusa

Autores

  • Afonso Rodrigues Universidade de Santiago de Compostela, Espanha

DOI:

https://doi.org/10.11606/issn.2317-9511.v30i30p71-86

Palavras-chave:

extração automática de termos, relações semânticas, synsets difusos.

Resumo

A extração ou reconhecimento de termos pesquisa um corpus para prover uma lista de termos específicos de domínio a fim de ser usada em trabalhos mais avançados tais como a construção de terminologias e ontologias. Tanto medidas estatísticas quanto técnicas do Processamento da Linguagem Natural (PLN) têm sido investigadas para melhorar o desempenho na precisão das listas recuperadas. Não obstante, para manter a abrangência alta, as listas contêm falsos positivos. Para validar os candidatos como verdadeiros positivos, os termos têm de ser avaliados quer manualmente, quer automaticamente, por contraste com recursos externos, nomeadamente glossários específicos. Apresentamos uma série de experiências que mostram como uma base de conhecimento lexical pode melhorar o desempenho destes glossários de modo significativo. Partimos de uma lista de 50 candidatos a termos de domínio com precisão de 52%. Por meio da uma base lexical difusa, em que as palavras são agrupadas com um valor de associação semântica, achamos valores de corte para atingir percentagens de 100% tanto na precisão quanto na abrangência sobre a lista de partida, mantendo o valor da medida-F > 80%, com melhor resultado em 90%. Concluímos que, considerando que é necessário mais trabalho na pesquisa de limites e diferentes cenários, uma base lexical difusa pode melhorar o estado da arte das abordagens convencionais da extração automática de termos.

Downloads

Os dados de download ainda não estão disponíveis.

Biografia do Autor

  • Afonso Rodrigues, Universidade de Santiago de Compostela, Espanha
    Licenciado em Filologia Galego-Portuguesa e investigador do programa de doutoramento de Geografia da Universidade de Santiago de Compostela.

Downloads

Publicado

2017-12-20

Edição

Seção

Artigos

Como Citar

Validação de termos de domínio por meio de uma base lexical-semântica difusa. (2017). Tradterm, 30, 71-86. https://doi.org/10.11606/issn.2317-9511.v30i30p71-86