Topic Modeling for Keyword Extraction: using Natural Language Processing methods for keyword extraction in Portal Min@s

Authors

  • Arnaldo Candido Junior Universidade Tecnológica Federal do Paraná
  • Célia Magalhães Universidade Federal de Minas Gerais
  • Helena Caseli Universidade Federal de São Carlos
  • Régis Zangirolami Universidade Federal de São Carlos

DOI:

https://doi.org/10.17851/2237-2083.23.3.695-726

Keywords:

Keyword Extraction, Natural Language Processing, Corpus Analysis, WordSmith Tools, Latent Dirichlet Allocation, Portal Min@s.

Abstract

Abstract: This article aims to evaluate the application of two efficient automatic methods for keyword extraction used by Corpus Linguistics and Natural Language Processing communities for generating keywords from literary texts: WordSmith Tools and Latent Dirichlet Allocation (LDA). These tools have their own specificities and are based on different extraction techniques; thus an analysis focused on their performance was required. This article aims to understand how each method works and to evaluate them when applied to extract keywords from literary works. To this end, we used human analysis, with knowledge of the field of the texts used. The LDA method was used for extracting keywords through its integration with Portal Min@s: Corpora de Fala e Escrita, a general corpora-processing system, designed for different research in corpus linguistics. The experiment outcomes confirm the effectiveness of WordSmith Tools and LDA in extracting keywords from literary corpus. They also show that human analysis of the lists is required at a stage prior to experiments to complement the automatically generated list, crossing WordSmith Tools and LDA results, and that the linguistic intuition of a human analyst about the lists generated separately by the two methods in this study was more favorable to the use of the WordSmith Tools keyword list.

Keywords: Keyword Extraction, Natural Language Processing, Corpus Analysis, WordSmith Tools, Latent Dirichlet Allocation, Portal Min@s.

Resumo: Este artigo tem o objetivo da avaliar a aplicação de dois métodos automáticos eficientes na extração de palavras-chave, usados pelas comunidades da Linguística de Corpus e do Processamento da Língua Natural para gerar palavras-chave de textos literários: o WordSmith Tools e o Latent Dirichlet Allocation (LDA). As duas ferramentas escolhidas para este trabalho têm suas especificidades e técnicas diferentes de extração, o que nos levou a uma análise orientada para a sua performance. Objetivamos entender, então, como cada método funciona e avaliar sua aplicação em textos literários. Para esse fim, usamos análise humana, com conhecimento do campo dos textos usados. O método LDA foi usado para extrair palavras-chave por meio de sua integração com o Portal Min@s: Corpora de Fala e Escrita, um sistema geral de processamento de corpora, concebido para diferentes pesquisas de Linguística de Corpus. Os resultados do experimento confirmam a eficácia do WordSmith Tools e do LDA na extração de palavras-chave de um corpus literário, além de apontar que é necessária a análise humana das listas em um estágio anterior aos experimentos para complementar a lista gerada automaticamente, cruzando os resultados do WordSmith Tools e do LDA. Também indicam que a intuição linguística do analista humano sobre as listas geradas separadamente pelos dois métodos usados neste estudo foi mais favorável ao uso da lista de palavras-chave do WordSmith Tools.

Palavras-chave: extração de palavras-chave; processamento natural da linguagem; análise de corpus; WordSmith Tools; Latent Dirichlet Allocation; Portal Min@s.

Downloads

Published

2015-12-22

Issue

Section

2015 Thematic Issue: Corpus Linguistics

How to Cite

Topic Modeling for Keyword Extraction: using Natural Language Processing methods for keyword extraction in Portal Min@s. Revista de Estudos da Linguagem, [S. l.], v. 23, n. 3, p. 695–726, 2015. DOI: 10.17851/2237-2083.23.3.695-726. Disponível em: https://periodicos-hml.cecom.ufmg.br/index.php/relin/article/view/28442. Acesso em: 5 oct. 2025.

Similar Articles

1-10 of 179

You may also start an advanced similarity search for this article.