Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português

Authors

  • Leonel Figueiredo de Alencar

DOI:

https://doi.org/10.17851/2237-2083.19.1.7-85

Keywords:

Linguística computacional, Processamento automático da linguagem natural, Etiquetagem morfossintática, Etiquetador morfossintático, Análise sintática automática, Gramática livre de contexto, Processamento computacional do português, Aprendizado de máquina

Abstract

No desenvolvimento de analisadores sintáticos profundos paratextos irrestritos, a principal dificuldade a ser vencida é a modelaçãodo léxico. Tradicionalmente, duas estratégias têm sido usadas paralidar com a informação lexical na análise sintática automática: acompilação de milhares de entradas lexicais ou a formulação decentenas de regras morfológicas. Devido aos processos produtivosde formação de palavras, aos nomes próprios ou a grafias não padrão,a primeira estratégia, que subjaz aos analisadores do português doBrasil (PB) livremente descarregáveis da Internet, não é robusta.A última estratégia, por sua vez, constitui tarefa não trivial deengenharia do conhecimento, consumindo muito tempo. Nomomento, o PB não dispõe de um analisador sintático de amplacobertura licenciado como software livre. Visando aopreenchimento o mais rápido possível dessa lacuna, argumentamosneste artigo que uma solução bem menos custosa e muito maiseficiente para o gargalo lexical consiste em simplesmentereaproveitar, como componente lexical do processamento sintáticoprofundo, etiquetadores morfossintáticos livremente disponíveis. Além disso, graças à ampla e gratuita disponibilidade de corporamorfossintaticamente anotados do PB e eficientes pacotes deaprendizado de máquina, a construção de etiquetadores de altaacurácia adicionais tornou-se uma tarefa que quase não demandaesforço. A fim de integrar facilmente o output de etiquetadores dediferentes arquiteturas em parsers tabulares de gramáticas livresde contexto compilados por meio do Natural Language Toolkit(NLTK), desenvolvemos um módulo em Python denominadoALEXP. Pelo que sabemos, o ALEXP é o primeiro software livreespecialmente otimizado para o processamento do português arealizar essa tarefa. A funcionalidade da ferramenta é descrita pormeio de protótipos de gramática do PB aplicados na análise desentenças do mundo real, com resultados bastante promissores.

Published

2011-06-30

How to Cite

Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português. Revista de Estudos da Linguagem, [S. l.], v. 19, n. 1, p. 7–85, 2011. DOI: 10.17851/2237-2083.19.1.7-85. Disponível em: https://periodicos-hml.cecom.ufmg.br/index.php/relin/article/view/28660. Acesso em: 5 oct. 2025.

Similar Articles

21-30 of 865

You may also start an advanced similarity search for this article.