Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português

Leonel Figueiredo de Alencar

Journal ArticleOPEN ACCESS

Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português

Alencar L

Revista de Estudos da Linguagem (2011) 19(1)

DOI: 10.17851/2237-2083.19.1.7-85

N/ACitations

9Readers

Abstract

Resumo No desenvolvimento de analisadores sintáticos profundos para textos irrestritos, a principal dificuldade a ser vencida é a modelação do léxico. Tradicionalmente, duas estratégias têm sido usadas para lidar com a informação lexical na análise sintática automática: a compilação de milhares de entradas lexicais ou a formulação de centenas de regras morfológicas. Devido aos processos produtivos de formação de palavras, aos nomes próprios ou a grafias não padrão, a primeira estratégia, que subjaz aos analisadores do português do Brasil (PB) livremente descarregáveis da Internet, não é robusta. A última estratégia, por sua vez, constitui tarefa não trivial de engenharia do conhecimento, consumindo muito tempo. No momento, o PB não dispõe de um analisador sintático de ampla cobertura licenciado como software livre. Visando ao preenchimento o mais rápido possível dessa lacuna, argumentamos neste artigo que uma solução bem menos custosa e muito mais eficiente para o gargalo lexical consiste em simplesmente reaproveitar, como componente lexical do processamento sintático profundo, etiquetadores morfossintáticos livremente disponíveis. ALENCAR 8 Além disso, graças à ampla e gratuita disponibilidade de corpora morfossintaticamente anotados do PB e eficientes pacotes de aprendizado de máquina, a construção de etiquetadores de alta acurácia adicionais tornou-se uma tarefa que quase não demanda esforço. A fim de integrar facilmente o output de etiquetadores de diferentes arquiteturas em parsers tabulares de gramáticas livres de contexto compilados por meio do Natural Language Toolkit (NLTK), desenvolvemos um módulo em Python denominado ALEXP. Pelo que sabemos, o ALEXP é o primeiro software livre especialmente otimizado para o processamento do português a realizar essa tarefa. A funcionalidade da ferramenta é descrita por meio de protótipos de gramática do PB aplicados na análise de sentenças do mundo real, com resultados bastante promissores. Palavras-chave

Cite

CITATION STYLE

APA

Alencar, L. F. de. (2011). Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português. Revista de Estudos Da Linguagem, 19(1). https://doi.org/10.17851/2237-2083.19.1.7-85

Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português

Abstract

Cite

Register to see more suggestions