Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português

  • Alencar L
N/ACitations
Citations of this article
9Readers
Mendeley users who have this article in their library.

Abstract

Resumo No desenvolvimento de analisadores sintáticos profundos para textos irrestritos, a principal dificuldade a ser vencida é a modelação do léxico. Tradicionalmente, duas estratégias têm sido usadas para lidar com a informação lexical na análise sintática automática: a compilação de milhares de entradas lexicais ou a formulação de centenas de regras morfológicas. Devido aos processos produtivos de formação de palavras, aos nomes próprios ou a grafias não padrão, a primeira estratégia, que subjaz aos analisadores do português do Brasil (PB) livremente descarregáveis da Internet, não é robusta. A última estratégia, por sua vez, constitui tarefa não trivial de engenharia do conhecimento, consumindo muito tempo. No momento, o PB não dispõe de um analisador sintático de ampla cobertura licenciado como software livre. Visando ao preenchimento o mais rápido possível dessa lacuna, argumentamos neste artigo que uma solução bem menos custosa e muito mais eficiente para o gargalo lexical consiste em simplesmente reaproveitar, como componente lexical do processamento sintático profundo, etiquetadores morfossintáticos livremente disponíveis. ALENCAR 8 Além disso, graças à ampla e gratuita disponibilidade de corpora morfossintaticamente anotados do PB e eficientes pacotes de aprendizado de máquina, a construção de etiquetadores de alta acurácia adicionais tornou-se uma tarefa que quase não demanda esforço. A fim de integrar facilmente o output de etiquetadores de diferentes arquiteturas em parsers tabulares de gramáticas livres de contexto compilados por meio do Natural Language Toolkit (NLTK), desenvolvemos um módulo em Python denominado ALEXP. Pelo que sabemos, o ALEXP é o primeiro software livre especialmente otimizado para o processamento do português a realizar essa tarefa. A funcionalidade da ferramenta é descrita por meio de protótipos de gramática do PB aplicados na análise de sentenças do mundo real, com resultados bastante promissores. Palavras-chave

Cite

CITATION STYLE

APA

Alencar, L. F. de. (2011). Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português. Revista de Estudos Da Linguagem, 19(1). https://doi.org/10.17851/2237-2083.19.1.7-85

Register to see more suggestions

Mendeley helps you to discover research relevant for your work.

Already have an account?

Save time finding and organizing research with Mendeley

Sign up for free