Un modèle d’extraction des collocations en langue de spécialité

François Maniez

Journal ArticleOPEN ACCESS

Un modèle d’extraction des collocations en langue de spécialité

Maniez F

ASp (2010) 35-36 35-47

DOI: 10.4000/asp.1597

N/ACitations

10Readers

Abstract

La grande majorité des applications de traitement automatique des langues qui ont pour domaine les langues de spécialité sont des outils d’extraction terminologique. Elles se concentrent donc naturellement sur l’identification des groupes nominaux et des groupes prépositionnels ou prémodificateurs qui leur sont associés. En nous fondant sur un corpus bilingue anglais-français composé d’articles de recherche médicale, nous proposons un modèle d’extraction phraséologique semi-automatisée, dont le point de départ est la recherche des co-occurrents les plus fréquents des formes verbales du texte original (l’anglais), étiqueté morpho-syntaxiquement (POS-tagged). L’indice de probabilité de co-occurrence (z-score) permet dans un premier temps d’établir la liste des collocants les plus fréquents d’un verbe donné dans les classes des adverbes et des noms. On recherche ensuite les adjectifs qui entrent en co-occurrence avec les adverbes et les noms relevés lors de la première étape. Une deuxième méthode utilisant les adverbes comme point de départ de la recherche a été testée et semble donner de meilleurs résultats.The great majority of natural language processing applications that are meant for specialized languages are terminological extraction tools. They consequently tend to focus on methods for identifying noun phrases and prepositional phrases as well as the words that modify them. Using an English-to-French translation corpus of medical research articles, we have tried to describe a semi-automatic phraseological extraction model by focusing primarily on the retrieval of the collocates of the most frequently used verb forms in the POS-tagged original (i.e., the English) text. The co-occurrence probability index (Tact’s z-score) makes it possible to list the most frequent collocates of a particular verb within the class of adverbs or nouns. Adjectives that co-occur with the adverbs and nouns that were extracted in the first phase are then examined. Another method based on the retrieval of the collocates of adverbs was tried and seems to yield better results.

Cite

CITATION STYLE

APA

Maniez, F. (2010). Un modèle d’extraction des collocations en langue de spécialité. ASp, 35–36, 35–47. https://doi.org/10.4000/asp.1597

Un modèle d’extraction des collocations en langue de spécialité

Abstract

Cite

Register to see more suggestions