SYRETE

SYstème de REconnaissance de TErmes en corpus



Reconnaître des termes

La reconnaissance des termes est essentielle dans différentes tâches : recherche documentaire, indexation, diffusion ciblée, fouille de textes, construction d'ontologie, etc.
La reconnaissance des termes est difficile car les termes peuvent se présenter sous différentes formes (singulier ou pluriel, verbe à l'infinitif ou conjugué, autres variations syntaxiques, etc.). Dans des textes de mauvaise qualité des erreurs lexicales peuvent être rencontrées.

Exemple

Le terme "fuite de pompe" peut être identifié dans :
Il y a une fuite de pompe.
ou dans
La pompe fuit.
ou dans
Une fuite a été détectée sur la pompe n°1.
ou dans
La fuite de la pompe A est réparée.

 
 

Spécifications de la bibliothèque SYRETE

La bibliothèque SYRETE regroupe des programmes écrits en C++. Elle permet de reconnaître des termes (simples, c'est-à-dire composés d'un seul mot, ou composés, c'est-à-dire composés de plusieurs mots) sous leurs différentes variantes.
Ce traitement peut être réalisé selon différentes modalités :

La bibliothèque prend ses entrées dans des fichiers et produit ses sorties dans le flot de sortie choisi par l'utilisateur.

ENTREE :

SORTIE : Plusieurs formats de sortie sont prévus :

Présentation détaillée des modalités

La reconnaissance des termes par SYRETE dépend de différentes modalités :

Ponctuation

Si ce paramètre est valué à vrai, les textes à traiter, ainsi que les termes, sont vus comme dépourvus de ponctuation.
Ce paramètre permet de s'affranchir des ponctuations fantaisistes parfois rencontrées dans des corpus de mauvaise qualité.

Exemple :

Accents

Lorsque ce paramètre est valué à vrai, les termes et les textes sont traités comme s'ils étaient désaccentués.
Cette modalité permet de reconnaître des termes malgré les erreurs d'accentuation.

Exemple :


Casse

Lorsque ce paramètre est valué à vrai, les termes et les textes sont traités comme si leurs caractères capitales étaient convertis en minuscules.
Ce traitement autorise l'identification des termes en début de phrase (et, donc, commençant par une capitale).

Exemple :

L'opérateur d'égalité-souple

Lorsque ce paramètre est valué à vrai, le programme compare les chaînes de caractères à l'aide de l'opérateur d'égalité-souple. Sinon il utilise l'égalité-stricte.

Définition de l'opérateur d'égalité-souple.

Exemple :


 
 

Combinaison de différentes modalités

Certaines modalités qui se combinent ont de l'importance.
  pour en savoir plus


Cette page a été réalisée par Julien Maisonneuve dans le cadre du stage de DEUG STPI 2ème année (Université de Nantes).
Dernière mise à jour le 10 juin 2002.