Projet CoRRecT
Corpus de Référence pour la Reconnaissance de Termes

CoRRecT est une méthodologie d'évaluation de systèmes de reconnaissance de termes (SRT). Cette méthodologie s'appuie sur la mise au point de corpus de référence dans lesquels les termes reconnus sont signalés. Ce corpus de référence est construit avec l'aide d'un spécialiste du domaine dont il est question dans les textes.

Evaluation d'un SRT

Un SRT est évalué en comparant ses résultats avec le corpus de référence.

Pour procéder à cette évaluation il faut

En retour vous sera fourni un rapport sur les résultats du SRT évalué. Il comprend :

Chargement des données de test

Envoi des résultats

Envoyer un courrier électronique décrivant brièvement le système de reconnaissance de termes utilisé pour produire les résultats.
Annexer le fichier des résultats (écrits selon un format spécifique) à ce message.

Le rapport d'évaluation est un fichier texte qui sera envoyé à l'adresse d'origine des résultats envoyés.

Formats

Tous les fichiers respectent la syntaxe XML

  • Textes
  • Chaque texte est divisé en notices balisées par notice et identifiées par l'attribut id. Le texte est encadré par des balises texte. Voir la DTD.
    Exemple :

  • Termes
  • Chaque terme est signalé par la balise terme et identifié par l'attribut id. Sa forme vedette est encadrée par la balise vedette. La balise info rassemble des informations supplémentaires telles que traduction, structure. Voir la DTD.

    Exemple :

  • Résultats d'un SRT
  • Les résultats d'un SRT doivent être écrits dans des fichiers txt respectant un format XML voir la DTD.
    Chaque terme reconnu est signalé par une balise variante. L'attribut refterme identifie le terme reconnu, l'attribut statut permet de noter d'éventuelles informations supplémentaires fournies par le SRT, et les attributs debut et fin identifient le début et la fin de l'occurrence.
    Dans le texte, les balises ancre signalent le début et la fin de chaque occurrence

    Exemple :


    Contraintes : A priori il ne faut pas modifier le texte lui-même, il est seulement possible d'ajouter des balises dans les textes (entre les balises <texte> et </texte>) mais il ne faut pas ôter de caractères, et ne pas en ajouter.
    Cependant quelques modifications mineures sont autorisées :
    - conversion de caractères en entités html
    - conversion d'entités html en caractères.

    Références :