Projet CoRRecT
Corpus de Référence pour la Reconnaissance de Termes
CoRRecT est une méthodologie d'évaluation de systèmes de reconnaissance de termes (SRT). Cette méthodologie
s'appuie sur la mise au point de corpus de référence dans lesquels les termes reconnus sont signalés. Ce corpus de référence est construit avec
l'aide d'un spécialiste du domaine dont il est question dans les textes.
Evaluation d'un SRT
Un SRT est évalué en comparant ses résultats avec le corpus de référence.Pour procéder à cette évaluation il faut
En retour vous sera fourni un rapport sur les résultats du SRT évalué. Il comprend :
- le taux de rappel,
- le taux de précision,
- la liste des occurrences de termes reconnues de façon erronées,
- la liste des occurrences de termes reconnues correctes,
Chargement des données de test
Envoi des résultats
Envoyer un courrier électronique décrivant brièvement le système de reconnaissance
de termes utilisé pour produire les résultats.
Annexer le fichier des résultats
(écrits selon un format spécifique)
à ce message.
Remarque : les résultats envoyés sont libres de droit et peuvent donner lieu à toute étude
ou publication ultérieure.
Le rapport d'évaluation est un fichier texte qui sera envoyé à l'adresse d'origine des résultats envoyés.
Formats
Tous les fichiers respectent la syntaxe XML
Textes
Chaque texte est divisé en notices balisées par notice
et identifiées par l'attribut id. Le texte est encadré par des
balises texte. Voir la DTD.
Exemple :
<notice id="1">
<texte>Xi is the dimensionless correlation length of the pair correlation function. </texte>
</notice>
|
Termes
Chaque terme est signalé par la balise terme
et identifié par l'attribut id. Sa forme vedette est encadrée
par la balise vedette. La balise
info rassemble des informations supplémentaires telles que
traduction, structure. Voir la DTD.
Exemple :
<terme id="5564">
<vedette>Correlation function</vedette>
<info>Fonction corrélation N NH</info>
</terme>
|
Résultats d'un SRT
Les résultats d'un SRT doivent être écrits dans des fichiers txt respectant un format XML
voir la DTD.
Chaque terme reconnu est signalé par une balise
variante. L'attribut refterme identifie le terme reconnu, l'attribut statut permet de noter d'éventuelles informations supplémentaires fournies par le SRT, et les attributs debut et fin identifient le début et la fin de l'occurrence.
Dans le texte, les balises ancre signalent le début et la fin de chaque occurrence
Exemple :
|
Texte original : |
<notice id="1">
<texte>Xi is the dimensionless correlation length of the pair correlation function. </texte>
</notice>
|
|
Texte étiqueté par un SRT : |
<notice id="1">
<variante refterme="5564" statut="novar" debut="12" fin="13"></variante>
<texte>Xi is the dimensionless correlation length of the pair
<ancre id="12"/>correlation function<ancre id="13"/>.</texte>
</notice>
|
Commentaire :
Dans la notice numéro 1, une seule occurrence de terme a été identifiée, elle est comprise entre les balises
<ancre id="12"/> et
<ancre id="13"/>.
Le SRT a étiqueté cette variante en précisant la valeur novar pour l'attribut
statut et a précisé l'identité du terme en donnant sont identifiant :
5564.
Contraintes :
A priori il ne faut pas modifier le texte lui-même, il est seulement possible d'ajouter des balises dans les textes (entre les balises <texte> et </texte>)
mais il ne faut pas ôter de caractères, et ne pas en ajouter.
Cependant quelques modifications mineures sont autorisées :
- conversion de caractères en entités html
- conversion d'entités html en caractères.
Références :
- Enguehard, C., "CoRRecT : Démarche coopérative pour l'évaluation de
systèmes de reconnaissance de termes", 10ème conférence TALN 2003, pp.339-345,
11-14 juin 2003, Batz-sur-mer, France.