|
Mes
activités de recherche se situent
au carrefour de l’informatique et de la linguistique.
Elles s’intéressent au traitement de l’écrit
et s’appuient sur des approches numériques
et symboliques. Celles-ci ont tout d’abord évolué dans
un cadre monolingue (notamment en ce qui concerne la structuration
de données terminologiques, la reconnaissance des
entités nommées et la reconnaissance de l’écriture
manuscrite cursive) avant de s’étendre à des
textes bilingues (notamment au niveau de l’acquisition
de terminologies bilingues). Il s’agit de la première évolution
notable de mon travail. D’un autre côté,
nous commençons progressivement à nous éloigner
du domaine de l’écrit « standard »,
qui considère des textes bien formés et normés,
pour nous rapprocher du domaine de l’écrit « déviant » et
en particulier des nouvelle formes de communication écrite
(notamment les SMS). Il s’agit incontestablement de
la seconde évolution majeure de mes travaux de recherche.
En ce qui concerne les approches utilisées, nous
contribuons à montrer la synergie possible entre
approches numériques et symboliques. En particulier,
nous montrons que les méthodes probabilistes ne sont
plus une alternative aux systèmes à base de
règles, mais bien complémentaires.
Mes travaux
portent sur les thèmes
suivants (du plus récent au plus ancien) :
Acquisition de terminologies bilingues
Ce travail, qui est le plus récent, s’intéresse à l’acquisition
de terminologies bilingues à partir de corpus comparables et spécialisés.
Dans ce cadre, nous avons proposé une approche mixte qui extrait en premier à l’aide
d’une méthode linguistique les termes complexes dans chacune des
langues puis tente de les aligner à l’aide d’une méthode
statistique. L’alignement s’effectue en comparant les contextes lexicaux
des termes à traduire et ceux des termes identifiés en langue cible.
Cette méthode permet d’éviter une traduction uniquement compositionnelle
des termes complexes et rend possible des alignements de termes de longueur différente.
Une extension de ce travail est actuellement réalisée dans le cadre
du projet CNRS PI TCAN et de la thèse de Lorraine Goeuriot. Il s’agit,
d’une part, de caractériser plus finement les données textuelles
présentent dans les corpus comparables, et d’autre part, d’évaluer
avec précision l’importance des outils et ressources linguistiques
nécessaires à une approche mixte.
Reconnaissance de l’écriture
manuscrite cursive
Un premier axe de recherche, réalisé dans le cadre de la thèse
de Freddy Perraud, s’intéresse à l’apport d’un
modèle de langage en vue d’améliorer les performances des
systèmes de reconnaissance de l’écriture manuscrite en-ligne.
Pour cela, nous avons exploré des modèles de langage basés
sur des approches statistiques et syntaxiques construits par apprentissage sur
des corpus écrits. Deux types de modèles ont été plus
particulièrement étudiés : les modèles n-grammes
et les modèles n-classes. Ici, nous avons privilégié une
approche probabiliste basée sur des n-classes qui prend en compte les
régularités d’une langue. En outre, la taille de ce type
de modèle est tout à fait raisonnable pour une intégration
dans des systèmes de faible capacité de type nomade. La portabilité de
la méthode a permis de généraliser l’approche statistique à douze
autres langues.
Un second axe de recherche, plus récent et développé dans
le cadre du projet ATLANSTIC MIMEMA, s’intéresse à la reconnaissance
de l’écriture manuscrite dégradée en-ligne de type
SMS où un modèle de langage probabiliste est a priori peu adapté.
Reconnaissance des entités nommées
La reconnaissance des entités nommées est un problème qui
se pose dans les différents domaines du TALN : veille technologique, indexation
de textes ou bien encore traduction. Si cette reconnaissance a été convenablement
réalisée en extraction d’information pour des textes journalistiques
anglais, elle pose de nombreux problèmes pour le français, notamment
lorsque l’on souhaite obtenir une catégorisation fine. Dans ce travail,
réalisé dans le cadre de la thèse de Nordine Fourour, nous
avons établi une catégorisation référentielle fine
et stable ainsi qu’une catégorisation graphique exhaustive des entités
nommées. Le système Nemesis a été développé pour
identifier et catégoriser des entités nommées en s’appuyant
sur des sources de connaissance interne (lexique de noms de personnes, de lieux…)
et externe (web). D’un point de vue informatique, ce système repose
sur l’utilisation de règles de réécriture définies
manuellement ou obtenues par apprentissage.
Extraction
d’information à partir de CV
Ce travail se situe dans l’optique de la construction d'un système
informatisé de recherche de profils (individus ayant une expérience
professionnelle) dans un ensemble distribué de sites de CV libres (sans
forme définie). Dans le cadre de ce projet, nous nous intéressons
plus particulièrement à l’extraction d’information à partir
de CV en considérant ce dernier comme un objet visuel dont les propriétés
visuelles sont directement exploitées par le lecteur lors de sa compréhension.
Ces caractéristiques dispositionnelles représentent des éléments
identitaires et structurelles importantes dans le CV et s’ajoutent aux
caractéristiques lexicales, syntaxiques et typographiques traditionnellement
exploitées en extraction d’informations à partir de textes. Structuration
de données terminologiques
Ce travail, qui est le plus ancien, porte sur l'identification
de relations conceptuelles entre termes à partir
de corpus de textes spécialisés. Il vise à développer
des méthodes et des outils linguistiques qui représentent
un enjeu décisif en acquisition et recherche d'informations
et en constitution de bases de connaissances expertes ou
terminologiques. Dans ce cadre, un premier axe de recherche
consiste à identifier des productions langagières
construites autour de termes simples ou complexes. Ces
productions, qui peuvent s'exprimer sous la forme de schémas
lexico-syntaxiques simples mais très diversifiés,
permettent d’extraire des couples de termes à forte
valeur conceptuelle. Un second axe de recherche s’intéresse à exploiter
les relations extraites entre termes simples, par le précédent
mécanisme, pour les étendre à des
relations entre termes polylexicaux. Nous avons ainsi proposé un
mécanisme de variation sémantique, à base
de règles, qui s’appuie sur des variantes
extraites de corpus pour proposer de nouvelles relations
entre termes.
|
|