Menu
Accueil
Activités de recherche
Publications
Activités de recherche

Mes activités de recherche se situent au carrefour de l’informatique et de la linguistique. Elles s’intéressent au traitement de l’écrit et s’appuient sur des approches numériques et symboliques. Celles-ci ont tout d’abord évolué dans un cadre monolingue (notamment en ce qui concerne la structuration de données terminologiques, la reconnaissance des entités nommées et la reconnaissance de l’écriture manuscrite cursive) avant de s’étendre à des textes bilingues (notamment au niveau de l’acquisition de terminologies bilingues). Il s’agit de la première évolution notable de mon travail. D’un autre côté, nous commençons progressivement à nous éloigner du domaine de l’écrit « standard », qui considère des textes bien formés et normés, pour nous rapprocher du domaine de l’écrit « déviant » et en particulier des nouvelle formes de communication écrite (notamment les SMS). Il s’agit incontestablement de la seconde évolution majeure de mes travaux de recherche. En ce qui concerne les approches utilisées, nous contribuons à montrer la synergie possible entre approches numériques et symboliques. En particulier, nous montrons que les méthodes probabilistes ne sont plus une alternative aux systèmes à base de règles, mais bien complémentaires.

Mes travaux portent sur les thèmes suivants (du plus récent au plus ancien) :

Acquisition de terminologies bilingues
Ce travail, qui est le plus récent, s’intéresse à l’acquisition de terminologies bilingues à partir de corpus comparables et spécialisés. Dans ce cadre, nous avons proposé une approche mixte qui extrait en premier à l’aide d’une méthode linguistique les termes complexes dans chacune des langues puis tente de les aligner à l’aide d’une méthode statistique. L’alignement s’effectue en comparant les contextes lexicaux des termes à traduire et ceux des termes identifiés en langue cible. Cette méthode permet d’éviter une traduction uniquement compositionnelle des termes complexes et rend possible des alignements de termes de longueur différente. Une extension de ce travail est actuellement réalisée dans le cadre du projet CNRS PI TCAN et de la thèse de Lorraine Goeuriot. Il s’agit, d’une part, de caractériser plus finement les données textuelles présentent dans les corpus comparables, et d’autre part, d’évaluer avec précision l’importance des outils et ressources linguistiques nécessaires à une approche mixte.

Reconnaissance de l’écriture manuscrite cursive
Un premier axe de recherche, réalisé dans le cadre de la thèse de Freddy Perraud, s’intéresse à l’apport d’un modèle de langage en vue d’améliorer les performances des systèmes de reconnaissance de l’écriture manuscrite en-ligne. Pour cela, nous avons exploré des modèles de langage basés sur des approches statistiques et syntaxiques construits par apprentissage sur des corpus écrits. Deux types de modèles ont été plus particulièrement étudiés : les modèles n-grammes et les modèles n-classes. Ici, nous avons privilégié une approche probabiliste basée sur des n-classes qui prend en compte les régularités d’une langue. En outre, la taille de ce type de modèle est tout à fait raisonnable pour une intégration dans des systèmes de faible capacité de type nomade. La portabilité de la méthode a permis de généraliser l’approche statistique à douze autres langues.
Un second axe de recherche, plus récent et développé dans le cadre du projet ATLANSTIC MIMEMA, s’intéresse à la reconnaissance de l’écriture manuscrite dégradée en-ligne de type SMS où un modèle de langage probabiliste est a priori peu adapté.

Reconnaissance des entités nommées
La reconnaissance des entités nommées est un problème qui se pose dans les différents domaines du TALN : veille technologique, indexation de textes ou bien encore traduction. Si cette reconnaissance a été convenablement réalisée en extraction d’information pour des textes journalistiques anglais, elle pose de nombreux problèmes pour le français, notamment lorsque l’on souhaite obtenir une catégorisation fine. Dans ce travail, réalisé dans le cadre de la thèse de Nordine Fourour, nous avons établi une catégorisation référentielle fine et stable ainsi qu’une catégorisation graphique exhaustive des entités nommées. Le système Nemesis a été développé pour identifier et catégoriser des entités nommées en s’appuyant sur des sources de connaissance interne (lexique de noms de personnes, de lieux…) et externe (web). D’un point de vue informatique, ce système repose sur l’utilisation de règles de réécriture définies manuellement ou obtenues par apprentissage.

Extraction d’information à partir de CV
Ce travail se situe dans l’optique de la construction d'un système informatisé de recherche de profils (individus ayant une expérience professionnelle) dans un ensemble distribué de sites de CV libres (sans forme définie). Dans le cadre de ce projet, nous nous intéressons plus particulièrement à l’extraction d’information à partir de CV en considérant ce dernier comme un objet visuel dont les propriétés visuelles sont directement exploitées par le lecteur lors de sa compréhension. Ces caractéristiques dispositionnelles représentent des éléments identitaires et structurelles importantes dans le CV et s’ajoutent aux caractéristiques lexicales, syntaxiques et typographiques traditionnellement exploitées en extraction d’informations à partir de textes.

Structuration de données terminologiques
Ce travail, qui est le plus ancien, porte sur l'identification de relations conceptuelles entre termes à partir de corpus de textes spécialisés. Il vise à développer des méthodes et des outils linguistiques qui représentent un enjeu décisif en acquisition et recherche d'informations et en constitution de bases de connaissances expertes ou terminologiques. Dans ce cadre, un premier axe de recherche consiste à identifier des productions langagières construites autour de termes simples ou complexes. Ces productions, qui peuvent s'exprimer sous la forme de schémas lexico-syntaxiques simples mais très diversifiés, permettent d’extraire des couples de termes à forte valeur conceptuelle. Un second axe de recherche s’intéresse à exploiter les relations extraites entre termes simples, par le précédent mécanisme, pour les étendre à des relations entre termes polylexicaux. Nous avons ainsi proposé un mécanisme de variation sémantique, à base de règles, qui s’appuie sur des variantes extraites de corpus pour proposer de nouvelles relations entre termes.

© 2006 Emmanuel Morin