Traitement automatique de la langue naturelle

(dernière mise à jour le 22 janvier 2014)

Thème 1 : Langues peu dotées

Thème 2 : Terminologie


Publications sur les langues peu dotées

2014
  • Enguehard, C. Mangeot, M. Favorisons la diversité linguistique en TAL. Journée d'étude de l'ATALA. "Ethique et Traitement Automatique des Langues". 22 novembre 2014. Paris.
      Nous montrons dans cet article la faible diversité linguistique en TAL et évoquons quelques raisons pour cet état de fait. Nous pensons enfin que, sur la base de ce constat, la communauté pourrait contribuer à remédier à ce problème en adoptant quelques règles simples.
      Dans la première partie, nous abordons la rareté et la faible qualité des ressources en ligne puis nous présentons la faible diversité linguistique des travaux en TAL à travers une étude sur les publications du domaine, ainsi que celle des dictionnaires et des systèmes de traduction automatique. Dans la deuxième partie, nous évoquons les besoins des locuteurs et des chercheurs en TAL. Dans la troisième partie, nous abordons certaines difficultés rencontrées lors de travaux sur les langues peu dotées. En conclusion, nous formulons des préconisations visant à augmenter la diversité linguistique du TAL.
  • Enguehard, C. Mangeot, M. DILAF : des dictionnaires africains en ligne et une méthodologie. Actes de l'atelier Traitement automatique des langues africaines "collecte et organisation de ressources linguistiques". Dakar. Sénégal. 22 novembre 2014.
      Après une présentation du projet DILAF, nous effectuerons une visite du site web puis évoquerons les grandes étapes de la méthodologie ainsi que leurs difficultés (par exemple, le maniement d'outils théoriques comme les expressions rationnelles). Nous évoquerons des stratégies favorisant le succès d'une mise en oeuvre de cette méthodologie, par exemple par la mise en place de stages d'étudiants en informatique.
  • 2013
  • Enguehard, C. Mangeot, M. LMF for a selection of African Languages. Chapter 7. in Gil Francopoulo (dir.), LMF: Lexical Markup Framework, theory and practice. Ed., Hermès science. Paris, France. 17 p. 2013.
      Electronic resources are scarce regarding less-resourced languages, so it is wise to take published dictionaries and convert them into a standard format usable by automated tools for natural language processing. We introduce the notion of less- resourced languages and then discuss the methodology of conversion that we have defned and implemented. The fourth part presents examples of conversion from the initial published format to the LMF format. The last part describes some diffculties encountered when representing certain information into LMF format.
  • Mangeot, M. Enguehard, C. Des dictionnaires éditoriaux aux représentations XML standardisées. Chapter 8. in Gala, Núria et Michael Zock (dir.), Ressources Lexicales: Contenu, construction, utilisation, évaluation. xii, 364 pp. (pp. 255-290). 2013.
      This paper presents theoretical and practical aspects concerning the conversion of publishing dictionaries to electronic lexical resources. It takes into account the issue of limited economic resources, technology and the availability of qualified persons. Our field experiments concerns under-resourced languages mainly in Southeast Asia (Khmer, Malay, Vietnamese) and the Sahel (Bambara, Hausa, Kanuri, Tamajaq, Zarma), as most of the examples and socio-linguistic situations described in the paper relate to these areas. After a brief history devoted to the formats of electronic dictionaries (SGML, XML, XSLT and CSS), we present two standards that are dedicated to them (Text Encoding Initiative and Lexical Markup Framework). The issue of under-resourced languages is exposed and is followed by some examples concerning published dictionaries. The main technical challenges are detailed like the lack of standardization of the alphabets used and special characters (outside the traditional latin range). The conversion methodology is outlined and then detailed. The conversion to a bridge format in XML can be done by regular expressions or using specialized tools. Then, the bridge format is converted into the target format in LMF. The last part is dedicated to the consultation of resources through an online platform resource management.
  • 2012
  • Enguehard, C. Kané, S. Mangeot, M. Modi, I. Sanogo, M.L. Modi, I. Vers l'informatisation de quelques langues d'Afrique de l'Ouest. JEP-TALN-RECITAL 2012, Atelier TALAf 2012: Traitement Automatique des Langues Africaines, p.27-40 (juin 2012).
      Nous présentons le projet DiLAF (Dictionnaires Langues Africaines Français) qui vise à convertir des dictionnaires éditoriaux bilingues en un format XML permettant leur pérennisation et leur partage. Ceux-ci seront gérés par la plateforme Jibiki. Nous effectuons un bilan quant à la présence des caractères des langues sur lesquelles nous travaillons (bambara, haoussa, kanouri, so?ay zarma, tamajaq) au sein d'Unicode. Nous observons aussi la situation particulières des caractères tifinaghes.
  • 2011
  • Mangeot, M. Enguehard, C. Informatisation de dictionnaires langues africaines-français. Actes des journées LTT 2011, Villetaneuse, 15-16 septembre 2011.
      Cet article présente des travaux réalisés dans le cadre du projet DiLAF qui vise à informatiser des dictionnaires langues africaines-français (bambara, haoussa, kanouri, tamajaq, songhai-zarma) afin de pouvoir les diffuser plus largement et étendre leur couverture. Nous présentons une méthodologie de récupération de dictionnaires au format .doc et leur conversion dans un format XML structuré suivant les standards du domaine comme Unicode et Lexical Markup Framework. Cette méthodologie se veut simple et compréhensible par un linguiste sachant manipuler les expressions régulières. Les outils nécessaires sont gratuits, en source ouverte et multi-plate-formes. La méthode décrite est suffisamment générique pour être appliquée sur des dictionnaires d'autres langues, voire toute ressource textuelle.
  • Enguehard, C. Kané, S. Mangeot, M. Modi, I. Sanogo, M.L. Vers l'informatisation de quelques langues d'Afrique de l'Ouest. 4ème atelier international sur l'amazighe et les TICs 'Les ressources langagières: construction et exploitation' ntic2011. Rabat, Maroc. 24 et 25 février 2011.
      Nous présentons le projet DiLAF (Dictionnaires Langues Africaines Français) qui vise à convertir des dictionnaires éditoriaux bilingues en un format XML permettant leur pérennisation et leur partage. Ceux-ci seront gérés par la plateforme Jibiki. Nous effectuons un bilan quant à la présence des caractères des langues sur lesquelles nous travaillons (bambara, haoussa, kanouri, so?ay zarma, tamajaq) au sein d'Unicode. Nous observons aussi la situation particulières des caractères tifinaghes.
  • 2010
  • Modi, I. Enguehard. C. Vers un dictionnaire électronique de la langue tamajaq au Niger. Workshop international sur la dictionnairique des langues de moindre diffusion (le cas du tamazight), Tipaza : Algérie (2010).
  • 2009
  • Enguehard, C. Les langues d'Afrique de l'Ouest : de l'imprimante au traitement automatique des langues. Sciences et Techniques du Langage, 6, p.29-50, 2009. (ISSN 0850-3923)
      Les langues africaines sont peu présentes sur la toile et leur équipement électronique est insuffisant, tant en ce qui concerne leur facilité d'usage que la production et la mise à disposition de ressources linguistiques. Cette situation peut être en partie expliquée par l'histoire des codages des caractères puisque les caractères spéciaux des langues africaines à base latine étaient absents des premiers codages, ce qui a amené à développer des polices locales. Ces caractères sont maintenant présents dans le standard international Unicode. De nouveaux outils, tels les claviers virtuels, permettent de saisir des textes tout en respectant ce standard international, et donc en bénéficiant de l'usage d'outils informatiques adaptés. Cette évolution permet d'envisager le développement d'outils de Traitement Automatique des Langues Naturelles comme les correcteurs orthographiques, ou encore la synthèse de parole, grâce à la constitution de ressources linguistiques informatisées. Cette progression nécessite une révolution des pratiques des auteurs de textes (institutions, journalistes, écrivains, etc.) que peut favoriser la prise de conscience des bénéfices potentiels. Les chercheurs en informatique linguistique doivent également intégrer ces changements, ce que peut faciliter le travail en réseau et les rencontres virtuelles sur les forum spécialisés.
      Cet article se conclut par une annexe pratique énonçant les codes des caractères des alphabets de six langues du Sénégal (joola, malinké, pulaar, sereer, soninke, wolof) ainsi que les appuis de touches permettant de les obtenir à l'aide du clavier virtuel AFRO.
  • Enguehard, C., Modi I. Towards an electronic dictionary of Tamajaq language in Niger. 12th Conference of the European Chapter of the Association for Computational Linguistics EACL-09. W07 Workshop Language Technologies for African Languages. Athens, Greece, 31 March 2009.
      We present the Tamajaq language and the dictionary we used as main linguistic resource in the two first parts. The third part details the complex morphology of this language. In the part 4 we describe the conversion of the dictionary into electronic form, the inflectional rules we wrote and their implementation in the Nooj software. Finally we present a plan for our future work.
  • Enguehard, C. Modi, I. Premiers pas vers un dictionnaire électronique du tamajaq au Niger. NOOJ 2009. Tozeur, Tunisie, 8-10 juin 2009.
  • 2008
  • Enguehard, C., Naroua, H. Evaluation of virtual keyboards for West-African languages. International conference on Language Resources and Evaluation LREC 2008, Marrakech, Maroc, 28-30 mai 2008.
      West African languages are written with alphabets that comprize non classical Latin characters. It is possible to design virtual keyboards which allow the writing of such special characters with a combination of keys. During the last decade, many different virtual keyboards had been created, without any standardization to fix the correspondence between each character and the keys to press to obtain it. We define a grid to evaluate such keyboards and apply it to five virtual keyboards in relation with the five main languages of Niger (Fulfulde, Hausa, Kanuri, Songhai-Zarma, Tamashek), Bambara and Soninke from Mali and Dyoula from Burkina Faso. We conclude that the African LLACAN keyboard should be recommended in Niger because it covers all the characters used in the alphabets of the main languages of this country, it produces valid Unicode codes and it minimizes the number of keys to be pressed.
  • 2005
  • Enguehard, C. Spelling correctors to improve production and diffusion of linguistic knowledge. 9 pages, 27th Internationalization and Unicode Conference, workshop "Unicode and Language Support in Francophone Africa", Berlin, Germany, April 6-8, 2005.
  • Enguehard, C. Des correcteurs orthographiques pour collecter et diffuser des connaissances linguistiques en Afrique subsaharienne. 9 pages, 27th Internationalization and Unicode Conference, atelier "Unicode and Language Support in Francophone Africa", Berlin, Germany, April 6-8, 2005.
  • 2004
  • Enguehard, C. Mbodj, C. Des correcteurs orthographiques pour les langues africaines. BULAG, BUlletin de Linguistique Appliquée et Générale, n° 29 "La correction automatique : bilan et perspectives". p.51-68, 2004.
      The recent history of the west-African languages and the lack of technical, economical development of the involved countries have considerably hindered their electronic development, with the consequences of the massive analphabetism of the population. An adjusted software environment could help for the compilation and distribution of linguistic knowledge. We plan the development of such a software and detail the first steps of this project.
  • Enguehard, C. Kané, S. Langues africaines et communication électronique : développement de correcteurs orthographiques. Premières Journées scientifiques communes des réseaux de chercheurs concernant la langue, ed. Agence universitaire de la Francophonie, Ouagadougou (Burkina Faso), p. 57-75, 31 mai-1er juin 2004.
  • 2003
  • Enguehard, C. Mbodj, C. Flore : un site coopératif pour recueillir et diffuser les noms des plantes dans les langues africaines. Les cahiers du RIFAL, n°23 "Le traitement informatique des langues africaines", pp.47-54, novembre 2003.
      Les travaux que nous présentons s'inscrivent dans une problèmatique de sauvegarde des langues pour lesquelles il existe peu de ressources linguistiques comme les dictionnaires ou les lexiques. La rareté de ces ouvrages de référence fragilise ces langues car elle favorise la multiplication d'écrits incorrects, c'est-à-dire non conformes aux décrets de transcription officiels en vigueur. Nous considérons que la constitution de ressources lexicales électroniques via le réseau internet représente une solution viable. D'une part elle permet de fédérer les travaux de chercheurs géographiquement éloignés. D'autre part elle facilite la diffusion des connaissances puisque celles-ci sont visibles par n'importe quel internaute.
      Le site Flore s'inscrit dans ce cadre. Il est spécialisé dans les noms des plantes. La définition précise des informations stockées sur ce site par les partenaires du projet (informaticiens, linguistes et ethnobotanistes) nous a amené à dépasser l'objectif initial et à ajouter la description botanique des plantes ainsi que leurs utilisations. Cette extension a abouti à la définition de stratégies de coopération entre les personnes de différentes compétences susceptibles de fournir de nouvelles informations au site (linguistes, botanistes, nutritionistes, etc.). Nous présentons les problèmes techniques rencontrés lors du développement qui font obstacle à l'informatisation des langues africaines : il s'agit des caractères spéciaux spécifiques à ces langues et inexistants sur les claviers courants et dans les polices de caractères courantes. Enfin nous explorons les multiples extensions envisageables, telles la mise en service d'un forum de discussion réservé aux contributeurs du site ou l'édition de son contenu dans un format facilitant le partage des données : XML.
  • 2000
  • Daille, B. Enguehard, C. Jacquin, C. Raharinirina, R.L. Ralalaoherivony, B.S. and Lehman, C. Traitement automatique de la terminologie en langue malgache. in Ressources et évaluation en ingénierie des langues, pp. 225--242, Karim Chibout and Joseph Mariani and Nicolas Masson and Françoise Néel eds.,collection Actualité scientifique - Universités Francophones, ISBN 2-8011-1258-5, 2000.
  • 1997
  • Daille, B. Enguehard, C. Jacquin, C. Lehmann, C. Rabaovololona, S. Ralalaoherivony, B. Traitement automatique de la terminologie en langue naturelle. 1ères JST 1997 FRANCIL de l'AUPELF-UREF, pp.561-566, 15-16 avril 1997, Avignon, France.

  • Publications sur la terminologie

    2012
  • Sanou, M. Jean, A., Marjolet, M. Pécaud, D. Yunsan, M. Enguehard, C. Moret, L. Emane, A. Conventional medical attitudes to using a traditional medicine vodou_based model of pain management: survey of French dentists and the proposal of a pain model to facilitate integration. Journal of Chiropratic Humanities, Elsevier, 12 pages, 2012.
  • Sanou, M. Jean, A., Marjolet, M. Pécaud, D. Yunsan, M. Enguehard, C. Moret, L. Emane, A. Le concept de Médecine Associée pour une intégration des connaissances de la médecine traditionnelle et de la médecine conventionnelle. 23es journées francophones d'ingénierie des connaissances, IC2012 (poster), 3 pages, Paris, 25-29 juin 2012.
  • 2005
  • Enguehard, C. Terminology. in Quantitative Linguistics. p.971-988, Editors : Bagriel Altman, Reinhard Köhler, Rajmund G. Piotrowski. Walter de Gruyter, Berlin, New York, 2005.
  • Pinot, G. Enguehard, C. Spelling correction in context. Int. conf. RANLP 2005, p. 392-396, Borovers, Bulgaria, september 2005.
  • 2004
  • Carl, M., Hernandez, M., Preuß, S., Enguehard, C. English Terminology in CLAT. Workshop on Computational and Computer-Assisted Terminology, Lisbon, Portugal, 25th May, 2004.
  • 2003
  • Enguehard, C. CoRRecT : Démarche coopérative pour l'évaluation de systèmes de reconnaissance de termes. TALN 2003 (poster), p.339-345, Batz-sur-mer, France, 11-14 juin 2003.
      La reconnaissance de termes dans les textes intervient dans de nombreux domaines du Traitement Automatique des Langues Naturelles, qu'il s'agisse d'indexation automatique, de traduction, ou d'extraction de connaissances. Nous présentons une méthodologie d'évaluation de Systèmes de Reconnaissance de Termes (SRT) qui vise à minimiser le temps d'expertise des spécialistes en faisant coopérer des SRT. La méthodologie est mise en oeuvre sur des textes en anglais dans le domaine de la chimie des métaux et à l'aide de deux SRT : FASTR et SYRETE. Le banc de test construit selon cette méthodologie a permis de valider les SRT et d'évaluer leurs performances en termes de rappel et de précision.
      Recognizing terms in texts is useful in many Natural Language Processing applications : automatic indexation, summarization, translation, or knowledge extraction. We present a new methodology to evaluate Term Recognition Systems (TRS) so as to minimize the time required by experts to evaluate the results. This is done by making several TRS cooperate. This methodology is applied on English texts on metal chemistry with two systems : FASTR and SYRETE. The test bank we compiled evaluated the two systems and calculated the recall and precision rates.
  • Even, F., Enguehard, C. Specific Domain Model Building for Information Extraction from poor quality corpus. Proceedings of the EUROLAN'03 Workshop on Ontologies and Information Extraction. p.3-9, Bucharest, Romania. 2003.
      This article presents an automatic information extraction method from poor quality specific-domain corpora. This method is based on building a semi-formal ontology in order to model information present in the corpus and its relation. This approach takes place in four steps: corpus normalization by a correcting process, ontology building from texts and external knowledge, model formalization in grammar and the information extraction itself, which is made by a tagging process using grammar rules. After a description of the different stages of our method, experimentation on a French bank corpus is presented.
  • 2002
  • Even, F., Enguehard, C. Extraction d'informations à partir de corpus dégradés. TALN-2002, Nancy, p.105-114. 2002.
      Nous présentons une méthode automatique d'extraction d'information à partir d'un corpus mono-domaine de mauvaise qualité, sur lequel il est impossible d'appliquer les méthodes classiques de traitement de la langue naturelle. Cette approche se fonde sur la construction d'une ontologie semi-formelle (modélisant les informations contenues dans le corpus et les relations entre elles). Notre méthode se déroule en trois phases : 1) la normalisation du corpus, 2) la construction de l'ontologie, et 3) sa formalisation sous la forme d'une grammaire. L'extraction d'information à proprement parler exploite un étiquetage utilisant les règles définies par la grammaire. Nous illustrons notre démarche d'une application sur un corpus bancaire.
      We present an information extraction automatic method from poor quality specific-domain corpus (with which it is impossible to apply classical natural language methods). This approach is based on building a semi-formal ontology in order to modelise information present in the corpus and their relation. Our method happens in three stage : 1) corpus normalisation, 2) ontology building and 3) model formalisation in grammar. The information extraction itself is made by a tagging process using grammar rules. We illustrate our approach by an application working on a bank corpus.
  • Enguehard, C., Daille, B., Morin, E. Tools for Terminology Processing. The Indo-European Conference on Multilingual Communications Technologies (IEMCT), R. K. Arora, M. Kulkarni, H. Darbari (editors), ISBN 0-07-048343-4, Tata McGraw-Hill, p.218-229, Pune, India, June 2002.
  • Enguehard, C. Un banc de test pour la reconnaissance de termes en corpus. Journées de Linguistique de Corpus JLC-2002. Lorient, Septembre 2002.
  • 2001
  • Enguehard, C. Apprentissage de schémas lexicaux pour l'acquisition de candidats-termes. A3CTE (Applications, Apprentissages et Acquisition de Connaissances à partir de Textes Electroniques), RFIA'2001, p.17-25, Grenoble, 2001.
  • 2000
  • Enguehard, C. Supple equality of terms. Proceedings of the International Conference on Artificial Intelligence, IC-AI'2000, pp.1239-1245, ed. H. R. Arabnia, Las Vegas, Nevada, USA, June 26-29 2000.
  • Enguehard, C. Flexible-equality of terms: definition and evaluation. in Henrik L. Larsen, Janusz Kacprzyk, Slawonir Zadrozny, Troels Andreasen, et Henning Christiansen, réds. Proceedings of the International Conference on Flexible Query Answering Systems. ISBN 3-7908-1347-8, p.289-300, 2000.
  • 1997
  • Enguehard, C., Rampon, J.-X. Quelques éléments d'algorithmique des graphes pour l'aide à la conception et à la validation de techniques d'extraction de connaissances langagières. in Organisation des connaissances en vue de leur intégration dans les systèmes de représentation et de recherche d'information, collection UL3, Université Charles de Gaulle, octobre 1997, Lille, France.
  • 1995
  • Enguehard, C. Pantéra, L. Automatic Natural Acquisition of a Terminology. Journal of quantitative linguistics. vol.2, n°1, pp.27-32, 1995.
  • 1994
  • Enguehard, C. Pantéra, L. Automatic Natural Acquisition of a Terminology. Second Quantitative Linguistics Conference, Qualico 94, Moscou, pp.83-88, septembre 1994.
  • Enguehard, C. Acquisition of a Terminology from Colloquial Texts. Computational Linguistics for Speech and Handwriting Recognition, CLSHR, Leeds, England, April, 1994.
  • 1993
  • Enguehard, C. Acquisition de terminologie à partir de gros corpus. Informatique & Langue Naturelle, ILN'93, Nantes, p. 373-384, décembre 1993.
      L'acquisition automatique de la terminologie d'un domaine est un axe de recherche important en traitement de la langue naturelle, particulièrement dans le cadre de l'indexation automatique de textes et pour la génération de textes où la connaissance de structures idiomatiques est essentielle. Le système ANA (Apprentissage Naturel Automatique) constitue une nouvelle approche pour l'acquisition automatique de terminologie. Ce système est directement inspiré par l'apprentissage humain de la langue maternelle. D'une part, nous avons tenté de modéliser la capacité humaine à reconnaître des informations dont la morphologie varie alors que leur sémantique reste sensiblement la même. D'autre part, nous avons également représenté les processus d'induction et de généralisation.
  • 1992
  • Enguehard, C. ANA, Acquisition Naturelle Automatique d'un réseau sémantique. Thèse de Doctorat de l'Université de Technologie de Compiègne, décembre, 1992.
  • Enguehard, C., Malvache, P., Trigano, P. Indexation de textes : l'apprentissage de concepts. International Conference on Computational Linguistics, COLING'92. p.1197-1202, Nantes, France, 1992.
      In technical fields, many documents go unread due to a lack of awareness of their existence. A system which indexes texts can find all relevant texts in response to a query. The problem is to establish the indexation. At present, advanced full text systems automatically index texts on the complete thesaurus with computed weights. Another way of doing this can be a person choosing the set of relevant concepts. This second solution is better but more costly and dependent on the classification choices made by the operator.
      To meet these problems, ANA (Automatic Natural Acquisition) had been developed. This system automatically extracts relevant concepts from free texts to produce a semantic network. It does not rely on grammar or lexicon but, instead, is based on an original statistical method.
      This research brings about two developments : on one hand the system is also capable of extracting the simple grammatical structures it encounters, most often in order to improve its performance, and on the other hand this will lead to an automatic definition of semantic classes of concepts, in order to structure the network.
  • Enguehard, C., Malvache, P., Trigano, P. Automatic natural acquisition of a semantic network for information retrieval systems. Proc. SPIE 1707, Applications of Artificial Intelligence X: Knowledge-Based Systems, 299 (March 1, 1992); doi:10.1117/12.56895.