«

»

Les vocabulaires contrôlés et thésaurus : les travaux de l’équipe du Sceren -CNDP

In : Compte rendu du Comité fuscia du 19 janvier 2012 (intranet)

Intervenants : Rosa Maria Gómez de Regil, François Feyler, Laëtitia Cordeau, Marie Müller, Michel Ganguillin, Dominique Bonnaud

Rosa Maria Gómez de Regil, est chargée de recherche et de développement sur la gestion du document numérique.
L’ensemble de l’équipe présente leurs activités concernant les vocabulaires contrôlés et les thésaurus réalisés par le CNDP. Tous les vocabulaires du CNDP sont gérés par l’outil ITM-T3 de la societé Mondeca
Focus sur quelques-uns de leurs travaux :

  • F. Feyler : travaille à la prise en compte des relations entre concepts et termes, à l’évolution de la normalisation des thésaurus et de leur interopérabilité avec d’autres langages controlés (normes SKOS et ISO 25964) et sur otaren , outil developpé par le CNDP pour assurer les équivalences et la mise en correspondance entre les différents langages contrôlés lire son article sur le sujet
  • Le thésaurus Motbis sert de base à l’ensemble des thésaurus mais il existe aussi des thésaurus appliqués et spécialisés
  • Michel Ganguillin, Dominique Bonnaud pour le projet SILO (science info Lycée ) :
    • pour le SILO où sont indexées des ressources pédagogiques pertinentes pour l’enseignement de l’informatique au lycée, réalisation d’un vocabulaire d’informatique (2500 termes) géré dans une liste structurée de mots-clés.
    • L’utilisation d’un wiki a limité les ambitions quant à la réalisation d’un thésaurus : travail de lissage du vocabulaire et de structuration – pas de gestion d’autopostage. Le travail a été pragmatique, en adéquation avec un besoin très précis : référencement « en urgence » de ressources dans le SILO. (500 ressources). Les mots-clés spécifiques à l’informatique se sont avérés être insuffisants et il a fallu rajouter pour l’indexation du vocabulaire encyclopédique avec des termes plus larges (noms propres, nom de pays, etc.)

Une discussion s’engage sur les spécificités des lexiques et vocabulaires de l’informatique : quels sont les vocabulaires de références ?

au niveau recherche scientifique, les chercheurs Inria utilisent plutôt les grandes classifications internationales, l’ACM côté informatique et AMS [1] pour les mathématiques. Côté documentalistes, à l’ Inria, l’indexation est un mixte avec du lexique de termes controlés « maison » puis l’utilisation de Rameau (quand l’Inria a rejoint le réseau du Sudoc)
hiatus entre vocabulaires chercheurs / vocabulaires professionnels
problème des concepts émergents et des pseudo-concepts
passerelles à faire entre les concepts issus des classifications avec les thesaurus

SemUnit : utilisation des ontologies pour l’interopérabilité entre les systèmes d’organisation des connaissances
liens entre les vocabulaires spécialisés et les ontologies ? : la future norme ISO est consacrée à la question de l’interopérabilité entre thésaurus specialisés et vocabulaires controlés
Problème de l’interopérabilité des UNT : le web semantique devrait apporter une solution et il est important que les modèles de données prévoient leur interconnexion grâce à SKOS.
Besoin de construire des équivalences entre vocabulaires controlés et indexation plein texte : les vocabulaires avec équivalences évitent les réindexations coûteuses et permet de refaire de l’indexation a posteriori « automatiquement »
Question de l’adaptation des requêtes utilisateurs aux langages controlés : utiliser les outils de traitement du langage naturel pour les coupler avec ceux des langages controlés
l’Analyse des requêtes donne des résultats décevants quant à la constitution ou l’évolution des lexiques terminologiques.
la recherche en langage naturel : le logiciel TILT utilisé par orange, en collaboration avec plusieurs projets de recherche Inria

les thesaurus et lexiques du CNDP et le web des données:la question est étudiée, le web des données ne serait-il pas un avatar du web sémantique ?

l’Open University publie déjà ses données ouvertes éducatives sur le web

Le CNDP a pour projet de réaliser un sub-thésaurus informatique en partant de Motbis et en tenant compte du travail fait pour SILO.

Le projet fuscia est le bon interlocuteur pour apporter une aide dans ce travail. Il est très intéressant à cet effet que le CNDP prenne connaissance du travail de Yolaine Bourda et de son stagiaire, Yoann Isaac, fondé sur une ontologie de SupLOMFR.

En conclusion, il y a grand intêrét de coordonner les initiatives des UNT avec le CNDP et de travailler en collaboration.

Lien Permanent pour cet article : https://fuscia.info/les-vocabulaires-controles-et-thesaurus-les-travaux-de-lequipe-du-sceren-cndp/