- Thésaurus
-
Un thésaurus, thésaurus de descripteurs ou thésaurus documentaire[1], est une liste organisée de termes représentant les concepts d'un domaine de la connaissance.
C'est un langage contrôlé utilisé pour l'indexation et la recherche de ressources documentaires dans des applications informatiques spécialisées, d'où le nom de 'langage documentaire'. Les termes (dans l'exemple ci-dessous : véhicule, navire,...) sont reliés entre eux par des relations de synonymie (terme équivalent), de hiérarchie (terme générique et terme spécifique) et d'association (terme associé); chaque terme appartient à une catégorie ou domaine.Nous pouvons citer, Motbis, le thésaurus édité par le Ministère de l'Éducation nationale en France dans le domaine de l'enseignement général.
-
- Concept/Terme préférentiel
-
- véhicule
-
- Domaines
-
- 3330 Véhicule - transport
-
- Terme équivalent
-
- moyen de transport
-
- Terme générique
-
- (aucun)
-
- Terme spécifique
-
- navire
- véhicule aérien
- véhicule amphibie
- véhicule militaire
- véhicule spatial
- véhicule terrestre
- Termes associés
- métier : transport [MT 6005]
- technique automobile [MT 3510]
- transport [MT 3330]
- Extrait de Motbis, 2011
-
- Concept/Terme préférentiel
Sommaire
Introduction
Le thésaurus est un outil linguistique qui permet de mettre en relation le langage naturel des utilisateurs et celui contenu dans les ressources. Cette technique pallie les limites du langage naturel, très riche mais aussi souvent ambigu. Le thésaurus évite ainsi les risques induits par les synonymies, les homonymies et les polysémies présentes dans le langage naturel. Contrairement à un dictionnaire auquel il est souvent rapproché, un thésaurus ne fournit qu'accessoirement des définitions, les relations des termes et leur sélection l'emportant sur la description des significations.
Par exemple un thésaurus reliant récolte à culture et céréale, et France à Europe, permettra pour une question portant sur la récolte du blé en France de trouver des ressources indexées avec culture céréale Europe.
Les thésaurus documentaires suivent des principes de construction établis depuis les années 1970 dans une norme internationale, dont la dernière édition est en cours de publication à l'ISO [2]. Avec l'élaboration de normes et d'applications informatiques spécialisées, comme dans le domaine voisin des ontologies, une convergence des problématiques (ressources, hiérarchie, réutilisation, etc.) a rapproché les thésaurus des ontologies.
Étymologie, orthographe et histoire
Thésaurus en latin veut dire recueil, répertoire. Il a donné naissance au dictionnaire "thesaurus linguae latinae" de Robert Estienne.
Les thésaurus prennent de l’importance par l’informatisation dès les années 1990. C’est un système de recherche privilégié notamment en raison de l’utilisation des opérateurs booléens qui permet alors de faire des équations logiques de recherche.
Les deux orthographes thesaurus et thésaurus sont admises par les dictionnaires : la première est un xénisme qui reprend directement la forme latine, la seconde en est une francisation et semble la plus fréquente dans la littérature. Le pluriel latin thesauri est quelquefois employé, mais passe pour une forme désuète ou un anglicisme (l'anglais employant le pluriel latin). La cohérence veut qu'on écrive soit un thesaurus, des thesauri, soit un thésaurus, des thésaurus.
Outil d'indexation et outil de recherche
Un thésaurus est un type particulier de langage documentaire. Il est constitué d'un ensemble structuré de concepts représentés par des termes, pouvant être utilisés pour l'indexation de documents dans une banque de données bibliographiques ou dans un catalogue de centre de documentation, à des fins de recherche documentaire. L'utilisation du thésaurus permet de pallier les imperfections du langage naturel dans un but d'indexation. Le langage naturel, soit notre langage quotidien, contient de nombreux soucis de polysémie et de synonymie. Le thésaurus est un outil d'indexation combinatoire à vocabulaire contrôlé c'est-à-dire que les termes qui le constituent sont sélectionnés et ne peuvent être modifiés (sauf lors des mises à jour). Il est post coordonné car les descripteurs définissant les concepts peuvent être combinés ou associés a postériori lors de la recherche d'information. L'indexation en langage documentaire grâce au thésaurus permet une homogénéité du mode d'indexation qui ne dépend alors plus de la culture de l'indexeur. Le thésaurus est utilisé à l'entrée et la sortie de la chaîne documentaire c'est-à-dire lors de la phase d'indexation et lors de la phase d'interrogation par l'usager. La capacité de recherche via le thésaurus est importante puisque ce dernier utilise un langage combinatoire qui associe et recoupe les mots de la recherche pour optimiser l'obtention de résultats.
Trois types de termes composent un thésaurus :
- Les descripteurs utilisés pour indexer un document, il s'agit de l'ensemble des mots autorisés pour indexer.
- Les non-descripteurs qui par convention ne peuvent pas être employés pour indexer un document, et qui renvoient au descripteur à utiliser. Ils sont utilisés à la recherche.
- Les mots outils : ce sont des descripteurs qui ne peuvent être utilisés seuls (exemple : méthode). Ils sont coordonnés avec au moins un autre descripteur.
Pour l'utilisateur d'un catalogue électronique ou d'une base de données bibliographique, le thésaurus peut constituer un instrument de recherche. D'ailleurs il y a différents types de recherche. On peut procéder à une recherche hiérarchique consistant à parcourir le thésaurus en suivant son arborescence : on va du plus général au plus particulier. Il y a également la recherche par termes. On part des termes pour parcourir le reste du thésaurus
Relations entre les concepts et les termes
Un thésaurus a une double organisation : entre concepts et entre termes représentant ces concepts
Relations entre concepts
Les relations entre concepts sont de trois types :
- Relation hiérarchique stricto sensu, base de la hiérarchie du thésaurus. Elles sont représentées par les sigles TG (terme générique) et TS (termes spécifiques).
- Cette hiérarchie permet de régler la précision de l'indexation ou de l'interrogation. L'indexation s'appuiera autant que possible sur l'identification des termes spécifiques (donc du niveau le plus bas possible), alors que la recherche selon les cas pourra faire appel aux termes génériques pour augmenter le nombre de réponses.
- Cette relation s'appuie sur :
- Des concepts génériques repérés par le sigle TG. Ils désignent les entités ou concepts généraux en référence aux autres concepts et au domaine considéré.
- Des concepts spécifiques repérés par le sigle TS. Ils précisent et identifient les entités ou concepts plus précis à l'intérieur du champ sémantique d'un terme générique donné.
- Relation d'association enrichissant le réseau de relations hiérarchiques selon d'autres axes de type sujets connexes. Ces relations peuvent être de nature très variée : causalité, localisation, relations de nature temporelle, composition, etc.
- Les relations d'association sont représentées par le sigle TA (terme associé). Ces relations entre concepts permettent au chercheur de modifier progressivement son interrogation ou de l'élargir sur d'autres bases que la relation hiérarchique.
- Appartenance à un "groupe de concepts
- Il est courant de sélectionner et regrouper des concepts selon un critère spécifique, tels que leur pertinence à un domaine particulier. Ces regroupements de concepts sont appelés suivant les contextes : thèmes, domaines, champs sémantiques, microthésaurus.
Relations entre les termes représentant les concepts
Les relations d'équivalence entre termes représentant un même concept permettent de lutter contre la polysémie. La nouvelle norme ISO 25964-1:2011 désigne parmi l'ensemble des termes pouvant représenter un même concept : un terme préférentiel (descripteur) et des termes non-préférentiels (non-descripteurs), base de l'univocité du concept. Cette relation est représentée par le sigle EP (abréviation d'"Employé Pour"). La relation inverse des termes non-préférentiels vers le terme préférentiel est représentée par le sigle EM (abréviation d'"Employer")
Ce sont des variantes des termes spécifiques (synonymie ou quasi-synonymie) considéré comme "équivalent" dans le langage courant, ou des termes représentant des concepts assez proches pour être considérés comme "équivalent" pour le dispositifs d'accès à l'information.
Autres attributs
Divers types de relations, rubriques ou attributs complémentaires peuvent être adjoints à cette structure pour enrichir le thésaurus ou améliorer son usage. Citons en particulier différents types de notes : notes d'emploi (ou explicative ou d'application) qui définissent ou clarifient le périmètre sémantique d'un concept, notes de définition, notes utiles aux gestionnaires,... On peut également prévoir des « équivalents linguistiques » des concepts pour des thésaurus multilingues, ainsi que des passerelles avec d'autres thésaurus du même domaine ou de domaines différents.
Constitution d'un thésaurus
Un thésaurus s'élabore, soit manuellement par la voie d'une personne ou de plusieurs, grâce à une intelligence humaine (l'élaboration d'un thésaurus de 3 000 descripteurs par une seule personne peut prendre six à huit mois), soit de manière automatique, par le biais de l'intelligence artificielle, grâce à des logiciels de construction automatique de thésaurus du type du SATO (Système d'analyse de textes par ordinateur), soit par un mélange de l'approche humaine et automatique. Des systèmes de traitement automatique de textes (indexation automatique) permettent l'extraction des termes les plus fréquents d'un corpus et dans une certaine mesure facilitent l'émergence de leurs relations sémantiques. Ces infos-logiciels utilisent également des outils linguistiques de reconnaissance morpholexicale et syntaxique. D'après G. Salton, Luhn[3] et Mooers furent les premiers à envisager le remplacement des indexeurs par la machine et de l'intelligence humaine par l'intelligence artificielle par exemple grâce à l'analyse de la fréquence des mots clefs (CRANFIELD II, SMART Information Retrieval System, pertinence, relevance), ce qui entraîna le courant de la génération automatique de thesaurus par exemple le NCI_Metathesaurus[4] grâce à des logiciels spécialisés tels chez I.B.M. THESAUT-TP (création automatique d’un thésaurus à partir de profils ou questions documentaires) qui est un logiciel de traitement linguistique d’aide à l’interrogation ou TLS (Thesaurus and Linguistic System) qui avec le programme THES, permet la création et la consultation de thésaurus pour enrichir une question[5],[6]. Elle est à relier alors à l'indexation automatique de documents. Il s'agit d'un vocabulaire contrôlé puisqu'il résulte d'un long processus de tri des mots, appellations et expressions utilisés dans un domaine particulier. Il s'agit d'une démarche pragmatique et continue de rationalisation des termes descriptifs. Il existe trois méthodes de constitution d'un thésaurus :
- analytique (a priori) : à partir des mots clefs de l'indexation ;
- synthétique (a posteriori) : à partir de listes de mots-clef préétablies à l'aide de dictionnaires, lexiques, glossaires etc.
- mixte.
Ces méthodes portent parfois d'autres noms, comme méthode « stalactitique » et « stalagmitique » (D. Sörgel) [7],[8],[9]. En vue de la meilleure adéquation au domaine considéré, les termes sont inventoriés, comparés, mis en relation et finalement hiérarchisés pour rendre compte des traits essentiels du domaine. Cette hiérarchie s'appuie sur une typologie : chaque terme appartient à une catégorie qui le situe par rapport à tous les autres termes retenus et qui fixe de cette manière sa priorité d'emploi. La hiérarchie des termes peut tout-à-fait être différente d'un thésaurus à un autre et même sous réserve d'incohérence dans un usage ou un autre du même thésaurus.
Finalement, en partant du niveau le plus haut et correspondant au domaine du thésaurus, on trouve d'abord les subdivisions majeures représentant les composantes du domaine - subdivisions souvent nommés microthesaurus[10]. Un exemple de thésaurus formé d'un ensemble de microthésaurus, puis pour chaque subdivision, la hiérarchie propre aux descripteurs. Dans le thésaurus à schémas fléchés (ex. Thésaurus du Management), il y a une structuration en champs sémantiques, chacun constitue un ensemble de 30 à 40 descripteurs définis par un mot clef titre placé au centre de la grille. Un thésaurus peut aussi concerner plusieurs domaines, comme cela est le cas d'un macrothésaurus (exemple : Thésaurus de l'OCDE)[11]. Un thésaurus sectoriel est spécialisé lui dans un seul domaine spécifique de la connaissance (exemple : Thésaurus de la Formation).
Il demeure toujours une dimension arbitraire dans la hiérarchie d'un thésaurus, soit dans le choix des termes, soit dans leur position hiérarchique.
Il existe différentes normes pour l'élaboration des thésaurus[12]. Lire aussi le numéro spécial de la revue Documentaliste de l'ADBS[13].
- ISO 25964-1 : Thésaurus et interopérabilité avec d’autres vocabulaires[14]
Ce projet de norme en cours de finalisation remplace les deux anciennes normes : ISO 2788-1986 : Principes directeurs pour l'établissement et le développement des thésaurus monolingues, et ISO 5964-1985 : Principes directeurs pour l'établissement et le développement des thésaurus multilingues.
- SKOS : Spécification en langage RDF développé par le W3C, pour la publication et l'utilisation des thésaurus dans le cadre du Web sémantique.
- Normes anglaises : BS 8723 : 2005. Structured vocabularies for information retrieval, adaptation anglaise de la norme ISO 2788.
- Normes americaines : ANSI/NISO Z39-19:2005, Controlled vocabularies (pdf) [15].
Exemple de thésaurus élémentaire
Soient les rubriques principales d'un micro-thesaurus sur un système informatique collaboratif :
- Individus
- Logiciel
- Réseau
- Ressources
La rubrique Individus se composerait par exemple de :
- Lecteur (TG) ;
- Participant (TG) ; Auteur (EP) ; Contributeur (EP) ;
- Éditeur non-inscrit (TS) ; Anonyme (EP) ; Adresse IP (forme métaphorique à éviter) ;
- Éditeur inscrit (TS) ;
- Participant mandaté (TG) ;
- Administrateur (TS) ; Sysop (terme usuel dans la communauté) ;
- Gestionnaire (TS) ;
- Représentant (TS) (chargé des relations extérieures) ;
- Utilisateur (terme imprécis : à proscrire) ; Internaute (imprécis : à proscrire).
Le responsable de toute contribution pourrait ainsi être spécifié par au moins un terme descriptif choisi parmi les cinq termes spécifiques (TS) ou parmi les trois termes génériques (TG), selon les besoins. Les termes (EP) seront par principe évités dans l'indexation, mais pourront être utilisés ultérieurement pour exploiter exclusivement tel ou tel type de contribution sans employer rigoureusement les termes propres de la description initiale.
Les modes de présentation
Quel que soit son support, un thésaurus utilise habituellement des présentations par classement alphabétique de ses termes ; premier stade avant la présentation des relations hiérarchiques. Ainsi, l'utilisateur peut-il être dérouté dans un premier temps par l'absence d'un terme dans une liste, alors qu'une autre modalité d'usage du thésaurus lui révèlera que ce terme est bien pris en compte mais grâce à une relation d'équivalence à un terme préférentiel. Des présentations sous forme de graphes et cartes permettent des explorations plus complexes.
L'utilisation ou exploration d'un thésaurus peut se faire habituellement à l'aide de différents modes de présentation :
- Liste(s) alphabétique(s) des termes ; pour une approche globale ou la recherche d'un terme particulier ;
- Liste(s) hiérarchique(s) des termes ; pour l'approfondissement d'une notion ;
- Liste(s) d'occurrences (liste permutée) ; pour la vérification de la pertinence d'un élément d'une expression utilisée comme descripteur ;
- Automatiquement par un moteur de recherche.
On peut trouver dans ces listes, le symbole 'MT indiquant le microthésaurus dont relève le terme. Un micro thésaurus est un champ sémantique particulier qui permet de consulter lors de l'indexation d'un document tous les termes voisins.
Il existe plusieurs types de présentation[16] :
- le thésaurus hiérarchique
- le thésaurus à schémas fléchés, spécialité du Bureau Van Dijk, Belgique[17] : l’ensemble du vocabulaire est découpé en champ sémantique
mais encore :
- Thésaurus à arborescences,
- Polygones,
- Cercles circulaire .....
Le thésaurus graphique continue à se développer grâce aux interface du web et de l'informatique[18]. Les systèmes gestion électronique de documents (GED) comportent tous un module de gestion et d'exploitation intégrés de thésaurus.
Éléments optionnels d'un thésaurus
On trouve associées aux descripteurs, des définitions (cas d'homonymie), des notes assistant l'utilisateur ou l'éditeur (notices), des liens de toute nature, etc.
Annexes
Liste des Thésaurus Français
Cette liste est pour l'essentiel une reprise (non mise à jour) de la rubrique Thésaurus de l'annuaire
- Agrovoc : 4e édition de 1999. 7 versions linguistiques dont le français. Édité par la FAO (Organisation des Nations unies pour l’alimentation et l’agriculture). 16 607 descripteurs et 10 758 non descripteurs. Téléchargeable en fichier texte. Consultation en ligne.
- DADI : Répertoire de bases de données gratuites via Internet, périodiquement mis à jour. Les thésaurus sont référencés dans la rubrique Type de répertoire : Thésaurus/Classification/Taxonomie, en recherche avancée.
- Delphes : Version 2004. Domaines de l'économie et des secteurs d'activité. Édité par la Chambre de Commerce et d’industrie de Paris (CCIP, France). Environ 5 346 termes matière et 486 termes géographiques répartis dans 61 champs sémantiques. Versions PDF (gratuite) et intégrable à une application (payant).
- EDUthès : Version 2002. Édité par le Centre de documentation collégiale (Québec-Canada). Domaine de l’éducation. 1 855 descripteurs et 2 034 non descripteurs répartis dans 17 champs sémantiques. Consultable en ligne.
- ETB (European Treasury Browser): Développé en 2002 en vue de décrire des matériels pédagogiques multimédias (13 langues). Édité par European Schoolnet. Environ 1155 descripteurs incluant les noms de pays (90) et de langues (53), et 859 non-descripteurs pour le français, répartis dans 17 champs sémantiques (le champ Contenu de l’éducation est scindé en 9 sous-champs). Utilisable en ligne pour les ressources de l’ETB ou Fichiers PDF.
- Eurovoc : Version 4.2. de 2005. Version française du thésaurus multilingue (16 langues officielles) édité par l’Union européenne (UE). Couvre tous les domaines de l'activité de l’UE ; utilisé par différentes institutions de l’UE. 6501 descripteurs sont répartis dans 21 domaines et 127 microthésaurus. Consultable en ligne, ou en fichiers pdf. Gratuit.
- GEMET : Version 1 .0 de 2004 (19 langues). Édité par le Réseau européen d'information et d'observation sur l'environnement (EIONET). Environ 6 562 termes répartis selon un schéma de 3 méta-groupes/30 sous-groupes plus 5 groupes instrumentaux, et 40 thématiques. Consultable en ligne ou en fichiers PDF (gratuit).
- GéoEthno : Version de 2005. Édité par le Laboratoire d'ethnologie et de sociologie comparative (CNRS-France). Environ 15000 de noms géographiques pour l'éthnologie (géographie physique, humaine, méta-régions, positionnement) organisés suivant les 5 continents. Consultable en ligne.
- Héraclès : Thésaurus sur le sport et l'éducation physique, révisé et réactualisé trois fois par an. Développé dans le cadre de la base documentaire Héraclès élaborée par le réseau associatif national français SportDoc. 3330 descripteurs et 954 non descripteurs sont répartis dans 39 champs sémantiques. Consultable en ligne.
- JURIVOC : Version française du thésaurus juridique trilingue français/allemand/italien, mis à jour mensuellement et édité par le Tribunal fédéral suisse. Environ 9500 descripteurs et 20 000 non-descripteurs par langue, répartis dans 37 champs sémantiques. Téléchargeable et consultable en ligne.
- MeSH : Version 2005 bilingue français/anglais. Édité par la NLM (National Library of Medecine) avec la participation de l’Inserm (France). Domaine biomédical, thésaurus de la base bibliographique Medline. 22 995 descripteurs, 129 types de publications, 89 qualificatifs et 146 248 termes chimiques supplémentaires. Consultable en ligne.
- POPIN, Thésaurus multilingue de Population : 3ème édition de 1993. Edité par le CICRED. Trilingue français/anglais/espagnol. Édité par Direction du développement et de la coopération technique du Ministère des Affaires Étrangères (CICRED - France). 2368 descripteurs (588 non descripteurs en français), répartis dans 28 champs sémantiques. Fichiers pdf.
- POPLINE (POPulation information onLINE): 6ème édition de 2002. Trilingue français/anglais/espagnol. Édité par Programme d’information sur la population la population du Centre pour les programmes de communication de l'École de santé publique Johns Hopkins. 2000 termes hiérarchisés dans le champ de la planification familiale et de la population utilisé pour l’interrogation de la banque bibliographique Popline. Le fichier pdf « Mots clés. Guide de l’utilisateur », contient la liste alphabétique hiérarchisée et la liste permutée des termes.
- Thésaurus de description archivistique PRIAM : liste d'autorité établie en 1984 par le Centre des archives contemporaines de Fontainebleau pour le traitement et la description des archives produites par les organes centraux de l'État et conservées aux Archives nationales. Version actualisée 1995. Mise à jour 2011 dans le cadre du développement du nouveau système d'information des Archives nationales.
- RAMEAU : Répertoire d'autorité-matière encyclopédique et alphabétique unifié. Version juillet 2004. Équivalents en anglais. Édité par la Bibliothèque nationale de France. Parmi l'ensemble des vedettes, environ 88 462 noms communs et 46 616 noms géographiques. Consultable en ligne.
- Télémaque Injep : Thésaurus de la banque de données Télémaque, édité par l’INJEP (Institut national de la jeunesse et de l’éducation populaire, France). Domaines de la jeunesse et son environnement social, culturel et éducatif. 2 000 termes répartis en 34 domaines. Consultable en ligne, ou acquisition payante pour la version papier.
- The Astronomy thesaurus : Version 2 de janvier 1995, en 5 langues français, anglais, allemand, italien, espagnol. Édité par la Commission 5 (Documentation) de l’Union internationale d’astronomie. 1495 termes. Consultable en ligne et télédéchargeable en RTF.
- Thesaurus 12 : Version française de mars 2001 du thésaurus européen sur la promotion de la santé, en 12 langues. Édité par le NIGZ (Netherlands Institute for Health Promotion and Disease Prevention). Environ 1300 descripteurs répartis dans 10 macro-champs sémantiques. Téléchargeable en PDF ou RTF.
- Thésaurus Banane : Trilingue français/anglais/espagnol. Édité par le réseau Réseau international pour l'amélioration de la banane et de la banane plantain. 3646 termes dans ce domaine spécifique, répartis dans 20 champs thématiques. Consultable en ligne (serveur indisponible jusqu'en septembre 2005) et disponible sur le cédérom MusaDoc.
- Thésaurus Bibliodent : Banque de Données Bibliographiques Francophone en Odontostomatologie. Version 2. Coédité par l'Association Dentaire Française, le Conseil National de l'Ordre des Chirurgiens Dentistes et l'Université de Lille 2. 2 980 descripteurs et 944 non descripteurs répartis dans 12 domaines. Utilisable en ligne.
- Thésaurus BIT : 5ème édition, multilingue français, anglais, allemand, espagnol. Édité par l'Organisation internationale du Travail. 4097 descripteurs et 758 non-descripteurs en français, répartis dans 19 domaines sémantiques. Consultable en ligne.
- Thésaurus canadien d'alphabétisation : 2e édition de 1996. Bilingue français/anglais. Édité par Coalition du thésaurus canadien d'alphabétisation. 1950 descripteurs français. Consultable en ligne (depuis 2000).
- Thésaurus DAF : Edition 1998 de ce thésaurus du secteur des recherches en didactique et acquisition du français langue maternelle. Co-produit par l'Université de Montréal (Québec-Canada) et l'INRP (France). 1032 descripteurs et plus de 202 non-descripteurs répartis dans 11 domaines, accompagné d'un lexique des termes. Consultable en ligne par la rubrique Exploration.
- Thésaurus de la base FRIPES : Version de novembre 2005. Édité par le Service de documentation de l'Institut d'Etudes Politiques (I.E.P.) de Lyon (France). 2400 descripteurs y compris les listes personnalités, organisations et les mots clés géographiques. Utilisable et consultable en ligne.
- Thésaurus Espace Compétences PACA : Actualisation régulière, ce thésaurus est construit sur la base de Form'Inser et édité par Espace Compétences PACA (France). 1413 descripteurs et 330 non-descripteurs répartis dans 55 champs sémantiques. Utilisable en ligne.
- Thésaurus de l'OCDE : 5e édition de 1998, trilingue français/anglais/espagnol. Domaine du développement économique et social. 19 champs sémantiques et 125 sous-champs. Consultation en ligne.
- Thésaurus de la Cybersanté : Édition de septembre 2004. Régulièrement mis à jour. Édité par la Division de la Santé et l'Inforoute, de Santé Canada. Domaine de l'impact des technologies de l'information et des communications sur l'industrie de la santé. 112 termes répartis dans 11 domaines. Consultable en ligne.
- Thésaurus de l'AFSA : Version française du thésaurus trilingue (français, anglais, espagnol), utilisé pour la base des "Résumés des sciences aquatiques et halieutiques". Édité par la FAO. Consultable en ligne.
- Thésaurus de l'AISS : Version française de 2004 du thésaurus multilingue - français, anglais, allemand, espagnol -, édité par l'AISS (Association internationale de la sécurité sociale). 411 termes répartis dans 25 domaines, complétés par une liste de pays et régions. Sous-ensemble du Thesaurus du BIT. Consultable en ligne (payant). Test possible avant abonnement.
- Thésaurus de l'architecture : Édité par la direction de l’Architecture et du Patrimoine du Ministère de la Culture et de la Communication (France). 1135 termes répartis dans 18 champs sémantiques utiles à la dénomination des œuvres architecturales. Consultable en ligne.
- Thésaurus de l'école de la cause freudienne : Édité par l'école de la cause freudienne. Environ 2400 descripteurs organisés dans 18 champs sémantiques. Utilisable en ligne.
- Thésaurus de l'Unesco : Version française du thésaurus de l’Unesco. 8 600 termes en français. Édité par l'Unesco. Disponible en ligne et sur cédérom. Un index trilingue est également accessible sur le site University of London Computer Centre, en collaboration avec l’UNESCO[19].
- Thésaurus Statistique Canada : Mise à jour périodique, bilingue français/anglais. Édité par Statistiques Canada. 3320 descripteurs et 2131 non descripteurs, répartis dans 24 champs sémantiques. Consultable en ligne.
- Thésaurus des sujets de base du gouvernement du Canada (TSB): Édition janvier 2004, bilingue français/anglais. Édité par le Gouvernement du Canada (GDC). 2 096 descripteurs et 1 811 non-descripteurs, répartis dans 19 domaines. Consultable en ligne et disponible en PDF.
- Thésaurus du CDEI : Version française de 1999, termes traduits en anglais. Édité par l'Institut national de la santé et de la recherche médicale (INSERM). Domaine de l'éthique des sciences de la vie et de la santé et des disciplines connexes : médecine, droit, philosophie. 896 descripteurs et 432 non-descripteurs. Utilisable en ligne.
- Thésaurus du CEDIM : 6e édition du 03/1997. Édité par le Centre de documentation et d'Information Missionnaire (CEDIM-France). Environ 800 descripteurs et 685 non-descripteurs, répartis dans 39 champs sémantiques. Consultable en ligne.
- Thésaurus du Centre d'éthique médical : Édition de 2005. Bilingue français-anglais. Édité par le Centre d'éthique médical de l'Institut Catholique de Lille. 1838 descripteurs répartis dans 61 grands domaines. Consultable en ligne.
- Thésaurus du CIS : Version française du thésaurus trilingue (français, anglais, espagnol). Édité par le Centre international d'informations de sécurité et de santé au travail (CIS) de l'Organisation international du travail (OIT). Consultable en ligne[20].
- Thésaurus du CRTC : Édité par le Conseil de la radiodiffusion et des télécommunications canadiennes (CRTC) pour le traitement des décisions, avis et ordonnances. Consultable en ligne.
- Thésaurus du GLIN : Version française du thésaurus multilingue français, anglais, espagnol, portugais. Edité par le GLIN (Global Legal Information Network) regroupant 23 pays, ce thésaurus dans les domaines juridiques est hébergé par la Bibliothèque du Congrès (USA).
- Thésaurus du management : 10e édition de juin 2003. Bilingue français/anglais. Édité par l’Association des responsables des centres d’information des écoles de gestion (France). 2228 descripteurs et 1088 non-descripteurs, répartis dans 66 champs sémantiques. Payant.
- Thésaurus du vieillissement et de la santé : Édition 2004. Édité par l'Institut universitaire de gériatrie de Montréal (Canada). 4 300 descripteurs, 2 400 non-descripteurs et 5 000 termes équivalents en anglais, répartis dans 20 champs sémantiques. Sur support imprimé et cédérom. Payant.
- Thésaurus EAU : Version 2001. Édité par l’Office international de l’eau. 2 452 descripteurs (et 914 non descripteurs) répartis dans 45 champs sémantiques. Rubrique Outils documentaires/Thesaurus. Payant.
- Thésaurus ECLAS (European Commission Library Automated System): Édition de janvier 2005. Bilingue français/anglais. Mis à jour 2 à 3 fois par an. Édité par la Bibliothèque Centrale de la Commission Européenne. Domaines d'activités de l'Union Européenne. Environ 6 300 descripteurs complétés par 12 000 non-descripteurs dans d’autres langues, répartis dans 19 domaines. Consultable en ligne.
- Thésaurus Form'Inser : Édition 1999. Formation et insertion des migrants et des publics peu qualifiés. Coédité par le CLP et le GPLI. 1053 termes. Version papier.
- TEE (Thésaurus européen de l'éducation) : 4e édition de 1998, version française du thésaurus multilingue édité par Eurydice. 2953 descripteurs et 616 non-descripteurs en français répartis dans 42 champs sémantiques. Version électronique récupérable en ligne.
- Thésaurus Formation et Travail : Version de juillet 2005. Édité par le Centre de documentation sur la formation et le Travail du Conservatoire national des arts et métiers (CNAM-France). 1383 descripteurs, répartis dans 32 champs sémantiques. Utilisable en ligne.
- Thésaurus Interdoc : 4ème édition 2003. Édité par Interdoc, l’association des documentalistes de Conseils généraux (France). 8563 descripteurs et 1012 non-descripteurs répartis dans 21 domaines. Payant.
- Thésaurus international de la terminologie relative aux réfugiés : 3e édition de 2001, trilingue français/anglais/espagnol. Édité par Agence de l'ONU pour les réfugiés(UNHCR) et Forced Migration Online (FMO). 3 600 descripteurs répartis dans 28 champs sémantiques. Consultation en ligne
- Thésaurus ISOC de l’économie : Trilingue espagnol/français/anglais. Édité par le Cindoc (Centro de Información y Documentación Científica, Espagne). Exploité avec la base bibliogrpahique Ecosoc. 5 383 descripteurs (et 1 294 non descripteurs) répartis dans 13 champs sémantiques. Consultable en ligne (rubrique Búsquedas/Búsquedas por Kwoc/Francés)
- Thésaurus Méditagri : Édition de septembre 2004. Édité par l’IAM (Institut Aqronomique Méditerranéen) de Montpellier. Conçu complémentairement à Agrovoc dans les domaines politique, économique et de l’éducation. 6 106 descripteurs et non-descripteurs. Utilisable en ligne. Version imprimée.
- Thésaurus multilingue de l'Egyptologie : Version de 1996. Multilingue : français, anglais, allemand, néerlandais, italien, espagnol et portugais. Édité par Dirk van der Plas et le Centre for Computer-aided Egyptological Research (CCER). 24 069 descripteurs répartis dans 15 champs sémantiques. Consultable en ligne à la rubrique Ressources égyptologiques. Version papier payante.
- Thésaurus Nosobase : Actualisation régulière. Édité par les Centres de Coordination de la Lutte contre les Infections nosocomiales (C.CLIN – France) dans le cadre de la production de la base Nosobase dans les domaines de l’hygiène hospitalière et des infections nosocomiales. 1079 descripteurs répartis dans 22 champs sémantiques. Consultable en ligne.
- Thésaurus PACTOLS (« Peuples et cultures, Anthroponymes, Chronologie relative, Toponymes, Oeuvres, Lieux, Sujets") : Thésaurus multilingues, traduction complète pour le français, l’anglais et l’italien, mis à jour de façon constante. Édités par FRANTIQ, coopérative de Centres de recherches du CNRS, des Universités et du Ministère de la culture (France), dans le domaine des sciences de l’Antiquité. Pour le thésaurus Sujet, 4 902 descripteurs et 1209 non descripteurs sont répartis entre 40 champs sémantiques. Consultable en ligne, et téléchargeable. Gratuit.
- Thésaurus Planète : Version 2004. Édité par le Ministère de l’écologie et du développement durable (France). 4783 descripteurs et 495 non-descripteurs, répartis en 16 champs sémantiques. Payant.
- Thésaurus Santé publique : Version 3, produite par le réseau BDSP de l'Ecole Nationale de la Santé Publique (France). 57 champs sémantiques regroupent environ plus de 6 000 descripteurs et 4 800 non descripteurs. Consultable en ligne ou en fichier PDF (gratuit).
- Thésaurus Saphir - Personnes handicapées : Version de 1992, mise à jour régulièrement. Produit d'une collaboration entre l’Office des personnes handicapées du Québec (OPHQ) et le Centre technique national d’études et de recherches sur les handicaps et les inadaptations (CTNERHI-France). 3695 termes répartis dans 94 domaines spécialisés. Version électronique téléchargeable. Autre version utilisable[21].
- Thésaurus sur la Discrimination raciale : Édition de 2005. Bilingue français-anglais. Édité par le Service d’information antiracisme (ARIS – Suisse). 550 descripteurs et 100 non descripteurs. Versions PDF gratuite en ligne.
- Thésaurus sur les traitements VIH/Sida, de CATIE : 3e édition de 2003, bilingue. Éditée par le Réseau canadien d'info-traitements Sida, développé dans le cadre du portail Catie. Télédéchargeable et consultable en ligne.
- Thésaurus TESS (Travail.Emploi.Santé.Solidarité) : Produit par le réseau documentaire du Ministère des affaires sociales, du travail et de la solidarité, et du Ministère de la santé, de la famille et des personnes handicapées (France). 8 domaines thématiques, 41 champs sémantiques, pour environ 5 400 descripteurs et 1429 non descripteurs. Consultable en ligne.
- Thésaurus Toxibase : "Consommation, abus et dépendance aux substances psychoactives". Édition 2000. Bilingue français/anglais. Édité par l’association Toxibase. 1 700 descripteurs et non-descripteurs répartis dans 25 champs sémantiques. Consultable en ligne.
- Thésaurus Transport de CEMT-UIC : Édition de 1995. Version française du thésaurus multilingue (français, anglais, allemand), édité par la Conférence Européenne des Ministres des Transports (CEMT) et l'Union Internationale des Chemins de fer (UIC). 2 112 descripteurs répartis dans 12 grands domaines. Téléchargeable.
- Thésaurus UNBIS : 4e édition multilingue (français, anglais, arabe, chinois, espagnol et russe) de 2003 de "United Nations Bibliographic Information System" (UNBIS). Édité par les Nations unies. Multidisciplinaire, abordant l'ensemble des domaines d’action de l’ONU. 7 002 descripteurs et 2183 non-descripteurs répartis dans 18 grands domaines et 143 champs thématiques. Consultable en ligne. Gratuit.
- Thésaurus Urbamet : Version 2001. Bilingue français/anglais. Édité par l’Association Urbamet. 4151 descripteurs, 497 non descripteurs et 348 termes reliés par la relation associative, répartis dans 24 champs sémantiques. Consultable en ligne et édité sur cédérom.
- Thésaurus W : 3ème édition de 1997, du vocabulaire normalisé pour la description et l’indexation des archives administratives locales contemporaines. Édité par la Direction des Archives de France du Ministère de la Culture (France). 1 115 descripteurs répartis dans 11 champs sémantiques. Accessible en ligne, gratuitement en version PDF. Version papier payante
- TMES : Thésaurus multilingue européen sur le sida et l'infection à VIH. Version 2.0 en langue française de juin 1999. Edité par un groupe de centres documentaires européens spécialisés dans l’infection du VIH et du Sida. 2 000 descripteurs répartis dans 22 microthésaurus, en 7 langues. Consultable en ligne ou en fichier PDF.
Notes et références
- Guide pratique pour l’élaboration d’un thésaurus documentaire Michèle Hudon, avec la collab. de Danièle Dégez et Dominique Ménillet
- ISO 25964-1 : Thésaurus et interopérabilité avec d'autres vocabulaires -- Partie 1: Thésaurus pour la recherche documentaire (norme en cours de publication en juillet 2011.
- Jacques Chaumier, La saga IBM de l’informatique documentaire. Quelques jalons
- NCI Metathesaurus
- Exploiting a Large Thesaurus for Information Retrieval [The past thirty years in information retrieval, Journal of the American Society for Information Science Volume 38, Issue 5, Date: September 1987, Pages: 375-380 Gerard Salton sur le site de JASIST / Gerard Salton
- Bibliographie
- Thesaurus Construction and Use: A Practical Manual, Jean Aitchison, Routledge Ed, 4e édition (1er avril 2002) Marie-Thérèse Laureilhe, Le thésaurus,Son rôle, sa structure et son élaboration.Lyon, Presses de lENSB, 1981
- F.W. . Lancaster, Thesaurus construction and use : a condensed course ; 1985 (pdf) Lire sur le Web
- Voir aussi IFLA Guidelines for Multilingual Thesauri
- PACTOLS Peuples et cultures, Anthroponymes, Chronologie relative, Toponymes, Oeuvres, Lieux, Sujets Sur la base de données FRANTIQ,
- Thésaurus de l'OCDE
- Thésaurus et autres schémas de concepts : documents normatifs
- Langages documentaires et outils linguistiques. 2e partie. Normes, standards et interopérabilité, Les normes de conception, gestion et maintenance de thésaurus, Évolutions récentes et perspectives, Dominique Chichereau, Odile Contat, Danièle Dégez, Alina Deniau, Michèle Lénart, Claudine Masse, Dominique Ménillet, documentaliste sciences de l'information, Volume 44 2007/1 Lire :
- Thesauri and interoperability with other vocabularies. Part 1 : Thesauri for information retrieval (en), sur le site de l'ISO[PDF]
- Norme ANSI/NISO Z39-19:2005 [PDF]
- Voir Alan Gilchrist The thesaurus in retrieval, Londres. Aslib. 1971
- Van Slype Georges Définition des caractéristiques essentielles des thesauri Bruxelles : Bureau Marcel van Dijk, 1976.
- http://www.atd-doc.com/.../2007_dalbin_theso-informatique-n1_42-55.pdf Sylvie Dalbin, documentaliste sciences de l'information, 2007, Vol 44, N°1 Thésaurus et informatique documentaires Partenaires de toujours? [PDF]
- Thésaurus de l'Unesco
- Thésaurus du CIS
- Thésaurus Saphir - Personnes handicapées
Articles connexes
Liens externes
- Guide pratique pour l'élaboration d'un thésaurus documentaire, Michèle Hudon, avec la collaboration de Danièle Dégez et Dominique Ménillet. – Montréal : Les Éditions ASTED (diff. en France : ADBS), 2009. – 274 p. – ISBN 978-2-923563-17-6
- Actualités des langages documentaires : fondements théoriques de la recherche d'information, Jacques Maniez, ADBS Edition, 2002.
- Vocabulaires contrôlés (rubrique du site), Lectures recommandées, Bibliothèque et Archives du Canada
- Bibliographie sur les thésaurus (ressources en ligne, littérature grise) sur le portail du thésaurus Motbis.
- (fr) Site dédié au thésaurus.
Annuaires de thésaurus
- Catégorie des thésaurus en langue française accessibles sur le Web de l’annuaire dmoz
- Un Thésauro-annuaire est à la disposition de ceux qui désirent s'exercer à l'indexation avec thésaurus. Y sont consignées des références de thésaurus francophones (quelquefois multilingues) et gratuits. Ces références sont indexées avec la structure classificatoire du thésaurus Eurovoc.
- (en) TemaTres: open source thésaurus management.
Quelques thésaurus en ligne
-
Wikimedia Foundation. 2010.