Les axes de travail de la BnF dans le cadre du développement du web sémantique Journée d’étude de l’AulA sur le web sémantique Muséum national d’histoire naturelle – 27 juin 2008
Dominique Stutzmann
Le web sémantique : contexte technologique ou changement paradigmatique ? Dominique Wolton: « Dans la communication, le plus facile reste la technologie » Rôles et missions des bibliothèques et de la Bibliothèque nationale de France (Décret n° 94-3) -
« collecter » : constituer des collections conserver cataloguer communiquer : « assurer l’accès du plus grand nombre aux collections » coopérer participer à des programmes de recherche
Publics, sur place, à distance, connus et inconnus // Enjeux technologiques et financiers 27 juin 2008
Dominique Stutzmann
2
Plan • Création d’un web sémantique : exposer des données pleines de sens • Créer le sens : enrichir les données • Créer le sens : expliquer les données • Exploiter le sens ?
27 juin 2008
Dominique Stutzmann
3
Des données pleines de sens La BnF et deux conditions préalables du web sémantique : - la libération des données - Entrepôt OAI-cat http://catoai.bnf.fr/oai2/OAIHandler?verb=Identify - Entrepôt OAI-num http://oai.bnf.fr/oai2/OAIHandler?verb=Identify - DC - MPEG21 / DC et d’autres formats
27 juin 2008
Dominique Stutzmann
4
Des données pleines de sens La BnF et deux conditions préalables du web sémantique : - la libération des données - gérer la granularité : atomiser la connaissance et mettre en ligne des données indexables
27 juin 2008
Dominique Stutzmann
5
http://www.flickr.com/photos/9128293@N08/1090611697/sizes/l/
27 juin 2008
Dominique Stutzmann
http://www.flickr.com/photos/9128293@N08/1090611697/sizes/l/
6
Et rose elle a vécu ce que vivent les roses, L'espace d'un matin. Puis quand ainsi serait que selon ta prière, Elle auroit obtenu D'avoir en cheveux blancs terminé sa carriere, Qu'en fust-il advenu ?
27 juin 2008
Dominique Stutzmann
7
Enrichir les données - Fouille des données (exploration des données, extraction de connaissances, en anglais data mining) - Reconnaissance d’entités nommées : extraction - Catégorisation (indexation automatique, clustering) - Géolocalisation
27 juin 2008
Dominique Stutzmann
8
27 juin 2008
Dominique Stutzmann
9
Expliquer les données - Exploiter nos référentiels à l’usage d’un web sémantique ? - Rendre les référentiels interopérables ? Les aligner ? Manuellement ou automatiquement ?
27 juin 2008
Dominique Stutzmann
10
Expliquer les données - Exploiter nos référentiels à l’usage d’un web sémantique ? - Rendre les référentiels interopérables ? Les aligner ? Manuellement ou automatiquement ?
Bibliothèque Nationale Suisse, Bibliothèque nationale de France (BnF), The British Library (BL) and Deutsche Nationalbibliothek (DNB) sous les auspices de la CENL
STITCH : Semantic Interoperability To access Cultural Heritage (Koninklijke Bilbiotheek et Bibliothèque nationale de France) CATCH : Continuous Access To Cultural Heritage 27 juin 2008
Dominique Stutzmann
11
Expliquer les données - Exploiter nos référentiels à l’usage d’un web sémantique ? - Rendre les référentiels interopérables ? Les aligner ? Manuellement ou automatiquement ?
VIAF est un projet conjoint de la Library of Congress (LC), de la Deutsche Nationalbibliothek (DNB), de la Bibliothèque nationale de France et d'OCLC. L'objectif du projet est d'apparier et d'établir des liens entre les fichiers d'autorité des bibliothèques.
27 juin 2008
Dominique Stutzmann
12
Expliquer les données - Exploiter nos référentiels à l’usage d’un web sémantique ? - Rendre les référentiels interopérables ? Les aligner ? Manuellement ou automatiquement ? - Libérer les référentiels ?
27 juin 2008
Dominique Stutzmann
13
Expliquer les données : des référentiels et des liens CONCEPT : terme préféré
CONCEPT : terme alternatif
CONCEPT : « narrower »
27 juin 2008
Dominique Stutzmann
14
Expliquer les données : des référentiels et des liens
CONCEPT : terme préféré LIENS
CONCEPT : terme alternatif
27 juin 2008
Dominique Stutzmann
15
Expliquer les données, des référentiels et des formats : OWL & SKOS • OWL (Web Ontology Language) – Langage pour décrire des ontologies de la toile – OWL permet de décrire les relations entre des classes, des sous-classes et des propriétés •
SKOS (Simple Knowledge Organisation System)
– Système simple d’organisation des connaissances – SKOS permet d’organiser les rapports entre concepts 27 juin 2008 Dominique Stutzmann 16
27 juin 2008
Dominique Stutzmann
17
27 juin 2008
Dominique Stutzmann
18
27 juin 2008
Dominique Stutzmann
19
Exploiter le sens : RDF et FRBR RDF (Ressource Description Framework) : Cadre de description d’une ressource : - Modélisation générale : vide de forme, vide de contenu - Triplets : ressource (sujet), prédicat (relation), valeur (description)
27 juin 2008
Dominique Stutzmann
20
Exploiter le sens : arbre, graphes et constellations Figure 1 - Modèle de l’arbre :
Figure 2 - Modèle du graphe :
Oeuvre : Les Misérables
Catalogue est une expression de
Ressource : corpus littérature française Notice : Les Misérables
fait partie de
Notice : Victor Hugo Ressource : Les Misérables a pour auteur Lien explicite (item)
Titre a pour titre
Auteur : Victor Hugo
Corpus : littérature Valeur : « Les Misérablesfrançaise »
a pour auteur
titre
dates
Ressource : Hugo, Victor bio
…
Ressource (doc. numérisé)
27 juin 2008
Notice : portrait de V. Hugo Ressource : Portrait de V. Hugo (Banque d’images)
auteur
a pour sujet
Lien implicite
est équivalent à
Sujet : Victor Ressource : Victor Hugo Hugo d’images) (Banque Ressource (doc. numérisé)
Dominique Stutzmann
21
Exploiter le sens : souplesse d’interrogation, souplesse de réponse Œuvre (tic)
saint louis Nom de personne Nom géographique
Louis IX
Œuvre sur
27 juin 2008
Saint-Louis, Victor
Nom de collectivité
Œuvre de
Dominique Stutzmann
22
Exploiter le sens : souplesse d’interrogation, souplesse de réponse
27 juin 2008
Dominique Stutzmann
23
Exploiter le sens : insertion dans une industrie de la connaissance • Travail sur les moteurs sémantiques • Recherches sur les accès multilingues (implication française dans TELplus : état de l’art des moteurs sémantiques ; définition des besoins pour améliorer les accès d’une bibliothèque numérique) 27 juin 2008
Dominique Stutzmann
24
Exploiter le sens : insertion dans une industrie de la connaissance
27 juin 2008
Dominique Stutzmann
25
Exploiter le sens : insertion dans une industrie de la connaissance
27 juin 2008
Dominique Stutzmann
26
Exploiter le sens : insertion dans une industrie de la connaissance • Travail sur les moteurs sémantiques • Recherches sur les accès multilingues • Et les droits de propriété intellectuelle ? Le positionnement des bibliothèques entre une logique commerciale et la déontologie de l’espace public 27 juin 2008
Dominique Stutzmann
27