Articles taggés valorisation des collections
Le Conservatoire national de la presse d’Amiens

Photo Milner Moshe, GPO. http://www.flickr.com/people/69061470@N05 [CC BY-SA 3.0, via Wikimedia Commons]
Le nouveau Pôle de conservation de la Bibliothèque nationale de France a été évoqué notamment lors des Journées du patrimoine écrit à Rouen en juin dernier. Faisons le point sur la double mission de ce projet ambitieux qui devrait ouvrir ses portes en 2028, prochainement en construction à Amiens pour un coût entre 70 et 90 millions d’euros.
Le nouveau pôle de la BnF regroupant Conservatoire national de la Presse et centre de conservation pour ses collections répond aux problématiques de saturation des espaces au sein des bâtiments existants de la BnF, avec notamment la création de magasins de collections hautement technologiques, indispensables à la préservation des documents les plus fragiles, et particulièrement à la collection de presse qui sera au cœur du projet. Il devrait permettre d’accélérer la numérisation de ces fonds majeurs et de faciliter leur consultation et leur rayonnement.
Le projet d’Amiens Métropole a été choisi parmi 72 candidatures pour ses atouts géographiques et la cohérence du projet : soutien logistique et financier de la Métropole pour la construction, aide à l’installation pour les personnels de la BnF, etc. Par ailleurs, il intègre une proposition culturelle ambitieuse s’articulant autour de la création d’un Centre d’Interprétation de la Presse, en lien avec le réseau des Bibliothèques d’Amiens Métropole, et de la promotion de la filière « Arts visuels », dans une approche transversale et originale de la valorisation de la presse écrite.
Nous ne manquerons pas de vous tenir au courant de l’avancée de ce projet majeur pour la conservation et la valorisation de la presse.
Les Journées du Patrimoine Écrit 2022 (Rouen)
Les Journées du Patrimoine Écrit se sont tenues cette année à Rouen les 23 et 24 juin.
Retrouvez ici l’enregistrement de la journée du 23 juin, plus particulièrement consacrée à des thématiques liées aux périodiques.
Les thèmes abordés au cours de cette journée :
– le site Presse Locale Ancienne (début de la vidéo),
– le réseau Sudoc-PS et l’outil Périscope (0:14:30),
– les nouveaux partenariats et circuits de signalement des périodiques (0:29:30),
– coordination des programmes de numérisation de corpus de presse, les projets de coordination de type Plans de conservation partagée (2:45:00)
– présentation du futur Pôle de conservation de la BnF à Amiens : centre de conservation et Conservatoire National de la Presse (4:46:56)
La journée du 24 juin a été l’occasion d’évoquer des fonds littéraires conservés dans des bibliothèques normandes, ainsi que des thématiques de conservation. Vous retrouverez dans l’enregistrement vidéo de la journée :
– 2 interventions autour de la valorisation du patrimoine littéraire : musées et littérature, comment exposer la littérature (0:11:00) ; valoriser les archives littéraires (01:56:00)
– les plans d’urgence en bibliothèque : sauvegarde des collections, conditions de conservation, réagir en cas de sinistre (4:38:50)
La presse ancienne à l’honneur à Rouen
Nous attirons l’attention des membres du réseau sur les conférences des Journées du patrimoine écrit 2022 qui se tiendront les 23 et 24 juin à Rouen. Elles seront retransmises en ligne sur la chaîne YouTube de Normandie Livre & Lecture, Agence de coopération des métiers du livre en Normandie (où elles seront probablement visibles également ultérieurement).
En effet la journée du jeudi 23 juin, Numériser, valoriser et conserver la presse ancienne, entre en résonance avec les différentes thématiques que nous avons abordé ces dernières années autour de la presse locale ancienne.
Nous vous invitons à suivre notamment :
♦ 11h – 12h30 : Les enjeux juridiques et le signalement de la presse ancienne : des préalables indispensables à la numérisation
⇒ Le cadre juridique régissant la numérisation de la presse, exposé par David Pouchard, adjoint à la cheffe du bureau de la propriété intellectuelle (Service des affaires juridiques et internationales, ministère de la Culture)
⇒ Table ronde sur le signalement de la presse (enjeux autour du catalogue collectif national des publications en série SUDOC PS ; le portail « Presse locale ancienne »)
♦ 14 h – 16h : Numériser les collections de presse : comment coordonner les différents programmes nationaux et locaux ?
⇒ Table ronde sur la coordination des programmes de numérisation nationaux et locaux et la diffusion numérique de la presse ancienne
♦ 16 h – 17h30 : Quel avenir pour la conservation physique des collections de presse ?
⇒ Table ronde sur le projet de centre de conservation de la BnF à Amiens et les plans de conservation partagée
Retrouvez le programme détaillé des 2 journées ici : https://www.eventbrite.fr/e/billets-journees-du-patrimoine-ecrit-2022-319314828247
Application Unicas / Presse locale ancienne : grosse actu ! (5/5)
Car il faut bien l’avouer, depuis sa présentation lors de la 7ème journée annuelle du réseau et sa mise en production dans la foulée, l’application était un peu restée « dans son jus » : pas totalement finalisée dans sa partie documentation, soumise à quelques bugs techniques sur les visualisations en graphe, un code source indisponible etc…
Cela ne nous a pas empêché de l’utiliser, comme prévu, en tant que base de travail pour l’amélioration de la qualité des métadonnées durant les 4 derniers mois de 2020 (comme décrit dans ce précédent billet), mais une petite remise à niveau s’imposait tout de même.
Outre les améliorations portant sur l’architecture de l’application elle-même, l’interface web présente elle aussi quelques mises à jour ayant pour but d’améliorer l’expérience des utilisateurs :
- sur les vues spécifiques dédiées aux unicas et aux titres de presse locale ancienne, les métadonnées se présentent désormais sous forme de tableaux web avec les principales fonctionnalités nécessaires à leur manipulation : des tris par colonne en cliquant leurs entêtes, des filtres par colonne sur la base d’opérateurs textuels ou par valeurs uniques, un moteur de recherche global tous champs, une fonctionnalité de regroupement par ligne (donc notice) selon un critère commun, la possibilité d’export Excel etc…
- le changement de librairie graphique pour les visualisations en réseau a permis de stabiliser la page dédiée et d’améliorer la lisibilité des graphes produits, permettant au passage d’afficher des vues intéressantes sur les collections du CR, par exemple cette visualisation des localisations de titres de presse locale conservés (et souvent co-conservés sur plusieurs bibliothèques).
- Côté documentation enfin, notamment pour expliciter les modalités de redistribution par API des données stockées dans la base de données en graphe et faciliter leur éventuelle réutilisation dans d’autres contextes ou applications, cette nouvelle page a été ajoutée, qui décrit la structures et fonctions de l’API selon un standard Open source très largement connu et utilisé par les développeurs.
Concernant le code de l’application proprement dit, sa mise à disposition en open source était une spécification incontournable pour nous dès le début, à la fois par philosophie et pour tous les avantages induits par l’ouverture des codes (relecture, processus collectif d’amélioration, réutilisations… ). L’Abes s’étant de son côté lancé depuis plusieurs mois dans une politique de développement (au sens informatique du terme) centrée entre autres sur la mise en open source de leurs codes et l’impulsion d’une dynamique de co-construction avec les membres du réseau Sudoc, il nous est donc apparu naturel de libérer le code source de l’application en le déposant sur l’espace Github de l’Abes, le rendant accessible dans une version documentée ici : https://github.com/abes-esr/sudocps-graph-app. En accord avec l’Abes, nous avons d’ailleurs accompagné ce dépôt par la publication d’un billet sur Punktokomo, le blog technique créé et maintenu par l’Abes.
Enfin, en bonne place parmi les objectifs nous ayant guidé(e)s pour la réalisation et le développement de l’application, et en corollaire du point précédent, se trouve également la possibilité pour les autres Centres du réseau Sudoc-PS de reprendre à leur compte autant le workflow d’alimentation de la base de données que le code informatique de l’application, afin de pouvoir relativement facilement déployer leur propre version basée sur les données de leur périmètre. Et effectivement, le CR voisin PACA/AIx-Marseille, emmené par notre collègue du SCD de l’AMU Axelle Clarisse, nous a récemment contacté en ce sens, aboutissant dans une première étape à la mise en ligne d’un prototype exploitant les unicas et les titres de presse locale du CR Sudoc-PS marseillais, utile de leur côté afin d’avoir un premier aperçu de leurs données sans avoir à se lancer dans une procédure d’installation en dur, et indispensable pour nous afin de nous permettre de vérifier et ajuster la reproductibilité du dispositif.
Et puis dans la région PACA, Nice et Marseille qui collaborent, c’est assez remarquable pour être remarqué !
L’Exprimante, le distributeur de presse ancienne
Vous cherchez des idées nouvelles pour mettre en valeur vos collections et intriguer de nouveaux publics ? L’Exprimante est peut-être pour vous !
Il s’agit d’un distributeur qui délivre sous forme de tickets, de manière aléatoire, des articles parus dans l’un des 60 titres numérisés disponibles sur Lectura Plus (portail du patrimoine écrit et graphique en Auvergne-Rhône-Alpes) et publiés de 1807 à 1945 : du fait divers à la petite annonce, en passant par la vie politique, les loisirs, et la publicité, c’est l’occasion d’ouvrir une petite fenêtre éphémère sur le quotidien de l’époque.
Un court teaser est disponible sur YouTube pour présenter ce distributeur ludique et interactif.
Le dispositif peut intéresser des établissements accueillant des publics très divers. Si comme nous vous êtes intrigué·e par cette nouvelle machine, rendez-vous le 11 mai 2021 de 14h à 16h30 pour une rencontre professionnelle De la presse ancienne à l’éducation aux médias, accessible en ligne, et durant laquelle l’Exprimante sera présentée en détail. Programme et inscription gratuite ici.
Sachez que les plans de fabrication, la liste du matériel nécessaire ainsi que le code informatique seront prochainement accessibles (en licence Creative Commons CC BY-NC-SA) pour permettre à tout établissement qui le souhaite de fabriquer, avec un FabLab par exemple, son propre distributeur (disponible ici après la présentation du 11 mai).
On en profite pour découvrir le magnifique portail Lectura Plus, créé en 2017 pour mettre en valeur les collections numérisées en Auvergne-Rhône-Alpes. Très riche et documenté, il donne accès à des fonds patrimoniaux, de la presse ancienne, des collections de photographies, mais aussi du patrimoine sonore (légendes et récits, chants traditionnels).
Joconde : les collections d’objets des musées français révélées
Dans un billet précédent nous avions évoqué l’existence de la base nationale Joconde. Nous avons souhaité lui consacrer un billet de présentation spécifique étant donné son intérêt et sa richesse.
Joconde est le catalogue collectif des collections des musées de France, librement accessible sur internet. On y trouve à ce jour environ 600 000 notices d’objets, le plus souvent illustrées par une ou plusieurs images. Ces notices proviennent de près de 300 musées français qui les enrichissent et les actualisent en permanence.
Les objets décrits proviennent de collections d’archéologie, beaux-arts, arts décoratifs, ethnologie (européenne et extra-européenne), histoire, ou encore sciences et techniques. Les objets sont de nature très diverse : sculptures, outils, peintures, objets, dessins, céramiques, estampes, costumes…
Plusieurs modes de recherche sont proposés :
* la recherche simple : de type « moteur de recherche », en tapant un mot ou un groupe de mots. Les résultats peuvent être affinés par des facettes.
* la recherche par listes : en cliquant sur le terme qui vous intéresse au sein d’une liste alphabétique.
* la recherche avancée : permet de combiner plusieurs critères de recherche (auteur, domaine, date de création, lieu de conservation…)
Des parcours thématiques, des zooms et des expositions virtuelles complètent les modes de valorisation des collections.
A noter également : une section Espace professionnel qui, comme son nom l’indique, regroupe une documentation autour de questions purement professionnelles telles que la description des objets à l’aide d’un thésaurus, la numérisation des collections, l’informatisation d’un inventaire ou d’un récolement, etc.
Depuis 2019 Joconde verse ses notices dans POP (Plateforme ouverte du patrimoine), vaste recensement du patrimoine français sous toutes ses formes, alimentée par différentes bases. Ainsi, c’est désormais l’interface de recherche de POP qui est utilisée pour les modes de recherche Simple et Avancée.
Retour sur la 7e Journée annuelle du Sudoc-PS Paca/Nice (novembre 2019)
La 7e Journée annuelle du Centre du Réseau Sudoc-PS PACA/Nice s’est déroulée le mardi 5 novembre dernier. Nous étions reçus par la Bibliothèque du Chevalier de Cessole, installée dans les locaux du Musée Masséna à Nice. Toute l’équipe sur place s’est fortement mobilisée pour organiser l’accueil des membres du réseau et nous faire découvrir ce lieu magnifique.
La bibliothèque du Chevalier de Cessole étant particulièrement riche en unicas et presse locale ancienne, les collègues ont partagé leur expérience de traitement et de valorisation de ces fonds précieux. Retrouvez ici leur présentation des collections de périodiques et leur travail de recensement. Elles repèrent également les titres qui pourraient faire l’objet d’une numérisation, par exemple la revue Mediterranea. Cette belle revue a été plus spécifiquement présentée par notre collègue Dominique Laredo (SCD de Nice) qui a publié à ce sujet un article accessible en ligne.
L’application Unicas/Presse locale ancienne, développée par notre collègue Géraldine Geoffroy et le Centre du Réseau Sudoc-PS, a été dévoilée aux participants. Cet outil de visualisation et d’amélioration des données de signalement est désormais accessible en ligne. Une page dédiée sur notre blog résume toutes les informations la concernant. Retrouvez aussi ici la présentation de Géraldine Geoffroy sur la genèse de l’appli et son fonctionnement.
Les participants ont pu manipuler ce nouvel outil d’exploration des données au cours d’un atelier. Nous en avons profité pour noter les suggestions d’améliorations, toujours les bienvenues (n’hésitez pas à nous contacter par mail).
Au cours de la journée, les participants ont également bénéficié de 2 visites guidées pour découvrir les trésors de la bibliothèque du Chevalier de Cessole, ainsi que les collections permanentes du Musée Masséna qui l’héberge.
Notre enquête de satisfaction est toujours accessible en ligne. Merci à celles/ceux qui l’ont déjà complétée pour vos commentaires utiles et positifs, et vos souhaits de thématiques à aborder pour une prochaine Journée Sudoc-PS.
Toute l’équipe du Centre du Réseau Sudoc-PS Paca/Nice remercie les collègues qui nous ont accueillis si chaleureusement. La journée a rassemblé 62 participants venus de 30 établissements des Alpes-Maritimes, du Var et de Monaco. Nous espérons vous retrouver tout aussi nombreux lors de notre prochaine édition en 2020 !
L’application Unicas / Presse locale ancienne est désormais accessible
L’application Unicas/Presse locale ancienne a été dévoilée lors de la 7e Journée du réseau Sudoc-PS Paca/Nice.
Pour faciliter son accès et son utilisation, nous lui avons consacré une page spécifique sur notre blog, à côté des autres outils Colodus et Cidemis. Vous pouvez dès à présent la consulter.
Développée en interne, cette application permet d’explorer directement les données des collections de périodiques du Centre du Réseau Sudoc-PS PACA/Nice.
Elle a plusieurs finalités :
- Valoriser les collections anciennes et/ou rares des bibliothèques du CR
- Permettre aux établissements du réseau de lister leurs unicas (= les titres conservés dans un seul établissement)
- Rechercher facilement les titres de presse locale ancienne conservés dans les centres documentaires appartenant au CR
- Améliorer la qualité des données de ces collections spécifiques, en donnant à voir les manques dans les notices bibliographiques (absence d’ISSN, notamment)
- Exporter les données sous forme de tableaux Excel
- Visualiser les liens entre les bibliothèques et les collections sous forme de graphes
Enfin, des liens cliquables permettent de rebondir sur le catalogue national Sudoc, sur le site Presse locale ancienne de la BnF ou de renvoyer vers des numérisations existantes.
Suite à l’atelier de manipulation de la Journée du réseau, nous allons travailler à intégrer les améliorations suggérées.
Bonne exploration !
Pour aller plus loin : billets techniques ou « comment s’est construit l’application » :
- Mission : enrichir et faire parler les données du CR (1/5)
- Enrichir et faire parler les données du CR (2/5) : focus sur les unicas
- 3/5 : Enrichir et faire parler les données du CR : la première brique est posée !
- Enrichir et faire parler les données du CR (4/5) : passage par la case modélisation
Mir@bel
Le réseau Mir@bel
Créé en France en 2009 par des professionnels des bibliothèques et de la documentation, Mir@bel (pour « Mutualisation d’informations sur les revues et leurs accès dans les bases en ligne ») a pour vocation de valoriser les contenus de périodiques scientifiques accessibles en ligne gratuitement, principalement en SHS. Pour chaque revue, Mir@bel propose des liens vers le texte intégral en ligne, les sommaires, les résumés ou l’indexation des articles et vous permet de rebondir sur de nombreux sites complémentaires.
Projet vivant, évolutif, mêlant veille documentaire partagée et récupération automatique à la source, ce corpus de revues évolue également, à l’image du réseau. Il recense à ce jour plus de 6000 revues. Les modes de recherche classiques sont proposés, mais aussi thématiques par discipline, chronologie, ou géographie.
Projet collaboratif
Un réseau d’institutions partenaires assure la veille collaborative et le traitement des données sur les revues. Les partenaires formalisent leur engagement dans le réseau en signant une Convention de partenariat. Le réseau Mir@bel souhaite poursuivre son développement et accroître le nombre de revues répertoriées en s’ouvrant à de nouveaux partenaires en France et dans le monde (appel à partenariat).
Dès les débuts de Mir@bel, des partenariats ont également été mis en place avec les principaux portails de revues francophones en sciences humaines et sociales. Par ailleurs, depuis 2017 des partenariats sont également proposés aux éditeurs (communiqué).
Au total, 125 professionnels de l’information interviennent directement pour mettre à jour les données de Mir@bel.
Enrichir et faire parler les données du CR (4/5) : passage par la case modélisation
Début mars 2019 s’est tenu à Berlin un Workshop du W3C autour de la structuration des données en graphe et de leur intégration dans le web. Présentée ainsi, la problématique paraît triviale puisque le W3C est justement l’organisme qui gère et promeut ce qu’on appelle le web de données, c’est-à dire l’adoption des standards de la modélisation en RDF (qui est par nature un graphe) pour « pousser », lier et ouvrir les données sur le web. En fait, ce Workshop est le résultat d’un constat : d’une part il y a les modélisations de type web de données donc, avec leurs univers de données identifiées par des URIs sémantiquement décrites et connectées entre elles grâce à des ontologies (et il est vrai que le Linked Open Data Cloud ne cesse de s’étendre), mais à côté on constate également l’utilisation croissante par des acteurs divers et variés (économiques, institutionnels…) de bases de données non-relationnelles dites orientées graphe dans des logiques de curation et visualisation de données décorrélées des problématiques du web.
De quoi s’agit-il ? Il s’agit de structurer ses données comme un ensemble de noeuds (dotés d’attributs sous forme de paires clé-valeur pour les décrire) liés entre eux par des relations (elles-mêmes qualifiées par d’autres attributs) , tout en étant complètement libre dans la détermination des entités, du type de leurs liens et de la nature de leurs propriétés*. Ces modélisations dites de type property graph, jugées à l’usage très performantes pour traiter des masses exponentiellement croissantes de données plus ou moins structurées (le fameux Big Data, qui s’ouvre désormais aux objets connectés !), répondent donc à un besoin auquel la modélisation type RDF répond mal :
- de la flexibilité et de la souplesse dans la création et l’annotation des entités et de leurs connexions,
- un stockage des données de ce fait optimisé par des graphes beaucoup moins verbeux,
- des langages d’interrogation spécifiques à chaque base de données mais relativement simples (toujours plus simples que du SPARQL de toute façon !) et très puissants pour parcourir des chemins dans le graphe.
On comprend donc mieux la teneur du Workshop qui visait en fait à établir des ponts entre deux technologies, l’une dédiée à l’ouverture et l’échange de données, l’autre au stockage et à la navigation dans les données, mais utilisant toutes deux des modélisations en graphe (en sous-texte, « ça sent le roussi » pour le RDF qui pour x raisons reste une technologie de niche, tandis que parallèlement se développe le property graph pour des raisons de pragmatisme et d’efficience).
Pour donner une idée de la diversité des cas d’usages où l’approche property graph se révèle pertinente, on peut mentionner le Consortium International des Journalistes d’Investigation qui a travaillé sur les Panama papers en recourant à une base de données orientée graphe, et ce dans une démarche heuristique pour mettre à jour les connexions dans les 11,5 millions de documents non-structurés qui avaient fuités. Pour ceux que cela interesse, une brève news ici et un billet plus complet ici
Et donc ??? Pourquoi cette loooongue introduction et quel est le rapport avec l’application sur les données de périodiques du CR dont on vous parle depuis 3 billets maintenant (sachant qu’à l’échelle du CR on ne se trouve pas vraiment des problématiques de Big Data) ?
Le lien se trouve dans la modélisation : nous en étions à la fin du billet précédent sur une mini app en tant que preuve de concept sur les données des unicas, il s’agit maintenant de passer à l’échelle sur l’ensemble des données d’unicas et de presse locale au niveau du CR, et de construire les traitements de données au coeur de l’application, afin de créer et automatiser les workflows qui permettront de passer de listing de données issus du Sudoc et du catalogue général de la BnF à une interface web où chaque bibliothèque du réseau pourra visualiser et interroger ses collections, et disposer des métadonnées. La difficulté de l’exercice tient alors à la variabilité des périmètres (CR/RCR) et la multiplicité des sources d’enrichissement des données. En effet, si les trois sources primaires sont bien identifiées et (manuellement mais) facilement récupérables :
- une liste de ppn de tous les unicas de toutes les bibliothèques du CR -> récupérés à partir de Self Sudoc,
- une liste des identifiants ark de tous les titres de presse locale ancienne sur les deux départements Alpes-Maritimes et Var + Monaco référencés sur le site http://presselocaleancienne.bnf.fr/accueil -> récupérés à partir de la fonction d’export en csv par lots du catalogue général de la BnF (voici par exemple un lien profond permettant d’isoler ces titres pour les Alpes-Maritimes : https://catalogue.bnf.fr/search.do?mots1=ALL;2;0;devenu&mots0=GES;-1;0;bipfpig06&&pageRech=rav),
- une liste les bibliothèques de l’ILN 230 du CR -> issue du web service iln2rcr.
Il faut ensuite requêter plusieurs services d’exposition des données mis à disposition par l’Abes et la BnF pour construire le corpus de métadonnées (ce billet précédent détaille par exemple une méthode d’interrogation de web services et de traitement des résultats dans Excel pour les unicas *)
*A noter qu’entre temps un nouveau web service a été mis en place par l’Abes qui permet d’obtenir les notices complètes en Unimarc/Xml à partir de l’extension .xml ajoutée aux urls pérennes du Sudoc (par exemple https://www.sudoc.fr/156143453.xml), plutôt que les notices incomplètes exposées en RDF. A noter également que désormais les champs ISSN sont exposés dans les notices. Gros avantage enfin, outre la complétude des données bibliographiques, les données d’exemplaires sont également délivrées en fin de notice, ce qui à première vue économise des appels au web service multiwhere pour retrouver les bibliothèques localisées sous les notices. Mais à première vue seulement, car les données d’exemplaires ne contiennent « que » le rcr des bibliothèques : si l’on souhaite des données plus riches (nom et géolocalisation de l’établissement), il faut de toute façon revenir à l’API multiwhere, puisqu’il n’existe pas (à ma connaissance tout du moins) de web service permettant d’obtenir des notices RCR en Unimarc/xml à partir du numéro RCR (les accès aux web services d’Idref qui exposent les données d’autorités en Unimarc/xml se font sur la base du ppn).
Ce qui donne schématiquement si on se concentre sur le côté traitement de données :
mais qui n’est qu’une partie du schéma global du projet :
Il s’agit donc de trouver la modélisation, le stockage et le chaînage des traitements de données adéquats qui permettent de déterminer précisément le périmètre des unions et intersections entre « blocs de données » représentés par les cercles au centre du schéma, autrement dit de trouver un moyen de pouvoir répondre aux questions à la fois au niveau global du CR et particulier de chaque RCR : combien unicas ? Parmi ceux-ci quelles notices n’ont pas d’ISSN et peuvent faire l’objet d’une demande via Cidemis ? Quelle est la répartition territoriale et par bibliothèque des titres de presse ? Parmi les titres de presse concernant les AM, lesquels sont également des unicas ? Quels sont les unicas détenus par les bibliothèques monégasques pour lesquels une version numérisée est accessible ? Bref, comment NAVIGUER dans les données ?
C’est ici que l’on retrouve nos graphes : quand il s’agit de parcours dans les données, autrement dit ici de requêtes croisées entre sources distinctes, il est avantageux de sortir de la logique relationnelle de jointures entre fichiers plats et de passer à une modélisation type graphe. Ainsi, en décidant d’adopter une base de données orientée graphe (Neo4j en l’occurence) basée sur une modélisation property graph, le coeur du travail consiste à bien déterminer (et ce en fonction des questions auxquelles on veut pouvoir répondre) :
- les types d’entités à modéliser (les noeuds du graphe et leurs attributs),
- les liens entre les entités et les propriétés (caractéristiques) de ces liens,
- parmi ces connexions, celles que l’on connait de par la structure des sources de données, et celles que l’on crée dans la base de données par algorithme d’alignement entre noeuds.
Si on « recolle » à nos données Sudoc et BnF, voici ce que cela donne en substance :
– on créé des noeuds de type Bibliothèques qualifiés par des attributs de nom, RCR, latitude et longitude et des noeuds de type unicas caractérisés par quelques éléments extraits de la notice Sudoc (titre, ppn, issn, zone 309) ; ces noeuds peuvent être connectés par une relation illustrant la localisation du périodique, ce lien étant créé à partir à partir du web service multiwhere.
– On créé également des noeuds représentant les titres de presse locale définis par les métadonnées de titre, identifiant ark et issn; on définit une relation d’équivalence « same_as » avec les noeuds unicas quand l’attribut issn est le même.
– On ajoute des noeuds qui représentent les versions numérisées des titres de presse locale quand le champ correspondant est présent dans la notice Unimarc/xml renvoyée par le SRU de la BnF, et on les relie aux noeuds de type presse locale ancienne représentants les versions imprimées
[Cliquer sur l’image pour voir l’animation]
Voilà pour le modèle de données… Évidemment l’alimentation du graphe dans la base de données ne s’effectue pas manuellement, l’ensemble du workflow est automatisé (notamment pour faciliter les mises à jour et favoriser la reproductibilité du processus). La démarche est la suivante :
- on effectue un chargement initial à minima dans la base de données en important uniquement les listes de ppn d’unicas et d’ark de presse locale,
- on automatise les enrichissements (ajouts des attributs et des liens) par des requêtes aux API précédemment explicitées directement dans la base de données (grâce à une librairie de fonctions et procédures nommée Apoc intégrée comme un plugin à Neo4j). La succession des requêtes utilisées en langage Cypher est disponible sur ce Gist https://gist.github.com/gegedenice/c7e53cc4c3d65b8bc1639d4b55a90be6,
- on développe l’application au-dessus de la base de données pour proposer une interface web de visualisation et redistribuer les données du graphe par des API et des exports en Excel.
Voici un extrait du graphe final dans l’interface graphique de la base de données qui illustre exactement à quel point la dimension exploratoire est facilitée dans ce genre de visualisation et comment elle aide à mettre à jour des connexions qu’il serait extrêmement laborieux de mettre en évidence par des techniques plus classiques de jointures.
Au centre de l’image, le noeud jaune représente un unica (la Revue de Cannes), périodique également référencé comme un titre de presse locale ancienne (le noeud vert) concernant le département des Alpes-Maritimes (le noeud bleu) ayant fait l’objet d’une numérisation aux Archives municipales de Cannes (le noeud rose), mais dont la collection papier est détenue à la BM de Toulon (le noeud rouge).
Et la version web complète proposée dans l’application :
Comme prévu initialement, au-delà de la pure visualisation de parcours de graphe, l’application proposera des fonctionnalités de redistribution des données à destination des bibliothèques s’appuyant sur les traitements et appariements réalisés dans la base de données
Sous forme d’API
(avec des urls paramétrables pour spécifier le rcr voulu) |
Par export Excel | Intégration de widget
sur une page web |
![]() |
![]() |
![]() |
Quelques infos pratiques pour conclure (enfin !) en légèreté après cette avalanche de points techniques :
- l’application ouvrira en production à la rentrée universitaire 2019, elle sera présentée dans le détail lors de la prochaine journée annuelle du réseau le 5 novembre à la Bibliothèque du Chevalier de Cessole
- A la demande de l’Abes, nous l’avons déjà présentée le 27 mai 2019 à l’occasion de la journée Sudoc-PS qui se tient traditionnellement chaque année en marge des Journées Abes (programme). Le PowerPoint de notre présentation est accessible en ligne ici.
- Comme mentionné dans le billet, le code des requêtes utilisées pour alimenter le graphe est déjà disponible ici, le reste du code de l’application sera évidemment déposé en open source à l’ouverture.
* les seules conditions à remplir sont que le graphe doit être orienté et les nœuds labellisés